发明内容
本发明实施例公开了一种基于HSE的智能语义识别方法,能够对以非结构化的文本形式存在的数据进行智能化语义识别,以从中挖掘出所需的信息。
本发明实施例第一方面公开了一种基于HSE的智能语义识别方法,所述方法应用于智能语义识别系统中,所述智能语义识别系统至少包括数据预处理模块、文本分词模块、文本分类模块以及可视化展示模块,其中,所述方法包括:
所述预处理模块对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据;
所述文本分词模块对所述目标文本数据执行转换操作得到词向量,并从所述词向量中提取与所需的分词对象相匹配的分词内容;
所述文本分类模块对所述目标文本数据进行结构化处理,以及识别并提取所述目标文本数据中的多维度分类信息集合;
所述可视化展示模块展示所述文本分词模块得到的所述分词内容,和/或,展示所述文本分类模块得到的所述多维度分类信息集合;
其中,所述待处理的文本报告数据为事故事件报告数据或者审核报告数据。
作为一种可选的实施方式,在本发明实施例第一方面中,当所述待处理的文本报告数据为所述事故事件报告数据时,所述多维度分类信息集合包括事故时间信息、事故类别信息、工艺环节信息、重点装置信息、作业类型信息、风险屏障信息以及事故原因信息中的至少一种;
当所述待处理的文本报告数据为所述审核报告数据时,所述多维度分类信息集合包括单位信息、时间信息、审核主题信息、审核项信息、业务领域信息、问题性质信息、问题所属管理层级信息以及原因追溯信息中的至少一种。
作为一种可选的实施方式,在本发明实施例第一方面中,所述预处理模块对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据之前,所述方法还包括:
所述预处理模块获取操作人员选择的文本报告数据,作为待处理的文本报告数据,并识别所述待处理的文本报告数据中的异常数据;
所述预处理模块从所述待处理的文本报告数据中删除所述异常数据,并执行所述的对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据的步骤;
其中,所述异常数据至少包括所述待处理的文本报告数据中的空值数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述预处理模块从所述待处理的文本报告数据中删除所述异常数据之后,所述方法还包括:
所述预处理模块根据操作人员触发的数据定位操作,定位所述待处理的文本报告数据中的待分析的数据条目;
其中,所述预处理模块对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据,包括:
所述预处理模块对从所述待处理的文本报告数据中定位出的所述待分析的数据条目进行数据格式归一化处理,得到所需格式类型的目标文本数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述文本分词模块对所述目标文本数据执行转换操作得到词向量之后,所述方法还包括:
所述文本分词模块判断所述目标文本数据的文本类型是否为表格类型,当判断出所述目标文本数据的文本类型为所述表格类型时,提取所述目标文本数据的所有列的列标识,并输出所有所述列标识供操作人员选择;
所述文本分词模块获取操作人员从所述列标识中选择的目标列标识,并根据所述目标列标识确定分词对象。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法还包括:
所述文本分词模块统计提取到的每个所述分词内容在所述目标文本数据中出现的词频数目,并识别出现的词频数目满足预先确定出的词频数目条件的所有目标分词内容;
所述可视化展示模块生成与所有所述目标分词内容相匹配的词云图,并展示所述词云图。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述词云图中,不同词频数目范围内的目标分词内容通过不同的颜色、不同的字体、不同的大小、不同的位置以及不同的透明度中一种或多种的组合进行展示。
作为一种可选的实施方式,在本发明实施例第一方面中,所述文本分类模块对所述目标文本数据进行结构化处理,以及识别并提取所述目标文本数据中的多维度分类信息集合,包括:
所述文本分类模块加载与所述目标文本数据相匹配的文本分类机器分析模型,并将所述目标文本数据输入所述文本分类机器分析模型,得到多维度分类信息集合。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法还包括:
所述文本分类模块将所述多维度分类信息集合中的信息回填至所述待处理的文本报告数据中的相应位置。
作为一种可选的实施方式,在本发明实施例第一方面中,所述文本分词模块从所述词向量中提取与所需的分词对象相匹配的分词内容,包括:
所述文本分词模块确定所述词向量的目标类型,确定与所述目标类型相匹配的分词提取方式,并以所述分词提取方式从所述词向量中提取与所需的分词对象相匹配的分词内容;其中,所述词向量的目标类型为清单类型、句子类型或短语类型。
本发明实施例第二方面公开了一种智能语义识别系统,所述智能语义识别系统用于实现本发明实施例第一方面公开的基于HSE的智能语义识别方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,预处理模块对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据;文本分词模块对目标文本数据执行转换操作得到词向量,并从词向量中提取与所需的分词对象相匹配的分词内容;文本分类模块对目标文本数据进行结构化处理,以及识别并提取目标文本数据中的多维度分类信息集合;可视化展示模块展示分词内容,和/或,展示多维度分类信息集合;其中,待处理的文本报告数据为事故事件报告数据或者审核报告数据。可见,本发明能够对以非结构化的文本形式存在的数据(待处理的文本报告数据)进行智能化语义识别,以从中挖掘出所需的信息,能够实现“动态分析,实时展示”,以充分挖掘实时生产数据隐含的风险信息为基本指导思想,从而提高系统的效率和易操作性,满足实际应用的需求,也能够对审核发现的问题进行文本识别,用机器模型代替人工对审核问题智能识别、自动分类和统计分析,减少现场审核工作量,满足管理人员分析企业缺陷以及管理决策的需求,为HSE管理精准施策和风险监测预警提供智能化支撑。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
本发明实施例公开了一种基于HSE的智能语义识别方法,能够对以非结构化的文本形式存在的数据(待处理的文本报告数据)进行智能化语义识别,以从中挖掘出所需的信息,能够实现“动态分析,实时展示”,以充分挖掘实时生产数据隐含的风险信息为基本指导思想,从而提高系统的效率和易操作性,满足实际应用的需求,也能够对审核发现的问题进行文本识别,用机器模型代替人工对审核问题智能识别、自动分类和统计分析,减少现场审核工作量,满足管理人员分析企业缺陷以及管理决策的需求,为HSE管理精准施策和风险监测预警提供智能化支撑。以下分别进行详细说明。
为了更好的理解本发明实施例公开的基于HSE的智能语义识别方法,首先对基于HSE的智能语义识别方法所适用系统架构进行说明,其中,基于HSE的智能语义识别方法所适用的系统架构可以如图1所示,图1是本发明实施例公开的一种智能语义识别系统的框架示意图。如图1所示,该智能语义识别系统可以划分为人机交互层、系统功能层、数据管理层以及数据展示层,且人机交互层可以表现为人机交互相关的装置(如人机交互界面),系统功能层可以包括数据预处理模块、文本分词模块、文本分类模块以及可视化展示模块,且系统功能层包括的这些模块的功能实现依赖于数据管理层以及数据展示层,其中,数据管理层主要包括用于实现数据预处理模块的功能的数据预处理工具、用于实现文本分词模块的功能的分词工具以及用于实现文本分类模块的功能的语义识别工具,数据展示层用于实现可视化展示模块的功能。
其中,对于基于HSE的智能语义识别方法所包括的具体步骤,以下实施例进行详细说明。
实施例一
请参阅图2,图2是本发明实施例公开的一种基于HSE的智能语义识别方法的流程示意图。其中,图2所描述的基于HSE的智能语义识别方法可以应用于智能语义识别系统中,该智能语义识别系统可以为智能语义识别服务器,也可以为智能语义识别终端,本发明实施例不做限定。如图2所示,该基于HSE的智能语义识别方法可以包括:
101、预处理模块对待处理的文本报告数据进行数据格式归一化处理,得到所需格式类型的目标文本数据。
本发明实施例中,待处理的文本报告数据可以是预先存储在智能语义识别系统对应的存储空间的,也可以是操作人员上传的,还可以是从存储有待处理的文本报告数据的云端服务器或共享存储空间下载的,本发明实施例不做限定。且当待处理的文本报告数据有多个时,预处理模块可以根据操作人员触发的选择操作确定步骤101中的待处理的文本报告数据,也可以根据默认的排列顺序由前至后确定步骤101中的待处理的文本报告数据,还可以是根据设定好的优先级由高优先级至低优先级确定步骤101中的待处理的文本报告数据,还可以是根据设定好的紧急程度由高紧急程度至低紧急程度确定步骤101中的待处理的文本报告数据,本发明实施例不做限定。需要说明的是,待处理的文本报告数据为以非结构化的文本形式存在的数据,其可以是实时采集的,也可以是离线的,当待处理的文本报告数据是实时采集的时,对实时采集的文本报告数据进行智能语义识别有利于提高智能语义识别的实时性。
可见,本发明实施例能够提供多种待处理的文本报告数据的确定方式,有利于提高智能语义识别系统的灵活性。
本发明实施例中,在确定出待处理的文本报告数据之后,预处理模块对待处理的文本报告数据处理执行数据格式归一化处理,得到所需格式类型的目标文本数据,其中,所需的格式类型为智能语义识别系统所能够识别与处理的格式类型。这样在对待处理的文本报告数据进行语义识别之前先对其进预处理,以将待处理的文本报告数据处理成智能语义系统所能够识别与处理的格式类型,有利于提高智能语义识别系统进行后续操作的准确性与效率。
102、文本分词模块对目标文本数据执行转换操作得到词向量,并从词向量中提取与所需的分词对象相匹配的分词内容。
本发明实施例中,所需的分词对象可以是由操作人员选择或指定的。可选的,文本分词模块对目标文本数据执行转换操作得到词向量可以具体为:通过标点字符识别方式,将目标文本数据划分成多个按照先后顺序排列的句子;识别每个句子中具有固定含义的第一类短句以及具有至少两个含义的第二类短句,并将所有第一类短句以及第二类短句作为词向量。进一步可选的,文本分词模块从词向量中提取与所需的分词对象相匹配的分词内容,可以包括:
根据上述待处理的文本报告数据的类型以及数据来源,确定上述待处理的文本报告数据对应的应用场景,根据该应用场景从第二类短句包括的多个含义中确定与该应用场景匹配度最高的其中一个含义,以实现第二类短句向第一类短句的转换;
提取第一类短句中所有词或词语并分析其与该应用场景相配的词性,并结合提取的词或词语与该应用场景相配的词性以及每个词或词语的含义,从每个第一类短句中提取与所需的分词对象相匹配的分词内容。
可见,本发明实施例能够通过“由整化零”的方式实现分词内容的提取,且在提取的过程当中,还需结合实际的应用场景或需求进行提取操作,提高了提取出的分词内容的准确性与完整性。
103、文本分类模块对目标文本数据进行结构化处理,以及识别并提取目标文本数据中的多维度分类信息集合。
104、可视化展示模块展示文本分词模块得到的分词内容,和/或,展示文本分类模块得到的多维度分类信息集合。
其中,上述待处理的文本报告数据为事故事件报告数据或者审核报告数据。本发明实施例中,可视化展示模块可以通过与分词内容相匹配的展示方式展示文本分词模块得到的分词内容,以及通过与多维度分类信息集合相匹配的展示方式展示多维度分类信息集合。且在展示分词内容或者多维度分类信息集合时,对于特定的内容,可视化展示模块可以通过设定的展示形式着重展示该特定的内容。举例来说,以事故事件报告数据来说,对于从事故事件报告数据中提取的事故直接原因和/或事故间接原因进行标注显示。
需要说明的是,在基于HSE的智能语义识别方法中,文本分词模块及文本分类模块可以同时工作,也可以只有其中一个模块工作,且文本分词模块及文本分类模块同时工作时,文本分词模块执行的步骤以及文本分类模块执行的步骤没有先后顺序,且文本分词模块及文本分类模块是否工作以及执行步骤时的先后顺序可以由操作人员根据实际的操作需求来确定。
可选的,当上述待处理的文本报告数据为事故事件报告数据时,多维度分类信息集合包括事故时间信息、事故类别信息、工艺环节信息、重点装置信息、作业类型信息、风险屏障信息以及事故原因信息中的至少一种;当待处理的文本报告数据为审核报告数据时,多维度分类信息集合包括单位信息、时间信息、审核主题信息、审核项信息、业务领域信息、问题性质信息、问题所属管理层级信息以及原因追溯信息中的至少一种。
在一个可选的实施例中,文本分类模块对目标文本数据进行结构化处理,以及识别并提取目标文本数据中的多维度分类信息集合,可以包括:
文本分类模块加载与目标文本数据相匹配的文本分类机器分析模型,并将目标文本数据输入文本分类机器分析模型,得到多维度分类信息集合。
本发明实施例中,文本分类模块能够根据目标文本数据自适应匹配相应的文本分类机器分析模型,有利于提高文本分类的准确性与效率。
在另一个可选的实施例中,文本分词模块从词向量中提取与所需的分词对象相匹配的分词内容,可以包括:
文本分词模块确定词向量的目标类型,确定与目标类型相匹配的分词提取方式,并以分词提取方式从词向量中提取与所需的分词对象相匹配的分词内容。
其中,该词向量的目标类型为清单类型、句子类型或短语类型。
本发明实施例中,对于清单类型来说,在分词内容提取时,文本分词模块可以采用词典搭建、中文后缀树快速搜索、模糊逻辑对比等一种或多种的组合提取与所需的分词对象相匹配的分词内容;对于短句类型来说,其提取原理与清单类型相似,不同的地方在于,由于短语变化多样(如新词、缩写等),文本分词模块在提取分词内容时,需要依据预先确定出的同一个意思的不同短语表达方式(例如倒装句等)进行分词内容的提取;对于句子类型来说,在提取分词内容时,文本分词模块可以通过词袋模型并结合监督式分类模型提取分词内容。
可见,实施图1所描述的基于HSE的智能语义识别方法能够对以非结构化的文本形式存在的数据(待处理的文本报告数据)进行智能化语义识别,以从中挖掘出所需的信息,能够实现“动态分析,实时展示”,以充分挖掘实时生产数据隐含的风险信息为基本指导思想,从而提高系统的效率和易操作性,满足实际应用的需求,也能够对审核发现的问题进行文本识别,用机器模型代替人工对审核问题智能识别、自动分类和统计分析,减少现场审核工作量,满足管理人员分析企业缺陷以及管理决策的需求,为HSE管理精准施策和风险监测预警提供智能化支撑。
实施例二
请参阅图3,图3是本发明实施例公开的另一种基于HSE的智能语义识别方法的流程示意图。其中,图3所描述的基于HSE的智能语义识别方法可以应用于智能语义识别系统中,该智能语义识别系统可以为智能语义识别服务器,也可以为智能语义识别终端,本发明实施例不做限定。如图3所示,该基于HSE的智能语义识别方法可以包括:
201、预处理模块获取操作人员选择的文本报告数据,作为待处理的文本报告数据,并识别待处理的文本报告数据中的异常数据。
202、预处理模块从待处理的文本报告数据中删除异常数据。
其中,该异常数据可以包括待处理的文本报告数据中的空值数据和/或具有明显错误的错误数据,其中,具有明显错误的错误数据包括与应用场景不匹配的第一类数据和/或数值未在所允许的范围内的第二类数据,本发明实施例不做限定。这种删除异常数据的方式有利于减少对该类数据的不必要的操作,进而有利于提高智能语义识别的效率。
203、预处理模块根据操作人员触发的数据定位操作,定位待处理的文本报告数据中的待分析的数据条目。
本发明实施例中,当待处理的文本报告数据包含的内容较多时,预处理模块可以根据操作人员触发的数据定位操作快速定位出待分析的数据条目,有利于提高后续的分析效率。其中,该数据定位操作可以为关键词定位操作和/或段落定位操作和/或行列定位操作等,本发明实施例不做限定。
204、预处理模块对从待处理的文本报告数据中定位出的待分析的数据条目进行数据格式归一化处理,得到所需格式类型的目标文本数据。
205、文本分词模块对目标文本数据执行转换操作得到词向量,并从词向量中提取与所需的分词对象相匹配的分词内容。
206、文本分类模块对目标文本数据进行结构化处理,以及识别并提取目标文本数据中的多维度分类信息集合。
207、可视化展示模块展示文本分词模块得到的分词内容,和/或,展示文本分类模块得到的多维度分类信息集合。
在一个可选的实施例中,文本分词模块对目标文本数据执行转换操作得到词向量之后,该方法还可以包括以下操作:
文本分词模块判断目标文本数据的文本类型是否为表格类型,当判断出目标文本数据的文本类型为表格类型时,提取目标文本数据的所有列的列标识,并输出所有列标识供操作人员选择;
文本分词模块获取操作人员从列标识中选择的目标列标识,并根据目标列标识确定分词对象,并触发上述步骤205。
可见,对于表格类型的目标文本数据,文本分词模块可以智能化提取列标识作为分词对象集合并分词对象集合供操作人员选择所需的分析对象,有利于简化操作人员的操作,提高了分词效率和分词准确率。
在另一个可选的实施例中,文本分词模块对目标文本数据执行转换操作得到词向量,并从词向量中提取与所需的分词对象相匹配的分词内容之后,该方法还可以包括以下操作:
文本分词模块统计提取到的每个分词内容在目标文本数据中出现的词频数目,并识别出现的词频数目满足预先确定出的词频数目条件的所有目标分词内容;
可视化展示模块生成与所有目标分词内容相匹配的词云图,并展示词云图。
在该另一个可选的实施例中,进一步可选的,在该词云图中,不同词频数目范围内的目标分词内容通过不同的颜色、不同的字体、不同的大小、不同的位置以及不同的透明度中一种或多种的组合进行展示。
其中,词频数目满足预先确定出的词频数目条件可以为词频数目处于确定出的词频数目范围内,也可以是词频数目小于等于或大于等于指定的词频数目,本发明实施例不做限定。
可见,本发明实施例还能够通过个性化的词云图方式展示相应的分词内容,提高了展示内容的可读性,便于操作人员能够快速抓取所需的内容。
在又一个可选的实施例中,文本分类模块对目标文本数据进行结构化处理,以及识别并提取目标文本数据中的多维度分类信息集合,可以包括:
文本分类模块加载与目标文本数据相匹配的文本分类机器分析模型,并将目标文本数据输入文本分类机器分析模型,得到多维度分类信息集合。
在该又一种可选的实施例中,又进一步可选的,该方法还可以包括以下操作:
文本分类模块将多维度分类信息集合中的信息回填至待处理的文本报告数据中的相应位置。
进一步的,操作人员还可以下载上述分词内容、上述多维度分类信息集合以及将多维度分类信息集合中的信息回填至待处理的文本报告数据中的相应位置之后的文本报告数据。
在又一个可选的实施例中,文本分词模块从词向量中提取与所需的分词对象相匹配的分词内容,可以包括:
文本分词模块确定词向量的目标类型,确定与目标类型相匹配的分词提取方式,并以分词提取方式从词向量中提取与所需的分词对象相匹配的分词内容。
其中,词向量的目标类型为清单类型、句子类型或短语类型。
可见,实施图3所描述的方法能够对以非结构化的文本形式存在的数据(待处理的文本报告数据)进行智能化语义识别,以从中挖掘出所需的信息,能够实现“动态分析,实时展示”,以充分挖掘实时生产数据隐含的风险信息为基本指导思想,从而提高系统的效率和易操作性,满足实际应用的需求,也能够对审核发现的问题进行文本识别,用机器模型代替人工对审核问题智能识别、自动分类和统计分析,减少现场审核工作量,满足管理人员分析企业缺陷以及管理决策的需求,为HSE管理精准施策和风险监测预警提供智能化支撑。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块若以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述系统的部分或全部功能。
本领域普通技术人员可以理解上述实施例的各种系统中的全部或部分功能是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于HSE的智能语义识别方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的系统及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。