CN109614501B - 一种基于知识图谱的工业隐患规范化上报方法及系统 - Google Patents

一种基于知识图谱的工业隐患规范化上报方法及系统 Download PDF

Info

Publication number
CN109614501B
CN109614501B CN201811526783.1A CN201811526783A CN109614501B CN 109614501 B CN109614501 B CN 109614501B CN 201811526783 A CN201811526783 A CN 201811526783A CN 109614501 B CN109614501 B CN 109614501B
Authority
CN
China
Prior art keywords
hidden danger
entity
description text
knowledge graph
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811526783.1A
Other languages
English (en)
Other versions
CN109614501A (zh
Inventor
谢波
姜波
潘伟丰
王家乐
潘云
杨浩伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201811526783.1A priority Critical patent/CN109614501B/zh
Publication of CN109614501A publication Critical patent/CN109614501A/zh
Application granted granted Critical
Publication of CN109614501B publication Critical patent/CN109614501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的工业隐患规范化上报方法及系统。首先抽取隐患排查手册中的多个实体以及多个所述实体之间的语义关系;然后根据多个所述实体以及多个所述实体之间的语义关系构建出知识图谱;然后根据所述知识图谱对工作人员输入的隐患描述文本中错误的实体进行更正,对缺失的实体进行补全,并对其中匹配错误的语义关系进行更正,从而获得规范化的隐患描述文本。采用本发明方法获得的规范化隐患描述文本中不存在隐患对象指代不明、描述内容不规范或描述现象模糊等问题,工作人员根据所述规范化隐患描述文本能够清楚、明确的获得隐患发生对象、发生位置和隐患情况,从而进行有针对性的隐患排查工作,提高安全隐患排查效率。

Description

一种基于知识图谱的工业隐患规范化上报方法及系统
技术领域
本发明涉及工业生产设备隐患排查技术领域,特别是涉及一种基于知识图谱的工业隐患规范化上报方法及系统。
背景技术
随着现代化工业生产规模的扩大和工业生产效率的提升,生产安全事故给人们带来的后果也越发惨重,对工业设备的隐患排查已经成为企业安全生产的重中之重。工业生产企业已经开始对工业隐患进行层层排查,然而还是不能够根除隐患,主要是因为传统的隐患排查流程中,对隐患内容的上报不准确、不规范,造成隐患排查工作效率低下甚至无法进行。
传统的隐患排查流程中,工作人员通过勘察现场或者读取传感器数据,来获取隐患发生位置、设备以及隐患发生的具体情况,通过填写隐患描述文本实现隐患的上报,隐患描述文本会汇集成表格的方式提交到相关部门进行隐患排查。但是由于隐患描述文本是由工作人员手工填写而来,描述文本的质量很难得到统一,就会给接下来的隐患排查工作带来困难。例如对于隐患描述文本“灭火器指针红线部位需要更换”,由于缺少灭火器的地理位置信息,因此后期排查人员并不知道灭火器所处的实际位置;例如“生产设备中吊钩缺少保护条”中的“生产设备”,并没有指明发生隐患的是哪一种设备;例如“B线输送带一传动链条防护罩缺失”中的“传动链条”,由于一个设备可能出现多个传动链条,因此“传动链条”缺乏唯一性;又例如隐患描述文本“接包二楼消防通道方粉堵住,要求通道不准方粉”,该条隐患描述文本过于口语化,不利于工作人员对隐患情况进行判断。由于在排查过程中上报的描述文本内容往往会出现隐患对象指代不明、描述内容不规范、描述现象模糊等问题,这些问题大大降低了安全隐患排查消除的工作效率,从而导致企业生产效率降低甚至损害企业的切身利益。所以企业急需一种根据隐患排查手册建立的工业隐患实体识别和规范化方案,来识别和规范化相关人员上报的安全隐患排查内容,提升排除安全隐患的工作效率。
发明内容
本发明的目的是提供一种基于知识图谱的工业隐患规范化上报方法及系统,以解决目前工业隐患排查过程中隐患上报内容不清楚、不准确、不规范的问题。
为实现上述目的,本发明提供了如下方案:
一种基于知识图谱的工业隐患规范化上报方法,所述方法包括:
获取隐患排查手册;
抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系;多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系;
根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱;
获取用户当前输入的隐患描述文本;
根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本;
根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本;
根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本;
将所述规范化隐患描述文本进行上报。
可选的,所述抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系,具体包括:
采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储;所述规则包括规则一和规则二;
采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。
可选的,所述根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱,具体包括:
将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱;
采用开源图形数据库Neo4J对所述知识图谱进行存储。
可选的,所述根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本,具体包括:
根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,获得第一判断结果;
若所述第一判断结果为所述隐患描述文本中存在错误的实体,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本。
可选的,所述根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本,具体包括:
根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,获得第二判断结果;
若所述第二判断结果为所述更正后隐患描述文本中存在缺失的实体,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本。
一种基于知识图谱的工业隐患规范化上报系统,所述系统包括:
隐患排查手册获取模块,用于获取隐患排查手册;
实体及语义关系抽取模块,用于抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系;多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系;
知识图谱构建模块,用于根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱;
隐患描述文本获取模块,用于获取用户当前输入的隐患描述文本;
实体更正模块,用于根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本;
实体补全模块,用于根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本;
语义关系更正模块,用于根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本;
规范化隐患描述文本上报模块,用于将所述规范化隐患描述文本进行上报。
可选的,所述实体及语义关系抽取模块具体包括:
实体抽取单元,用于采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储;所述规则包括规则一和规则二;
语义关系抽取单元,用于采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。
可选的,所述知识图谱构建模块具体包括:
知识图谱构建单元,用于将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱;
知识图谱存储单元,用于采用开源图形数据库Neo4J对所述知识图谱进行存储。
可选的,所述实体更正模块具体包括:
错误实体判断单元,用于根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,获得第一判断结果;
错误实体更正单元,用于若所述第一判断结果为所述隐患描述文本中存在错误的实体,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本。
可选的,所述实体补全模块具体包括:
不足实体判断单元,用于根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,获得第二判断结果;
不足实体补全单元,用于若所述第二判断结果为所述更正后隐患描述文本中存在缺失的实体,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种基于知识图谱的工业隐患规范化上报方法及系统,首先抽取隐患排查手册中的多个实体以及多个所述实体之间的语义关系;然后根据多个所述实体以及多个所述实体之间的语义关系构建出知识图谱;然后根据所述知识图谱对工作人员输入的隐患描述文本中错误的实体进行更正,对缺失的实体进行补全,并对其中匹配错误的语义关系进行更正,从而获得规范化的隐患描述文本。采用本发明方法获得的规范化隐患描述文本中不存在隐患对象指代不明、描述内容不规范或描述现象模糊等问题,工作人员根据所述规范化隐患描述文本能够清楚、明确的获得隐患发生对象、发生位置和隐患情况,从而进行有针对性的隐患排查工作,提高安全隐患排查、消除的工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于知识图谱的工业隐患规范化上报方法的方法流程图;
图2为本发明提供的分词示例结果的可视化图;
图3为本发明提供的句法依存的可视化图;
图4为本发明采用的实体抽取规则一的流程图;
图5为本发明采用的实体抽取规则二的流程图;
图6为本发明提供的基于知识图谱的工业隐患规范化上报系统的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于知识图谱的工业隐患规范化上报方法及系统,以解决目前工业隐患排查过程中隐患上报内容不清楚、不准确、不规范的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了准确而有效的进行工业隐患内容的上报,提交者必须具有一系列的背景知识作为基础,这些知识主要包括企业设备的信息、隐患的信息、企业设备与设备的关系、设备与隐患的关系等。总的来说,这些背景知识的本质是由设备实体和隐患实体以及其存在的关系交织而成的一张语义关系网。在上报过程中,上报人在语义网中根据实际情况进行信息检索,并构建出合理的包含实体、实体间关系、实体的一条路径,就完成了一次隐患上报。因此,找出一种有效的方法来描述实体及实体之间的关系成为解决这个问题的关键,而拥有在大规模关系网中快速检索的能力是保证此方法实用性的基础。
知识图谱作为一种大规模语义网,同时拥有大规模语义描述能力和大规模语义推理能力。通过构建工业隐患知识图谱,可以将企业内数以万计的设备信息以及相关的隐患信息用图数据库的形式组织起来。设备和隐患将以实体的形式存在于知识图谱的节点中,设备与设备的关系、设备与隐患的关系则表示为节点与节点之间的连线。当使用者上报隐患时,例如:“货运电梯灭火器保险栓缺失”,知识图谱不仅将为使用者提供“货运电梯”的实体信息,而且可以检索出“货运电梯”与“灭火器”之间的“所属”关系、“灭火器”与“保险栓”的“所属”关系,并使用检索到实体的其他“所属”关系对上报的文本描述语义进行规范化。而这些关系与实体信息构成了保证提交隐患描述文本准确有效的基础,知识图谱不但为使用者提供了海量背景知识的大规模精确检索能力,而且可以为隐患描述文本中的设备实体规定符合实际情况的约束范围,从而达到规范化的目的。
随着以机器学习为代表的链接主义在数据处理方面的应用日趋成熟,以语义网为代表的符号主义已经进入高速发展阶段,而知识图谱这种衍生自语义网并诞生自大数据土壤的技术已经成为处理海量数据的新手段。由此观之,基于知识图谱的工业隐患实体识别以及规范化技术的研究具有重要的理论价值和应用价值。
图1为本发明提供的基于知识图谱的工业隐患规范化上报方法的方法流程图。参见图1,本发明提供的基于知识图谱的工业隐患规范化上报方法具体包括:
步骤101:获取隐患排查手册。
所述隐患排查手册为国家规定的隐患排查手册、国家颁布的工业隐患排查清单,例如《加油站安全隐患排查手册》、《企业安全生产事故隐患排查手册》等,也可以是企业根据自身生产设备制定的安全生产事故隐患排查手册、设备隐患排查手册等。
步骤102:抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系。具体包括:
步骤1:使用Protégé本体编辑工具进行本体构建。
首先使用Protégé本体编辑工具进行本体构建,Protégé是一个开源智能系统本体编辑和知识获取框架,包括构建框架和本体(ontology)编辑器。“本体”指的是用来描述一个领域中出现的所有实体的概念或者模式,定义了实体所拥有的属性,属性分为数据属性和对象属性,例如:“人”是一个本体,拥有“性别”作为数据属性,“配偶”作为类型是“人”的对象属性。进行本体构建就是对整个领域所有实体进行归纳,形成一套模式来描述这些实体的属性和关系。构建得到的是这个领域的模式层来规定这些属于不同实体的实体属性和关系。有了本体之后就可以遵循这个本体包含的模式,使用后续步骤2从文本中抽取的信息对领域里存在的实体进行描述和信息填充,从而构建出符合本体要求的知识图谱。本发明使用protégé进行本体库的构建,通过对工业隐患知识的抽象,构建出工业隐患本体库。
步骤2:使用基于规则的方法进行实体抽取。
本发明采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储。所述规则包括规则一和规则二。通过实体抽取可以获得描述实体的信息,并且按照步骤1中的模式进行填充,从而获得知识图谱的所有信息。
在知识图谱的构建过程中,为了通过本体中规定的属性来描述一个真实存在的实体,需要从海量信息中提取有用的部分作为一个实体的属性。例如属性“名称”的值为“电梯”的实体,可以从文本“电梯是指服务于建筑物内若干特定的楼层,其轿厢运行在至少两列垂直于水平面或与铅垂线倾斜角小于15°的刚性轨道运动的永久运输设备”中抽取到其数据属性“描述”的值是“指服务于建筑物内若干特定的楼层,其轿厢运行在至少两列垂直于水平面或与铅垂线倾斜角小于15°的刚性轨道运动的永久运输设备”,其对象属性“属于”的值是一个实体,这个实体的属性“名称”的值为“永久运输设备”。抽取到的结果是属于这个领域的所有实体信息。
在抽取所述隐患排查手册中的多个实体之前需要对数据进行标注,本发明采用的数据主要来自所述隐患排查手册,数据集标注所使用的标签如下表1所示:
表1工业隐患实体标签
实体标签 标签定义 示例
<dev></dev> 设备实体 <dev>传送带</dev>
<sys></sys> 系统 <sys>报警系统</sys>
<pla></pla> 场地 <pla>配电室</pla>
<law></law> 法律条款 <law>《公司法》</law>
<dept></dept> 监管部门 <dept>安监局</dept>
如表1所示,本发明提取的多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体。
所述隐患排查手册中的数据在经过分词和词性标注之后,许多工业领域名词被标注为词性“n”、“j”、“vn”、“f”等,而句法依存主要有“并列关系”、“定中关系”、“介宾关系”等,分别如图2和图3所示,图2和图3分别是分词示例结果的可视化图和句法依存的可视化图,通过词性标注和句法依存结果可以进行实体抽取规则设计。
本发明采用的实体抽取规则设计如下,采用如下两个规则依次进行判断:
规则一:图4为本发明采用的实体抽取规则一的流程图。参见图4,如果一个字符串中有一个字符被标注为“v”,就判断这个字符是不是“应”、“应当”,然后寻找其前面被标注为“n”且拥有标签的字符串,如果存在,再次寻找其依存关系为“并列”的词语,如果存在,在这个词语之前寻找依存关系为“定中关系”的词语,由于两个词语为名词且为并列关系,所以如果存在则分别依次拼接,得到两个实体,并且根据上一步的标签判断实体属于哪种类型,以便下一步骤进行实体之间关系抽取使用。如果这个字符没有匹配到,则使用规则二作为下一个规则进行匹配。
例如:“车辆入口和出口应当分开设置”中,可以抽取到设备或者地点实体“车辆入口”和“车辆出口”,属于<pla></pla>标注的类型,于是就抽取到两个属于pla类型的实体。
规则二:图5为本发明采用的实体抽取规则二的流程图。参见图5,如果一个字符串以“不”、“不得”开头且被标注为“v”,寻找其后面被标注为“v”的字符串,如果存在,再次寻找其依存关系为“并列”并标注为“v”词语,接着寻找标注为“n”的词语,即“v”作为动词和“n”作为宾语之间存在动宾关系,并且根据上一步骤中的标签来判断属于哪种类型,以便下一步骤进行实体之间关系抽取使用。
例如:“不得埋压、圈占、遮挡消火栓或者占用防火间距”,可以抽取到“消火栓”、“防火间距”、“埋压消火栓”、“遮挡消火栓”、“圈占消火栓”、“占用防火间距”,并且都属于<dev></dev>标签标注内容。
抽取到的实体以字符串的形式存储于csv文件中,字符串的值作为实体的名称属性的值,待后续进行实体间语义关系抽取时使用。在实体抽取的过程中通过句法依存树和词性判断一句话中存不存在实体,并没有真正取得实体之间的关系,在此基础上,通过下一步骤3对文本中实体之间的语义关系进行抽取。
步骤3:使用Deepdive进行实体间语义关系抽取。
本发明采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统,它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据。本发明修改了自然语言处理的model包,使Deepdive支持中文。
在进行实体对语义关系抽取之前,需要先从所述隐患排查手册中根据句法依存树和本体中定义的实体间语义关系生成先验数据来作为训练数据。实体之间语义关系的定义以及关系数量和类型如下表2所示:
表2工业隐患实体之间的语义关系
Figure BDA0001904648970000091
Figure BDA0001904648970000101
如表2所示,本发明抽取的所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系。
先验数据导入完成后就要准备待抽取的文本,将所述隐患排查手册中的有效文本转换为csv格式,并使用相关指令建立文本表格。然后对文本表格按行进行NLP处理,这里使用的是斯坦福大学中文NLP处理模块,输入文本数据,NLP处理模块将以句子为单位返回每句的分词、lemma、pos、NER和句法分析的结果,为后续特征抽取做准备,将结果存储在sentences表中。到这里就完成了抽取实体语义关系所需要的训练数据和待抽取数据的准备工作。
对于不同的实体,需要在文本表格中定义不同的实体数据表来存储相关数据,根据之前定义的实体属性来定义数据表的每一列,每个实体都是表中的一列数据,同时存储了实体在句中的起始位置和结束位置,根据自定义的实体抽取函数对每个数据库中的句子进行遍历,通过过滤函数定义规则过滤实体对,例如“相同的实体之间不可能有关系生成”,从而生成候选实体表。
接下来进行实体对之间特征的生成,需要对不同的语义关系定义不同的特征表来存储特征。本发明期望在候选实体对中标出部分正负例。利用已知的实体对和候选实体对关联或者利用所述规则标出部分正负标签,先在app.ddlog里定义devComp_label表,存储监督数据,rule_id代表标记决定相关性的规则名称。label为正值表示正相关,负值表示负相关。绝对值越大,相关性越大,调用标记函数,将规则抽到的数据写入表中得到最终标签。
将先验数据用csv文件存储起来,通过Deepdive的source指令定义相应的数据表。通过先验数据,Deepdive会根据分词结果进行特征抽取,再使用半监督的方法进行特征学习,根据学习到的特征和分词结果中的实体进行语义关系抽取,并且在抽取完成之后进行效果鉴定,从而获取到有效的实体和实体之间的语义关系。
步骤103:根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱。
知识图谱的存储本质是三元组的存储,在进行实体抽取和语义关系抽取之后的实体信息尚不完整,所以持久化之后需进行进一步补全。本发明通过开源图形数据库Neo4J进行三元组存储。Neo4J中存储的数据由节点和边组成,通过前文中抽取的实体类型,本发明规定Neo4J中有以下几种类型:
节点:Dev、Sys、Pla、Law、Dept、Prip,与文本标注类型相对应;
边:PripDev、lawDev、PlaSyss、sysDevs、devComp五种语义关系,与属性定义中六种对象属性对应。
属性:devName,devDescrip,devNo,devRegDate,devType,sysName,sysDescrip,plaName,plaLat,lawContent等数据属性。
将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱。采用开源图形数据库Neo4J对所述知识图谱进行存储,将抽取到的实体和语义关系存储到Neo4j数据库中,保障同一类下没有一样的实体存在。
由于本发明构建的知识图谱数据来源较多,所以在具体抽取的过程中只对所述隐患手册的现场管理行进行抽取,总共有72份各行各业的隐患排查手册。每种实体及语义关系抽取的数量如下表3所示:
表3实体与语义关系抽取结果
Figure BDA0001904648970000111
如表3所示,本发明抽取的多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系。在本发明的具体实施过程中,一共抽取了2838个实体和15258条语义关系。
步骤104:获取用户当前输入的隐患描述文本。
获取工作人员输入的隐患描述文本,根据所述知识图谱对所述隐患描述文本进行规范化处理。
步骤105:根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本。
根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,若是,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本;若否,进行下一步是否存在缺失的实体的判断。
所述根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,即遍历所述知识图谱中的所有实体,若所述知识图谱中不存在任何一个实体与所述隐患描述文本中的实体相同,则确定所述隐患描述文本中存在错误的实体。提取所述隐患描述文本中的实体,并计算该实体与所述知识图谱中每个实体的相似度,选择所述知识图谱中与该实体相似度最高的实体替换该实体,实现所述错误的实体的更正。
步骤106:根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本。
如果工作人员上报的隐患描述文本中实体有缺失,则对其输入的文本内容进行缺失内容的补全,即命名实体补全。即根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,若是,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本;若否,则根据隐患排查语句中分词获取的名称属性获取实体,然后对实体之间的所属语义关系进行判断。
优选的,本发明采用候选队列的方法实现缺失实体的自动补全。一个工业隐患实体或者文本被拆分为隐患发生场合(PLA)、隐患发生主体(SUB)、隐患发生部位(POSI)、隐患发生动作(ACT)、隐患发生客体(OBJ)这几个部分,只需要在用户进行输入的时候在输入的隐患描述文本中进行实体识别,如果出现了一个PLA实体那么就会给用户推荐想用的SUB,SUB是一个知识图谱中的Dev实体,通过Cypher语句就可以获取到属于一个PLA的Dev实体和相应的关系。然后把推荐结果作为一个集合返回,并提取每一个Dev实体的汉语拼音组合。当用户继续输入时,读取用户输入的按键字母,对用户的输入结果进行提示从而达到补全的效果。
例如当用户输入了PLA时,系统会自动给出推荐结果;用户选择之后,系统会利用知识图谱进行实体识别,发现描述文本缺少POSI信息,就会进一步在知识图谱中搜索并返回结果;用户选择POSI信息之后点击提交,系统发现提交的隐患描述文本缺少ACT信息和OBJ信息,就会进行提示,并给出相关补全信息并自动补全。
步骤107:根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本。
当用户输入的隐患描述文本填写完成且没有缺失实体后,系统就会对隐患描述文本进行分词,并且根据分词后的实体语义关系进行隐患实体匹配度的检测:如果一个隐患实体的PLA下没有用户输入的SUB,或者一个SUB没有用户输入的POSI时候,系统就会对用户输入的隐患描述文本中匹配错误的地方给出提示,并在输入框上面显示出推荐的实体指称,供用户进行选择并更正描述文本。在完成更正后系统会再次检测用户输入的隐患实体的成分有无缺失,直至提交成功。
根据所述知识图谱对所述补全后隐患描述文本中实体之间的所属语义关系进行判断时,如果一个实体A与实体B在句法上有定中关系,但是在实体A所属的实体中没有实体B,则判断实体A与实体B并没有所属关系,从所述知识图谱中搜索与实体A有所属关系的所有实体供使用者选择更正,从而对所述补全后隐患描述文本中匹配错误的语义关系进行更正。
经过对上报的隐患描述文本的补全和更正,可以得到规范化的隐患实体来概括隐患描述文本中的信息,从而实现隐患上报的规范化。
作为本发明方法的一种延伸,当用户在输入框中进行隐患描述文本输入时,如果系统判定输入的文本缺少适当的实体,就会在输入光标下进行相关实体推荐;如果输入的隐患描述文本中实体有错误,如宾语和主语不匹配,输入框中的相关文本就会进行提醒,指出错误的地方并且给出相应的修改建议;并且在隐患描述文本输入完成提交的时候会给出相应的可视化结果,进一步确保隐患上报的准确性。
步骤108:将所述规范化隐患描述文本进行上报。
将所述规范化隐患描述文本进行上报,上报成功后的规范化隐患描述文本会被存储在中间数据数据库中,供工作人员进行后续操作。
本发明通过对隐患排查手册的特点分析,使用基于规则的半自动化构建方法进行实体抽取,使用Deepdive进行实体间的语义关系抽取,并使用Neo4j图形数据库进行知识图谱存储,从而构建出具有针对性的工业隐患领域的知识图谱,并提出基于行业知识图谱的工业隐患实体描述的规范化方法,在用户进行隐患上报的过程中,向用户提供具有语义推理检索和规范化功能的交互方式,从而达到工业隐患规范化的目的。解决了现有解决方案中隐患描述文本存在的指代不明、描述模糊、成分缺失等不足,使工业隐患排查工作效率得到提升。
根据本发明提供的工业隐患规范化上报方法,本发明还提供一种基于知识图谱的工业隐患规范化上报系统。图6为本发明提供的基于知识图谱的工业隐患规范化上报系统的系统结构图,参见图6,所述系统包括:
隐患排查手册获取模块601,用于获取隐患排查手册;
实体及语义关系抽取模块602,用于抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系;多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系;
知识图谱构建模块603,用于根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱;
隐患描述文本获取模块604,用于获取用户当前输入的隐患描述文本;
实体更正模块605,用于根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本;
实体补全模块606,用于根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本;
语义关系更正模块607,用于根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本;
规范化隐患描述文本上报模块608,用于将所述规范化隐患描述文本进行上报。
其中,所述实体及语义关系抽取模块602具体包括:
实体抽取单元,用于采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储;所述规则包括规则一和规则二;
语义关系抽取单元,用于采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。
所述知识图谱构建模块603具体包括:
知识图谱构建单元,用于将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱;
知识图谱存储单元,用于采用开源图形数据库Neo4J对所述知识图谱进行存储。
所述实体更正模块605具体包括:
错误实体判断单元,用于根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,获得第一判断结果;
错误实体更正单元,用于若所述第一判断结果为所述隐患描述文本中存在错误的实体,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本。
所述实体补全模块606具体包括:
不足实体判断单元,用于根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,获得第二判断结果;
不足实体补全单元,用于若所述第二判断结果为所述更正后隐患描述文本中存在缺失的实体,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于知识图谱的工业隐患规范化上报方法,其特征在于,所述方法包括:
获取隐患排查手册;
抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系;多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系;
根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱;
获取用户当前输入的隐患描述文本;
根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本,具体包括:
根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,获得第一判断结果;
若所述第一判断结果为所述隐患描述文本中存在错误的实体,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本;
根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本;
根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本;
将所述规范化隐患描述文本进行上报。
2.根据权利要求1所述的工业隐患规范化上报方法,其特征在于,所述抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系,具体包括:
采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储;所述规则包括规则一和规则二;
采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。
3.根据权利要求1所述的工业隐患规范化上报方法,其特征在于,所述根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱,具体包括:
将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱;
采用开源图形数据库Neo4J对所述知识图谱进行存储。
4.根据权利要求1所述的工业隐患规范化上报方法,其特征在于,所述根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本,具体包括:
根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,获得第二判断结果;
若所述第二判断结果为所述更正后隐患描述文本中存在缺失的实体,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本。
5.一种基于知识图谱的工业隐患规范化上报系统,其特征在于,所述系统包括:
隐患排查手册获取模块,用于获取隐患排查手册;
实体及语义关系抽取模块,用于抽取所述隐患排查手册中的多个实体以及多个所述实体之间的语义关系;多个所述实体包括设备实体、系统实体、场地实体、监管部门实体、准则实体和法律条款实体;所述语义关系包括准则规范设备关系、设备遵守法律关系、场地拥有系统关系、系统包含设备关系和设备包含部件关系;
知识图谱构建模块,用于根据多个所述实体以及多个所述实体之间的语义关系构建知识图谱;
隐患描述文本获取模块,用于获取用户当前输入的隐患描述文本;
实体更正模块,用于根据所述知识图谱对所述隐患描述文本中错误的实体进行更正,获得更正后隐患描述文本;
所述实体更正模块具体包括:
错误实体判断单元,用于根据所述知识图谱判断所述隐患描述文本中是否存在错误的实体,获得第一判断结果;
错误实体更正单元,用于若所述第一判断结果为所述隐患描述文本中存在错误的实体,根据所述知识图谱对所述错误的实体进行更正,获得更正后隐患描述文本;
实体补全模块,用于根据所述知识图谱对所述更正后隐患描述文本中缺失的实体进行补全,获得补全后隐患描述文本;
语义关系更正模块,用于根据所述知识图谱对所述补全后隐患描述文本中匹配错误的语义关系进行更正,获得规范化隐患描述文本;
规范化隐患描述文本上报模块,用于将所述规范化隐患描述文本进行上报。
6.根据权利要求5所述的工业隐患规范化上报系统,其特征在于,所述实体及语义关系抽取模块具体包括:
实体抽取单元,用于采用基于规则的方法抽取所述隐患排查手册中的多个实体并存储;所述规则包括规则一和规则二;
语义关系抽取单元,用于采用开源知识抽取系统Deepdive抽取多个所述实体之间的语义关系并存储。
7.根据权利要求5所述的工业隐患规范化上报系统,其特征在于,所述知识图谱构建模块具体包括:
知识图谱构建单元,用于将所述实体作为知识图谱中的节点,将所述实体之间的语义关系作为知识图谱中的边,构建出所述知识图谱;
知识图谱存储单元,用于采用开源图形数据库Neo4J对所述知识图谱进行存储。
8.根据权利要求5所述的工业隐患规范化上报系统,其特征在于,所述实体补全模块具体包括:
不足实体判断单元,用于根据所述知识图谱判断所述更正后隐患描述文本中是否存在缺失的实体,获得第二判断结果;
不足实体补全单元,用于若所述第二判断结果为所述更正后隐患描述文本中存在缺失的实体,根据所述知识图谱对所述缺失的实体进行补全,获得补全后隐患描述文本。
CN201811526783.1A 2018-12-13 2018-12-13 一种基于知识图谱的工业隐患规范化上报方法及系统 Active CN109614501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811526783.1A CN109614501B (zh) 2018-12-13 2018-12-13 一种基于知识图谱的工业隐患规范化上报方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811526783.1A CN109614501B (zh) 2018-12-13 2018-12-13 一种基于知识图谱的工业隐患规范化上报方法及系统

Publications (2)

Publication Number Publication Date
CN109614501A CN109614501A (zh) 2019-04-12
CN109614501B true CN109614501B (zh) 2020-09-25

Family

ID=66007512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811526783.1A Active CN109614501B (zh) 2018-12-13 2018-12-13 一种基于知识图谱的工业隐患规范化上报方法及系统

Country Status (1)

Country Link
CN (1) CN109614501B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187678B (zh) * 2019-04-19 2021-11-05 广东省智能制造研究所 一种制造业加工设备信息存储和数字化应用系统
CN110442730A (zh) * 2019-07-18 2019-11-12 北京市天元网络技术股份有限公司 一种基于deepdive的知识图谱构建方法
CN110851611A (zh) * 2019-07-18 2020-02-28 华瑞新智科技(北京)有限公司 一种隐患数据知识图谱的构建方法及装置、设备、介质
CN111597349B (zh) * 2020-04-30 2022-10-11 西安理工大学 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111597353B (zh) * 2020-05-18 2022-06-07 中国人民解放军国防科技大学 网络空间威胁知识抽取方法和装置
CN111932174B (zh) * 2020-07-28 2024-05-28 中华人民共和国深圳海关 货运监管异常信息获取方法、装置、服务器及存储介质
CN112560477B (zh) * 2020-12-09 2024-04-16 科大讯飞(北京)有限公司 文本补全方法以及电子设备、存储装置
CN113407771B (zh) * 2021-05-14 2024-05-17 深圳市广电信义科技有限公司 监控调度方法、系统、装置及存储介质
CN113537647B (zh) * 2021-09-15 2021-12-31 深圳市光明顶照明科技有限公司 一种基于知识图谱的数据处理方法、系统和可读存储介质
CN115982386A (zh) * 2023-02-13 2023-04-18 创意信息技术股份有限公司 一种企业元数据解释的自动生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108664574A (zh) * 2018-04-27 2018-10-16 平安科技(深圳)有限公司 信息的输入方法、终端设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678281B (zh) * 2013-12-31 2016-10-19 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
US10102291B1 (en) * 2015-07-06 2018-10-16 Google Llc Computerized systems and methods for building knowledge bases using context clouds
CN107589826B (zh) * 2016-07-07 2019-11-05 苏州狗尾草智能科技有限公司 基于知识图谱的人机交互方法及系统
US10380169B2 (en) * 2016-07-29 2019-08-13 Rovi Guides, Inc. Systems and methods for determining an execution path for a natural language query
CN106934042B (zh) * 2017-03-16 2020-05-29 中国人民解放军国防科学技术大学 一种知识图谱表示系统及其实施方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108664574A (zh) * 2018-04-27 2018-10-16 平安科技(深圳)有限公司 信息的输入方法、终端设备及介质

Also Published As

Publication number Publication date
CN109614501A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109614501B (zh) 一种基于知识图谱的工业隐患规范化上报方法及系统
CN110781315B (zh) 一种食品安全知识图谱及相关智能问答系统的构建方法
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN111209472B (zh) 一种铁路事故故障关联和事故故障原因分析方法及系统
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115619383B (zh) 一种基于知识图谱的故障诊断方法、装置及计算设备
Raharjana et al. User story extraction from online news for software requirements elicitation: A conceptual model
CN112036153B (zh) 工单纠错方法、装置、计算机可读存储介质和计算机设备
CN113326358B (zh) 基于知识图谱语义匹配的地震灾害信息服务方法和系统
US20150149541A1 (en) Leveraging Social Media to Assist in Troubleshooting
CN113487211A (zh) 核电装备质量追溯方法、系统、计算机设备及介质
CN110851611A (zh) 一种隐患数据知识图谱的构建方法及装置、设备、介质
CN114358507A (zh) 基于知识图谱的输水建筑物风险评估与防范方法
CN113095524A (zh) 电力设备检修工作单据智能生成方法、系统及存储介质
JP2013156811A (ja) 仕様書の検査方法、プログラム及びシステム
CN114372154A (zh) 一种基于知识图谱的预导诊及分诊技术方法
CN116069951A (zh) 一种施工工人安全知识抽取和知识图谱构建方法
CN116913549A (zh) 不良反应事件预警方法、装置、系统和电子设备
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质
Ma et al. Mining construction accident reports via unsupervised NLP and Accimap for systemic risk analysis
Liu et al. Construction of intelligent query system for metro electromechanical equipment faults based on the knowledge graph
KR102217092B1 (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
CN113590825A (zh) 文本质检方法、装置及相关设备
Sannier et al. Defining and retrieving themes in nuclear regulations
CN116562714B (zh) 一种应用于机械加工的工件信息追溯系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant