CN115221332A - 一种危化品事故事理图谱的构建方法与系统 - Google Patents
一种危化品事故事理图谱的构建方法与系统 Download PDFInfo
- Publication number
- CN115221332A CN115221332A CN202210663568.6A CN202210663568A CN115221332A CN 115221332 A CN115221332 A CN 115221332A CN 202210663568 A CN202210663568 A CN 202210663568A CN 115221332 A CN115221332 A CN 115221332A
- Authority
- CN
- China
- Prior art keywords
- event
- accident
- dangerous chemical
- cause
- causal relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000126 substance Substances 0.000 title claims abstract description 129
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 230000001364 causal effect Effects 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 36
- 239000000383 hazardous chemical Substances 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 28
- 230000000694 effects Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000011835 investigation Methods 0.000 claims description 18
- 235000013399 edible fruits Nutrition 0.000 claims description 6
- 238000003909 pattern recognition Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 231100000572 poisoning Toxicity 0.000 description 2
- 230000000607 poisoning effect Effects 0.000 description 2
- 206010003497 Asphyxia Diseases 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 206010013647 Drowning Diseases 0.000 description 1
- 238000012047 cause and effect analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229910000037 hydrogen sulfide Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种危化品事故事理图谱的构建方法和系统,所述方法首先通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;以国内外重大危化品事故为基础,根据危化品事故的特点构建危化品事故调查报告资料库;对收到的危化品事故调查报告文本进行语法分析与数据预处理;抽取危化品事故因果关系事件对,并与危化品事故领域本体进行事件元组映射;根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱。上述方法和系统能够提高因果事理图谱构建的准确性,将事理图谱应用于挖掘事故的因果关系,为事故因果分析提供了新的分析工具和途径。
Description
技术领域
本发明涉及事理图谱构建技术领域,尤其涉及一种危化品事故事理图谱的构建方法与系统。
背景技术
近年来,对危化品事故原因进行研究属于安全科学的研究课题之一。而危化品事故因果关系的分析是预防和避免危化品事故的有效手段,事故的原因呈现多元性和复杂化,事故因果关系分析面临新的难题。因此,从事故调查报告的历史数据中挖掘因果关系、梳理事故发展脉络、分析事故发展规律显得尤为重要,一方面能够协助事故的原因调查工作,另一方面为未来的事故预测、预防、预警提供决策支持,以尽可能地避免二次伤害、减少事故带来的伤亡和损失。
事理图谱因能揭示事件与事件之间的演化规律与模式,分析事件因果关系而被广泛应用,但现阶段的相关研究存在如下问题:目前大多集中研究事故的原因、事故的现状、事故的种类以及事故类型和发生环节的统计分析,对事故因果关系研究,缺乏针对事故发生细节与因果演化过程的分析,研究方法上多偏向于理论分析和数据统计。
发明内容
本发明的目的是提供一种危化品事故事理图谱的构建方法与系统,该方法和系统能够提高因果事理图谱构建的准确性,将事理图谱应用于挖掘事故的因果关系,将结果用事理图谱的方式将其直观展示,为事故因果分析提供了新的分析工具和途径。
本发明的目的是通过以下技术方案实现的:
一种危化品事故事理图谱的构建方法,所述方法包括:
步骤1、通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;其中,所述预先设置的事件定义信息包括危化品事故事件类型的定义信息、不同类型的危化品事故触发词和事件元素角色的定义信息、事件关系的定义信息;
步骤2、以国内外重大危化品事故案例调查报告为基础,根据危化品事故的特点构建危化品事故调查报告资料库;
步骤3、对收到的危化品事故调查报告文本进行语法分析与数据预处理;
步骤4、通过所述模式层从步骤3处理后的危化品事故调查报告文本中抽取危化品事故因果关系事件对;
步骤5、将抽取的危化品事故因果关系事件对与危化品事故领域本体进行事件元组映射;其中,所述危化品事故领域本体是将步骤2得到的危化品事故调查报告资料库中的文本进行处理后形成的;
步骤6、根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱。
由上述本发明提供的技术方案可以看出,上述方法和系统能够提高因果事理图谱构建的准确性,将事理图谱应用于挖掘事故的因果关系,将结果用事理图谱的方式将其直观展示,为事故因果分析提供了新的分析工具和途径。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的危化品事故事理图谱的构建方法流程示意图;
图2为本发明实施例所述从危化品事故调查报告文本中得到事件序列的过程示意图;
图3为本发明实施例所述基于双层模型的因果关系抽取过程示意图;
图4为本发明实施例所形成危化品事故事理图谱的示意图;
图5为本发明实施例所述危化品事故事理图谱构建系统的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示为本发明实施例提供的危化品事故事理图谱的构建方法流程示意图,所述方法包括:
步骤1、通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;
其中,所述预先设置的事件定义信息包括危化品事故事件类型的定义信息、不同类型的危化品事故触发词、事件元素角色的定义信息、事件关系的定义信息;
例如火灾、爆炸、中毒、窒息等危化品事故事件类型;生产、储存、运输、废弃等危化品事故触发词。本实施例将模式层视为图谱的基础抽象框架,涵盖了本实施例中危化品事故事理图谱包含的内容并指导危化品事故事理图谱的整个构建过程。
具体实现中,在信息抽取领域,事件被定义为发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事件或者状态的改变。事件抽取任务所涉及的一些相关概念如下表1所示:
表1
步骤2、以国内外重大危化品事故为基础,根据危化品事故的特点构建危化品事故调查报告资料库;
其中,所构建的事故调查报告资料库详细记录了事故的前因后果,具体是收集近些年国内外事故调查报告,将这些调查报告的内容切分为txt格式的文档,每一个txt文档内仅包含一个案例。
步骤3、对收到的危化品事故调查报告文本进行语法分析与数据预处理;
在该步骤中,以收到的危化品事故调查报告文本为基础,通过去噪、分句数据预处理,生成有逻辑语义的句子;
对生成的每个句子进行分词和词性标注处理,过滤掉除指定词性外的其他词,例如火灾、爆炸、泄漏等事故属性词为指定词,并且过滤掉出现在停用词表的单词与长度小于2的词。
再进行句子切分、词的切分,并标注因果关系提示词,每类因果关系提示词对应不同的因果句法模式;
所述因果关系提示词根据各类事故特点归纳为以下五类:
1)由因到果居端的因果关系提示词,包括:由于|因为|既|既然|如果|只要有|可能是|可能原因是|可能的原因|调查发现;
2)由因到果居中的因果关系提示词,包括:导致了|会导致|导致|以致|促使|促成了|引起|所以|以致于|以致|因此|因而|致使|以至|造成|使得|从而导致|从而引起|从而造成|从而使得|以至于|从而|进而|有助于;
3)由果溯因居中的因果关系提示词,包括:是由于|是因为|原因是|归因于|影响因素是|可能的原因;
4)由因到果配套的因果关系提示词,包括:<因为|由于|如果|受,所以|以至于|以致于|因此|因而|故|而|就|影响>;
5)由果溯因配套的因果关系提示词,包括:<造成|使得|导致|促使|引起|之所以|致使|总结,可能的原因是|原因是|是因为|是由于|是因为>。
步骤4、通过所述模式层从危化品事故调查报告文本中抽取危化品事故因果关系事件对;
在该步骤中,抽取危化品事故因果关系事件对包括显式抽取和隐式抽取,其中:
首先将距离因果关系提示词位置最近且词性为动词的词作为事件触发词;
获取所述事件触发词对应的主语和宾语,并确定事件对的表示形式为:{主语及其相关成分,触发词及其相关成分,宾语及其相关成分};
所述显示抽取基于双层模型的因果关系抽取法,采用Bootstrapping算法,将因果关系抽取问题转化为对事件序列的两次模式识别标注;在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色作为新的特征传递给第二层模式识别,用于因果关系边界标注;
其中,基于双层模型的因果关系抽取法的过程具体为:
首先为从危化品事故调查报告文本中得到的事件序列中的每一个事件赋予标签,以表示其在因果关系中对应的语义角色,举例来说,如图2所示为本发明实施例所述从危化品事故调查报告文本中得到事件序列的过程示意图,则得到的事件序列为:
施工人员→未做好个人防护→进入事故井内→硫化氢→发生中毒→溺水身亡
为上述事件序列中的每一个事件赋予标签,引入一个标签集f={C,E,N};其中, C表示原因事件;E表示结果事件;N表示其他事件。根据标签集f中各个元素的定义,得到突发事件序列因果关系语义角色标注为CEENEC,如图3所示为本发明实施例所述基于双层模型的因果关系抽取过程示意图,在第一次模式识别时,标注的因果关系语义角色为 CEENEC;
然后,再为经过标注的因果关系语义角色标记边界标签,确定因果关系的边界;其中,边界标签采用组块分析(Chunk parsing)中的BIO标签集,B表示因果关系的开始; I表示因果关系的中间或结尾;O表示其他。如图3所示,因果关系的边界标注为BIIOBI。
从上述过程可以看出,采用双层模型抽取事件因果关系,不仅可以标注句内事件间因果关系,而且对于跨句子,甚至是跨段落事件间因果关系也可以进行标注抽取;该方法并不限于抽取一因一果和一因多果的因果关系,对于多因一果或多因多果的因果关系也同样适用。此外,在标注事件因果关系时,并不需要考虑原因和结果之间是否存在特定的标记成分,只要两者之间具有语义上的因果关系即被赋予相应的标签。
所述隐式抽取采用基于自注意力机制的双向LSTM(Long-Short-Term-Memory)方法,以带有事件触发词位置标识的句子集作为输入,具体用self-Att_BiLSTM+PI表示,以因果关系事件元组对作为输出,该方法属于机器学习方法,是建立在统计模型基础之上的一种方法,它是将关系抽取看作分类问题,通过使用合适的分类器模型来完成。
步骤5、将抽取的危化品事故因果关系事件对与危化品事故领域本体进行事件元组映射;其中,所述危化品事故领域本体是将步骤2得到的危化品事故调查报告资料库中的文本进行处理后形成的;
在该步骤中,对于跨文档的多个因果关系事件对来说,这些具体事件在表述上差异性更大,很难做到一类事件归一化,这对形成一个用于发现事件普遍因果演化规律的事理图谱来说是一个阻碍。为了把具体的事件泛化,本实例将所有具体事件与领域本体映射,以领域本体中的表述替代原有的事件表述,从而达到将事件泛化的目的,泛化后的事件,更方便构建成图,且更便于普遍规律的发现。
在与危化品事故领域本体进行事件元组映射时,危化品事故领域本体中的概念是字符串类型,没有上下文信息,故进行事件元组映射的过程是计算两字符串的相似性,即计算抽取的危化品事故因果关系事件对与危化品事故领域本体中元组的相似度,具体来说:
首先将所有词汇都映射到同一个向量空间,采用词向量嵌入(word2vec模型),利用样本单词和该样本单词的上下文一起训练词向量,训练出的词向量包含了词的上下文语义信息;
通过计算抽取的危化品事故因果关系事件对与危化品事故领域本体中对应词向量的相似度,来判定两个事件的相似程度,并将相似的两个事件进行事件元组映射,这里采用word2vec中的一个重要模型,CBOW(Continuous Bag-of-Words Model)来进行计算,这是一种通过文本特征词和词上下文信息训练词向量的模型,输入一个特征词的上下文特定数量的词的词向量,则会输出该特征词,其具体过程为:
首先采用词向量嵌入(word2vec模型),将文本类的词(Word)转化成为“数学空间”中结构化的向量(Vector),使之能参与计算,用以衡量词之间的相似性,语料文本特定词上下2c个的词,其中词向量维度M,步长η,词向量为w,则过程具体为:
基于训练样本{context(w),w}建立最优二叉树(HuffmanTree,哈夫曼树);
再进行参数初始化,随机地初始化参数θ以及词向量w;
进入梯度迭代,选择随机梯度上升方法,完成迭代过程,概括来说分为:
输入层:传入词向量w的前后c个词语的词向量,一共2c个词向量;
投影层:将输入层的2c个向量求和累加,得到向量Xw;
输出层:输出层对应一棵Huffman树。对于词典D中任意一个词语w,从根节点出发到最后的词语w的路径来算,节点总数lw,存在lw-1个分支。每一次分支就是一个二分类,分别记为正、负分类(正负对应左右子树)。每一次二分类就产生一个概率;
将这些概率相乘,通过投影层的Xw向量,得到词语w的条件概率,用条件概率构造对数似然函数,使用随机梯度上升法(随机梯度上升法:每去一次样本就对参数刷新一次。用似然函数对参数分别求导,求出更新的系数。然后对每一个参数进行更新)计算似然函数的最优值,具体公式如下:
将Huffman编码为0的定义为正类,故e=0,为约定一个正类值,计算Xw,计算公式如下:
再进入循环选代,对于j=2到lw(即节点总数),更新模型参数θw j-1:
这里g用来更新模型内节点的参数θ,具体表示为:
这里e则可以理解为将每个节点的梯度都加起来,具体表示为:
最后用来更新最初的根节点,进而更新上下文的2c个向量,表示为:
然后对于训练样本context(w)中的每一个词向量xi(共2c个)进行更新,表示为:
xi=xi+e
如果梯度收敛,则结束梯度迭代,否则继续迭代;最后再计算事件元组的相似性,作为事件共指消解的核心部分,选择计算事件三元组的词向量的相似性,在对事件相似性度量时,事件元组中参与计算的为{主语,触发词,宾语}三部分,表述为E=(S,P,0),即E=(S,P,0)的各个论元的相似性;
令Esimi(Ei,Ej)表示事件对Ei和Ej的事件相似性,Esimi(Ei,Ej)的计算公式为:
整个过程主要是依据事件相似度计算结果,对事件元组进行融合,形成初步的文档事理图谱。具体实现中,本实施例采用的消解策略是相似度阈值法,阈值的设定兼顾了事件元组之间的相似性以及尽可能地涵盖文本内容,揭示事件之间的关系的要求,例如可以设置阈值为0.7,即Esimi(Ei,Ej)≥0.7时才会被消解。
步骤6、根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱;
在该步骤中,所形成的危化品事故事理图谱是一种厘清事故因果关系,表述危化品事故因果关系的图谱,根据输入事故调查报告的量决定所形成危化品事故事理图谱的大小,如图4为本发明实施例所形成危化品事故事理图谱的示意图。
其中,危化品事故事理图谱是在知识图谱的基础上发展起来的概念,以事件及其关系作为研究对象,描述事件间时序、因果等事理逻辑,展示动态事件的演化规律。
基于上述方法,本发明实施例还提供了一种危化品事故事理图谱的构建系统,如图5 所示为本发明实施例所述系统的结构示意图,所述系统包括:
模式层构建模块,用于通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;
数据库模块,用于以国内外重大危化品事故为基础,根据危化品事故的特点构建危化品事故调查报告资料库;
语法分析与数据预处理模块,用于对收到的危化品事故调查报告文本进行语法分析与数据预处理;
事件对抽取模块,用于通过所述模式层构建模块构建的模式层从处理后的危化品事故调查报告文本中抽取危化品事故因果关系事件对;
事件元组映射模块,用于将抽取的危化品事故因果关系事件对与危化品事故领域本体进行事件元组映射;
危化品事故事理图谱生成模块,用于根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱。
所述系统中各模块的具体实现方式见上述方法实施例所述。
值得注意的是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
综上所述,本发明实施例所述方法和系统实现了从结构化设计的危化品事故文本中检测事件,并抽取事件信息和关系,大大节省了过去人工整理文本提取事件信息的时间和成本;同时能够提高因果事理图谱构建的准确性,将事理图谱应用于挖掘事故的因果关系,将结果用事理图谱的方式将其直观展示,为事故因果分析提供了新的分析工具和途径。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
Claims (6)
1.一种危化品事故事理图谱的构建方法,其特征在于,所述方法包括:
步骤1、通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;其中,所述预先设置的事件定义信息包括危化品事故事件类型的定义信息、不同类型的危化品事故触发词和事件元素角色的定义信息、事件关系的定义信息;
步骤2、以国内外重大危化品事故为基础,根据危化品事故的特点构建危化品事故调查报告资料库;
步骤3、对收到的危化品事故调查报告文本进行语法分析与数据预处理;
步骤4、通过所述模式层从步骤3处理后的危化品事故调查报告文本中抽取危化品事故因果关系事件对;
步骤5、将抽取的危化品事故因果关系事件对与危化品事故领域本体进行事件元组映射;其中,所述危化品事故领域本体是将步骤2得到的危化品事故调查报告资料库中的文本进行处理后形成的;
步骤6、根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱。
2.根据权利要求1所述危化品事故事理图谱的构建方法,其特征在于,所述步骤3的过程具体为:
以收到的危化品事故调查报告文本为基础,通过去噪、分句数据预处理,生成有逻辑语义的句子;
对生成的每个句子进行分词和词性标注处理,过滤掉除指定词性外的其他词;
再进行句子切分、词的切分,并标注因果关系提示词,每类因果关系提示词对应不同的因果句法模式;
所述因果关系提示词根据各类事故特点归纳为以下五类:
1)由因到果居端的因果关系提示词,包括:由于|因为|既|既然|如果|只要有|可能是|可能原因是|可能的原因|调查发现;
2)由因到果居中的因果关系提示词,包括:导致了|会导致|导致|以致|促使|促成了|引起|所以|以致于|以致|因此|因而|致使|以至|造成|使得|从而导致|从而引起|从而造成|从而使得|以至于|从而|进而|有助于;
3)由果溯因居中的因果关系提示词,包括:是由于|是因为|原因是|归因于|影响因素是|可能的原因;
4)由因到果配套的因果关系提示词,包括:<因为|由于|如果|受,所以|以至于|以致于|因此|因而|故|而|就|影响>;
5)由果溯因配套的因果关系提示词,包括:<造成|使得|导致|促使|引起|之所以|致使|总结,可能的原因是|原因是|是因为|是由于|是因为>。
3.根据权利要求1所述危化品事故事理图谱的构建方法,其特征在于,在步骤4中,抽取危化品事故因果关系事件对包括显式抽取和隐式抽取,其中:
首先将距离因果关系提示词位置最近且词性为动词的词作为事件触发词;
获取所述事件触发词对应的主语和宾语,并确定事件对的表示形式为:{主语及其相关成分,触发词及其相关成分,宾语及其相关成分};
所述显示抽取基于双层模型的因果关系抽取法,采用Bootstrapping算法,将因果关系抽取问题转化为对事件序列的两次模式识别标注;在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色作为新的特征传递给第二层模式识别,用于因果关系边界标注;
所述隐式抽取采用基于自注意力机制的双向LSTM方法,以带有事件触发词位置标识的句子集作为输入,以因果关系事件元组对作为输出。
4.根据权利要求3所述危化品事故事理图谱的构建方法,其特征在于,所述基于双层模型的因果关系抽取法的过程具体为:
首先为从危化品事故调查报告文本中得到的事件序列中的每一个事件赋予标签,以表示其在因果关系中对应的语义角色;具体是引入一个标签集f={C,E,N},其中C表示原因事件;E表示结果事件;N表示其他事件;根据标签集f中各个元素的定义,标注事件序列因果关系的语义角色;
然后再为经过标注的因果关系语义角色标记边界标签,确定因果关系的边界;其中,边界标签采用组块分析中的BIO标签集;B表示因果关系的开始;I表示因果关系的中间或结尾;O表示其他。
5.根据权利要求1所述危化品事故事理图谱的构建方法,其特征在于,在步骤5中,进行事件元组映射的过程是计算两字符串的相似性,即计算抽取的危化品事故因果关系事件对与危化品事故领域本体中元组的相似度,具体来说:
首先将所有词汇都映射到同一个向量空间,采用词向量嵌入,利用样本单词和该样本单词的上下文一起训练词向量,训练出的词向量包含了词的上下文语义信息;
通过计算抽取的危化品事故因果关系事件对与危化品事故领域本体中对应词向量的相似度,来判定两个事件的相似程度,并将相似的两个事件进行事件元组映射。
6.一种危化品事故事理图谱的构建系统,其特征在于,所述系统包括:
模式层构建模块,用于通过预先设置的事件定义信息构建危化品事故事理图谱的模式层;
数据库模块,用于以国内外重大危化品事故为基础,根据危化品事故的特点构建危化品事故调查报告资料库;
语法分析与数据预处理模块,用于对收到的危化品事故调查报告文本进行语法分析与数据预处理;
事件对抽取模块,用于通过所述模式层构建模块构建的模式层从处理后的危化品事故调查报告文本中抽取危化品事故因果关系事件对;
事件元组映射模块,用于将抽取的危化品事故因果关系事件对与危化品事故领域本体进行事件元组映射;
危化品事故事理图谱生成模块,用于根据事件元组映射,将危化品事故因果关系事件对中的所有事件改写成危化品事故领域本体中相似度最高的元组,形成危化品事故事理图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663568.6A CN115221332A (zh) | 2022-06-13 | 2022-06-13 | 一种危化品事故事理图谱的构建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663568.6A CN115221332A (zh) | 2022-06-13 | 2022-06-13 | 一种危化品事故事理图谱的构建方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115221332A true CN115221332A (zh) | 2022-10-21 |
Family
ID=83607427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663568.6A Pending CN115221332A (zh) | 2022-06-13 | 2022-06-13 | 一种危化品事故事理图谱的构建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221332A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109142A (zh) * | 2023-04-03 | 2023-05-12 | 航科广软(广州)数字科技有限公司 | 基于人工智能的危险废物监管方法、系统及装置 |
CN116450776A (zh) * | 2023-04-23 | 2023-07-18 | 北京石油化工学院 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
-
2022
- 2022-06-13 CN CN202210663568.6A patent/CN115221332A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109142A (zh) * | 2023-04-03 | 2023-05-12 | 航科广软(广州)数字科技有限公司 | 基于人工智能的危险废物监管方法、系统及装置 |
CN116450776A (zh) * | 2023-04-23 | 2023-07-18 | 北京石油化工学院 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN115221332A (zh) | 一种危化品事故事理图谱的构建方法与系统 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN114491018A (zh) | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN117670017B (zh) | 一种基于事件的风险识别方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |