CN117151222B - 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 - Google Patents
领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117151222B CN117151222B CN202311192542.9A CN202311192542A CN117151222B CN 117151222 B CN117151222 B CN 117151222B CN 202311192542 A CN202311192542 A CN 202311192542A CN 117151222 B CN117151222 B CN 117151222B
- Authority
- CN
- China
- Prior art keywords
- attribute
- entity
- knowledge
- emergency case
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims description 62
- 238000002372 labelling Methods 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000013507 mapping Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 238000011161 development Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000006798 recombination Effects 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 4
- 238000012856 packing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 13
- 238000013136 deep learning model Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000018109 developmental process Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 101150033242 lpxC gene Proteins 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 101150016099 omcA gene Proteins 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质,属于应急决策领域,为了解决突发事件案例信息抽取适用性及提高突发事件案例信息抽取效率的问题,要点是将收集到的历史突发事件案例信息在知识层面进行组织和表示;构建突发事件案例标注语料库;构建融合领域知识的学习模型,在第一阶段通过学习模型得到实体的类别标签,构建融合领域知识的类别属性训练模型,每个属性类别构建一个类别属性训练模型,在第二阶段通过类别属性训练模型得到实体属性的类别标签,效果是能够实现对突发事件案例的实体、属性和关系抽取。
Description
技术领域
本发明属于应急决策领域,具体涉及一种领域知识引导的突发事件案例实体属性及其关系抽取方法。
背景技术
大量的突发事件案例数据以自由文本的形式存储在文件或数据库中,且缺乏深度梳理,利用率较低。随着互联网应用的快速发展,可通过网络获取的数据量呈指数级增长,因此,如何从这些海量数据中快速、准确地分析出真正有用的信息,避免大量无关信息的打扰显得尤为关键和紧迫。
随着数据挖掘、文本挖掘等技术的发展,一些研究人员开始尝试通过计算机处理技术提取相关信息,以此来提高案例信息抽取的性能和效率。目前,深度学习在计算机视觉、图像处理等领域的成功已经得到广泛认可,同时在信息抽取方面也获得了显著的成果。
然而,突发事件的案例数据大多为新闻报道和事故调查报告,文字表述语义丰富,领域知识性较强,且应急实体及其描述属性交错繁杂,大量的实体及其属性无法有效的关联。面对领域专业性较强的文本数据,单纯的数据驱动深度学习模型由于缺少领域知识的引导,在面向专业性较强的突发事件案例抽取具有一定的局限性。如何进一步提高信息抽取的效率,目前已成为学术界研究的热点问题。
发明内容
为了解决突发事件案例信息抽取适用性及提高突发事件案例信息抽取效率的问题,根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,包括
S1.将收集到的历史突发事件案例信息在知识层面进行组织和表示;
S2.构建突发事件案例标注语料库;
S3.构建融合领域知识的学习模型,在第一阶段通过学习模型得到实体的类别标签,构建融合领域知识的类别属性训练模型,每个属性类别构建一个类别属性训练模型,在第二阶段通过类别属性训练模型得到实体属性的类别标签;
S4.利用多评价特征对实体-属性的关联关系强弱进行多重度量,将每一重度量结果加权求和,生成关系评价矩阵和预测矩阵,得到实体和属性之间的关联关系
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S1中,将收集到的历史突发事件案例信息在知识层面进行组织和表示,包括:
将应急案例C划分成一系列情景片段:
C={S1,S2…Si}
式中,情景片段Si描述的是突发事件在一定区域范围内、一定时间段的影响事故发展趋势的所有灾害要素以及状态集合;
情景片段Si的共性知识模型的集合用M表示,对于某个突发事件,共性知识元模型m,m∈M,通过对象知识元Km,属性知识元Ka和关系知识元Kr描述;
对象知识元表示为:
Km=(Nm,Am,Rm)
式中,Nm表示突发事件案例中的实体及其属性概念集,Am表示突发事件案例中的属性状态集,Rm表示Am×Am上的映射关系集,描述突发事件案例中属性状态的变化以及相互之间的作用关系;
设a∈Am,属性知识元表示为:
Ka=(pa,da,fa)
式中,fa为状态属性变化量纲,da为测度量纲,pa为可测特征描述。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S2中,构建突发事件案例标注语料库,包括
采用正则表达式构建突发事件案例相关实体的规则抽取模板,突发事件案例是应急案例C的总和,通过对应急领域相关语料根据所述模板进行规则匹配,对于匹配所得的实体进行数据清洗,得到突发事件领域叙词表,利用突发事件领域叙词表与突发事件案例的文本进行匹配,将突发事件案例的文本涉及到的实体进行分类标注,其中,分类是按照步骤S1中的知识层面组织和表示进行分类;
以依存句法的核心谓语动词作为中心,选择合适的匹配规则得到突发事件案例的文本中的实体与属性,利用关键字匹配规则将实体属性进行分类,得到较为完备的序列标签,对突发事件案例的文本涉及到的实体与属性进行分类标注,其中,分类是按照步骤S1中的知识层面组织和表示进行分类;
将突发事件案例的文本涉及到的实体进行分类标注以及突发事件案例的文本涉及到的实体与属性进行分类标注取并集,得到突发事件案例标注语料库。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,将得到的突发事件案例标注语料库中的标注语料人工核对,将核对后的标注语料构建为基于人机协同方式构建的突发事件案例标注语料库。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S3中的融合领域知识的学习模型,包括预训练模型RoBERTa-WWM、编码器、BiLSTM模型以及CRF模型,其中,在第一阶段通过学习模型得到实体的类别标签,包括
a)将突发事件案例标注语料库中实体标签的标注语料进行分词,将每一句标注语料分割为基本单元,基本单元包括字符和/或词语,通过RoBERTa-WWM预训练模型的tokenizer()函数将每个字符和/或词语映射为唯一的token;
b)对token进行padding操作,得到形状为(batch_size,seq_length)的第一张量表示,其中,batch_size是批次大小,seq_length是序列最大长度;
c)将第一张量表示输入编码器进行向量编码,再通过多头自注意力机制和前馈神经网络进行信息交互和重组,编码器输出形状为(batch_size,seq_length,hidden_size)的第二张量表示,其中hidden_size是模型中的隐藏节点数目;
d)将第二张量表示输入BiLSTM模型中进行上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的第三张量表示;
e)将第三张量表示输入CRF模型中,采用Viterbi算法或者前向后向算法,计算每一个实体标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体的类别标签,并展开为字级别的BIO标签。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S3中的融合领域知识的类别属性训练模型,包括预训练模型RoBERTa-WWM、编码器、BiLSTM模型以及CRF模型,每个属性类别构建一个类别属性训练模型,在第二阶段通过类别属性训练模型得到实体属性的类别标签,包括
a)将类别属性训练模型所训练类型的属性标签进行分词,将每一句标注语料分割为基本单元,基本单元包括字符和/或词语,通过RoBERTa-WWM预训练模型的tokenizer()函数将每个字符和/或词语映射为唯一的token;
b)对token进行padding操作,得到形状为(batch_size,seq_length)的第一张量表示,其中,batch_size是批次大小,seq_length是序列最大长度;
c)将第一张量表示输入编码器进行向量编码,再通过多头自注意力机制和前馈神经网络进行信息交互和重组,编码器输出形状为(batch_size,seq_length,hidden_size)的第二张量表示,其中hidden_size是模型中的隐藏节点数目;
d)将第二张量表示输入BiLSTM模型中进行上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的第三张量表示;
e)将第三张量表示输入CRF模型中,采用Viterbi算法或者前向后向算法,计算每一个属性标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体属性的类别标签,并展开为字级别的BIO标签。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S4具体包括
S41.对于每个属性其所对应有m个实体,在每个评价特征下计算属性与m个实体的关系强弱度量值,包括
(a)通过分析实体与属性所在句子的文本距离、依存句法结构、短语句法结构揭示实体与属性之间的语义关系,并通过距离的计算,得到属性与实体的关系强弱度量;
(b)选取基于情景的共现特征和基于历史案例库的关联特征描述实体与属性的相关性,揭示实体与属性之间更深层次的联系,并将评价特征转化为得分,得到属性与实体的关系强弱度量;
(c)基于突发事件先验性知识构建领域要素信息知识库,刻画常规状态下实体的属性以及取值大小,通过与领域先验知识的匹配,得到属性与实体的关系强弱度量;
(d)对上述(a)、(b)、(c)计算的三种属性与实体的关系强弱度量结果进行加权求和,得到每个评价特征下实体与属性关系强弱的度量结果;
S42.每个属性在每个评价特征下得到评价向量V={a1,a2,…,am},每个句子有n个属性,则在每个评价特征下构建一个m×n的实体-属性关系评价矩阵M,M={V1,V2,…,Vn},评价矩阵每列的数据表示属性对每个实体生成的“实体-属性”对在多特征融合后得到的关系度量值,每列中的最大值为属性与实体存在关联关系。
S43.将实体-属性关系评价矩阵M映射为实体-属性关系预测矩阵,预测矩阵A中每个元素aij的计算公式如式(1)所示:
式中,sij表示评价矩阵S中第i行第j列元素,Vj表示评价矩阵中第j个列维向量;
S44.若在实体-属性关系评价矩阵M某个位置的元素为当前列的最大值,对应的属性与实体的关联关系最大,在预测矩阵A中,每列只有一个位置出现“1”,属性只能与一个实体存在关联关系,预测得到具有关联关系的实体-属性对。
根据本申请一些实施例的领域知识引导的突发事件案例实体属性及其关系抽取方法,步骤S4中还包括利用遗传算法对加权求和的权重进行优化,包括
将实体与属性关联关系预测的准确率作为遗传算法的适应度函数,适应度函数公式如式(2)所示:
式中,N表示训练语料中所有属性的数量,T(x)表示基于第x条染色体中的权重组合进行评价矩阵和预测矩阵的构建并正确预测关联关系的属性的数量。
本申请实施例还提供一种电子设备,所述电子设备包括:一个或多个处理器,存储器,以及,一个或多个程序;其中,所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行本申请实施例任一技术方案。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行本申请实施例任一技术方案。
本发明的有益效果:本发明能够实现对突发事件案例的实体、属性和关系抽取。
在第一方面,将案例切分为多个情景,基于突发事件知识元模型并利用“实体/属性”识别以及“实体-属性”关系抽取技术将知识元进行实例化,得到该突发事件案例的结构化信息。基于知识引导的方式将实体映射为实例化知识元,将突发事件“实体/属性”识别转化为知识元属性的识别过程,引导不同知识元属性识别训练模型的构建。
在第二方面,基于深度学习模型对突发事件文本案例进行细粒度实体标签的语义学习及分类,利用先验性知识对识别出的实体进行知识的映射,减少误差传播为两阶段学习模型带来的影响。
在第三方面,基于知识引导的方式将实体映射为实例化知识元,将突发事件“实体/属性”识别转化为知识元属性的识别过程,引导不同知识元属性识别训练模型的构建。基于前一阶段训练好的突发事件实体识别模型进一步构建多类别属性识别训练模型,并基于远程监督方法构建特定知识元的语料,每个模型将针对特定知识元进行相关属性上下文信息的建模和语义特征的提取,提高突发事件案例中属性识别的准确性和可靠性。
在第四方面,利用权重优化模型找到多个特征下关系度量值的最优权重分配方式,并在多特征融合后得到最终“实体-属性”关系度量值并将实体与属性进行关联关系的匹配;利用共性知识元模型以及映射规则,进行属性状态到属性的映射,从而得到描述突发事件案例的实例化知识元。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明实施例提供的一种领域知识引导的突发事件案例实体属性及其关系抽取方法的流程示意图;
图2是本发明实施例提供的一种融合领域知识的两阶段学习模型(IDK-RoBERTa-BiLC)的模型架构示意图;
图3是本发明实施例提供的一种基于多特征融合的实体与属性关联关系抽取方法框架示意图。
具体实施方式
下面通过参考附图详细描述本申请的实施例,所述实施例的示例在附图中示出,本申请提供一种领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质,用以解决突发事件案例信息抽取适用性及提高突发事件案例信息抽取效率的问题。其中,方法、电子设备和存储介质是基于同一技术构思的,解决问题的原理相似,因此各主题的实施可以相互参见,重复之处不再赘述。
针对现有技术的以上缺陷或改进需求,本发明提供了一种领域知识引导的突发事件案例实体属性及其关系抽取方法,从数据与知识驱动的视角出发,利用领域知识引导的方式实现模型对案例中实体和属性的语义特征进行有效地学习,由此解决传统模型对于突发事件案例抽取具有局限性的问题,提升突发事件案例信息抽取的效率。
为实现上述目的,按照本发明的一个方面,提供了一种基于数据与知识驱动的细粒度实体及其属性识别方法,构建融合领域知识的两阶段学习模型(IDK-RoBERTa-BiLC),利用深度学习模型和领域知识提高突发事件案例实体属性识别效果,具体的,本发明提出一种领域知识引导的突发事件案例实体属性及其关系抽取方法,从数据与知识驱动的视角,首先基于数据与知识驱动对细粒度实体及其属性进行识别,同时,提出基于多特征融合的实体与属性关联关系抽取方法,在不依靠大规模标注语料库的支持下,完成对突发事件案例实体及其属性关联关系的抽取。帮助应急决策者快速了解事件发生和发展的过程,为应急决策提供支持。
如图1所示是本发明实施例提供的一种领域知识引导的突发事件案例实体属性及其关系抽取方法的流程示意图,包括:
(1)将收集到的历史案例信息在知识层面进行组织和表示。突发事件案例是对历史的突发事件情景的真实记述,包含了大量客观事物及其状态变化信息,使用深度学习模型简单直接地从案例中进行标签语义信息的学习和分类,将会降低模型识别效率和准确率,最终得到大量繁杂的数据,不能有效地对案例进行结构化表示。因此在对突发事件案例进行信息抽取之前,需要在知识层面对其进行合理的组织和表示。知识是实体的抽象,独属于应急管理领域的知识。
在应急管理领域,情景描述了突发事件中客观事物状态信息和发展态势,可以根据事件中承灾客体或者承灾体的状态变化将应急案例C划分成一系列情景片段:C={S1,S2…Si}。其中,情景片段Si描述的是突发事件在一定区域范围内、一定时间段的影响事故发展趋势的所有灾害要素以及状态集合。
而情景片段Si的共性知识元是集知识、数据、信息与规则为一体的混合模型,是对某一客观事物的基本概念、属性特征及其关系的一种抽象描述,也是对事物共性特征的高度概括。该模型的集合可用M表示,对于某个突发事件共性知识元模型m(m∈M),可以从对象知识元Km(表示第m类的知识元),属性知识元Ka和关系知识元Kr三部分进行描述。对象知识元可以表示为:Km=(Nm,Am,Rm),其中Nm表示突发事件案例中的实体及其属性概念集;Am表示突发事件案例中的属性状态集;Rm表示Am×Am上的映射关系集,描述突发事件案例中属性状态的变化以及相互之间的作用关系。设a∈Am(m∈M),则属性知识元可以表示为:Ka=(pa,da,fa),其中fa为状态属性变化量纲,da为测度量纲,pa为可测特征描述。
本发明使用情景理论以及知识元模型来对突发事件案例进行刻画,将突发事件案例划分为四层表示结构,从上到下依次是案例层、情景层、知识元层以及属性层,并在此基础上提取本发明实体及其属性的抽取框架。
(2)面对复杂且专业化领域如应急管理领域,大规模标注语料库的构建需要耗时耗力,且人工标注质量参差不齐,难以保证标注的一致性和准确性。本发明基于人机协同方式构建突发事件案例(应急案例C的总和)标注语料库,为深度学习模型的大规模语义训练提供数据支持。
本发明将突发事件案例的“实体/属性”识别问题看作是一个序列标注问题,采用BIO(Begin,Inside,Outside)标签策略对突发事件案例原始语料进行表示。
此外,本发明采用正则表达式构建突发事件案例相关实体的规则抽取模板,通过对应急领域相关语料(预案等相关语料)根据所述模板进行规则匹配,对于匹配所得的实体进行一系列数据清洗,得到突发事件领域叙词表(过程自动化实现)。利用突发事件领域叙词表则可与突发事件案例的文本进行匹配,自动将突发事件案例的文本涉及到的实体进行分类标注,其中,分类是按照上述四层结构进行分类。
例如:容量为20t(属性)的槽罐车在高速公路发生追尾事件。
槽罐车是承灾设备,属于Nm,高速公路是承灾环境,属于Nm,容量为20t是承灾设备的属性,属于Am。
同时地,以依存句法的核心谓语动词作为中心,选择合适的匹配规则就可以有效得到突发事件案例的文本中的实体与属性,然后利用关键字匹配规则将实体属性进行分类,从而得到较为完备的序列标签,对突发事件案例的文本涉及到的实体与属性进行分类标注;
将突发事件案例的文本涉及到的实体进行分类标注和对突发事件案例的文本涉及到的实体与属性进行分类标注取并集,得到标注语料。
上述所用的两种数据自动标注方式的性能依赖于规则模板的完备性,且不具有泛化能力,最终得到的标注数据还需要人工进一步的核对。核对后的标注语料将放入突发事件案例标注语料库中,实现基于人机协同方式构建突发事件案例标注语料库。(3)针对突发事件案例中实体及各类属性标签信息繁杂、语义距离相近,深度学习模型难以进行有效的语义特征提取的问题,本发明构建融合领域知识的两阶段学习模型(IDK-RoBERTa-BiLC),通过类别属性训练模完成各类别实体属性的抽取。
本发明实施例提供的一种融合领域知识的两阶段模型(IDK-RoBERTa-BiLC)的模型架构示意图如图2所示。在第一阶段称为学习模型,在第二阶段称为类别属性训练模型,其模型具有相同的结构。在第一阶段中,突发事件案例的细粒度实体识别任务可视为序列标注任务,将字级别的文本以及标签输入到预训练模型RoBERTa-WWM中进行训练,从而获取知识增强语义表示。并利用BiLSTM-CRF模型对实体上下文及其序列信息进行学习,以此提高实体识别准确率,结合上述两种模型对突发事件案例中细粒度实体进行识别。
本发明在案例表示框架和案例标注语料库的基础上,基于RoBERTa-WWM进行细粒度实体识别,该方法所用到的模型有三层数据处理层,包括基于RoBERTa-WWM模型的数据嵌入层、基于BiLSTM的特征提取层以及基于CRF的标签输出层,细粒度实体识别步骤如下:
a)将文本序列(包括实体标签的标注语料)进行分词,将整句文本(一句标注语料)分割为一个个基本单元(如字符和/或词语)。采用RoBERTa-WWM预训练模型提供的tokenizer()函数将上一步骤的分词所得的每个字符或词语映射为唯一的token(每句话token数等于分词数)。
b)为了保持序列长度一致,需要对输入序列(token)进行padding操作。即对于长度不足的序列,在末尾添加一些特殊符号使其长度达到序列最大长度。将所有文本序列堆叠在一起,得到一个形状为(batch_size,seq_length)的张量表示,其中batch_size是批次大小,seq_length是序列最大长度。
c)上一步骤产出的文本张量(张量表示)输入到编码器中进行处理,对张量表示的每一个张量进行向量编码,对向量编码通过多头自注意力机制和前馈神经网络进行信息交互和重组。RoBERTa-WWM编码器将输出一个形状为(batch_size,seq_length,hidden_size)的张量表示,并作为下一层(BiLSTM)的输入。其中hidden_size是模型中的隐藏节点数目。
d)将这些向量(张量表示)输入到BiLSTM模型中用于进一步上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的张量表示。
e)最后再将包含上下文信息的张量表示输入到CRF模型中,模型将采用Viterbi算法或者前向后向算法等方法,计算每一个实体标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体的类别标签,并展开为字级别的BIO标签。假设突发事件案例标注语料库中的文本语料集合可以表示为C={S1,S2,…,Sn},其中n表示语料的数量,Sn是经过文本案例分句处理后的某一句话。经过分词处理可将Sn切分为多个词汇,即其中m表示分词数量,M'表示句子Sn的长度;再经过oBERTa-WWM预训练模型的tokenizer()函数处理可将字符或词汇转化为token, Sn表示的是某一句标注语料。S'n表示某一句标注语料的token的集合。最终经过RoBERTa-WWM预训练模型的编码器的处理,每一个token包含768个维度,即tm={q1,q2,q3,…,q768}。通过双向长短时记忆神经网络模型的训练,每个token的每个维度将包含更多的序列特征,即在编码器假设中的某个token的集合tm由{q1,q2,q3,…,q768}转化为{q'1,q'2,q'3,…,q'768}(加上了上下文信息,token的每一个位置的值发生了改变)。经过上述两层模型处理后,Sn可表示为S'n={h1,h2,…,hm},其中m为句子Sn中token的数量且m≤M,hm为BiLSTM模型输出的词级别的向量表示。经过CRF模型的处理,输出该句子中每个词的最大概率类别标签并展开为字级别的BIO标签,记为L'n={l'1,l'2,…,l'M}。l'1表示第1个字的标签。
经过上述三层模型的相互作用和信息传递,最终构成了整个基于RoBERTa-WWM的细粒度实体识别模型,从而完成对突发事件案例中实体的有效识别。
第二阶段中,本发明在第一阶段的基础上针对不同的知识元构建类别属性训练模型。第二阶段要识别属性,每个属性类别构建一个多类别属性训练模型,一个模型将针对某一类别知识元(实体)进行相关属性的上下文信息的建模和语义特征的提取,得到这一个模型的对该这一类别实体的属性的识别标签。
a)对于一个模型,将文本序列(包括该模型所训练的特定类别的属性标签)进行分词,将整句文本(一句标注语料)分割为一个个基本单元(如字符和/或词语)。采用RoBERTa-WWM预训练模型提供的tokenizer()函数将上一步骤的分词所得的每个字符或词语映射为唯一的token(每句话token数等于分词数)。
b)为了保持序列长度一致,需要对输入序列(token)进行padding操作。即对于长度不足的序列,在末尾添加一些特殊符号使其长度达到序列最大长度。将所有文本序列堆叠在一起,得到一个形状为(batch_size,seq_length)的张量表示,其中batch_size是批次大小,seq_length是序列最大长度。
c)上一步骤产出的文本张量(张量表示)输入到编码器中进行处理,对张量表示的每一个张量进行向量编码,对向量编码通过多头自注意力机制和前馈神经网络进行信息交互和重组。RoBERTa-WWM编码器将输出一个形状为(batch_size,seq_length,hidden_size)的张量表示,并作为下一层(BiLSTM)的输入。其中hidden_size是模型中的隐藏节点数目。
d)将这些向量(张量表示)输入到BiLSTM模型中用于进一步上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的张量表示。
e)最后再将包含上下文信息的张量表示输入到CRF模型中,模型将采用Viterbi算法或者前向后向算法等方法,计算每一个属性标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体属性的类别标签,并展开为字级别的BIO标签。
从而提高突发事件案例中属性识别的准确性和可靠性,同时避免因标签数据不均衡而导致模型在预测时偏向于出现频率较高的标签,而忽略掉一些重要的标签的问题。
面向特定知识元属性的训练模型应该避免其他知识元相关文本语料属性信息的干扰,因此在构建特定知识元训练语料库时,需要将上一步(第一阶段)得到的某知识元下的实体链接到突发事件案例标注语料库文本的实体中,然后将链接成功的标注语料放入该实体的类别所对应的类别属性训练模型的训练语料库,作用是只保留该类别实体的属性的相关标注信息,从而使模型专注于该类型属性的边界识别任务。
在第二阶段中,由于深度学习模型具有大量参数,当训练数据集较小时,容易导致模型在训练过程中出现过拟合问题。因此,文本将一些公开数据(除了突发事件案例文本的其他数据,非突发事件案例,比如关于承灾设备的一些行为的相关案例数据,如槽罐车行驶在高速公路)放入特定知识元训练语料库中(0063段的语料库),通过增大数据样本的方式使得模型学习到更多的特征,从而提高其泛化性能,减少过拟合出现的可能性。
此外,由于实体识别和属性识别是相互依赖的任务,分成两个阶段会引起误差传播,第一阶段中错误的实体标注会影响到第二阶段属性识别和分类的准确度。因此针对误差传播的问题,本发明在两阶段学习模型中设置了实体映射层,通过无意义过滤、规则修正以及叙词表匹配将第一阶段识别错误的信息进行修正,再基于知识引导的方式构建基于知识元类别的不同属性训练模型(看实体所属类别,构建这一类别的模型,第一阶段识别出多少个实体类别,第二阶段就构建多少个属性训练模型),得到针对不同知识元的属性训练模型。
一方面利用先验性知识对通过RoBERTa-WWM-BiLSTM-CRF模型识别出来的实体结果进行修正,过滤无关或者分类错误的实体信息;另一方面,将实体映射为实例化知识元,将突发事件“实体/属性”识别转化为知识元属性的识别过程,引导不同知识元属性识别训练模型的构建。
综上,本发明提出数据与知识驱动的细粒度实体及其属性识别方法,将领域知识和深度学习模型的构建进行有机结合,有效提升了应急案例信息抽取的精准率和召回率。
(4)利用多评价特征对实体属性的关联关系强弱进行度量,同时利用遗传算法对多评价特征的权重进行优化,生成关系评价矩阵和预测矩阵,从而得到实体和属性之间的关联关系。
本发明实施例提供的一种基于多特征融合的实体与属性关联关系抽取方法框架示意图如图3所示。
首先,选取多种评价特征,分别对实体与属性之间的关联关系进行度量。这些评价特征是否有效取决于能否根据突发事件案例的文本特性对实体与属性关联关系进行“鉴别”。本文从文本句法结构、实体与属性相关性以及实体与属性先验知识三个方面选取评价特征,包括文本距离、依存距离、短语结构树距离、实体与属性共现分析、关联规则分析、先验知识匹配等,利用这些特征对实体与属性的关联关系的度量。
实体与属性的上下文句法结构是实体与属性语义关系识别的关键因素之一,基于突发事件案例的领域文本结构和语法特征,为了提高关系抽取性能,本发明通过分析实体与属性所在句子的文本距离、依存句法结构、短语句法结构揭示实体与属性之间的语义关系,并通过距离的计算对实体与属性的关联关系进行度量。
实体与属性的相关性度量也可作用与“实体-属性”关联关系的识别任务中。除了文本位置信息,“实体-属性”对的出现次数和频率就蕴含着隐藏的关联关系。本发明选取基于情景的共现特征和基于历史案例库的关联特征描述实体与属性的相关性,揭示实体与属性之间更深层次的联系,并将评价特征转化为得分对实体与属性关系强弱进行度量。
上文研究的文本句法结构特征和实体与属性相关性特征均是基于文本数据进行分析和挖掘,在数据层面提取实体与属性关联关系的评价特征。应急管理领域随着案例库的扩充和知识库的完善,已经积累了大量的领域知识辅助决策主体进行应急救援和决策,具有一定的专业性和先验性。因此,本发明基于突发事件先验性知识构建领域要素信息知识库,刻画常规状态下实体的属性以及取值大小。通过与领域先验知识的匹配,对实体与属性关系强弱进行度量,引导实体与属性关联关系的抽取。
对度量结果进行加权求和。
其次,构建各特征下实体与属性关联关系的评价矩阵以及预测矩阵,并确认各特征的权重优化策略以及适应度函数,本文采用遗传算法对实体及其属性各特征评价权重进行优化,从而使整个模型抽取性能达到更好。
对于每个“实体-属性”对,需要将其在各个评价特征下进行计算并获得各个特征的关系度量值。同时对于每个属性而言,其所对应有m个实体,需要在每个评价特征下计算该属性与m个实体关系的度量值,则每个属性在每个评价特征下可以得到评价向量V={a1,a2,…,am}。由于每个句子有n个属性,则在每个评价特征下可构建一个m×n的“实体-属性”关系评价矩阵,即M={V1,V2,…,Vn}。
评价矩阵每列的数据表示属性对每个实体生成的“实体-属性”对在多特征融合后得到的关系度量值,每列中的最大值即认为该属性与该实体存在关联关系。
为了更加直观地描述实体与属性的预测关联关系,“实体-属性”关系评价矩阵需要进一步映射为“实体-属性”关系预测矩阵。预测矩阵A中每个元素aij的计算公式如式(1)所示:
其中,sij表示评价矩阵S中第i行第j列元素,Vj表示评价矩阵中第j个列维向量。若在评价矩阵中某个位置的元素为当前列的最大值,认为对应的属性与该实体的关联关系最大。在预测矩阵中,每列只有一个位置出现“1”,即认为属性只能与一个实体存在关联关系。最终可预测得到具有关联关系的“实体-属性”对。
权重设定:为了更加合理地设置6个特征的评价权重从而得到最优“实体-属性”关联关系预测准确率,本发明基于遗传算法对评价特征的权重进行优化,将模型进行实体与属性关联关系预测的准确率作为遗传算法的适应度函数,适应度函数公式如式(2)所示:
其中N表示训练语料中所有属性的数量,由于需要将每个属性匹配到具体一个实体中,因此N也表示在训练语料中存在关联关系的“实体-属性”对的数量。T(x)表示基于第x条染色体中的权重组合进行评价矩阵和预测矩阵的构建并正确预测关联关系的属性的数量。
最后,利用共性知识元模型及属性映射规则,将属性状态映射到属性,将抽取得到的实体属性转化为描述突发事件案例的实例化知识元,同时利用领域知识对属性缺失值进行完善,从而实现文本案例中实体属性关系的抽取以及案例的结构化表示。
对于可测度属性,可利用属性状态中的单位信息进行状态与属性的映射;对于可描述的枚举型属性,可基于属性状态与属性枚举值的匹配实现映射;对于可描述的字符型属性,则可以进行一些关键字符的匹配实现映射。此外,还可使用人机协同的方式完成错误映射的修正。
相较于目前主流的命名实体识别模型,本发明所构建的融合领域知识的两阶段学习模型(IDK-RoBERTa-BiLC)在实体和属性的抽取中取得了更好的效果,同时所提出的基于多特征融合的实体与属性关联关系抽取方法可以有效地在关系类别较多、数据语料较小的情况下完成实体与属性关系的匹配。
本发明提出融合领域知识的两阶段学习模型RoBERTa+BiLSTM+CRF(IDK-RoBERTa-BiLC),选择危化品泄漏事件以及危化品火灾爆炸事件案例作为实验数据,以情景为单位将突发事件案例进行切分,构建突发事件案例标注语料库,并按照8:1:1的比例分为训练集、验证集和测试集进行实验。
BERT-BiLSTM-CRF模型、RoBERTa-WWM-BiLSTM-CRF模型与Inc-IDK-RoBERTa-BiLC模型为传统的信息抽取方法以及抽取模型,由于缺少领域知识的引导,在面向专业性较强的突发事件案例的抽取具有一定的局限性。而本发明提出的融合领域知识的两阶段学习模型IDK-RoBERTa-BiLC在P值、R值和F1值相比于上述的三种主流模型均有较明显提升,F1值比BERT-BiLSTM-CRF和RoBERTa-WWM-BiLSTM-CRF模型分别提升了8.52%和5.49%,验证了本发明所提方法的有效性,在突发事件案例的抽取中利用领域知识引导的方式进行信息抽取具有更好的效果。
表1四组模型在测试集上的表现(单位:%)
实验将模型对每个标签的识别结果进行输出,模型1、2、3、4分别对应BERT-BiLSTM-CRF、RoBERTa-WWM-BiLSTM-CRF、Inc-IDK-RoBERTa-BiLC和IDK-RoBERTa-BiLC。
本发明提出的融合领域知识的两阶段学习模型IDK-RoBERTa-BiLC在绝大部分标签的学习和识别上均有正向提升的效果,对于部分属性的抽取效果提升幅度较大。相较于其他三种模型,IDK-RoBERTa-BiLC模型在budA属性上提升26.34%,在envA属性上提升18.70%,在budE属性上提升11.87%,在eqpA属性上提升8.35%,验证了本发明所提方法在关系类别较多、数据语料较小的情况下完成实体与属性关系匹配,具有较高的可行性和有效性。
表2四组模型在各个标签的抽取F1值(单位:%)
由上述,本发明基于依存句法、正则表达式、应急知识库匹配等方法,制定标注策略,构建突发事件文本案例标注语料库;
基于深度学习模型对突发事件文本案例进行细粒度实体标签的语义学习及分类;
利用先验性知识对识别出的实体进行知识的映射,减少误差传播为两阶段学习模型带来的影响;
构建类别属性识别模型,训练得到多个实体属性识别模型,完成对突发事件案例实体及其属性信息的抽取。
优选地,基于依存句法、正则表达式、应急知识库等方法,制定标注策略,构建突发事件文本案例标注语料库,包括:
将案例切分为多个情景,基于突发事件知识元模型并利用“实体/属性”识别以及“实体-属性”关系抽取技术将知识元进行实例化,得到该突发事件案例的结构化信息;
提出人机协同方式的突发事件案例语料标注策略,通过对突发事件文本案例进行句法分析和词性分析,在此基础上利用规则模板构建突发事件领域叙词表从而辅助进行数据标注,采用BIO标注规则对领域特定实体进行标注,构建突发事件文本案例标注语料库。
优选地,基于深度学习模型对突发事件文本案例进行细粒度实体标签的语义学习及分类,包括:
采用RoBERTa-wwm模型作为数据嵌入层的基础,将文本语料中的每个词都转换成固定长度的向量表示,这些向量仍然保留着每个词汇的位置信息;
采用BiLSTM模型作为特征提取层的基础,进一步进行上下文相关特征的学习,捕获实体与周围词汇的相关语义信息,处理突发事件文本案例的长距离依赖问题;
采用CRF模型作为标签输出层的基础,输出该句子中每个词的最大概率类别标签并展开字级别的BIO标签,最终通过计算整个模型的损失函数,并使用反向传播算法来更新所有可训练参数。
优选地,利用先验性知识对识别出的实体进行知识的映射,减少误差传播为两阶段学习模型带来的影响,包括:
在两阶段训练模型中设置了实体映射层,利用先验性知识,通过无意义过滤、规则修正以及叙词表匹配对RoBERTa-wwm-BiLSTM-CRF模型识别出来的实体结果进行修正,过滤无关或者分类错误的实体信息;
基于知识引导的方式将实体映射为实例化知识元,将突发事件“实体/属性”识别转化为知识元属性的识别过程,引导不同知识元属性识别训练模型的构建。
优选地,构建多类别属性识别模型,训练得到多个实体属性识别模型,完成对突发事件案例实体及其属性信息的抽取,包括:
基于前一阶段训练好的突发事件实体识别模型进一步构建多类别属性识别训练模型,并基于远程监督方法构建特定知识元的语料,每个模型将针对特定知识元进行相关属性上下文信息的建模和语义特征的提取,提高突发事件案例中属性识别的准确性和可靠性。
按照本发明的另一方面,提供了一种基于多特征融合的实体与属性关联关系识别方法,利用先验性知识以及案例的文本结构,将实体与属性关系的强弱进行量化,从而实现实体和属性的关联,包括:
从数据和领域知识视角出发对关系进行刻画,不仅考虑了文本结构特征,还通过评价实体与属性相关性以及实体所蕴含的领域知识来度量实体与属性之间的关联关系;
利用权重优化模型找到多个特征下关系度量值的最优权重分配方式,并在多特征融合后得到最终“实体-属性”关系度量值并将实体与属性进行关联关系的匹配;
利用共性知识元模型以及映射规则,进行属性状态到属性的映射,从而得到描述突发事件案例的实例化知识元。
优选地,从数据和领域知识视角出发对关系进行刻画,不仅考虑了文本结构特征,还通过评价实体与属性相关性以及实体所蕴含的领域知识来度量实体与属性之间的关联关系,包括:
从文本句法结构、实体与属性相关性以及实体与属性先验知识三个方面选取评价特征,得到文本距离、依存距离、短语结构、基于情景的共现、基于历史案例库的关联、先验知识的六个评价特征,分别对实体与属性之间的关联关系进行度量,这些评价特征是否有效取决于能否根据突发事件案例的文本特性对实体与属性关联关系进行“鉴别”。
优选地,利用权重优化模型找到多个特征下关系度量值的最优权重分配方式,并在多特征融合后得到最终“实体-属性”关系度量值并将实体与属性进行关联关系的匹配,包括:
构建各特征下实体与属性关联关系的评价矩阵以及预测矩阵,并确认各特征的权重优化策略以及适应度函数;
采用遗传算法对实体及其属性各特征评价权重进行优化,使整个模型抽取性能达到更好。
优选地,利用共性知识元模型以及映射规则,进行属性状态到属性的映射,从而得到描述突发事件案例的实例化知识元,包括:
利用共性知识元模型及属性映射规则,将属性状态映射到属性,将抽取得到的实体属性转化为描述突发事件案例的实例化知识元,同时利用领域知识对属性缺失值进行完善,实现文本案例的结构化。
突发事件案例情景所涉及的领域知识众多,涵盖的信息也混乱繁杂,并且会出现实体重叠、数据稀疏、数据分布不均衡、语义边界模糊、实体与属性指代关系模糊等问题,传统的信息抽取方法以及抽取模型由于缺少领域知识的引导,在面向专业性较强的突发事件案例的抽取具有一定的局限性。
本发明涉及一种领域知识引导的突发事件案例实体属性及其关系抽取方法,与现有技术相比弥补了突发事件案例信息抽取无领域知识引导从而抽取效果不佳的缺陷。本发明包括以下步骤:将收集到的历史案例信息在知识层面进行组织和表示;基于人机协同方式构建突发事件案例标注语料库;构建融合领域知识的两阶段学习模型,通过多类别训练模型完成各类别实体属性的抽取;利用多评价特征对实体属性的关联关系强弱进行度量;利用遗传算法对多评价特征的权重进行优化,生成关系评价矩阵和预测矩阵,从而得到实体和属性之间的关联关系。通过本发明能够利用领域先验性知识在数据稀缺的情况下,提高信息抽取的效果,帮助应急决策者快速了解事件发生和发展的过程。
基于以上实施例,本申请实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器,存储器,以及,一个或多个程序;其中,所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行以上实施例提供的所述方法。
基于以上实施例,本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机程序,所述计算机程序被计算机执行时,使得计算机执行以上实施例提供的所述方法。
其中,存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (7)
1.一种领域知识引导的突发事件案例实体属性及其关系抽取方法,其特征在于,包括
S1.将收集到的历史突发事件案例信息在知识层面进行组织和表示;
S2.构建突发事件案例标注语料库;
S3.构建融合领域知识的学习模型,在第一阶段通过学习模型得到实体的类别标签,构建融合领域知识的类别属性训练模型,每个属性类别构建一个类别属性训练模型,在第二阶段通过类别属性训练模型得到实体属性的类别标签;
S4.利用多评价特征对实体-属性的关联关系强弱进行多重度量,将每一重度量结果加权求和,生成关系评价矩阵和预测矩阵,得到实体和属性之间的关联关系;
其中:
步骤S3中的融合领域知识的学习模型,包括预训练模型RoBERTa-WWM、编码器、BiLSTM模型以及CRF模型,其中,在第一阶段通过学习模型得到实体的类别标签,包括
a)将突发事件案例标注语料库中实体标签的标注语料进行分词,将每一句标注语料分割为基本单元,基本单元包括字符和/或词语,通过RoBERTa-WWM预训练模型的tokenizer()函数将每个字符和/或词语映射为唯一的token;
b)对token进行padding操作,得到形状为(batch_size,seq_length)的第一张量表示,其中,batch_size是批次大小,seq_length是序列最大长度;
c)将第一张量表示输入编码器进行向量编码,再通过多头自注意力机制和前馈神经网络进行信息交互和重组,编码器输出形状为(batch_size,seq_length,hidden_size)的第二张量表示,其中hidden_size是模型中的隐藏节点数目;
d)将第二张量表示输入BiLSTM模型中进行上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的第三张量表示;
e)将第三张量表示输入CRF模型中,采用Viterbi算法或者前向后向算法,计算每一个实体标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体的类别标签,并展开为字级别的BIO标签;
步骤S3中的融合领域知识的类别属性训练模型,包括预训练模型RoBERTa-WWM、编码器、BiLSTM模型以及CRF模型,每个属性类别构建一个类别属性训练模型,在第二阶段通过类别属性训练模型得到实体属性的类别标签,包括
a)将类别属性训练模型所训练类型的属性标签进行分词,将每一句标注语料分割为基本单元,基本单元包括字符和/或词语,通过RoBERTa-WWM预训练模型的tokenizer()函数将每个字符和/或词语映射为唯一的token;
b)对token进行padding操作,得到形状为(batch_size,seq_length)的第一张量表示,其中,batch_size是批次大小,seq_length是序列最大长度;
c)将第一张量表示输入编码器进行向量编码,再通过多头自注意力机制和前馈神经网络进行信息交互和重组,编码器输出形状为(batch_size,seq_length,hidden_size)的第二张量表示,其中hidden_size是模型中的隐藏节点数目;
d)将第二张量表示输入BiLSTM模型中进行上下文相关特征的学习,并捕获实体与周围词汇的相关信息,得到包含上下文信息的第三张量表示;
e)将第三张量表示输入CRF模型中,采用Viterbi算法或者前向后向算法,计算每一个属性标签出现的概率,输出句子中每个词的最大概率,最大概率对应的标签作为实体属性的类别标签,并展开为字级别的BIO标签;
步骤S4具体包括:
S41.对于每个属性其所对应有m个实体,在每个评价特征下计算属性与m个实体的关系强弱度量值,包括
(a)通过分析实体与属性所在句子的文本距离、依存句法结构、短语句法结构揭示实体与属性之间的语义关系,并通过距离的计算,得到属性与实体的关系强弱度量;
(b)选取基于情景的共现特征和基于历史案例库的关联特征描述实体与属性的相关性,揭示实体与属性之间更深层次的联系,并将评价特征转化为得分,得到属性与实体的关系强弱度量;
(c)基于突发事件先验性知识构建领域要素信息知识库,刻画常规状态下实体的属性以及取值大小,通过与领域先验知识的匹配,得到属性与实体的关系强弱度量;
(d)对上述(a)、(b)、(c)计算的三种属性与实体的关系强弱度量结果进行加权求和,得到每个评价特征下实体与属性关系强弱的度量结果;
S42.每个属性在每个评价特征下得到评价向量V={a1,a2,…,am},每个句子有n个属性,则在每个评价特征下构建一个m×n的实体-属性关系评价矩阵M,M={V1,V2,…,Vn},评价矩阵每列的数据表示属性对每个实体生成的“实体-属性”对在多特征融合后得到的关系度量值,每列中的最大值为属性与实体存在关联关系;
S43.将实体-属性关系评价矩阵M映射为实体-属性关系预测矩阵,预测矩阵A中每个元素aij的计算公式如式(1)所示:
式中,sij表示评价矩阵S中第i行第j列元素,Vj表示评价矩阵中第j个列维向量;
S44.若在实体-属性关系评价矩阵M某个位置的元素为当前列的最大值,对应的属性与实体的关联关系最大,在预测矩阵A中,每列只有一个位置出现“1”,属性只能与一个实体存在关联关系,预测得到具有关联关系的实体-属性对。
2.根据权利要求1所述的领域知识引导的突发事件案例实体属性及其关系抽取方法,其特征在于,步骤S1中,将收集到的历史突发事件案例信息在知识层面进行组织和表示,包括:
将应急案例C划分成一系列情景片段:
C={S1,S2…Si}
式中,情景片段Si描述的是突发事件在一定区域范围内、一定时间段的影响事故发展趋势的所有灾害要素以及状态集合;
情景片段Si的共性知识模型的集合用M表示,对于某个突发事件,共性知识元模型m,m∈M,通过对象知识元Km,属性知识元Ka和关系知识元Kr描述;
对象知识元表示为:
Km=(Nm,Am,Rm)
式中,Nm表示突发事件案例中的实体及其属性概念集,Am表示突发事件案例中的属性状态集,Rm表示Am×Am上的映射关系集,描述突发事件案例中属性状态的变化以及相互之间的作用关系;
设a∈Am,属性知识元表示为:
Ka=(pa,da,fa)
式中,fa为状态属性变化量纲,da为测度量纲,pa为可测特征描述。
3.根据权利要求1-2任一项所述的领域知识引导的突发事件案例实体属性及其关系抽取方法,其特征在于,步骤S2中,构建突发事件案例标注语料库,包括
采用正则表达式构建突发事件案例相关实体的规则抽取模板,突发事件案例是应急案例C的总和,通过对应急领域相关语料根据所述模板进行规则匹配,对于匹配所得的实体进行数据清洗,得到突发事件领域叙词表,利用突发事件领域叙词表与突发事件案例的文本进行匹配,将突发事件案例的文本涉及到的实体进行分类标注,其中,分类是按照步骤S1中的知识层面组织和表示进行分类;
以依存句法的核心谓语动词作为中心,选择合适的匹配规则得到突发事件案例的文本中的实体与属性,利用关键字匹配规则将实体属性进行分类,得到较为完备的序列标签,对突发事件案例的文本涉及到的实体与属性进行分类标注,其中,分类是按照步骤S1中的知识层面组织和表示进行分类;
将突发事件案例的文本涉及到的实体进行分类标注以及突发事件案例的文本涉及到的实体与属性进行分类标注取并集,得到突发事件案例标注语料库。
4.根据权利要求3所述的领域知识引导的突发事件案例实体属性及其关系抽取方法,其特征在于,将得到的突发事件案例标注语料库中的标注语料人工核对,将核对后的标注语料构建为基于人机协同方式构建的突发事件案例标注语料库。
5.根据权利要求1所述的领域知识引导的突发事件案例实体属性及其关系抽取方法,其特征在于,步骤S4中还包括利用遗传算法对加权求和的权重进行优化,包括
将实体与属性关联关系预测的准确率作为遗传算法的适应度函数,适应度函数公式如式(2)所示:
式中,N表示训练语料中所有属性的数量,T(x)表示基于第x条染色体中的权重组合进行评价矩阵和预测矩阵的构建并正确预测关联关系的属性的数量。
6.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器,存储器,以及,一个或多个程序;其中,所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行权利要求1-5中任一项所述的方法。
7.一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311192542.9A CN117151222B (zh) | 2023-09-15 | 2023-09-15 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311192542.9A CN117151222B (zh) | 2023-09-15 | 2023-09-15 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117151222A CN117151222A (zh) | 2023-12-01 |
CN117151222B true CN117151222B (zh) | 2024-05-24 |
Family
ID=88907929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311192542.9A Active CN117151222B (zh) | 2023-09-15 | 2023-09-15 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151222B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133961B (zh) * | 2024-03-08 | 2024-08-20 | 西南石油大学 | 一种面向井喷事件的知识元抽取方法 |
CN117874261B (zh) * | 2024-03-12 | 2024-05-28 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020074017A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN114219963A (zh) * | 2021-12-31 | 2022-03-22 | 武汉大学 | 地学知识引导的多尺度胶囊网络遥感地物分类方法及系统 |
CN114519505A (zh) * | 2022-01-14 | 2022-05-20 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 铁路客站的设备管理策略生成方法及系统 |
CN116127090A (zh) * | 2022-12-28 | 2023-05-16 | 中国航空综合技术研究所 | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 |
CN116340455A (zh) * | 2023-03-31 | 2023-06-27 | 西南交通大学 | 一种高速列车转向架设计标准实体关系抽取方法 |
CN116595195A (zh) * | 2023-05-30 | 2023-08-15 | 苏州浪潮智能科技有限公司 | 一种知识图谱构建方法、装置及介质 |
CN116595155A (zh) * | 2023-07-17 | 2023-08-15 | 中国矿业大学(北京) | 基于标准数字化的突发事件智能应急辅助决策方法和系统 |
CN116680392A (zh) * | 2023-06-05 | 2023-09-01 | 北京沃东天骏信息技术有限公司 | 一种关系三元组的抽取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871545B (zh) * | 2019-04-22 | 2022-08-05 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
-
2023
- 2023-09-15 CN CN202311192542.9A patent/CN117151222B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020074017A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN114219963A (zh) * | 2021-12-31 | 2022-03-22 | 武汉大学 | 地学知识引导的多尺度胶囊网络遥感地物分类方法及系统 |
CN114519505A (zh) * | 2022-01-14 | 2022-05-20 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 铁路客站的设备管理策略生成方法及系统 |
CN116127090A (zh) * | 2022-12-28 | 2023-05-16 | 中国航空综合技术研究所 | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 |
CN116340455A (zh) * | 2023-03-31 | 2023-06-27 | 西南交通大学 | 一种高速列车转向架设计标准实体关系抽取方法 |
CN116595195A (zh) * | 2023-05-30 | 2023-08-15 | 苏州浪潮智能科技有限公司 | 一种知识图谱构建方法、装置及介质 |
CN116680392A (zh) * | 2023-06-05 | 2023-09-01 | 北京沃东天骏信息技术有限公司 | 一种关系三元组的抽取方法和装置 |
CN116595155A (zh) * | 2023-07-17 | 2023-08-15 | 中国矿业大学(北京) | 基于标准数字化的突发事件智能应急辅助决策方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117151222A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN117033571A (zh) | 知识问答系统构建方法及系统 | |
CN116975776B (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN114388108A (zh) | 一种基于多任务学习的用户反馈分析方法 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
CN111813924B (zh) | 基于可扩展动态选择与注意力机制的类别检测算法及系统 | |
Zeng et al. | DIC-Transformer: interpretation of plant disease classification results using image caption generation technology | |
EP2565799A1 (en) | Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents | |
CN116595992B (zh) | 一种术语及类型的二元组单步抽取方法及其模型 | |
CN117764536B (zh) | 一种基于人工智能的创新创业项目辅助管理系统 | |
CN117370569A (zh) | 基于义原预测的工业知识图谱验证方法 | |
CN116468040A (zh) | 一种二阶提示学习的命名实体识别方法 | |
Wu et al. | Incentive Instruction for Event Relation Extraction in Low-Resource |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |