CN112069825A - 面向警情笔录数据的实体关系联合抽取方法 - Google Patents

面向警情笔录数据的实体关系联合抽取方法 Download PDF

Info

Publication number
CN112069825A
CN112069825A CN202011260085.9A CN202011260085A CN112069825A CN 112069825 A CN112069825 A CN 112069825A CN 202011260085 A CN202011260085 A CN 202011260085A CN 112069825 A CN112069825 A CN 112069825A
Authority
CN
China
Prior art keywords
entity
label
relation
sentence
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011260085.9A
Other languages
English (en)
Other versions
CN112069825B (zh
Inventor
谢松县
彭立宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Shuding Intelligent Technology Co ltd
Original Assignee
Hunan Shuding Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Shuding Intelligent Technology Co ltd filed Critical Hunan Shuding Intelligent Technology Co ltd
Priority to CN202011260085.9A priority Critical patent/CN112069825B/zh
Publication of CN112069825A publication Critical patent/CN112069825A/zh
Application granted granted Critical
Publication of CN112069825B publication Critical patent/CN112069825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

面向警情笔录数据的实体关系联合抽取方法,收集警情笔录数据作为训练数据,获得各句子中存在的实体标签以及实体标签间的关系标签;对每个句子进行上下文编码;对每个句子的上下文语义表征进行命名实体识别;根据训练数据的先验共现信息构建标签依赖图,获取一组相互依赖的关系标签嵌入表示;对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及关系标签嵌入表示,预测每个句子中所有的实体关系。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能利用警情笔录数据中关系标签的重要依赖知识提高警情笔录关系抽取的性能。

Description

面向警情笔录数据的实体关系联合抽取方法
技术领域
本发明涉及自然语言处理和深度学习领域,尤其涉及一种面向警情笔录数据的实体关系联合抽取方法。
背景技术
面向警情笔录数据的实体关系抽取 (Relation Extraction) 是警情笔录信息抽取技术的重要环节,是警情笔录信息抽取领域重要的基础任务和难点问题之一。其任务是从非结构化文本中识别出一对实体以及这对实体具有的语义关系,并构成关系三元组。从理论价值层面看,实体关系抽取涉及到机器学习、语言学、数据挖掘等多个学科的理论和方法。从应用层面看,实体关系抽取可用于大规模知识库的自动构建。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。近年来,研究人员已经在关系抽取方面做出了诸多工作,尤其是基于神经网络的有监督的关系抽取方法。
目前进行面向警情笔录数据的实体关系抽取的方法主要是基于流水线的抽取方法,即把实体和关系的抽取分为两个子任务:先采用命名实体识别模型抽取出所有实体,再采用关系分类器得到实体对之间的关系。然而,流水线方法存在着以下几个缺点:
1、误差累计,实体识别模块的错误会影响到接下来的关系分类性能;
2、忽视了两个子任务之间存在的关系,丢失相互信息,影响抽取效果;
3、产生冗余信息,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。
相比于流水线方法,联合学习方法能够利用警情笔录数据中实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。然而,目前存在的联合抽取方法虽然消除了流水线方法中两个子任务相互独立的问题,但现有的方法大都孤立的预测每一个关系而未考虑关系标签相互之间的丰富语义关联。
发明内容
针对目前警情笔录领域下实体关系抽取方法存在误差传导、不能充分利用各子任务之间的交互信息和未考虑关系标签之间语义关联的问题,本发明提出了一种面向警情笔录数据的实体关系联合抽取方法。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能利用警情笔录数据中关系标签的重要依赖知识。实际应用中本发明显著提高了警情笔录关系抽取的性能。
为实现上述技术目的,本发明采用的具体技术方案如下:
面向警情笔录数据的实体关系联合抽取方法,包括:
S1. 收集大量警情笔录数据作为训练数据,预定义m个实体标签以及q个关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,以及获得训练数据中关系标签的先验共现信息。
S2. 对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征。
S3. 对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别。
S4. 根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示。
S5. 对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。
本发明的S2中将警情笔录数据中的任意句子用X={x 1,x 2,…x n }表示,其中x 1,x 2,…x n 表示句子中的字符,n是句子的长度;将每个句子对应的
Figure 413387DEST_PATH_IMAGE001
分别输入到
Figure 850184DEST_PATH_IMAGE002
分词器得到分词后的数据W={w 1,w 2,…w k },其中,w 1,w 2,…w k 表示句子中的各词单元,其中k是预处理后的数据W的长度,k<=n;将分词后的数据W={w 1,w 2,…w k }输入至预训练语言模型BERT,通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征
Figure 680737DEST_PATH_IMAGE003
,其中
Figure 858253DEST_PATH_IMAGE004
分别代表w 1,w 2,…w k 对应的上下文语义表征。
本发明的S1中预定义的m个实体标签为
Figure 457861DEST_PATH_IMAGE005
;实体标签序列
Figure 65560DEST_PATH_IMAGE006
,S3中对于警情笔录数据中的每个句子的上下文语义表征Z={z 1,z 2,…z k },给定一组实体标签序列
Figure 383409DEST_PATH_IMAGE007
,计算Z的实体标签序列为Y的概率值
Figure 367546DEST_PATH_IMAGE008
,将最大概率值对应的实体标签序列作Z的预测实体标签序列;将预测实体标签序列向量化映射为对应的实体标签嵌入序列
Figure 87240DEST_PATH_IMAGE009
,其中
Figure 131419DEST_PATH_IMAGE010
分别为对应的预测实体标签的标签嵌入。
本发明的S4中针对收集的警情笔录数据,使用一个邻接矩阵
Figure 936564DEST_PATH_IMAGE011
来表示有 q个关系标签的关系标签依赖图。具体地,关系标签依赖图中一个图节点即表示一个关系标签节点,关系标签之间的关联则存储在关系标签依赖图的边上,如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边;使用两个关系标签之间的共现次数作为两个关系标签在关系标签依赖图的邻接矩阵中的连接权值。
对于预定义的q种关系标签,将每个关系标签映射为一个待更新的 p 维向量,得到一组关系标签节点嵌入
Figure 724392DEST_PATH_IMAGE012
,其中p是一个超参数,由交叉验证得到。将
Figure 33013DEST_PATH_IMAGE013
作为多层图卷积网络的初始输入;通过构建好的关系标签依赖图的邻接矩阵A,图卷积网络的每一层可以写成非线性函数
Figure 248094DEST_PATH_IMAGE014
,使用多层图卷积网络来学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示
Figure 9377DEST_PATH_IMAGE015
}。
本发明的S5中对于待预测的警情笔录数据的每个句子,获取其语义向量序列和实体标签嵌入序列并进行拼接,得到目标向量集合,综合目标向量集合中的任意两个目标向量,与S4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系预测,得到对应的预测实体关系。
与现有技术相比,本发明具有以下优点:
1、采用预训练语言模型BERT,BERT能对不同层次信息之间的复杂交互进行建模,学习深层语境化的词汇表征。
2、实体关系联合抽取,联合学习能够利用警情笔录数据中实体和关系间紧密的交互信息,并解决流水线方法的弊端。
3、与现有方法相比,不再孤立的预测每一个关系并利用图卷积网络学习关系标签相互之间的丰富语义关联信息。
附图说明
图1 为本发明的流程图。
图2 为本发明的系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
参照图1和图2,本实施例提供一种面向警情笔录数据的实体关系联合抽取方法,包括:
S1. 收集大量警情笔录数据作为训练数据。每条警情笔录数据都由专业人员进行实体标签和关系标签的标注。具体地,预定义m个实体标签
Figure 600895DEST_PATH_IMAGE016
以及q个实体标签间的关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,获得训练数据中关系标签的先验共现信息即各个句子中不同关系标签共同出现的次数。
与某市公安系统合作,收集了真实案件受理过程中产生的警情文本作为训练数据。由专家组紧密贴合业务,设计出科学合理的标签体系。在本方案具体实施中,根据办案需求和警情数据特点,共设计和预定义了m种实体标签
Figure 764023DEST_PATH_IMAGE017
,包括人物,机构,地点等;并预定义q种实体标签间的关系作为关系标签,如人物之间的关系(同伙,亲戚等),人物地点之间的关系(居住于,作案于等)。专业人员以句子为单位按照上述标签体系进行了实体与关系的标注。假设一句话中关系事实的出现次数为t,则标注t个五元组。其中五元组包含(头实体,尾实体,头实体标签, 尾实体标签,关系标签)5个重要信息。比如句子文本为“市公安局干警张三”,则标注(市公安局,张三,机构,人物,所在机构)五元组。
S2. 对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征。
将警情笔录数据中的每个句子分别用X={x 1,x 2,…x n }表示,其中x 1,x 2,…x n 表示句子中的字符,n是句子的长度。
将每个句子对应的X分别输入到
Figure 150005DEST_PATH_IMAGE018
分词器得到预处理后的数据W={w 1,w 2,…w k },其中,w 1,w 2,…w k 表示句子中的词单元,其中k是预处理后的数据W的长度,k<=n
将每个句子对应的预处理后的数据W={w 1,w 2,…w k }输入至预训练语言模型BERT,通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征
Figure 929742DEST_PATH_IMAGE019
,其中
Figure 793793DEST_PATH_IMAGE020
Figure 77007DEST_PATH_IMAGE021
代表
Figure 633890DEST_PATH_IMAGE022
的上下文语义表征,d为语义表征隐藏维度。
S3. 对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别,得到对应的预测实体标签序列。
将命名实体识别任务描述为一个序列标注问题,使用BIO(开始、内部、外部)编码方案对句子进行序列标注。即为句子中的每个标记分配一个BIO中的某一种标签。由于实体由句子中的多个连续标记组成,这种做法可以识别实体的起始位置和结束位置及其类型(例如机构)。具体来说,就是将B-type(开始)分配给实体的第一个标记,将I-type(内部)分配给实体内的每个其他标记,如果标记不是实体的一部分,则分配O标签(外部)。比如输入文本为“市公安局干警张三”,目标是预测“B-机构 I-机构I-机构 I-机构 O O B-人物 I-人物”的实体标签序列。
本实施例中将警情笔录数据中的每个句子的上下文语义表征通过线性CRF(条件随机场)计算进行命名实体识别,得到对应的预测实体标签序列。
具体地,对于警情笔录数据中的每个句子的上下文语义表征
Figure 635344DEST_PATH_IMAGE023
,首先使用线性变换得到
Figure 568665DEST_PATH_IMAGE024
中每个z i 对每个实体标签的得分
Figure 706385DEST_PATH_IMAGE025
。具体地,计算公式为:
Figure 434170DEST_PATH_IMAGE026
其中,
Figure 922920DEST_PATH_IMAGE027
表示激活函数,
Figure 143422DEST_PATH_IMAGE028
是权重矩阵,
Figure 401228DEST_PATH_IMAGE029
Figure 565493DEST_PATH_IMAGE030
是偏置向量,l是隐藏层维度,d是语义表征隐藏维度。
经公式运算后得到一个向量
Figure 275960DEST_PATH_IMAGE031
,维度为预定义的实体标签数量m,预定义的实体标签序列为
Figure 285504DEST_PATH_IMAGE032
,
Figure 663396DEST_PATH_IMAGE033
中每个分量代表每种预定义实体标签的得分,即
Figure 467404DEST_PATH_IMAGE034
Figure 930746DEST_PATH_IMAGE035
代表
Figure 478402DEST_PATH_IMAGE036
的实体标签为
Figure 710801DEST_PATH_IMAGE037
的得分。
由于BIO标注编码方案存在着若干限制,如“B-机构”后面不能跟“I-人物”,“O”后面不能跟“I-type”等。本发明根据实体标签得分来计算线性CRF得分,通过学习得到的标签转移概率考虑实体边界。给定一组实体标签序列
Figure 951289DEST_PATH_IMAGE038
,计算上下文语义表征Z的实体标签序列为Y的线性CRF得分
Figure 901928DEST_PATH_IMAGE039
,公式为:
Figure 253274DEST_PATH_IMAGE040
其中,
Figure 340179DEST_PATH_IMAGE041
为实体标签
Figure 17148DEST_PATH_IMAGE042
到实体标签
Figure 189503DEST_PATH_IMAGE043
的转移得分。
Figure 78962DEST_PATH_IMAGE044
通过统计学习标注数据中标签的转移概率得到。
通过
Figure 285953DEST_PATH_IMAGE045
函数计算Z的实体标签序列为Y的概率值P(Y|Z),应用维特比算法获得最大概率值对应的实体标签序列作为Z的预测实体标签序列。
Figure 602664DEST_PATH_IMAGE046
其中,
Figure 262316DEST_PATH_IMAGE047
是上下文表征序列Z的实体标签序列为Y的线性CRF得分,
Figure 955465DEST_PATH_IMAGE048
代表Z对应的所有可能的标签序列集合。
最后,将预测实体标签序列向量化映射为对应的实体标签嵌入序列
Figure 16962DEST_PATH_IMAGE049
Figure 35734DEST_PATH_IMAGE050
, 其中
Figure 182681DEST_PATH_IMAGE051
分别对应
Figure 411013DEST_PATH_IMAGE052
的预测实体标签嵌入, e为实体标签嵌入的维度,是一个超参数。
S4. 根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖图编码后,得到一组相互依赖的关系标签嵌入表示。
针对收集的警情笔录数据,使用一个邻接矩阵
Figure 327016DEST_PATH_IMAGE053
来表示有 q个关系标签的关系标签依赖图。为了有效地捕捉关系标签间的相关性,通过计算训练数据中关系标签的共现情况,构造了依赖于训练数据中的先验共现信息的相关矩阵作为关系标签依赖图的邻接矩阵A。具体来说,关系标签依赖图中一个图节点即表示一个关系标签节点。如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边。如果
Figure 516689DEST_PATH_IMAGE054
关系标签与 j 关系标签同时出现在同一个句子中的频率比 c 关系标签高,则
Figure 150933DEST_PATH_IMAGE054
关系标签和 j 关系标签之间应具有更强的相关性。因此,使用两个关系标签之间的共现次数作为邻接矩阵中的连接权值。例如,如果
Figure 185885DEST_PATH_IMAGE054
关系与 j 关系同时出现 n 次,则
Figure 956395DEST_PATH_IMAGE055
构建了关系标签依赖图的邻接矩阵后,使用图卷积网络来建立关系标签依赖的模型。对于预定义的q种关系标签,首先将每个关系标签映射为一个待更新的 p 维向量,得到一组关系标签节点嵌入
Figure 316969DEST_PATH_IMAGE056
作为多层图卷积网络的初始输入。通过构造好的关系标签依赖图的邻接矩阵A,图卷积网络的每一层可以写成非线性函数
Figure 438509DEST_PATH_IMAGE057
。利用标准卷积运算,标签依赖的编码过程为:
Figure 277152DEST_PATH_IMAGE058
其中
Figure 902168DEST_PATH_IMAGE059
表示激活函数,如
Figure 433644DEST_PATH_IMAGE060
。上标 l 表示图层号。
Figure 776900DEST_PATH_IMAGE061
Figure 419234DEST_PATH_IMAGE062
表示卷积滤波器的可学习参数。
Figure 164336DEST_PATH_IMAGE063
I 是单位矩阵。第 l 层 GCN 图中的节点被邻域聚合形成 l + 1 层的节点。
本实施例使用一个三层图卷积网络来学习多个关系标签节点嵌入之间的相关性:
Figure 866713DEST_PATH_IMAGE064
通过多层图卷积网络学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到最终的一组相互依赖的关系标签嵌入表示
Figure 431687DEST_PATH_IMAGE065
S5. 对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。
对于待预测的警情笔录数据的每个句子,获取其语义向量序列
Figure 612132DEST_PATH_IMAGE066
和实体标签嵌入序列
Figure 211741DEST_PATH_IMAGE067
并进行拼接,得到目标向量集合
Figure 85019DEST_PATH_IMAGE068
,其中
Figure 402868DEST_PATH_IMAGE069
。综合目标向量集合中的任意两个目标向量与S4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系得分计算,得到对应的预测实体关系。对待预测的警情笔录数据的每个句子的k个词单元两两配对并与关系标签嵌入表示中的q标签组合,共需计算k*k*q次,将其看成是一个三维表填充过程。具体来说,其中的每一次得分计算过程如下:
每次给定两个词单元的目标向量和一种关系标签嵌入表示,则计算词单元
Figure 121425DEST_PATH_IMAGE070
和词单元
Figure 841119DEST_PATH_IMAGE071
具有关系标签r的得分
Figure 885299DEST_PATH_IMAGE072
为:
Figure 690444DEST_PATH_IMAGE073
其中,
Figure 478271DEST_PATH_IMAGE074
表示激活函数,
Figure 789823DEST_PATH_IMAGE075
Figure 4903DEST_PATH_IMAGE076
权重矩阵,
Figure 31765DEST_PATH_IMAGE077
是偏置向量,
Figure 623283DEST_PATH_IMAGE078
是预训练语言模型BERT的输出词
Figure 786411DEST_PATH_IMAGE079
的语义表征
Figure 172393DEST_PATH_IMAGE080
和标签嵌入h i 的拼接,
Figure 952131DEST_PATH_IMAGE081
是预训练语言模型BERT的输出词
Figure 81761DEST_PATH_IMAGE082
的语义表征
Figure 99395DEST_PATH_IMAGE083
和标签嵌入
Figure 921858DEST_PATH_IMAGE084
的拼接;
Figure 923312DEST_PATH_IMAGE085
为S4中得到的关系标签嵌入表示的第r个分量,r=1,2,…,q,
Figure 591053DEST_PATH_IMAGE086
在三维表填充过程中,评估词单元
Figure 728774DEST_PATH_IMAGE087
是词单元
Figure 722138DEST_PATH_IMAGE088
的头实体并且具有关系标签r的概率为:
Figure 945309DEST_PATH_IMAGE089
Figure 682320DEST_PATH_IMAGE090
表示sigmoid非线性激活函数。
通过本发明不仅能解决目前警情笔录事件抽取中误差传导、不能充分利用各子任务之间的交互信息的问题,而且还能利用警情笔录数据中关系标签的重要依赖知识。总体来说,本发明通过提高了警情笔录实体关系抽取的
Figure 674547DEST_PATH_IMAGE091
值,实现了对警情笔录数据实体关系的高效抽取,给公安警务部门预防犯罪带来了方便和数据支撑。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰,因此本发明的保护范围当视权利要求书界定的范围为准。

Claims (10)

1.面向警情笔录数据的实体关系联合抽取方法,其特征在于,包括:
S1. 收集大量警情笔录数据作为训练数据,预定义m个实体标签以及q个关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,并统计训练数据中关系标签的先验共现信息;
S2. 对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征;
S3. 对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别;
S4. 根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示;
S5. 对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。
2.根据权利要求1所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S2中将警情笔录数据中的任意句子用X={x 1,x 2,…x n }表示,其中x 1,x 2,…x n 表示句子中的字符,n是句子的长度;将每个句子对应的
Figure 273617DEST_PATH_IMAGE001
分别输入到WordPiece分词器得到分词后的数据W={w 1,w 2,…w k },其中,w 1,w 2,…w k 表示句子中的各词单元,其中k是预处理后的数据W的长度,k<=n;将分词后的数据W={w 1,w 2,…w k }输入至预训练语言模型BERT,通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征Z={z 1,z 2,…z k },其中z 1,z 2,…z k 分别代表w 1,w 2,…w k 对应的上下文语义表征。
3.根据权利要求2所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S1中预定义的m个实体标签为
Figure 659599DEST_PATH_IMAGE002
;实体标签序列
Figure 173757DEST_PATH_IMAGE003
,S3中对于警情笔录数据中的每个句子的上下文语义表征
Figure 37808DEST_PATH_IMAGE004
,给定一组实体标签序列
Figure 586601DEST_PATH_IMAGE005
,计算Z的实体标签序列为Y的概率值
Figure 143484DEST_PATH_IMAGE006
,将最大概率值对应的实体标签序列作Z的预测实体标签序列;将预测实体标签序列向量化映射为对应的实体标签嵌入序列H={h 1,h 2,…h e },其中h 1,h 2,…h k 分别为对应的预测实体标签的标签嵌入。
4.根据权利要求3所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S3中计算Z的实体标签序列为Y的概率值
Figure 144938DEST_PATH_IMAGE007
的方法如下:
对于警情笔录数据中的每个句子的上下文语义表征
Figure 812680DEST_PATH_IMAGE008
,首先使用线性变换得到
Figure 215979DEST_PATH_IMAGE009
中每个
Figure 943764DEST_PATH_IMAGE010
得到每个实体标签的得分
Figure 432514DEST_PATH_IMAGE011
Figure 638367DEST_PATH_IMAGE012
Figure 896173DEST_PATH_IMAGE013
代表
Figure 60439DEST_PATH_IMAGE014
的实体标签为
Figure 762116DEST_PATH_IMAGE015
的得分;
预定义的实体标签数量m,预定义的实体标签序列为
Figure 771661DEST_PATH_IMAGE016
,给定一组实体标签序列
Figure 149553DEST_PATH_IMAGE017
,计算上下文语义表征Z的实体标签序列为
Figure 219140DEST_PATH_IMAGE018
的线性CRF得分
Figure 682482DEST_PATH_IMAGE019
,公式为:
Figure 495717DEST_PATH_IMAGE020
其中,
Figure 728115DEST_PATH_IMAGE021
为实体标签
Figure 234183DEST_PATH_IMAGE022
到实体标签
Figure 653663DEST_PATH_IMAGE023
的转移得分;
最后通过softmax函数计算Z的实体标签序列为Y的概率值
Figure 270589DEST_PATH_IMAGE024
5.根据权利要求1所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S4中针对收集的警情笔录数据,使用一个邻接矩阵
Figure 357494DEST_PATH_IMAGE025
来表示有 q个关系标签的关系标签依赖图。
6.根据权利要求5所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S4中构建关系标签依赖图的邻接矩阵A方法是:关系标签依赖图中一个图节点即表示一个关系标签节点,关系标签之间的关联则存储在关系标签依赖图的边上,如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边;使用两个关系标签之间的共现次数作为两个关系标签在关系标签依赖图的邻接矩阵中的连接权值。
7.根据权利要求6所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S4中,对于预定义的q种关系标签,将每个关系标签映射为一个待更新的 p 维向量,得到一组关系标签节点嵌入
Figure 34463DEST_PATH_IMAGE026
,将
Figure 941239DEST_PATH_IMAGE027
作为多层图卷积网络的初始输入;通过构建好的关系标签依赖图的邻接矩阵A,图卷积网络的每一层可以写成非线性函数
Figure 96277DEST_PATH_IMAGE028
,使用多层图卷积网络来学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示V={v 1,v 2,…,v q }。
8.根据权利要求7所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S5中对于待预测的警情笔录数据的每个句子,获取其语义向量序列和实体标签嵌入序列并进行拼接,得到目标向量集合;综合目标向量集合中的任意两个目标向量与S4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系得分计算,得到对应的预测实体关系。
9.根据权利要求8所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S5中,关系得分计算的过程中,对待预测的警情笔录数据的每个句子的k个词单元两两配对并与关系标签嵌入表示中的q种关系标签组合,共需计算k*k*q次,将其看成是一个三维表填充过程。
10.根据权利要求9所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S5中,每一次关系得分计算过程如下:
每次给定两个词单元的目标向量和一种关系标签嵌入表示,则计算词单元
Figure 303267DEST_PATH_IMAGE029
和词单元
Figure 151138DEST_PATH_IMAGE030
具有关系标签r的得分
Figure 810789DEST_PATH_IMAGE031
为:
Figure 503939DEST_PATH_IMAGE032
其中,
Figure 299856DEST_PATH_IMAGE033
表示激活函数,
Figure 318628DEST_PATH_IMAGE034
Figure 465576DEST_PATH_IMAGE035
权重矩阵,
Figure 962416DEST_PATH_IMAGE036
是偏置向量,
Figure 878419DEST_PATH_IMAGE037
是预训练语言模型BERT的输出词
Figure 802513DEST_PATH_IMAGE038
的语义表征
Figure 436757DEST_PATH_IMAGE039
和标签嵌入h i 的拼接,
Figure 471709DEST_PATH_IMAGE040
是预训练语言模型BERT的输出词
Figure 504868DEST_PATH_IMAGE041
的语义表征
Figure 599863DEST_PATH_IMAGE042
和标签嵌入
Figure 721403DEST_PATH_IMAGE043
的拼接;
Figure 560046DEST_PATH_IMAGE044
为S4中得到的关系标签嵌入表示的第r个分量,r=1,2,…,q,i,j=1,…,k
在三维表填充过程中,评估词单元
Figure 185062DEST_PATH_IMAGE045
是词单元
Figure 716538DEST_PATH_IMAGE046
的头实体并且具有关系标签r的概率为:
Figure 59794DEST_PATH_IMAGE047
Figure 967708DEST_PATH_IMAGE048
表示sigmoid非线性激活函数。
CN202011260085.9A 2020-11-12 2020-11-12 面向警情笔录数据的实体关系联合抽取方法 Active CN112069825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011260085.9A CN112069825B (zh) 2020-11-12 2020-11-12 面向警情笔录数据的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011260085.9A CN112069825B (zh) 2020-11-12 2020-11-12 面向警情笔录数据的实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN112069825A true CN112069825A (zh) 2020-12-11
CN112069825B CN112069825B (zh) 2021-01-15

Family

ID=73655024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011260085.9A Active CN112069825B (zh) 2020-11-12 2020-11-12 面向警情笔录数据的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN112069825B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TSU-JUI FU等: "GraphRel:Modeling Text as Relational Graphs for Joint Entity and Relation Extraction", 《PROCEDDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISICS》 *
丁琛: "基于神经网络的实体识别和关系抽取的联合模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
周星瀚: "面向新闻文本的实体关系抽取研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备

Also Published As

Publication number Publication date
CN112069825B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Gallant et al. Representing objects, relations, and sequences
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN113407660B (zh) 非结构化文本事件抽取方法
Lei et al. Patent analytics based on feature vector space model: A case of IoT
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
Zhang et al. Aspect-based sentiment analysis for user reviews
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
Zhang et al. Hierarchical representation and deep learning–based method for automatically transforming textual building codes into semantic computable requirements
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
Jin et al. Textual content prediction via fuzzy attention neural network model without predefined knowledge
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
Gabralla et al. Deep learning for document clustering: a survey, taxonomy and research trend
Liu et al. Text Analysis of Community Governance Case based on Entity and Relation Extraction
Xu et al. A brief review of relation extraction based on pre-trained language models
CN117807999B (zh) 基于对抗学习的域自适应命名实体识别方法
Song et al. Prior-guided multi-scale fusion transformer for face attribute recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant