CN112231441A - 一种人物关系抽取方法和装置 - Google Patents
一种人物关系抽取方法和装置 Download PDFInfo
- Publication number
- CN112231441A CN112231441A CN202011096638.1A CN202011096638A CN112231441A CN 112231441 A CN112231441 A CN 112231441A CN 202011096638 A CN202011096638 A CN 202011096638A CN 112231441 A CN112231441 A CN 112231441A
- Authority
- CN
- China
- Prior art keywords
- relation
- character
- name
- text
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000009977 dual effect Effects 0.000 claims abstract description 11
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 74
- 238000002372 labelling Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 241000288105 Grus Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种人物关系抽取方法和装置,方法包括:对预设预测文本进行预处理,生成多个待预测数据;分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;所述关系分类器模型具有双向门控循环神经网络和双重注意力机制;整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息。通过本发明实施例,解决了现有的人物关系抽取方法的准确率低、时间复杂度高、且难以整合全文最终的人物关系的技术问题。
Description
技术领域
本发明涉及关系抽取技术领域,尤其涉及一种人物关系抽取方法和装置。
背景技术
人物关系抽取是实体关系抽取领域的研究方向之一,指的是指从纯文本中发现人名实体对之间存在的语义关系,对社会网络构建与分析等一系列研究具有非常重要的意义。在当前的研究中,人物关系抽取的方法主要有三种:
(1)采用关系描述模式。该方法一般事先定义好需要抽取的人物关系类型,统计或自动生成关系描述词,接着收集人物关系描述模式或者有序列的关系特征词模式,利用这些模式匹配出更多的人物实例。
(2)利用机器学习算法训练分类器。这类方法摒弃关系模式方法的强制匹配,而是选择有效特征,在标记关系数据的基础上,选择合适的机器学习算法进行训练,得到关系分类器用以关系识别。
(3)自动生成关系描述短语。这类方法一般采用聚类算法,无需定义人物关系类型,而是将两个人名实体的共现句中能表达关系的短语作为关系类型。
现有的方案主要有两种,一种是基于依存句法的人物关系抽取,包括:(1)解析规则,采用依存分词器分析句子结构,对句子进行分词、词性标注、命名实体识别、依存分析等处理;(2)根据句子依存语法树结构上匹配规则,子树每匹配一条规则就生成一个三元组;(3)利用扩展规则对抽取到的三元组进行扩展;(4)进行三元组评价,对三元组实体和触发词进一步处理抽取出关系。具体流程如图1所示。一种是基于远程监督的人物关系抽取模型,分为3个主要部分。(1)远程监督模块:该模块通过对齐关系知识库和语料库中的自然语言文本生成弱标记数据。(2)预处理模块:对所有的弱标签数据进行词性标注、句法分析等自然语言处理操作,对远程监督产生的弱标签数据进行去噪处理。(3)特征提取模块:该模块从语料库的自然语言文本中提取多因子特征向量,分为词法特征和句法特征。(4)分类模块:将多因子特征向量输入关系分类器中,采用有监督的方法进行人物实体的关系分类。具体结构如图2所示。
然而,基于依存句法的人物关系抽取方法没有对人物关系表现句进行潜在语义分析,不能提取到潜在语义下的实际人物关系;生成的单句人物关系三元组无权重因子,难以整合成全文最终的人物关系。而远程监督方法在构造训练集中利用了一个条件很强的基本假设:如果两个实体对存在某种关系,那么任何包含这两个实体的句子都表达了它们的这种关系。但在文书数据中,易出现同名同姓的人物情况,且因文书的特殊性难以直接使用百科知识库等,而文书之间的相互独立性也难以预先构造关系知识库以实现远程监督的方法。
发明内容
本发明提供了一种人物关系抽取方法和装置,用于解决现有的人物关系抽取方法的准确率低、时间复杂度高、且难以整合全文最终的人物关系的技术问题。
本发明提供了一种人物关系抽取方法,包括:
对预设预测文本进行预处理,生成多个待预测数据;
分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;所述关系分类器模型具有双向门控循环神经网络和双重注意力机制;
整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息。
可选地,所述分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息的步骤之前,还包括:
基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
基于所述训练集人名和所述训练人物关系表现句确定人物关系;
基于训练集人名和所述人物关系生成关系标注人物对;
采用所述关系标注人物对和所述人物关系表现句生成训练集;
采用所述训练集训练所述关系分类器模型。
可选地,所述对预设预测文本进行预处理,生成多个待预测数据的步骤,包括:
对所述预设预测文本进行人名识别,生成人名字典;
从所述预设预测文本中提取人名指代词,基于所述人名字典将所述人名指代词替换为人名,生成人名替换预测文本;
从所述人名替换文本中抽取事实三元组和人名实体三元组;
根据所述事实三元组和所述人名实体三元组构建人名共现模型,并基于所述人名共现模型提取所述人名替换预测文本的多个人物关联对;所述人物关联对具有对应的关系词;
从所述人名替换预测文本中提取多个人物关系表现句;所述人物关系表现句包含一个所述人物关联对与对应的所述关系词;
分别将每个所述人物关联对和对应的所述人物关系表现句进行拼接,生成多个待预测数据。
可选地,所述整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息的步骤,包括:
根据多个所述单句人物关系预测信息,确定每个所述人物关联对的单句关系预测最大值;
采用每个所述人物关联对的单句关系预测最大值生成所述预设预测文本的全文人物关系预测信息。
本发明还提供了一种人物关系抽取装置,包括:
待预测数据生成模块,用于对预设预测文本进行预处理,生成多个待预测数据;
单句人物关系预测信息生成模块,用于分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;所述关系分类器模型具有双向门控循环神经网络和双重注意力机制;
全文人物关系预测信息生成模块,用于整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息。
可选地,还包括:
训练集人名和训练人物关系表现句提取模块,用于基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
人物关系确定模块,用于基于所述训练集人名和所述训练人物关系表现句确定人物关系;
关系标注人物对生成模块,用于基于训练集人名和所述人物关系生成关系标注人物对;
训练集生成模块,用于采用所述关系标注人物对和所述人物关系表现句生成训练集;
关系分类器模型训练模块,用于采用所述训练集训练所述关系分类器模型。
可选地,所述待预测数据生成模块,包括:
人名字典生成子模块,用于对所述预设预测文本进行人名识别,生成人名字典;
人名替换预测文本生成子模块,用于从所述预设预测文本中提取人名指代词,基于所述人名字典将所述人名指代词替换为人名,生成人名替换预测文本;
三元组抽取子模块,用于从所述人名替换文本中抽取事实三元组和人名实体三元组;
人物关联对提取子模块,用于根据所述事实三元组和所述人名实体三元组构建人名共现模型,并基于所述人名共现模型提取所述人名替换预测文本的多个人物关联对;所述人物关联对具有对应的关系词;
人物关系表现句提取子模块,用于从所述人名替换预测文本中提取多个人物关系表现句;所述人物关系表现句包含一个所述人物关联对与对应的所述关系词;
待预测数据生成子模块,用于分别将每个所述人物关联对和对应的所述人物关系表现句进行拼接,生成多个待预测数据。
可选地,所述全文人物关系预测信息生成模块,包括:
单句关系预测最大值确定子模块,用于根据多个所述单句人物关系预测信息,确定每个所述人物关联对的单句关系预测最大值;
全文人物关系预测信息生成子模块,用于采用每个所述人物关联对的单句关系预测最大值生成所述预设预测文本的全文人物关系预测信息。
本发明还提供了一种人物关系抽取设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上任一项所述的人物关系抽取方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的人物关系抽取方法。
从以上技术方案可以看出,本发明具有以下优点:本发明公开了一种人物关系抽取方法,包括:对预设预测文本进行预处理,生成多个待预测数据;分别将每个待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;关系分类器模型具有双向门控循环神经网络和双重注意力机制;整合待预测数据集对应的多个单句人物关系预测信息,生成预设预测文本的全文人物关系预测信息。通过本发明实施例,解决了现有的人物关系抽取方法的准确率低、时间复杂度高、且难以整合全文最终的人物关系的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为基于依存句法的人物关系抽取方法的步骤流程图;
图2为基于远程监督的人物关系抽取模型的示意图;
图3为本发明实施例提供的一种人物关系抽取方法的步骤流程图;
图4为本发明另一实施例提供的一种人物关系抽取方法的步骤流程图;
图5为本发明实施例关系分类器模型的结构示意图;
图6为本发明实施例提供的生成待预测数据的步骤流程图;
图7为本发明实施例提供的生成全文人物关系预测信息的步骤流程图;
图8为本发明实施例提供的一种人物关系抽取装置的结构框图。
具体实施方式
本发明实施例提供了一种人物关系抽取方法和装置,用于解决现有的人物关系抽取方法的准确率低、时间复杂度高、且难以整合全文最终的人物关系的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图3,图3为本发明实施例提供的一种人物关系抽取方法的步骤流程图。
本发明提供的一种人物关系抽取方法,包括:
步骤301,对预设预测文本进行预处理,生成多个待预测数据;
人物关系抽取,指的是识别出人物与他们之间的社会关系。
本发明实施例主要针对文书进行人物关系抽取,例如从检察院提供的文书数据中抽取人物以及其对应的社会关系等,而为了保证作为预测文本进行人物关系抽取的文书的抽取准确率,首先需要对预测文本进行预处理,得到可进行人物关系分析的待预测数据。
步骤302,分别将每个待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;关系分类器模型具有双向门控循环神经网络和双重注意力机制;
双向门控循环神经网络(BiGRU):主体结构就是两个单向GRU的结合。在每一个时刻t,输入会同时提供给这两个方向相反的GRU,而输出则是由这两个单向GRU共同决定的。
注意力机制(Attention):在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入Attention模型,对源数据序列进行数据加权变换,或者在解码端引入Attention模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。基本思想是打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。
在本发明实施例的每一个待预测数据中记录了一个人物关联对和对应的人物关系表现句,通过将待预测数据输入基于双向门控循环神经网络和双重注意力机制的关系分类器模型,可以基于每一个待预测数据确定一个人物关系表现句中的人物关系。
步骤303,整合多个待预测数据分别对应的单句人物关系预测信息,生成预设预测文本的全文人物关系预测信息。
单句人物关系预测信息中携带了对一个人物关联对不同人物关系的预测百分比,在确定了预测文本中每个单句的单句人物关系预测信息后,可以分析同一个人物关联对在不同单句中的各种人物关系的预测百分比,从而确定人物关联对在整个预测文本中的人物关系。
本发明公开了一种人物关系抽取方法,包括:对预设预测文本进行预处理,生成多个待预测数据;分别将每个待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;关系分类器模型具有双向门控循环神经网络和双重注意力机制;整合待预测数据集对应的多个单句人物关系预测信息,生成预设预测文本的全文人物关系预测信息。通过本发明实施例,解决了现有的人物关系抽取方法的准确率低、时间复杂度高、且难以整合全文最终的人物关系的技术问题。
请参阅图4,图4为本发明实施例提供的一种人物关系抽取方法的步骤流程图,具体可以包括以下步骤:
步骤401,基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
在本发明实施例中,以预测文本为检察院的文书数据为例,可以爬取裁判文书网上的数据,选取涉及人物关系较多的“民事”和“刑事”事件文书作为训练语料。然后对训练语料引进关系词字典,进行人名提取和关系表现句提取。
步骤402,基于训练集人名和训练人物关系表现句确定人物关系;
步骤403,基于训练集人名和人物关系生成关系标注人物对;
根据处在同一训练人物关系表现句中的人名,可以生成人物对。需要注意的是,可以对生成的人物对标注人物关系标签,生成关系标注人物对,以验证基于训练语料生活的模型的分类准确性。
步骤404,采用关系标注人物对和人物关系表现句生成训练集;
步骤405,采用训练集训练关系分类器模型;
在获取了训练集后,可以采用训练集训练构建关系基于双向门控循环神经网络和双重注意力机制的关系分类器模型。
基于双向门控循环神经网络(BiGRU)和字与句子的双重注意力机制(Dual-Attention)模型训练的关系分类器模型,能够准确“理解”关系表现句的潜在语义从而“推理”出人物之间的实际关系。同时不受远程监督模型的基本假设影响,分类器对各个句子的分析“无记忆”,当出现人物的同名同姓时不会影响其在具体句子中的预测。此外无需额外知识库等大量的预设条件。
请参阅图5,图5为本发明实施例关系分类器模型的结构示意图。具体包括:
S51,输入层:输入预测文本中的关系表现句。
S52,嵌入层:将句子中的每一个中文字符映射到一个低维向量。
S53,BiGRU层:利用双向门控循环神经网络模型(BiGRU)来嵌入句子的语义,这种双向的网络,有两个不同维度的词向量进行关系分类。
S54,注意层:产生一个重量矢量,即字级别的注意力机制(Attention)。并对每一种类别的句子输入做共同训练,加入句子层次的注意力机制,将他们合并以提取与关系向量的关系。
S55,输出层:将Dual-Attention(字与句子的注意力机制)特征向量最终用于关系分类。
需要说明的是,由于双向门控循环神经网络是长短期记忆网络LSTM的一种变体,它将LSTM中的忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。其性能与LSTM不分伯仲。因此,本发明实施例还可以采用长短期记忆网络LSTM替换双向门控循环神经网络。
进一步地,在本发明实施例中,还可以对已处理的训练语料除去人名和关系专有名词后,进行同义词替换,生成同义句扩展训练集,以处理原训练语料中各关系类别数据量不平衡的问题。
步骤406,对预设预测文本进行预处理,生成多个待预测数据;
在本发明实施例中,如图6所示,对预设预测文本进行预处理,生成多个待预测数据的步骤可以包括以下子步骤:
S61,对预设预测文本进行人名识别,生成人名字典;
人名识别是命名实体识别的一个子问题,从输入文本中识别出新人名。
在本发明实施例中,可以基于IDCNN+CRF模型对预测文本进行人名识别,提取生成人名字典。IDCNN+CRF模型识别准备率高计算速度快。
S62,从预设预测文本中提取人名指代词,基于人名字典将人名指代词替换为人名,生成人名替换预测文本;
在本发明实施例中,可以对预测文本的日期/数字/空格及不规则符号进行补完、删减与格式调整等操作,减少不符合规则的格式对预测文本进行数据分析时的影响。然后通过指代消解,分别以篇、段、句进行预测文本中人名指代词的提取(包括其、他/她、姓氏指代、代号指代),总结规则将人名指代词均替换成所对应的真实姓名。
指代消解:指代是指在语篇中用一个指代词回指某个以前说到过的语言单位。在语言学中,指代词称为照应语,所指的对象或内容称为先行语。指代消解,就是确定照应语与先行语之间的对应关系,从而明确照应词指代的是什么对象。确定指代词的先行语的过程,称为指代消解过程。
S63,从人名替换文本中抽取事实三元组和人名实体三元组;
在具体实现中,可以通过词性标注与依存句法分析,从人名替换文本中抽取以谓语为中心的事实三元组和与人名实体有关的人名实体三元组。保留人物与其之间关系的中心意思,剔除长句中其它的冗余噪声数据。其中,事实三元组包含主语、谓语、宾语三要素,人名实体三元组包含人名1、关系、人名2三要素。例如,以长句“陈华青去本市塘厦镇大坪社区找朋友王玲玲打麻将”为例,事实三元组为(陈华青、找、王玲玲),人名实体有关的三元组为(陈华青、朋友、王玲玲)。
其中,依存句法分析是指通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
S64,根据事实三元组和人名实体三元组构建人名共现模型,并基于人名共现模型提取人名替换预测文本的多个人物关联对;人物关联对具有对应的关系词;
在提取了事实三元组和人名实体三元组后,可以计算人物关联度,构建人名共现模型,提取人物关联对。
S65,从人名替换预测文本中提取多个人物关系表现句;人物关系表现句包含一个人物关联对与对应的关系词;
S66,分别将每个人物关联对和对应的人物关系表现句进行拼接,生成多个待预测数据。
具体地,在确定了人物关联对后,可以提取出人物关联对和关系词同时存在的中心句作为人物关系表现句,并与人物关联对进行拼接作为关系分类器中的待测数据的输入格式。
对预测文本预处理时,根据人名间的共现关系提取出人物关联对,同时使用了指代消解和依存句法分析方法,能生成更完整的人物关联对及更高质量的中心关系表现句。
步骤407,分别将每个待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;关系分类器模型具有双向门控循环神经网络和双重注意力机制;
在本发明实施例的每一个待预测数据中记录了一个人物关联对和对应的人物关系表现句,通过将待预测数据输入基于双向门控循环神经网络和双重注意力机制的关系分类器模型,可以基于每一个待预测数据确定一个人物关系表现句中的人物关系。
步骤408,整合多个待预测数据分别对应的单句人物关系预测信息,生成预设预测文本的全文人物关系预测信息。
具体地,请参阅图7,步骤408可以包括以下子步骤:
S81,根据多个单句人物关系预测信息,确定每个人物关联对的单句关系预测最大值;
S82,采用每个人物关联对的单句关系预测最大值生成预设预测文本的全文人物关系预测信息。
单句人物关系预测信息中携带了对一个人物关联对不同人物关系的预测百分比,在确定了预测文本中每个单句的单句人物关系预测信息后,可以分析同一个人物关联对在不同单句中的各种人物关系的预测百分比,从而确定人物关联对在整个预测文本中的人物关系。
本发明实施例从文书数据的人名识别和人物关系表现句提取到单句人物预测关系整合成全文人物预测的关系等所有过程已经实现了系统化、“一键化”,同时不受远程监督模型的基本假设影响,无需额外知识库等大量的预设条件。针对文书数据的人物关系提取准确率高、时间复杂度低,且能实现全文人物关系的准确预测。
请参阅图8,图8为本发明实施例提供的一种人物关系抽取装置的结构框图。
本发明提供的一种人物关系抽取装置,包括:
待预测数据生成模块801,用于对预设预测文本进行预处理,生成多个待预测数据;
单句人物关系预测信息生成模块802,用于分别将每个待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;关系分类器模型具有双向门控循环神经网络和双重注意力机制;
全文人物关系预测信息生成模块803,用于整合多个待预测数据分别对应的单句人物关系预测信息,生成预设预测文本的全文人物关系预测信息。
在本发明实施例中,还包括:
训练集人名和训练人物关系表现句提取模块,用于基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
人物关系确定模块,用于基于训练集人名和训练人物关系表现句确定人物关系;
关系标注人物对生成模块,用于基于训练集人名和人物关系生成关系标注人物对;
训练集生成模块,用于采用关系标注人物对和人物关系表现句生成训练集;
关系分类器模型训练模块,用于采用训练集训练关系分类器模型。
在本发明实施例中,待预测数据生成模块801,包括:
人名字典生成子模块,用于对预设预测文本进行人名识别,生成人名字典;
人名替换预测文本生成子模块,用于从预设预测文本中提取人名指代词,基于人名字典将人名指代词替换为人名,生成人名替换预测文本;
三元组抽取子模块,用于从人名替换文本中抽取事实三元组和人名实体三元组;
人物关联对提取子模块,用于根据事实三元组和人名实体三元组构建人名共现模型,并基于人名共现模型提取人名替换预测文本的多个人物关联对;人物关联对具有对应的关系词;
人物关系表现句提取子模块,用于从人名替换预测文本中提取多个人物关系表现句;人物关系表现句包含一个人物关联对与对应的关系词;
待预测数据生成子模块,用于分别将每个人物关联对和对应的人物关系表现句进行拼接,生成多个待预测数据。
在本发明实施例中,全文人物关系预测信息生成模块803,包括:
单句关系预测最大值确定子模块,用于根据多个单句人物关系预测信息,确定每个人物关联对的单句关系预测最大值;
全文人物关系预测信息生成子模块,用于采用每个人物关联对的单句关系预测最大值生成预设预测文本的全文人物关系预测信息。
本发明实施例还提供了一种人物关系抽取设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本发明实施例的人物关系抽取方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的人物关系抽取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来达到实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种人物关系抽取方法,其特征在于,包括:
对预设预测文本进行预处理,生成多个待预测数据;
分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;所述关系分类器模型具有双向门控循环神经网络和双重注意力机制;
整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息。
2.根据权利要求1所述的方法,其特征在于,所述分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息的步骤之前,还包括:
基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
基于所述训练集人名和所述训练人物关系表现句确定人物关系;
基于训练集人名和所述人物关系生成关系标注人物对;
采用所述关系标注人物对和所述人物关系表现句生成训练集;
采用所述训练集训练所述关系分类器模型。
3.根据权利要求1或2所述的方法,其特征在于,所述对预设预测文本进行预处理,生成多个待预测数据的步骤,包括:
对所述预设预测文本进行人名识别,生成人名字典;
从所述预设预测文本中提取人名指代词,基于所述人名字典将所述人名指代词替换为人名,生成人名替换预测文本;
从所述人名替换文本中抽取事实三元组和人名实体三元组;
根据所述事实三元组和所述人名实体三元组构建人名共现模型,并基于所述人名共现模型提取所述人名替换预测文本的多个人物关联对;所述人物关联对具有对应的关系词;
从所述人名替换预测文本中提取多个人物关系表现句;所述人物关系表现句包含一个所述人物关联对与对应的所述关系词;
分别将每个所述人物关联对和对应的所述人物关系表现句进行拼接,生成多个待预测数据。
4.根据权利要求3所述的方法,其特征在于,所述整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息的步骤,包括:
根据多个所述单句人物关系预测信息,确定每个所述人物关联对的单句关系预测最大值;
采用每个所述人物关联对的单句关系预测最大值生成所述预设预测文本的全文人物关系预测信息。
5.一种人物关系抽取装置,其特征在于,包括:
待预测数据生成模块,用于对预设预测文本进行预处理,生成多个待预测数据;
单句人物关系预测信息生成模块,用于分别将每个所述待预测数据输入预先生成的关系分类器模型,生成对应的单句人物关系预测信息;所述关系分类器模型具有双向门控循环神经网络和双重注意力机制;
全文人物关系预测信息生成模块,用于整合多个所述待预测数据分别对应的所述单句人物关系预测信息,生成所述预设预测文本的全文人物关系预测信息。
6.根据权利要求5所述的装置,其特征在于,还包括:
训练集人名和训练人物关系表现句提取模块,用于基于预设关系词字典,从预设训练语料中提取训练集人名和训练人物关系表现句;
人物关系确定模块,用于基于所述训练集人名和所述训练人物关系表现句确定人物关系;
关系标注人物对生成模块,用于基于训练集人名和所述人物关系生成关系标注人物对;
训练集生成模块,用于采用所述关系标注人物对和所述人物关系表现句生成训练集;
关系分类器模型训练模块,用于采用所述训练集训练所述关系分类器模型。
7.根据权利要求5或6所述的装置,其特征在于,所述待预测数据生成模块,包括:
人名字典生成子模块,用于对所述预设预测文本进行人名识别,生成人名字典;
人名替换预测文本生成子模块,用于从所述预设预测文本中提取人名指代词,基于所述人名字典将所述人名指代词替换为人名,生成人名替换预测文本;
三元组抽取子模块,用于从所述人名替换文本中抽取事实三元组和人名实体三元组;
人物关联对提取子模块,用于根据所述事实三元组和所述人名实体三元组构建人名共现模型,并基于所述人名共现模型提取所述人名替换预测文本的多个人物关联对;所述人物关联对具有对应的关系词;
人物关系表现句提取子模块,用于从所述人名替换预测文本中提取多个人物关系表现句;所述人物关系表现句包含一个所述人物关联对与对应的所述关系词;
待预测数据生成子模块,用于分别将每个所述人物关联对和对应的所述人物关系表现句进行拼接,生成多个待预测数据。
8.根据权利要求7所述的装置,其特征在于,所述全文人物关系预测信息生成模块,包括:
单句关系预测最大值确定子模块,用于根据多个所述单句人物关系预测信息,确定每个所述人物关联对的单句关系预测最大值;
全文人物关系预测信息生成子模块,用于采用每个所述人物关联对的单句关系预测最大值生成所述预设预测文本的全文人物关系预测信息。
9.一种人物关系抽取设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的人物关系抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的人物关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096638.1A CN112231441A (zh) | 2020-10-14 | 2020-10-14 | 一种人物关系抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096638.1A CN112231441A (zh) | 2020-10-14 | 2020-10-14 | 一种人物关系抽取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112231441A true CN112231441A (zh) | 2021-01-15 |
Family
ID=74113569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011096638.1A Pending CN112231441A (zh) | 2020-10-14 | 2020-10-14 | 一种人物关系抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231441A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351749A1 (en) * | 2016-06-03 | 2017-12-07 | Microsoft Technology Licensing, Llc | Relation extraction across sentence boundaries |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
-
2020
- 2020-10-14 CN CN202011096638.1A patent/CN112231441A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351749A1 (en) * | 2016-06-03 | 2017-12-07 | Microsoft Technology Licensing, Llc | Relation extraction across sentence boundaries |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
WO2021042516A1 (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CA2938064A1 (en) | Method for automatically detecting meaning and measuring the univocality of text | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
Bebah et al. | Hybrid approaches for automatic vowelization of Arabic texts | |
CN110717045A (zh) | 一种基于信访信件概况的信件要素自动提取方法 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
Zhou et al. | English grammar error correction algorithm based on classification model | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
Dudy et al. | Are some words worth more than others? | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
KR101869362B1 (ko) | 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체 | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
CN116595970A (zh) | 语句同义改写方法、装置和电子设备 | |
Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
Pande et al. | A review for semantic analysis and text document annotation using natural language processing techniques | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
Zheng et al. | Distantly supervised named entity recognition with Spy-PU algorithm | |
Wilson | Toward automatic processing of English metalanguage | |
CN112231441A (zh) | 一种人物关系抽取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |