CN113568969B - 信息抽取方法、装置、设备以及计算机可读存储介质 - Google Patents
信息抽取方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113568969B CN113568969B CN202110875004.4A CN202110875004A CN113568969B CN 113568969 B CN113568969 B CN 113568969B CN 202110875004 A CN202110875004 A CN 202110875004A CN 113568969 B CN113568969 B CN 113568969B
- Authority
- CN
- China
- Prior art keywords
- entity
- head entity
- prediction
- word
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 132
- 239000011159 matrix material Substances 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 14
- 238000002372 labelling Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 239000013522 chelant Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 244000144977 poultry Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及数据处理技术领域,公开了一种信息抽取方法、装置、设备以及计算机可读存储介质,该方法包括:获取待抽取数据;确定待抽取数据对应的词向量矩阵;根据词向量矩阵和头实体预测模型确定头实体预测信息;根据词向量矩阵、头实体预测信息以及中间词预测模型确定中间词预测信息;根据词向量矩阵、头实体预测信息、中间词预测信息以及尾实体预测模型确定待抽取数据包含的三元组信息;三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。通过上述方式,本发明实施例提高了信息抽取的准确率。
Description
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种信息抽取方法、装置、设备以及计算机可读存储介质。
背景技术
如何从海量非结构化数据中提取信息,并转化成结构化的信息是信息抽取技术主要解决的问题。而关系抽取是信息抽取的组成部分,旨在确定实体之间是否存在某种语义关系,其在包括数据挖掘、机器学习和自然语言处理等技术,在自动问答系统、搜索引擎、知识图谱构建等有着广泛的应用。
发明人在实施本发明的过程中发现:现有的关系抽取方法大都依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,适用于面向特定领域关系抽取。然而对新闻等开放领域的数据,预先定义一个全面的实体关系体系是非常困难的,无法预先划分领域和定义实体关系,导致信息抽取的准确率低。
发明内容
鉴于上述问题,本发明实施例提供了一种信息抽取方法、装置、设备以及计算机可读存储介质,用于解决现有技术中存在的信息抽取的准确率较低的问题。
根据本发明实施例的一个方面,提供了一种信息抽取方法,所述方法包括:
获取待抽取数据;
确定所述待抽取数据对应的词向量矩阵;
根据所述词向量矩阵和头实体预测模型确定头实体预测信息;
根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
在一种可选的方式中,所述待抽取数据中包括多个字符位;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位;所述方法还包括:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。
在一种可选的方式中,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;所述方法还包括:
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。
在一种可选的方式中,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;所述方法还包括:
将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;
将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系;
根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
在一种可选的方式中,所述方法还包括:
将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;
根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;
将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;
删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;
对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
在一种可选的方式中,所述方法还包括:
将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;
将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;
将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;
根据所述尾实体预测信息确定所述三元组信息。
在一种可选的方式中,所述方法还包括:
将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;
根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;
将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;
删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;
对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
根据本发明实施例的另一方面,提供了一种信息抽取装置,包括:
获取模块,用于获取待抽取数据;
确定模块,用于确定所述待抽取数据对应的词向量矩阵;
第一预测模块,用于根据所述词向量矩阵和头实体预测模型确定头实体预测信息;
第二预测模块,用于根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
第三预测模块,用于根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
根据本发明实施例的另一方面,提供了一种信息抽取设备,包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如所述的信息抽取方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使信息抽取设备执行如所述的信息抽取方法的操作。
本发明实施例通过获取待抽取数据,确定待抽取数据对应的词向量矩阵;根据词向量矩阵和头实体预测模型确定头实体预测信息;其中,头实体预测信息中包括待抽取数据中每个字符位为头实体的起始/结束位置的预测概率;再根据词向量矩阵、头实体预测信息以及中间词预测模型确定中间词预测信息;其中,中间词预测信息包括各个字符位为与目标头实体构成预设语法关系的中间词的起始/结束位置的预测概率,其中目标头实体为根据头实体预测信息确定的有效头实体中的一个;再根据词向量矩阵、头实体预测信息、中间词预测信息以及尾实体预测模型确定待抽取数据包含的三元组信息;三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
区别于现有的关系抽取依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,从而只适用于面向特定领域关系抽取的问题,本发明实施例通过首先对有效头实体进行抽取,然后基于抽取到的有效头实体和词向量矩阵再抽取出与有效头实体构成各种预设主谓语法关系的中间词,与有效头实体构成一对目标头实体中间词对。最后抽取与目标头实体中间词对构成各种预设主谓宾语法关系的尾实体,得到待抽取数据中包含的三元组信息,从而实现了对开放领域的非结构文件进行信息抽取,提高了信息抽取的准确率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的信息抽取方法的流程示意图;
图2示出了本发明实施例提供的信息抽取方法的场景示意图;
图3示出了本发明实施例提供的信息抽取装置的结构示意图;
图4示出了本发明实施例提供的信息抽取设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
非结构化数据:数据结构不规则或不完整、没有预定义的数据模型、难以用数据库二维逻辑表来表现的数据,无法用统一的结构来明确表,也因此较难按照统一的模式进行信息结构化和信息抽取。
BERT模型:Bidirectional Encoder Representations from Transformer,也就是基于Transformer的双向编码器表征。BERT采用的是Transformer,并且在处理一个单词的时候,还能够考虑到该词前面的和后面的单词,得到它在上下文中的含义,其中,BERT模型中的positional embeddings用来编码出句子中各个单词的位置信息。
图1示出了本发明实施例提供的信息抽取方法的流程图,该方法由计算机处理设备执行。计算机处理设备可以为手机、笔记本电脑等。如图1所示,该方法包括以下步骤:
步骤101:获取待抽取数据。
在本发明的一个实施例中,待抽取数据可以是非结构化文本数据,所述非结构化文本文本数据中包括至少一个待抽取句子,待抽取句子中包括多个字符位。举例说明,图2示出了本发明实施例提供的信息抽取方法的场景示意图。参考图2,待抽取句子“鲁武公是鲁国始君伯禽的玄孙,名敖。”中包括17个字符位。
在本发明的再一个实施例中,在待抽取数据中包括多个句子时,可以先对待抽取文件进行自然语言处理,提取出各个待抽取句子,然后通过步骤102-105针对待抽取数据中的每一个待抽取句子分别进行三元组信息的抽取。
在本发明的再一个实施例中,待抽取数据可以是通过预设的爬虫程序从互联网或目标平台中获取的。
步骤102:确定所述待抽取数据对应的词向量矩阵。
在本发明的一个实施例中,可将待抽取数据输入自然语言处理中的预训练模型,得到词向量矩阵,用于对待抽取数据进行向量化表示,方便后续步骤的计算。在本发明的再一个实施例中,预训练模型可以为BERT模型。
词向量矩阵中包括待抽取数据的各个字符位在句子中的序号以及该字符位上的字符值,具体可以是一个编码序列,表示为X∈Rdim×n,其中dim表示词向量的维度,n表示句子所包含的字符位长度。
如待抽取句子“鲁武公是鲁国始君伯禽的玄孙,名敖。”对应的编码序列可表示为:(1,武),(2,公),....,(15,名),(16,敖),(17,SEP)。其中,SEP为预设的文本结束标识符。
步骤103:根据所述词向量矩阵和头实体预测模型确定头实体预测信息。
在本发明的一个实施例中,所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位。
头实体预测模型用于预测各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率。其中,头实体起始位置预测概率指的是该字符位为一个头实体的起始位置的可能性,头实体结束位置预测概率指的是该字符位为一个头实体的结束位置的可能性。
通过确定头实体的起始位置和结束位置的字符位序号,即可以提取出对应的头实体。如针对待抽取数据“鲁武公是鲁国始君伯禽的玄孙,名敖。”,如图2所示,若头实体起始位置和头实体结束位置的字符位序号分别为1和3,则提取出的头实体为“鲁武公”,若头实体起始位置和头实体结束位置的字符位序号分别为5和6,则提取出的头实体为“鲁国”。
在得到模型的输出之后,根据头实体起始位置预测概率以及头实体结束位置预测概率进行是否满足预设位置关系和预设概率条件的过滤以及筛选,确定出满足所述条件以及关系的有效头实体起止位置对,从而提取出对应的有效头实体。
其中,预设关系可以为头实体起始位置的字符位序号不大于头实体结束位置的字符位序号,预设条件可以为头实体起始位置预测概率以及头实体结束位置预测概率分别大于预设的头实体位置概率阈值。
因此,在本发明的再一个实施例中,步骤103还至少包括:
步骤1031:将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率。
在本发明的一个实施例中,头实体预测模型可以是以词向量矩阵样本为输入,以所述词向量矩阵样本对应的头实体起止位置标签为输出预先训练得到的神经网络模型,具体可以是多个全连接层加上一激活函数层组成的多分类模型,其中,激活函数层可以为sigmoid函数,头实体位置标签为各个字符位为头实体起止位置的概率标签。
在本发明的再一个实施例中,头实体预测模型的损失函数可以采用交叉熵损失函数,可表示如下:
其中Losss1表示头实体起始位置预测概率的损失函数;Losss2表示头实体结束位置预测概率的损失函数;n表示词向量矩阵样本包含的字符位数量;i表示当前预测的字符位序号;si_start和si_end分别为词向量矩阵样本的i字符位对应的头实体起始位置标签和头实体结束位置标签,和/>分别为头实体预测模型输出的词向量矩阵样本的第i个字符位对应的头实体起始位置预测概率和头实体结束位置预测概率,其取值区间为[0,1]。
根据损失函数对头实体预测模型进行参数优化,直至其损失函数收敛或保持稳定,其中,参数优化可以采用梯度法等。
步骤1032:根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。
在本发明的一个实施例中,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对。可以过滤掉头实体起始位置预测概率以及头实体结束位置预测概率分别小于预设的头实体起始位置概率阈值和头实体结束位置概率阈值的字符位,从而提高信息抽取的准确率。
在本发明的再一个实施例中,考虑到文本中的字符是按照前后顺序排列的,还可以要求头实体起始位置的字符位序号不大于头实体结束位置的字符位序号,进一步提高信息抽取的准确率。
在本发明的再一个实施例中,在将满足前述概率条件和位置关系的字符位进行组合得到多对头实体起止位置对时,如(1,3),(1,5),(1,6),(5,6)时,考虑到可能出现如(1,3),(1,5),(1,6)这样的头实体起止位置相同或者如(1,6),(5,6)这样的头实体结束位置相同的头实体起止位置对,为了保证抽取出的头实体的准确性和单一性,还可以从出现头实体起始位置或头实体结束位置重新的头实体起止位置对中,筛选头实体起止位置预测概率最大的头实体起止位置对作为可选头实体起止位置对。
因此,在本发明的再一个实施例中,步骤1032还至少包括:
步骤321:将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果。
在本发明的一个实施例中,将待抽取数据每一个字符位对应的头实体起始位置预测概率与第一阈值进行比较,将待抽取数据每一个字符位对应的头实体结束位置预测概率与第二阈值进行比较,将上述两项的比较结果确定为第一比较结果。
步骤322:根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置。
在本发明的一个实施例中,将头实体起始位置预测概率大于第一阈值的字符位确定为所述头实体可选起始位置,将头实体结束位置预测概率大于第二阈值的字符位确定为所述头实体可选结束位置。
步骤323:将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对。
在本发明的一个实施例中,组合方式可以是按照头实体的起始位置在前,结束位置在后的方式一一组合,如若头实体可选起始位置包括1、5、9,头实体可选结束位置包括3,6,10,则得到的第一头实体起止位置对如下:(1,3)、(1,6)、(1,10)、(5,3)、(5,6)、(5,10)、(9,3)、(9,6)、(9,10)这9个。
步骤324:删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对。
结合前述举例,将(5,3)(9,3)、(9,6)从第一头实体起止位置对中删除,即保证头实体起始位置的字符位序号不大于头实体结束位置的字符位序号,进一步提高信息抽取的准确率。
步骤325:对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。
结合前述举例,(1,3)、(1,6)、(1,10)、(5,6)、(5,10)、(9,10)中,(1,3)、(1,6)、(1,10)的头实体起始位置相同,因此取3、5、10这3各字符位中对应的头实体结束位置预测概率最大的,如3,得到(1,3)这一有效头实体起止位置对。
在本发明的一个实施例中,如图2所示,针对待抽取句子“鲁武公是鲁国始君伯禽的玄孙,名敖。”,通过前述步骤抽取出的有效头实体可以为“鲁武公”、“鲁国”以及“伯禽”。
步骤104:根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息。
在本发明的一个实施例中,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个。
预设主谓语法关系指的是头实体与中间词之间的语法关系,并不限定为主谓关系,可以为主谓关系并且主语在前、主谓关系并且主语在后、定中关系并且定语在前、定中关系并且定语在后,其中,当中间词为名词,预设主谓语法关系为定中关系中的一种,中心词为动词时,预设主谓语法关系为主谓关系中的一种。
在本发明的一个实施例中,中间词预测模型用于预测各个所述字符位为与目标头实体构成预设主谓语法关系的中间词起始/结束位置的预测概率。
在得到中间词预测模型的输出之后,类似于前述步骤321-324,在每一种预设主谓语法关系下,根据中间词起始位置预测概率以及中间词结束位置预测概率进行是否满足预设位置关系和预设概率条件的过滤以及筛选,确定出满足所述条件以及关系的有效头实体起止位置对,从而提取出各个预设主谓语法关系下,目标头实体对应的目标中间词起止位置对。
其中,预设关系可以为中间词起始位置的字符位序号不大于中间词结束位置的字符位序号,预设条件可以为中间词起始位置预测概率以及中间词结束位置预测概率分别大于预设的中间词位置概率阈值。
因此,在本发明的再一个实施例中,步骤104还包括:
步骤1041:将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量。
在本发明的一个实施例中,将目标头实体起止位置进行向量化编码,如可以是输入前述预训练模型,得到目标头实体编码向量,然后将目标头实体编码向量与词向量矩阵进行混合编码,得到主语特征向量。
步骤1042:将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系。
在本发明的一个实施例中,中间词预测信息可以以中间词预测矩阵的形式表示,其中中间词预测矩阵包括中间词起止位置预测矩阵P_START和中间词结束位置预测矩阵P_END,P_START或P_END可以表示如下:
以P_START为例进行说明,P_START中的每一行对应于一种预设主谓语法关系,P_START中的pji表示词向量矩阵样本中的第i个字符位为与目标头实体构成第j种预设主谓语法关系的中间词起始位置的概率,其中,j为1时的预设主谓语法关系可以为主谓_主语在前语法关系,j为2时可以为主谓_主语在后语法关系,其他行以及P_END的定义以此类推,不再赘述。
在本发明的一个实施例中,中间词预测模型可以是以词向量矩阵样本为输入,以词向量矩阵样本对应的中间词起止位置标签为输出预先训练得到的神经网络模型,具体可以是多个全连接层加上一激活函数层组成的多分类模型,其中,激活函数层可以为sigmoid函数,中间词起止位置标签为各个字符位为与输入的词向量样本中的标注出的任一头实体组成预设主谓语法关系的中间词的起止位置的概率标签。
在本发明的再一个实施例中,头实体预测模型的损失函数可以采用交叉熵损失函数,可表示如下:
其中,Lossp1表示中间词起始位置预测概率的损失函数;Lossp2表示中间词结束位置预测概率的损失函数;n表示词向量矩阵样本包含的字符位数量,i表示当前预测的字符位序号;pi_start和pi_end分别为i字符位对应的中间词起始位置以及结束位置标签;其中,中间词起始位置标签包括位置预测概率以及语法关系类型。
和/>分别为中间词预测模型输出的i字符位为词向量矩阵样本中标注出的头实体构成第一预设语法关系的中间词的起始位置以及结束位置的概率,其取值区间为[0,1]。根据损失函数对中间预测模型进行参数优化,直至其损失函数收敛或保持稳定,其中,参数优化可以采用梯度法等。
步骤1043:根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
在本发明的一个实施例中,针对每一种预设的主谓关系,类似于步骤1032中的方法,根据所述中间词起始位置预测概率、中间词结束位置预测概率进行筛选和过滤,得到满足概率条件和关系的中间词起止位置对。
因此,在本发明的再一个实施例中,步骤1043还包括:
步骤431:将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果。
步骤431的过程与步骤321类似,不再赘述。
步骤432:根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置。
在本发明的一个实施例中,将中间词起始位置预测概率大于第一阈值的字符位确定为所述中间词可选起始位置,将中间词结束位置预测概率大于第二阈值的字符位确定为所述中间词可选结束位置。
步骤433:将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对。
在本发明的一个实施例中,类似于步骤323,组合方式可以是按照中间词的起始位置在前,结束位置在后的方式一一组合,得多个第一中间词起止位置对。
步骤434:删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对。
步骤434类似于步骤324,不再赘述。
步骤435:对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
步骤434类似于步骤325,不再赘述。
在本发明的一个实施例中,如图2所示,针对待抽取句子“鲁武公是鲁国始君伯禽的玄孙,名敖。”,在目标头实体取“鲁国”时,通过前述步骤抽取到的目标中间词可以为“始君”,第一语法关系为定中关系并且定语在前;在目标头实体取“伯禽”时,目标中间词可以为“玄孙”,第一语法关系为定中关系并且定语在前;在目标头实体取“鲁武公”时,目标中间词可以为“名”,第一语法关系为定中关系并且定语在前。
步骤105:根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
在本发明的一个实施例中,尾实体预测模型用于预测待抽取数据中各个字符位为与目标头实体中间对构成预设主谓宾语法关系的起止位置的概率。
三元组指的是头实体、中间词以及尾实体组成的元素组,位置信息包括该元素组中各个元素的起止位置,语法关系包括元素组中的头实体与中间词之间的第一语法关系以头实体中间词对与尾实体之间的第二语法关系。
在本发明的一个实施例中,步骤105还包括:
步骤1051:将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个。
参考图2,待混合中间词可以为“始君”,混合编码与步骤1041中类似,不再赘述。
步骤1052:将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量。
参考图2,混合编码得到主谓语特征向量与步骤1041中类似,不再赘述。
步骤1053:将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息。
在本发明的一个实施例中,尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词。
在本发明的一个实施例中,预设主谓宾语法关系指的是尾实体与头实体中间词对之间的语法关系,并不限定为主谓宾关系,可以为动宾关系并且宾语在前、动宾关系并且宾语在后、定中关系并且定语在前、定中关系并且定语在后。其中,当中间词为名词时,第二语法关系为定中关系,当中间词为动词时,第二语法关系为动宾关系。
在本发明的一个实施例中,所述尾实体预测信息可以矩阵形式表示,类似于步骤1042中的中间词预测矩阵,尾实体预测矩阵包括尾实体起止位置预测矩阵O_START和尾实体结束位置预测矩阵O_END,O_START或O_END可以表示如下:
以O_START为例进行说明,O_START中的每一行对应于一种预设主谓宾语法关系,O_START中的oji表示词向量矩阵样本中的第i个字符位为与目标头实体中间词对构成第j种预设主谓语法关系的尾实体起始位置的概率,其中,j为1时的预设主谓语法关系可以为主谓_主语在前语法关系,j为2时可以为主谓_主语在后语法关系,其他行以及O_END的定义以此类推,不再赘述。
在本发明的一个实施例中,中间词预测模型可以是以词向量矩阵样本为输入,以词向量矩阵样本对应的中间词起止位置标签为输出预先训练得到的神经网络模型,具体可以是多个全连接层加上一激活函数层组成的多分类模型,其中,激活函数层可以为sigmoid函数,中间词起止位置标签为各个字符位为与输入的词向量样本中的标注出的任一头实体组成预设主谓语法关系的中间词的起止位置的概率标签。
在本发明的再一个实施例中,头实体预测模型的损失函数可以采用交叉熵损失函数,可表示如下:
其中,Losso1表示尾实体起始位置预测概率的损失函数;Losso2表示尾实体结束位置预测概率的损失函数;n表示词向量矩阵样本包含的字符位数量,i表示当前预测的字符位序号;oi_start和oi_end分别为i字符位对应的尾实体起始位置以及结束位置标签;其中,尾实体起止位置标签包括起止位置预测概率以及与词向量矩阵样本对应的标注头实体中间词对之间的语法关系类型。
和/>分别为尾实体预测模型输出的i字符位为与标注头实体中间词对构成第二预设语法关系的尾实体的起始位置以及结束位置的概率,其取值区间为[0,1]。
步骤1054:根据所述尾实体预测信息确定所述三元组信息。
在本发明的一个实施例中,根据各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率按照类似于步骤1032中的预设概率阈值和关系条件进行筛选。
因此,在本发明的再一个实施例中,步骤1054还包括:
步骤541:将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果。
在本发明的一个实施例中,遍历j的取值,分别从O_START和O_END 2个矩阵读取第j中预设主谓宾语法关系对应的行向量。以动宾关系并且宾语在后为例,j取2,得到2个行向量如下:
o_start:[o21 o22 ... o2n]
o_end:[o21 o22 ... o2n]
分别将o_start中的n个元素对应的所述尾实体起始位置预测概率与第五阈值进行比较,以及分别将o_end中的n个元素对应的所述尾实体结束位置预测概率与第六阈值进行比较,得到第三比较结果。
步骤542:根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置。
步骤542类似于前述步骤322,不再赘述。
步骤543:将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对。
步骤543类似于前述步骤323,不再赘述。
步骤544:删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对。
步骤544类似于前述步骤324,不再赘述。
步骤545:对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
在本发明的一个实施例中,结合前述举例,针对待抽取句子“鲁武公是鲁国始君伯禽的玄孙,名敖。”,在目标头实体中间词对为鲁国-始君时,通过前述步骤抽取到的目标尾实体可以为“伯禽”,第一语法关系与第二语法关系分别为定中关系并且定语在前、定中关系并且定语在前;
在目标头实体中间词对为伯禽-玄孙时,目标尾实体可以为“鲁武公”,第一语法关系与第二语法关系分别为定中关系并且定语在前、定中关系并且定语在后;在目标头实体中间词对为鲁武公-名时,目标尾实体可以为“敖”,第一语法关系与第二语法关系分别为定中关系并且定语在前、定中关系并且定语在后。
在本发明的再一个实施例中,考虑到抽取到的三元组信息的准确性受头实体预测模型、中间词预测模型以及尾实体预测模型这三者的影响,并且三个模型的输入以及输出之间存在关联,因此,在模型训练阶段,可以将上述三个模型联合进行训练,总损失函数表示为:
Loss=Losss1+Losss1+Lossp1+Lossp2+Losso1+Losso2。
模型训练优化目标为最小化上述损失函数。
区别于现有的关系抽取依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,从而只适用于面向特定领域关系抽取的问题,本发明实施例提供的信息抽取方法通过首先对有效头实体进行抽取,然后基于抽取到的有效头实体和词向量矩阵再抽取出与有效头实体构成各种预设主谓语法关系的中间词,与有效头实体构成一对目标头实体中间词对。最后抽取与目标头实体中间词对构成各种预设主谓宾语法关系的尾实体,得到待抽取数据中包含的三元组信息,从而实现了对开放领域的非结构文件进行信息抽取,提高了信息抽取的准确率。
图3示出了本发明实施例提供的信息抽取装置的结构示意图。如图3所示,该装置200包括:获取模块201、确定模块202、第一预测模块203、第二预测模块204以及第三预测模块205。
其中,获取模块201,用于获取待抽取数据;
确定模块202,用于确定所述待抽取数据对应的词向量矩阵;
第一预测模块203,用于根据所述词向量矩阵和头实体预测模型确定头实体预测信息;
第二预测模块204,用于根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
第三预测模块205,用于根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
在一种可选的方式中,所述待抽取数据中包括多个字符位;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位;第一预测模块203还用于:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。
在一种可选的方式中,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;第一预测模块203还用于:
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。
在一种可选的方式中,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;第二预测模块204还用于:
将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;
将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系;
根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
在一种可选的方式中,第二预测模块204还用于:
将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;
根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;
将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;
删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;
对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
在一种可选的方式中,第三预测模块205还用于:
将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;
将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;
将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;
根据所述尾实体预测信息确定所述三元组信息。
在一种可选的方式中,第三预测模块205还用于:
将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;
根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;
将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;
删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;
对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
本发明实施例的信息抽取装置的具体工作过程与上述方法实施例的具体方法步骤大体一致,此处不再赘述。
区别于现有的关系抽取依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,从而只适用于面向特定领域关系抽取的问题,本发明实施例提供的信息抽取装置通过首先对有效头实体进行抽取,然后基于抽取到的有效头实体和词向量矩阵再抽取出与有效头实体构成各种预设主谓语法关系的中间词,与有效头实体构成一对目标头实体中间词对。最后抽取与目标头实体中间词对构成各种预设主谓宾语法关系的尾实体,得到待抽取数据中包含的三元组信息,从而实现了对开放领域的非结构文件进行信息抽取,提高了信息抽取的准确率。
图4示出了本发明实施例提供的信息抽取设备的结构示意图,本发明具体实施例并不对信息抽取设备的具体实现做限定。
如图4所示,该信息抽取设备可以为:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于信息抽取方法实施例中的相关步骤。
具体地,程序310可以为程序代码,该程序代码包括计算机可执行指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。信息抽取设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以被处理器302调用使信息抽取设备执行以下操作:
获取待抽取数据;
确定所述待抽取数据对应的词向量矩阵;
根据所述词向量矩阵和头实体预测模型确定头实体预测信息;
根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
在一种可选的方式中,所述待抽取数据中包括多个字符位;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位;所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。
在一种可选的方式中,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。
在一种可选的方式中,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;
将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系;
根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
在一种可选的方式中,所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;
根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;
将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;
删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;
对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
在一种可选的方式中,所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;
将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;
将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;
根据所述尾实体预测信息确定所述三元组信息。
在一种可选的方式中,所述程序310被处理器302调用使信息抽取设备执行以下操作:
将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;
根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;
将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;
删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;
对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
本发明实施例的信息抽取设备的具体工作过程与上述方法实施例的具体方法步骤大体一致,此处不再赘述。
区别于现有的关系抽取依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,从而只适用于面向特定领域关系抽取的问题,本发明实施例提供的信息抽取设备通过首先对有效头实体进行抽取,然后基于抽取到的有效头实体和词向量矩阵再抽取出与有效头实体构成各种预设主谓语法关系的中间词,与有效头实体构成一对目标头实体中间词对。最后抽取与目标头实体中间词对构成各种预设主谓宾语法关系的尾实体,得到待抽取数据中包含的三元组信息,从而实现了对开放领域的非结构文件进行信息抽取,提高了信息抽取的准确率。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在信息抽取设备上运行时,使得所述信息抽取设备执行上述任意方法实施例中的信息抽取方法。
可执行指令具体可以用于使得信息抽取设备执行以下操作:
获取待抽取数据;
确定所述待抽取数据对应的词向量矩阵;
根据所述词向量矩阵和头实体预测模型确定头实体预测信息;
根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
在一种可选的方式中,所述待抽取数据中包括多个字符位;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位;所述可执行指令具体可以用于使得信息抽取设备执行以下操作:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。
在一种可选的方式中,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;所述可执行指令具体可以用于使得信息抽取设备执行以下操作:
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。
在一种可选的方式中,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;所述可执行指令使所述信息抽取设备执行以下操作:
将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;
将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系;
根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
在一种可选的方式中,所述可执行指令使所述信息抽取设备执行以下操作:
将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;
根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;
将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;
删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;
对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
在一种可选的方式中,所述可执行指令使所述信息抽取设备执行以下操作:
将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;
将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;
将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;
根据所述尾实体预测信息确定所述三元组信息。
在一种可选的方式中,所述可执行指令使所述信息抽取设备执行以下操作:
将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;
根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;
将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;
删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;
对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
本发明实施例的计算机可读存储介质的具体工作过程与上述方法实施例的具体方法步骤大体一致,此处不再赘述。
区别于现有的关系抽取依赖于预先确定好的关系体系,根据这些关系进行语料标注和模型训练,从而只适用于面向特定领域关系抽取的问题,本发明实施例提供的计算机可读存储介质通过首先对有效头实体进行抽取,然后基于抽取到的有效头实体和词向量矩阵再抽取出与有效头实体构成各种预设主谓语法关系的中间词,与有效头实体构成一对目标头实体中间词对。最后抽取与目标头实体中间词对构成各种预设主谓宾语法关系的尾实体,得到待抽取数据中包含的三元组信息,从而实现了对开放领域的非结构文件进行信息抽取,提高了信息抽取的准确率。
本发明实施例提供一种信息抽取装置,用于执行上述信息抽取方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使信息抽取设备执行上述任意方法实施例中的信息抽取方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的信息抽取方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在各个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的各个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (8)
1.一种信息抽取方法,其特征在于,所述方法包括:
获取待抽取数据;所述待抽取数据中包括多个字符位;
确定所述待抽取数据对应的词向量矩阵;
根据所述词向量矩阵和头实体预测模型确定头实体预测信息;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;每一个所述有效头实体包括至少一个所述字符位;所述根据所述词向量矩阵和头实体预测模型确定头实体预测信息,包括:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体;
根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
2.根据权利要求1所述的方法,其特征在于,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;所述根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息,包括:
将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;
将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率以及所述第一语法关系;
根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息,包括:
将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;
根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;
将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;
删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;
对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词向量矩阵、头实体预测信息、中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息,包括:
将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;
将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;
将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;
根据所述尾实体预测信息确定所述三元组信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述尾实体预测信息确定所述三元组信息,包括:
将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;
根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;
将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;
删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;
对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
6.一种信息抽取装置,其特征在于,所述装置包括:
获取模块,用于获取待抽取数据;所述待抽取数据中包括多个字符位;
确定模块,用于确定所述待抽取数据对应的词向量矩阵;
第一预测模块,用于根据所述词向量矩阵和头实体预测模型确定头实体预测信息;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;每一个所述有效头实体包括至少一个所述字符位;所述根据所述词向量矩阵和头实体预测模型确定头实体预测信息,包括:
将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;
将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;
根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;
将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;
删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;
对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体;
第二预测模块,用于根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;
第三预测模块,用于根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。
7.一种信息抽取设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5任意一项所述的信息抽取方法的操作。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在信息抽取设备上运行时,使得信息抽取设备执行如权利要求1-5任意一项所述的信息抽取方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875004.4A CN113568969B (zh) | 2021-07-30 | 2021-07-30 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875004.4A CN113568969B (zh) | 2021-07-30 | 2021-07-30 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568969A CN113568969A (zh) | 2021-10-29 |
CN113568969B true CN113568969B (zh) | 2024-06-04 |
Family
ID=78169667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875004.4A Active CN113568969B (zh) | 2021-07-30 | 2021-07-30 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568969B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218931B (zh) * | 2021-11-04 | 2024-01-23 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
CN114385812A (zh) * | 2021-12-24 | 2022-04-22 | 思必驰科技股份有限公司 | 用于文本的关系抽取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275928A (zh) * | 2019-06-24 | 2019-09-24 | 复旦大学 | 迭代式实体关系抽取方法 |
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN113157936A (zh) * | 2021-03-16 | 2021-07-23 | 云知声智能科技股份有限公司 | 实体关系联合抽取方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
-
2021
- 2021-07-30 CN CN202110875004.4A patent/CN113568969B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275928A (zh) * | 2019-06-24 | 2019-09-24 | 复旦大学 | 迭代式实体关系抽取方法 |
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN113157936A (zh) * | 2021-03-16 | 2021-07-23 | 云知声智能科技股份有限公司 | 实体关系联合抽取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113568969A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN111079406B (zh) | 自然语言处理模型训练方法、任务执行方法、设备及系统 | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN113568969B (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN111079408A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN113434858A (zh) | 基于反汇编代码结构和语义特征的恶意软件家族分类方法 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN114860942B (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN113723426A (zh) | 基于深度多流神经网络的图像分类方法及装置 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN113779190B (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN113705194B (zh) | 简称抽取方法及电子设备 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |