CN110705299B - 实体和关系的联合抽取方法、模型、电子设备及存储介质 - Google Patents
实体和关系的联合抽取方法、模型、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110705299B CN110705299B CN201910922418.0A CN201910922418A CN110705299B CN 110705299 B CN110705299 B CN 110705299B CN 201910922418 A CN201910922418 A CN 201910922418A CN 110705299 B CN110705299 B CN 110705299B
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- corpus
- feature vector
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种实体和关系的联合抽取方法、模型、电子设备及存储介质,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签,实现了对语料中实体和关系的联合抽取。此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种实体和关系的联合抽取方法、模型、电子设备及存储介质。
背景技术
在当今大数据时代,每天都会产生大量的数据,但数据种类繁多,良莠不齐,因此如何从大量数据中抽取有用的信息就成了人工智能领域重要的研究问题。通过信息抽取得到的数据则可以帮助企业构建行业知识图谱、辅助领导层决策、跟踪事件发展状况以及风险评估等,具有重要的研究意义和实际应用价值,其中实体和关系的抽取就是其中的核心任务之一。
发明内容
本申请实施例的目的在于提供一种实体和关系的联合抽取方法、模型、电子设备及存储介质,用以实现语料信息中的实体和关系的抽取。
本申请实施例提供了一种实体和关系的联合抽取方法,包括:对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;对所述各基本元素的第一特征向量均执行以下操作:采用多头注意力机制将所述第一特征向量映射到多个语义空间;将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量;将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签;所述实体关系标签包括实体类型和关系类型。
在上述实现过程中,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签。而实体关系标签包括实体类型和关系类型,因此输出各基本元素的实体关系标签后,即实现了对语料实体和关系的确认,实现了对语料中实体和关系的联合抽取。此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。
进一步的,所述对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量包括:对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量;使用卷积神经网络对所述各基本元素的词向量进行特征提取,得到所述各基本元素的第一特征向量。
在上述实现过程中,通过对待抽取语料进行词嵌入,使得待抽取语料中的各基本元素向量化,从而使得待抽取语料可被计算机识别处理。进而再通过卷积神经网络来实现对词向量特征提取,从而实现对待抽取语料的特征提取。
进一步的,在所述待抽取语料为字母类语料时,所述基本元素为构成所述待抽取语料的单词;所述对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量包括:对所述待抽取语料中的每一个单词使用词嵌入,得到各所述单词的第一词嵌入向量;对各所述单词中的每一个字母进行词嵌入,得到各所述字母的第二词嵌入向量;使用卷积神经网络对各所述字母的第二词嵌入向量进行特征提取,得到各所述字母的第三词嵌入向量;将属于同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各所述单词的词向量。
在上述实现过程中,在待抽取语料为字母类语料时,对待抽取语料中的每一个单词使用词嵌入,得到各单词的第一词嵌入向量;对各单词中的每一个字母进行词嵌入,得到各字母的第二词嵌入向量。再对第二词嵌入向量进行特征提取,得到各字母的第三词嵌入向量,并将同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各单词的词向量。这样得到的词向量结合了单词本身进行词嵌入处理后得到的第一词嵌入向量,以及单词中各字母进行词嵌入处理以及特征提取处理后的字母特征,使得得到的词向量对于单词的表征更为准确,从而提升了本申请方案的可靠性。
进一步的,在所述采用多头注意力机制将所述第一特征向量映射到多个语义空间之前,还包括:对所述第一特征向量进行线性变换;所述采用多头注意力机制将所述第一特征向量映射到多个语义空间包括:采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。
在上述实现过程中,先对第一特征向量进行线性变换,使得第一特征向量映射到所需的空间中,从而提升了特征向量的表达效果,提升了本申请方案的可靠性。
进一步的,所述基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量包括:采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量;采用单向长短期记忆网络对第三特征向量进行解码,得到所述第二特征向量对应的基本元素的标签概率向量。
在上述实现过程中,采用双向长短期记忆网络进行编码,而采用对应的单向长短期记忆网络进行相应的解码,实现简单,且长短期记忆网络是在语料处理中较为成熟的神经网络,对于语料的处理比较可靠,这就使得本申请的方案具有较高的实际应用价值。
进一步的,所述采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量包括:将所述第二特征向量输入所述双向长短期记忆网络中;将所述双向长短期记忆网络输出的两个结果进行拼接,得到所述第三特征向量。
在实际应用中,双向长短期记忆网络会输出两个不同处理方向的结果。在上述实现过程中,将这两个结果进行拼接作为第三特征向量,从而丰富了第三特征向量的特征表达,使得其能更准确的表征出对应的基础元素在语料中的类别,提升了本申请方案的可靠性。
进一步的,所述实体关系标签为元素类型标识、关系类型和元素角色标示三元组。
在上述实现过程中,通过元素类型标识、关系类型和元素角色标示三元组,即可明确出一个基础元素在语料中的角色类型以及其对应的关系是什么。此外本申请实施例中,由于标签中含有元素类型标识、关系类型和元素角色标示,因此可以同时识别出语料中的实体和对应关系,不会产生冗余信息,也没有误差的传递和累积,具有长期使用仍旧可靠的特性。
本申请实施例还提供了一种实体和关系的联合抽取模型,包括:特征提取层,用于对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;映射层,用于采用多头注意力机制将所述第一特征向量映射到多个语义空间;将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;编码层,对所述第二特征向量进行编码,得到第三特征向量;解码层,对所述第三特征向量进行解码,得到标签概率向量;分类层,将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签。
在上述联合抽取模型中,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签。而实体关系标签包括实体类型和关系类型,因此输出各基本元素的实体关系标签后,即实现了对语料实体和关系的确认,实现了对语料中实体和关系的联合抽取。此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。
进一步地,所述特征提取层包括词嵌入层和卷积神经网络层;所述词嵌入层用于对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量;所述卷积神经网络层用于使用卷积神经网络对所述各基本元素的词向量进行特征提取,得到所述各基本元素的第一特征向量。
在上述联合抽取模型中,通过词嵌入层对待抽取语料进行词嵌入,使得待抽取语料中的各基本元素向量化,从而使得待抽取语料可被计算机识别处理。进而再通过卷积神经网络层来实现对词向量特征提取,从而实现对待抽取语料的特征提取。
进一步地,所述实体和关系的联合抽取模还包括:线性变化处理层;所述线性变化处理层用于对所述第一特征向量进行线性变换;所述映射层具体用于采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。
在上述联合抽取模型中,先通过线性变化处理层对第一特征向量进行线性变换,使得第一特征向量映射到所需的空间中,从而提升了特征向量的表达效果,提升了本申请方案的可靠性。
进一步地,所述编码层为双向长短期记忆网络,所述解码层为单向长短期记忆网络。
在上述联合抽取模型中,采用双向长短期记忆网络进行编码,而采用对应的单向长短期记忆网络进行相应的解码,实现简单,且长短期记忆网络是在语料处理中较为成熟的神经网络,对于语料的处理比较可靠,这就使得本申请的方案具有较高的实际应用价值。
本申请实施例还提供了一种电子设备,包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的一个或者多个程序,以实现上述任一种实体和关系的联合抽取方法。
本申请实施例中还提供了一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种实体和关系的联合抽取方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种实体和关系的联合抽取方法的流程示意图;
图2为本申请实施例提供的一种联合抽取模型的基础结构示意图;
图3为本申请实施例提供的一种较具体的联合抽取模型的基础结构示意图;
图4为本申请实施例提供的又一种较具体的联合抽取模型的基础结构示意图;
图5为本申请实施例提供的又一种较具体的联合抽取模型的基础结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一:
实为了实现对语料信息中的实体和关系的抽取,本申请实施例中提供了一种实体和关系的联合抽取方法。可以参见图1所示,本申请实施例所提供的实体和关系的联合抽取方法包括:
S101:对待抽取语料进行特征提取,得到待抽取语料中各基本元素的第一特征向量。
需要说明的是,实体是指真实世界中所存在的一种物体或者一种概念。可以有很多种类,比如人名,地名,组织机构名,活动,时间,或具体某一物品等。关系是指两个实体之间存在的关联。
值得注意的是,本申请实施例中所述的实体和关系的联合抽取方法可以通过在设备中构建相应的实体和关系的联合抽取模型(后文简称联合抽取模型)来实现。联合抽取模型可以参见图2所示的结构,包括输入层、特征提取层、映射层、编码层、解码层以及分类层。待抽取语料可以通过输入层输入到实体和关系的联合抽取模型中,进而通过特征提取层来执行上述步骤S101的操作,得到各基本元素的第一特征向量。
为了保证联合抽取模型的可用性,在采用联合抽取模型对待抽取语料进行实体和关系的联合抽取之前,可以先采用预先收集到的样本训练集来对联合抽取模型进行训练,以得到训练好的模型。样本训练集为预先标定好各基本元素对应的实体关系标签的语料集合。需要理解的是,本申请实施例中对于联合抽取模型的训练方式可以采用现有分类模型的训练方式,故本申请实施例中不再赘述。
在通过样本训练集训练好联合抽取模型后,为了确保联合抽取模型的可用性,还可采用预先设定的样本测试集对模型进行性能测试。样本测试集为预先明确知晓语料中各基本元素对应的实体关系标签的语料集合(样本测试集的语料需与样本训练集中的语料不同,以保证测试可靠性)。测试时将未标定有各基本元素对应的实体关系标签的样本测试集语料输入联合抽取模型中,进而再将联合抽取模型输出的各基本元素对应的实体关系标签和预先明确知晓的各基本元素实际应对应的实体关系标签进行比较,在准确率大于预设阈值时(如98%)时,即可认为联合抽取模型被训练好了,是可用的。若准确率低于预设阈值,则可以增加样本训练集的大小重新进行训练。
需要说明的是,在本申请实施例中,待抽取语料可以为预设语种的语句。预设语种为本申请实施例中预先设定好的可识别的语种。为了保证待抽取语料的可识别性,在对联合抽取模型的训练过程中,应采用相应语种的语料进行训练。此外,在本申请实施例中,基本元素为构成语料的最小单元,对于如中文、日文等字符类语料,可以以单个字符作为基本元素,但应当理解的是,也可以以语料中的单个词语作为基本元素。而对于英文、德文等字母类语料而言,则可以以单个单词作为基本元素。
在本申请实施例中,可以先对待抽取语料进行词嵌入处理,得到待抽取语料中各基本元素的词向量,进而再使用卷积神经网络对各基本元素的词向量进行特征提取,得到各基本元素的第一特征向量。
值得注意的是,对于基本元素还可以进一步细化的情况,如字母类语料中以单个单词作为基本元素的情况,可以对待抽取语料中的每一个单词使用词嵌入,得到各单词的第一词嵌入向量;对各单词中的每一个字母进行词嵌入,得到各字母的第二词嵌入向量,并使用卷积神经网络对各所述字母的第二词嵌入向量进行特征提取,得到各字母的第三词嵌入向量,将属于同一单词的各字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各单词的词向量。这样得到的词向量结合了单词本身进行词嵌入处理后得到的第一词嵌入向量,以及单词中各字母进行词嵌入处理以及特征提取处理后的字母特征,使得得到的词向量对于单词的表征更为准确,从而提升了本申请方案的可靠性。
同理,对于字符类语料中以单个词语作为基本元素的情况,可以对待抽取语料中的每一个词语进行使用词嵌入,得到各词语的第一词嵌入向量;对各词语中的组成该词语的每一个字符进行词嵌入,得到各字符的第二词嵌入向量,并使用卷积神经网络对各所述字符的第二词嵌入向量进行特征提取,得到各字符的第三词嵌入向量,将属于同一词语的各字符的第三词嵌入向量与所属词语的第一词嵌入向量进行拼接,得到各词语的词向量。
当然,在本申请实施例,对于字母类语料中以单个单词作为基本元素,或者以单个词语作为基本元素的情况,也可以仅对单词或词语进行词嵌入处理,将处理结果作为各单词或词语的词向量。
应当理解的是,为了实现上述操作,可以参见图3所示,联合抽取模型中的特征提取层可以包括词嵌入层和卷积神经网络层。在本申请实施例中,词嵌入层可以通过Word2vec、GloVe、Deeplearning4j等方法实现。卷积神经网络层由至少一个卷积神经网络实现。
S102:采用多头注意力机制将第一特征向量映射到多个语义空间。
需要说明的是,在本申请实施例中,对于待抽取语料中各基本元素的第一特征向量均会执行步骤S102至步骤S105的操作。
在本申请实施例的一种可行实施方式中,可以先对第一特征向量进行线性变换,再采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。从而通过线性变换使得第一特征向量映射到所需的空间中,从而提升了特征向量的表达效果,提升了本申请方案的可靠性。
对应的,为了实现上述操作,可以参见图4所示,联合抽取模型中还可以包括线性变化处理层,连接与映射层和特征提取层之间,对第一特征向量进行线性变换。
S103:将第一特征向量在各语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量。
在本申请实施例中,将各语义空间的映射结果与该第一特征向量的拼接,这就使得得到的第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。
S104:基于第二特征向量,确定出第二特征向量对应的基本元素的标签概率向量。
需要说明的是,本申请实施例中所述的标签概率向量是指能够反映各个实体关系标签为该基本元素实际对应的标签的概率的向量。标签概率向量是一个N维向量,N为模型中的实体关系标签的个数,标签概率向量中的每一个数对应于一个实体关系标签,每一个数的数值大小表征其对应的实体关系标签为该基本元素实际对应的标签的概率。
在本申请实施例中的一种可行实施方式中,可以通过如长短期记忆网络等方式直接对第二特征向量进行解码操作,进而得到基本元素的标签概率向量。
在本申请实施例中的另一种可行实施方式中,可以通过采用双向长短期记忆网络等递归神经网络对第二特征向量进行编码,得到第三特征向量。进而再采用单向长短期记忆网络等递归神经网络对第三特征向量进行解码,得到第二特征向量对应的基本元素的标签概率向量。
值得注意的是,在采用双向长短期记忆网络进行编码时,双向长短期记忆网络会输出两个不同处理方向的结果。在本申请实施例中可以将双向长短期记忆网络输出的两个结果进行拼接,得到第三特征向量。这就丰富了第三特征向量的特征表达能力,使得其能更准确的表征出对应的基础元素在语料中的含义,提升了本申请方案的可靠性。此时,联合抽取模型中的编码层即为双向长短期记忆网络,解码层即为单向长短期记忆网络。
S105:将标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为标签概率向量对应的基本元素的实体关系标签。
在本申请实施例的一种可行实现方式中,联合抽取模型的分类层可以为多标签分类器,通过多标签分类器来实现对上述步骤S105的操作。
值得注意的是,在本申请实施例中,实体关系标签可以包括实体类型和关系类型。示例性的,可以是元素类型标识、关系类型和元素角色标示三元组,其表现形式可以结合BIO标注,显示为B-关系类型-1、或I-关系类型-1、或B-关系类型-2、或I-关系类型-2。其中B代表起始,I代表中间,1代表头实体,2代表尾实体。如语料“中国的首都是北京”,“中”对应的实体关系标签即为“B-首都-1”,“国”对应的实体关系标签即为“I-首都-1”,“北”对应的实体关系标签即为“B-首都-2”,“京”对应的实体关系标签即为“I-首都-2”。通过这些实体关系标签可以确定语料中“中国”是首实体,“北京”是尾实体,关系是“首都”。需要理解的是,本申请实施例中,在对于语料中的关系,如前例中的“首都”也是有实体关系标签的,该标签标记指示出该“首都”为语料中的关系元素。在本申请实施例中,分类器输出各基本元素的实体关系标签时,可以仅输出语料中实体的实体关系标签,对于语料中的关系元素,其在输出语料中实体的实体关系标签前,根据确定出各基本元素的实体关系标签提取出语料中的关系元素的内容,如前例中的“首都”加入到语料中实体的实体关系标签中,并进行输出。
综上,本申请实施例所提供的实体和关系的联合抽取方法及模型,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签。而实体关系标签包括实体类型和关系类型,因此输出各基本元素的实体关系标签后,即实现了对语料实体和关系的确认,实现了对语料中实体和关系的联合抽取。
此外本申请实施例中,由于标签中含有实体类型和关系类型。因此可以同时识别出语料中的实体和对应关系,不会产生冗余信息,也没有误差的传递和累积,具有长期使用仍旧可靠的特性。
此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。
实施例二:
本实施例在实施例一的基础上,以一种较具体的实施过程为例,为本申请做进一步示例说明。
假设,联合抽取模型的结构为图5所示的结构,待抽取语料为“华盛顿是美国的首都”。词嵌入层对待抽取语料进行词嵌入处理,得到各个汉字对应的词向量,记为向量1。将向量1输入卷积神经网络中,通过卷积神经网络对向量1进行处理,得到n×m的特征矩阵向量2(n和m均为大于等于1的整数,且n可以等于m)。线性变化处理层采用训练得到的n×m的矩阵来与特征矩阵向量2相乘(在本申请实施例的一种可行实施方式中,也可以是执行的相除、相加或相减等线性处理操作),得到特征矩阵向量3,映射层再分别采用M个不同的n×m的矩阵来与特征矩阵向量3相乘(即采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间),得到M个特征矩阵向量4,并将这M个特征矩阵向量4和特征矩阵向量2拼接,得到一个n×(M+1)m特征矩阵向量5。双向长短期记忆网络对特征矩阵向量5进行编码,输出两个n×j的特征矩阵向量6,并将两个特征矩阵向量6拼接得到n×2j的特征矩阵向量7。单向长短期记忆网络对特征矩阵向量7进行解码,得到各个汉字的N维标签概率向量,多标签分类器基于各个汉字的N维标签概率向量,确定出语料中的关系元素,并针对语料中的实体元素输出实体关系标签。输出结果为:“华”对应的实体关系标签为“B-首都-1”,“盛”对应的实体关系标签即为“I-首都-1”,“顿”对应的实体关系标签即为“I-首都-1”,“美”对应的实体关系标签即为“B-首都-2”,“国”对应的实体关系标签即为“I-首都-2”。
通过本申请实施例的方案,可实现对语料中的实体和关系的识别,而且是同时识别出来的,不会产生冗余信息,也没有误差的传递和累积,具备长期使用情况下的可靠性和准确性。
实施例三:
本实施例提供了一种电子设备,参见图6所示,其包括处理器601、存储器602以及通信总线603。其中:
通信总线603用于实现处理器601和存储器602之间的连接通信。
处理器601用于执行存储器602中存储的一个或多个程序,以实现上述实施例一和/或实施例二中实体和关系的联合抽取方法。
此外,在本申请实施例中,联合抽取模型可以以程序的形式存储于存储器602中,从而被处理器601调用执行,以实现联合抽取模型的各项功能。
此外,在本申请实施例中,电子设备可以包括或外接显示屏,从而将最终输出的实体关系标签显示给用户。
本实施例还提供了一种可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(SecureDigital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一和/或实施例二中实体和关系的联合抽取方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种实体和关系的联合抽取方法,其特征在于,包括:
对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;
对所述各基本元素的第一特征向量均执行以下操作:
采用多头注意力机制将所述第一特征向量映射到多个语义空间;
将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;
基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量;
将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签;所述实体关系标签包括实体类型和关系类型。
2.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,所述对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量包括:
对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量;
使用卷积神经网络对所述各基本元素的词向量进行特征提取,得到所述各基本元素的第一特征向量。
3.如权利要求2所述的实体和关系的联合抽取方法,其特征在于,在所述待抽取语料为字母类语料时,所述基本元素为构成所述待抽取语料的单词;
所述对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量包括:
对所述待抽取语料中的每一个单词使用词嵌入,得到各所述单词的第一词嵌入向量;
对各所述单词中的每一个字母进行词嵌入,得到各所述字母的第二词嵌入向量;
使用卷积神经网络对各所述字母的第二词嵌入向量进行特征提取,得到各所述字母的第三词嵌入向量;
将属于同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各所述单词的词向量。
4.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,在所述采用多头注意力机制将所述第一特征向量映射到多个语义空间之前,还包括:对所述第一特征向量进行线性变换;
所述采用多头注意力机制将所述第一特征向量映射到多个语义空间包括:采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。
5.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,所述基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量包括:
采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量;
采用单向长短期记忆网络对第三特征向量进行解码,得到所述第二特征向量对应的基本元素的标签概率向量。
6.如权利要求5所述的实体和关系的联合抽取方法,其特征在于,所述采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量包括:
将所述第二特征向量输入所述双向长短期记忆网络中;
将所述双向长短期记忆网络输出的两个结果进行拼接,得到所述第三特征向量。
7.如权利要求1-6任一项所述的实体和关系的联合抽取方法,其特征在于,所述实体关系标签为元素类型标识、关系类型和元素角色标示三元组。
8.一种电子设备,其特征在于,包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个程序,以实现如权利要求1至7中任一项所述的实体和关系的联合抽取方法。
9.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的实体和关系的联合抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910922418.0A CN110705299B (zh) | 2019-09-26 | 2019-09-26 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910922418.0A CN110705299B (zh) | 2019-09-26 | 2019-09-26 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705299A CN110705299A (zh) | 2020-01-17 |
CN110705299B true CN110705299B (zh) | 2022-10-25 |
Family
ID=69196605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910922418.0A Active CN110705299B (zh) | 2019-09-26 | 2019-09-26 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705299B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147041A1 (zh) * | 2020-01-22 | 2021-07-29 | 华为技术有限公司 | 语义分析方法、装置、设备及存储介质 |
CN111368528B (zh) * | 2020-03-09 | 2022-07-08 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111460169B (zh) * | 2020-03-27 | 2023-06-02 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111539211A (zh) * | 2020-04-17 | 2020-08-14 | 中移(杭州)信息技术有限公司 | 实体及语义关系识别方法、装置、电子设备及存储介质 |
CN111562915A (zh) * | 2020-06-15 | 2020-08-21 | 厦门大学 | 前端代码生成模型的生成方法和装置 |
CN111860662B (zh) * | 2020-07-24 | 2023-03-24 | 南开大学 | 一种相似性检测模型的训练方法及装置、应用方法及装置 |
CN112214966A (zh) * | 2020-09-04 | 2021-01-12 | 拓尔思信息技术股份有限公司 | 基于深度神经网络的实体及关系联合抽取方法 |
CN112016312B (zh) * | 2020-09-08 | 2023-08-29 | 平安科技(深圳)有限公司 | 数据关系抽取方法、装置、电子设备及存储介质 |
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
CN112163092B (zh) * | 2020-10-10 | 2022-07-12 | 成都数之联科技股份有限公司 | 实体及关系抽取方法及系统、装置、介质 |
CN112270179B (zh) * | 2020-10-15 | 2021-11-09 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN113157936B (zh) * | 2021-03-16 | 2024-03-12 | 云知声智能科技股份有限公司 | 实体关系联合抽取方法、装置、电子设备和存储介质 |
CN113806493B (zh) * | 2021-10-09 | 2023-08-29 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN113850085B (zh) * | 2021-12-01 | 2022-03-29 | 北京明略昭辉科技有限公司 | 企业的等级评估方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN109063159A (zh) * | 2018-08-13 | 2018-12-21 | 桂林电子科技大学 | 一种基于神经网络的实体关系抽取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
-
2019
- 2019-09-26 CN CN201910922418.0A patent/CN110705299B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN109063159A (zh) * | 2018-08-13 | 2018-12-21 | 桂林电子科技大学 | 一种基于神经网络的实体关系抽取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
Also Published As
Publication number | Publication date |
---|---|
CN110705299A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705299B (zh) | 实体和关系的联合抽取方法、模型、电子设备及存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN110569332B (zh) | 一种语句特征的提取处理方法及装置 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN108897869B (zh) | 语料标注方法、装置、设备和存储介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN111241209B (zh) | 用于生成信息的方法和装置 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN114140673B (zh) | 一种违规图像识别方法、系统及设备 | |
CN112613306A (zh) | 抽取实体关系的方法、装置、电子设备、及存储介质 | |
CN113157927A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN114860905A (zh) | 意图识别方法、装置及设备 | |
CN110362688B (zh) | 试题标注方法、装置、设备及计算机可读存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN111859933A (zh) | 马来语识别模型的训练方法、识别方法、装置、设备 | |
CN107729347B (zh) | 同义标签的获取方法、装置、设备及计算机可读存储介质 | |
CN111274813A (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN113407719B (zh) | 文本数据的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |