CN108280062A

CN108280062A - 基于深度学习的实体和实体关系识别方法及装置

Info

Publication number: CN108280062A
Application number: CN201810053818.8A
Authority: CN
Inventors: 鄂海红; 宋美娜; 胡莺夕; 王晓晖
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2018-07-13

Abstract

本发明公开了一种基于深度学习的实体和实体关系识别方法及装置，其中方法包括以下步骤：输入文本，并将文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；通过编解码的方式对词向量进行序列标注，以获取序列标注的词向量；对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。该方法采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

Description

基于深度学习的实体和实体关系识别方法及装置

技术领域

本发明涉及文本识别技术领域，特别涉及一种基于深度学习的实体和实体关系识别方法及装置。

背景技术

随着互联网的发展对文本进行自动的信息抽取变得越来越重要，一个典型的信息抽取任务包括实体识别和实体关系识别，从非结构化文本中进行自动的关系抽取形成三元组。目前的方法主要分为(1)基于规则的方法；(2)基于词典的方法；(3)基于机器学习的方法等。其中基于机器学习的方法是目前的研究热点，在机器学习方法中又主要分为了深度学习方法的有监督学习方法和基于远程监督的弱监督学习方法。

相关技术包括多种方式，如采用了一种基于文本分词，提取主题词，聚类形成子主题，构建有向图的方法来实现实体关系识别。又如，采用了一种卷积神经网路结合远程监督的方法进行实体关系识别。基于深度神经网络的实体关系抽取方法，这种方法从字符级别、关键词级别、类别特征等进行了多个特诊的提取和拼接，最后进行实体分类。基于神经网络和注意力机制的实体关系抽取模型，从实体对和句子级别形成包含实体关系的句向量，再将其进行分类。卷积神经网络结合多种自然语言特征的表示，进行实体关系分类。

然而，目前的热点方法主要分为基于深度学习的有监督学习方法和基于远程监督的弱监督学习方法，前者可以同时解决实体识别和实体关系识别的问题，即可以处理未给定实体的文本的关系抽取；后者只能解决给定实体的文本的关系抽取。因此从这一点来说基于深度学习的监督学习方法具有更好的普适性。而已有的基于深度学习的监督学习方法只考虑了从句子级别的关系分类，因此没有考虑一个句子包含多个实体关系的情况，此外也并没有处理实体关系重叠的情况。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习的实体和实体关系识别方法，该方法可以提升关系抽取结果精确度，并能够处理多种复杂情况。

本发明的另一个目的在于提出一种基于深度学习的实体和实体关系识别装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度学习的实体和实体关系识别方法，包括以下步骤：输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

本发明实施例的基于深度学习的实体和实体关系识别方法，通过采用最新的标记方式来进行实体识别和实体关系识别，采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

另外，根据本发明上述实施例的基于深度学习的实体和实体关系识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述通过编解码的方式对所述词向量进行序列标注，进一步包括：采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的所述LSTM网络，其中，所述LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

进一步地，在本发明的一个实施例中，上述方法还包括：采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，所述预设的损失函数为：

其中，E_i表示一个训练集，Y_i表示应该有的标签，表示不应该有的标签。表示在i个单词的应该有的标签的输出概率，表示在i个单词对应的不应该有的标签的输出概率。

进一步地，在本发明的一个实施例中，所述输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式，还包括：采用谷歌预训练好的词向量模型进行初始化，所述词向量随着模型训练进行自动优化。

进一步地，在本发明的一个实施例中，所述实体位置为一个实体的开始、结尾、单个实体、中间实体，所述实体关系为预设好的希望识别的实体关系，所述关系位置为该实体是这个实体关系的主语还是宾语。

为达到上述目的，本发明另一方面实施例提出了一种基于深度学习的实体和实体关系识别装置，包括：词向量模块，用于输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；序列标注模块，用于通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；re-rank模块，用于对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

本发明实施例的基于深度学习的实体和实体关系识别装置，通过采用最新的标记方式来进行实体识别和实体关系识别，采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

另外，根据本发明上述实施例的基于深度学习的实体和实体关系识别装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述序列标注模块还用于采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的所述LSTM网络，其中，所述LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

进一步地，在本发明的一个实施例中，采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，所述预设的损失函数为：

进一步地，在本发明的一个实施例中，所述词向量模块还用于采用谷歌预训练好的词向量模型进行初始化，所述词向量随着模型训练进行自动优化。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度学习的实体和实体关系识别方法的流程图；

图2为根据本发明一个实施例的实体识别和实体关系识别模型流程图；

图3为根据本发明一个实施例的编码过程流程图；

图4为根据本发明一个实施例的平台的服务架构示意图；

图5为根据本发明一个实施例的基于深度学习的实体和实体关系识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍基于深度学习的实体和实体关系识别方法及装置之前，先简单介绍一下相关技术的文本处理方法。

随着互联网技术日新月异的发展，人们需要处理的数据量激增，领域交叉现象突出，如何快速高效地从这些开放领域的文本中抽取出有效信息，从而为经济社会发展提供基础支撑，成为摆在人们面前的重要问题。实体关系抽取作为自然语言处理领域和信息抽取领域核心任务之一，在社会生活的诸多领域都有十分广阔的应用前景，许多应用领域迫切需要利用Web数据进行相关分析和检验，从中获取有用的知识。因此，国内外诞生了一批重要的顶级知识库，如FreeBase、BBpedia、WordNet、YAGO、HowNet等。而这些大多都是通用知识图谱，即多为常识性内容，缺少领域知识，因此又相继出现了一些针对特定领域应用的知识库，如社区本体知识库FQAF、电影相关的知识库LinkedMDB、专注于数学领域的知识库WolframAlpha等。

可见针对具体应用领域和应用从开放互联网上循序获取领域知识构建领域知识库是很有必要的。而目前大多数数据源以非结构化形式存在，这使得领域知识挖掘工作更加困难，从长期发展趋势看，更深、更广、更新、更准确的关系抽取模型构建是未来的发展发向。但是目前的实体关系抽取技术还存在较多不足，且现有研究大多仅针对简单情况讨论，并没有充分考虑实际文本蕴含的多种复杂情况。

已有的实体识别和实体关系识别方法大多转换为了句子级别的分类任务，因此不能解决一个话包含多个关系和实体关系重叠的场景。正是基于上述原因，本发明实施例提出了一种基于深度学习的实体和实体关系识别方法及装置。

下面参照附图描述根据本发明实施例提出的基于深度学习的实体和实体关系识别方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度学习的实体和实体关系识别方法。

图1是本发明一个实施例的基于深度学习的实体和实体关系识别方法的流程图。

如图1所示，该基于深度学习的实体和实体关系识别方法包括以下步骤：

在步骤S101中，输入文本，并将文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式。

首先本发明实施例采用一种最新的标记方式来进行实体识别和实体关系识别，即“实体位置+实体关系+关系位置”的标记方式。

在本发明的一个实施例中，输入文本，并将文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式，还包括：采用谷歌预训练好的词向量模型进行初始化，词向量随着模型训练进行自动优化。

如图2所示，本发明实施例将文本转换为向量表示，拟采用谷歌预训练好的词向量模型进行初始化，并随着模型训练进行自动优化。

进一步地，在本发明的一个实施例中，实体位置为一个实体的开始、结尾、单个实体、中间实体，实体关系为预设好的希望识别的实体关系，关系位置为该实体是这个实体关系的主语还是宾语。

举例而言，输入文本为Steve Jobs is the founder of Apple。

Steve就会标记为“B-founder of-1”，Jobs就会标记为“E-founder of-1”，Apple就会标记为“S-founder of-2”。其中实体位置可以是“B、E、S、I”，分别表示一个实体的开始、结尾、单个实体、中间实体。实体关系就是预设好的希望识别的实体关系，位置关系表示该实体是这个实体关系的主语还是宾语。

在步骤S102中，通过编解码的方式对词向量进行序列标注，以获取序列标注的词向量。

如图2所示，采用编解码的方式进行序列标注，将词向量进行多种自然语言处理特征的处理，从而实现了一句话多个关系的识别。

在本发明的一个实施例中，通过编解码的方式对词向量进行序列标注，进一步包括：采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的LSTM网络，其中，LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

可以理解的是，编码器部分采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的LSTM网络。解码器LSTM采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，最后输入soft Max选择标记。

如图3所示，具体的编码器LSTM运算过程为：

i_t＝δ(W_wiw_t+W_hih_t-1+W_cic_t-1+b_i)， (1)

f_t＝δ(W_wfW_t+W_hfh_t-1+W_cfc_t-1+b_f)， (2)

z_t＝tanh(W_WcW_t+W_hch_t-1+b_c)， (3)

c_t＝f_tc_t-1+i_tz_t， (4)

o_t＝δ(W_wow_t+W_hoh_t-1+W_coc_t+b_o)， (5)

h_t＝o_ttanh(c_t)， (6)

解码器LSTM运算过程为：

进一步，本发明实施例的方法还包括：采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，预设的损失函数为：

为了实现实体关系重叠的识别，本文采用了多标签分类技术与神经网络的融合，采用一种新的损失函数进行网络优化：

这个Ei表示一个训练集，Yi表示应该有的标签，Yi^{^}表示不应该有的标签。Cki表示在i个单词的应该有的标签的输出概率，Cli表示在i个单词对应的不应该有的标签的输出概率。这个损失函数的目的在于使得模型的输出对于正确标签有更高的概率，对不正确的标签有更低的概率。从而实现正确的概率分布。

在步骤S103中，对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

可以理解的是，本发明实施例针对模型的输出，进行第二次排序，选择每个单词的概率最高的五个标签作为候选，然后进行标签配对，配对成功的即作为正确标签。

根据本发明实施例的方法提出了实体识别和实体关系识别的平台服务组织架构，如图4所示，为本平台的服务架构图，由五层组成，由下往上分别是高性能计算环境、数据源、深度学习库、算法引擎、平台展示。其中GPU集群提供底层的计算支持，数据源可以是任意的文本、深度学习框架拟采用pytorch等深度学习库、然后是核心的信息抽取模型、并用Django封装成API供外部调用，然后是简单用户交互界面。

根据本发明实施例提出的基于深度学习的实体和实体关系识别方法，通过采用最新的标记方式来进行实体识别和实体关系识别，采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

其次参照附图描述根据本发明实施例提出的基于深度学习的实体和实体关系识别装置。

图5是本发明一个实施例的基于深度学习的实体和实体关系识别装置的结构示意图。

如图5所示，该基于深度学习的实体和实体关系识别装置10包括：词向量模块100、序列标注模块200和re-rank模块300。

其中，词向量模块100用于输入文本，并将文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式。序列标注模块200用于通过编解码的方式对词向量进行序列标注，以获取序列标注的词向量。re-rank模块300用于对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。本发明实施例的装置10采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

进一步地，在本发明的一个实施例中，序列标注模块200还用于采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的LSTM网络，其中，LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

进一步地，在本发明的一个实施例中，采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，预设的损失函数为：

进一步地，在本发明的一个实施例中，词向量模块100还用于采用谷歌预训练好的词向量模型进行初始化，词向量随着模型训练进行自动优化。

需要说明的是，前述对基于深度学习的实体和实体关系识别方法实施例的解释说明也适用于该实施例的基于深度学习的实体和实体关系识别装置，此处不再赘述。

根据本发明实施例提出的基于深度学习的实体和实体关系识别装置，通过采用最新的标记方式来进行实体识别和实体关系识别，采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的实体和实体关系识别方法，其特征在于，包括以下步骤：

输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；

通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；以及

对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

2.根据权利要求1所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述通过编解码的方式对所述词向量进行序列标注，进一步包括：

采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的所述LSTM网络，其中，所述LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

3.根据权利要求2所述的基于深度学习的实体和实体关系识别方法，其特征在于，还包括：

采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，所述预设的损失函数为：

4.根据权利要求1所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式，还包括：

采用谷歌预训练好的词向量模型进行初始化，所述词向量随着模型训练进行自动优化。

5.根据权利要求4所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述实体位置为一个实体的开始、结尾、单个实体、中间实体，所述实体关系为预设好的希望识别的实体关系，所述关系位置为该实体是这个实体关系的主语还是宾语。

6.一种基于深度学习的实体和实体关系识别装置，其特征在于，包括：

词向量模块，用于输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；

序列标注模块，用于通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；以及

re-rank模块，用于对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

7.根据权利要求6所述的基于深度学习的实体和实体关系识别装置，其特征在于，所述序列标注模块还用于采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的所述LSTM网络，其中，所述LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入soft Max选择标记。

8.根据权利要求7所述的基于深度学习的实体和实体关系识别装置，其特征在于，采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，所述预设的损失函数为：

9.根据权利要求6所述的基于深度学习的实体和实体关系识别装置，其特征在于，所述词向量模块还用于采用谷歌预训练好的词向量模型进行初始化，所述词向量随着模型训练进行自动优化。

10.根据权利要求9所述的基于深度学习的实体和实体关系识别装置，其特征在于，所述实体位置为一个实体的开始、结尾、单个实体、中间实体，所述实体关系为预设好的希望识别的实体关系，所述关系位置为该实体是这个实体关系的主语还是宾语。