CN113591478A

CN113591478A - 一种基于深度强化学习的远程监督文本实体关系抽取方法

Info

Publication number: CN113591478A
Application number: CN202110636514.6A
Authority: CN
Inventors: 罗欣; 赖广龄; 耿昊天; 赫熙煦; 许文波; 冷庚
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-11-02
Anticipated expiration: 2041-06-08
Also published as: CN113591478B

Abstract

本发明提出了一种基于深度强化学习的远程监督文本实体关系抽取方法，该方法包括：进行数据预处理，通过分词、词向量转化、位置向量构成文本向量；Bi‑LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量；通过实体类型嵌入得到实体类型信息的嵌入表示；再构建出依存树，组合表示为最终的句子表示；选用一个句子注意力机制，得到加权的包表示；通过softmax函数计算得到预测标签；使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签，再使用软标签作为正确标签训练，得到最终的关系抽取结果。

Description

一种基于深度强化学习的远程监督文本实体关系抽取方法

技术领域

本发明属于自然语言处理领域，涉及一种远程监督文本实体关系抽取方法。

背景技术

目前的社会是信息化社会，互联网伴随着软硬件技术的提升和普及，已经成为人们生活中必不可少的一部分，互联网上的信息一般为文字、图像或视频音频等，这些媒介也是地理信息的主要传播模式，而这些数据随着互联网的迅速发展呈现出指数增长的形式，所以从海量的杂乱无序的信息中快速准确的找到符合自我需求的信息的技术就应运而生。根据人工智能的三个台阶：计算智能、感知智能、认知智能划分，第三层次的认知智能的发展也远远不够，认知智能的基础是知识，旨在赋予机器数据理解、知识表达、逻辑推理、自主学习的能力，让机器也能够像人类一样的思考能力和判断能力，甚至具备各个行业领域专家的知识积累和运用的能力。认知智能的实现离不开知识图谱技术、自然语言处理技术(Natural Language Processing,NLP)的支撑。富含实体、概念、属性、关系等复杂信息的知识图谱，是机器认识和理解世界所依赖的知识体系，而从大量杂乱无章的信息中获得对人们有意义的知识以便于构建知识图谱是学者们亟需研究的主题。构建知识图谱的第一步一般为信息抽取，并且实体关系抽取又作为信息抽取的关键子任务，如何从文本大数据中快速准确的抽取出文本的实体关系信息是构建知识图谱的重点。

目前的实体关系抽取算法主要针对英文，中文的抽取技术还在不断探索中，并且目前抽取效果很好的方法大多为有监督学习方法，这需要精准标注的数据集，而现在恰恰缺乏这些，并且专业领域的数据集更为稀少，因此如何建立专业的领域知识库，减少人工标注成本，快速进行领域实体关系抽取是构建领域知识图谱的难点和重点之一。本专利旨在通过远程监督(Distant Supervision)方法进行实体关系抽取，并降低标注噪声，提高算法精度，最终得到高质量的信息。

发明内容

为了克服现有技术的不足，本发明提供一种基于深度强化学习的远程监督关系抽取方法，在标签级别上对数据进行降噪处理，且结合实体对类型信息与依存树信息，降噪效果好，抽取结果精度高。

本发明解决其技术问题所采用的技术方案包括以下步骤：

S1：进行数据预处理，对通过远程监督标注的数据集中的句子进行分词，并使用Word2Vec模型对分好的词转换为词语的语义向量，再根据每个词在句子中的相对位置获得词的位置向量，将语义向量与位置向量结合得到词语的词向量表示。

S2：通过S1得到的词向量以及Bi-LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量，得到一个句子的初步向量表示。

S3：通过实体类型嵌入得到实体类型信息的嵌入表示。

S4：利用依存句法分析将句子中词语之间的语法关系表达出来，并基于此构建出依存树。

S5：串联S2、S3、S4得到的向量，可以得到本专利最终的句子表示。

S6：选用一个句子注意力机制，计算包中句子的注意力权重，得到加权的包表示。

S7：基于S6的结果，通过softmax函数计算得到关系概率分布，概率最大的关系即为关系的预测标签。

S8：使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签，再使用软标签作为正确标签重复S2-S7，得到最终的关系抽取结果。

所述数据预处理的分词工具使用语言技术平台(Language TechnologyPlantform,LTP)完成，远程监督数据标注采用公开数据集与百度百科的结构化数据对齐生成，每个词作为一个token，然后使用Word2Vec对词进行词嵌入，词的语义嵌入维度为300维，位置嵌入是输入词语与实体的相对距离作为特征编码成的向量，维度为5维。

所述句子编码器的输入是将词嵌入与位置嵌入串联起来输入进Bi-LSTM+Attention中，Bi-LSTM能够获得词语的上下文的丰富语义信息，而Attention可以计算出词语与实体词的相关性大小，以便得到对实体词更重要词语的表示。

所述实体类型信息，将其映射到一个k维的向量空间中，若实体有多个类型，那么取对应类型的平均向量作为实体的类型嵌入表示。对于实体对(e₁,e₂)，将两者的类型嵌入连接起来，作为实体类型对关系的约束信息。

所述依存树信息由LTP的依存句法分析模块得到，依存树的节点表示句子中各个词，用边将含有依存关系的节点连接起来就构成了依存树，在一个句子中，若两个实体之间确有关系，那么它们之间大可能性有依存关系，所以基于此思想，本专利建立了基于依存树的特征表示，不使用整个句子的依存树结构，而是获得句子中包含实体对的依存子树，并将包含实体对的依存子树编码为局部特征向量，这样可以减少噪声并强调实体对之间的关系特征。

所述句子注意力机制，远程监督假设包含同一实体对的句子都能表示它们之间的关系，但实际情况并非如此，并不是所有包含同一实体对的句子都对关系抽取任务有效，有些句子信息量较少，有些句子则是噪声数据，为了降低这些影响，本专利期望能够在包中获得高质量的句子，根据句子质量的高低得到不同的权重，因此选用一个句子注意力机制，计算包中句子的注意力权重。

所述强化学习的状态为S7的输出，动作被设计成一个选择标签的二分类：根据此时的状态表示向量，动作将会选择关系抽取器计算得到的标签或语料库中的远程监督标签中的一个，将这个标签标记为包的软标签。

本发明的有益效果是：

第一，由于有监督机器学习需要大量的标注语料，而目前的标注预料较少，标注成本较高，所以本专利的远程监督方法可以快速获得大量标注语料，减少人工成本。

第二，由于远程监督会产生噪声问题，现有技术大多采用句子级别或者包级别的方法进行降噪，忽略了噪声标签对模型产生的影响，本专利采用标签降噪的方法，更正错误标签，既能够更大程度上利用数据集，又能够避免由于句子质量较差，而且若一个包中的句子都是噪声句子，那么模型还是会将至少一个句子作为描述了包标签的句子进行训练，这就会对模型造成较大影响的问题。

第三，本专利提出的深度学习方法中结合了Bi-LSTM+Attention、实体类型信息与依存树信息，并结合句子注意力机制，可以很大程度上减少由于句子语义信息的错误导致将负例作为正例、降噪效果较差等问题。

第四，降低了噪声句子对关系抽取结果的影响，本专利采用的是更改噪声标签的方法，所以理论上不存在噪声句子，只要将噪声句子的关系标签更正为正确标签，就可以视之为正确句子，解决了数据集使用不充分的问题。

附图说明

图1为深度学习模型结构图

图2为词向量表示图

图3为Bi-LSTM+Attention结构图

图4为标签降噪效果实例

具体实施方式

下面结合实施例对本发明作进一步说明，本发明包括但不仅限于下述实施例。

本发明实施例包括以下步骤：

S1：由百度百科知识库与互联网语料库对齐得到远程监督标注数据作为数据集，互联网语料库包括但不局限于百度百科非结构化文本数据与新闻网页文本。

S2：使用LTP对数据集中的句子进行分词，每个词作为一个token，再使用Word2Vec模型生成包含词语语义信息的词嵌入。位置嵌入是输入词语与实体的相对距离作为特征编码成的向量，用来表示输入词语相对于实体的位置信息，比如第i个输入词语与实体对的相对距离可以表示为i-pos₁和i-pos₂，再被编码为向量。最终词嵌入和位置嵌入串联成一个向量x_i，如果输入的句子X长度为n，那么这个句子可以表示为X＝{x₁,x₂,…,x_n}。

S3：LSTM相较于传统RNN，可以处理在句子较长时距离较远的词语之间的依赖信息，其通过三个门结构来丢弃无用的前文信息，再加入当前输入的部分信息，最终整合到当前状态并产生输出状态。但是LSTM只能从前到后对句子进行编码，无法考虑下文信息，而Bi-LSTM由前向网络和后向网络结合而成，对于包含n个词语的句子，通过Bi-LSTM得到的隐向量可以表示为公式H＝{h₁,h₂,...,h_n}。h_i表示了句子中第i个词语的高维语义信息，但是在实际应用中句子中不同词语对句子的语义有着不同的重要性。Attention机制就是基于这种思想，为每个词赋予不同的重要性权值，再将权值与对应的词进行组合运算，得到最终表示。因此本专利通过计算词语与实体之间的重要性程度构建词注意力机制来充实词语的语义信息，经过词注意力层的句子可以表示为公式

其中α_i表示Attention的权重，最后使用最大池化层捕获句子中最关键的特征信息，句子的向量表示为s_a＝maxpool(x)。

S4：构建实体类型信息，文本中不同类型的实体对所对应的关系一般也不同，比如实体“中国”(地名，国家名)和“北京”(地名，城市名)之间对应的关系不可能是“出生地”。远程监督的语料库是通过结构化的文本知识库和非结构化文本对齐得到的，而这些文本知识库中就包含了本文所需的实体类型信息，所以可以直接得到这些信息，若知识库中没有语料库中的某些实体，这些实体的类型信息在命名实体识别时会自动获得。为了得到实体类型信息的嵌入表示，将实体类型信息映射到一个k维的向量空间中，若实体有多个类型，那么取对应类型的平均向量作为实体的类型嵌入表示。对于实体对(e₁,e₂)，将两者的类型嵌入连接起来，作为实体类型对关系的约束，计算方法为

其中Type_e1表示实体e₁的类型嵌入，Type_e2表示实体e₂的类型嵌入。

S5：构建依存句法树，依存句法分析能够将句子中词语之间的语法关系表达出来，并基于此构建出依存树。依存树的节点表示句子中各个词，用边将含有依存关系的节点连接起来就构成了依存树，在一个句子中，若两个实体之间确有关系，那么它们之间大可能性有依存关系，所以基于此思想，本模型建立了基于依存树的特征表示，不使用整个句子的依存树结构，而是获得句子中包含实体对的依存子树，并将包含实体对的依存子树编码为局部特征向量，这样可以减少噪声并强调实体对之间的关系特征。则包含实体对的依存子树可以表示为Tree＝[t₁,t₂,...,t_i]，其中t表示依存子树上第i个节点的词向量表示。

S6：结合S3-S5的结果，可以得到最终的句子表示，最终表示为s＝[s_a,Type_e,Tree]。

S7：计算包中不同句子的重要性，期望能够在包中获得高质量的句子，根据句子质量的高低得到不同的权重，因此选用一个句子注意力机制，计算包中句子的注意力权重，对于第i个句子，它的权重β_i的计算方法为

其中，s表示句子向量，u和v表示两个加权向量，⊙表示对逐个元素进行乘积，那么经过加权之后的包表示为

基于包的表示，可以通过softmax函数计算得到关系概率分布，最终对包的预测标签的计算方法为y＝argmax{p₁,p₂,...,p_n}，其中p_i表示对第i种关系的预测概率，由softmax函数计算得到。

S8：使用强化学习方法在S7得到的预测标签和S1得到的远程监督标签中选择一个标签作为软标签对噪声标签进行更正。强化学习的状态表示为预测标签向量、远程标签向量和平均预测分数向量串联得到，强化学习的动作表示为一个二分类，即选择S7得到的预测标签或S1得到的远程监督标签。强化学习的策略被参数化，用一个概率分布函数来表示为π(a_t|s_t；Θ)∈(0,1)，此式表示为在Θ下对状态s_t采取动作a_t的概率分布，由sigmoid函数计算得到，强化学习的奖励被设计为一个延迟奖励，这个奖励是关系抽取器对于软标签效果的好坏进行的一个反馈，这个反馈是在得到软标签之后才产生的，延迟奖励可以表示为r_t＝0(t＝1,…,T-1)，当达到终点时刻T时状态为s_t，此时才会得到奖励。奖励的计算公式为

其中，Val表示验证集，y_i表示g_i的远程监督标签，g_i表示第i个包，p(y_i|g_i)表示深度学习模型经过含有软标签的数据训练之后的结果。

S9：深度学习模型输出的预测分数作为强化学习的输入状态，然后由S8得到的状态产生动作，动作对标签进行选择得到软标签，软标签能够监督深度学习的训练并更新深度学习的参数，最终得到经过标签降噪之后的关系抽取结果。

其中，在更新深度学习模型的参数时采用Adam优化器更新，词向量维度为300，位置向量维度为5，实体向量维度为50，Bi-LSTM隐藏层维度为300，dropout为0.5，学习率为0.001，批次大小为50。

Claims

1.一种基于深度强化学习的远程监督关系抽取方法，其特征在于，包括：

步骤1：数据预处理，通过远程监督标注的数据集中的句子进行分词，并使用Word2Vec模型对分好的词转换为词语的语义向量，再根据每个词在句子中的相对位置获得词的位置向量，将语义向量与位置向量结合得到词语的词向量表示。

步骤2：通过步骤1得到的词向量以及Bi-LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量，得到一个句子的初步向量表示。

步骤3：通过实体类型嵌入得到实体类型信息的嵌入表示。

步骤4：利用依存句法分析将句子中词语之间的语法关系表达出来，并基于此构建出依存树。

步骤5：串联步骤2、步骤3、步骤4得到的向量，得到最终的句子表示。

步骤6：基于句子注意力机制计算包中句子的注意力权重，得到加权的包表示。

步骤7：基于步骤6的结果，通过softmax函数计算得到关系概率分布，选定概率最大的关系即为关系的预测标签。

步骤8：使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签，再使用软标签作为正确标签重复步骤2-步骤7，得到最终的关系抽取结果。

2.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，对于远程监督启发式标注的数据集的获取，是由百度百科知识库与互联网语料库对齐得到远程监督标注数据作为数据集。再使用LTP对数据集中的每个句子进行分词，使用Word2Vec模型对分好的词转换为词语的语义向量，再根据每个词在句子中的相对位置获得词的位置向量，将语义向量与位置向量结合得到词语的词向量表示。

3.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，通过计算词语与实体之间的重要性程度构建词注意力机制来充实词语的语义信息，基于Bi-LSTM+Attentnion机制将自然文本编码为含有上下文语义的特征向量，得到句子的初步向量表示。

4.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于从远程监督获得的语料库中直接构建实体类型信息，将实体类型信息映射到一个k维的向量空间中，得到实体类型信息的嵌入表示。

5.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，基于依存句法分析构建出依存树。建立基于依存树的特征表示，获得句子中包含实体对的依存子树，并将包含实体对的依存子树编码为局部特征向量，这样可以减少噪声并强调实体对之间的关系特征。

6.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，通过步骤3至步骤5得到最终的句子表示，基于选用一个句子注意力机制，计算包中句子的注意力权重，最终得到加权的包。

7.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，基于步骤6中得到的包的表示，通过Softmax函数计算得到关系概率分布，概率最大的关系即为关系的预测标签。

8.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法，其特征在于，如权利要求1所述方法，其特征在于，使用强化学习方法在步骤7得到的预测标签和步骤1得到的远程监督标签中选择一个标签作为软标签对噪声标签进行更正。