CN115510854A

CN115510854A - 基于强化学习的实体关系提取方法和系统

Info

Publication number: CN115510854A
Application number: CN202211182908.XA
Authority: CN
Inventors: 王苏宏; 陈子东; 肖志峰
Original assignee: Beijing Baixinghua Technology Co ltd
Current assignee: Beijing Baixinghua Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-23
Anticipated expiration: 2042-09-27
Also published as: CN115510854B

Abstract

本发明公开了基于强化学习的实体关系提取方法的方法、系统、存储介质和处理器。获取数据文件映射为字向量并将其输入实体关系判断模型中的编码器得到特征向量，进行逆向转换后得到逆转特征向量，反复将逆转特征向量输入到新层级编码器直至逆转特征向量输入多头注意力模块后进行逆转得到新逆转特征向量为止；将新逆转特征向量与同层级特征向量输入译码器进行拼接得到译码向量，再进行转换得到逆转译码向量；译码向量与下一层特征向量拼接得到拼接向量，输入至新的译码器得到新的字向量组，计算最相似的字向量输出将其具体对应的字和实体关系。通过本发明解决了现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题。

Description

基于强化学习的实体关系提取方法和系统

技术领域

本发明涉及实体关系提取领域，具体而言，涉及一种基于强化学习的实体关系提取方法、系统存储介质和处理器。

背景技术

在提取关键“实体”-“关系”-“实体”特征中往往应用Transformer、BERT等模型，该模型具有端到端训练、输出的特点，并且训练全程交给指定优化函数来对模型进行优化(如Adam、SGD等)；这种传统的优化方式往往容易使模型陷入局部最优解或容易产生梯度爆炸，并且所提取出的“实体”和“关系”很容易产生脏数据；由此，本专利提出使用强化学习来对CRFs架构模型进行调优；本发明很大程度上减少了如传统实体关系提取模型所产生局部最优解和梯度爆炸的概率；并提高了实体关系提取的精度和质量。

针对现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题，目前尚未提出有效地解决方案。

发明内容

本发明提供了一种基于强化学习的实体关系提取方法、系统、存储介质和处理器，以解决现有技术实体关系提取模型产生局部最优解和梯度爆的炸技术问题。

根据本发明实施例的一个方面，提供了一种基于强化学习的实体关系提取方法，包括：获取数据文本，将所述数据文本的内容映射为字向量；将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；所述译码向量进行逆向转换后得到逆转译码向量；所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；将所述新的拼接向量输入至新的译码器直至得到新的字向量组；将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

进一步地，将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量，包括：根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；将所述头部向量映射子向量分出第一Q向量和第一K向量；将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

进一步地，将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到所述译码向量，包括：根据所述新的下一层逆转特征向量的向量数量确定头部向量映射子向量的数量；将所述头部向量映射子向量分出第二Q向量和第二K向量；将所述第二Q向量和所述第二K向量进行矩阵乘法后得到第二新的矩阵；将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活；将与所述新的下一层逆转特征向量同层级的特征向量作为初始化递归神经网络模块的初始时态，所述递归神经网络模块为多个；将所述第二新的矩阵输入至第一个递归神经网络模块得到前一计算结果；将所述前一计算结果作为初始状态输入后一个递归神经网络模块；将所述第二新的矩阵输入所述后一递归神经网络模块得到后一计算结果，循环往复，将后一计算结果作为其后递归神经网络模块的计算结果直至得到所述译码向量。

进一步地，将所述第一新的矩阵或所述第二新的矩阵与强化矩阵进行点乘运算之前包括：将所述特征向量和所述逆转特征向量作为条件输入动作函数的N个分数得到强化矩阵，其中，所述动作函数包含M个输出节点，分别对应FC-CRF模块中的N个头部向量映射，每个输出节点输出0至1区间的连续数值。

进一步地，所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量之前包括：对所述特征向量进行径向基神经场计算处理。

进一步地，对所述特征向量进行径向基神经场计算处理包括：将所述特征向量根据预设分割窗格大小按顺序分割为多个子向量组；对所述多个子向量组进行分类分为0和1两类分类结果,赋予1为有意义向量组，赋予0为无意义向量组；根据所述分类结果计算所述子向量组的赋值，所述赋值为所述子向量组的贡献值；将每个子向量组均乘以所述赋值后输入全连接神经网络当中进行滤波处理得到滤波处理结果；将所述滤波处理结果交给ReLU激活函数滤掉所有无意义的结果得到处理后的特征向量。

根据本发明实施例的另一个方面，还提供了一种基于强化学习的实体关系提取系统，包括：第一获取模块，用于获取数据文本，将所述数据文本的内容映射为字向量；第一判断模块，用于将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；第一转化模块，用于将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；第一计算模块，用于将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；编码器模块，用于将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；译码器模块，用于将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；第二转换模块，用于所述译码向量进行逆向转换后得到逆转译码向量；第二计算模块，用于所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；第三计算模块，用于将所述新的拼接向量输入至新的译码器直至得到新的字向量组；输出模块，用于将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

优选地，第四计算模块，用于根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；第五计算模块，用于将所述头部向量映射子向量分出第一Q向量和第一K向量；第六计算模块，用于将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；第七计算模块，用于将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

优选地，所述译码器模块包括：第一译码计算模块，用于根据所述新的下一层逆转特征向量的向量数量确定头部向量映射子向量的数量；第二译码计算模块，用于将所述头部向量映射子向量分出第二Q向量和第二K向量；第三译码计算模块，用于将所述第二Q向量和所述第二K向量进行矩阵乘法后得到第二新的矩阵；激活模块，用于将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活；第四译码计算模块，用于将与所述新的下一层逆转特征向量同层级的特征向量作为初始化递归神经网络模块的初始时态，所述递归神经网络模块为多个；第五译码计算模块，用于将所述第二新的矩阵输入至第一个递归神经网络模块得到前一计算结果；第六译码计算模块，用于将所述前一计算结果作为初始状态输入后一个递归神经网络模块；第七译码计算模块，用于将所述第二新的矩阵输入所述后一递归神经网络模块得到后一计算结果，循环往复，将后一计算结果作为其后递归神经网络模块的计算结果直至得到所述译码向量。

优选地，所述系统包括：强化模块，用于将所述特征向量和所述逆转特征向量作为条件输入动作函数的N个分数得到强化矩阵，其中，所述动作函数包含M个输出节点，分别对应FC-CRF模块中的N个头部向量映射，每个输出节点输出0至1区间的连续数值。

根据本发明实施例的另一个方面，还提供给了一种存储介质，所述存储介质上保存有程序，所述程序被运行时执行上所述的方法。

根据本发明实施例的另一个方面，还提供给了一种处理器，所述程序被运行时执行上述的方法。

根据本发明实施例中，获取数据文本，将所述数据文本的内容映射为字向量；将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；所述译码向量进行逆向转换后得到逆转译码向量；所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；将所述新的拼接向量输入至新的译码器直至得到新的字向量组；将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。通过本发明解决了现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题，提高了实体关系提取的精度和质量。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的基于强化学习的实体关系提取方法的流程图；

图2是根据本发明实施例的基于强化学习的实体关系提取模型总架构示意图；

图3是根据本发明实施例的编码器示意图；

图4是根据本发明实施例的译码器流程图；

图5是根据本发明实施例的另一种可选的现有技术New FC-CRFs架构示意图；

图6是根据本发明实施例的径向基神经场内部结构；

图7是根据本发明实施例的一种可选的实体关系提取方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种基于强化学习的实体关系提取方法。图1是根据本发明实施例的基于强化学习的实体关系提取方法的流程图。如图1所示，该方法包括如下步骤：

步骤S1002，获取数据文本，将所述数据文本的内容映射为字向量；

步骤S1004，将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；

步骤S1006，将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；

步骤S1008，将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；

步骤S1010，将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；

步骤S1012，将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到得到译码向量；

步骤S1014，所述译码向量进行逆向转换后得到逆转译码向量；

步骤S1016，所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；

步骤S1018，将所述新的拼接向量输入至新的译码器直至得到新的字向量组；

步骤S1020，将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

下面结合图2用一个可选的实施方式对上述过程进行说明：

通过BERT模型进行字向量映射。将字向量放入上述模型中，经过第一层EncoderFC-CRF(编码器)模块后得到特征向量α1，向量α1经过逆向转换模块转换后得到向量β1，比如，输入【x1,x2,x3】经逆向转换得到输出【x3,x2,x1】。将β1输入至第二层Encoder FC-CRF模块后得到特征向量α2，向量α2经过逆向转换模块转换后得到向量β2；如此往复，直到经过多头注意力模块(多头注意力模块见图6)后，将β4和α3在通道上拼接后，将特征向量输入至Decoder FC-CRF(译码器)，如此往复最终得到输出的字向量。基于输出的字向量，在BERT中计算与该字向量欧氏距离最短的映射字并输出。模型的输出节点为三个部分，分别是：实体1(动态节点数量)；实体2(动态节点数量)；实体关系(动态节点数量)；每个部分的节点数量都是动态的，即不固定的。每个部分的每个节点都会输出一组向量，对应BERT空间当中具体的字，所以每一组都会对应一组字，每一组字都是一个词，这样就能做到输出三个词汇，即实体1、实体2、实体关系。

上述将β4和α3在通道上拼接的意思是指：神经网络所产生的特征维度是【批数量，上一层神经元数量，通道数量】，而通道上拼接就是指在上述的第三个维度上(通道)进行拼接，比如：特征β4的形状为【6，3，1】，特征α3的形状为【6，3，3】，特征β4和特征α3拼接后的形状为【6，3，4】。

通过上述方式使用强化学习来对CRFs架构模型进行调优，而非传统模型仅使用优化函数来调优，解决了现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题，提高了实体关系提取的精度和质量。

在一种可选的实施方式中，将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量，包括：根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；将所述头部向量映射子向量分出第一Q向量和第一K向量；将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

下面结合图3作为一个可选的实施方式对上述过程进行说明：

1、β’矩阵输入后，根据其矩阵的宽度来决定头部向量映射N的数量；

2、每个头部向量可将β’的子向量分出Q和K向量；

3、向量Q和向量K做矩阵乘法后得到矩阵与强化矩阵点乘运算

4、如此往复，最终得到α’矩阵

如此往复是指从头部向量的运算开始，从头部向量映射-1一直到头部向量映射-N都是如此计算。

假设β当中所包含的向量数量为5，那么头部向量映射就是5个。β当中每一个子向量都会得到头部向量映射的单独运算。头部向量映射出Q和K向量可以理解为Q和K的计算使用了不同的表达式。例如：输入β当中的字向量为β1；则β1经过头部向量映射的计算:输出1＝β1*w1+b1；输出2＝β1*w2+b2；w是神经网络的权重向量；b是神经网络的偏置向量；如此一来，输出1就可以理解为Q；输出2就可以理解为K。

上述编码器的结构优点在于运算量低、做字的特征提取时非线性运算规则较多，更加贴合实际，提取准确率更高。

在一种可选的实施方式中，将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到所述译码向量，包括：根据所述新的下一层逆转特征向量的向量数量确定头部向量映射子向量的数量；将所述头部向量映射子向量分出第二Q向量和第二K向量；将所述第二Q向量和所述第二K向量进行矩阵乘法后得到第二新的矩阵；将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活；将与所述新的下一层逆转特征向量同层级的特征向量作为初始化递归神经网络模块的初始时态，所述递归神经网络模块为多个；将所述第二新的矩阵输入至第一个递归神经网络模块得到前一计算结果；将所述前一计算结果作为初始状态输入后一个递归神经网络模块；将所述第二新的矩阵输入所述后一递归神经网络模块得到后一计算结果，循环往复，将后一计算结果作为其后递归神经网络模块的计算结果直至得到所述译码向量。

上述Sigmoid函数的作用是对神经元节点的输出做激活，即将特征向量或矩阵映射至【0，1】区间。其表达式为S(x)＝1/[1+e^(-x)]，其中，x为输入的特征向量或特征矩阵；e为自然常数。将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活是对点成运算后的结果做激活，避免其为负数或大于1。

下面结合图4作为一个可选的实施例对上述译码器过程进行说明：

2、每个头部向量可将β’的子向量分出Q和K向量；

3、向量Q和向量K做矩阵乘法后得到矩阵与强化矩阵点乘运算后，经由Sigmoid函数激活；

4、初始化N个GRU模块，以α矩阵作为初始时态，以第三步所得向量共同输入至第一个GRU模块进行运算；

5、以GRU(时态1)的输出作为GRU(时态2)的初始状态，以第三步(头部向量映射-2)的方法产生的矩阵共同输入至第二个GRU模块进行运算；

6、如此往复，最终得到α’矩阵

上述译码器结构的优点就是对特征的整合能力强，且由于其跳跃连接的特性，使其更加注重文章当中的全局观念，而非文中的某个字。

在一种可选的实施方式中，将所述第一新的矩阵或所述第二新的矩阵与强化矩阵进行点乘运算之前包括：将所述特征向量和所述逆转特征向量作为条件输入动作函数的N个分数得到强化矩阵，其中，所述动作函数包含M个输出节点，分别对应FC-CRF模块中的N个头部向量映射，每个输出节点输出0至1区间的连续数值。

上述动作函数可以为强化学习的输出，经验池可以为强化学习的记忆区域；

下面结合图3一个可选的实施例对上述过程进行说明：

Q-Learning强化学习算法是在特定条件(State)下，给予特定动作(Action)范围，自动寻找最优最优解的过程。

其详细流程如下：

1)以条件(State)为行，以动作(Action)为列，建立一个经验池(Q-Table)。经验池中的经验分数是通过当前动作对条件的影像所产生的反馈(Reward)更新，且最多保留有限的N条经验。

2)设定随机动作概率，这一步是为了避免学习陷入局部最优解或不能有效学习。

3)初步给定条件(State)，使Q-Learning产生行为(Action)。行为的产生符合贪心算法，在经验池当中检索类似当前条件中分数最高的行为并执行(在此过程中，以随即动作概率产生随机动作；若无经验，则直接产生随即动作)并根据该行为得到条件的反馈。

4)根据反馈计算经验，并将经验存储至经验池(Q-Table)当中。

5)不断重复优化。

Q(s，a)＝R(s，a)+γmax{Q(s′，a')}

经验计算规则

其中，s代表当前条件，a代表当前动作；s’代表下一条件，a’代表下一动作；折扣系数γ范围应设为{0，1}区间(越接近0，则代表越重视短期经验；反之则越重视长期经验)

适用于校准FC-CRFs的Q-Learning(强化学习)算法详述：

本发明在全连接条件随机场模型(FC-CRFs)部分所使用的强化学习采用基于深度学习的Deep Q-Learning改进而来。FC-CRFs中包含多个FC-CRF模块，每个FC-CRF模块内部都包含N+1套全连接神经网络(N对应N个头部映射向量，对于不同数据集而言是可变的而非固定值；1对应全连接神经网络-Final，用于整合头部映射特征)。

本申请使用Deep Q-Learning(强化学习)校准FC-CRFs流程如下：

1)建立基于全连接神经网络的经验池，该经验池包含三个隐含全连接层{128，256，256}，每层全连接层之间都包含0.2比率的LeakyReLU激活函数和0.3泄露率的Dropout层。

2)建立动作函数：动作函数包含M个输出节点，分别对应FC-CRF模块当中的N个头部向量映射；每个输出节点可输出{0，1}区间的连续数值。

3)以“α{1、2、3}”和“β{1、2、3}”作为条件(State)，输入指第一步建立的神经网络经验池当中得出第二步建立的动作函数的N个分数作为强化向量组，该向量组作为权重分别与FC-CRF模块当中做点乘运算，影响模块的输出。

4)根据FC-CRFs模型所产生的损失函数，对第一步建立的神经网络经验池进行更新优化，优化函数采用Adam优化函数。

上述强化学习的结构是本申请针对FC-CRF模块而设计的，FC-CRF模块负责提取宏观特征、强化学习负责微调特征，分工明确，使神经网络的学习能力得到了大大的提升。使用强化学习对CRF模块进行优化可以极大程度上加快学习效率，同时强化学习经验池的加入可以使CRFs模型在面对多样性数据时可以动态调整自身权重分布，从而达到具体问题具体分析的效果。

在一种可选的实施方式中，所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量之前包括：对所述特征向量进行径向基神经场计算处理。

在一种可选的实施方式中，对所述特征向量进行径向基神经场计算处理包括：将所述特征向量根据预设分割窗格大小按顺序分割为多个子向量组；对所述多个子向量组进行分类分为0和1两类分类结果,赋予1为有意义向量组，赋予0为无意义向量组；根据所述分类结果计算所述子向量组的赋值，所述赋值为所述子向量组的贡献值；将每个子向量组均乘以所述赋值后输入全连接神经网络当中进行滤波处理得到滤波处理结果；将所述滤波处理结果交给ReLU激活函数滤掉所有无意义的结果得到处理后的特征向量。

下面结合图6对上述径向基神经场(径向基随机场)的运算过程举例说明如下：

1)假设特征向量的大小为3，包含三个向量组，比如，特征向量【Σ1、Σ2、Σ3】，分割规则如下：预设分割窗格大小为2，则分割窗格数量N为2，按顺序分割的意思是在组合成新的子向量时，不改变Σ1、Σ2、Σ3几个向量的顺序，仅仅按照预设窗格的数量，一次移动一个向量，每个新的子向量中包括两个向量，比如分割出的向量组结果(子向量)为【Σ1、Σ2】、【Σ2、Σ3】(本例中Σ1、Σ2、Σ3为向量)；

2)使用径向基核支持向量机对分割好的向量组结果(子向量)做分类运算，分类结果为两种，1或0；

3)分类结束后，【Σ1、Σ2、Σ3】子向量组中的每个子向量【Σ1、Σ2】、【Σ2、Σ3】的分类结果是【0，1】，也就是【Σ1、Σ2】的分类结果为0，【Σ2、Σ3】的分类结果为1，Σ1在出现过的子向量【Σ1、Σ2】中分类结果只有0，所以Σ1是无意义的向量，赋值为0；Σ3在出现过的子向量【Σ2、Σ3】中分类结果只有1，所以Σ3赋值为1，Σ2分别子向量【Σ1、Σ2】、【Σ2、Σ3】在出现过，均有贡献，将子向量【Σ1、Σ2】和【Σ2、Σ3】的分类结果相加除以Σ2出现的次数2,得到Σ2的赋值为0.5，将【Σ1、Σ2、Σ3】子向量组中的每个子向量则对【Σ1、Σ2、Σ3】做仅保留第一分类处理(有意义的分类结果)，结果为【Σ1*0、Σ2*0.5、Σ3*1】；

4)将第3步结果放入全连接神经网络当中进行滤波处理，平滑后后交给ReLU激活函数去掉所有小于0的结果；

5)输出

上述径向基神经场的优势：

径向基神经场可过滤α向量组当中无意义或抑制意义较低的特征，如此一来可提高解码器部分的工作效率(更加关注有意义的特征)径向基神经场当中的窗格大小可参考前后语义(特征向量与特征向量之间的潜在联系)，但不同于全连接神经网络的全局向量运算，窗格的存在可让模型对局部特征的处理能力得到提升。

如图7所示，在每一次将译码向量与下一层级的特征向量在通道上拼接之前都对特征向量进行上述径向基神经场计算处理。

下面结合图5(现有技术New FC-CRFs架构)以一个可选的实施方式举例对上述所有步骤进行说明：

条件随机场(Conditional random fields，CRFs)是一种机器学习模型，在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。全连接条件随机场(Fully-Connected Conditional random fields，FC-CRFs)相较于条件随机场而言，全连接条件随机场可以建立一个语言模型中个节点(字)之间的关联，从而更好地进行特征提取和信息传递。本发明将条件随机场模型与强化学习相结合形成“强全连接条件随机场”(ReFC-CRFs)模型：本发明的ReFC-CRFs模型针对“实体关系提取”任务的特点，将编码器(Encoder)部分由原本的Swin Transformer模块改为FC-CRF模块。本发明将New FC-CRFs中的的PPM Head金字塔卷积模型改为多头注意力模块，使其更加适合自然语言相关任务的处理。还将原本的Rearrange Upscale改为逆向转换模块(例如输入向量为【1，2，3，4，5】，输出向量则为【5，4，3，2，1】)，即，使特征向量能够逆向输出，如此一来即可最低成本避免模型优化进入局部最优解。

本发明实施例还提供了一种基于强化学习的实体关系提取系统，该系统可以通过编码器模块、译码器模块、转化模块等实现其功能。需要说明的是，本发明实施例的一种基于强化学习的实体关系提取系统可以用于执行本发明实施例所提供的基于强化学习的实体关系提取方法，本发明实施例的一种基于强化学习的实体关系提取方法也可以通过本发明实施例所提供的一种基于强化学习的实体关系提取系统来执行。一种基于强化学习的实体关系提取系统包括：第一获取模块，用于获取数据文件，将所述数据文本的内容映射为字向量；第一判断模块，用于将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；第一转化模块，用于将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；第一计算模块，用于将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；编码器模块，用于将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；译码器模块，用于将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；第二转换模块，用于所述译码向量进行逆向转换后得到逆转译码向量；第二计算模块，用于所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；第三计算模块，用于将所述新的拼接向量输入至新的译码器直至得到新的字向量组；输出模块，用于将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

在一种可选的实施例中，第四计算模块，用于根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；第五计算模块，用于将所述头部向量映射子向量分出第一Q向量和第一K向量；第六计算模块，用于将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；第七计算模块，用于将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

在一种可选的实施例中，所述译码器模块包括：第一译码计算模块，用于根据所述新的下一层逆转特征向量的向量数量确定头部向量映射子向量的数量；第二译码计算模块，用于将所述头部向量映射子向量分出第二Q向量和第二K向量；第三译码计算模块，用于将所述第二Q向量和所述第二K向量进行矩阵乘法后得到第二新的矩阵；激活模块，用于将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活；第四译码计算模块，用于将与所述新的下一层逆转特征向量同层级的特征向量作为初始化递归神经网络模块的初始时态，所述递归神经网络模块为多个；第五译码计算模块，用于将所述第二新的矩阵输入至第一个递归神经网络模块得到前一计算结果；第六译码计算模块，用于将所述前一计算结果作为初始状态输入后一个递归神经网络模块；第七译码计算模块，用于将所述第二新的矩阵输入所述后一递归神经网络模块得到后一计算结果，循环往复，将后一计算结果作为其后递归神经网络模块的计算结果直至得到所述译码向量。

在一种可选的实施例中，所述系统包括：强化模块，用于将所述特征向量和所述逆转特征向量作为条件输入动作函数的N个分数得到强化矩阵，其中，所述动作函数包含M个输出节点，分别对应FC-CRF模块中的N个头部向量映射，每个输出节点输出0至1区间的连续数值。

上述一种基于强化学习的实体关系提取系统实施例是与一种基于强化学习的实体关系提取方法相对应的，所以对于有益效果不再赘述。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述方法。

本发明实施例提供了一种处理器，处理器包括处理的程序，其中，在程序运行时控制处理器所在设备执行上述方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的实体关系提取方法，其特征在于，包括：

获取数据文本，将所述数据文本的内容映射为字向量；

将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；

将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；

将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；

将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；

将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；

所述译码向量进行逆向转换后得到逆转译码向量；

所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；

将所述新的拼接向量输入至新的译码器直至得到新的字向量组；

将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

2.根据权利要求1所述的方法，其特征在于，将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量，包括：

根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；

将所述头部向量映射子向量分出第一Q向量和第一K向量；

将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；

将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

3.根据权利要求1所述的方法，其特征在于，将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到所述译码向量，包括：

根据所述新的下一层逆转特征向量的向量数量确定头部向量映射子向量的数量；

将所述头部向量映射子向量分出第二Q向量和第二K向量；

将所述第二Q向量和所述第二K向量进行矩阵乘法后得到第二新的矩阵；

将所述第二新的矩阵与强化矩阵进行点乘运算后经由Sigmoid函数激活；

将与所述新的下一层逆转特征向量同层级的特征向量作为初始化递归神经网络模块的初始时态，所述递归神经网络模块为多个；

将所述第二新的矩阵输入至第一个递归神经网络模块得到前一计算结果；

将所述前一计算结果作为初始状态输入后一个递归神经网络模块；

将所述第二新的矩阵输入所述后一递归神经网络模块得到后一计算结果，循环往复，将后一计算结果作为其后递归神经网络模块的计算结果直至得到所述译码向量。

4.根据权利要求2或3所述的方法，其特征在于，将所述第一新的矩阵或所述第二新的矩阵与强化矩阵进行点乘运算之前包括：

将所述特征向量和所述逆转特征向量作为条件输入动作函数的N个分数得到强化矩阵，其中，所述动作函数包含M个输出节点，分别对应FC-CRF模块中的N个头部向量映射，每个输出节点输出0至1区间的连续数值。

5.根据权利要求2或3所述的方法，其特征在于，所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量之前包括：

对所述特征向量进行径向基神经场计算处理。

6.根据权利要求5所述的方法，其特征在于，对所述特征向量进行径向基神经场计算处理包括：

将所述特征向量根据预设分割窗格大小按顺序分割为多个子向量组；

对所述多个子向量组进行分类分为0和1两类分类结果,赋予1为有意义向量组，赋予0为无意义向量组；

根据所述分类结果计算所述子向量组的赋值，所述赋值为所述子向量组的贡献值；

将每个子向量组均乘以所述赋值后输入全连接神经网络当中进行滤波处理得到滤波处理结果；

将所述滤波处理结果交给ReLU激活函数滤掉所有无意义的结果得到处理后的特征向量。

7.一种基于强化学习的实体关系提取系统，其特征在于，包括：

第一获取模块，用于获取数据文本，将所述数据文本的内容映射为字向量；

第一判断模块，用于将所述字向量输入实体关系判断模型中的第一层编码器得到第一层特征向量；

第一转化模块，用于将所述第一层特征向量进行逆向转换得到上一层逆转特征向量；

第一计算模块，用于将所述上一层逆转特征向量输入下一层编码器得到下一层特征向量；

编码器模块，用于将所述下一层特征向量逆向转换为下一层逆转特征向量，反复将所述下一层逆转特征向量输入到新层级的编码器中，直至将所述下一层逆转特征向量输入至多头注意力模块后进行逆转得到新的下一层逆转特征向量；

译码器模块，用于将所述新的下一层逆转特征向量与同层级的特征向量进行拼接后输入译码器得到译码向量；

第二转换模块，用于所述译码向量进行逆向转换后得到逆转译码向量；

第二计算模块，用于所述译码向量与下一层级的特征向量在通道上继续拼接后得到新的拼接向量；

第三计算模块，用于将所述新的拼接向量输入至新的译码器直至得到新的字向量组；

输出模块，用于将所述新的字向量组通过在BERT空间中计算最相似的字向量，并依次输出将其具体对应的字，所述具体对应的字的组合为实体关系。

8.根据权利要求7所述的系统，其特征在于，所述第一计算模块包括：

第四计算模块，用于根据所述上一层逆转特征向量的向量数量确定头部向量映射子向量的数量；

第五计算模块，用于将所述头部向量映射子向量分出第一Q向量和第一K向量；

第六计算模块，用于将所述第一Q向量和所述第一K向量进行矩阵乘法后得到第一新的矩阵；

第七计算模块，用于将所述第一新的矩阵与强化矩阵进行点乘运算得到所述下一层特征向量。

9.一种存储介质，其特征在于，所述存储介质上保存有程序，所述程序被运行时执行权利要求1至6中任一项所述的方法。

10.一种处理器，其特征在于，所述程序被运行时执行权利要求1至6中任一项所述的方法。