CN116681065A

CN116681065A - 一种藏医药领域实体关系联合抽取系统及方法

Info

Publication number: CN116681065A
Application number: CN202310709774.0A
Authority: CN
Inventors: 拥措; 于韬; 尼玛扎西
Original assignee: Tibet University
Current assignee: Tibet University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-01
Anticipated expiration: 2043-06-09
Also published as: CN116681065B

Abstract

本发明提出了一种藏医药领域实体关系联合抽取系统及方法，涉及人工智能领域。一种藏医药领域实体关系联合抽取方法包括以下步骤：获取藏医药相关文字样本，作为训练样本；将训练样本转换为词向量；对训练样本分类，并将分类结果和词向量融合，得到静态融合特征；构建双元动态模型，将静态融合特征送入双元动态模型，得到最终的预测标签序列；计算双元动态模型的损失值，更新参数，得到更新后的双元动态模型；使用更新后的双元动态模型进行实体关系联合抽取。本发明可以标注嵌套实体，修正模型的标签分类结果，提高预测准确性；使用动态特征融合增强实体边界，使得模型可以较好地识别实体及关系，提高了系统鲁棒性及有效性。

Description

一种藏医药领域实体关系联合抽取系统及方法

技术领域

本发明涉及人工智能领域，具体而言，涉及一种藏医药领域实体关系联合抽取系统及方法方法。

背景技术

目前，实体关系联合抽取主要有两大类研究方法：流水线方法与联合方法。流水线方法将联合抽取任务分解为实体识别与关系抽取，通过串联的方式实现联合抽取，但该方式存在缺乏交互、误差累积等问题，影响了模型的效果。联合方法相较于流水线方法更多地考虑了子任务间的交互性，且通过端到端模型可直接获得三元组数据，提升了模型的效果，并逐渐成为了当下研究的热点方向。

NovingTagging是基于序列标注方法的联合抽取模型，属于联合解码方式。较流水线方法相比，增强了实体识别与关系抽取任务间的交互性，减小了误差累积传播的问题。NovingTagging模型存在的缺陷如下：1、序列标注方式的局限性，无法对嵌套实体进行标注。2、模型的输入特征单一、学习能力有限。

NovingTagging方法通过在编码器上叠加统一的解码器，可以直接解码获得三元组数据，但NovingTagging方法的序列标注策略无法标注嵌套实体，即长实体中的短实体，因此无法对嵌套实体进行识别。受限于NovingTagging模型的特征学习能力，无法有效地学习特征中的重要信息及解码实体标签，导致模型联合抽取效果差。

发明内容

本发明的目的在于提供一种藏医药领域实体关系联合抽取系统及方法方法，其能够增强了模型输入特征的质量，可以标注嵌套实体，增强了鲁棒性及有效性。

本发明是这样实现的：

第一方面，本申请提供一种藏医药领域实体关系联合抽取系统，包括词嵌入层、类别特征静态融合层、双元动态模型；

词嵌入层，用于将输入的文字转换为词向量；

类别特征静态融合层，用于将输入的文字分为药材、方剂、诊疗方法三个类别，并将词向量和对应的类别进行融合，得到静态融合特征；

双元动态模型，用于根据静态融合特征获取动态特征；将动态特征和静态融合特征进行融合得到总体融合特征，并根据总体融合特征构建最终的预测标签序列。

第二方面，本申请提供一种藏医药领域实体关系联合抽取方法，包括以下步骤：

S1、获取藏医药相关文字样本，作为训练样本；

S2、将训练样本转换为词向量，记为(bs，seq_len，dim1)；其中，bs为批次大小；seq_len为句子长度；dim1为词向量特征维度；

S3、对训练样本分类，并将分类结果和词向量进行融合，得到静态融合特征；

S4、构建双元动态模型，将静态融合特征送入双元动态模型，得到最终的预测标签序列；

S5、计算双元动态模型的损失值，更新参数，得到更新后的双元动态模型；

S6、使用更新后的双元动态模型进行实体关系联合抽取。

进一步的，上述步骤S3包括以下步骤：

S3-1、将训练样本分为药材、方剂、诊疗方法三个类别，得到分类结果，作为训练样本的类别特征；

S3-2、根据训练样本的类别特征对训练样本中的每一个数据向量化，得到向量化的样本数据；记为(bs2，seq_len2，dim2)；其中，bs2为向量化的样本数据的批次大小；seq_len2为向量化的样本数据的句子长度；dim2为向量化的样本数据的类别特征维度；

S3-3、将向量化的样本数据和词向量融合，得到静态融合特征，记为(bs3，seq_len3，dim1+dim2)；其中，bs3为静态融合特征的批次大小；seq_len3为静态融合特征的句子长度；dim1+dim2为静态融合特征的融合特征维度。

进一步的，上述步骤S4包括以下步骤：

S4-1、将静态融合特征送入静态特征学习模块，得到预测标签序列；

S4-2、将预测标签序列和静态融合特征送入多特征动态融合层，得到总体融合特征；

S4-3、将总体融合特征送入动态特征学习模块，得到最终的预测标签序列。

进一步的，上述步骤S4-1包括以下步骤：

S4-1-1、将静态融合特征送入BiLSTM编码层，得到编码后的静态融合特征；

S4-1-2、使用Dropout函数对编码后的静态融合特征进行处理，得到处理后静态融合特征；

S4-1-3、使用线性分类层将处理后静态融合特征的维度映射到标签维度，得到映射后的静态融合特征；

S4-1-4、根据得到映射后的静态融合特征通过奖惩机制层计算全局最优标签；

S4-1-5、将全局最优路径输入TagScorel层，获取约束标签；

S4-1-6、将约束标签输入CRF解码层，获得预测标签序列。

进一步的，上述步骤S4-3中动态特征学习模块和静态特征学习模块结构相同。

进一步的，上述步骤S4-1-4包括以下步骤：

S4-1-4-1、根据得到映射后的静态融合特征计算训练样本的每一个路径的得分；

S4-1-4-2、根据公式：

得到CRF奖惩机制层的损失值loss；其中，P(y|x)表示当前路径为正确路径的概率；e^S(x，y′)表示当前正确路径的分数；表示当前每种路径可能分数的总和；i表示第i个路径，n表示共有n个路径；S(x，y′)表示正确路径所获得的分数，y′表示当前路径为正确路径；x表示实体；

S4-1-4-3、设立奖惩机制并使用CRF解码层的损失值loss反向传播，修改CRF奖惩机制层参数，得到修改后的CRF奖惩机制层；

S4-1-4-4、使用修改后的CRF奖惩机制层计算全局最优路径。

进一步的，上述步骤S4-2包括以下步骤：

S4-2-1、将预测标签序列送入分词信息提取器，根据预测标签构建针对实体的分词信息；其中，将实体起始位置的分词信息标注为1，实体结束位置的分词信息标注为3，实体中间位置的分词信息标注为2；对于非实体，将其分词信息标注为0；

S4-2-2、将预测标签序列送入位置信息提取器，根据标签构建针对实体的位置信息；

S4-2-3、将分词信息和位置信息融合，得到动态融合特征；

S4-2-4、将动态融合特征和静态融合特征相融合，得到总体融合特征。

进一步的，上述步骤S5中计算双元动态模型的损失值，使用静态特征学习模块的预测标签序列与动态特征学习模块的最终的预测标签序间的损失值。

第三方面，本申请提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器；当上述一个或多个程序被上述处理器执行时，实现如上述第一方面中任一项所述的方法。

相对于现有技术，本发明至少具有如下优点或有益效果：

本发明提出了一种藏医药领域实体关系联合抽取系统及方法方法，通过标注策略的改进，可以标注嵌套实体，进而可以利用模型直接提取出三元组数据及嵌套实体；在训练过程中静态融合当前实例的类别信息，通过融合类别特征提升模型的效果；将向量分数与真实标签结果进行匹配，并对分类正确或错误的标签进行“奖励”或“惩罚”，最后使用奖惩机制处理后的分数计算损失值，该值不断地反向传播以修正模型的标签分类结果，提高预测准确性；使用动态特征融合增强实体边界，使得模型可以较好地识别实体及关系。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明整体模型图；

图2为本发明流程图；

图3为本发明得到最终的预测标签序列流程图；

图4为本发明动态分词信息及位置信息获取示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1，该一种藏医药领域实体关系联合抽取系统包括词嵌入层、类别特征静态融合层、双元动态模型；

词嵌入层，用于将输入的文字转换为词向量；

基于同样的发明构思，请参阅图2，本发明还提出一种藏医药领域实体关系联合抽取方法，包括以下步骤：

S1、获取藏医药相关文字样本，作为训练样本；

示范性地，Input的维度为批次大小(batch_size)*句子长度(seq_len)，InputEmbedding通过词表大小(vocab_size)与维度(dimension)进行构建，通过InputEmbedding构建的输入向量由二维向量改变为三维向量，维度为(batch_size，seq_len，dimension)，此时输入向量可以作为BiLSTM模型的输入特征并进行编码。输入数据通过本申进行标注，最终通过InputEmbedding模块获得输入向量，可以标注嵌套实体。

步骤S3包括以下步骤：

示范性地，类别信息分为三类，分别为：药材、方剂及诊疗方法，通过融合类别特征提升模型的效果。Embedding向量化方法中的vocabsize设置为3即可，并以“0”表示药材类别；“1”表示方剂类别；“2”表示诊疗方法类别。通过Input输入已经获得InputEmbedding及ClassEmbedding，但由于两者都是由原始Input输入获得，并未涉及其他额外的信息，因此InputEmbedding及ClassEmbedding的融合方式为静态融合。图1中符号“⊕”表示InputEmbedding及ClassEmbedding的融合方式，但并不是简单的特征相加，前两个维度与InputEmbedding及ClassEmbedding相同，不同的是最后一个维度变为两个维度的和。类别特征静态融合方法是对特征维度的扩充，使得当前特征的信息更加丰富，为BiLSTM模型学习到更有效、更重要的信息提供帮助。

如图3所示，S4、构建双元动态模型，将静态融合特征送入双元动态模型，得到最终的预测标签序列；

步骤S4包括以下步骤：

步骤S4-1包括以下步骤：

上述步骤中，输入特征为通过类别特征静态融合层获得的融合特征，该特征结合BiLSTM模型的双向语义学习机制，可以较好地挖掘融合特征中的价值信息，为后续通过BiLSTM模型的编码结果获得高质量的分词特征(SegmentEmbedding)及位置特征(PositionEmbedding)奠定了基础。

上述步骤中，使用Dropout函数可以避免过度拟合的问题，提高了后续识别的精确度。

上述步骤中，对BiLSTM编码层的编码结果使用Dropout函数处理，避免过拟合问题的出现。

步骤S4-1-4包括以下步骤：

S4-1-4-2、根据公式：

S4-1-4-4、使用修改后的CRF奖惩机制层计算全局最优路径。

示范性地，CRF首先计算每一个路径的分数，然后选取分数最高的路径作为最终的路径，在这个过程中不同路径的分数通过emissionscore与transitionscore计算获得。emissionscore来自通过线性分类层Classifier处理后的BiLSTM编码结果，其包含了当前字被预测为各类标签的可能性；transitionscore来自不同字标签间的可能性，假设当前字对应的标签为a，下一个字对应的标签为b，则表示标签a到标签b的可能性。

S4-1-5、将全局最优路径输入TagScorel层，获取约束标签；

S4-1-6、将约束标签输入CRF解码层，获得预测标签序列。

如图4所示，步骤S4-2包括以下步骤：

S4-2-3、将分词信息和位置信息融合，得到动态融合特征；

示范性地，多特征动态融合方法以增强实体边界为主要目标，通过预测的标签序列动态获得分词特征与位置特征，分词特征与位置特征主要针对的是命名实体，即构建针对实体的分词、位置特征，利用其增强标注序列中的实体边界，然后将其构建为特征向量，并与类别特征静态融合方法获得的特征进行融合，以提升特征的质量。

图2中，将序列输入到分词信息提取器，将实体起始位置的分词信息标注为1，实体结束位置的分词信息标注为3，实体中间位置的分词信息标注为2；对于非实体，将其分词信息标注为0，根据标签序列动态获得的分词信息可在后续操作中用于增强实体的边界特征。

将标签序列输入到位置信息提取器，首先根据标签序列长度构建句子的位置信息，构建“1 2 3…10”的初始位置信息序列。然后针对句子中实体对应的标签，将初始位置信息序列的相应位置与数据集的句子最大长度求和，例如藏医药数据集的句子最大长度为297，而句子中前三个藏字构成了实体，则其位置信息修改为“298 299 300”。

步骤S4-3中动态特征学习模块和静态特征学习模块结构相同。

动态特征学习模块的BiLSTMModel2编码层以多特征动态融合层构建的特征作为输入，其输出将用于构建最终的预测标签序列，双元动态模型设置了两个相对独立的编码模块，通过其协同配合完成联合抽取。

步骤S5中计算双元动态模型的损失值，使用静态特征学习模块的预测标签序列与动态特征学习模块的最终的预测标签序间的损失值。

示范性地，缩小静态特征学习结构与动态特征学习结构预测结果间的差距，一定程度上增强了两个结构间配合的紧密程度，最终输出精度更高的预测标签序列。

S6、使用更新后的双元动态模型进行实体关系联合抽取。

综上所述，本申请实施例提供的一种藏医药领域实体关系联合抽取系统及方法方法，可以标注嵌套实体，修正模型的标签分类结果，提高预测准确性；使用动态特征融合增强实体边界，使得模型可以较好地识别实体及关系，提高了系统鲁棒性及有效性。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种藏医药领域实体关系联合抽取系统，其特征在于，包括词嵌入层、类别特征静态融合层、双元动态模型；

词嵌入层，用于将输入的文字转换为词向量；

2.一种藏医药领域实体关系联合抽取方法，应用于权利要求1所述的一种藏医药领域实体关系联合抽取系统，其特征在于，包括以下步骤：

S1、获取藏医药相关文字样本，作为训练样本；

S6、使用更新后的双元动态模型进行实体关系联合抽取。

3.如权利要求2所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S3包括以下步骤：

4.如权利要求3所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S4包括以下步骤：

5.如权利要求4所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S4-1包括以下步骤：

S4-1-5、将全局最优路径输入TagScorel层，获取约束标签；

S4-1-6、将约束标签输入CRF解码层，获得预测标签序列。

6.如权利要求5所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S4-3中动态特征学习模块和静态特征学习模块结构相同。

7.如权利要求5所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S4-1-4包括以下步骤：

S4-1-4-2、根据公式：

得到CRF奖惩机制层的损失值loss；其中，P(y|x)表示当前路径为正确路径的概率；e^S(x ^，y′)表示当前正确路径的分数；表示当前每种路径可能分数的总和；i表示第i个路径，n表示共有n个路径；S(x，y′)表示正确路径所获得的分数，y′表示当前路径为正确路径；x表示实体；

S4-1-4-4、使用修改后的CRF奖惩机制层计算全局最优路径。

8.如权利要求5所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S4-2包括以下步骤：

S4-2-3、将分词信息和位置信息融合，得到动态融合特征；

9.如权利要求8所述的一种藏医药领域实体关系联合抽取方法，其特在于，步骤S5中计算双元动态模型的损失值，使用静态特征学习模块的预测标签序列与动态特征学习模块的最终的预测标签序间的损失值。

10.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求2-9中任一项所述的方法。