CN112115719A

CN112115719A - 基于多头注意力机制的中医医案命名实体识别方法及系统

Info

Publication number: CN112115719A
Application number: CN202010896923.5A
Authority: CN
Inventors: 袁锋; 于凤洋; 郑向伟; 虞凤萍; 徐传杰; 刘悦; 王冰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-22

Abstract

本公开提供了一种基于多头注意力机制的中医医案命名实体识别方法，包括以下步骤：获取中医医案的文本数据；将获取的文本数据中的字符向量和单词向量结合后送入到Bi‑GRU神经网络中，进行特征提取，得到全局特征；利用多头注意力机制，为字符向量提供潜在的语义信息，提取局部特征；将全局特征和局部特征输入到条件随机场层，得到文本数据的命名实体序列标注结果；本公开无需分词操作，通过对字符和单词的特征进行结合形成一种联合特征，使用超参数对字符和单词的权重进行控制，将联合特征输入到嵌入层，并且在Bi‑GRU层添加空间关注，弥补了其在提取有效特征中的不足，极大的提高了实体识别的准确率。

Description

基于多头注意力机制的中医医案命名实体识别方法及系统

技术领域

本公开涉及文本数据处理技术领域，特别涉及一种基于多头注意力机制的中医医案命名实体识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

随着中医信息化的迅速发展，中医在各大医院中的应用也越来越普及。不同于其他医种，中医中最重要的是中医医案。中医医案是历代医家临床实践经验及学术思想的载体，作为历代中医医家临床诊疗经验的记录，蕴藏着历代医家的医学思想和辨证论治经验,承载着中医知识体系的传承与发展。中医医案记录患者所患疾病、症状和体征以及治疗方法等一系列与患者自身健康状况密切相关的重要信息，这些信息是中医中重要的经验和方法，如何利用中医医案挖掘有用信息是中医发展中重要一环。中医医案中文本是非结构化数据并且缺乏统一的表述标准，这是影响中医医案二次利用的一个主要原因。准确地识别非结构化中医医案文本中的实体可以为患者的诊断和治疗提供有效的决策支持。为了达到这个目的，中医医案文本命名实体识别任务用于自动识别在中医医案文本中表达独立含义的各种命名实体，此任务包含确定实体边界和确定实体类型的工作。

通过使用计算机技术以非结构化形式理解中医医案文本信息，使用基于深度学习的方法设计最新的命名实体识别模型。例如，有研究人员在使用字符和词结合的基础上使用注意力机制对中国电子病历进行命名实体识别研究，有研究人员在BLSTM-CRF中集成语言模型和读取控制门，用于生物医学命名实体识别研究。中文文本与英语文本相比存在自然词段分割缺点，错误的中文词段分割将导致错误的下游工作，与处理英文文本不同，大多数使用词级信息的模型必须面对正确的中文文本分割的问题。中文错误的单词细分结果将导致错误的命名实体识别结果。此外，基于字符的模型无法充分利用潜在的单词和单词序列信息。因此，需要多粒度信息来改善基于字符的模型的性能。

本公开发明人发现，基于机器学习的传统方法包括分类方法和序列标记方法。序列标记方法可以共同考虑相邻单词的标注结果，因此得到了更多的关注。例如，有研究人员基于特征模板集应用条件随机场对中医病历进行命名实体识别研究，有研究人员使用半马尔可夫模型对英语EMR中的命名实体进行序列化和注释存储。此外，还可以使用最大熵模型、支持向量机(SVM)和其他主流方法。但是，上述方法需要详细且复杂的手动功能，并且很容易受到稀疏数据的影响。

发明内容

为了解决现有技术的不足，本公开提供了一种基于多头注意力机制的中医医案命名实体识别方法及系统，无需分词操作，通过对字符和单词的特征进行结合形成一种联合特征，使用超参数对字符和单词的权重进行控制，将联合特征输入到嵌入层，并且在Bi-GRU层添加空间关注，弥补了其在提取有效特征中的不足，极大的提高了实体识别的准确率。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多头注意力机制的中医医案命名实体识别方法。

一种基于多头注意力机制的中医医案命名实体识别方法，包括以下步骤：

获取中医医案的文本数据；

将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU神经网络中，进行特征提取，得到全局特征；

利用多头注意力机制，为字符向量提供潜在的语义信息，提取局部特征；

将全局特征和局部特征输入到条件随机场层，得到文本数据的命名实体序列标注结果。

本公开第二方面提供了一种基于多头注意力机制的中医医案命名实体识别系统。

一种基于多头注意力机制的中医医案命名实体识别系统，包括：

数据获取模块，被配置为：获取中医医案的文本数据；

全局特征获取模块，被配置为：将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU神经网络中，进行特征提取，得到全局特征；

局部特征获取模块，被配置为：利用多头注意力机制，为字符向量提供潜在的语义信息，提取局部特征；

实体序列识别模块，被配置为：将全局特征和局部特征输入到条件随机场层，得到文本数据的命名实体序列标注结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，无需分词操作，通过对字符和单词的特征进行结合形成一种联合特征，使用超参数对字符和单词的权重进行控制，将联合特征输入到嵌入层，并且在Bi-GRU层添加空间关注，弥补了其在提取有效特征中的不足，极大的提高了实体识别的准确率。

2、本公开所述的方法、系统、介质或电子设备，采用字符和单词结合的方法，对每个字符分配不同的权重，可以看作是基于字符的模型的扩展，集成了基于单词的单元，并控制信息权重，贯穿了整个信息流，避免了训练数据分割错误的影响。

3、本公开所述的方法、系统、介质或电子设备，在Bi-GRU输出的隐藏状态上应用条件随机场层来进行预测，获得了全局最优的输出序列。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于多头注意力机制的中医医案命名实体识别方法的流程示意图。

图2为本公开实施例1提供的字符和单词结合生成联合特征示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

本公开实施例1提供了一种基于多头注意力机制的中医医案命名实体识别方法，具体的提供了一种可以用于中医医案文本命名实体识别的，将字符和单词结合并添加了注意力机制的Bi-GRU-CRF模型结构，如图1所示。

本文提出的模型结构的本质，如以下步骤所示：

S1：将字符向量和单词向量结合的特征向量送入到Bi-GRU中；

S2：利用Bi-GRU单元的循环神经网络对输入序列信息进行特征提取，最终将两个方向的GRU结果进行联结，形成全局特征输出；

S3：使用多头注意力机制，为字符提供潜在的语义信息，提取局部特征；

S4：全局特征和局部特征送入CRF层，CRF层作为模型的输出层，生成文本的序列标注结果。

详细的包括以下步骤：

在S1中，字符向量和单词向量结合形成特征向量。

在中医医案文本中：“对于冠心病的治疗”，“冠心病”是一个命名实体，实体中每个字之间的关联更加紧密，而对于实体前面的“于”和后面的“的”，和实体的联系相对较弱。因为每个字符对实体的影响程度不一样，所以需要对每个字符分配不同的权重。本文采用字符和单词结合的方法，如图2所示。

上述结合方法可以看作是基于字符的模型的扩展，集成了基于单词的单元，并控制信息权重，贯穿了整个信息流，避免了训练数据分割错误的影响。在对字符和单词进行结合时，本文使用超参数(0，1)来控制字符和单词之间的组合比例，如公式(1)、(2)所示：

其中，o^c代表嵌入到一般字段表中的字符，

表示单词向量，

表示与c_i相对应的字符向量，x_i表示经过字符和单词结合的特征向量，α和β表示超参数。

将字符向量和单词向量结合成的特征向量输入到Bi-GRU层进行全局特征提取。

S2中，Bi-GRU层提取句子上下文特征。

由于句子中的双向信息有助于序列建模，因此使用可以捕获文本双向信息的Bi-GRU网络来提取句子上下文特征。

h_s＝[h₁,h₂,…,h_m] (6)

其中，a^<t-1>，a^<t+1>代表当前存储单元的隐藏层状态，h_t和

分别代表第i个字符位置处的前向和后向存储网络的隐藏状态，y_t表示Bi-GRU两个方向上的隐藏状态的组合。h_s是Bi-GRU编码输入语句s的结果，m表示语句s所包含的字符总数。在Bi-GRU中可以对更多的语义上下文特征进行捕获操作，生成全局特征。

但是Bi-GRU在对文本向量提取特征维数的过程中，特征维数的数量会变成隐藏层维数的两倍，而且捕获的特征维数并不是所有都有用，所以仅通过Bi-GRU网络很难提取到更有效的信息，本实施例通过结合注意力机制，来弥补Bi-GRU神经网络局部特征获取不足。

S3中，多头注意力机制。

注意力机制是从众多信息中选择对当前命名实体识别任务目标更关键的信息，识别后对需要重点关注的目标区域投入更多的注意力资源。

在Bi-GRU神经网络中与注意力机制进行结合，对中医医案文本中不同的文字赋予不同的权重，再利用基于上下文的语义关联信息可以弥补Bi-GRU神经网络获取局部特征方面的不足。

中医医案文本包含大量专业中医术语，词结构多样，这种丰富的信息可以应用多头注意力机制进行解析，有助于分析复杂的中医医案文本内容。

对于输入的中医医案文本X＝(x₁,…,x_t,…x_m)，需要使用公式(6)计算出通过Bi-GRU神经网络的输出H＝(h₁,…,h_t,…h_m)，对于当前单词x_t，h_t就是Bi-GRU神经网络的输出，包含了神经编码后的信息。

对当前输入的中医文本的隐状态单头注意力权重进行训练，如公式(7)所示。

其中，w_Q、w_k和w_v分别为需要训练权重参数，

为平滑项，d为H_t的维度数，每个单头注意力输出之间不共享参数。

通过对单头的注意力进行连接得到多头注意力机制，如公式(8)所示。

其中，w_m为训练参数，h为拼接数量，本实施例中将其设置成6。

得到多头注意力之后，需要和当前隐状态输出进行连接，加入一个激活层进行训练，如公式(9)所示。

其中，P＝[e₁,…,e_t,…,e_m]为多头注意力结合Bi-GRU神经网络的输出，P的每一列由e_t组成，为了计算输出序列在全局序列上面的依赖关系，引入CRF来计算每个标签间的转移概率。

S4中，命名实体识别通常被看作序列标记任务，输出标签之间存在很强的依赖关系。在本文中使用B，I，O，E，S对中医医案文本进行标记，分别表示一个单词的开头/中间/外面/结尾和一个字符的单词。

如果标签为“I-XX”，则该标签之前的标签必须为“B-XX”或“I-XX”，在Bi-GRU输出的隐藏状态h上应用条件随机场层来进行预测，获得全局最优的输出序列。

对于Bi-GRU神经网络的输出，首先定义医案文本X输出标签序列x的分值s(X,x)的计算公式如公式(10)所示：

公式(10)中，A为转移矩阵，表示将所有状态向下一状态转移的概率，P为Bi-GRU神经网络的输出，P_i,j表示将第i个单词计算为j标签概率的得分，m表示标签序列x的个数，x表示预测的每个字的标签，x_i表示第i个字预测的标签，X_x表示x所有可能的标签序列的一个集合。

具体的，A是过渡矩阵，用于表示从标签i到标签j的过渡，开始标签为x₁和结束标签为x_m，标签种类记为k，则A可以表示为：A∈R^(k+2)*(k+2)。

预测总得分最高的序列作为最优序列，如公式(11)所示。

其中，

X_x表示x所有可能的标签序列。

本实施例设计的中医医案文本命名实体识别算法如算法1所示。

算法1：基于多头注意力机制的中医医案命名实体识别方法

输入：中医医案文本txt；

输出：最优输出序列标签tagged_txt；

(1)加载输入中医医案文本；

(2)txt＝load(txt)；

(3)将字符向量和单词向量结合形成特征向量；

(4)输入到Bi-GRU神经网络；

(5)txt_words＝Bi-GRU(wordsVector)；

(6)多头注意力计算出权重列表；

(7)MHead(att_words)；

(8)得到输出矩阵；

(9)得到转移矩阵；

(10)返回最优输出序列标签tagged_txt。

实施例2：

本公开实施例2提供了一种基于多头注意力机制的中医医案命名实体识别系统，包括：

数据获取模块，被配置为：获取中医医案的文本数据；

所述系统的工作方法与实施例1提供的基于多头注意力机制的中医医案命名实体识别方法相同。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤，所述步骤为：

获取中医医案的文本数据；

详细步骤与实施例1提供的基于多头注意力机制的中医医案命名实体识别方法相同。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤，所述步骤为：

获取中医医案的文本数据；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多头注意力机制的中医医案命名实体识别方法，其特征在于，包括以下步骤：

获取中医医案的文本数据；

2.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，在条件随机场层中，根据各个单词计算为任一个标签概率的得分以及转移矩阵计算序列得分，以分值最高的序列作为最优序列。

3.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，利用Bi-GRU循环神经网络对输入特征向量进行特征提取，将两个方向的GRU结果进行联结，得到全局特征输出。

4.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，在对字符向量和单词向量进行结合时，使用超参数来控制字符和单词之间的组合比例。

5.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，利用Bi-GRU循环神经网络提取句子上下文特征，得到全局特征输出；

或者，

采用第一字符、第二字符、第三字符、第四字符和第五字符对中医医案文本进行标记，分别表示一个单词的开头、中间、外面、结尾和单独一个字符的单词。

6.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，所述多头注意力机制，具体为：

对当前输入的中医文本的隐状态单头注意力权重进行训练；

通过对单头的注意力进行连接得到多头注意力机制；

将得到的多头注意力与当前隐状态输出进行连接，加入一个激活层进行训练，得到多头注意力结合Bi-GRU神经网络的输出。

7.如权利要求6所述的基于多头注意力机制的中医医案命名实体识别方法，其特征在于，每个单头注意力的输出之间不共享参数。

8.一种基于多头注意力机制的中医医案命名实体识别系统，其特征在于，包括：

数据获取模块，被配置为：获取中医医案的文本数据；

9.一种介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。