CN113139385B

CN113139385B - 基于字词读音融合特征模型的电子病历命名实体识别方法

Info

Publication number: CN113139385B
Application number: CN202110531278.1A
Authority: CN
Inventors: 史晟辉; 赵鑫
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2024-05-14
Anticipated expiration: 2041-05-12
Also published as: CN113139385A

Abstract

本发明公开了基于字词读音融合特征模型的电子病历命名实体识别方法，包括以下步骤：生成待识别命名实体的电子病历的字符序列对应的字符的字词向量的集合；生成字符序列对应的读音向量；将读音向量输入到第一神经网络进行处理，得到字符序列对应的读音加强字词向量；将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型；将字词读音特征模型输入到第二神经网络中进行处理，得到电子病历的命名实体识别结果；本发明具备迁移性，降低了模型构建的复杂工作程度，对于标注数据较少的领域进行命名实体识别任务，具有良好的电子病历的命名实体识别效果。

Description

基于字词读音融合特征模型的电子病历命名实体识别方法

技术领域

本发明属于计算机技术领域，涉及一种基于字词读音融合特征模型的电子病历命名实体识别方法。

背景技术

随着我国社会经济的蓬勃发展及人民生活水平的日益提高，人们健康意识也日益增强，如何利用大量的医疗数据来构建智能医疗体系是目前社会的迫切需求。电子病历时医疗数据里数量最多，包含信息也最多的医疗数据文本，其具有其独特的专业性。很多智能医疗信息系统都是基于电子病历的信息来构建。在构建智能医疗信息系统和体系的过程中，命名实体识别对大量的医疗数据进行信息抽取的重要任务的基础，对各种医疗领域的信息处理和管理系统十分重要。

目前基于动态结构融合词汇信息需要通过修改相应的特征抽取模型，这导致模型结构复杂和推断效率低的问题；此外国内的医疗文本记录体系不完善，医疗文本数据中存在储存时没有对数据中的命名实体进行标注，使得可用于命名实体识别任务所需的带标注信息的中文医疗文本数据更加缺乏，降低了电子病历的命名实体识别效果。

发明内容

针对上述问题，本发明提出了一种基于字词读音融合特征模型的电子病历命名实体识别方法，很好的解决了现有技术中模型构建复杂、推断效率低和命名实体是被效果不佳的问题。

为了实现上述目的，本发明采用的技术方案如下：基于字词读音融合特征模型的电子病历命名实体识别方法，包括以下步骤：

生成待识别命名实体的电子病历的字符序列对应的字符的字词向量的集合；

生成所述字符序列对应的读音向量；

将所述读音向量输入到第一神经网络进行处理，得到所述字符序列对应的读音加强字词向量；

将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型；

将所述字词读音特征模型输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果。

进一步的，所述字词向量的集合为BMES集合，通过Soft-lexicon构造模型生成，生成“B”、“M”、“E”、“S”四个词集，并且BMES集合中的字词向量表示如下：

e(B，M，E，S)＝[v(B)+v(M)+v(E)+v(S)]

其中：“B”集合保存当前字为词首字的单词列表；“M”集合保存当前字为词中间字的单词列表，“E”集合保存当前字为词尾字的单词列表，“S”集合保存当前字为单独字成词的单词列表。

进一步的，所述读音向量通过压缩的字母表法生成。

进一步的，所述第一神经网络包括字符特征层、特征抽取层、标签解码层。

进一步的，所述读音加强字词向量的表示向量如下：

x^c←[x^c；e(B^*，M^*，E^*，S^*)]

其中：*表示字词向量经过读音向量加强表示。

进一步的，所述第二神经网络为卷积网络，并由一层一维卷积核加上两层三维卷积核共三层组成。

与现有技术相比，本发明具有以下有益效果：

本发明中，提出的字词读音融合特征模型，实现了字词表征具备更丰富的含义，提高命名实体识别效果的目的，而且具备迁移性，降低了模型构建的复杂工作程度，对于标注数据较少的领域进行命名实体识别任务，具有良好的电子病历的命名实体识别效果。

本发明中，采用读音向量和词权重方式对词向量进行处理，使得字词读音融合特征模型的识别效果提高，提高识别的准确性。

附图说明

图1为本发明的流程示意图；

图2为本发明中的Soft-lexicon构造模型结构图；

图3为本发明中的第一神经网络处理过程示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所述的基于字词读音融合特征模型的电子病历命名实体识别方法，包括以下步骤：

生成待识别命名实体的电子病历的字符序列对应的字符的词向量的集合；通过Soft-lexicon构造模型生成，生成“B”、“M”、“E”、“S”四个词集，并且BMES集合中的词向量表示如下：

e(B，M，E，S)＝[v(B)+v(M)+v(E)+v(S)]

Soft-lexicon构造模型结构图如图2所示，结合图2对BMES集合解释如下：由字符集合{c5，c6}匹配到词w1，由字符集合{c6，c7}匹配到词w2，由字符集合{c5，c6，c7，c8}匹配到词w3。针对c6字符，该字符是w1的结束字，是 w2的开始字，是w3的中间字，新的标签集合为{B：{w2}，M：{w3}，E：{w1}， S：{null}}；针对c7字符，该字符是w2的结束字，是w3的中间字，新的标签集合为{B：{null}，M：{w3}，E：{w2}，S：{null}}。Soft-lexicon构造模型有两个优点，第一是详尽地记录了词典匹配情况，直接保存了最完整的词典匹配信息，不存在无法还原真实词典匹配的问题；第二是将整个词语存储，可以引入预训练好的字词向量嵌入，进一步提升字符特征质量，保证后期的识别效果

通过压缩的字母表法生成所述字符序列对应的读音向量；具体的，在读音向量表示中，在字母表法的基础上使用两位表示4种声调，即{00：阴平，01：阳平，10：上声，11：去声}，额外使用一位空间表示轻声，声调部分从5位压缩至3位。轻声位使用的频率较低，大部分情况是只需要2位空间表示声调，改良后的声调部分使用率从20％提高到66％。改良后的字母表法的声调部分长度为3 位，平均使用2位；字母部分长度为26位，平均使用3.2位。总长度为29位，平均使用5.2位，使用率从原先的12.9％提高至17.9％；可以使得读音向量复原出真实拼音写法。

将所述读音向量输入到第一神经网络进行处理，得到所述字符序列对应的读音加强字词向量；其中，所述第一神经网络包括字符特征层、特征抽取层、标签解码层。如图3所示，第一神经网路处理过程如下：如输入序列为“这家银行长大于宽”，符号化表示为{c1，c2，c3，c4，c5，c6，c7，c8}，以字符c5“长”具体说明。通过词典的查询，图最下方矩形显示出词典匹配到词{w1：“长大”，w2：“长大于宽”，w3：“行长”，}，所以根据上下文匹配到的BMES标签集合为{B：{w1， w2}，M：{null}，E：{w3}，S：{null}}。下一步查询词的拼音发现，字符c5是多音字，在当前标签集合中出现两个读音，分别是“chang-三声”和“zhang-四声”，最后在每个字词向量末尾添加相应的拼音向量，作为当前词的表示向量。所述读音加强字词向量的表示向量如下：

x^c←[x^c；e(B^*，M^*，E^*，S^*)]

其中：*表示词向量经过读音向量加强表示。

将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型；由于词频统计方式是分别统计的，各个词语的词频权重之和相加为1；但拼音占比权重的计算方式是按照当前词集内的字的发音来计算，会出现重复的情况，相加不一定为1。所以在结合二者之后，需要进一步转化，使之相加之和为 1来保证概率的有效分布。而Softmax可以将参数映射到[0，1]区间内，并且相加为1。在使用Softmax的基础上，再为词频和拼音占比分别设置一个参数，正如下述公式中，α、β这两个参数是可以设置的，可以预设两种不同维度的重视程度。若预知到当前语料多音字情况较少，可以将α设为较大的数值，若当前语料随机性较高且口语多，可以将β设定为较大的数值。

weigh t(w)＝Softmax(α·frequency(w)*β·pronunciation(w))

α，β∈[0，1]，α+β＝1

将所述字词读音特征模型输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果。所述第二神经网络为卷积网络，并由一层一维卷积核加上两层三维卷积核共三层组成。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于字词读音融合特征模型的电子病历命名实体识别方法，其特征在于，包括以下步骤：

生成所述字符序列对应的读音向量；

将所述字词读音特征模型输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果；

所述字词向量的集合为BMES集合，通过Soft-lexicon构造模型生成，生成“B”、“M”、“E”、“S”四个词集，并且BMES集合中的字词向量表示如下：

e(B,M,E,S)＝[v(B)+v(M)+v(E)+v(S)]

其中：“B”集合保存当前字为词首字的单词列表；“M”集合保存当前字为词中间字的单词列表，“E”集合保存当前字为词尾字的单词列表，“S”集合保存当前字为单独字成词的单词列表；

所述读音加强字词向量的表示向量如下：

x^c←[x^c；e(B^*,M^*,E^*,S^*)]

其中：*表示字词向量经过读音向量加强表示；

再者，设置词频权重为α，读音权重为β；而词频权重和读音权重的处理融合如下述公式所示：

weight(w)＝Softmax(α·frequency(w)*β·pronunciation(w))；

α,β∈[0,1],α+β＝1。

2.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法，其特征在于：所述读音向量通过压缩的字母表法生成。

3.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法，其特征在于：所述第一神经网络包括字符特征层、特征抽取层、标签解码层。

4.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法，其特征在于：所述第二神经网络为卷积网络，并由一层一维卷积核加上两层三维卷积核共三层组成。