CN111950283A

CN111950283A - 面向大规模医疗文本挖掘的中文分词和命名实体识别系统

Info

Publication number: CN111950283A
Application number: CN202010755373.5A
Authority: CN
Inventors: 顾东晓; 周晨; 王晓玉; 赵树平; 杨雪洁; 苏凯翔; 赵旺; 姚晗
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-17
Anticipated expiration: 2040-07-31
Also published as: CN111950283B

Abstract

本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，涉及数据处理技术领域。本发明首先构建词典；基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果中的歧义集；基于CRF模型对歧义集再次分词；基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM‑CRF模型中，通过叠层BiLSTM‑CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM‑CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词，利用CRF实现自动消除歧义，改善歧义词的分词效果，提高了叠层BiLSTM‑CRF模型输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。

Description

面向大规模医疗文本挖掘的中文分词和命名实体识别系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统。

背景技术

随着医学领域的不断发展，医疗文本数据的积累也越来越多，针对这些医疗文本数据进行有效挖掘使之造福于社会大众成为研究热点。医疗文本，以电子病历为代表，包含大量丰富的医疗信息，是实现辅助诊疗、疾病预防和健康管理等的重要资源。为更好利用电子病历需对其中的非结构化信息进行结构化处理，其中病历的分词是该过程的基础，而命名实体识别则是该过程的重点和难点。电子病历的命名实体识别主要是指从电子病历的描述性文本中识别出如疾病名称、治疗方法、药物等临床实体。

目前深度学习中的BiLSTM-CRF模型是应用于电子病历命名实体识别的主流模型。BiLSTM-CRF模型在表示层使用字符向量或词向量作为输入，经过一个BiLSTM网络对每个词语在上下文中的抽象特征表示进行自动学习，将提取的文本特征传输到CRF层进行序列标注，其中BiLSTM网络即模型隐藏层内包含有两个方向的网络结构，一种是按从左到右的顺序传播，另一个是按从右到左的顺序传播，分别得到两套不同的隐藏层表示，通过向量拼接的方式获得最终的隐藏层向量表示。

然而，本申请的发明人发现，现有的方法由于缺乏针对医学领域的分词方法，可能会引入分词错误，即现有的方法输入到BiLSTM-CRF模型的词向量的准确度低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，解决了现有的方法输入到BiLSTM-CRF模型的词向量的准确度低技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，包括：

词典构建模块，用于获取常用词汇和医学相关词汇，构建词典；

文本粗分模块，用于基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，所述粗分结果包括歧义集；

CRF分词模块，用于基于预先设置的CRF模型对所述歧义集再次分词；

命名实体识别模块，用于基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

优选的，所述基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，包括：

(1)、加载停词表，切分文本；

(2)、对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段；

(3)、查询词典库并进行匹配，若存在与所述匹配字段相符的字段则将这个所述匹配字段作为一个词切分出来；否则将这个匹配字段的最后一个字符去掉，余下的字符串作为新的匹配字段，重新进行匹配；

(4)、循环进行减少字符的操作，直到匹配字段字数为零为止；

(5)、重复算法匹配过程，将文本切分完成为止，得到切分序列S₁；

(6)、对切分后的文本从右往左提取不超过词典中最大长度的词作为匹配字段；再执行(3)～(5)获得S₂；

(7)、对切分序列S₁和S₂，逐项扫描；若第i项有S₁[i]＝S₂[i]且第i+1项有S₁[i+1]＝S₂[i+1]，则检测是否l_S1[i]＝l_S1[i+1]＝2且l_S1[i]∩l_S1[i+1]＝1，如是则加入歧义集反之不加；若第i项有S₁[i]≠S₂[i]，则加入歧义集。

优选的，所述基于预先设置的CRF模型对所述歧义集再次分词，包括：

向CRF模型输入歧义集，利用维特比算法进行预测获得分词结果。

优选的，所述预先设置的CRF模型的设置过程包括：

在条件随机场中，给定输入观测序列X的条件下输出标记序列Y的概率为：

式中:

表示在输入X字符序列下输出序列Y的所有可能结果的概率之和，为归一化因子；

定义优化目标函数：

式中：

p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率；

θ_k表示综合权重系数；

t表示当前是第几个字符，T表示共输入T个字符；

k表示第几个特征函数，K表示共有K个特征函数；

f(y_t，y_t-1，x_t，t)表示综合特征函数，由节点特征函数和局部特征函数组成，取值为0或1。

根据特征模板生成特征函数，为输入公开的语料的字符序列的每个位置定义特征函数，特征函数表示相应位置的观测特征；为目标函数添加正则项，则有：

式中:

为针对特征函数权重向量θ的l₂正则项，δ为经验值；

对式(3)进行L-BFGS算法学习获得CRF模型参数。

优选的，所述基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别包括：

采用word2vec中的Skip-gram模型训练分词后的文本得到相应的词向量，作为BiLSTM-CRF的输入；

基于叠层BiLSTM-CRF模型和维特比算法进行叠层BiLSTM-CRF模型的第一层的实体标注；

将由叠层BiLSTM-CRF模型得到的第一层的实体标注作为实体特征，在实体特征的基础上加入词性特征后构成输入特征集，通过第二层对输入特征集进行复杂实体识别。

优选的，所述叠层BiLSTM-CRF模型的第一层为BiLSTM-CRF层，所述叠层BiLSTM-CRF模型的第二层为CRF层。

优选的，词性特征的获取方法包括：

由jieba分词对词向量进行处理，得到词性特征。

本发明还提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其所述方法包括以下步骤：

S1、获取常用词汇和医学相关词汇，构建词典；

S2、基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，所述粗分结果包括歧义集；

S3、基于预先设置的CRF模型对所述歧义集再次分词；

S4、基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

(三)有益效果

本发明提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统。与现有技术相比，具备以下有益效果：

本发明通过获取常用词汇和医学相关词汇，构建词典；基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，该粗分结果包括歧义集；基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词；基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词，利用CRF实现自动消除歧义，改善歧义词的分词效果，提高了叠层BiLSTM-CRF模型输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。同时，采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中改进的双向最大匹配算法分词流程图；

图2为本发明实施例中特征模板示意图；

图3为本发明实施例中实体标注类别示意图；

图4为本发明实施例中一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，解决了现有的方法输入到BiLSTM-CRF模型的词向量的准确度低的技术问题，实现输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

对于电子病历命名实体识别来说，分词的效果往往会影响后续的命名实体识别。在使用BiLSTM-CRF模型对电子病历进行实体识别时，往往以字符向量或词向量作为输入。以字符向量作为输入，一方面不能较好地表达语义信息，另一方面会增加命名实体长度，提高命名实体边界提取难度。以词向量作为输入，由于缺乏针对医学领域的分词方法，可能会引入分词错误，导致命名实体识别错误。同时，电子病历文本中的命名实体结构复杂、内部嵌套现象普遍，而在面对较复杂的命名实体识别任务时，往往既要求识别出实体边界又需要识别出实体所属类别，此时BiLSTM-CRF模型往往难以达到很好的识别效果。因此，本发明实施例提出了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统来解决上述问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，包括：词典构建模块、文本粗分模块、CRF分词模块和命名实体识别模块。

其中：

词典构建模块用于获取常用词汇和医学相关词汇，构建词典；

文本粗分模块用于基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，该粗分结果包括歧义集；

CRF分词模块用于基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词；

命名实体识别模块用于基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

本发明实施例有效解决了提出了基于词典的CRF分词，利用CRF实现自动消除歧义，改善歧义词的分词效果，提高了叠层BiLSTM-CRF模型输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。同时，采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。

下面对各个模块进行详细描述。

在一实施例中，词典构建模块获取常用词汇和医学相关词汇，构建词典。具体实施过程如下：

通过人工输入、爬虫技术等搜集与爬取医学权威词表、网站数据及其他补充词库，获取常用词汇和医学相关词汇，构建词典，所构建的词典包含日常用词汇和医学相关词汇。

在一实施例中，文本粗分模块基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，该粗分结果包括歧义集。具体流程如图1所示，具体实施过程如下：

(1)加载停词表，切分文本；

(2)对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段；

(3)查询词典库并进行匹配，若存在与之相符的字段则将这个匹配字段作为一个词切分出来；若没有与之相匹配的字段，则将这个匹配字段的最后一个字符去掉，余下的字符串作为新的匹配字段，重新进行匹配；

(4)循环进行减少字符的操作，直到匹配字段字数为零为止；

(5)重复算法匹配过程，将文本切分完成为止，获得切分序列S₁。

(6)逆向进行(从右往左进行匹配，即从文本的最后开始匹配)上述同样步骤，获得切分序列S₂。

(7)对切分序列S₁和S₂，逐项扫描。若第i项有S₁[i]＝S₂[i]且第i+1项有S₁[i+1]＝S₂[i+1]，则检测是否l_S1[i]＝l_S1[i+1]＝2且l_S1[i]∩l_S1[i+1]＝1，如是则加入歧义集反之不加；若第i项有S₁[i]≠S₂[i]，则加入歧义集。

在一实施例中，CRF分词模块基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词。具体实施过程如下：

基于预先设置的CRF模型的设置过程如下：

其中：

为归一化因子，即所有可能的标签序列对应的非规范概率和。对于该式分子分母的计算，采用前向后向向量的算法来降低计算的时复杂度。

定义优化目标函数：

式中：

p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率；

θ_k表示综合权重系数；

t表示当前是第几个字符，T表示共输入T个字符；

k表示第几个特征函数，K表示共有K个特征函数；

根据特征模板生成特征函数，特征模板见附图2，为输入公开的语料的字符序列的每个位置定义特征函数，特征函数表示相应位置的观测特征。因在使用特征模版时将产生数量巨大的特征函数，为防止过拟合，为目标函数添加正则项，则有：

式中：

为针对特征函数权重向量θ的l₂正则项，δ为经验值，一般取10。

对式3进行L-BFGS算法学习获得CRF模型参数，完成CRF模型的设置。

需要说明的是，在具体实施过程中，在运用设置好的CRF模型前，需要通过评测准确率、召回率和F值的方式对CRF模型进行评价，上述评价方法均为现有技术，此处不再赘述。

在一实施例中，命名实体识别模块基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

在本发明实施例中，通过叠层BiLSTM-CRF模型对分词后的数据进行实体标注，选用{B，I，O，E，S}标注模式(即B-begin，I-inside，O-outside，E-end，S-single)，主要对两类复杂实体进行识别，即疾病和症状。鉴于多数疾病名称都是由身体部位名称与基本疾病名称组合而成且多数症状都是由身体部位名称与具有固定词性的词所组成，故进行两层实体识别，第一层识别身体部位名称和基本疾病名称，第二层识别疾病和症状，具体实体标注见附图3。在本发明实施例中，叠层BiLSTM-CRF模型是预先训练好的，其训练过程包括：记输入词向量序列X＝{x₁，x₂，...，x_n}，经叠层BiLSTM-CRF模型的第一层中的BiLSTM层后输出概率矩阵P_n*k，其中k是标签的个数，P_i，j指x_i被标记为第j个标签的概率；经叠层BiLSTM-CRF模型的第一层中的CRF层后输出概率转移矩阵A_(k+2)*(k+2)，其中k+2指添加START和END标签后的标签个数，A_i，j指第i个标签转移到第j个标签的概率，记输出的标签序列y＝{y₁，y₂，...，y_n}，定义路径得分公式：

记叠层BiLSTM-CRF模型第一层的损失函数：

对于

采用动态规划算法降低计算时度，利用梯度下降法对损失函数进行学习，以得到叠层BiLSTM-CRF模型第一层的最优参数。叠层BiLSTM-CRF模型第二层CRF层的训练过程与上述CRF模型的训练过程相同，故不再赘述。

命名实体识别模块的具体实施过程如下：

(1)采用word2vec中的Skip-gram模型训练分词后的文本得到相应的词向量，作为BiLSTM-CRF的输入。

(2)利用训练好的叠层BiLSTM-CRF模型采用维特比算法进行第一层(即BiLSTM-CRF层)的实体标注。

(3)将由叠层BiLSTM-CRF模型得到的第一层的实体标注作为实体特征，在实体特征的基础上加入由jieba分词得到的词性特征后构成输入特征集，通过第二层(即CRF层)对输入特征集进行复杂实体识别。

本发明实施例还提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，该方法由计算机执行，如图4所示，包括步骤S1～S4：

S1、获取常用词汇和医学相关词汇，构建词典；

S3、基于预先设置的CRF模型对所述歧义集再次分词；

可理解的是，本发明实施例提供的上述一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统与上述一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统相对应，其有关内容的解释、举例、验证等部分可以参考一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例有效解决了提出了基于词典的CRF分词，利用CRF实现自动消除歧义，改善歧义词的分词效果，提高了叠层BiLSTM-CRF模型输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。同时，采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。

2、使用本发明实施例所提出的系统和方法可以对医疗文本数据进行有效挖掘，为构建医学应用提供基础，从而造福广大患者和医务工作者，推动医疗行业发展。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，包括：

2.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，包括：

(1)、加载停词表，切分文本；

3.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述基于预先设置的CRF模型对所述歧义集再次分词，包括：

4.如权利要求1～3任一所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述预先设置的CRF模型的设置过程包括：

式中:

定义优化目标函数：

式中：

p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率；

θ_k表示综合权重系数；

t表示当前是第几个字符，T表示共输入T个字符；

k表示第几个特征函数，K表示共有K个特征函数；

式中:

为针对特征函数权重向量θ的l₂正则项，δ为经验值；

对式(3)进行L-BFGS算法学习获得CRF模型参数。

5.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别包括：

6.如权利要求5所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述叠层BiLSTM-CRF模型的第一层为BiLSTM-CRF层，所述叠层BiLSTM-CRF模型的第二层为CRF层。

7.如权利要求5所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，词性特征的获取方法包括：

由jieba分词对词向量进行处理，得到词性特征。

8.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述方法包括以下步骤：

S1、获取常用词汇和医学相关词汇，构建词典；

S3、基于预先设置的CRF模型对所述歧义集再次分词；