CN115455969A

CN115455969A - 一种医学文本命名实体识别方法、装置、设备及存储介质

Info

Publication number: CN115455969A
Application number: CN202210979993.6A
Authority: CN
Inventors: 冼广铭; 李楚彬; 梅灏洋
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-09

Abstract

本发明涉及一种医学文本命名实体识别方法，包括以下步骤：获取医学文本数据并进行预处理，医学文本数据包括字符和对应的标签；对预处理的医学文本数据进行词嵌入得到字符向量，并将字符向量与词典库进行标签匹配，得到字符向量对应的标签词语集；将标签词语集与字符向量拼接，得到包含医学文本数据的词汇信息的输入向量；将输入向量输入至训练好的BI GRU模型中，提取深度特征和长距离依赖，得到输入向量对应的序列编码；将序列编码输入至训练好的CRF模型中，得到序列编码对应的标签，即命名实体识别的结果。本申请克服了词级别输入由于分词错误导致的错误传播问题，也改进了单纯字符级别输入缺少词汇信息的缺陷，进一步提高了实体划分能力和实体边界检测能力。

Description

一种医学文本命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种医学文本命名实体识别方法、装置、设备及存储介质。

背景技术

命名实体识别是一种自然语言处理的基础任务，它是指从原始文本数据中提取具有特定意义的实体，例如人物、地点、机构等。将医学文本与命名实体识别结合，并配合深度学习的训练模式，其目的就是通过命名实体识别方法，抽取出医学文本中关于疾病、药物、症状、手术、检验等医学实体。

当前通用领域对于医疗领域，上下文关联性较小，数据集内部知识信息对于特定名词识别远远不够。

发明内容

基于此，本发明提供一种医学文本命名实体识别方法、装置、设备及存储介质。本申请克服了词级别输入由于分词错误导致的错误传播问题，也改进了单纯字符级别输入缺少词汇信息的缺陷，进一步提高了实体划分能力和实体边界检测能力。

根据本申请的一些实施例的第一方面，提供了一种医学文本命名实体识别方法，包括以下步骤：

获取医学文本数据并进行预处理，所述医学文本数据包括字符和对应的标签；

对预处理的所述医学文本数据进行词嵌入得到字符向量，并将所述字符向量与词典库进行标签匹配，得到所述字符向量对应的标签词语集；

将所述标签词语集与所述字符向量拼接，得到包含所述医学文本数据的词汇信息的输入向量；

将所述输入向量输入至训练好的BIGRU模型中，提取深度特征和长距离依赖，得到所述输入向量对应的序列编码；

将所述序列编码输入至训练好的CRF模型中，得到所述序列编码对应的标签，即为命名实体识别的结果。

进一步地，将所述字符向量与词典库进行标签匹配得到标签词语集后，还包括：

利用BEMS四位序列标注法对所述标签词语集进行分段，得到四个子集，所述子集的构造公式如下：

其中，C_i表示字符向量、L表示词典集、B(C_i)表示字符向量在词典集中词语的起始字的子集，M(C_i)表示字符向量在词典集中词语的中间字的子集，E(C_i)表示字符向量在词典集中词语的结束字的子集，S(C_i)表示字符向量在词典集中单独成词的子集。

进一步地，将所述标签词语集与所述字符向量拼接，得到包含所述医学文本数据的词汇信息的输入向量，包括：

使用权重归一化方法，计算四个所述子集的所有单词：

将四个所述子集合并得到子集向量，并与所述字符向量拼接，得到输入向量。

进一步地，所述权重归一化方法为基于统计的静态加权法，计算公式如下：

其中，S为标签词语集，z(w)为单词w在标签词语集中出现的频率，Z为标签单词集中所有词语出现的频率之和，e^w为词向量矩阵；

输入向量的拼接计算公式如下：

e^s(B,M,E,S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)]

其中，

表示字符c拼接前的对应的字符向量，X^c代表字符c拼接之后对应的字符向量，e^s(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。

进一步地，将所述输入向量输入至训练好的BIGRU模型中，提取深度特征和长距离依赖，得到所述输入向量对应的序列编码，计算公式如下：

H＝{h_1,h_2,...h_n}

其中，

和

分别表示在t时刻正向GRU和反向GRU的输出状态、w_t和v_t表示权重矩阵、bt表示偏置向量、H表示编码序列。

进一步地，将所述序列编码输入至训练好的CRF模型中，得到所述序列编码对应的标签，包括：

对所述编码序列进行预测，计算相应得分，公式如下：

其中，x＝{x_1,x_2,...x_n}表示为序列编码、y＝{y_1,y_2,...y_n}作为预测标签序列、

为第i个位置输出为y_i的概率，

表示从y_i-1到y_i的转移概率矩阵；

利用动态规划算法，输出最高的条件概率标签序列y^*：

y^*＝argmax_yScore(x,y)

即得分函数取最大值对应的标签序列为所述序列编码对应的标签，即为命名实体识别的结果。

据本申请的一些实施例的第二方面，提供了一种医学文本命名实体识别装置，包括：

数据获取模块，用于获取医学文本数据并进行预处理，所述医学文本数据包括字符和对应的标签；

嵌入匹配模块，用于对预处理的所述医学文本数据进行词嵌入得到字符向量，并将所述字符向量与词典库进行标签匹配，得到所述字符向量对应的标签词语集；

拼接模块，用于将所述标签词语集与所述字符向量拼接，得到包含所述医学文本数据的词汇信息的输入向量；

编码模块，用于将所述输入向量输入至训练好的BIGRU模型中，提取深度特征和长距离依赖，得到所述输入向量对应的序列编码；

识别模块，用于将所述序列编码输入至训练好的CRF模型中，得到所述序列编码对应的标签，即为命名实体识别的结果。

根据本申请的一些实施例的第三方面，提供了一种设备，包括：

至少一个存储器和至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面任一项所述的医学文本命名实体识别的步骤。

根据本申请的一些实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。

本申请首先通过引入外部的词典库，令医学文本数据中的每个字符向量与词典库进行匹配生成4个不同的标签词语集，对这4个标签词语集合进行一维特征化，再将其与字符向量进行拼接，得到包含丰富词信息的最终输入向量。本申请通过对输入的字符向量进行词汇增强，并与原始的字符向量进行拼接，形成包含更准确信息的输入向量，保证了字符向量处理的准确度。克服了词级别输入由于分词错误导致的错误传播问题，也改进了单纯字符级别输入缺少词汇信息的缺陷，进一步提高了实体划分能力和实体边界检测能力。其次，在序列编码层使用BiGRU模型，可以在前后两个方向上对信息进行深度特征提取，捕捉长距离依赖，同时具有结构简单以及训练时间短的优点，极大提高医学文本命名实体识别的效率。此外，对于序列编码层的输出，选择采用CRF，对于事先确定的邻近标签依赖，CRF可以对最终输出进行标签校正，改善了标签之间错误相邻的问题，从而得到医学文本最终的实体标签。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图说明

图1为本申请实施例中的医学文本命名实体识别的步骤流程图；

图2为本申请实施例中的医学文本命名实体识别的所使用的模型图；

图3为图2中BIGRU的结构图；

图4为本申请实施例中的医学文本命名实体识别模型的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中涉及的词级别输入和字符级别输入的问题。

本申请提供一种医学文本命名实体识别方法，请参阅图1和图2，该方法包括以下步骤：

步骤S1：获取医学文本数据并进行预处理，所述医学文本数据包括字符和对应的标签。

命名实体识别用于将文本中的命名实体定位并分类为预先定义的类别，如专业、位置、时间等。在本申请中，医学本文数据中的每个汉字即为待命名的实体，标签即为预定义的汉字对应的类别，对医学文本数据进行命名实体识别即为确定医学文本数据中的汉字对应的正确标签。

在一个具体的实施例中，对所述医学文本数据进行预处理包括：对所述医学文本数据中的字符和对应的标签都赋予ID,并过滤空格和特殊字符。

步骤S2：对预处理的所述医学文本数据进行词嵌入得到字符向量，并将所述字符向量与词典库进行标签匹配，得到所述字符向量对应的标签词语集。

词嵌入是指通过将字符转化为计算机可以识别的数字，每个字符被映射到向量空间，每个字符在经过embedding转化后，形成字符向量。该词典库为外部引入的，用于构造字符向量的标签词语集。通过外部词典库的引入，增强了该医学文本数据，保证数据更加完整。

在一个具体的实施例中，得到所述字符向量对应的标签词语集后，还包括：

BMES四位序列标注法是命名实体标注方法中的一种。是通过将词典集中每个词分为B、M、E、S四类。其中，B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词。

如图2所示，以“中医药疗法”为例，字符“药”与引入的词典库进行匹配，得到对应的4个子集：B＝{W_3,4(“药疗”)}，M＝{W_2,5(“医药疗法”)}，E＝{W_1,3(“中医药”)}，S＝{W_3,(“药”)}。

步骤S3：将所述标签词语集与所述字符向量拼接，得到包含所述医学文本数据的词汇信息的输入向量。

该标签词语集为通过词典库增强后的字符向量，将该标签词语集和未经过增强的字符向量进行拼接，得到的输入向量的数据更加完全且完整。

在一个优选的实施例中，步骤S3包括：

步骤S31：使用权重归一化方法，计算四个所述子集的所有单词。

具体的，权重归一化方法为基于统计的静态加权法，计算公式如下：

其中，S为标签词语集，z(w)为单词w在标签词语集中出现的频率，Z为标签单词集中所有词语出现的频率之和，e^w为词向量矩阵。

步骤S32：将四个所述子集合并得到子集向量，并与所述字符向量拼接，得到输入向量。

具体的，输入向量的拼接计算公式如下：

e^s(B,M,E,S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)]

其中，

步骤S4：将所述输入向量输入至训练好的BIGRU模型中，提取深度特征和长距离依赖，得到所述输入向量对应的序列编码。

BiGRU模型由两个独立的单向且相反的GRU模型组成，其可以降低训练过程中过度拟合的风险，而且模型训练所需的时间也更短。在每一时刻，输入会同时提供两个方向相反的GRU，而输出则由这两个单向GRU共同决定。BiGRU的具体结构如图3所示。

具体的，BiGRU模型的计算公式如下：

H＝{h_1,h_2,...h_n}

其中，

和

步骤S5：将所述序列编码输入至训练好的CRF模型中，得到所述序列编码对应的标签，即为命名实体识别的结果。

CRF即条件随机场是自然语言处理中的基础模型,广泛用于分词,实体识别和词性标注等场景。具体的，对所述编码序列进行预测，计算相应得分，公式如下：

其中，

x＝{x_1,x_2,...x_n}表示为序列编码、y＝{y_1,y_2,...y_n}作为预测标签序列、

为第i个位置输出为y_i的概率，

表示从y_i-1到y_i的转移概率矩阵。

利用动态规划算法，输出最高的条件概率标签序列y^*：

y^*＝argmax_yScore(x,y)

请参阅图2，在一个具体的例子中，以“中医药疗法”为例，其经过词向量增强后，输入至BIGRU模型中进行序列编码层后，再输入CRF模型中进行标签解码，即可得到对应标签。如图所示，最终输出MED代表药物标签medicine的缩写，B表示开头begin，B-MED表示“中”这个字是“中医药”的开头，而“中医药”属于药物标签。M表示中间middle，M-MED表示“医”这个字是“中医药”的中间，而“中医药”属于药物标签。同理E表示结尾end，E-MED表示“药”这个字是“中医药”的结尾，而“中医药”属于药物标签。O表示没有意义的单个字符，比如“疗”，意为other，不属于任何标签。

与上述的一种医学文本命名实体识别方法相对应，如图4所示，本申请还提供一种医学文本命名实体识别装置400，包括：

数据获取模块410，用于获取医学文本数据并进行预处理，所述医学文本数据包括字符和对应的标签；

嵌入匹配模块420，用于对预处理的所述医学文本数据进行词嵌入得到字符向量，并将所述字符向量与词典库进行标签匹配，得到所述字符向量对应的标签词语集；

拼接模块430，用于将所述标签词语集与所述字符向量拼接，得到包含所述医学文本数据的词汇信息的输入向量；

编码模块440，用于将所述输入向量输入至训练好的BIGRU中，提取深度特征和长距离依赖，得到所述输入向量对应的序列编码；

识别模块450，用于将所述序列编码输入至训练好的CRF中，得到所述序列编码对应的标签，即为命名实体识别的结果。

在一个可选的例子中，该装置400还包括：

子集构造单元，用于利用BEMS四位序列标注法对所述标签词语集进行分段，得到四个子集，所述子集的构造公式如下：

在一个可选的例子中，拼接模块430包括：

第一拼接单元，用于使用权重归一化方法，计算四个所述子集的所有单词。

第二拼接单元，用于将四个所述子集合并得到子集向量，并与所述字符向量拼接，得到输入向量。

在一个可选的例子中，第一拼接单元中权重归一化方法为基于统计的静态加权法，计算公式如下：

第二拼接单元中，输入向量的拼接计算公式如下：

e^s(B,M,E,S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)]

其中，

在一个可选的例子中，编码模块440中得到序列编码的公式如下：

H＝{h_1,h_2,...h_n}

其中，

和

在一个可选的例子中，识别模块450中得到所述序列编码对应的标签的公式如下：

为第i个位置输出为y_i的概率，

表示从y_i-1到y_i的转移概率矩阵；

利用动态规划算法，输出最高的条件概率标签序列y^*：

y^*＝argmax_yScore(x,y)

在一个可选的例子中，该装置400还包括：

预处理单元，用于对所述医学文本数据中的字符和对应的标签都赋予ID,并过滤空格和特殊字符。

与上述的一种一种医学文本命名实体识别方法相对应，本申请还提供一种设备，包括至少一个存储器和至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一项所述的一种医学文本命名实体识别方法的步骤。

上述设备中各个组件的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于设备实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

与上述的医学文本命名实体识别方法相对应，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。

本公开可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

应当理解的是，本申请实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。以上所述实施例仅表达了本申请实施例的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请实施例构思的前提下，还可以做出若干变形和改进，这些都属于本申请实施例的保护范围。