CN111476022A

CN111476022A - 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质

Info

Publication number: CN111476022A
Application number: CN202010413875.XA
Authority: CN
Inventors: 赵强利
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-07-31
Anticipated expiration: 2040-05-15
Also published as: CN111476022B

Abstract

本发明公开了一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质，本发明实体特征的字符嵌入方法通过字符嵌入表示实体命名特征，使得实体特征也能作为LSTM深度神经能网络的输入；本发明混合LSTM实体识别方法将文档中单词的拼写字符序列和特征字符序列分别作为两个字符级LSTM的输入，输出作为词级的实体识别LSTM的输入，利用字符级LSTM获取单词的构成特征，不仅能够准确获取生物医学领域实体的特征，且避免了生物医学领域实体出现次数少导致词向量难以获取的问题，基于字符嵌入的实体识别混合LSTM模型克服了传统LSTM实体识别方法在生物医学领域的应用缺陷，提高了生物医学领域实体识别的准确性。

Description

实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质

技术领域

本发明涉及生物医学领域的基因数据处理技术，具体涉及一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质。

背景技术

PubMed论文库中有约3000万篇的论文摘要，是生物医学领域进行文本挖掘的重要数据来源，从这些摘要数据中自动提取基因、变异、疾病等实体及实体间的关系，可为上层应用开发提供高质量的基础数据支撑。

生物医学领域的实体存在明显的特征，例如，基因的命名方式经常是大写字母和数字的组合，如：BRCA1，WDR35，UGT2A3等，基因的数目多达数十万个；变异的命名方式与变异在染色体中的位置密切相关，有用RS号表示的，rs开头，后面跟dbSNP数据库的编号，如rs13306072，也有用碱基变化描述的，通常用c.开头，后面跟碱基位置和变化信息，如c.1177C>G，也有用氨基酸变化描述的，用p.开头，后面跟氨基酸的位置和变化信息，如：p.Ser257Leu等。人类基因组约有30亿个DNA碱基对，不同的碱基对变化都会产生不同的变异描述，导致变异的数目十分庞大。因此生物医学领域的实体具有名称特征明显，实体数量庞大，单个实体在文献中出现的次数少等特点。

采用深度学习技术，如长短期记忆网络LSTM(Long Short-Term Memory)等深度神经网络，是进行实体识别的重要方法。利用LSTM进行实体识别的传统方式是采用词嵌入技术将单词的词向量作为LSTM网络的输入，来对已经标注了实体位置的训练文档进行训练，其模型结构如图1所示。这种传统的实体识别方法具有如下缺陷：一是生物医学领域实体的命名方式特征明显，但传统的LSTM实体识别学习方法尚未考虑实体命名的特征；二是由于生物医学领域实体的命名方式很特殊，每个实体名称在文献中出现的次数较少，难以准确获取每个实体的词向量。上述缺陷导致基于传统LSTM方法的生物医学实体识别技术预测精度较低。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质，本发明将生物医学领域实体的命名特征用于LSTM生物医学实体识别，能够提高LSTM模型的对生物医学领域的实体识别精度。

为了解决上述技术问题，本发明采用的技术方案为：

一种实体特征的字符嵌入方法，实施步骤包括：

1)利用分词工具对所有待处理文档进行分词，根据分词结果得到单词构成的拼写字符串列表SList，分词工具可采用NLTK(Natural Language Toolkit)自然语言处理工具包；

2)将拼写字符串列表SList中的每个单词转化为其对应的特征字符串，得到特征字符串列表FList；

3)获取拼写字符串列表SList中各个拼写字符的嵌入向量；

4)获取特征串列表FList中各个特征字符的嵌入向量。

可选地，步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括：针对拼写字符串列表SList中的每个单词，将该单词中每个大写字母用A代替、将该单词中的每个小写字母用a代替、将该单词中的每个数字用0代替、将该单词中的除字母和数字外的每个其他字符用X代替，从而得到该单词对应的特征字符串，最终得到由所有特征字符串构成的特征字符串列表FList。

可选地，步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括：将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10、分类模型为softmax。

可选地，步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括：将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10、分类模型为softmax。

一种混合LSTM实体识别方法，实施步骤包括：

S1)初始化已识别的单词数目number的值为0；

S2)从待处理文档的起始位置开始，取出中第number个单词作为当前单词；

S3)利用已训练好的混合LSTM实体识别模型对当前单词进行实体识别：首先采用前述实体特征的字符嵌入方法，将当前单词的拼写字符串看作拼写字符序列，其各个拼写字符的嵌入向量作为实体识别混合LSTM模型中单词拼写的字符级LSTM的输入，输出Vec1；然后将当前单词的特征字符串看作特征字符序列，其各个特征字符的嵌入向量作为实体识别混合LSTM模型中单词特征的字符级LSTM的输入，得到输出Vec2；最后将向量Vec1和Vec2进行拼接，作为实体识别LSTM的输入，获得当前单词的实体识别IOB结果；

S4)如果已处理完待处理文档的所有单词，则实体识别过程结束；否则将已识别的单词数目number的值在原值的基础上加1，跳转执行步骤S2)。

可选地，所述实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM，所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM，所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征，两个字符级双向LSTM的输出向量拼接在一起，作为实体识别LSTM的输入，实体识别LSTM的输出即为单词的实体识别IOB结果，所述IOB结果的I表示该单词是实体描述的一个内部单词；O表示该单词不是实体的一部分；B表示该单词是一个实体的起始单词。

可选地，步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤，详细步骤包括：

I)人工标定数据集作为训练集，训练集中包括一定数量的训练文档，人工标出每篇训练文档中每个实体的位置；

II)初始化实体识别混合LSTM模型；

III)利用训练集，对实体识别混合LSTM模型进行一轮训练；

IV)判断实体识别混合LSTM模型的误差结果是否已经满足模型收敛条件，如果模型的误差结果已经满足模型收敛条件，则训练过程结束并退出；否则跳转执行步骤III)继续下一轮的训练；

其中，步骤III)中对实体识别混合LSTM模型进行一轮训练时，对于训练集中的每个句子，执行如下步骤：

第一步，以空格作为分隔符，将当前的句子划分成若干单词；

第二步，针对划分得到的每个单词执行如下操作：获得单词拼写的字符级LSTM的输出：根据当前单词的拼写字符串，将对应的拼写字符嵌入向量作为单词拼写的字符级LSTM的输入，获得单词拼写的字符级LSTM的输出向量Vec1；获得单词特征的字符级LSTM的输出：根据当前单词的拼写字符串，生成其对应的特征字符串，将对应的特征字符的嵌入向量作为单词特征的字符级LSTM的输入，获得单词特征的字符级LSTM的输出向量Vec2；获得实体识别LSTM的输出：将输出向量Vec1和输出向量Vec2进行拼接，作为实体识别LSTM的输入，获取该单词对应的IOB输出结果；更新模型参数：利用实体识别LSTM的IOB输出结果与训练集对应的标定结果的差，利用梯度下降反向更新整个实体识别混合LSTM模型的所有参数。

此外，本发明还提供一种混合LSTM实体识别系统，包括计算机设备，该计算机设备被编程或配置以执行所述实体特征的字符嵌入方法的步骤，或该计算机设备被编程或配置以执行所述混合LSTM实体识别方法的步骤。

此外，本发明还提供一种混合LSTM实体识别系统，包括计算机设备，该计算机设备的存储器上存储有被编程或配置以执行所述实体特征的字符嵌入方法的计算机程序，或该计算机设备的存储器上存储有被编程或配置以执行所述混合LSTM实体识别方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述实体特征的字符嵌入方法的计算机程序，或计算机可读存储介质上存储有被编程或配置以执行所述混合LSTM实体识别方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明实体特征的字符嵌入方法对所有待处理文档进行分词，根据分词结果获得文献中所有单词对应的拼写字符串列表SList及特征字符串列表FList；对SList和FList进行学习，获得单词的拼写字符嵌入向量和特征字符嵌入向量，从而可以通过字符嵌入的方式表示实体的命名特征，使得实体的特征也能作为LSTM深度神经网络的输入，为本发明混合LSTM实体识别方法、系统及介质奠定了基础。

2、本发明混合LSTM实体识别方法通过字符嵌入技术，将文档中单词的拼写字符序列和特征字符序列分别作为两个字符级LSTM的输入，它们的输出则作为词级的实体识别LSTM的输入，这种混合LSTM实体识别方法利用字符级LSTM获取单词的构成特征，不仅能够准确获取生物医学领域实体的特征，而且避免了生物医学领域实体出现次数少导致词向量难以获取的问题。基于字符嵌入的实体识别混合LSTM模型，克服了传统LSTM实体识别方法在生物医学领域的应用缺陷，提高了生物医学领域实体识别的准确性。

附图说明

图1为传统长短期记忆网络实体识别LSTM模型的结构示意图。

图2为本发明实施例实体特征的字符嵌入方法的流程图。

图3为本发明实施例混合LSTM实体识别方法的流程图。

图4为本发明实施例实体识别混合LSTM模型的结构示意图。

具体实施方式

下文将以PubMed论文摘要库为例，对本发明实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质进行进一步的详细说明。

如图2所示，本实施例实体特征的字符嵌入方法的实施步骤包括：

1)利用分词工具对待处理文档进行分词，根据分词结果得到单词构成的拼写字符串列表SList，本实施例中分词工具采用NLTK(Natural Language Toolkit)自然语言处理工具包；

3)获取拼写字符串列表SList中各个拼写字符的嵌入向量；

4)获取特征串列表FList中各个特征字符的嵌入向量。

本实施例中，步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括：针对字符串列表SList中的每个单词：

将该单词中每个大写字母用A代替；

将该单词中的每个小写字母用a代替；

将该单词中的每个数字用0代替；

将该单词中除字母和数字外的每个其他字符用X代替；

从而得到该单词对应的特征字符串，最终得到由所有特征字符串构成的特征字符串列表FList。

本实施例中，步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括：将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10、分类模型为softmax。

本实施例中，步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括：将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10、分类模型为softmax。

如图3所示，本实施例混合LSTM实体识别方法的实施步骤包括：

S1)初始化已识别的单词数目number的值为0；

本实施例中实体识别混合LSTM模型的识别原理是：对于文档中的当前单词，将该单词的拼写字符串和特征字符串看作字符序列，将它们的字符嵌入向量分别作为两个字符级LSTM的输入，两个字符级LSTM的输出则作为实体识别LSTM的输入，最后输出单词的IOB结果。

如图4所示，本实施例中的实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM，所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM，所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征，两个字符级双向LSTM的输出向量拼接在一起，作为实体识别LSTM的输入，实体识别LSTM的输出即为单词的实体识别IOB结果，所述IOB结果的I(Inside)表示该单词是实体描述的一个内部单词；O(Outside)表示该单词不是实体的一部分；B(Begin)表示该单词是一个实体的起始单词。

本实施例中，步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤，详细步骤包括：

II)初始化实体识别混合LSTM模型；

III)利用训练集，对实体识别混合LSTM模型进行一轮训练；

第二步，针对划分得到的每个单词执行如下操作：

获得单词拼写的字符级LSTM的输出：根据当前单词的拼写字符串，将对应的拼写字符嵌入向量作为单词拼写的字符级LSTM的输入，获得单词拼写的字符级LSTM的输出向量Vec1；

获得单词特征的字符级LSTM的输出：根据当前单词的拼写字符串，生成其对应的特征字符串，将对应的特征字符的嵌入向量作为单词特征的字符级LSTM的输入，获得单词特征的字符级LSTM的输出向量Vec2；

获得实体识别LSTM的输出：将输出向量Vec1和输出向量Vec2进行拼接，作为实体识别LSTM的输入，获取该单词对应的IOB输出结果；

更新模型参数：利用实体识别LSTM的IOB输出结果与训练集对应的标定结果的差，利用梯度下降反向更新整个实体识别混合LSTM模型的所有参数。

混合LSTM模型训练结束后，可用于对文档进行实体识别。在识别过程中，实体识别LSTM输出的I、O、B类别对应的浮点值经过softmax处理，最终得到单词对应的I、O、B类别输出。

综上所述，本实施例首先提出用字符嵌入的方法描述生物医学领域实体的命名特征，然后提出一种基于字符嵌入的混合LSTM模型，用于生物医学领域的实体识别。本实施例的具体实现包括两个主要组成部分：一是单词拼写字符与单词特征字符的字符嵌入向量获取；二是基于字符嵌入的混合LSTM实体识别方法。本实施例的创新点主要包括如下三点：(1)通过字符嵌入的方式表示实体的命名特征，从而使实体的特征也能作为LSTM深度神经网络的输入；(2)通过字符嵌入技术，将单词的拼写字符嵌入向量和特征字符嵌入向量作为实体识别混合LSTM模型的输入，避免了生物医学领域实体出现次数少导致词向量难以获取的问题；(3)提出基于字符嵌入的混合LSTM模型，提高了生物医学领域实体识别的准确性。本实施例克服了传统LSTM实体识别方法在生物医学领域的应用缺陷，提高了生物医学领域实体识别的精度。

此外，本实施例还提供一种混合LSTM实体识别系统，包括计算机设备，该计算机设备被编程或配置以执行前述实体特征的字符嵌入方法的步骤，或该计算机设备被编程或配置以执行前述混合LSTM实体识别方法的步骤。

此外，本实施例还提供一种混合LSTM实体识别系统，包括计算机设备，其特征在于，该计算机设备的存储器上存储有被编程或配置以执行前述实体特征的字符嵌入方法的计算机程序，或该计算机设备的存储器上存储有被编程或配置以执行前述混合LSTM实体识别方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行前述实体特征的字符嵌入方法的计算机程序，或计算机可读存储介质上存储有被编程或配置以执行前述混合LSTM实体识别方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种实体特征的字符嵌入方法，其特征在于实施步骤包括：

1)利用分词工具对所有待处理文档进行分词，根据分词结果得到单词构成的拼写字符串列表SList；

3)获取拼写字符串列表SList中各个拼写字符的嵌入向量；

4)获取特征串列表FList中各个特征字符的嵌入向量。

2.根据权利要求1所述的实体特征的字符嵌入方法，其特征在于，步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括：针对拼写字符串列表SList中的每个单词，将该单词中每个大写字母用A代替、将该单词中的每个小写字母用a代替、将该单词中的每个数字用0代替、将该单词中的除字母和数字外的每个其他字符用X代替，从而得到该单词对应的特征字符串，最终得到由所有特征字符串构成的特征字符串列表FList。

3.根据权利要求1所述的实体特征的字符嵌入方法，其特征在于，步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括：将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10，分类模型为softmax。

4.根据权利要求1所述的实体特征的字符嵌入方法，其特征在于，步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括：将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量，且word2vec工具的参数为：采用skip-gram算法、窗口大小为10、分类模型为softmax。

5.一种混合LSTM实体识别方法，其特征在于实施步骤包括：

S1)初始化已识别的单词数目number的值为0；

S2)从待识别文档的起始位置开始，取出中第number个单词作为当前单词；

S3)利用已训练好的混合LSTM实体识别模型对当前单词进行实体识别：首先采用权利要求1～4中任意一项所述的实体特征的字符嵌入方法，将当前单词的拼写字符串看作拼写字符序列，其各个拼写字符的嵌入向量作为实体识别混合LSTM模型中单词拼写的字符级LSTM的输入，输出Vec1；然后将当前单词的特征字符串看作特征字符序列，其各个特征字符的嵌入向量作为实体识别混合LSTM模型中单词特征的字符级LSTM的输入，得到输出Vec2；最后将向量Vec1和Vec2进行拼接，作为实体识别LSTM的输入，获得当前单词的实体识别IOB结果；

S4)如果已处理完待识别文档的所有单词，则实体识别过程结束；否则将已识别的单词数目number的值在原值的基础上加1，跳转执行步骤S2)。

6.根据权利要求5所述混合LSTM实体识别方法，其特征在于，所述实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM，所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM，所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征，两个字符级双向LSTM的输出向量拼接在一起，作为实体识别LSTM的输入，实体识别LSTM的输出即为单词的实体识别IOB结果，所述IOB结果的I表示该单词是实体描述的一个内部单词；O表示该单词不是实体的一部分；B表示该单词是一个实体的起始单词。

7.根据权利要求6所述混合LSTM实体识别方法，其特征在于，步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤，详细步骤包括：

II)初始化实体识别混合LSTM模型；

III)利用训练集，对实体识别混合LSTM模型进行一轮训练；

8.一种混合LSTM实体识别系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～4中任意一项所述实体特征的字符嵌入方法的步骤，或该计算机设备被编程或配置以执行权利要求5～7中任意一项所述混合LSTM实体识别方法的步骤。

9.一种混合LSTM实体识别系统，包括计算机设备，其特征在于，该计算机设备的存储器上存储有被编程或配置以执行权利要求1～4中任意一项所述实体特征的字符嵌入方法的计算机程序，或该计算机设备的存储器上存储有被编程或配置以执行权利要求5～7中任意一项所述混合LSTM实体识别方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～4中任意一项所述实体特征的字符嵌入方法的计算机程序，或计算机可读存储介质上存储有被编程或配置以执行权利要求5～7中任意一项所述混合LSTM实体识别方法的计算机程序。