CN109977229A

CN109977229A - 一种基于通用语言特征的生物医学命名实体识别方法

Info

Publication number: CN109977229A
Application number: CN201910235496.3A
Authority: CN
Inventors: 李冬; 其他发明人请求不公开姓名
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-05

Abstract

本发明公开了一种基于通用语言特征的生物医学命名实体识别方法与系统。包括步骤：对生物医学文本进行命名实体标注；对生物医学文本进行通用语言特征的抽取；选择上下文窗口大小并使用通用语言特征构建特征模板；将标注好的语料以及格式化特征模板输入到条件随机场中进行模型训练，得到生物医学领域命名实体识别的条件随机场模型，并利用该模型对待识别的生物医学文本进行生物医学命名实体的识别，最终输出识别结果；使用B/S架构搭建在线生物医学命名实体识别系统。本发明的基于通用语言特征的生物医学命名实体识别方法及系统，在一定程度上提高了生物医学领域命名实体识别的效果，提高了系统的通用性和使用上的便利。

Description

一种基于通用语言特征的生物医学命名实体识别方法

技术领域

本发明属于生物文本挖掘领域，涉及一种基于通用语言特征的生物医学命名实体识别方法与系统，具体是指使用文本通用语言特征和条件随机场对生物医学文本中的命名实体进行识别和分类预测。

背景技术

在自然语言处理领域中，命名实体识别是基于文本的关系抽取、事件抽取、知识图谱构建、信息检索、智能问答等一系列复杂自然语言处理任务的基础，在在上述复杂任务之前，都需要先从文本中正确的识别出相关的命名实体。命名实体识别任务是对文本中具有特定意义或指代性强的实体，比如：人名，地名，组织名称等进行识别。生物医学领域的命名实体识别任务被称为生物医学命名实体识别(Biomedical Named Entity Recognition，BioNER)，该任务旨在对输入的生物医学相关文本序列进行标注，标注出DNA、RNA、蛋白质、细胞类型、疾病名称等领域专属名词。

生物医学命名实体识别任务目前比较流行的方法为基于统计机器学习的方法和基于深度学习的方法两种。

基于统计机器学习的方法主要包括：最大熵模型(Maximum Entropy Model，MaxEnt)、隐马尔可夫模型(Hidden Markov Model，HMM)、最大熵马尔科夫模型(MaximumEntropy Markov Model，MEMM)、支持向量机(Support Vector Machine，SVM)和条件随机场模型(Conditional Random Fields，CRF)等。这些方法都可以非常对数据特征进行有效的学习，还可以对没有出现在训练集中的潜在实体进行识别。然而该方法对特征工程的要求较高，需要从文本中提取出能够有效反应该实体类型特性的各类特征，通常情况下，对实验所用语料所包含的语言信息进统计和分析后，从语料中挖掘出单词特征、词典及词性特征、上下文特征、核心词特征、停用词特征以及句子的语义特征等实验所需要的特征。此外，基于统计机器学习的方法对大规模的标注语料非常依赖，语料的规模、质量等直接影响到该方法的预测效果，然而目前可以用来构建和评估生物医学命名实体识别的大规模通用语料库非常少，所以大量标注语料的构建也是一个很大的困难。

早年，隐马尔科夫模型在通用领域的命名实体识别任务中取得显著的效果，因此研究人员尝试将其推广到生物医学领域。Collier等人就首次将隐马尔科夫模型应用在生物医学命名实体识别任务上，他们使用100篇从MEDLINE收集的文献摘要作为数据集，抽取文本中的词汇和字符特征，输入到隐马尔可夫模型中进行学习，进而使用该模型进行基因类实体的识别，达到了73.0％的F-值。由于隐马尔科夫模型基于马尔科夫链假设和观测独立性假设，即当前时刻的状态只与前一时刻的状态相关，且输出状态只依赖于当前状态，这两条假设使得隐马尔科夫模型实现简单，并且训练效率高，可以快速地学习到全局最优的序列。但是，这两个假设同样限制了隐马尔科夫模型的识别效果，因为事实上，序列数据是存在重要的长期依赖的，而且当前输出状态和上下文的状态也是紧密相关的。

相比于隐马尔科夫模型，最大熵马尔科夫模型有效的结合了隐马尔科夫模型和最大熵模型，一方面可以利用最大熵模型灵活设计各种特征的优点，另一方面有效的解决了观测独立性假设所带来的问题。Corbett等人使用500篇从MEDLINE收集的文献摘要作为数据集，然后使用基于字符级的n元模型先进行一次预分类，最后再使用最大熵马尔科夫模型进行药物类实体的识别，达到了83.2％的F-值效果。但是，最大熵马尔科夫模型依然以马尔可夫链假设为前提，这导致模型在学习时依然受到相当大的限制，并且还存在着标注偏置问题(Label Bias Problem)。

支持向量机在文本分类任务上取得了非常好的效果，然而将支持向量机应用于生物医学命名实体识别任务时，却面临着很多问题和困难。比如，生物医学命名实体识别的数据往往存在数据不均衡的问题，即数据集中生物医学实体的数量远远少于负样例的数量，这对于二分类算法支持向量机来说，会存在严重的数据稀疏性问题。针对这些问题，研究人员进行了深入研究，并尝试进行解决。例如，Kazama等人首先在生物医学领域的命名实体识别任务上使用支持向量机进行了尝试，为了解决数据稀疏性问题，他们把非实体的标记“O”分成了“O-NN”和“O-JJ”等这样的多个子类，该方法在语料GENIA V1.1上达到了54.40％的F-值。

条件随机场模型既可以和最大熵模型一样加入丰富的特征，也解决了隐马尔科夫模型的标注偏置问题，是一个特征灵活、全局最优的模型。Settles等人在数据集JNLPBA-2004上首次使用了条件随机场模型，仅使用一些传统特征和人工设计的特征就达到了69.5％的F-值。之后，条件随机场模型在生物医学命名实体识别任务上越来越流行。Song等人、Settles等人、J Finkel等人先后提取不同的特征输入到条件随机场中进行训练，在JNLPBA-2004数据集上取得了较好的效果。Leaman等人基于条件随机场开发了进行疾病类实体识别的BANNER系统。Liao等人采用了能够充分考虑到生物医学文本中的较远距离依赖关系的skip-chain CRF模型进行生物医学命名实体识别，在数据集JNLPBA-2004上的F-值达到了73.20％。

然而，条件随机场、最大熵马尔科夫等模型都非常依赖于特征工程，特征的选取对模型的效果有着很大的影响。为了有效的设计特征，需要对数据进行大量的分析，对数据的特点有足够深入的了解。除此之外，由于很多特征的泛化能力较差，同样是命名实体识别任务，不同领域的数据的特征往往不同，这使得模型在通用性、泛化能力上均表现较差。因此，尽可能去提取句子中的一些通用的语言特征，如词干特征、词性特征、分块特征及其组合特征等，那么这些特征对于不同的数据集都是适用的，进而可以提高模型的通用性和泛化能力，同时这种方法也取得了非常不错的识别效果。

基于B/S架构的在线交互系统，可以在线使用本发明方法进行生物医学命名实体的识别，使用起来更为方便。用户输入生物医学文本，并指定需要识别的生物医学命名实体类别，系统将自动对文本进行生物医学命名实体的标注与识别。具体可识别的生物医学命名实体的类别为，Disease：疾病，Chemical：化学物，DNA：脱氧核糖核酸，RNA：核糖核酸，Protein：蛋白质，Cell_line：细胞系，Cell_type：细胞类型，Gene：基因。用户可选择一个或者多个进行生物医学命名实体类别来进行识别，并输出标注好的单词，用户可以进行数据分析或者打印使用。此外，用户还可以自己训练所需的模型，只需要用户上传标注好的生物医学文本数据，系统会自动完成特征的抽取、参数的选择和模型的训练，供用户识别用户指定的命名实体类。

发明内容

本发明提供了一种基于通用语言特征的生物医学命名实体识别方法与系统，首先解决了通常人工提取特征难度大、通用性较差、识别效果较差、识别方法难以使用等难题，有效的提高了对生物医学文本中的命名实体的识别效果，并使得生物医学命名实体识别系统的使用变得简单直观。

本发明具体采用以下技术方案来解决上述技术难题：

一种基于通用语言特征抽取的生物医学命名实体识别方法与系统，包括以下步骤：

步骤1、使用BIEOS标记方法对生物医学文本中的命名实体进行标记：

BIEOS标记计划(如表一所示)：

表一

当命名实体中含有多个单词时：使用B(Begin)标签标注该命名实体的首个单词，使用I(Inside)标签标注该命名实体中间的单词，使用E(End)标签来标注该命名实体的末尾单词。

当命名实体仅包含一个单词时：使用S(Single)标签来标注该命名实体的单词。

当单词为非实体单词时：采用O(Other)标签来标注非实体单词。

标签的个数为5，使用tag_n来表示。

步骤2、对生物医学文本进行预处理，对输入的生物医学文本中的每个单词进行通用语言特征抽取：

生物医学文本通用语言特征抽取，以生物医学文本中的语句“Estrogen effectsin adults are reversible.”为例，(如表二所示)：

表二

步骤3、选择上下文窗口大小以及使用步骤2抽取的特征来构建特征模板。

步骤4、根据特征模板和生物医学文本，构建条件随机场模型的输入。并使用条件随机场进行训练，得到进行生物医学命名实体识别的条件随机场模型，并使用模型对生物医学文本中的命名实体进行识别，并输出标注结果。

步骤5、使用步骤4所输出的标注结果还原识别出的生物医学命名实体。

步骤6、使用B/S架构搭建在线的生物医学命名实体识别系统。系统主要有两大功能：

(一)用户可以输入生物医学文本，并指定需要识别的生物医学命名实体类型，系统通过后台调用模型对文本中的命名实体进行识别，并返回网页端，用户可以在网页上看到标注结果。

(二)用户可以上传生物医学数据集，并指定需要识别的生物医学命名实体类型，系统会自动对数据集进行预处理：使用BIOES标注方式、抽取所需的通用语言特征等，并自动完成模型的训练以及模型参数的选择，提供给用户进行所指定类型生物医学命名实体的识别。

本发明采用上述技术方案，能产生如下技术效果：

本发明的基于通用语言特征的生物医学命名实体识别方法及系统，通过自动化的方法进行生物医学领域的命名实体识别。在进行模型标注时使用BIEOS标注方式对单词进行标注，在一定程度上提高了模型对命名实体边界的识别能力；在选择特征时，选择了非常通用但非常实用的单字特征、词干特征、词性特征和分块特征，使得模型有非常好的通用性，几乎可以适用所有的生物医学命名实体识别数据集；有效的对特征进行组合，使得模型拥有了非常不错的生物医学命名实体识别效果，如在数据集JNLPBA-2004上的F-值达到了77.63％，是目前所知的最好识别效果；在线的生物医学命名实体识别系统使用方便，而且可以自由定制，可以满足不同用户的不同需求。

附图说明

图1为本发明基于通用语言特征的生物医学命名实体识别方法的流程示意图

图2为本发明基于通用语言特征的生物医学命名实体识别系统的使用示意图

具体实施方式

本发明的方法与系统对生物医学文本中的命名实体进行自动的识别并给出标注结果。该方法基于使用通用语言特征的条件随机场模型，该系统使用B/S架构(Browser/Server,浏览器/服务器模式，主要使用JavaScript，HTML和node.js等技术实现)，系统使用如图1所示。

下面结合说明书附图对本发明的实施方式进行描述。

如图2所示，本发明设计了一种基于通用语言特征的生物医学命名实体识别方法，该方法包括以下步骤：

步骤1，对生物医学文本进行标注，采用BIEOS的方式进行标注，以疾病类实体的标注为例：疾病类实体使用BIEOS进行标注，则标注为B-Disease，I-Disease，E-Disease，O，S-Disease，句子“X-linked retinoschisis(XLRS)is a relatively rare vitreoretinaldystrophy that causes visual loss in young men.”中包含疾病类实体“X-linkedretinoschisis”、“XLRS”、“vitreoretinal dystrophy”和“visual loss”，这四个疾病类实体的标注分别为“B-Disease E-Disease”、“S-Disease”、“B-Disease E-Disease”和“B-Disease E-Disease”，而其他非疾病实体的单词都标注为“O”。具体标注的含义如下表：

表三标注及其含义

步骤2，对生物医学文本进行通用语言特征抽取，该过程使用NLTK 3.4进行单词的词干特征抽取，使用GENIA Tagger进行词性标注特征和分块特征抽取。然后将抽取了通用语言特征的生物医学语料转化为条件随机场模型的输入格式，标准格式如下：

定义1：模型训练数据集文件每行数据内容为C_in：

C_in＝<单词,词干特征,词性特征,分块特征,实体标注>

定义2：模型对未标注生物医学文本的标注输出文件每行数据内容为C_out：

C_out＝<单词,识别结果>

每个句子之间使用空行进行分隔，每列数据之间使用空格进行分隔，模型训练所需的数据集文件包含数据集中所有已标注的数据，未标注生物医学文本则由普通的文本格式组成。

步骤3，选择上下文窗口大小，并使用步骤2所抽取的特征构建特征模板。

首先，该过程定义上下文窗口为M，以及特征模板所使用的特征集F。

所述定义上下文窗口为：设上下文窗口M是当前位置词语与其前后数个位置的词语构成的集合。设当前位置的单词为W₀，上下文窗口大小为n，则上下文窗口M＝{W_-(n-1)/2,W_1-(n-1)/2,…,W₀,…,W_(n-1)/2-1,W_(n-1)/2}，共n个元素，其中n为奇数。

所述定义特征模板所使用的特征集为F＝{F₁,F₂,F₃,F₄}，其中F₁为单词特征，F₂为词干特征，F₃为词性特征，F₄为分块特征，共4个元素。

本实施例中，对于特征集中的4个特征的上下文窗口分别为：5,5,5和5。

针对特征集F中的特征，结合已确定的上下文窗口大小，分别构建其一元，二元以及三元特征模板，上下文窗口大小为5，则特征模板如表四所示。

表四上下文窗口为5的词特征模板

此外，针对特征集F中的特征，还进行了不同特征间的特征模板构建，使用F₁,F₂,F₃,F₄四个特征两两组合构建特征间的特征模板，分别是F₁F₂,F₁F₃,F₁F₄,F₂F₃,F₂F₄,F₃F₄，组合特征的窗口大小均为1。

步骤4，定义条件随机场模型的特征模板，将经过步骤1和步骤2得到的语料和经过步骤3所得到的特征模板输入到条件随机场模型中进行训练，得到生物医学领域的命名实体识别模型，并利用该模型对待识别的生物医学文本进行生物医学命名实体的识别，并输出识别结果。

首先，定义条件随机场模型的特征模板文件，将文件中的每一行代表一个模板，统一采用％x[Row,Col]对输入数据的片段进行描述，其中％x表示当前位置，Row的值为整数，表示相对于当前行的行位置偏移，取值为0的时候表示当前位置，取值为正数时表示当前位置之后的位置，取值为负数时表示当前位置之前的位置，Col的值同样为整数，表示列的偏移，取值为0表示第1列特征，取值为1表示第2列特征，以此类推。

按照以上的要求定义模板文件，再将步骤3中构建的特征模板转化为条件随机场的标准输入格式。

本实施例中，第一列为单词特征F₁，第二列为词干特征F₂，第三列为词性特征F₃，第四列为分块特征F₄。将步骤3中所构建的特征模板转化为标准格式，以第一列的单词特征F₁为例：

U00:％x[-2,0]

U01:％x[-1,0]

U02:％x[0,0]

U03:％x[1,0]

U04:％x[2,0]

U05:％x[-2,0]/％x[-1,0]

U06:％x[-1,0]/％x[0,0]

U07:％x[0,0]/％x[1,0]

U08:％x[1,0]/％x[2,0]

U09:％x[-2,0]/％x[-1,0]/％x[0,0]

U10:％x[-1,0]/％x[0,0]/％x[1,0]

U11:％x[0,0]/％x[1,0]/％x[2,0]

特征间的特征模板构建以F₁F₂为例，其特征模板如下：

U50:％x[0,0]/％x[0,1]

将步骤1和步骤2处理好的语料以及经过格式化的特征模板文件输入到条件随机场模型中，得到生物医学领域命名实体识别的条件随机场模型，并利用该模型对待识别的生物医学文本进行生物医学命名实体的识别，最终输出识别结果。

步骤4，从步骤3模型的输出标注结果中还原所识别的生物医学命名实体。若当前单词W₀被标注为S，则表示该单词为单个单词的生物医学命名实体；若当前单词W₀被标注为B，则表示该单词为一个命名实体的首个单词；下一个单词W₁若被标注为E，则表示该单词为一个实体的末尾单词，则W₀W₁共同构成命名实体；若W₁被标注为I，则继续判断下一个单词W₂，直到单词W_i被标注为E，则W₀W₁…W₀共同构成命名实体。如果在W₀到W_i之间存在一个单词被标记为O，则舍弃该命名实体。按照以上方法，直到处理完输出文件内的全部内容，既可以得到从生物医学领域的文本中识别出的所有命名实体。

综上，本发明的基于通用语言特征的生物医学命名实体识别方法及系统，通过自动化的方法进行生物医学领域的命名实体识别。在进行模型标注时使用BIEOS标注方式对单词进行标注，在一定程度上提高了模型对命名实体边界的识别能力；在选择特征时，选择了非常通用但非常实用的单字特征、词干特征、词性特征和分块特征，使得模型有非常好的通用性，几乎可以适用所有的生物医学命名实体识别数据集；有效的对特征进行组合，使得模型拥有了非常不错的生物医学命名实体识别效果，如在数据集JNLPBA-2004上的F-值达到了77.63％，是目前所知的在该数据集上的最好识别效果；在线的生物医学命名实体识别系统使用方便，而且可以自由定制，可以满足不同用户的不同需求。

Claims

1.一种用于生物医学领域的命名实体识别方法，其特征在于，包括：

步骤1、对生物医学文本进行标注，给每个单词分配不同的标签，采用BIEOS进行标记；

步骤2、对生物医学文本进行预处理，对输入的生物医学文本中的每个单词进行通用语言特征抽取；

步骤3、选择上下文窗口大小，根据预处理的生物医学文本来构建特征模板；

步骤4、构建条件随机场模型，将经过步骤2得到的生物医学文本和步骤3所得到的特征模板输入条件随机场模型中进行训练，得到生物医学领域条件随机场模型，并利用该模型对待识别的生物医学文本中的生物医学命名实体进行标注，输出标注结果；

步骤5、从步骤4所得的标注结果中还原出所识别的生物医学命名实体；

步骤6、基于B/S架构的图形交互在线系统，在线进行生物医学文本的命名实体识别。

2.根据权利要求1所述的方法，其中，对生物医学文本进行标注，给每个单词分配不同的标签，采用BIEOS进行标记，其特征在于，包括：

BIEOS标记计划：

表一

当命名实体中含有多个单词时：使用B(Begin)标签标注该命名实体的首个单词，使用I(Inside)标签标注该命名实体中间的单词，使用E(End)标签来标注该命名实体的末尾单词；

当命名实体仅包含一个单词时：使用S(Single)标签来标注该命名实体的单词；

当单词为非实体单词时：采用O(Other)标签来标注非实体单词；

标签的个数为5，使用tag_n来表示。

3.根据权利要求1所述的方法，对生物医学文本进行预处理，对输入的生物医学文本中的每个单词进行通用语言特征抽取，其特征在于，包括：

对生物医学文本进行分句；

对生物医学文本中的单词进行词干提取，去除单词词缀抽取单词的词根；

对生物医学文本中的单词进行词性标注，标注出文本中每个单词的词性；

对生物医学文本中的单词进行短语块提取，将文本中的单词按照短句进行分块。

4.根据权利要求1所述的方法，根据预处理的生物医学文本来构建特征模板，其特征在于：使用通用语言特征：单词、词干、词性、分块及其组合特征构建通用语言特征模型。

5.根据权利要求1所述的方法，基于B/S架构的图形交互在线系统，在线进行生物医学文本的命名实体识别，其特征在于：用户输入生物医学文本，并指定需要识别的生物医学命名实体类别，系统将自动对文本进行生物医学命名实体的标注与识别；具体可识别的生物医学命名实体的类别为，Disease：疾病，Chemical：化学物，DNA：脱氧核糖核酸，RNA：核糖核酸，Protein：蛋白质，Cell_line：细胞系，Cell_type：细胞类型，Gene：基因；用户可选择一个或者多个进行生物医学命名实体类别来进行识别，并输出标注好的单词，用户可以进行数据分析或者打印使用；此外，用户还可以自己训练所需的模型，只需要用户上传标注好的生物医学文本数据，系统会自动完成特征的抽取和模型的训练，供用户识别用户指定的命名实体类。