CN105404632B

CN105404632B - 基于深度神经网络对生物医学文本序列化标注的系统和方法

Info

Publication number: CN105404632B
Application number: CN201410468606.8A
Authority: CN
Inventors: 姚霖; 刘轶; 刘宏
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date: 2014-09-15
Filing date: 2014-09-15
Publication date: 2020-07-31
Anticipated expiration: 2034-09-15
Also published as: CN105404632A

Abstract

本发明提供了一种基于深度神经网络对生物医学文本序列化标注的系统和方法，其系统包括：练模块，用于获取含有已知标注序列的标准数据，输入至基于深度神经网络模型构建的神经元网络模块中，转化生成所述标准数据对应的概率词标注网格，该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径，基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数，获得训练后的神经元网络模块。可解决现有技术中关于生物医学名实体识别费时费力、适用性差的问题。

Description

基于深度神经网络对生物医学文本序列化标注的系统和方法

技术领域

本发明涉及自然语言处理领域的学习方法，特别是涉及生物医学领域的一种基于深度神经网络对生物医学文本序列化标注的系统和方法。

背景技术

蕴含在生物医学文献中的知识对生物医学的医疗实践、教学和科研都有重要的意义。研究人员可以利用不同文献中的研究成果，来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。例如建设与特定疾病如乳腺癌、糖尿病等相关的蛋白质作用关系数据库。数据库描述的蛋白质作用网络将有利于药物设计等医学上的研究，促进相关生物医学研究的进展。出版物的巨大数量使得人们在海量的文献集中发现和获取这些有用的信息变得愈加困难，对于如此巨大数量的信息(特别是那些跨学科的知识)，仅仅凭借专业研究人员的个人能力是根本无法达到满意效果的。因此，针对海量生物医学文献的知识挖掘工具成为相关研究人员的迫切需要，而信息抽取技术是进行知识挖掘的必要步骤。

此外，还有很多专门的生物医学数据库需要从文献中收集相关的知识。将知识从无结构的文本中收集并存储到有结构的数据库中，有利于保持数据的一致性，方便用户的查询和使用，还可以在此基础上运用数据挖掘技术来发现新的知识。目前，这些收集工作主要是由人工来完成的。相对于文献数量的飞速增长，人工收集信息的方式显得越来越力不从心。因此，利用信息抽取技术来实现自动或半自动的信息收集方式就显得非常必要。作为信息抽取技术的基础，生物医学名实体的识别有着至关重要的地位。生物医学名实体识别是生物医学信息处理的一个重要的初始步骤。用于识别的实体和它们之间的相互作用，这是基本的技术。但是生物医学名实体识别比通常文本的名实体识别更加困难，例如该问题有着极不规则的表达方式、难以区分的界限以及每天都会有新词增加，一些词语消失等特点。

许多监督学习技术已被用于解决生物医学命名实体识别问题，如HMM(隐马尔可夫模型)，MEMMs(最大熵马尔可夫模型)，SVM(支持向量机)，和CRF(条件随机场)。CRF是用于解决生物医学实体识别的解决。然而，上述方法往往需要构建大型词典或者通过人工根据任务的不同构建特定的特征模板或者集成、堆叠不同的训练方法的方法来实现。信息处理系统不仅费时费力，对于人员的专业背景也有一定的要求，而且适用性也较差，往往对于不同领域的文献，需要构建不同的词典或者开发不同的特征模板。

发明内容

基于此，有必要针对现有技术中关于生物医学名实体识别根据不同任务构建不同的特征模板费时费力、适用性差的问题，提供一种基于深度神经网络对生物医学文本序列化标注的系统和方法。

一种基于深度神经网络对生物学文本序列化标注的系统，其包括：

训练模块，用于获取含有已知标注序列的标准数据，输入至基于深度神经网络模型构建的神经元网络模块中，转化生成所述标准数据对应的概率词标注网格，该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径，基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数，获得训练后的神经元网络模块；

测试模块，用于获取待标注的文本数据，输入至所述训练后的神经元网络模块中，转化生成所述文本数据对应的概率词标注网格，该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于所述确定后的转移系数计算获得的标签路径，从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。

在其中一个实施例中，所述神经元网络模块至少包括：

用于构建进行线性变换的第一线性变化层的第一单元；

用于执行调用卷积神经网络激励函数实现正弦变换层的第二单元；

用于构建进行线性变换的第二线性变化层的第三单元；

输入的数据依次通过所述第一单元、所述第二单元、和所述第三单元进行逐层计算抽象后获得所述概率词标注网格。

在其中一个实施例中，所述神经元网络模块还包括：

语素抽取单元，用于从输入的数据中提取语素；

特征向量生成单元，用于将提取的语素映射到预存的生物医学类词典矩阵中，生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量，用以转化生成所述概率词标注网格。

在其中一个实施例中，所述生物医学类词典矩阵为：通过将未标注的生物医学文本逐一提取语素和该语素位置属性，输入至所述神经元网络模块中进行训练，获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。

在其中一个实施例中，所述语素抽取单元包括：

窗口输入单元，用于通过一预定长度的滑动窗口从输入数据中获取语素组；

信息组合单元，用于提取该语素组中当前位置为p的语素和该语素的相邻语素，生成所述语素与所述相邻语素具有的特征相互结合后的信息，用以输入至所述特征向量生成单元，所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示所述预定长度。

在其中一个实施例中，所述神经元网络模块还包括：

路径分析单元，用于将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分，获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。

基于上述系统结构，本发明提供一种基于深度神经网络对生物学文本序列化标注的方法，其包括：

获取含有已知标注序列的标准数据，输入至基于深度神经网络模型构建的神经元网络模块中，转化生成所述标准数据对应的概率词标注网格，该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径，基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数，获得训练后的神经元网络模块；

获取待标注的文本数据，输入至所述训练后的神经元网络模块中，转化生成所述文本数据对应的概率词标注网格，该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于所述确定后的转移系数计算获得的标签路径，从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。

在其中一个实施例中，在所述神经元网络模块中构建至少包含进行线性变换的第一线性变化层、调用卷积神经网络激励函数实现的正弦变换层、和进行线性变换的第二线性变化层的卷积神经元网络；输入的数据依次通过所述第一线性变化层、所述正弦变换层、和所述第二线性变化层进行逐层计算抽象后获得所述概率词标注网格。

在其中一个实施例中，所述神经元网络模块从输入的数据中提取语素，将提取的语素映射到预存的生物医学类词典矩阵中生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量，用以转化生成所述概率词标注网格。

在其中一个实施例中，所述神经元网络模块中通过以下步骤从输入的数据中提取语素：

通过一预定长度的滑动窗口从输入数据中获取语素组，提取该语素组中当前位置为p的语素和该语素的相邻语素，生成所述语素与所述相邻语素所具有的特征相互结合后的信息，用以生成所述特征向量，所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示所述预定长度。

在其中一个实施例中，所述神经元网络模块中在生成所述标签路径时，通过将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分，获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。

本发明提供一种基于深度神经元网络模块对生物医学文本进行识别的系统和方法，主要可以用于生物医学名实体的识别、或序列标注等信息处理方法上，本发明不同于绝大多数现有方法中构建大型词典或者大规模特征模板的方式，通过利用神经元网络模块自动抽取生物文本中包含的特征，再进一步的应用于深度的神经元网络模块，从而达到较高的识别率，不但减少了时间、空间上的花销，而且大大提高了识别系统的适用性和准确性。其主要涉及生物医学领域信息处理的学习，包括序列标注，名实体识别等。

附图说明

图1为本发明基于深度神经网络对生物医学文本序列化标注的系统的结构示意图；

图2为本发明系统中神经元网络模块的架构示意图；

图3为本发明神经元网络模块的另一实施例结构示意图；

图4为本发明神经元网络模块的又一实施例结构示意图；

图5为本发明基于深度神经网络对生物医学文本序列化标注的方法的最优实施例流程图。

具体实施方式

针对现有技术中关于生物医学名实体识别根据不同任务构建不同的特征模板费时费力、适用性差的问题，本发明提供一种基于深度神经元网络模块对生物医学文本进行识别的系统和方法，主要可以用于生物医学名实体的识别、或序列标注等信息处理方法上，以下结合各个实施例对本发明的具体实现方案进行详细的描述。

如图1所示，本实施例提供的一种基于深度神经网络对生物医学文本序列化标注的系统100包括：

训练模块110，用于获取含有已知标注序列的标准数据，输入至基于深度神经网络模型构建的神经元网络模块130中，转化生成标准数据对应的概率词标注网格(参见图2中第6个方框中的节点网格结构)，该概率词标注网格包含从标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数A_lj所计算得到的标签路径，基于标准数据中的已知标注序列配置上述神经元网络模块130中的转移系数A_lj和网络参数θ，获得训练后的神经元网络模块130，这里的网络参数θ是指基于深度神经网络模型构建的神经元网络模块130时的系统内部的基础参数集，这里的转移系数A_lj表示从标签l转化到标签j的标注间转化概率；

测试模块120，用于获取待标注的文本数据，输入至上述训练后的神经元网络模块130中，转化生成上述文本数据对应的概率词标注网格，该概率词标注网格包含从文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述已确定后的转移系数A_lj计算获得的标签路径，从文本数据对应的概率词标注网格中选择积分值最高的标签路径作为待标注的文本数据的标注序列用以输出。本实施例中在生成标签路径时，通过将当前时刻获得的语素对应的分类标注叠加一转移系数A_lj后在时间分量上积分，获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，这里的转移系数A_lj在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。

这里的语素定义为：自然语言中最小的富有特定含义的元素，比如英语中的单词(如presence、of、was、或2-M)，而语素组定义为多个语素组合形成用于表达特定含义的组合，比如英语中的一个完整的句子。本实施例中通过训练模块110配置神经元网络模块130中的转移系数A_lj和网络参数θ，然后再利用配置后获得的训练后的神经元网络模块130对待标注的文本数据进行处理，获得标注序列。基于深度神经网络模型在获得的概率词标注网格中搜索积分值最高的标签路径作为输出，定义为神经网络的深度，在这一搜索的过程中利用维特比算法(即viterbi算法)获得输出的标注序列。

在上述系统中引入了基于深度神经网络模型构建的神经元网络模块130，对于神经元网络模块130来说，如果神经元网络模块130输入的是单个语素(即一个词)，则输出的概率词标注网格则记录该词对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径；如果神经元网络模块130输入的是语素组(即一个句子)，则依次将语素组中提取的各个语素对应的数据分别输入至神经元网络模块130中，输出的概率词标注网格则记录该语素组中各个语素对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径，网格中的每一列用来记录一个语素对应的所有分类标注的集合及该词对应该分类标注的概率，网格中的多列按照语素输入神经元网络模块130的时间顺序进行排列。比如，在本实施例中，针对语素组(即一个句子)中每一个语素(即词)及其位置属性都会转化为相应的特征向量，一个一个分别输入到神经元网络模块130进行处理后，之后就会获得如图2中第6个方框的节点网格结构，时间t对应的标签序列，即表示当前位置为p的语素及其位置属性生成的特征向量经过神经元网络模块130进行处理后输出的当前位置为p的语素对应的所有分类标注的集合和该语素对应该分类标注的概率，则时间t-1、时间t-2、时间t+1分别表示神经元网络模块130处理的前两个语素、和后一个语素对应的特征向量的输出结果，然后按照神经元网络模块130输出结果的时间顺序排列生成图2中第6个方框中的概率词标注网格。本实施例正是基于由深度神经网络模型构建的神经元网络模块130来实现对生物医学文本序列化的标注，从而大大提高了识别系统的适用性和准确性、以及识别的速度。

基于上述实施例，如图1和图2所示，本实施例基于深度神经网络模型构建了一个相对简单的神经元网络架构，即神经元网络模块130至少包括：

用于构建进行线性变换的第一线性变化层的第一单元133；

用于执行调用卷积神经网络激励函数实现正弦变换层的第二单元134；

用于构建进行线性变换的第二线性变化层的第三单元135；

输入的数据依次通过上述第一单元133、上述第二单元134、和上述第三单元135进行逐层计算抽象后获得上述概率词标注网格。

本实施例的神经元网络模块130基于以下公式(1)的模型建立，

f(x)＝W²g(W¹x+b¹)+b² 公式(1)

其中，x表示输入，

为一个表示神经元网络两层间连接强度的H×DK矩阵，

表示与W¹对应的偏差长度为1×H的向量，

为一个表示神经元网络两层间连接强度的|L|×H矩阵，

表示与W²对应的偏差长度为1×|L|的向量。

基于上述公式(1)，上述第一单元133执行W¹(.)+b¹＝W¹x+b¹的第一线性变化层(如图2中第3个方框)，然后将第一单元133的处理结果输入上述第二单元134中执行调用卷积神经网络激励函数(Sigmoid函数)的计算(如图2中第4个方框)，其次利用第三单元135对第二单元134的结果再进行一次线性变换(如图2中第5个方框)，即W²(.)+b²＝W²x′+b²，x′表示Sigmoid函数的输出结果，这就是本实施中神经元网络的核心处理部分，目的在于利用神经元网络生成概率词标注网格结构。

基于上述公式(1)构建的神经元网络模块130的输出作为分类器使用，用以输出语素对应的所有分类标注的集合和该语素对应该分类标注的概率，可以定义其可分辨n^N类，用f(x,l,θ)来描述当前语素对应其所在的语素组(以下将讲到通过滑动窗口提取语素组及其中单个语素)被标注为第l个标签的分值，用条件概率p(l|x,θ)解释f(x,l,θ)，用以表示语素对应该分类标注的概率。为了使这些条件概率有效，利用softmax回归运算对它们进行标准化，表示为下述公式(2)。

其中，j表示n^N类的序号，f(x,l,θ)表示当前语素对应其所在的语素组(以下将讲到通过滑动窗口提取语素组及其中单个语素)被标注为第l个标签的分值，标签l的取值范围是l∈{1,2,…,m}，θ表示神经元网络模块130中可被训练的网络参数集，即上述提到的神经元网络模块130的网络参数，x表示神经元网络模块130的输入。

基于上述实施例，如图3所示，本实施例中上述神经元网络模块130还包括：

路径分析单元139，用于将当前时刻获得的语素对应的分类标注叠加一转移系数A_lj后在时间分量上积分，获得在概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，这里的转移系数A_lj在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率，具体参见下述公式(3)的说明。

本实施例用于序列标注任务时，生物医学名实体识别需要考虑每个标签路径的整体积分，在同一个句子里的标签之间存在某种依赖关系。例如，某一类名实体的左边界词后面不可能紧接着出现另外一类名实体的内部词。因此，输出结果不仅和句子里的词语有关也必须考虑标签间的依赖关系。所以，本实施例中在构建概率词标注网格的路径时需要考虑两个部分，一个是前面提到的对应于当前语素每个标签的分值，另外一部分是表征分类标注转移分值量的转移系数A_lj，用来描述标签l到标签j的标注间转化概率。用

表示包括分类标注转移分值量A_lj和系统变量θ(即上述提到的网络参数集θ)在内的全部参数集合。

对于一个句子x_[1:T]，其构成的概率词标注网格中的标签路径l_[1:T]的积分可以表示为下述公式：

其中，S(.)表示标签路径的总分，即在标注概率词网格中某一条路径的总分；T表示数据采集时间分量；

表示时间t-1对应获取的标签分值l_t-1到时间t对应获取的标签分值l_t的标注间转化概率；x_{[(t-(k-1)/2):(t+(k-1)/2)]}表示T时间内通过滑动窗口采集的预定长度k的语素组中各个语素对应的特征向量；T表示采样时间；t为时间变量。

基于上述实施例，如图4和图2所示，本实施例中的神经元网络模块130还包括：

语素抽取单元131，用于从输入的数据中提取单个语素，比如图2中第1个方框；

特征向量生成单元132，用于将提取的语素映射到预存的生物医学类词典矩阵M中生成匹配神经元网络模块130输入数据长度且含有语素所有分类关系规律的特征向量，用以利用神经元网络转化生成所述概率词标注网格，比如图2中第2个方框。而这里的生物医学类词典矩阵M是通过将未标注的生物医学文本逐一提取语素和该语素位置属性，输入至神经元网络模块130中进行训练，获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。

本实施例与传统方法直接采用字和信息作为特征不同，本实施例的神经元网络模块130的输入是每个语素(即词)所对应的词向量，而这些词向量是神经元网络通过对大量未标注的数据进行学习，从中抽取每个词的相应特征，并构建了相应的词向量词典A，其被存储在矩阵

中，D表示每一个语素对应的维度为D的特征向量，通过词向量词典A映射获得的词向量输入并不带有传统方法中的随机性，是的输出的结果更加可控，精度更高。

在本实施例的语素抽取单元131中还可以通过滑动窗口提取特定长度的输入，使得对神经元网络的输入进行了一定的控制，便于利用神经元网络进行计算时减轻运算的负荷，提高计算效率。具体的，如图4所示，上述语素抽取单元131可以包括以下单元：

窗口输入单元1311，用于通过一预定长度k的滑动窗口从输入数据中获取语素组；

信息组合单元1312，用于提取该语素组中当前位置为p的语素和该语素的相邻语素，生成当前位置语素与其相邻语素具有的特征相互结合后的信息，用以输入至上述特征向量生成单元132映射为定长的特征向量，上述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示上述预定长度。

在本实施例中，通过滑动窗口可以获得一个句子的所有语素以及其与相邻语素之间的位置关系属性，并通过映射在词向量词典A中获得每一个语素对应的一个维数为D的特征向量，于是文本中的词对应预存的生物医学类词典矩阵M，再结合滑动窗口的提取就转化为经典卷积神经元网络模块(CNN，Convolutional Neural Network)的固定长度的输入。由于句子的长度是可变的，但经典卷积神经元网络模块的输入是固定的，因此选择滑动窗口的方法提取文本，窗口大小被人工设定为预定长度k，k的选择影响系统的精度，这是由于采用滑动窗口大小确定了系统将考虑当前词和多少相邻的词之间的依赖信息。

通过将未标注的生物医学文本逐一提取语素(即单词)和该语素位置属性后生成词典A，再结合图2和4中的滑动窗口转化为固定长度的D维特征向量输入至上述神经元网络模块130中进行训练，输出结果为生物医学类词典矩阵数据，被存储在矩阵

中，D表示每一个语素对应的维度为D的特征向量，A表示利用未标注的生物医学文本逐一提取语素及其位置属性的集合。通常情况下单词的词汇是有限的，由此产生的词向量文件也可以作为特征在其他生物医学信息处理和机器学习的应用，矩阵数据M在随机初始化的基础上，通过利用大量未标记的生物医学文本文件在卷积神经元网络模块上训练得到。上述语素抽取单元131中提取输入数据中的语素组及该语素组中各个语素之间的位置属性，获得每一个语素对应的词向量文件，其用V_W ⁱ表示，其中i＝1,……,n，i对应表示语素提取的序号，将每一个语素对应的词向量文件通过生物医学类词典矩阵数据映射后获得D维特征向量，表示为MV_W ⁱ，其中i＝1,……,n，输入的句子对应的特征向量的集合即表示为图2中第2个方框中的矩阵形式，其中每一行表示单个语素对应的D维特征向量，整个矩阵形式可以构成一个句子的特征向量组合，那么将这样一句话对应的特征向量输入至神经元网络模块130后输出的将是整句话对应的概率词标注网格，其包含该句子中各个词对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径，如图2所示的第6个方框中的节点网格结构所示，在此输出的概率词标注网格中的每一列用来记录一个词对应的所有分类标注的集合及该词对应该分类标注的概率，此概率词标注网格中的多列按照语素输入神经元网络模块130的时间顺序进行排列。

基于上述各个实施例提供的基于深度神经网络对生物学文本序列化标注的系统，本实施例提供了一种基于深度神经网络对生物学文本序列化标注的方法，其包括以下步骤：

对神经元网络模块130进行训练的步骤：获取含有已知标注序列的标准数据，输入至基于深度神经网络模型构建的神经元网络模块130中，转化生成上述上述标准数据对应的概率词标注网格，该概率词标注网格包含从上述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径，基于上述已知标注序列配置上述神经元网络模块中的上述转移系数和网络参数，获得训练后的神经元网络模块；

对神经元网络模块130进行测试的步骤：获取待标注的文本数据，输入至上述训练后的神经元网络模块130中，转化生成上述文本数据对应的概率词标注网格，该概率词标注网格包含从上述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述确定后的转移系数计算获得的标签路径，从上述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为上述文本数据的标注序列用以输出。上述神经元网络模块130利用随机梯度上升法被训练。而在对神经元网络模块130进行测试的步骤中通过viterbi算法在概率词标注网格中搜索标签路径。

基于上述方法，如图2所示，通过向神经元网络模块130输入语素对应的数据输入后，获得例如图2所示的概率词标注网格结构时，上述神经元网络模块130中在生成上述标签路径时，通过将当前时刻获得的语素对应的分类标注叠加一上述转移系数后在时间分量上积分，获得在上述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，上述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率，具体参见上述公式(3)的相关说明。

在对神经元网络模块130进行训练的过程中，主要采用随机梯度上升法，利用训练集Γ，根据输入数据计算最大似然率

选择能使最大似然率

取最大值的标签作为语素对应该分类标注的概率。这里的训练集Γ＝(x,y)即含有已知标注序列y的标准数据，用训练集Γ输入神经元网络模块130时，则上述公式中已知标注序列y和输入x均为已知，即可获知神经元网络模块130中的网络参数θ。

基于上述过程中引入了上述公式(3)计算标签路径

则同样采用随机梯度上升法，利用训练集Γ(即含有已知标注序列y的标准数据)，根据输入数据计算最大似然率

基于训练集中已知的标注序列y即可获知神经元网络模块130中的

即包括转移系数A_lj和网络参数θ，用以配置神经元网络模块130，获得训练后的神经元网络模块130。

为了使神经元网络模块130的输出结果更加贴近真实结果，则在利用标准数据对神经元网络模块130进行训练时引入一个以e为底的指数函数作为指令操作log-add，结合极大似然估计法对神经元网络模块130的输出结果进行估计，以求在基于训练集Γ获得系统参数集

时更加精确。当指令操作log-add为正值时，则表示卷积神经元网络模块120的输出为可取。具体参见下述说明。

采用随机梯度上升法，利用训练集Γ(即含有已知标注序列y的标准数据)，根据输入数据x计算能使最大似然率

取最大值的结果，基于训练集中已知的标注序列y_[1:T]和输入x_[1:T]，获得系统参数集

即包括转移系数A_lj和系统变量θ。具体见下述公式(4)，引入以e为底的指数函数作为指令操作log-add的对数似然函数表示为如下公式(4)。

其中，y_[1:T]表示1到t时刻真实的标记路径；x_[1:T]表示输入的句子(即语素组)对应的特征向量；

表示系统参数集合，其包括分类标注转移分值量A_lj和系统变量θ；

表示基于已知标注序列y的标准数据(即训练集Γ)、利用公式(3)计算获得的真实标签路径；

表示利用公式(3)计算的预测标签总分，l_[1:T]表示1到t时刻根据公式(3)被标注的标签路径；T表示采样时间。

上述公式(4)的评估计算可以用于上述各个实施例中的对神经元网络模块130进行训练的过程中。

基于上述方法，如图2所示，本实施例的最优方案是，基于以下三层结构的神经元网络设计，具体是，在上述神经元网络模块中构建至少包含进行线性变换的第一线性变化层(如图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(如图2中的第4方框)、和进行线性变换的第二线性变化层(如图2中的第5方框)的卷积神经元网络；输入的数据依次通过上述第一线性变化层、上述正弦变换层、和上述第二线性变化层进行逐层计算抽象后获得上述概率词标注网格。

基于上述方法，如图2所示，本实施例的上述神经元网络模块130从输入的数据中提取语素，将提取的语素映射到预存的生物医学类词典矩阵中生成匹配上述神经元网络模块输入数据长度且含有上述语素所有分类关系规律的特征向量，用以转化生成上述概率词标注网格。这里的生物医学类词典矩阵为：通过将未标注的生物医学文本逐一提取语素和该语素位置属性，输入至上述神经元网络模块130中进行训练，获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。

基于上述实施例，本实施例中的上述神经元网络模块130中通过以下步骤从输入的数据中提取语素：

通过一预定长度的滑动窗口从输入数据中获取语素组，提取该语素组中当前位置为p的语素和该语素的相邻语素，生成上述语素与上述相邻语素所具有的特征相互结合后的信息，用以生成上述特征向量，上述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示上述预定长度。

基于上述各个实施例的系统结构和方法，本实施提供一最优实现方案。如图2所示，在本实施例中神经元网络模块130基于图2中第3方框的第一线性变化层、图2中第4方框的调用卷积神经网络激励函数实现的正弦变换层和图2中第5方框的进行线性变换的第二线性变化层之外，还提供图2中第1方框中的神经元层结构，用于从输入的数据中提取语素的特征提取层，其主要通过预定长度的滑动窗口从输入数据中获取语素组，提取该语素组中当前位置为p的语素和该语素的相邻语素(即在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素)，此外，还提供图2中第2方框中的特征向量生成层，用于将提取的语素映射到预存的生物医学类词典矩阵中生成匹配上述神经元网络模块输入数据长度且含有上述语素所有分类关系规律的特征向量，用以转化生成上述概率词标注网格。具体的生物医学文本序列化标注方法如下所示，参见图5。

步骤301：生成生物医学类词典矩阵M。

将大量未标注的生物医学文本逐一提取语素(即词，以统一用词表示)和该语素位置属性，输入至上述神经元网络模块130中进行训练，获得的每一个词及该词标注的词及该词位置属性在生物医学类样本中学习到得词及词位置属性之间的分类关系规律，生成词典A，并存储在矩阵

中，获得生物医学类词典矩阵M，例如，在这里的词典中每个词都由600维的特征向量表示。

步骤302：开始对神经元网络模块130进行训练，输入含有已知标注序列的标准数据。

步骤303，通过一预定长度k的滑动窗口从标准数据中提取语素组(比如句子，以统一用句子表示)，以及该句子中当前位置为p的词和在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有词。

步骤304：通过生物医学类词典矩阵M映射生成句子对应的特征向量矩阵。将步骤303提取的所有词映射到步骤301获得的生物医学类词典矩阵M中，生成匹配上述神经元网络模块130输入数据长度且含有上述语素所有分类关系规律的多维特征向量D，这里的特征向量D由600维的特征向量表示，而一个句子中提取的词及其相邻的词被映射之后就获得了图2中第2个方框的矩阵结构，其中每一行可以表示一个词对应的多维特征向量D。

步骤305，分别将每一个词对应的多维特征向量D依次输入至神经元网络模块130中的第一线性变化层(图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(图2中的第4方框)和进行线性变换的第二线性变化层(图2中的第5方框)，获得每一个特征向量D的转化结果，即每一个词对应的对应的所有分类标注的集合、该词对应该分类标注的概率，这里的词对应该分类标注的概率用于上述公式(2)的条件概率表示。

步骤306，如图2所示的第6个方框获得一个句子对应的概率词标注网格。即按照时间处理的先后顺序排列每个词对应的特征向量D的转化结果，比如图2中第6个方框所示，时间t对应的标签序列，即表示当前位置为p的词及其位置属性生成的特征向量经过神经元网络模块130进行处理后输出的当前位置为p的词对应的所有分类标注的集合和该词对应该分类标注的概率，则时间t-1、时间t-2、时间t+1分别表示神经元网络模块130处理的前两个词、和后一个词对应的特征向量的输出结果，然后按照神经元网络模块130输出结果的时间顺序排列生成图2中第6个方框中的概率词标注网格。

在形成概率词标注网格时，参见上述公式(3)，通过将当前时刻获得的词对应的分类标注叠加一上述转移系数后在时间分量上积分，获得在上述概率词标注网格中关联词及该词分类标注之间关系的标签路径。

步骤307，基于上述已知标注序列配置上述神经元网络模块130中的上述转移系数和网络参数，获得训练后的神经元网络模块。具体参见上述公式(4)的相关说明，采用随机梯度上升法，利用训练集Γ(即含有已知标注序列y的标准数据)，根据输入数据x基于上述公式(4)计算能使最大似然率

取最大值的结果，基于训练集中已知的标注序列y获得系统参数集

即包括转移系数A_lj和系统变量θ。

步骤308，开始对神经元网络模块130进行测试，输入待标注的文本数据

步骤309，通过一预定长度k的滑动窗口提取待标注的文本数据中的句子及句子中的当前位置为p的词和在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有词。

步骤310，通过生物医学类词典矩阵M映射生成句子对应的特征向量矩阵。

步骤311，分别将每一个词对应的多维特征向量D依次输入至训练后的神经元网络模块130中的第一线性变化层(图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(图2中的第4方框)和进行线性变换的第二线性变化层(图2中的第5方框)，获得每一个特征向量D的转化结果，即每一个词对应的对应的所有分类标注的集合、该词对应该分类标注的概率，这里的词对应该分类标注的概率用上述公式(2)的条件概率表示。

步骤312，获得从待标注的文本数据中提取的句子所对应的概率词标注网格，该概率词标注网格包含从上述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述确定后的转移系数所计算得到的标签路径，具体见上述公式(3)。

步骤313，在上述概率词网络中，通过viterbi算法，搜索积分值最高的标签路径作为待标注的文本数据的标注序列用以输出，即输出的是使标签路径的总分S(.)分值最高的标签路径l_[1:T]。

通过查全率、查准率以及F评估值来评价本实施例上述方法的识别结果，可参见下表1所示。

表1.主要类别的识别结果

类别	查全率	查准率	F评估值
				protein	0.7927	0.7355	0.7630
cell_line	0.6342	0.6766	0.6547
				DNA	0.6462	0.6665	0.6562
cell_type	0.7815	0.6884	0.7320
				RNA	0.7003	0.7551	0.7267
Overall	0.7505	0.7134	0.7315

上述表格中，F评估值的计算如下述公式(5)所示。

F-score＝2Precision×Recall/(Precision+Recall) 公式(5)

上述公式中，Precision表示查准率，Recall表示查全率，F-score表示F评估值。其中，查全率＝检索到的相关/所有相关的；查准率＝检索到的相关/所有检索到的。

在本实施例中，根据生物医学名实体的要求，句子中的每个单词应该给予适当的标签，以表明该词是否是一个生物医学名实体。也就是说，识别系统的输入是句子、输出就是该句子中每个词的正确标签序列，即每个词及其对应的分类标注概率。神经元网络模块130提供了一个神经元网络模块架构，如图1和2所示，其主要通过三层网络架构的顺次传递训练实现对神经元网络模块的深度学习，在此过程中利用随机梯度上升法对神经元网络模块进行训练。本实施例的识别系统中，神经元网络模块的第一层实现对每个词所具有特征进行抽取，最终以输入的每个句子作为本地和全局结构的序列(而并非作为词袋bag ofwords)来抽取特征，接下来这些信息将会被输入到基于深度神经网络模型构建的神经元网络模块130中进行处理获得每个句子中相应单词的标签序列。

本发明提供的系统和方法可以用于生物医学名实体识别，其可以作为一种基于深度神经元网络模块的生物医学命名实体识别系统和方法，其与传统的机器学习方式不同的是，该系统不需要具有生物医学背景的人员来构建相关的特征模板，也不需要构建大规模的生物医学辞典，就能有效地实现生物医学名实体的识别。本发明的识别系统和方法免除了绝大多数生物医学名实体识别解决方法中都会涉及的耗时耗力的特征工程，借本发明不仅仅可以大大节省工作时间，提高工作效率，同时也提高了系统的适用性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度神经网络对生物医学文本序列化标注的系统，其特征在于，所述系统包括：

测试模块，用于获取待标注的文本数据，输入至所述训练后的神经元网络模块中，转化生成所述文本数据对应的概率词标注网格，该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于配置后的所述转移系数所计算得到的标签路径，从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。

2.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统，其特征在于，所述神经元网络模块至少包括：

用于构建进行线性变换的第一线性变化层的第一单元；

用于构建进行线性变换的第二线性变化层的第三单元；

3.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统，其特征在于，所述神经元网络模块还包括：

语素抽取单元，用于从输入的数据中提取语素；

4.根据权利要求3所述的基于深度神经网络对生物医学文本序列化标注的系统，其特征在于，所述语素抽取单元包括：

信息组合单元，用于提取该语素组中当前位置为p的语素和该语素的相邻语素，生成所述语素与所述相邻语素具有的特征相互结合后的信息，用以输入至特征向量生成单元，所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示所述预定长度。

5.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统，其特征在于，所述神经元网络模块还包括：

6.一种基于深度神经网络对生物医学文本序列化标注的方法，其特征在于，所述方法包括：

获取待标注的文本数据，输入至所述训练后的神经元网络模块中，转化生成所述文本数据对应的概率词标注网格，该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于配置后的所述转移系数所计算得到的标签路径，从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。

7.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法，其特征在于，在所述神经元网络模块中构建至少包含进行线性变换的第一线性变化层、调用卷积神经网络激励函数实现的正弦变换层、和进行线性变换的第二线性变化层的卷积神经元网络；输入的数据依次通过所述第一线性变化层、所述正弦变换层、和所述第二线性变化层进行逐层计算抽象后获得所述概率词标注网格。

8.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法，其特征在于，所述神经元网络模块从输入的数据中提取语素，将提取的语素映射到预存的生物医学类词典矩阵中生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量，用以转化生成所述概率词标注网格。

9.根据权利要求8所述的基于深度神经网络对生物医学文本序列化标注的方法，其特征在于，所述神经元网络模块中通过以下步骤从输入的数据中提取语素：

通过一预定长度的滑动窗口从输入数据中获取语素组，提取该语素组中当前位置为p的语素和该语素的相邻语素，生成所述语素与所述相邻语素所具有的特征相互结合后的信息，用以生成特征向量，所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素，其中k表示所述预定长度。

10.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法，其特征在于，所述神经元网络模块中在生成所述标签路径时，通过将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分，获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径，所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。