CN105404632B - 基于深度神经网络对生物医学文本序列化标注的系统和方法 - Google Patents

基于深度神经网络对生物医学文本序列化标注的系统和方法 Download PDF

Info

Publication number
CN105404632B
CN105404632B CN201410468606.8A CN201410468606A CN105404632B CN 105404632 B CN105404632 B CN 105404632B CN 201410468606 A CN201410468606 A CN 201410468606A CN 105404632 B CN105404632 B CN 105404632B
Authority
CN
China
Prior art keywords
neural network
morpheme
morphemes
probability
network module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410468606.8A
Other languages
English (en)
Other versions
CN105404632A (zh
Inventor
姚霖
刘轶
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Original Assignee
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PKU-HKUST SHENZHEN-HONGKONG INSTITUTION filed Critical PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority to CN201410468606.8A priority Critical patent/CN105404632B/zh
Publication of CN105404632A publication Critical patent/CN105404632A/zh
Application granted granted Critical
Publication of CN105404632B publication Critical patent/CN105404632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于深度神经网络对生物医学文本序列化标注的系统和方法,其系统包括:练模块,用于获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块中,转化生成所述标准数据对应的概率词标注网格,该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数,获得训练后的神经元网络模块。可解决现有技术中关于生物医学名实体识别费时费力、适用性差的问题。

Description

基于深度神经网络对生物医学文本序列化标注的系统和方法
技术领域
本发明涉及自然语言处理领域的学习方法,特别是涉及生物医学领域的一种基于深度神经网络对生物医学文本序列化标注的系统和方法。
背景技术
蕴含在生物医学文献中的知识对生物医学的医疗实践、教学和科研都有重要的意义。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。例如建设与特定疾病如乳腺癌、糖尿病等相关的蛋白质作用关系数据库。数据库描述的蛋白质作用网络将有利于药物设计等医学上的研究,促进相关生物医学研究的进展。出版物的巨大数量使得人们在海量的文献集中发现和获取这些有用的信息变得愈加困难,对于如此巨大数量的信息(特别是那些跨学科的知识),仅仅凭借专业研究人员的个人能力是根本无法达到满意效果的。因此,针对海量生物医学文献的知识挖掘工具成为相关研究人员的迫切需要,而信息抽取技术是进行知识挖掘的必要步骤。
此外,还有很多专门的生物医学数据库需要从文献中收集相关的知识。将知识从无结构的文本中收集并存储到有结构的数据库中,有利于保持数据的一致性,方便用户的查询和使用,还可以在此基础上运用数据挖掘技术来发现新的知识。目前,这些收集工作主要是由人工来完成的。相对于文献数量的飞速增长,人工收集信息的方式显得越来越力不从心。因此,利用信息抽取技术来实现自动或半自动的信息收集方式就显得非常必要。作为信息抽取技术的基础,生物医学名实体的识别有着至关重要的地位。生物医学名实体识别是生物医学信息处理的一个重要的初始步骤。用于识别的实体和它们之间的相互作用,这是基本的技术。但是生物医学名实体识别比通常文本的名实体识别更加困难,例如该问题有着极不规则的表达方式、难以区分的界限以及每天都会有新词增加,一些词语消失等特点。
许多监督学习技术已被用于解决生物医学命名实体识别问题,如HMM(隐马尔可夫模型),MEMMs(最大熵马尔可夫模型),SVM(支持向量机),和CRF(条件随机场)。CRF是用于解决生物医学实体识别的解决。然而,上述方法往往需要构建大型词典或者通过人工根据任务的不同构建特定的特征模板或者集成、堆叠不同的训练方法的方法来实现。信息处理系统不仅费时费力,对于人员的专业背景也有一定的要求,而且适用性也较差,往往对于不同领域的文献,需要构建不同的词典或者开发不同的特征模板。
发明内容
基于此,有必要针对现有技术中关于生物医学名实体识别根据不同任务构建不同的特征模板费时费力、适用性差的问题,提供一种基于深度神经网络对生物医学文本序列化标注的系统和方法。
一种基于深度神经网络对生物学文本序列化标注的系统,其包括:
训练模块,用于获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块中,转化生成所述标准数据对应的概率词标注网格,该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数,获得训练后的神经元网络模块;
测试模块,用于获取待标注的文本数据,输入至所述训练后的神经元网络模块中,转化生成所述文本数据对应的概率词标注网格,该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于所述确定后的转移系数计算获得的标签路径,从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。
在其中一个实施例中,所述神经元网络模块至少包括:
用于构建进行线性变换的第一线性变化层的第一单元;
用于执行调用卷积神经网络激励函数实现正弦变换层的第二单元;
用于构建进行线性变换的第二线性变化层的第三单元;
输入的数据依次通过所述第一单元、所述第二单元、和所述第三单元进行逐层计算抽象后获得所述概率词标注网格。
在其中一个实施例中,所述神经元网络模块还包括:
语素抽取单元,用于从输入的数据中提取语素;
特征向量生成单元,用于将提取的语素映射到预存的生物医学类词典矩阵中,生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量,用以转化生成所述概率词标注网格。
在其中一个实施例中,所述生物医学类词典矩阵为:通过将未标注的生物医学文本逐一提取语素和该语素位置属性,输入至所述神经元网络模块中进行训练,获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。
在其中一个实施例中,所述语素抽取单元包括:
窗口输入单元,用于通过一预定长度的滑动窗口从输入数据中获取语素组;
信息组合单元,用于提取该语素组中当前位置为p的语素和该语素的相邻语素,生成所述语素与所述相邻语素具有的特征相互结合后的信息,用以输入至所述特征向量生成单元,所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示所述预定长度。
在其中一个实施例中,所述神经元网络模块还包括:
路径分析单元,用于将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分,获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。
基于上述系统结构,本发明提供一种基于深度神经网络对生物学文本序列化标注的方法,其包括:
获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块中,转化生成所述标准数据对应的概率词标注网格,该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数,获得训练后的神经元网络模块;
获取待标注的文本数据,输入至所述训练后的神经元网络模块中,转化生成所述文本数据对应的概率词标注网格,该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于所述确定后的转移系数计算获得的标签路径,从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。
在其中一个实施例中,在所述神经元网络模块中构建至少包含进行线性变换的第一线性变化层、调用卷积神经网络激励函数实现的正弦变换层、和进行线性变换的第二线性变化层的卷积神经元网络;输入的数据依次通过所述第一线性变化层、所述正弦变换层、和所述第二线性变化层进行逐层计算抽象后获得所述概率词标注网格。
在其中一个实施例中,所述神经元网络模块从输入的数据中提取语素,将提取的语素映射到预存的生物医学类词典矩阵中生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量,用以转化生成所述概率词标注网格。
在其中一个实施例中,所述神经元网络模块中通过以下步骤从输入的数据中提取语素:
通过一预定长度的滑动窗口从输入数据中获取语素组,提取该语素组中当前位置为p的语素和该语素的相邻语素,生成所述语素与所述相邻语素所具有的特征相互结合后的信息,用以生成所述特征向量,所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示所述预定长度。
在其中一个实施例中,所述神经元网络模块中在生成所述标签路径时,通过将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分,获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。
本发明提供一种基于深度神经元网络模块对生物医学文本进行识别的系统和方法,主要可以用于生物医学名实体的识别、或序列标注等信息处理方法上,本发明不同于绝大多数现有方法中构建大型词典或者大规模特征模板的方式,通过利用神经元网络模块自动抽取生物文本中包含的特征,再进一步的应用于深度的神经元网络模块,从而达到较高的识别率,不但减少了时间、空间上的花销,而且大大提高了识别系统的适用性和准确性。其主要涉及生物医学领域信息处理的学习,包括序列标注,名实体识别等。
附图说明
图1为本发明基于深度神经网络对生物医学文本序列化标注的系统的结构示意图;
图2为本发明系统中神经元网络模块的架构示意图;
图3为本发明神经元网络模块的另一实施例结构示意图;
图4为本发明神经元网络模块的又一实施例结构示意图;
图5为本发明基于深度神经网络对生物医学文本序列化标注的方法的最优实施例流程图。
具体实施方式
针对现有技术中关于生物医学名实体识别根据不同任务构建不同的特征模板费时费力、适用性差的问题,本发明提供一种基于深度神经元网络模块对生物医学文本进行识别的系统和方法,主要可以用于生物医学名实体的识别、或序列标注等信息处理方法上,以下结合各个实施例对本发明的具体实现方案进行详细的描述。
如图1所示,本实施例提供的一种基于深度神经网络对生物医学文本序列化标注的系统100包括:
训练模块110,用于获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块130中,转化生成标准数据对应的概率词标注网格(参见图2中第6个方框中的节点网格结构),该概率词标注网格包含从标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数Alj所计算得到的标签路径,基于标准数据中的已知标注序列配置上述神经元网络模块130中的转移系数Alj和网络参数θ,获得训练后的神经元网络模块130,这里的网络参数θ是指基于深度神经网络模型构建的神经元网络模块130时的系统内部的基础参数集,这里的转移系数Alj表示从标签l转化到标签j的标注间转化概率;
测试模块120,用于获取待标注的文本数据,输入至上述训练后的神经元网络模块130中,转化生成上述文本数据对应的概率词标注网格,该概率词标注网格包含从文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述已确定后的转移系数Alj计算获得的标签路径,从文本数据对应的概率词标注网格中选择积分值最高的标签路径作为待标注的文本数据的标注序列用以输出。本实施例中在生成标签路径时,通过将当前时刻获得的语素对应的分类标注叠加一转移系数Alj后在时间分量上积分,获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,这里的转移系数Alj在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。
这里的语素定义为:自然语言中最小的富有特定含义的元素,比如英语中的单词(如presence、of、was、或2-M),而语素组定义为多个语素组合形成用于表达特定含义的组合,比如英语中的一个完整的句子。本实施例中通过训练模块110配置神经元网络模块130中的转移系数Alj和网络参数θ,然后再利用配置后获得的训练后的神经元网络模块130对待标注的文本数据进行处理,获得标注序列。基于深度神经网络模型在获得的概率词标注网格中搜索积分值最高的标签路径作为输出,定义为神经网络的深度,在这一搜索的过程中利用维特比算法(即viterbi算法)获得输出的标注序列。
在上述系统中引入了基于深度神经网络模型构建的神经元网络模块130,对于神经元网络模块130来说,如果神经元网络模块130输入的是单个语素(即一个词),则输出的概率词标注网格则记录该词对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径;如果神经元网络模块130输入的是语素组(即一个句子),则依次将语素组中提取的各个语素对应的数据分别输入至神经元网络模块130中,输出的概率词标注网格则记录该语素组中各个语素对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径,网格中的每一列用来记录一个语素对应的所有分类标注的集合及该词对应该分类标注的概率,网格中的多列按照语素输入神经元网络模块130的时间顺序进行排列。比如,在本实施例中,针对语素组(即一个句子)中每一个语素(即词)及其位置属性都会转化为相应的特征向量,一个一个分别输入到神经元网络模块130进行处理后,之后就会获得如图2中第6个方框的节点网格结构,时间t对应的标签序列,即表示当前位置为p的语素及其位置属性生成的特征向量经过神经元网络模块130进行处理后输出的当前位置为p的语素对应的所有分类标注的集合和该语素对应该分类标注的概率,则时间t-1、时间t-2、时间t+1分别表示神经元网络模块130处理的前两个语素、和后一个语素对应的特征向量的输出结果,然后按照神经元网络模块130输出结果的时间顺序排列生成图2中第6个方框中的概率词标注网格。本实施例正是基于由深度神经网络模型构建的神经元网络模块130来实现对生物医学文本序列化的标注,从而大大提高了识别系统的适用性和准确性、以及识别的速度。
基于上述实施例,如图1和图2所示,本实施例基于深度神经网络模型构建了一个相对简单的神经元网络架构,即神经元网络模块130至少包括:
用于构建进行线性变换的第一线性变化层的第一单元133;
用于执行调用卷积神经网络激励函数实现正弦变换层的第二单元134;
用于构建进行线性变换的第二线性变化层的第三单元135;
输入的数据依次通过上述第一单元133、上述第二单元134、和上述第三单元135进行逐层计算抽象后获得上述概率词标注网格。
本实施例的神经元网络模块130基于以下公式(1)的模型建立,
f(x)=W2g(W1x+b1)+b2 公式(1)
其中,x表示输入,
Figure GDA0002461997640000081
为一个表示神经元网络两层间连接强度的H×DK矩阵,
Figure GDA0002461997640000082
表示与W1对应的偏差长度为1×H的向量,
Figure GDA0002461997640000083
为一个表示神经元网络两层间连接强度的|L|×H矩阵,
Figure GDA0002461997640000084
表示与W2对应的偏差长度为1×|L|的向量。
基于上述公式(1),上述第一单元133执行W1(.)+b1=W1x+b1的第一线性变化层(如图2中第3个方框),然后将第一单元133的处理结果输入上述第二单元134中执行调用卷积神经网络激励函数(Sigmoid函数)的计算(如图2中第4个方框),其次利用第三单元135对第二单元134的结果再进行一次线性变换(如图2中第5个方框),即W2(.)+b2=W2x′+b2,x′表示Sigmoid函数的输出结果,这就是本实施中神经元网络的核心处理部分,目的在于利用神经元网络生成概率词标注网格结构。
基于上述公式(1)构建的神经元网络模块130的输出作为分类器使用,用以输出语素对应的所有分类标注的集合和该语素对应该分类标注的概率,可以定义其可分辨nN类,用f(x,l,θ)来描述当前语素对应其所在的语素组(以下将讲到通过滑动窗口提取语素组及其中单个语素)被标注为第l个标签的分值,用条件概率p(l|x,θ)解释f(x,l,θ),用以表示语素对应该分类标注的概率。为了使这些条件概率有效,利用softmax回归运算对它们进行标准化,表示为下述公式(2)。
Figure GDA0002461997640000085
其中,j表示nN类的序号,f(x,l,θ)表示当前语素对应其所在的语素组(以下将讲到通过滑动窗口提取语素组及其中单个语素)被标注为第l个标签的分值,标签l的取值范围是l∈{1,2,…,m},θ表示神经元网络模块130中可被训练的网络参数集,即上述提到的神经元网络模块130的网络参数,x表示神经元网络模块130的输入。
基于上述实施例,如图3所示,本实施例中上述神经元网络模块130还包括:
路径分析单元139,用于将当前时刻获得的语素对应的分类标注叠加一转移系数Alj后在时间分量上积分,获得在概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,这里的转移系数Alj在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率,具体参见下述公式(3)的说明。
本实施例用于序列标注任务时,生物医学名实体识别需要考虑每个标签路径的整体积分,在同一个句子里的标签之间存在某种依赖关系。例如,某一类名实体的左边界词后面不可能紧接着出现另外一类名实体的内部词。因此,输出结果不仅和句子里的词语有关也必须考虑标签间的依赖关系。所以,本实施例中在构建概率词标注网格的路径时需要考虑两个部分,一个是前面提到的对应于当前语素每个标签的分值,另外一部分是表征分类标注转移分值量的转移系数Alj,用来描述标签l到标签j的标注间转化概率。用
Figure GDA0002461997640000091
表示包括分类标注转移分值量Alj和系统变量θ(即上述提到的网络参数集θ)在内的全部参数集合。
对于一个句子x[1:T],其构成的概率词标注网格中的标签路径l[1:T]的积分可以表示为下述公式:
Figure GDA0002461997640000092
其中,S(.)表示标签路径的总分,即在标注概率词网格中某一条路径的总分;T表示数据采集时间分量;
Figure GDA0002461997640000093
表示时间t-1对应获取的标签分值lt-1到时间t对应获取的标签分值lt的标注间转化概率;x[(t-(k-1)/2):(t+(k-1)/2)]表示T时间内通过滑动窗口采集的预定长度k的语素组中各个语素对应的特征向量;T表示采样时间;t为时间变量。
基于上述实施例,如图4和图2所示,本实施例中的神经元网络模块130还包括:
语素抽取单元131,用于从输入的数据中提取单个语素,比如图2中第1个方框;
特征向量生成单元132,用于将提取的语素映射到预存的生物医学类词典矩阵M中生成匹配神经元网络模块130输入数据长度且含有语素所有分类关系规律的特征向量,用以利用神经元网络转化生成所述概率词标注网格,比如图2中第2个方框。而这里的生物医学类词典矩阵M是通过将未标注的生物医学文本逐一提取语素和该语素位置属性,输入至神经元网络模块130中进行训练,获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。
本实施例与传统方法直接采用字和信息作为特征不同,本实施例的神经元网络模块130的输入是每个语素(即词)所对应的词向量,而这些词向量是神经元网络通过对大量未标注的数据进行学习,从中抽取每个词的相应特征,并构建了相应的词向量词典A,其被存储在矩阵
Figure GDA0002461997640000101
中,D表示每一个语素对应的维度为D的特征向量,通过词向量词典A映射获得的词向量输入并不带有传统方法中的随机性,是的输出的结果更加可控,精度更高。
在本实施例的语素抽取单元131中还可以通过滑动窗口提取特定长度的输入,使得对神经元网络的输入进行了一定的控制,便于利用神经元网络进行计算时减轻运算的负荷,提高计算效率。具体的,如图4所示,上述语素抽取单元131可以包括以下单元:
窗口输入单元1311,用于通过一预定长度k的滑动窗口从输入数据中获取语素组;
信息组合单元1312,用于提取该语素组中当前位置为p的语素和该语素的相邻语素,生成当前位置语素与其相邻语素具有的特征相互结合后的信息,用以输入至上述特征向量生成单元132映射为定长的特征向量,上述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示上述预定长度。
在本实施例中,通过滑动窗口可以获得一个句子的所有语素以及其与相邻语素之间的位置关系属性,并通过映射在词向量词典A中获得每一个语素对应的一个维数为D的特征向量,于是文本中的词对应预存的生物医学类词典矩阵M,再结合滑动窗口的提取就转化为经典卷积神经元网络模块(CNN,Convolutional Neural Network)的固定长度的输入。由于句子的长度是可变的,但经典卷积神经元网络模块的输入是固定的,因此选择滑动窗口的方法提取文本,窗口大小被人工设定为预定长度k,k的选择影响系统的精度,这是由于采用滑动窗口大小确定了系统将考虑当前词和多少相邻的词之间的依赖信息。
通过将未标注的生物医学文本逐一提取语素(即单词)和该语素位置属性后生成词典A,再结合图2和4中的滑动窗口转化为固定长度的D维特征向量输入至上述神经元网络模块130中进行训练,输出结果为生物医学类词典矩阵数据,被存储在矩阵
Figure GDA0002461997640000111
中,D表示每一个语素对应的维度为D的特征向量,A表示利用未标注的生物医学文本逐一提取语素及其位置属性的集合。通常情况下单词的词汇是有限的,由此产生的词向量文件也可以作为特征在其他生物医学信息处理和机器学习的应用,矩阵数据M在随机初始化的基础上,通过利用大量未标记的生物医学文本文件在卷积神经元网络模块上训练得到。上述语素抽取单元131中提取输入数据中的语素组及该语素组中各个语素之间的位置属性,获得每一个语素对应的词向量文件,其用VW i表示,其中i=1,……,n,i对应表示语素提取的序号,将每一个语素对应的词向量文件通过生物医学类词典矩阵数据映射后获得D维特征向量,表示为MVW i,其中i=1,……,n,输入的句子对应的特征向量的集合即表示为图2中第2个方框中的矩阵形式,其中每一行表示单个语素对应的D维特征向量,整个矩阵形式可以构成一个句子的特征向量组合,那么将这样一句话对应的特征向量输入至神经元网络模块130后输出的将是整句话对应的概率词标注网格,其包含该句子中各个词对应的所有分类标注的集合、该词对应该分类标注的概率以及标签路径,如图2所示的第6个方框中的节点网格结构所示,在此输出的概率词标注网格中的每一列用来记录一个词对应的所有分类标注的集合及该词对应该分类标注的概率,此概率词标注网格中的多列按照语素输入神经元网络模块130的时间顺序进行排列。
基于上述各个实施例提供的基于深度神经网络对生物学文本序列化标注的系统,本实施例提供了一种基于深度神经网络对生物学文本序列化标注的方法,其包括以下步骤:
对神经元网络模块130进行训练的步骤:获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块130中,转化生成上述上述标准数据对应的概率词标注网格,该概率词标注网格包含从上述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于上述已知标注序列配置上述神经元网络模块中的上述转移系数和网络参数,获得训练后的神经元网络模块;
对神经元网络模块130进行测试的步骤:获取待标注的文本数据,输入至上述训练后的神经元网络模块130中,转化生成上述文本数据对应的概率词标注网格,该概率词标注网格包含从上述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述确定后的转移系数计算获得的标签路径,从上述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为上述文本数据的标注序列用以输出。上述神经元网络模块130利用随机梯度上升法被训练。而在对神经元网络模块130进行测试的步骤中通过viterbi算法在概率词标注网格中搜索标签路径。
基于上述方法,如图2所示,通过向神经元网络模块130输入语素对应的数据输入后,获得例如图2所示的概率词标注网格结构时,上述神经元网络模块130中在生成上述标签路径时,通过将当前时刻获得的语素对应的分类标注叠加一上述转移系数后在时间分量上积分,获得在上述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,上述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率,具体参见上述公式(3)的相关说明。
在对神经元网络模块130进行训练的过程中,主要采用随机梯度上升法,利用训练集Γ,根据输入数据计算最大似然率
Figure GDA0002461997640000121
选择能使最大似然率
Figure GDA0002461997640000131
取最大值的标签作为语素对应该分类标注的概率。这里的训练集Γ=(x,y)即含有已知标注序列y的标准数据,用训练集Γ输入神经元网络模块130时,则上述公式中已知标注序列y和输入x均为已知,即可获知神经元网络模块130中的网络参数θ。
基于上述过程中引入了上述公式(3)计算标签路径
Figure GDA0002461997640000132
则同样采用随机梯度上升法,利用训练集Γ(即含有已知标注序列y的标准数据),根据输入数据计算最大似然率
Figure GDA0002461997640000133
基于训练集中已知的标注序列y即可获知神经元网络模块130中的
Figure GDA0002461997640000134
即包括转移系数Alj和网络参数θ,用以配置神经元网络模块130,获得训练后的神经元网络模块130。
为了使神经元网络模块130的输出结果更加贴近真实结果,则在利用标准数据对神经元网络模块130进行训练时引入一个以e为底的指数函数作为指令操作log-add,结合极大似然估计法对神经元网络模块130的输出结果进行估计,以求在基于训练集Γ获得系统参数集
Figure GDA0002461997640000135
时更加精确。当指令操作log-add为正值时,则表示卷积神经元网络模块120的输出为可取。具体参见下述说明。
采用随机梯度上升法,利用训练集Γ(即含有已知标注序列y的标准数据),根据输入数据x计算能使最大似然率
Figure GDA0002461997640000136
取最大值的结果,基于训练集中已知的标注序列y[1:T]和输入x[1:T],获得系统参数集
Figure GDA0002461997640000137
即包括转移系数Alj和系统变量θ。具体见下述公式(4),引入以e为底的指数函数作为指令操作log-add的对数似然函数表示为如下公式(4)。
Figure GDA0002461997640000138
其中,y[1:T]表示1到t时刻真实的标记路径;x[1:T]表示输入的句子(即语素组)对应的特征向量;
Figure GDA0002461997640000139
表示系统参数集合,其包括分类标注转移分值量Alj和系统变量θ;
Figure GDA0002461997640000141
表示基于已知标注序列y的标准数据(即训练集Γ)、利用公式(3)计算获得的真实标签路径;
Figure GDA0002461997640000142
表示利用公式(3)计算的预测标签总分,l[1:T]表示1到t时刻根据公式(3)被标注的标签路径;T表示采样时间。
上述公式(4)的评估计算可以用于上述各个实施例中的对神经元网络模块130进行训练的过程中。
基于上述方法,如图2所示,本实施例的最优方案是,基于以下三层结构的神经元网络设计,具体是,在上述神经元网络模块中构建至少包含进行线性变换的第一线性变化层(如图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(如图2中的第4方框)、和进行线性变换的第二线性变化层(如图2中的第5方框)的卷积神经元网络;输入的数据依次通过上述第一线性变化层、上述正弦变换层、和上述第二线性变化层进行逐层计算抽象后获得上述概率词标注网格。
基于上述方法,如图2所示,本实施例的上述神经元网络模块130从输入的数据中提取语素,将提取的语素映射到预存的生物医学类词典矩阵中生成匹配上述神经元网络模块输入数据长度且含有上述语素所有分类关系规律的特征向量,用以转化生成上述概率词标注网格。这里的生物医学类词典矩阵为:通过将未标注的生物医学文本逐一提取语素和该语素位置属性,输入至上述神经元网络模块130中进行训练,获得的每一个语素及该语素标注的语素及该语素位置属性在生物医学类样本中学习到得语素及语素位置属性之间的分类关系规律。
基于上述实施例,本实施例中的上述神经元网络模块130中通过以下步骤从输入的数据中提取语素:
通过一预定长度的滑动窗口从输入数据中获取语素组,提取该语素组中当前位置为p的语素和该语素的相邻语素,生成上述语素与上述相邻语素所具有的特征相互结合后的信息,用以生成上述特征向量,上述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示上述预定长度。
基于上述各个实施例的系统结构和方法,本实施提供一最优实现方案。如图2所示,在本实施例中神经元网络模块130基于图2中第3方框的第一线性变化层、图2中第4方框的调用卷积神经网络激励函数实现的正弦变换层和图2中第5方框的进行线性变换的第二线性变化层之外,还提供图2中第1方框中的神经元层结构,用于从输入的数据中提取语素的特征提取层,其主要通过预定长度的滑动窗口从输入数据中获取语素组,提取该语素组中当前位置为p的语素和该语素的相邻语素(即在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素),此外,还提供图2中第2方框中的特征向量生成层,用于将提取的语素映射到预存的生物医学类词典矩阵中生成匹配上述神经元网络模块输入数据长度且含有上述语素所有分类关系规律的特征向量,用以转化生成上述概率词标注网格。具体的生物医学文本序列化标注方法如下所示,参见图5。
步骤301:生成生物医学类词典矩阵M。
将大量未标注的生物医学文本逐一提取语素(即词,以统一用词表示)和该语素位置属性,输入至上述神经元网络模块130中进行训练,获得的每一个词及该词标注的词及该词位置属性在生物医学类样本中学习到得词及词位置属性之间的分类关系规律,生成词典A,并存储在矩阵
Figure GDA0002461997640000151
中,获得生物医学类词典矩阵M,例如,在这里的词典中每个词都由600维的特征向量表示。
步骤302:开始对神经元网络模块130进行训练,输入含有已知标注序列的标准数据。
步骤303,通过一预定长度k的滑动窗口从标准数据中提取语素组(比如句子,以统一用句子表示),以及该句子中当前位置为p的词和在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有词。
步骤304:通过生物医学类词典矩阵M映射生成句子对应的特征向量矩阵。将步骤303提取的所有词映射到步骤301获得的生物医学类词典矩阵M中,生成匹配上述神经元网络模块130输入数据长度且含有上述语素所有分类关系规律的多维特征向量D,这里的特征向量D由600维的特征向量表示,而一个句子中提取的词及其相邻的词被映射之后就获得了图2中第2个方框的矩阵结构,其中每一行可以表示一个词对应的多维特征向量D。
步骤305,分别将每一个词对应的多维特征向量D依次输入至神经元网络模块130中的第一线性变化层(图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(图2中的第4方框)和进行线性变换的第二线性变化层(图2中的第5方框),获得每一个特征向量D的转化结果,即每一个词对应的对应的所有分类标注的集合、该词对应该分类标注的概率,这里的词对应该分类标注的概率用于上述公式(2)的条件概率表示。
步骤306,如图2所示的第6个方框获得一个句子对应的概率词标注网格。即按照时间处理的先后顺序排列每个词对应的特征向量D的转化结果,比如图2中第6个方框所示,时间t对应的标签序列,即表示当前位置为p的词及其位置属性生成的特征向量经过神经元网络模块130进行处理后输出的当前位置为p的词对应的所有分类标注的集合和该词对应该分类标注的概率,则时间t-1、时间t-2、时间t+1分别表示神经元网络模块130处理的前两个词、和后一个词对应的特征向量的输出结果,然后按照神经元网络模块130输出结果的时间顺序排列生成图2中第6个方框中的概率词标注网格。
在形成概率词标注网格时,参见上述公式(3),通过将当前时刻获得的词对应的分类标注叠加一上述转移系数后在时间分量上积分,获得在上述概率词标注网格中关联词及该词分类标注之间关系的标签路径。
步骤307,基于上述已知标注序列配置上述神经元网络模块130中的上述转移系数和网络参数,获得训练后的神经元网络模块。具体参见上述公式(4)的相关说明,采用随机梯度上升法,利用训练集Γ(即含有已知标注序列y的标准数据),根据输入数据x基于上述公式(4)计算能使最大似然率
Figure GDA0002461997640000161
取最大值的结果,基于训练集中已知的标注序列y获得系统参数集
Figure GDA0002461997640000162
即包括转移系数Alj和系统变量θ。
步骤308,开始对神经元网络模块130进行测试,输入待标注的文本数据
步骤309,通过一预定长度k的滑动窗口提取待标注的文本数据中的句子及句子中的当前位置为p的词和在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有词。
步骤310,通过生物医学类词典矩阵M映射生成句子对应的特征向量矩阵。
步骤311,分别将每一个词对应的多维特征向量D依次输入至训练后的神经元网络模块130中的第一线性变化层(图2中的第3方框)、调用卷积神经网络激励函数实现的正弦变换层(图2中的第4方框)和进行线性变换的第二线性变化层(图2中的第5方框),获得每一个特征向量D的转化结果,即每一个词对应的对应的所有分类标注的集合、该词对应该分类标注的概率,这里的词对应该分类标注的概率用上述公式(2)的条件概率表示。
步骤312,获得从待标注的文本数据中提取的句子所对应的概率词标注网格,该概率词标注网格包含从上述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于上述确定后的转移系数所计算得到的标签路径,具体见上述公式(3)。
步骤313,在上述概率词网络中,通过viterbi算法,搜索积分值最高的标签路径作为待标注的文本数据的标注序列用以输出,即输出的是使标签路径的总分S(.)分值最高的标签路径l[1:T]
通过查全率、查准率以及F评估值来评价本实施例上述方法的识别结果,可参见下表1所示。
表1.主要类别的识别结果
类别 查全率 查准率 F评估值
protein 0.7927 0.7355 0.7630
cell_line 0.6342 0.6766 0.6547
DNA 0.6462 0.6665 0.6562
cell_type 0.7815 0.6884 0.7320
RNA 0.7003 0.7551 0.7267
Overall 0.7505 0.7134 0.7315
上述表格中,F评估值的计算如下述公式(5)所示。
F-score=2Precision×Recall/(Precision+Recall) 公式(5)
上述公式中,Precision表示查准率,Recall表示查全率,F-score表示F评估值。其中,查全率=检索到的相关/所有相关的;查准率=检索到的相关/所有检索到的。
在本实施例中,根据生物医学名实体的要求,句子中的每个单词应该给予适当的标签,以表明该词是否是一个生物医学名实体。也就是说,识别系统的输入是句子、输出就是该句子中每个词的正确标签序列,即每个词及其对应的分类标注概率。神经元网络模块130提供了一个神经元网络模块架构,如图1和2所示,其主要通过三层网络架构的顺次传递训练实现对神经元网络模块的深度学习,在此过程中利用随机梯度上升法对神经元网络模块进行训练。本实施例的识别系统中,神经元网络模块的第一层实现对每个词所具有特征进行抽取,最终以输入的每个句子作为本地和全局结构的序列(而并非作为词袋bag ofwords)来抽取特征,接下来这些信息将会被输入到基于深度神经网络模型构建的神经元网络模块130中进行处理获得每个句子中相应单词的标签序列。
本发明提供的系统和方法可以用于生物医学名实体识别,其可以作为一种基于深度神经元网络模块的生物医学命名实体识别系统和方法,其与传统的机器学习方式不同的是,该系统不需要具有生物医学背景的人员来构建相关的特征模板,也不需要构建大规模的生物医学辞典,就能有效地实现生物医学名实体的识别。本发明的识别系统和方法免除了绝大多数生物医学名实体识别解决方法中都会涉及的耗时耗力的特征工程,借本发明不仅仅可以大大节省工作时间,提高工作效率,同时也提高了系统的适用性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于深度神经网络对生物医学文本序列化标注的系统,其特征在于,所述系统包括:
训练模块,用于获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块中,转化生成所述标准数据对应的概率词标注网格,该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数,获得训练后的神经元网络模块;
测试模块,用于获取待标注的文本数据,输入至所述训练后的神经元网络模块中,转化生成所述文本数据对应的概率词标注网格,该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于配置后的所述转移系数所计算得到的标签路径,从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。
2.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统,其特征在于,所述神经元网络模块至少包括:
用于构建进行线性变换的第一线性变化层的第一单元;
用于执行调用卷积神经网络激励函数实现正弦变换层的第二单元;
用于构建进行线性变换的第二线性变化层的第三单元;
输入的数据依次通过所述第一单元、所述第二单元、和所述第三单元进行逐层计算抽象后获得所述概率词标注网格。
3.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统,其特征在于,所述神经元网络模块还包括:
语素抽取单元,用于从输入的数据中提取语素;
特征向量生成单元,用于将提取的语素映射到预存的生物医学类词典矩阵中,生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量,用以转化生成所述概率词标注网格。
4.根据权利要求3所述的基于深度神经网络对生物医学文本序列化标注的系统,其特征在于,所述语素抽取单元包括:
窗口输入单元,用于通过一预定长度的滑动窗口从输入数据中获取语素组;
信息组合单元,用于提取该语素组中当前位置为p的语素和该语素的相邻语素,生成所述语素与所述相邻语素具有的特征相互结合后的信息,用以输入至特征向量生成单元,所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示所述预定长度。
5.根据权利要求1所述的基于深度神经网络对生物医学文本序列化标注的系统,其特征在于,所述神经元网络模块还包括:
路径分析单元,用于将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分,获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。
6.一种基于深度神经网络对生物医学文本序列化标注的方法,其特征在于,所述方法包括:
获取含有已知标注序列的标准数据,输入至基于深度神经网络模型构建的神经元网络模块中,转化生成所述标准数据对应的概率词标注网格,该概率词标注网格包含从所述标准数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及引入用以表征标注间依赖关系的转移系数所计算得到的标签路径,基于所述已知标注序列配置所述神经元网络模块中的所述转移系数和网络参数,获得训练后的神经元网络模块;
获取待标注的文本数据,输入至所述训练后的神经元网络模块中,转化生成所述文本数据对应的概率词标注网格,该概率词标注网格包含从所述文本数据中提取的语素对应的所有分类标注的集合、该语素对应该分类标注的概率、以及基于配置后的所述转移系数所计算得到的标签路径,从所述文本数据对应的概率词标注网格中选择积分值最高的标签路径作为所述文本数据的标注序列用以输出。
7.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法,其特征在于,在所述神经元网络模块中构建至少包含进行线性变换的第一线性变化层、调用卷积神经网络激励函数实现的正弦变换层、和进行线性变换的第二线性变化层的卷积神经元网络;输入的数据依次通过所述第一线性变化层、所述正弦变换层、和所述第二线性变化层进行逐层计算抽象后获得所述概率词标注网格。
8.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法,其特征在于,所述神经元网络模块从输入的数据中提取语素,将提取的语素映射到预存的生物医学类词典矩阵中生成匹配所述神经元网络模块输入数据长度且含有所述语素所有分类关系规律的特征向量,用以转化生成所述概率词标注网格。
9.根据权利要求8所述的基于深度神经网络对生物医学文本序列化标注的方法,其特征在于,所述神经元网络模块中通过以下步骤从输入的数据中提取语素:
通过一预定长度的滑动窗口从输入数据中获取语素组,提取该语素组中当前位置为p的语素和该语素的相邻语素,生成所述语素与所述相邻语素所具有的特征相互结合后的信息,用以生成特征向量,所述相邻语素指在[(p-(k-1)/2),(p+(k-1)/2)]位置上的所有语素,其中k表示所述预定长度。
10.根据权利要求6所述的基于深度神经网络对生物医学文本序列化标注的方法,其特征在于,所述神经元网络模块中在生成所述标签路径时,通过将当前时刻获得的语素对应的分类标注叠加一所述转移系数后在时间分量上积分,获得在所述概率词标注网格中关联语素及该语素分类标注之间关系的标签路径,所述转移系数在时间分量上积分时被配置为前一个时刻对应获得的分类标注转移到当前时刻获得的分类标注上的标注间转化概率。
CN201410468606.8A 2014-09-15 2014-09-15 基于深度神经网络对生物医学文本序列化标注的系统和方法 Active CN105404632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410468606.8A CN105404632B (zh) 2014-09-15 2014-09-15 基于深度神经网络对生物医学文本序列化标注的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410468606.8A CN105404632B (zh) 2014-09-15 2014-09-15 基于深度神经网络对生物医学文本序列化标注的系统和方法

Publications (2)

Publication Number Publication Date
CN105404632A CN105404632A (zh) 2016-03-16
CN105404632B true CN105404632B (zh) 2020-07-31

Family

ID=55470122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410468606.8A Active CN105404632B (zh) 2014-09-15 2014-09-15 基于深度神经网络对生物医学文本序列化标注的系统和方法

Country Status (1)

Country Link
CN (1) CN105404632B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106095966B (zh) * 2016-06-15 2019-12-27 成都品果科技有限公司 一种用户可扩展的标签标注方法及系统
US20180025121A1 (en) * 2016-07-20 2018-01-25 Baidu Usa Llc Systems and methods for finer-grained medical entity extraction
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN108241631B (zh) * 2016-12-23 2022-09-30 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106875937B (zh) * 2017-01-13 2019-09-24 西北工业大学 基于键盘输入感知的活动识别方法
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
GB201707138D0 (en) * 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107742061B (zh) * 2017-09-19 2021-06-01 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108304530B (zh) * 2018-01-26 2022-03-18 腾讯科技(深圳)有限公司 知识库词条分类方法和装置、模型训练方法和装置
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN109308304A (zh) * 2018-09-18 2019-02-05 深圳和而泰数据资源与云技术有限公司 信息抽取方法及装置
CN111180019A (zh) * 2018-11-09 2020-05-19 上海云贵信息科技有限公司 一种基于深度学习的化合物参数自动提取方法
CN110134969B (zh) * 2019-05-27 2023-07-14 北京奇艺世纪科技有限公司 一种实体识别方法和装置
CN110442871A (zh) * 2019-08-06 2019-11-12 北京百度网讯科技有限公司 文本信息处理方法、装置及设备
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN103678318A (zh) * 2012-08-31 2014-03-26 富士通株式会社 多词单元提取方法和设备及人工神经网络训练方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2639749T (pt) * 2012-03-15 2017-01-18 Cortical Io Gmbh Métodos, aparelhos e produtos para processamento semântico de texto
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN103679208A (zh) * 2013-11-27 2014-03-26 北京中科模识科技有限公司 基于广电字幕识别的训练数据自动生成和深度学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN103678318A (zh) * 2012-08-31 2014-03-26 富士通株式会社 多词单元提取方法和设备及人工神经网络训练方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Anália Lourenço等.Biomedical Text Mining Applied To Document.《international work-conference on artificial neural networks》.2009,第954-963页. *
基于SRNN神经网络的汉语文本词类标注方法;刘伟权;《计算机研究与发展》;19970615;第421-426页 *
生物命名实体识别及生物文本分类;豆增发;《中国博士学位论文全文数据库信息科技辑》;20140115(第1期);第I138-80页 *

Also Published As

Publication number Publication date
CN105404632A (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN106156003B (zh) 一种问答系统中的问句理解方法
Sun et al. Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN107341264B (zh) 一种支持自定义实体的电子病历检索系统及方法
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN111222340A (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN112015868A (zh) 基于知识图谱补全的问答方法
CN113946685B (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
CN107480194B (zh) 多模态知识表示自动学习模型的构建方法及系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant