CN104298651B - 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 - Google Patents

一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 Download PDF

Info

Publication number
CN104298651B
CN104298651B CN201410453911.XA CN201410453911A CN104298651B CN 104298651 B CN104298651 B CN 104298651B CN 201410453911 A CN201410453911 A CN 201410453911A CN 104298651 B CN104298651 B CN 104298651B
Authority
CN
China
Prior art keywords
protein
vector
sigma
layer
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410453911.XA
Other languages
English (en)
Other versions
CN104298651A (zh
Inventor
李丽双
蒋振超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201410453911.XA priority Critical patent/CN104298651B/zh
Publication of CN104298651A publication Critical patent/CN104298651A/zh
Application granted granted Critical
Publication of CN104298651B publication Critical patent/CN104298651B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统,属于自然语言处理领域。本发明包括基于DBN的全局优化的生物医学命名实体识别、基于深度神经网络和L2‑SVM结合的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体的识别和蛋白质交互关系的自动抽取,抽取过程发挥了深度学习对特征进行深层优化的特点,较少的依赖人工特征参与;本发明为用户提供蛋白质交互关系数据检索的服务;另外,本发明还为用户提供了对自动解析结果的修正功能。

Description

一种基于深度学习的生物医学命名实体识别和蛋白质交互关 系抽取在线方法
技术领域
本发明属于自然语言处理领域,涉及一种对生物医学文本进行高质量的生物医学命名实体识别和蛋白质关系抽取的方法,具体是指基于深度神经网络分类框架的命名实体识别和关系抽取。
背景技术
生物医学命名实体识别(Biomedical Named Entity Recognition,Bio-NER)是指识别文本中具有特定意义的生物医学实体,主要包括蛋白质、DNA、RNA、cell_type、cell_line等。目前使用最广泛的基于机器学习方法的基本过程包括:语料预处理、抽取特征、模型训练、预测。语料预处理步骤包括对生物医学文本的操作,如大小写转换、分词、词干化、去停用词等步骤。运用到的特征主要包括:核心词特征、字典特征、构词特征、词形特征、词缀特征、词性特征、组块特征等。机器学习构建模型的方法主要包括:隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵模型(ME)、最大熵马尔可夫模型(MEMM)、条件随机域模型(CRF)等。
例如,ABNER(http://pages.cs.wisc.edu/~bsettles/abner/)是一个标准的命名实体识别软件工具,其核心基于线性链CRF。为减少人工抽取特征的代价,半监督学习也被引入到机器学习方法中。李彦鹏等(Incorporating Rich Background Knowledge forGene Named Entity Classification and Recognition,2009,BMC Bioinformatics)从获得的海量未标注数据中提取有用信息,然后将其作为特征去提高监督学习的效果,在BioCreative II中取得F值为89.05%。
蛋白质交互关系抽取(Protein-Protein Interaction Extraction,PPIE)目的是判断两个蛋白质之间是否存在关系。蛋白质关系可以被看成是一个三元组,Relation<Protein1,Protein2,type>,其中Protein1和Protein2表示两个蛋白质实体,type表示关系类型(有关系或者无关系两类)。
基于特征的机器学习方法利用大量的语言特征,如词法、语法、语义等特征来表示关系实例,从而完成抽取任务。Miwa等(A rich feature vector for Protein-ProteinInteraction extraction from multiple corpora,2009,Proceedings of the2009Conference on Empirical Methods in Natural Language Processing,121-130)提出了一种基于丰富特征向量的SVM-CW方法,抽取了词袋特征、最短路径特征和图特征用于学习。该方法能够同时在多个数据集上进行学习,在五个公共语料AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了64.2%,68.3%,74.9%,76.6%,84.1%。基于核函数的方法可以利用依存解析树等结构化信息,Miwa等(Protein–protein interactionextraction by leveraging multiple kernels and parsers,2009,Internationaljournal of medical informatics,39-46)通过把不同句法解析器的输出结果结合起来,获得一个多层次的抽取模型,在AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了60.8%,68.1%,70.9%,71.7%,80.1%。基于特征的方法过度依赖于选取的特征,人工对特征干预程度较大,并且忽略了句法等结构特征的作用;而基于核函数的方法计算时间过长,抽取效率较低,而且没有考虑词汇特征。
对于实际的PPIE在线系统,大都采用基于特征的统计机器学习的方法。Kim等(PIE:an online prediction system for protein-protein interactions from text,2008,Nucleic Acids Research,411-415)建立了在线蛋白质交互关系抽取系统PIE,可以让用户以文本输入或上传文件的格式进行访问,系统能识别出文本中的蛋白质名称,并输出蛋白质关系,最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句法信息,对文档中的蛋白质交互关系对进行打分并显示。
上述传统的机器学习方法都是在选取合适特征的基础上进行训练构建模型,从而提高识别效果。人工抽取合适特征对于构建生物医学命名实体识别系统具有重要作用。但同时这些系统对特征的依赖程度较高,而特征都是根据领域知识和经验人工制定的,费时费力,需要反复实验才能确定最优的特征集合。虽然半监督学习方法在一定程度上减少人工抽取特征的代价,但如何从大规模未标语料中自动抽取特征、获取更多的潜在语义信息是众多研究者十分关注的研究课题。
发明的内容
本发明提供了一种基于深度学习的全局最优的生物医学命名实体识别方法和线性L2-SVM相结合的蛋白质关系抽取方法,解决了人工特征带来的高成本、低泛化能力等难题,提高了现有生物医学命名实体识别和蛋白质关系抽取的水平。
该发明主要由三大部分组成:1、基于DBN的全局优化的生物医学命名实体识别功能;2、基于深度神经网络和L2-SVM结合的蛋白质交互关系抽取功能;3、基于B/S模式的在线系统,提供图形交互界面。生物医学命名实体识别是生物医学信息抽取的关键环节,是进行蛋白质关系抽取等任务的前提,最终以网页的形式实现用户的交互界面。
本发明采用如下的技术方案包括如下步骤:
(一)构建基于滑动窗口的NER输入向量
如下表1-1所示,对句长为N句子进行实体识别时,首先利用大小为M的滑动窗口依次构造输入向量,将窗口内所有词向量的连接作为当前词的向量。如当窗口M取3时,对于词w1而言,选用<None>,w1,w2对应的向量首尾相接作为w1的输入向量。其中<None>是为填补首位位置窗口空白设计的补位符,对应的向量为0向量;而每个单词的向量则通过word2vec工具所提供的Skip-gram语言模型在大规模未标记语料上训练得到。
表1-1
(二)构建基于DBN全局优化的NER框架
NER可以看作是序列标注,可以描述为:对于给定观测序列o1:T(即一句话,T为句子长度),对其赋予特定的标记序列l1:T,采用经典的BIO标注集,即lt∈{B,I,O},t表示序列中第t个位置。经第一步操作后,每一个单词的输入向量按照顺序送入基于DBN全局优化的NER框架。如图1所示是一个n层的模型,该框架分为预训练(pre-training)和基于全局优化的微调(fine tuning)两个阶段:
预训练阶段,每一层按照高斯-伯努利RBM(v节点取值为实数)的自由能公式:
条件概率为:
RBM的训练目标最大化v的边缘概率的期望,即在训练过程当中w权重的更新Δwij=<vihj>data-<vihj>model,即训练数据的观察期望减去模型分布的期望。训练数据的观察期望减去模型分布的期望可以由Gibbs采样获得。
全局优化的微调阶段,其中v为输入层,前n层各参数由预训练阶段获得;h代表RBM的隐层,bi和ai分别是b和a的第i维;为了便于公式表达,可以将v记作h0。为了实现全局范围的优化,引入了一个转移特征, 相应的全局最优的条件概率为:
其中:是对应需要进行训练的系数,训练过程见公式(9-4)所示;表示第1到T个单词的第n个隐层的相加;
表1-2系统流程
其中γij是对应的需要进行训练的系数。可以看到,要计算的条件概率p(l1:T|v1:T)是在整个句子的范围内进行全局优化的,而不是局部优化后再做出调整。神经网络的训练,即后向传播算法,可分成三个部分:λ的学习,γ的学习,权重w的学习。偏导公式分别如下:
其中,每一层的权重w可以通过链法则进行逐级求偏导,以上只给出对第n层w求偏导的公式。
经过预训练和全局最优的微调之后,对于给定的句子便可进行序列标注,进而得到识别出的生物医学命名实体。如图1所示的基于DBN的全局优化的生物医学命名实体识别框架图。
(三)PPI特征提取
其中,抽取了四种常见的PPI特征:
1、蛋白质特征(P):一个PPI实例中涉及到的两个蛋白质名;
2、上下文特征(C):蛋白质周围的词,在window中不包含蛋白质本身的词()被视为context特征;
3、中间词特征(B):在蛋白质之间的词;
4、句子特征(S):整个句子。
表2-3特征提取
(四)向量组合
由于上述特征的长度不固定,而算法的输入向量是大小固定的,所以需要将原始特征变成大小固定的向量。采取向量组合的方法完成这一功能,具体如下:
Max为取n个向量每个维度的最大值;min为取n个向量每个维度的最小值;
mean为n个向量相加后除以n;sum为n个向量相加。
表3-4向量组合
(五)CNN与L2-SVM相结合的蛋白质关系抽取
表4-5蛋白质关系抽取
神经网络与SVM的结合方式如图2所示,顶层不再是softmax,而是L2-SVM。将SVM最大间隔的思 想与深度神经网络结合起来,在保证特征优化的同时拥有更强的分类能力。SVM带约束的目标优化函数为:
其中εn是松弛变量,q即target,即实例x的标记,C是惩罚因子。通过引入拉格朗日乘子,可以将上述目标优化函数表示为不带约束的目标优化函数,即L2-SVM的损失函数,记作:
对第n层hn求偏导公式如下:
在此基础上通过链法则便可获得每一层参数优化的梯度,便构建出了使用深度学习和线性SVM结合的用于蛋白质关系抽取的框架,如图2所示的深度线性SVM,顶层采用的是L2-SVM图。
本发明构建了一套基于深度学习的同时完成生物医学命名实体识别和蛋白质关系抽取的在线方法,为研究者提供实时查询服务。蛋白质交互关系抽取是对生物医学文献进行潜在语义的预测,其目的是判断两个蛋白质之间是否存在关系。作为生物医学文本挖掘的重要分支之一,蛋白质交互关系抽取技术具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、本体的构建等任务具有重要意义。本发明在传统方法的基础上提升了特征的表达能力和泛化能力,能够帮助生物医学领域研究者对文本进行自动分析,并提供对已知生物医学命名实体和蛋白质关系检索的功能,帮助他们对蛋白质关系进行研究和分析。
附图说明
图1基于DBN的全局优化的生物医学命名实体识别框架图。
图2深度线性SVM,顶层采用的是L2-SVM示意图。
图3蛋白质交互关系显示结果图。
具体实施方式
本发明的系统能够对给定文本进行自动的命名实体识别和蛋白质关系抽取,极大方便了研究者从大量的文献中寻找关于蛋白质的交互关系。系统采用B/S(Browser/Server,浏览器/服务器模式,主要采用JSP、HTML、JS等技术实现)结构设计,分为视图层,逻辑层和数据层三部分。
表2系统结构
1、用户输入待解析文本
如表1所示,文本输入支持键盘输入和上传本地文件两种方式,由视图层接受用户输入的待检索文本, 提交给逻辑层,并存入数据层。假设用户待解析的文本为“We findthat hTAFII32is the human homologue of Drosophila TAFII40.”,用户则可以选择1、通过页面文本框直接输入上述文本或者2、将上述文本保存为txt、doc等格式,通过文件的形式上传。前者适合短文本或者测试使用,后者则适合大文本处理。
2、系统对待解析文本进行解析
该功能的实现需要系统的逻辑层和数据库层的协调工作,具体如下:
(1)逻辑层对待解析文本进行断句、分词等预处理后,将上述文本分解为一个含有12个token的句子(含标点);如前文所述,利用滑动窗口将其转换为12个向量,并依次输入基于DBN全局优化的NER框架,逐层计算后经过全局条件概率得到最优的标记序列“O OO BO OOOO B I O”,即识别出生物医学命名实体“hTAFII32”和“Drosophila TAFII40”。在解析时不需要进行训练,而是用训练好的参数直接得到结果。
(2)步骤(1)完成了蛋白质识别的工作,接下来进行蛋白质关系的提取。同样以“Wefind that hTAFII32is the human homologue of Drosophila TAFII40.”为例,首先在(1)的基础上构建PPI实例,即目标为,利用机器学习针对上述待解析文本来判断“hTAFII32”和“Drosophila TAFII40”是否暗含着PPI。然后系统提取句子特征(We findthat hTAFII32is the human homologue of Drosophila TAFII40.)、前后词特征(thatisof.)、中间词特征(is the human homologue of)、蛋白质特征(hTAFII32Drosophila TAFII40),如中间词特征为b1,b2,b3;根据由word2vec工具训练得到词向量将这些特征转换为向量,如b1,b2,b3分别对应向量[0,0,1],[1,0,1],[1,1,0];经过四种特征融合方法,得max(b1,b2,b3)为[1,1,1],min(b1,b2,b3)为[0,0,0],mean(b1,b2,b3)为[1/3,1/3,2/3],sum(b1,b2,b3)为[1,1,2],中间词特征融合后结果即为[1,1,1,0,0,0,1/3,1/3,2/3,1,1,2],其他特征以此类推,由此得到输入向量;使用深层神经网络与L2-SVM结合的算法对该实例进行分类,最终得到蛋白质关系抽取的结果,即“hTAFII32”和“Drosophila TAFII40”是一对具有交互关系的蛋白质。
(3)将(1)(2)两步实体识别和关系抽取的结果交由数据层进行存储,同时由视图层将可视化结果反馈给用户。
3、用户对蛋白质进行检索
当系统完成了对输入文本的命名实体识别与蛋白质关系抽取后,系统将蛋白质关系对以交互关系网络的形式展示。用户如果想对特定蛋白质进行检索,如用户想知道蛋白质“glutelin”与其他蛋白质的交互关系,在检索栏输入“glutelin”后将得到如图3所示的以其为中心的蛋白质网络,网络中的每个点代表一个蛋白质,如果两点之间有连线,说明所代表的两个蛋白质具有交互关系。系统允许用户将任何一个蛋白质作为网络的中心,鼠标移动点击某个蛋白质,网络就聚焦到被点击的蛋白质上,并显示数据库中该蛋白质的信息。如图3所示的蛋白质交互关系显示结果图。
4、用户对抽取结果的人工校正
用户提交了数据以后,如果发现系统返回的处理结果有明显的错误,系统允许用户对结果进行修正,并将修正的结果存储到数据库中。例如用户提交的数据中包含这样一个句子“alpha-catenin inhibits beta-catenin signaling by preventing formationof a beta-catenin”,该句子中alpha-catenin是一个蛋白质名,beta-catenin是另外一个蛋白质名,不难发现,二者之间是具有相互关系的。如果系统没能自动地识别出二者的关系,用户要先反馈给系统处理结果有误(只需选中单选框中的“不正确”即可),并手动的在编辑框中说明这种关系,例如可以在“未识别交互关系编辑框”中输入“alpha-catenin与beta-catenin具有交互关系”,最终将修正结果提交给系统。

Claims (1)

1.一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法,其特征包括如下步骤:
(一)构建基于滑动窗口的NER输入向量
如下表1-1所示,对句长为N句子进行实体识别时,首先利用大小为M的滑动窗口依次构造输入向量,将窗口内所有词向量的连接作为当前词的向量;当窗口M取3时,对于词w1而言,选用<None>,w1,w2对应的向量首尾相接作为w1的输入向量;其中<None>是为填补首位位置窗口空白设计的补位符,对应的向量为0向量;而每个单词的向量则通过word2vec工具所提供的Skip-gram语言模型在大规模未标记语料上训练得到;
表1-1
(二)构建基于DBN全局优化的NER框架
NER看作是序列标注,描述为:对于给定观测序列o1:T,对其赋予特定的标记序列l1:T,采用经典的BIO标注集,即lt∈{B,I,O},t表示序列中第t个位置;经第一步操作后,每一个单词的输入向量按照顺序送入基于DBN全局优化的NER框架;一个n层的模型,该框架分为预训练和基于全局优化的微调两个阶段:
预训练阶段,每一层按照高斯-伯努利RBM的自由能公式,v节点取值为实数;
E ( v , h ; &theta; ) = - &Sigma; i = 1 | v | &Sigma; j = 1 | h | w i j v i h j + 1 2 &Sigma; i = 1 | v | ( v i - b i ) 2 - &Sigma; j = 1 | h | a j h j - - - ( 9 - 0 )
条件概率为:
p ( v i | h ; &theta; ) = N ( &Sigma; j = 1 | h | w i j h j + b i , 1 ) - - - ( 9 - 2 )
RBM的训练目标最大化v的边缘概率的期望,即在训练过程当中w权重的更新Δwij=<vihj>data-<vihj>model,即训练数据的观察期望减去模型分布的期望;训练数据的观察期望减去模型分布的期望由Gibbs采样获得;
全局优化的微调阶段,其中v为输入层,前n层各参数由预训练阶段获得;h代表RBM的隐层,bi和ai分别是b和a的第i维;将v记作h0;为了实现全局范围的优化,引入了一个转移特征, 相应的全局最优的条件概率为:
其中:是对应需要进行训练的系数,训练过程见公式(9-4)所示;表示第1到T个单词的第n个隐层的相加;
表1-2系统流程
其中γij是对应的需要进行训练的系数;要计算的条件概率p(l1∶T|v1∶T)是在整个句子的范围内进行全局优化的,而不是局部优化后再做出调整;神经网络的训练,即后向传播算法,分成三个部分:λ的学习,γ的学习,权重w的学习;偏导公式分别如下:
&part; log p ( l 1 : T m | v 1 : T m ) &part; &lambda; k d = &Sigma; t = 1 T ( &delta; ( l t m = k ) - p ( l t m = k | v 1 : T m ) ) h t d n , m - - - ( 9 - 4 )
&part; log p ( l 1 : T m | v 1 : T m ) &part; &gamma; i j = &Sigma; t = 1 T ( &delta; ( l t - 1 m = i , l t m = j ) - p ( l t - 1 m = i , l t m = j | v 1 : T m ) ) - - - ( 9 - 5 )
&part; log p ( l 1 : T m | v 1 : T m ) &part; w i j n = &Sigma; t = 1 T ( &lambda; l t d - &Sigma; k = 1 K p ( l t n = k | v 1 : T n ) &lambda; k d ) &CenterDot; h t d n , m ( 1 - h t d n , m ) h t i n - 1 , m - - - ( 9 - 6 )
其中,每一层的权重w;通过链法则进行逐级求偏导,以上只给出对第n层w求偏导的公式;
(三)PPI特征提取
其中,抽取了四种常见的PPI特征:
1、蛋白质特征(P):一个PPI实例中涉及到的两个蛋白质名;
2、上下文特征(C):蛋白质周围的词,在window中不包含蛋白质本身的词被视为context特征;
3、中间词特征(B):在蛋白质之间的词;
4、句子特征(S):整个句子;
表2-3特征提取
(四)向量组合
由于上述特征的长度不固定,而算法的输入向量是大小固定的,所以需要将原始特征变成大小固定的向量;采取向量组合的方法完成这一功能,具体如下:
max:取n个向量每个维度的最大值;
min:取n个向量每个维度的最小值;
mean:n个向量相加后除以n;
sum:n个向量相加;
表3-4向量组合
(五)CNN与L2-SVM相结合的蛋白质关系抽取
表4-5蛋白质关系抽取
神经网络与SVM的结合方式,顶层不再是softmax,而是L2-SVM;将SVM最大间隔的思想与深度神经网络结合起来,在保证特征优化的同时拥有更强的分类能力;SVM带约束的目标优化函数为:
min w , &epsiv; n 1 2 w q w + C&Sigma; n = 1 N &epsiv; n , ( s . q . w q x n q n &GreaterEqual; 1 - &epsiv; n , &ForAll; n&epsiv; n &GreaterEqual; 0 ) - - - ( 9 - 7 )
其中εn是松弛变量,q即target,即实例x的标记,C是惩罚因子;通过引入拉格朗日乘子,将上述目标优化函数表示为不带约束的目标优化函数,即L2-SVM的损失函数,记作:
min w 1 2 w q w + C&Sigma; n = 1 N m a x ( 1 - w q x n q n , 0 ) 2 - - - ( 9 - 8 )
对第n层hn求偏导公式如下:
&part; l ( w ) &part; h n = w - 2 Cq n w ( m a x ( 1 - w q h n q n , 0 ) ) - - - ( 9 - 9 ) .
CN201410453911.XA 2014-09-09 2014-09-09 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 Expired - Fee Related CN104298651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410453911.XA CN104298651B (zh) 2014-09-09 2014-09-09 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410453911.XA CN104298651B (zh) 2014-09-09 2014-09-09 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

Publications (2)

Publication Number Publication Date
CN104298651A CN104298651A (zh) 2015-01-21
CN104298651B true CN104298651B (zh) 2017-02-22

Family

ID=52318380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410453911.XA Expired - Fee Related CN104298651B (zh) 2014-09-09 2014-09-09 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

Country Status (1)

Country Link
CN (1) CN104298651B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657626A (zh) * 2015-02-25 2015-05-27 苏州大学 一种利用文本数据构建蛋白质相互作用网络的方法
CN104866524A (zh) * 2015-04-10 2015-08-26 大连交通大学 一种商品图像精细分类方法
CN104866727A (zh) 2015-06-02 2015-08-26 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN105138864B (zh) * 2015-09-24 2017-10-13 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106055675B (zh) * 2016-06-06 2019-10-29 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106096327B (zh) * 2016-06-07 2018-08-17 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN106257441B (zh) * 2016-06-30 2019-03-15 电子科技大学 一种基于词频的skip语言模型的训练方法
CN107562752B (zh) * 2016-06-30 2021-05-28 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
CN106202054B (zh) * 2016-07-25 2018-12-14 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN107688576B (zh) * 2016-08-04 2020-06-16 中国科学院声学研究所 一种cnn-svm模型的构建及倾向性分类方法
CN108021544B (zh) * 2016-10-31 2021-07-06 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
CN106777957B (zh) * 2016-12-12 2019-07-30 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法
CN108205524B (zh) * 2016-12-20 2022-01-07 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN107992476B (zh) * 2017-11-28 2020-11-24 苏州大学 面向句子级生物关系网络抽取的语料库生成方法及系统
CN108304468B (zh) * 2017-12-27 2021-12-07 中国银联股份有限公司 一种文本分类方法以及文本分类装置
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110277175A (zh) * 2019-06-28 2019-09-24 电子科技大学 一种基于深度信念网络的中药不良作用识别方法
CN110729044B (zh) * 2019-10-08 2023-09-12 腾讯医疗健康(深圳)有限公司 糖网病变阶段识别模型的训练方法及糖网病变识别设备
CN110910951B (zh) * 2019-11-19 2023-07-07 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法
CN111026815B (zh) * 2019-12-05 2024-02-06 电子科技大学广东电子信息工程研究院 基于用户辅助修正下的实体对特定关系抽取方法
CN111428036B (zh) * 2020-03-23 2022-05-27 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN113919290A (zh) * 2020-07-09 2022-01-11 中国科学院上海药物研究所 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置
CN113343703B (zh) * 2021-08-09 2021-10-29 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Two-phase biomedical named entity recognition using CRFs;Lishuang Li et al;《Computational Biology and Chemistry》;20091231;第33卷;第334-338页 *
基于组合核的蛋白质交互关系抽取;李丽双 等;《中文信息学报》;20130131;第27卷(第1期);第86-92页 *
领域本体学习中术语及关系抽取方法的研究;李丽双;《中国博士学位论文全文数据库 信息科技辑 》;20130815;正文第1-89页 *

Also Published As

Publication number Publication date
CN104298651A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN105631468B (zh) 一种基于rnn的图片描述自动生成方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN107844469A (zh) 基于词向量查询模型的文本简化方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN105139237A (zh) 信息推送的方法和装置
Fahad et al. Inflectional review of deep learning on natural language processing
CN107798624A (zh) 一种软件问答社区中的技术标签推荐方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN107704558A (zh) 一种用户意见抽取方法及系统
CN107247751B (zh) 基于lda主题模型的内容推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170222