CN105260361A - 一种生物医学事件的触发词标注系统及方法 - Google Patents

一种生物医学事件的触发词标注系统及方法 Download PDF

Info

Publication number
CN105260361A
CN105260361A CN201510714177.2A CN201510714177A CN105260361A CN 105260361 A CN105260361 A CN 105260361A CN 201510714177 A CN201510714177 A CN 201510714177A CN 105260361 A CN105260361 A CN 105260361A
Authority
CN
China
Prior art keywords
word
feature
sequence
trigger word
protein molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510714177.2A
Other languages
English (en)
Other versions
CN105260361B (zh
Inventor
龚乐君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510714177.2A priority Critical patent/CN105260361B/zh
Publication of CN105260361A publication Critical patent/CN105260361A/zh
Application granted granted Critical
Publication of CN105260361B publication Critical patent/CN105260361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种生物医学事件的触发词标注系统及方法,该系统包括预处理模块、标注模型建立模块和标注模块。其中所述预处理模块用于获得训练样本和测试样本,包括分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。分词单元用于获取原始文本的单词序列,再由蛋白质分子识别单元识别出其中的蛋白质分子并加以替换为标准形式,更有利于特征抽取和触发词标注,特征抽取单元抽取单词的词形、词性等句法特征和语义特征,最后预标记单词序列作为训练和测试样本集。所述标注模型建立模块用于建立特征模板,生成特征函数,估计各特征函数所对应的权重,得到CRFs的触发词标注模型。标注模块对未知文本序列进行触发词标注,将得到结果显示在GUI界面。

Description

一种生物医学事件的触发词标注系统及方法
技术领域
本发明涉及一种生物医学事件的触发词标注方法及系统,属于计算机与信息技术领域。
背景技术
生物和信息技术的发展让生命科学的实验研究越来越深入,来自生命科学各个层次的实验数据正在从各个角度越来越全面的揭示生命的奥秘。记载这些生命奥秘的生物医学文献数量也呈现出指数级地增长,加之其媒体形式的多样性和结构上复杂性让这些文献成为当下名副其实的大数据。截至2014年底,美国国家医学图书馆(即NCBI)数据库就有超过2400万条生物医学文献的引文记录。神奇莫测的生命信息都像一颗颗珍珠散落在这些海量生物科技文献里,而对于医学利用人员来说,精准检索这些信息犹如大海捞针,如何将这些珍珠有效地穿起一条项链,方便被利用是目前生物信息技术的一个很重要的研究任务。
BioNLP2009的任务中就开始关注生物医学事件抽取,也称之为分子事件抽取,其目标就是要从非结构化的文本数据中将描述分子层面蛋白质所发生的事件类型,事件动作和事件主体抽取出来,如“Down-regulationofinterferonregulatoryfactor4geneexpressioninleukemiccellsduetohypermethylationofCpGmotifsinthepromoterregion.”,其中“interferonregulatoryfactor4”为蛋白质分子。该语句中有两个事件,分别是:
E1(事件类型:Negative_regulation,触发词:Down-regulation,主体:E2)
E2(事件类型:Gene_expression,触发词:expression,主体:interferonregulatoryfactor4)
生物医学事件抽取的关键就是触发词标注,标出触发词的种类,为生物医学事件抽取奠定基础。
生物医学事件抽取流程一般分为两步,第一步识别出生物医学事件的触发词,第二步则是识别出事件的元素或者说参与事件的主体。第一步是关键,也是本发明需要解决的问题。目前识别触发词的方法主要分为三类,即基于字典的方法、基于规则的方法和机器学习的方法。基于字典的事件触发词识别需要先建立一个触发词字典,当有字典中的词出现即判定为触发词。
上述基于字典的方法的结果依赖于字典的完备性,当有新的触发词出现时,识别性能就会下降。基于规则的触发词识别方法类似于编译器的词法分析,先建立一套文法规则或者产生式来识别触发词,凡是能够依规则生成的词或者依规则归约到起始符的词都认为是触发词。但是,该方法与基于字典的方法类似,其结果也是依赖于规则的完备性。基于机器学习的方法,就是使用统计的方法将触发词识别看成分类问题,选择合适的特征和适当的分类器来完成。该方法与前两种方法相比更加智能,推广能力更强。但是也存在不能充分利用上下文信息,需要假设特征输出独立性等缺点。所以如何避免假设特征输出独立性,更加真实地对序列中的相互作用的特征进行建模,使触发词特征更加全局化,且有效提高事件触发词的识别性能是急需解决的问题。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于提供了一种生物医学事件的触发词标注系统及方法,该系统对原始文本进行事件触发词标注,得到生物医学事件的触发词,为生物医学事件抽取奠定基础;提供一种事件触发词标注系统的实现方法,该方法对观察序列不做任何假设,使得事件触发词特征更加全局化且有效提高触发词识别性能。
本发明解决其技术问题所采取的技术方案:一种生物医学事件的触发词标注系统,该系统包括预处理模块、标注模型建立模块和标注模块,如图1所示。
预处理模块用于为训练和测试准备好标记样本,主要包括获得分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。
分词单元:用于将原始的文本分隔成单词序列;
蛋白质分子识别单元:用于识别单词序列中得蛋白质分子,有大量蛋白质分子全称是由多个单词甚至还有希腊字母和数字组成,为了排除这些词对触发词标注的干扰,将识别出的蛋白质分子都统一替换成Protein+数字的形式;
特征抽取单元:用于抽取蛋白质分子的句法特征和语义特征,并获取相应的特征向量;
预标记单元:用于为训练和测试CRFs触发词标注模型而准备标记样本,预先标记触发词的真值;
标注模型建立模块用于建立特征模板,生成序列的特征函数的集合,估计CRFs模型参数,建立CRFs触发词标注模型。
标注模块用于利用所建立的CRFs触发词标注模型标注未知的单词序列,其标记序列的联合概率最大值所对应的标记序列,即为标注结果。
本发明还提供了一种生物医学事件的触发词标注系统的实现方法,该方法是基于机器学习,但不是孤立的简单的对词进行分类,而是从序列数据本身出发,利用条件随机域模型,在给定需要标记的观察序列条件下,计算整个标记序列的联合概率,而不是在给定当前状态条件下,定义下一个状态的分布。标记序列的分布条件属性可以让CRFs很好的拟合序列数据,在这些数据中标记序列的条件概率依赖于观察序列中非独立的、相互作用的特征。方法包括三步,即:序列文本预处理、训练、标注,如图3所示。
方法流程:
步骤1:序列文本预处理
序列文本预处理的目标就是为训练CRFs触发词标注模型过程中的参数估计准备好训练样本,为评估性能准备好测试样本,包括四个子步骤:分词、蛋白质分子识别、特征抽取和预标记。
步骤1-1:分词
分词是将原始的文本语句分成单词的序列,与中文文本相比,英文的单词间有天然的空格作为分隔符,所以分词相对简单,分词之后每行一个单词,标点符号也占一行,语句之间留一空行作为分隔。
步骤1-2:蛋白质分子识别
生物医学事件的触发词标注是在已知蛋白质分子的条件下进行的,所以在特征抽取之前需要利用abner(一种命名实体识别工具)识别出原始文本中的蛋白质分子。有大量蛋白质分子全称是由多个单词甚至还有希腊字母和数字组成,也有的是以缩写词的形式存在,例如蛋白质分子“interferonregulatoryfactor4”也可以写成“IRF-4”,为了排除这些词的书写形式多样性对触发词标注的干扰,将识别出的蛋白质分子都统一替换成Protein+数字的形式。
步骤1-3:特征抽取
特征抽取,抽取单词句法特征和语义特征。
句法特征又包括词形特征、词性特征、ngram上下文特征。
语义特征也叫依存关系特征包括语义ngram特征、与protein的最短距离特征。
这些特征按照向量形式组织在与单词同一行的不同列中,中间以制表符分隔。
步骤1-4:预标记
预标记就是为了训练和测试,人工准备足够多的训练样本,样本的真值由领域专家根据领域知识和经验对单词序列进行预标记。
步骤2:训练
训练过程就是利用上述准备好的训练样本估计特征函数的权值参数,来确定标记序列的条件概率,为了描述清楚,先给出条件随机域的定义。设X为观测数据序列,Y为其对应的标记序列,p(Y|X)为给定随机变量X下Y的条件分布,为N对训练样本。无向图G=(V,E),Y=(Yv)v∈V,所以Y中的元素与图中顶点一一对应,当在X条件下,随机变量Yv的条件概率服从图的马尔科夫属性,也就是p(Yv|X,Yw,w≠v)=p(Yv|X,Yw,w~v),其中w~v表示(w,v)是无向图G的边。此时的(X,Y)就是一个条件随机域。
CRFs模型以观察序列X作为全局条件,并且不对X做任何有关独立性的假设。基于条件独立的概念,CRFs无向图结构可以用来将关于Yv∈Y的联合分布因式化为正的和实值的势函数(Potentialfunction)的乘积。在一阶链式结构的无向图中,最大团(clique)仅包含相邻的两个节点,即图中的边,所以对于最大团中的无向边e=(vi-1,vi)的势函数为:
Φ Y c ( Y c ) = exp ( Σ k λ k t k ( Y i - 1 , Y i , X , i ) + Σ k μ k s k ( Y i , X , i ) )
其中tk(Yi-1,Yi,X,i)为整个观察序列和对应标记序列在i-1和i时刻的特征,就是一个转移函数,而sk(Yi,X,i)是在i时刻的标记和整个观察序列的特征,是个状态函数。则Y联合概率为:
p ( Y | X ) = 1 Z ( X ) exp ( Σ i Σ k λ k t k ( Y i - 1 , Y i , X , i ) + Σ i Σ k μ k s k ( Y i , X , i ) )
其中Z(X)为归一化因子,参数λkk就是要在训练过程中估计的参数,分别对应着特征的权重,大的非负参数意味优先选择相应的特征事件,大的负值所对应的特征事件不太可能发生。
在定义tk,sk这些特征函数之前,先构造观察序列的实数值特征布尔函数来集合来描述训练数据的经验分布特征,例如:
b ( X , i ) = 1 i f X i = D o w n - r e g u l a t i o n 0 o t h e r w i s e
每个特征函数表示为观察序列实值特征b(X,i)集合中的一个元素,如
t k ( Y i - 1 , Y i , X , i ) = b ( X , i ) i f Y i - 1 = B , Y i = M 0 o h t e r w i s e
s k ( Y i , X , i ) = b ( X , i ) i f Y i = B 0 o h t e r w i s e
CRFs模型参数估计的实质是对概率的对数最大似然函数求最值,运用最优化理论循环迭代,直到函数收敛或者达到给定的迭代次数。训练主要利用目前流行的CRF++工具,对训练样本中的数据进行训练得到各特征函数的权重λk和μk
步骤3:标注
训练得到CRFs模型参数之后就可以对一条语句进行标注,找到该语句所对应的标记联合概率最大的标记序列Y=argmaxYp(Y|X),Y即为触发词标注结果。
有益效果:
1、本发明通过建立CRFs模型,即该模型无需对单词序列做任何假设,能够以单词序列为全局条件,实现了求标记序列的联合概率。
2、本发明能够充分利用上下文信息,获取样本的特征函数,利用所述CRFs触发词标注模型对未知的单词序列进行标注。
3、本发明提高了生物医学事件触发词的召回率和准确率。
附图说明
图1为本发明的系统架构图。
图2为本发明的系统流程图。
图3为本发明的方法流程图。
图4为本发明实施例特征抽取所利用到的句法依存关系树图。
具体实施方式
下面结合说明书附图对本发明创造作进一步的详细说明。
如图2所示,本发明的系统主要包括预处理模块、标注模型建立模块和标注模块,具体包括如下:
系统的输入可以是语料库和待标记的文本,系统的输出为待标记文本的事件触发词标注序列。
预处理模块的功能是实现分词、蛋白质分子识别、特征抽取和预标记。当输入为语料库时经过预理模块的处理就得到训练和测试样本集,当输入为待标记文本时,预处理就不需要预标记,直接将特征抽取之后的单词序列特征集作为输入之一交给标注模块。
标注模型建立模块将预处理之后的训练样本集经过训练建立标注模型,并以CRFs模型文件的形式保存下来,该模型文件中包含了各个特征函数的权重。
标注模块则利用上述模型文件对待标记文本预处理之后的结果进行触发词标注,输出文本的生物医学触发词标注序列。
如图3所示,本发明的系统实现方法需要经过序列文本预处理、训练和标注三个步骤,具体包括如下:
(1)序列文本预处理
序列文本预处理需要将原始文本进行分词、蛋白质分子识别、特征抽取、预标记等步骤。
(1-1)分词
即将原始文本分割成单词序列,如例1,语句“Down-regulationofinterferonregulatoryfactor4geneexpressioninleukemiccellsduetohypermethylationofCpGmotifsinthepromoterregion.”经过分词之后成为
每条语句之后留有一空行作为分隔行。
(1-2)蛋白质分子识别
即利用abner命名实体识别工具找出语句中的蛋白质分子,例1中的语句经过识别之后找到“interferonregulatoryfactor4”为蛋白质分子,替换之后的语句如例2:“Down-regulationofProtein1geneexpressioninleukemiccellsduetohypermethylationofCpGmotifsinthepromoterregion.”
(1-3)特征抽取包括
抽取单词的句法特征和语义特征。
句法特征又包括词形特征、词性特征、ngram上下文特征。
词形特征包括单词本身一些词性特征,如是否为数字、是否为数字和字符的组合、是否包含有“+、-、/”这样的符号、首字母是否大写,是否全大写,是否全小写等,这些特征可以借助字符串处理函数和正则表达式来获取,如判断是否包含“-”,可以用java语言中String.contains()函数判断。所有特征抽取之后组成的特征向量都排列在单词所在行中,如语句例2经过抽取句法特征之后:
数字 数字和字符组合 包含连字符 首字母大写 全大写 全小写
Down-regulation 0 0 1 1 0 0
of 0 0 0 0 0 1
Protein1 0 1 0 1 0 0
gene 0 0 0 0 0 1
expression 0 0 0 0 0 1
in 0 0 0 0 0 1
leukemic 0 0 0 0 0 1
cells 0 0 0 0 0 1
due 0 0 0 0 0 1
to 0 0 0 0 0 1
hypermethylation 0 0 0 0 0 1
of 0 0 0 0 0 1
CpG 0 0 0 1 0 0
motifs 0 0 0 0 0 1
in 0 0 0 0 0 1
the 0 0 0 0 0 1
promoter 0 0 0 0 0 1
region 0 0 0 0 0 1
. 0 0 0 0 0 0
单词的词性特征和语义特征都可以由GDep工具得到,如例2中的句子经过GDep工具分析之后变成:
其中,第一列为单词在语句中的索引,第二列为单词本身,第三列为单词词干化的结果,得到单词的基本形式,去掉单词的复数和语态的辅助形式等,如单词“cells”的基本形为“cell”。第四列为块标记,主要是识别语句中的词组,为命名实体识别做准备,如“leukemiccells”就是一个词组。第五列为词性,表明单词是名词还是动词,作为触发词而言,主要是一些动词和一些动名词,如单词“Down-regulation”和“expression”都是“NN”的名词。第六列为命名实体,目前可以识别蛋白质分子、DNA、RNA、细胞型、细胞线等类型的实体。第七列依存关系中父节点的索引,根据这个位置很快能够得到语句的依存关系树,如图4所示。第八列是单词与父节点之间的依存关系名。
句法特征中单词的ngram特征则由单词周围的n个词一起并列给出,n一般取3或者5。如例2中,单词“expression”若取3-gram特征就是“3-gram=geneexpressionin”,也可以表示成“3-gram-left=Protein1geneexpression”或“3-gram-right=expressioninleukemic”。
语义特征包括语义ngram特征、与protein的最短距离特征,这两个特征都是从依存关系树出发,在根到叶结点的路径上抽取的特征,语义ngram特征中一般取n的值为2,如“semantic-2-gram-dependency=ProteinNMODexpression”。与protein的最短距离特征指的是离当前节点最近的protein之间的路径长度,一般而言,能够作为触发词的单词周围都会有protein。如单词“expression”与“Protein1”的距离就是1,同一层中的单词之间语义上的距离为无穷大,因为它们之间没有语义上的依赖关系,这也是句法特征和语义特征的巨大差别。
将以上所有特征都组织在一个特征向量中,保存在单词所以对应的行中。
(1-4)预标记
本发明所利用的BIONLP2011语料库中训练样本已经标注的触发词信息,但在缺乏语料库的情况下需要经过领域专家在经验指导下标记触发词方可进行训练,如中文的生物医学文献就缺少这种已经标注的语料库。
(2)训练
训练过程主要在序列文本预处理基础上建立生物医学事件的触发词标注模型。首先要构造特征函数,如例3:
表中是经过预处理之后得到的单词序列部分特征向量,特征0为单词本身,特征1为词性,特征2为单词的3-gram上下文,特征3为距离最近的protein的路径长度,标记为触发词标记,其中T为触发词,P为蛋白质,M为符号,O为一般单词。以当前词“expression”为例构造特征函数则有:
b 1 ( X , i ) = 1 i f X i = exp r e s s i o n 0 o t h e r w i s e
t 1 ( Y i - 1 , Y i , X , i ) = b ( X , i ) i f Y i - 1 = O , Y i = T 0 o h t e r w i s e
s 1 ( Y i , X , i ) = b ( X , i ) i f Y i = T 0 o h t e r w i s e
b 2 ( X , i ) = 1 i f X i = N N 0 o t h e r w i s e
t 2 ( Y i - 1 , Y i , X , i ) = b ( X , i ) i f Y i - 1 = O , Y i = T 0 o h t e r w i s e
s 2 ( Y i , X , i ) = b ( X , i ) i f Y i = T 0 o h t e r w i s e
b 3 ( X , i ) = 1 i f X i = ( g e n e exp r e s i o n i n ) 0 o t h e r w i s e
t 3 ( Y i - 1 , Y i , X , i ) = b ( X , i ) i f Y i - 1 = O , Y i = T 0 o h t e r w i s e
s 3 ( Y i , X , i ) = b ( X , i ) i f Y i = T 0 o h t e r w i s e
b 4 ( X , i ) = 1 i f X i = 1 0 o t h e r w i s e
t 4 ( Y i - 1 , Y i , X , i ) = b ( X , i ) i f Y i - 1 = O , Y i = T 0 o h t e r w i s e
s 4 ( Y i , X , i ) = b ( X , i ) i f Y i = T 0 o h t e r w i s e
单词本身连同3个特征共生成4个转移特征函数和4个状态特征函数,将这些特征函数代入CRFs模型,训练得到每个特征函数对应的权值,就得到了生物医学事件的触发词标注模型。
(3)标注
本发明在训练得到了CRFs事件触发词标注模型之后,就可以利用该模型进行触发词标注。为了评测标注结果的性能,可以将预标记的语料按照4:1的比例分成训练集和测试集两部分,其中训练集用于建立模型,测试集用于评估性能。本发明直接利用BIONLP2011语料库中的测试集进行了评测,取得很好效果。
本发明提供了一种生物医学事件的触发词标注方法,该方法能够以整个观察序列为条件,使得触发词标注更加全局化,无需对输出做任何独立性假设,提高了生物医学事件的触发词识别性能。

Claims (10)

1.一种生物医学事件的触发词标注系统,其特征在于,所述系统包括预处理模块、标注模型建立模块、标注模块;
预处理模块:用于将原始文本分隔成单词的序列,从单词序列中识别出蛋白质分子,抽取每个单词的句法特征和语义特征,预标记单词序列,为训练和测试准备相应的训练样本集和测试样本集;
标注模型建立模块:用于建立特征模板,生成序列的特征函数的集合,估计CRFs模型参数,建立CRFs触发词标注模型;
标注模块:用于以训练得到的CRFs触发词标注模型为参数求待标记单词序列的联合概率,找到其最大值所对应的标记序列,即为标注结果。
2.根据权利要求1所述的一种生物医学事件的触发词标注系统,其特征在于:所述预处理模块包括分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。
3.根据权利要求2所述的一种生物医学事件的触发词标注系统,其特征在于:所述的分词单元用于将原始的文本分隔成单词序列,英文的单词间有天然的空格作为分隔符,用分隔符分词之后每行一个单词,标点符号也占一行,语句之间留一空行作为分隔。
4.根据权利要求2所述的一种生物医学事件的触发词标系统,其特征在于:所述的蛋白质分子识别单元用于找出单词序列中的蛋白质分子,有大量蛋白质分子全称是由多个单词甚至还有希腊字母和数字组成,为了排除这些词对触发词标注的干扰,将识别出的蛋白质分子都统一替换成Protein+数字的形式。
5.根据权利要求2所述的一种生物医学事件的触发词标注系统,其特征在于:所述的特征抽取单元用于抽取每个单词词性、词形句法特征以及语义特征,生成单词特征向量编列在单词所在行中。
6.根据权利要求2所述的一种生物医学事件的触发词标注系统,其特征在于:所述的预标记单元用于准备标记样本,样本的真值在领域专家的指导下,对单词序列进行预标记,标记的结果编列在单词所在行的特征之后,也就是行的末尾。
7.一种生物医学事件的触发词标注系统的实现方法,其特征在于:所述方法采用基于条件随机域模型的机器学习方法对未知文本进行生物医学事件的触发词标注,包括如下步骤:
步骤1:序列文本预处理,为建立CRFs触发词标注模型准备好训练样本,包括获得单词序列、蛋白质分子命名实体识别、抽取单词句法特征和语义特征、预标记单词序列;
步骤2:训练,利用CRF++工具以上述训练样本为参数学习得到各个特征函数的权值,建立CRFs触发词标注模型;
步骤3:标注,利用CRFs事件触发词标注模型求一条语句的标记联合概率找到联合概率最大时所对应的标记序列Y就是语句的标注,得到事件触发词。
8.根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法,其特征在于:所述序列文本预处理包括四个步骤:即分词、蛋白质分子识别、特征抽取和预标记;
(1)分词:首先利用字符串处理函数将原始文本分成语句序列,再将每一条语句分成单词序列,分词过程中保留标点符号,而且为标点符号单独分配一行,便于训练时考虑单词的上下文关系;
(2)蛋白质分子识别:生物医学事件包括事件触发词和事件主体,事件的主体是蛋白质分子和一些嵌套的事件,也就是触发词和蛋白质分子是相联系的,蛋白质分子识别有助于触发词标注,利用命名实体识别工具abner来识别蛋白质分子,并将按照各种书写习惯书写的蛋白质分子标准化为“Protein+数字”的形式;
(3)特征抽取:抽取每个单词的各种句法特征和语义特征,抽取句法特征借助于字符串处理函数判断单词是否有数字、是否数字和字符的组合、是否有下划线、是否包含连字符、是否首字母大写是否全大写、是否全小写等词形特征,词性特征和语义特征由GDep工具对语句剖析之后得到;
(4)预标记:预标记为人工标记或根据领域知识半自动的标记,只有训练和测试才需要预标记,对于待标记文本则无需此步骤。
9.根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法,其特征在于:所述训练步骤中编写特征模板文件是关键,按照CRFs模型的模板文件格式要求编写特征模版,特征模版决定了训练样本中哪些特征参与训练,根据测试性能的高低需要修改特征模板重新训练生成新的模型文件model,以此选择最有利于提高触发词标注性能的特征组合。
10.根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法,其特征在于,所述标注的过程就是利用上述学习得到的模型文件model为参数求语句的联合概率,找到联合概率最大时所对应的标记序列,即为所求的事件触发词标注序列。
CN201510714177.2A 2015-10-28 2015-10-28 一种生物医学事件的触发词标注系统及方法 Active CN105260361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510714177.2A CN105260361B (zh) 2015-10-28 2015-10-28 一种生物医学事件的触发词标注系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510714177.2A CN105260361B (zh) 2015-10-28 2015-10-28 一种生物医学事件的触发词标注系统及方法

Publications (2)

Publication Number Publication Date
CN105260361A true CN105260361A (zh) 2016-01-20
CN105260361B CN105260361B (zh) 2019-07-19

Family

ID=55100057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510714177.2A Active CN105260361B (zh) 2015-10-28 2015-10-28 一种生物医学事件的触发词标注系统及方法

Country Status (1)

Country Link
CN (1) CN105260361B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095754A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种医学术语词库词性标注方法
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN106933803A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 一种面向多数据源的医疗器材类实体识别方法及装置
CN106933805A (zh) * 2017-03-14 2017-07-07 陈飞 一种大数据集中生物事件触发词的识别方法
WO2018082569A1 (zh) * 2016-11-04 2018-05-11 华为技术有限公司 序列转换方法及装置
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108491472A (zh) * 2018-03-07 2018-09-04 新博卓畅技术(北京)有限公司 一种基于crf++分词构建医疗特征库的方法和系统
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN108958117A (zh) * 2018-07-20 2018-12-07 中国科学院深圳先进技术研究院 用于生物学实验的事件标记同步系统、方法及装置
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109635046A (zh) * 2019-01-15 2019-04-16 金陵科技学院 一种基于CRFs的蛋白质分子名称分析与识别方法
CN109947891A (zh) * 2017-11-07 2019-06-28 北京国双科技有限公司 文书解析方法及装置
CN110276023A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140254772A1 (en) * 2013-03-11 2014-09-11 Metaswitch Networks Ltd Unusual event detection in a telecommunications network
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140254772A1 (en) * 2013-03-11 2014-09-11 Metaswitch Networks Ltd Unusual event detection in a telecommunications network
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
孙静等: "基于条件随机场的无监督中文词性标注", 《计算机应用与软件》 *
洪铭材等: "基于条件随机场(CRFs)的中文词性标注方法", 《计算机科学》 *
王琦: "词典和机器学习相结合的生物命名实体识别", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
王静等: "基于概率模型的 Web 信息抽取", 《模式识别与人工智能》 *
陈小荷编著: "《先秦文献信息处理》", 31 January 2013 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095754A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种医学术语词库词性标注方法
CN106095754B (zh) * 2016-06-08 2018-06-19 广州同构医疗科技有限公司 一种医学术语词库词性标注方法
US11132516B2 (en) 2016-11-04 2021-09-28 Huawei Technologies Co., Ltd. Sequence translation probability adjustment
WO2018082569A1 (zh) * 2016-11-04 2018-05-11 华为技术有限公司 序列转换方法及装置
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN106933803A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 一种面向多数据源的医疗器材类实体识别方法及装置
CN106844351B (zh) * 2017-02-24 2020-02-21 易保互联医疗信息科技(北京)有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN106933803B (zh) * 2017-02-24 2020-02-21 黑龙江特士信息技术有限公司 一种面向多数据源的医疗器材类实体识别方法及装置
CN106933805B (zh) * 2017-03-14 2020-04-28 陈一飞 一种大数据集中生物事件触发词的识别方法
CN106933805A (zh) * 2017-03-14 2017-07-07 陈飞 一种大数据集中生物事件触发词的识别方法
CN109947891A (zh) * 2017-11-07 2019-06-28 北京国双科技有限公司 文书解析方法及装置
CN108491472A (zh) * 2018-03-07 2018-09-04 新博卓畅技术(北京)有限公司 一种基于crf++分词构建医疗特征库的方法和系统
CN108897989B (zh) * 2018-06-06 2020-05-19 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN108958117B (zh) * 2018-07-20 2021-11-05 中国科学院深圳先进技术研究院 用于生物学实验的事件标记同步系统、方法及装置
CN108958117A (zh) * 2018-07-20 2018-12-07 中国科学院深圳先进技术研究院 用于生物学实验的事件标记同步系统、方法及装置
CN109344187B (zh) * 2018-08-28 2021-11-12 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109635046B (zh) * 2019-01-15 2023-04-18 金陵科技学院 一种基于CRFs的蛋白质分子名称分析与识别方法
CN109635046A (zh) * 2019-01-15 2019-04-16 金陵科技学院 一种基于CRFs的蛋白质分子名称分析与识别方法
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN110276023B (zh) * 2019-06-20 2021-04-02 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110276023A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110609896B (zh) * 2019-07-19 2022-03-22 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN111353306B (zh) * 2020-02-22 2020-10-16 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Also Published As

Publication number Publication date
CN105260361B (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN105260361B (zh) 一种生物医学事件的触发词标注系统及方法
Akhter et al. Document-level text classification using single-layer multisize filters convolutional neural network
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
CN110321432A (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN108897989A (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN108628970A (zh) 一种基于新标记模式的生物医学事件联合抽取方法
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN109783636B (zh) 一种基于分类器链的汽车评论主题提取方法
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN105335350A (zh) 一种基于集成学习的语种识别方法
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和系统
Yousif Hidden Markov Model tagger for applications based Arabic text: A review
CN106776866A (zh) 一种对高校网站上的会议稿进行知识抽取的方法
Liu et al. Morphological reinflection with conditional random fields and unsupervised features
Xing et al. Phenotype extraction based on word embedding to sentence embedding cascaded approach
Rustamov et al. An application of hidden Markov models in subjectivity analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant