CN114925694B - 一种利用实体判别信息来提高生物医学命名体识别的方法 - Google Patents
一种利用实体判别信息来提高生物医学命名体识别的方法 Download PDFInfo
- Publication number
- CN114925694B CN114925694B CN202210513350.2A CN202210513350A CN114925694B CN 114925694 B CN114925694 B CN 114925694B CN 202210513350 A CN202210513350 A CN 202210513350A CN 114925694 B CN114925694 B CN 114925694B
- Authority
- CN
- China
- Prior art keywords
- model
- ner
- features
- biobert
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003915 cell function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种利用实体判别信息来提高生物医学命名体识别的方法,涉及生物医学命名体识别。包括以下步骤:1)构建EJNER模型,将EJ任务和NER任务结合的方法,称之为EJNER;EJNER模型包括EJ模型、NER模型和特征融合模块;2)定义EJ任务并训练EJ模型;3)将EJ模型提取的特征和NER模型提取的特征通过相加、门控单元、多头注意力机制方法融合,利用融合后的特征进行预测。可缓解实体边界错误分类问题。不仅仅适用于BioNER任务,同样适用于一般的命名体识别任务。
Description
技术领域
本发明涉及生物医学命名体识别,尤其是涉及一种利用实体判别信息来提高生物医学命名体识别的方法。
背景技术
随着生物医学文本的数量迅速增加,大规模的生物医学文本挖掘成为一项必不可少的任务,用来帮助研究人员专注于相关文档中的有用信息。在生物医学文本挖掘领域中,生物医学命名体识别(Biomedical Named Entity Recognition,BioNER)是重要的子任务之一,通过BioNER模型识别出类似疾病、基因、蛋白质等在给定文本中出现的实体,然后将模型识别出的实体用于下游的任务和应用。
近年来,深度学习方法在自然语言处理(Natural Language Processing,NLP)领域取得了重大进展,因此,目前对BioNER的研究主要集中在基于深度学习的方法上。随着大规模的预训练语言模型的提出,比如基于转换器的双向编码特征(Bidirectional EncoderRepresentations from Transformers,BERT),其在多个NLP基准任务上取得了巨大的效果提升,这证明预训练语言模型和深度学习方法的有效性。
尽管一些基于深度学习的研究工作在BioNER中取得重大进展,但在这些研究工作中,普遍存在实体边界错误分类的问题。
表1实体边界错误分类案例分析
如表1所示,第一行是实际的参考,第二行是当前在BioNER任务上效果最好的BioBERT模型预测的结果,“B”表示一个实体预测的开始,在其后第一个预测的“O”表示实体预测的结束。可以看到,实体“autosomal dominant condition”包含三个单词,但是BioBERT仅仅预测两个词,缺少最后一个单词“condition”,这是比较典型的实体边界错误分类。
发明人研究发现,利用BioBERT模型仅仅判断给定文本中的一个单词是否是实体,即实体判断(Entity Judgement,EJ)任务,遇到上述实体边界错误分类的情况较少。具体来说,通过分析BioBERT模型在NCBI-disease数据集上的预测结果,发现在BioNER任务中有64个实体边界错误分类,而在EJ任务中只有38个实体边界错误分类,这一结果表明,EJ模型相比较BioNER模型遇到实体边界问题更少;此外,人类在标注NER数据时,会先判断一个单词是否是实体,然后为其选择一个类型。但目前并没有研究工作尝试将EJ和BioNER两个任务结合起来。
发明内容
本发明的目的在于根据上述在NCBI-disease数据集上的统计分析以及人类标注NER数据时的行为,针对目前的研究工作在BioNER任务上存在实体边界分类错误的问题,提供一种利用实体判别信息来提高生物医学命名体识别的方法。本发明将EJ任务和NER任务结合的方法,称之为EJNER。通过将EJ模型提取的特征和NER模型提取的特征进行融合,然后利用融合后的特征进行预测。
本发明包括以下步骤:
1)构建EJNER模型,包括EJ模型、NER模型和特征融合模块;
2)定义EJ任务并训练EJ模型;
3)将EJ模型提取的特征和NER模型提取的特征融合,利用融合后的特征进行预测。
在步骤1)中,所述EJ模型作为EJ特征提取模块用于提取可以判断单词是否为实体的特征;NER模型作为NER特征提取模块用于提取可以进行实体识别的特征;特征融合模块用于通过相加、门控单元或多头注意力机制三种融合方式将EJ特征和NER特征两种不同的特征融合在一起。
在步骤2)中,所述定义EJ任务并训练EJ模型的具体步骤可为:首先给出EJ任务的形式化定义,假设输入为X={x1,x2,…,xn},其中,xi表示序列X中第i个单词,n是序列的长度,若xi是一个实体,则将其标记为“I”,否则标记为“O”;使用预训练语言模型BioBERT获取词嵌入,即给定X,xi的词嵌入为其中,d表示词嵌入hi的维度;在获得输入序列的词嵌入后,将其输入到输出层进行预测,概率预测公式如下所示:
P(m|xi)=softmax(hiW+b) (1)
其中,都是模型中可训练的参数,m表示xi的类别数目,softmax是一个可以将多分类的输出值转换为范围在[0,1]且和为1的函数,其公式如下所示:
其中,zi是第i个节点的输出值,m为输出节点个数,也就是分类的类别个数;在得到预测概率后,可以得到EJ任务的损失函数:
其中,N表示序列的长度,当xi的预测类别和c相等时,yic=1,否则yic=0。
在步骤3)中,所述将EJ模型提取的特征和NER模型提取的特征融合,EJNER模型有两个特征提取器:一个是使用BioBERT在EJ任务上提取的特征,称之为BioBERTEJ,该模型在步骤2)中已经训练完毕;另一个是使用BioBERT在NER任务上提取的特征,称之为BioBERTNER;将BioBERTEJ模型的参数固定,以避免在训练BioBERTNER模型过程中,改变BioBERTEJ模型的参数;给定输入序列X,BioBERTEJ提取的特征为BioBERTNER提取的特征为/>在得到两个特征后,将两个特征融合,假设融合后的特征用fmerged表示,采用如下三种特征融合方式:
第一种是简单的将两种特征相加:
这种取均值的方式比较简单;
第二种是使用门控单元:
fmerged=g(fEJ,fNER) (5)
g(fEJ,fNER)=αfEJ+(1-α)fNER (6)
α=sigmoid(fEJWEJ+fNERWNER) (7)
其中,g表示门控单元函数,均是可训练参数,d是特征的维度,sigmoid用来将实数映射到(0,1)区间,假设实数值为x,则计算公式如下:
相比较简单相加的方式,门控单元可以动态的控制不同特征的权重;
第三种是通过多头注意力机制,该方法使得特征之间可以互相交互:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (9)
headi=Attention(QWi Q,KWi K,VWi V) (10)
均为模型的可学习参数,h表示head的个数,n表示输入序列的长度,d表示特征维度,dk和dv表示输出维度,令Q=fEJ、K=V=fNER;
最后,EJNER模型的预测和损失函数与EJ模型一致。
与现有技术相比,本发明具有以下突出的优点和技术效果:
本发明针对目前在BioNER任务上的方法普遍存在实体边界错误分类的问题,通过统计发现EJ任务相比较BioNER任务,遇到实体边界错误分类情况较少,结合人类在标注NER数据时,会先判断是否是实体,然后确定实体类别的行为,提出一种将EJ模型和NER模型结合起来的新模型EJNER,即分别利用EJ模型和NER模型作为不同的特征提取器,在提取各自的特征后,通过相加、门控单元、多头注意力机制方法将两种特征进行融合,从而进一步缓解实体边界错误分类问题。并且,本发明不仅仅适用于BioNER任务,同样适用于一般的命名体识别任务。
附图说明
图1为EJNER的模型架构图。
图2为多头注意力机制特征融合方式结构图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图1所示,本发明实施例包括以下步骤:
1)构建EJNER模型;所述的EJNER模型主要由三个模块组成,分别为EJ特征提取模块、NER特征提取模块、特征融合模块。其中,EJ特征提取模块主要用来提取可以判断单词是否为实体的特征;NER特征提取模块主要用来提取可以进行实体识别的特征;特征融合模块则是通过相加、门控单元或多头注意力机制将两种不同的特征融合在一起。
2)定义EJ任务并训练EJ模型;首先给出EJ任务的形式化定义,假设输入为X={x1,x2,…,xn},其中xi表示序列X中第i个单词,n是序列的长度,若xi是一个实体,则将其标记为“I”,否则标记为“O”。使用预训练语言模型BioBERT获取词嵌入,即给定X,xi的词嵌入为其中d表示词嵌入hi的维度。在获得输入序列的词嵌入后,将其输入到输出层进行预测,概率预测公式如下所示:
P(m|xi)=softmax(hiW+b) (1)
其中,都是模型中可训练的参数,m表示xi的类别数目,softmax是一个可以将多分类的输出值转换为范围在[0,1]且和为1的函数,其公式如下所示:
其中,zi是第i个节点的输出值,m为输出节点个数,即分类的类别个数。在得到预测概率后,最终可以得到EJ任务的损失函数:
其中,N表示序列的长度,当xi的预测类别和c相等时,yic=1,否则yic=0。
3)将EJ模型提取的特征和NER模型提取的特征融合;本发明的EJNER模型主要有两个特征提取器:一个是使用BioBERT在EJ任务上提取的特征,称之为BioBERTEJ,该模型在步骤2)中已经训练完毕;另一个是使用BioBERT在NER任务上提取的特征,称之为BioBERTNER。因为在训练BioBERTNER模型过程中,会改变BioBERTEJ模型的参数,因此本发明将BioBERTEJ模型的参数固定。给定输入序列X,BioBERTEJ提取的特征为BioBERTNER提取的特征为/>在得到两个特征后,需要将它们融合,假设融合后的特征用fmerged表示,有三种特征融合方式:第一种是简单的将两种特征相加:
这种取均值的方式比较简单,有时也是一种比较有效的方法;第二种是使用门控单元:
fmerged=g(fEJ,fNER) (5)
g(fEJ,fNER)=αfEJ+(1-α)fNER (6)
α=sigmoid(fEJWEJ+fNERWNER) (7)
其中,g表示门控单元函数,均是可训练参数,d是特征的维度,sigmoid是深度学习中一个常见的激活函数,用来将实数映射到(0,1)区间,假设实数值为x,则计算公式如下:
相比较第一种方式,门控单元可以动态的控制不同特征的权重;第三种是通过多头注意力机制,使得特征之间可以互相交互:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (9)
headi=Attention(QWi Q,KWi K,VWi V) (10)
其中,均为模型的可学习参数,h表示head的个数,n表示输入序列的长度,d表示特征维度,dk和dv表示输出维度,令Q=fEJ、K=V=fNER。最后,EJNER模型的预测和损失函数与EJ模型一致。
表2给出部分关于BioNER实体识别案例研究。
表2 BioNER案例分析
如表2所示,给出原始句子以及其对应的参考预测结果,在第三行中,BioBERT是当前在BioNER任务上效果最好的模型,但是其将“condition”单词预测为“O”,这意味其预测的实体为“autosomal dominant”,实体边界错误分类,而本发明提出的EJNER,在BioBERT的基础上,融入EJ模型的特征,可以准确的区分实体的边界,并且EJ模型不仅可以准确的判断单词“condition”为实体,即预测结果为“I”,而且也能准确判断出其它单词类别。
图1给出EJNER模型的整体框架。其中,左边部分是EJ模型结构图,使用BioBERT模型进行参数初始化并在EJ任务上进行训练;右边部分是EJNER模型结构图,其中BioBERTEJ模型使用在EJ任务上训练的模型参数,并将其固定,BioBERTNER模型则参数可以训练更新。右边部分自底向上,输入经过BioBERTEJ和BioBERTNER模型后,得到对应的特征fEJ和fNER,然后将两类特征通过融合层进行融合,这里有相加、门控单元、多头注意力机制三种融合方式,最后经过Softmax函数计算类别的概率分布,然后计算损失并反向传播更新模型参数。
图2是多头注意力机制融合方法的结构图,fEJ是BioBERTEJ提取的特征,fNER是BioBERTNER提取的特征,相比较传统注意力机制,这里的Q=fEJ、K=V=fNER,将特征输入到多头注意力层,经过相加和正则化,即可得到最终的输出。
Claims (3)
1.一种利用实体判别信息来提高生物医学命名体识别的方法,其特征在于包括以下步骤:
1)构建EJNER模型,包括EJ模型、NER模型和特征融合模块;
2)定义EJ任务并训练EJ模型,具体步骤为:首先给出EJ任务的形式化定义,假设输入为X={x1,x2,…,xn},其中,xi表示序列X中第i个单词,n是序列的长度,若xi是一个实体,则将其标记为“I”,否则标记为“O”;使用预训练语言模型BioBERT获取词嵌入,即给定X,xi的词嵌入为其中,d表示词嵌入hi的维度;在获得输入序列的词嵌入后,将其输入到输出层进行预测,概率预测公式如下所示:
P(m|xi)=softmax(hiW+b) (1)
其中,都是模型中可训练的参数,m表示单词分类的类别数量,softmax是一个将多分类的输出值转换为范围在[0,1]且和为1的函数,其公式如下所示:
其中,zi表示第i个节点的输出值,m表示单词分类的类别数量;在得到预测概率后,得到EJ任务的损失函数:
其中,N表示序列的长度,当xi的预测类别和c相等时,yic=1,否则yic=0;
3)将EJ模型提取的特征和NER模型提取的特征融合,利用融合后的特征进行预测;
所述将EJ模型提取的特征和NER模型提取的特征融合,EJNER模型有两个特征提取器:一个是使用BioBERT在EJ任务上提取的特征,称之为BioBERTEJ,该EJ模型在步骤2)中已经训练完毕;另一个NER模型是使用BioBERT在NER任务上提取的特征,称之为BioBERTNER;将BioBERTEJ模型的参数固定,以避免在训练BioBERTNER模型过程中,改变BioBERTEJ模型的参数;给定输入序列X,BioBERTEJ提取的特征为BioBERTNER提取的特征为/>在得到两个特征后,将两个特征融合,假设融合后的特征用fmerged表示,采用三种特征融合方式。
2.如权利要求1所述一种利用实体判别信息来提高生物医学命名体识别的方法,其特征在于在步骤1)中,所述EJ模型作为EJ特征提取模块用于提取可以判断单词是否为实体的特征;所述NER模型作为NER特征提取模块用于提取可以进行实体识别的特征;所述特征融合模块用于通过相加、门控单元或多头注意力机制三种融合方式将EJ特征和NER特征两种不同的特征融合在一起。
3.如权利要求1所述一种利用实体判别信息来提高生物医学命名体识别的方法,其特征在于在步骤3)中,所述三种特征融合方式如下:
第一种是简单的将两种特征相加:
这种取均值的方式比较简单;
第二种是使用门控单元:
fmetged=g(fEJ,fNER) (5)
g(fEJ,fNER)=αfEJ+(1-α)fNER (6)
α=sigmoid(fEJWEJ+fNERWNER) (7)
其中,g表示门控单元函数,均是可训练参数,d是特征的维度,sigmoid用来将实数映射到(0,1)区间,假设实数值为x,则计算公式如下:
相比较简单相加的方式,门控单元可以动态的控制不同特征的权重;
第三种是通过多头注意力机制,该方法使得特征之间可以互相交互:
MultiHed(Q,K,V)=Concat(head1,…,headh)WO (9)
headi=Attention(QWi Q,KWi K,VWi V) (10)
均为模型的可学习参数,h表示head的个数,n表示输入序列的长度,d表示特征维度,dk和dv表示输出维度,令Q=fEJ、K=V=fNER;
最后,EJNER模型的预测和损失函数与EJ模型一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210513350.2A CN114925694B (zh) | 2022-05-11 | 2022-05-11 | 一种利用实体判别信息来提高生物医学命名体识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210513350.2A CN114925694B (zh) | 2022-05-11 | 2022-05-11 | 一种利用实体判别信息来提高生物医学命名体识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114925694A CN114925694A (zh) | 2022-08-19 |
CN114925694B true CN114925694B (zh) | 2024-06-04 |
Family
ID=82808823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210513350.2A Active CN114925694B (zh) | 2022-05-11 | 2022-05-11 | 一种利用实体判别信息来提高生物医学命名体识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925694B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178080A (zh) * | 2020-01-02 | 2020-05-19 | 杭州涂鸦信息技术有限公司 | 一种基于结构化信息的命名实体识别方法及系统 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN112347785A (zh) * | 2020-11-18 | 2021-02-09 | 湖南国发控股有限公司 | 一种基于多任务学习的嵌套实体识别系统 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113723103A (zh) * | 2021-08-26 | 2021-11-30 | 北京理工大学 | 融合多源知识的中文医学命名实体和词性联合学习方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725666B2 (en) * | 2010-02-26 | 2014-05-13 | Lawrence Livermore National Security, Llc. | Information extraction system |
US11307541B2 (en) * | 2019-09-06 | 2022-04-19 | Intelligent Fusion Technology, Inc. | Decision support method and apparatus for machinery control |
CA3168488A1 (en) * | 2020-01-21 | 2021-07-29 | Ancestry.Com Operations Inc. | Joint extraction of named entities and relations from text using machine learning models |
-
2022
- 2022-05-11 CN CN202210513350.2A patent/CN114925694B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178080A (zh) * | 2020-01-02 | 2020-05-19 | 杭州涂鸦信息技术有限公司 | 一种基于结构化信息的命名实体识别方法及系统 |
CN112347785A (zh) * | 2020-11-18 | 2021-02-09 | 湖南国发控股有限公司 | 一种基于多任务学习的嵌套实体识别系统 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113723103A (zh) * | 2021-08-26 | 2021-11-30 | 北京理工大学 | 融合多源知识的中文医学命名实体和词性联合学习方法 |
Non-Patent Citations (2)
Title |
---|
一个统计与规则相结合的中文命名实体识别系统;向晓雯, 史晓东, 曾华琳;计算机应用;20051028(第10期);全文 * |
一种基于提取上下文信息的分词算法;曾华琳, 李堂秋, 史晓东;计算机应用;20050928(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114925694A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN110096711B (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
KR102361616B1 (ko) | 문맥 정보를 고려한 개체명 인식 방법 및 장치 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN114065848A (zh) | 一种基于预训练情感嵌入的中文方面级别情感分类方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN112269874A (zh) | 一种文本分类方法及系统 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
Hong et al. | Interpretable sequence classification via prototype trajectory | |
CN111259147A (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
JPH0934863A (ja) | ニューラルネットワークによる情報統合処理方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN113297374A (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN114925694B (zh) | 一种利用实体判别信息来提高生物医学命名体识别的方法 | |
CN116821340A (zh) | 基于深度学习的多标签文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |