CN115510864A - 一种融合领域词典的中文农作物病虫害命名实体识别方法 - Google Patents
一种融合领域词典的中文农作物病虫害命名实体识别方法 Download PDFInfo
- Publication number
- CN115510864A CN115510864A CN202211259420.2A CN202211259420A CN115510864A CN 115510864 A CN115510864 A CN 115510864A CN 202211259420 A CN202211259420 A CN 202211259420A CN 115510864 A CN115510864 A CN 115510864A
- Authority
- CN
- China
- Prior art keywords
- entity
- training
- model
- sequence
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000607479 Yersinia pestis Species 0.000 title claims abstract description 50
- 201000010099 disease Diseases 0.000 title claims abstract description 35
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 241000238631 Hexapoda Species 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 244000052769 pathogen Species 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000002265 prevention Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013508 migration Methods 0.000 abstract 1
- 230000005012 migration Effects 0.000 abstract 1
- 239000003814 drug Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合领域词典的中文农作物病虫害命名实体识别方法,包括步骤1:建立农作物病虫害命名实体识别的语料库;步骤2:对语料进行预处理获得数据集并进行标注;步骤3:利用ALBERT预训练语言模型进行训练;步骤4:将ALBERT预训练模型的输出进行对抗训练,生成对抗样本;步骤5:得到的文本向量通过BiLSTM层提取上下文特征;步骤6:再结合CRF层得到农作物病虫害命名实体识别的最优标注序列;步骤7:最后辅以自构建的小规模领域词典对遗漏、错误识别实体加以校正。本发明解决了农作物病虫害领域命名实体识别过程中存在的上下文语义特征获取不充分、实体构造较复杂、通用模型迁移效果差的问题。
Description
技术领域
本发明属于农业信息技术领域,涉及信息抽取,更具体地,涉及一种融合领域词典的中文农作物病虫害命名实体识别方法。
背景技术
命名实体识别是自然语言处理任务中实体关系抽取的基础和关键。农作物病虫害防治相关信息存储于海量非结构化文本中,农户无法方便使用该类防治信息,将农业文本数据与科技相融合,形成科学有效的信息化防治体系,对农户提供高质量的防治信息服务,可最大限度的降低病虫害灾害对产量的影响。农作物病虫害领域的命名实体识别主要任务是对非结构化数据中的特定词和专业术语进行识别,如作物、虫害、药剂等实体。同时,农业病虫害领域的命名实体识别是构建农业自动问答系统、农业知识图等下游任务不可或缺的组成部分。
中文农作物病虫害命名实体识别任务传统方法主要采用基于词典和规则的方法和机器学习等方法。虽然这些方法表现尚可,但是依赖于人工特征模板,无法自动的挖掘文本特征,耗时繁琐提高了应用成本。端到端的深度学习速度更快,泛化性能更强,成为了主流方法,开始使用该类方法以解决农业领域的命名实体识别任务。
由于农作物病虫害实体长度较长,与上下文信息联系较强,需充分结合上下文,以丰富语义特征;农作物病虫害实体构造较复杂,实体构成常包括汉字数字字母等;在文本中存在大量的特定词和专业术语,通用模型效果较差,不易将通用模型迁移到该领域。以上所述都会给农作物病虫害的命名实体识别造成困难,使识别效果不理想。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供了一种融合领域词典的中文农作物病虫害命名实体识别方法,提高了对于中文农作物病虫害命名实体识别的准确率、召回率和F1值,提升识别农作物病虫害实体的效果。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种融合领域词典的中文农作物病虫害命名实体识别方法,该方法按照以下步骤进行:
步骤1:获取网络中有关农作物病虫害的语料,对语料进行预处理,之后将得到的数据集进行标注,再将数据集划分为训练集和测试集;
步骤2:利用ALBERT预训练模型获得初始化字向量并利用对抗训练生成对抗样本;
步骤3:将步骤2中得到的向量与对抗样本输入到BiLSTM层提取上下文特征;
步骤4:将步骤3得到的结果输入到CRF层得到最优标注序列;
步骤5:构建小规模农作物病虫害领域词典,对步骤4得到的结果中遗漏、错误识别实体进行校正处理,得到最终结果。
所述对语料进行预处理具体为删除农作物病虫害文本语料中重复和不相关的内容,去除文本中的空格、空行,接着对数据进行标注,选择使用YEDDA标注工具对数据进行标注,采用BIO标注格式对作物名称、病害名称、虫害名称、病原、防治药剂五类实体进行标注,其中B表示实体名起点,I表示实体内部,O表示非实体,再将数据集划分为训练集和测试集。
所述ALBERT预训练语言模型语义理解能力强、参数量少、训练速度快,能很好的学习文本特征,提高向量的表征能力。
所述对抗训练通过对ALBERT层预训练模型输出的字向量Xc=(f1,f2,K,fn)添加扰动,对该字向量添加扰动因子radv,计算公式为:
式中g(Xc)为梯度,ε为超参数的小有界范数,θ为模型参数,y为标签信息,L(Xc,y,θ)为损失函数。得到对抗样本A:
A=Xc+radv
对抗样本能模拟标签中数据集的自然误差,让模型去适应参数变化带来的波动影响,因而可提升模型的鲁棒性。对抗样本生成后与原始生成的词向量同时送入BiLSTM层训练。
所述BiLSTM是指正反向长短期记忆网络。BiLSTM网络能有效利用文本长距离语义,更多地挖掘语义特征。计算公式如下所示:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot×tanh(Ct)
其中,σ代表sigmod激活函数;tanh表示tan激活函数,用于将值规范到-1和1之间;ft、it、Ct、ot分别为在t时刻遗忘门、输入门、细胞状态和输出门计算公式;ht-1表示前一时刻的隐藏层状态,xt表示当前时刻的输入词,表示临时细胞状态。
所述CRF层的加入有助于避免标签顺序错误问题,从全局获取最优序列。设输入序列X=(x1,x2,...,xn),预测序列Y=(y1,y2,...,yn),输入数据为从BiLSTM层的特征向量,得到输出矩阵P=(P1,P2,...,Pn),该预测序列得分公式为:
在训练中利用最大似然估计计算得到最大概率序列:
最终运用softmax函数,计算出所有可能出现的标签概率,通过维特比(Viterbi)算法解码,输出得到最优序列。y*表示最大概率的标签序列:
所述自构建领域词典对结果中未被网络模型识别出的实体进行校正,依凭该词典对模型结果进行校正提升,未被该模型识别出的实体划分为两类情况进行处理,具体处理方法如下:
(1)第一类:取标注结果S中所有的实体,形成实体集Tn=(t1,t2,K,tn),实体集中的实体遍历领域词典D中的每一个实体e。以编辑距离计算实体集Tn=(t1,t2,K,tn)与词典中实体e的相似度,编辑距离指从一个以字为单位的词转变为另一个以字为单位的词所需的最小编辑距离,即对字符串某一位置的单个字符进行插入、删除、替换的操作。基于编辑距离的计算两个字符串之间的相似度公式为:
式中ED为实体集中实体的字符串与词典中实体e的字符串之间的编辑距离;l1为实体集中实体的字符串长度,l2为词典中实体e的字符串长度。两字符串之间的ED距离越小,相似度越大。设置合适的阈值,若两者相似度较高,则替换模型识别出的结果,防止出现模型识别出现标注错误的情况。
(2)第二类:将模型识别输出的未标注序列提出,即标注的“O”编码语句,对其采用jieba分词处理,分词后与领域词典D进行匹配,若与词典中实体相同则补充相应类别的实体标签。
最后将第一类与第二类情况处理后的结果合并,得到校正后的最终序列。
本发明的有益效果是:
1.本发明通过ALBERT模型对语句字级别的向量嵌入表示,能更好的洞悉文本语义信息,对识别效果有较大提升
2.本发明在ALBERT层加入对抗训练的方法,有效解决了通用模型泛化性差的问题,提升模型识别性能。
3.本发明对深度学习模型得出的结果采用自构建农作物病虫害领域词进行校正处理,解决了模型识别错误或未识别出实体而影响实体识别准确率的问题。
4.本发明可以有效地提取出农作物病虫害非结构化数据中的作物名称、病害名称、虫害名称、病原、防治药剂五类实体,为后续进一步的构建农业自动问答系统、农业知识图等下游任务提供基础。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例中融合领域词典的中文农作物病虫害命名实体识别方法的模型框架图;
图3为本发明实施例中ALBERT预训练语言模型的结构示意图。
具体实施方式
需要说明的是,本发明中的所有的软件、模块和层,如无特殊说明,全部均采用现有技术中已知的软件、模块和层。遵从上述技术方案,以下给出本发明的具体实施例,需要说明的是本发明并不局
限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例一
本实施例给出一种融合领域词典的中文农作物病虫害命名实体识别方法,如图2所示,该方法按照以下步骤进行:
步骤1:获取网络中有关农作物病虫害的语料,对语料进行预处理,之后将得到的数据集进行标注,再将数据集划分为训练集和测试集;
步骤2:利用ALBERT预训练模型获得初始化字向量并利用对抗训练生成对抗样本;
步骤3:将步骤2中得到的向量与对抗样本输入到BiLSTM层提取上下文特征;
步骤4:将步骤3得到的结果输入到CRF层得到最优标注序列;
步骤5:构建小规模农作物病虫害领域词典,对步骤4得到的结果校正处理,得到最终结果。
上述的融合领域词典的中文农作物病虫害命名实体识别方法,获取网络中有关农作物病虫害的语料,对语料进行预处理,之后将得到的数据集进行标注,然后利用ALBERT预训练模型获得初始化字向量并采用对抗训练生成对抗样本;将得到的初始化字向量与对抗样本输入到BiLSTM层提取上下文特征;再通过CRF层得到最优标注序列,构建小规模农作物病虫害领域词典,对得到的标注序列结果中遗漏、错误识别实体校正处理,得到最终结果,提高了对于中文农作物病虫害命名实体识别的准确率、召回率和F1值,提升识别农作物病虫害实体的效果。
步骤1中,对语料的预处理为删除农作物病虫害文本语料中重复和不相关的内容,去除文本中的空格、空行,接着对数据进行标注,选择使用YEDDA标注工具对数据进行标注,采用BIO标注格式对作物名称、病害名称、虫害名称、病原、防治药剂五类实体进行标注,其中B表示实体名起点,I表示实体内部,O表示非实体,标签样式如表1所示,再将数据集划分为训练集和测试集。
表1为标签样式图
实体类型 | 实体起点标签 | 内部及结尾标签 |
作物名称 | B-crop | I-crop |
病害名称 | B-disease | I-disease |
虫害名称 | B-pest | I-pest |
病原 | B-pathogeny | I-pathogeny |
防治药剂 | B-medicament | I-medicament |
步骤2中,所述ALBERT预训练语言模型采用对嵌入参数因式分解、层与层之间参数共享和句间顺序预测的三种方法,使该模型具有语义理解能力强、参数量少、训练速度快的特点,能很好的学习文本特征,提高向量的表征能力。图3为ALBERT预训练语言模型的结构示意图,ALBERT的词向量由Token Embedding,Segment Embedding,Position Embedding组成,分别表示字词本身的信息,区分前后语句以及获取位置编码信息。
所述对抗训练通过对ALBERT层预训练模型输出的字向量Xc=(f1,f2,K,fn)添加扰动,对该字向量添加扰动因子radv,计算公式为:
式中g(Xc)为梯度,ε为超参数的小有界范数,θ为模型参数,y为标签信息,L(Xc,y,θ)为损失函数。得到对抗样本A:
A=Xc+radv
对抗样本能模拟标签中数据集的自然误差,让模型去适应参数变化带来的波动影响,因而可提升模型的鲁棒性。对抗样本生成后与原始生成的词向量同时送入BiLSTM层训练。
步骤3中,所述BiLSTM是指正反向长短期记忆网络。BiLSTM网络能有效利用文本长距离语义,更多地挖掘语义特征。计算公式如下所示:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot×tanh(Ct)
其中,σ代表sigmod激活函数;tanh表示tan激活函数,用于将值规范到-1和1之间;ft、it、Ct、ot分别为在t时刻遗忘门、输入门、细胞状态和输出门计算公式;ht-1表示前一时刻的隐藏层状态,xt表示当前时刻的输入词,表示临时细胞状态。
步骤4中,CRF层的加入有助于避免标签顺序错误问题,从全局获取最优序列。设输入序列X=(x1,x2,...,xn),预测序列Y=(y1,y2,...,yn),输入数据为从BiLSTM层的特征向量,得到输出矩阵P=(P1,P2,...,Pn),该预测序列得分公式为:
在训练中利用最大似然估计计算得到最大概率序列:
最终运用softmax函数,计算出所有可能出现的标签概率,通过维特比(Viterbi)算法解码,输出得到最优序列。y*表示最大概率的标签序列:
步骤5中,所述自构建领域词典对步骤4得到的结果中未被网络模型识别出的实体进行校正,依凭该词典对模型结果进行校正提升,未被该模型识别出的实体划分为两类情况进行处理,具体处理方法如下:
(1)第一类:取标注结果S中所有的实体,形成实体集Tn=(t1,t2,K,tn),实体集中的实体遍历领域词典D中的每一个实体e。以编辑距离计算实体集Tn=(t1,t2,K,tn)与词典中实体e的相似度,编辑距离指从一个以字为单位的词转变为另一个以字为单位的词所需的最小编辑距离,即对字符串某一位置的单个字符进行插入、删除、替换的操作。基于编辑距离的计算两个字符串之间的相似度公式如下所示:
式中ED为实体集中实体的字符串与词典中实体e的字符串之间的编辑距离;l1为实体集中实体的字符串长度,l2为词典中实体e的字符串长度。两字符串之间的ED距离越小,相似度越大。设置合适的阈值,若两者相似度较高,则替换模型识别出的结果,防止出现模型识别出现标注错误的情况。
(2)第二类:将模型识别输出的未标注序列提出,即标注的“O”编码语句,对其采用jieba分词处理,分词后与领域词典D进行匹配,若与词典中实体相同则补充相应类别的实体标签。
最后将第一类与第二类情况处理后的结果合并,得到校正后的最终序列。
将标注数据集按照7:3的比例分为训练集与测试集,采取的相同的数据集在本实施例
的模型与现有模型进行模型的训练和预测,不同实体识别模型性能对比参照如表2所示:
表2不同实体识别模型实验结果对比
由表2可知,通过在ALBERT层加入对抗训练之后,再将模型识别得到的结果进行词典校正处理,准确率,召回率,F1值分别达到了96.16%,97.58%,96.87%,精确率,召回率,F1值都有一定的提升,证明了在ALBERT预训练模型引入对抗训练能够提升模型的泛化性和鲁棒性,且融合领域词典的方法更进一步的提高了识别的效果,证明了本实施例中的中文农作物病虫害命名实体识别方法的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,包括以下步骤:
步骤1:获取网络中有关农作物病虫害的语料,对语料进行预处理,之后将得到的数据集进行标注,再将数据集划分为训练集和测试集;
步骤2:利用ALBERT预训练模型获得初始化字向量并利用对抗训练生成对抗样本;
步骤3:将步骤2中得到的向量与对抗样本输入到BiLSTM层提取上下文特征;
步骤4:将步骤3得到的结果输入到CRF层得到最优标注序列;
步骤5:构建小规模农作物病虫害领域词典,对步骤4得到的结果校正处理,得到最终结果。
2.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,步骤1中,删除农作物病虫害文本语料中重复和不相关的内容,去除文本中的空格、空行,接着对数据进行标注,选择使用YEDDA标注工具对数据进行标注,采用BIO标注格式对作物名称、病害名称、虫害名称、病原、防治药剂五类实体进行标注,其中B表示实体名起点,I表示实体内部,O表示非实体,再将数据集划分为训练集和测试集。
3.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,步骤2中,所述ALBERT预训练语言模型语义理解能力强、参数量少、训练速度快,能很好的学习文本特征,提高向量的表征能力。
5.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,所述BiLSTM是指正反向长短期记忆网络,BiLSTM网络能有效利用文本长距离语义,更多地挖掘语义特征,计算公式如下所示:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot×tanh(Ct)
6.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,步骤4中,CRF层的加入有助于避免标签顺序错误问题,从全局获取最优序列,设输入序列X=(x1,x2,...,xn),预测序列Y=(y1,y2,...,yn),输入数据为从BiLSTM层的特征向量,得到输出矩阵P=(P1,P2,...,Pn),该预测序列得分公式为:
最终运用softmax函数,计算出所有可能出现的标签概率,通过维特比(Viterbi)算法解码,输出得到最优序列,y*表示最大概率的标签序列:
7.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法,其特征在于,步骤5中,所述自构建领域词典对步骤4得到的结果中未被网络模型识别出的实体进行校正,依凭该词典对模型结果进行校正提升,未被该模型识别出的实体划分为两类情况进行处理,具体处理方法如下:
(1)第一类:取标注结果S中所有的实体,形成实体集Tn=(t1,t2,K,tn),实体集中的实体遍历领域词典D中的每一个实体e,以编辑距离计算实体集Tn=(t1,t2,K,tn)与词典中实体e的相似度,编辑距离指从一个以字为单位的词转变为另一个以字为单位的词所需的最小编辑距离,即对字符串某一位置的单个字符进行插入、删除、替换的操作,基于编辑距离的计算两个字符串之间的相似度公式如下所示:
式中ED为实体集中实体的字符串与词典中实体e的字符串之间的编辑距离;l1为实体集中实体的字符串长度,l2为词典中实体e的字符串长度,两字符串之间的ED距离越小,相似度越大,设置合适的阈值,若两者相似度较高,则替换模型识别出的结果,防止出现模型识别出现标注错误的情况;
(2)第二类:将模型识别输出的未标注序列提出,即标注的“O”编码语句,对其采用jieba分词处理,分词后与领域词典D进行匹配,若与词典中实体相同则补充相应类别的实体标签,第一类与第二类情况处理后的结果合并,得到校正后的最终序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259420.2A CN115510864A (zh) | 2022-10-14 | 2022-10-14 | 一种融合领域词典的中文农作物病虫害命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259420.2A CN115510864A (zh) | 2022-10-14 | 2022-10-14 | 一种融合领域词典的中文农作物病虫害命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510864A true CN115510864A (zh) | 2022-12-23 |
Family
ID=84509771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211259420.2A Pending CN115510864A (zh) | 2022-10-14 | 2022-10-14 | 一种融合领域词典的中文农作物病虫害命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510864A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050418A (zh) * | 2023-03-02 | 2023-05-02 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN116401369A (zh) * | 2023-06-07 | 2023-07-07 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN117094325A (zh) * | 2023-09-25 | 2023-11-21 | 安徽农业大学 | 水稻病虫害领域命名实体识别方法 |
-
2022
- 2022-10-14 CN CN202211259420.2A patent/CN115510864A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050418A (zh) * | 2023-03-02 | 2023-05-02 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN116050418B (zh) * | 2023-03-02 | 2023-10-31 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN116401369A (zh) * | 2023-06-07 | 2023-07-07 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN116401369B (zh) * | 2023-06-07 | 2023-08-11 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN117094325A (zh) * | 2023-09-25 | 2023-11-21 | 安徽农业大学 | 水稻病虫害领域命名实体识别方法 |
CN117094325B (zh) * | 2023-09-25 | 2024-03-29 | 安徽农业大学 | 水稻病虫害领域命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444721B (zh) | 一种基于预训练语言模型的中文文本关键信息抽取方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN112818676B (zh) | 一种医学实体关系联合抽取方法 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN112084790A (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN111651983B (zh) | 一种基于自训练与噪声模型的因果事件抽取方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110837736B (zh) | 一种基于字结构的中文医疗记录的命名实体识别方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN114756681B (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN113641809B (zh) | 一种基于XLNet模型与知识图谱的智能问答方法 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN112802570A (zh) | 一种针对电子病历命名实体识别系统及方法 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN107590119A (zh) | 人物属性信息抽取方法及装置 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |