CN110837736B - 一种基于字结构的中文医疗记录的命名实体识别方法 - Google Patents

一种基于字结构的中文医疗记录的命名实体识别方法 Download PDF

Info

Publication number
CN110837736B
CN110837736B CN201911059655.5A CN201911059655A CN110837736B CN 110837736 B CN110837736 B CN 110837736B CN 201911059655 A CN201911059655 A CN 201911059655A CN 110837736 B CN110837736 B CN 110837736B
Authority
CN
China
Prior art keywords
neural network
sequence
entity
character
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911059655.5A
Other languages
English (en)
Other versions
CN110837736A (zh
Inventor
赵洲
潘启璠
沈锴
陈漠沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911059655.5A priority Critical patent/CN110837736B/zh
Publication of CN110837736A publication Critical patent/CN110837736A/zh
Application granted granted Critical
Publication of CN110837736B publication Critical patent/CN110837736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于字结构的迭代膨胀卷积神经网络‑条件随机场的中文医疗记录的命名实体识别方法,其中命名实体识别方法包括以下步骤:1)针对一组询问序列、实体标注序列的训练数据集,通过卷积神经网络从汉字对应的位图中提取出特征向量;2)将字嵌入的结果和卷积神经网络输出的特征向量相结合;3)通过迭代膨胀卷积神经网络和注意力机制,对于标注集合中每一个标注获取一个得分序列;4)通过线性链条件随机场算法,得出命名实体识别的结果。通过本发明,可以利用中文医疗记录中的汉字结构信息,通过将迭代膨胀卷积神经网络与条件随机场算法相结合,可以进一步提高命名实体识别方法的表现。

Description

一种基于字结构的中文医疗记录的命名实体识别方法
技术领域
本发明涉及自然语言处理命名实体识别领域,具体涉及一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法。
背景技术
医疗记录是十分重要的研究数据,但是人工分析医疗记录耗时长且开销大。因此,自动且高效的机器学习算法在这一领域是十分关键的应用。命名实体识别是为了找到在给定内容下具有特殊意义的实体,是关系提取等分析性工作的基础。
目前最先进的命名实体识别的模型有Ma和Hovy在2016年提出的BiLSTM-CNN-CRF,以及Strubell等人在2017年提出的IDCNN-CNN-CRF。以上两种模型将词嵌入和字级别的特征相结合来提高性能。但是对于中文来说,一个句子是由字而非单词组成的,所以直接将上述模型应用与中文命名实体识别并不容易。一种经典的方法是Peng和Dredze在2016年提出的字嵌入,即为每一个中文字找到合适的向量表示,然后用迭代膨胀卷积神经网络(IDCNN)提取特征,用条件随机场(CRF)来找到最优路径。字嵌入通常使用的算法是Mikolov等人在2013年提出的Skip-gram算法,但是对比IDCNN-CNN-CRF用卷积神经网络来提取单词层面的特征,比如大小写形式,Skip-gram算法损失了字级别的特征。然而,众所周知的是汉字是象形文字,这意味着字的基本含义通常来自于它的组成部分。汉字在任何情况下都不会改变形式,汉字的组成部分包含了特征。但是Skip-gram算法在训练字嵌入时并没有考虑汉字的组成,因此汉字本身包含的信息可能丢失。举例来说,汉字“瘤”和“癌”有着同样的部首,这意味着他们都和疾病有关联。我们通常通过偏旁部首来猜测陌生的汉字,因此引入汉字偏旁部首中包含的语义信息可能有助于提高命名实体识别的表现。
发明内容
本发明提供了一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法,很好地解决了字嵌入过程中汉字结构信息丢失的问题,提高了针对电子医疗记录的命名实体识别的表现。
一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法,包括以下步骤:
1.一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法,其特征在于,包括以下步骤:
1)将中文医疗记录数据作为训练数据集,并对训练数据集进行实体标注,标注后的训练数据集包括询问序列和实体标注序列;构建基于字结构的迭代膨胀卷积神经网络-条件随机场网络结构,所述网络结构包括卷积神经网络层、嵌入层、迭代膨胀卷积神经网络层和线性链条件随机场层;
2)针对训练数据集中的一组询问序列,将询问序列中的每一个汉字映射到位图矩阵,将位图矩阵分别输入到卷积神经网络层和嵌入层,通过卷积神经网络从询问序列中的汉字对应的位图矩阵中提取出字级别的特征向量,使用字嵌入提取询问序列中每一个汉字的字嵌入向量;将得到的字级别的特征向量和字嵌入向量按位相加,得到询问序列中每一个汉字的最终特征向量,构成询问序列的最终特征向量集;
3)将询问序列的最终特征向量集输入迭代膨胀卷积神经网络层中,在迭代膨胀卷积神经网络中引入注意力机制,得到实体标注序列中每一个标注的分数向量,构成分数序列;
4)将步骤3)得到的分数序列输入到线性链条件随机场层中,通过线性链条件随机场模型输出预测标注结果,计算输出的预测标注结果和给定实体标注序列的损失,使用Adam算法优化模型,得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型;
5)将待测的询问序列输入到步骤4)所述的基于字结构的迭代膨胀卷积神经网络-条件随机场模型中,输出命名实体识别的结果。
进一步的,所述步骤2)具体为:
针对训练数据集中的一组询问序列{w1,w2,…,wn}和实体标注序列{l1,l2,…,ln},其中wi表示询问序列中的第i个汉字,li表示询问序列中的第i个汉字的实体标注,li来自但不限于O、B-DIS、I-DIS、E-DIS标注,O表示非命名实体,B-DIS表示疾病实体的开始,I-DIS表示在疾病实体中,E-DIS表示疾病实体的结束,命名实体包括但不限于疾病实体,定义所有标注构成的集合G={g1,g2,…,gp},其中p为所有标签的数量,实体标注序列{l1,l2,…,ln}中的元素均属于G;
将询问序列中的每一个汉字wi映射到一个m×m的位图矩阵Mi,其中m表示像素,n表示询问序列中汉字的个数;通过卷积神经网络从询问序列中的汉字wi对应的位图矩阵Mi中提取出字级别的特征向量ei,使用字嵌入提取询问序列中每一个汉字wi的字嵌入向量bi;将卷积神经网络输出的字级别的特征向量ei和字嵌入向量bi按位相加,得到每一个汉字wi对应的最终特征向量vi,构成最终特征向量集V=(v1,v2,…,vn)。
进一步的,所述步骤3)具体为:
将步骤2)得到的最终特征向量集V输入迭代膨胀卷积神经网络中,迭代膨胀卷积神经网络由参数相同的多个膨胀卷积块构成,每个膨胀卷积块包含多层膨胀系数逐渐增大的膨胀卷积层,一次迭代是指将输入传入膨胀卷积块得到输出,再将输出作为下一个膨胀卷积块的输入,迭代多次,将每次迭代的输出综合,得到标注gi对应的n维分数向量ti,其中ti[j]表示汉字wj对应标注gi的分数,
ti=IDCNN(v1,v2,…,vn),i=1,2,…,p
针对ti,采用注意力机制得到其对应的n×1的分数向量fi
fi=Attention(ti),i=1,2,…,p
进一步得到实体标注序列中每一个标注的分数向量,构成分数序列{f1,f2,…,fp}。
进一步的,所述步骤4)具体为:
采用线性链条件随机场模型,将步骤3)得到的分数序列{f1,f2,…,fp}输入到线性链条件随机场层中,输出预测标注结果;
定义一个p×p的概率转移矩阵A,根据如下公式计算训练数据集中给定的实体标注序列{l1,l2,…,ln}的分数:
Figure GDA0003109445670000031
其中A[li,lj]表示从标注li到标注lj的概率转移,fi[li]表示分数向量fi中标注li的分数;
定义k为给定询问序列中所有可能的预测标注结果,根据如下公式利用softmax计算出对数似然:
Figure GDA0003109445670000032
将对数似然的值取负作为训练的损失,使用Adam算法来优化模型,得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型。
本发明具备的有益效果:
本发明的创新点在于利用卷积神经网络来探索字形层面的语义特征。在医疗记录命名实体识别这一应用领域,结合汉字字形的语义特征,识别结果具有更高的准确率和召回率。
具体来讲,在卷积神经网络层,本发明将汉字映射到一个位图矩阵,然后用卷积神经网络来提取汉字的字形特征,对应到特征向量。
在嵌入层,将卷积神经网络层得到的特征向量与传统的字嵌入算法输出的字嵌入向量相加,增加了模型的信息输入。
随后的迭代膨胀卷积神经网络层和条件随机场层延用了Strubell等人提出的结构,由于在卷积神经网络层和嵌入层引入了汉字字形的信息,模型的判别结果随之提高。
附图说明
图1为本发明在命名实体识别的整体结构示意图;
图2为本发明汉字和位图矩阵的对应关系示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明框架采用分层命名实体识别方式,总共分为四层:
(a)卷积神经网络层:对于所给询问序列{w1,w2,…,wn}和实体标注序列{l1,l2,…,ln},将询问序列中的每一个汉字wi映射到一个64×64的位图矩阵Mi。然后通过卷积神经网络从位图矩阵Mi中提取出特征向量ei。其中下标n代表询问序列和标注序列的长度。定义所有标注构成的集合G={g1,g2,…,gp},其中p为所有标签的数量,实体标注序列{l1,l2,…,ln}中的元素均属于G。
(b)嵌入层:将每个汉字wi通过字嵌入算法转化为字嵌入向量bi,之后将卷积神经网络输出的特征向量ei和字嵌入向量bi按位相加,得到最终特征向量vi
(c)迭代膨胀卷积神经网络层:对于每个最终特征向量vi,通过膨胀卷积神经网络的多次迭代,将每次迭代的输出综合,得到标注gi对应的n维分数向量ti,其中ti[j]表示汉字wj对应标注gi的分数,
ti=IDCNN(v1,v2,…,vn),i=1,2,…,p
针对ti,采用注意力机制得到其对应的n×1的分数向量fi
fi=Attention(ti),i=1,2,…,p
进一步得到实体标注序列中每一个标注的分数向量,构成分数序列{f1,f2,…,fp}。
(d)条件随机场层:应用线性链条件随机场模型,将得到的分数序列{f1,f2,…,fp}输入到线性链条件随机场层中,输出预测标注结果;
定义一个p×p的概率转移矩阵A,根据如下公式计算训练数据集中给定的实体标注序列{l1,l2,…,ln}的分数:
Figure GDA0003109445670000051
其中A[li,lj]表示从标注li到标注lj的概率转移,fi[li]表示分数向量fi中标注li的分数;
定义k为给定询问序列中所有可能的预测标注结果,根据如下公式利用softmax计算出对数似然:
Figure GDA0003109445670000052
将对数似然的值取负作为训练的损失,使用Adam算法来优化模型,得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型。
实施例
以待测询问序列{我右胸疼}为例,如图2所示,“我”字为一个长宽均为64像素汉字,通过像素和位图之间的映射关系,得到一个长宽均为64位的位图矩阵。
将64位的位图矩阵输入到残差网络(ResNet)中,得到“我”字的特征向量e1;将64位的位图矩阵输入到Skip-gram模型进行字嵌入,得到“我”字的字嵌入向量b1;将e1和b1按位相加,得到“我”字的最终特征向量v1
同时,将“右”、“胸”、“疼”分别输入到相同的残差网络和Skip-gram模型中,分别得到“右”字的最终特征向量v2、“胸”字的最终特征向量v3、“疼”字的最终特征向量v4,构成询问序列{我右胸疼}的最终特征向量集V=(v1,v2,v3,v4)。
定义标注集合{O,B-DIS,I-DIS,E-DIS},对应{g1,g2,g3,g4}。将V=(v1,v2,v3,v4)输入到迭代膨胀卷积神经网络层中,一个膨胀卷积块由三次膨胀系数分别为1、1、2的膨胀卷积组成,将最终特征向量集输入到膨胀卷积块,再将膨胀卷积块的输出作为输入,进行3次迭代,综合3次迭代的输出,得到标注g1对应的分数向量t1。对于t1采用注意力机制,得到对应的最终分数向量f1
重复上述步骤,得到标注g2、g3、g4对应的最终分数向量f2、f3、f4,组成分数向量序列(f1,f2,f3,f4)。
将分数向量序列输入到条件随机场层中,输出标注结果{O,B-DIS,I-DIS,E-DIS},其中O表示非命名实体,B-DIS表示疾病实体的开始,I-DIS表示在疾病实体中,E-DIS表示疾病实体的结束,即“右胸疼”为识别的疾病实体。
下面将上述方法应用于下列比较例中,以体现本发明的技术效果,比较例中具体步骤不再赘述。
比较例
本发明在CCKS-2017task 2数据集上与其他目前最前沿的命名实体识别方式进行对比。CCKS-2017task 2包含1200条记录,5个类别,29860个实体。在实验中将80%的句子作为训练集,10%作为开发集,10%作为测试集。
本发明主要利用准确率、召回率和F1分数作为评判指标。总共比较了3个目前主流的命名实体识别算法,分别为:BiLSTM+softmax,BiLSTM+CRF,IDCNN+CRF。表1表示各大算法模型CCKS-2017task 2数据集上的准确率、召回率以及F1分数。
表1
模型 准确率(%) 召回率(%) F1分数(%)
本发明算法 88.6 90.4 89.5
BiLSTM+softmax 86.2 82.1 84.1
BiLSTM+CRF 87.8 88.8 88.3
IDCNN+CRF 87.9 88.9 88.4
从表1可以看出,本发明提出的基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法,在CCKS-2017task 2数据集上相较于其他算法均获得最优效果,充分展示了本发明算法的优越性。

Claims (1)

1.一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法,其特征在于,包括以下步骤:
1)将中文医疗记录数据作为训练数据集,并对训练数据集进行实体标注,标注后的训练数据集包括询问序列和实体标注序列;构建基于字结构的迭代膨胀卷积神经网络-条件随机场网络结构,所述网络结构包括卷积神经网络层、嵌入层、迭代膨胀卷积神经网络层和线性链条件随机场层;
2)针对训练数据集中的一组询问序列,将询问序列中的每一个汉字映射到位图矩阵,将位图矩阵分别输入到卷积神经网络层和嵌入层,通过卷积神经网络从询问序列中的汉字对应的位图矩阵中提取出字级别的特征向量,使用字嵌入提取询问序列中每一个汉字的字嵌入向量;将得到的字级别的特征向量和字嵌入向量按位相加,得到询问序列中每一个汉字的最终特征向量,构成询问序列的最终特征向量集;所述步骤2)具体为:
针对训练数据集中的一组询问序列{w1,w2,…,wn}和实体标注序列{l1,l2,…,ln},其中wi表示询问序列中的第i个汉字,li表示询问序列中的第i个汉字的实体标注,li来自O、B-DIS、I-DIS、E-DIS标注,O表示非命名实体,B-DIS表示疾病实体的开始,I-DIS表示在疾病实体中,E-DIS表示疾病实体的结束,命名实体包括疾病实体,定义所有标注构成的集合G={g1,g2,…,gp},其中p为所有标签的数量,实体标注序列{l1,l2,…,ln}中的元素均属于G;
将询问序列中的每一个汉字wi映射到一个m×m的位图矩阵Mi,其中m表示像素,n表示询问序列中汉字的个数;通过卷积神经网络从询问序列中的汉字wi对应的位图矩阵Mi中提取出字级别的特征向量ei,使用字嵌入提取询问序列中每一个汉字wi的字嵌入向量bi;将卷积神经网络输出的字级别的特征向量ei和字嵌入提取到的字嵌入向量bi按位相加,得到每一个汉字wi对应的最终特征向量vi,构成最终特征向量集V=(v1,v2,…,vn);
3)将询问序列的最终特征向量集输入迭代膨胀卷积神经网络层中,在迭代膨胀卷积神经网络中引入注意力机制,得到实体标注序列中每一个标注的分数向量,构成分数序列;所述步骤3)具体为:
将步骤2)得到的最终特征向量集V输入迭代膨胀卷积神经网络中,迭代膨胀卷积神经网络由参数相同的多个膨胀卷积块构成,每个膨胀卷积块包含多层膨胀系数逐渐增大的膨胀卷积层,一次迭代是指将输入传入膨胀卷积块得到输出,再将输出作为下一个膨胀卷积块的输入,迭代多次,将每次迭代的输出综合,得到标注gi对应的n维分数向量ti,其中ti[j]表示汉字wj对应标注gi的分数,
ti=IDCNN(v1,v2,…,vn),i=1,2,…,p
针对ti,采用注意力机制得到其对应的n×1的分数向量fi
fi=Attention(ti),i=1,2,…,p
进一步得到实体标注序列中每一个标注的分数向量,构成分数序列{f1,f2,…,fp};
4)将步骤3)得到的分数序列输入到线性链条件随机场层中,通过线性链条件随机场模型输出预测标注结果,计算输出的预测标注结果和给定实体标注序列的损失,使用Adam算法优化模型,得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型;所述步骤4)具体为:
采用线性链条件随机场模型,将步骤3)得到的分数序列{f1,f2,…,fp}输入到线性链条件随机场层中,输出预测标注结果;
定义一个p×p的概率转移矩阵A,根据如下公式计算训练数据集中给定的实体标注序列{l1,l2,…,ln}的分数:
Figure FDA0003109445660000021
其中A[li-1,li]表示从标注li-1到标注li的概率转移,fi[li]表示分数向量fi中标注li的分数;
定义k为给定询问序列中所有可能的预测标注结果,根据如下公式利用softmax计算出对数似然:
Figure FDA0003109445660000022
将对数似然的值取负作为训练的损失,使用Adam算法来优化模型,得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型;
5)将待测的询问序列输入到步骤4)所述的基于字结构的迭代膨胀卷积神经网络-条件随机场模型中,输出命名实体识别的结果。
CN201911059655.5A 2019-11-01 2019-11-01 一种基于字结构的中文医疗记录的命名实体识别方法 Active CN110837736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911059655.5A CN110837736B (zh) 2019-11-01 2019-11-01 一种基于字结构的中文医疗记录的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911059655.5A CN110837736B (zh) 2019-11-01 2019-11-01 一种基于字结构的中文医疗记录的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN110837736A CN110837736A (zh) 2020-02-25
CN110837736B true CN110837736B (zh) 2021-08-10

Family

ID=69575894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911059655.5A Active CN110837736B (zh) 2019-11-01 2019-11-01 一种基于字结构的中文医疗记录的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN110837736B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475649B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111767723A (zh) * 2020-05-14 2020-10-13 上海大学 一种基于bic的中文电子病历实体标注方法
CN112259223B (zh) * 2020-10-22 2022-08-30 河北工业大学 基于全视野数字切片的病人级别肿瘤智能诊断方法
CN113836926A (zh) * 2021-09-27 2021-12-24 北京林业大学 电子病历命名实体识别方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
US20190065460A1 (en) * 2017-08-31 2019-02-28 Ebay Inc. Deep hybrid neural network for named entity recognition
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN110334357A (zh) * 2019-07-18 2019-10-15 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065460A1 (en) * 2017-08-31 2019-02-28 Ebay Inc. Deep hybrid neural network for named entity recognition
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN110334357A (zh) * 2019-07-18 2019-10-15 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Improved Method for Named Entity Recognition and Its Application to CEMR;Ming Gao et al.;《Future Internet 2019》;20190826;第11卷(第185期);第1-15页 *
电子病历命名实体识别和实体关系抽取研究综述;杨锦锋 等;《自动化学报》;20140831;第40卷(第8期);第1537-1562页 *

Also Published As

Publication number Publication date
CN110837736A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN111694924B (zh) 一种事件抽取方法和系统
CN108897989B (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN112818676B (zh) 一种医学实体关系联合抽取方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN110347857A (zh) 基于强化学习的遥感影像的语义标注方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN113111654B (zh) 一种基于分词工具共性信息和部分监督学习的分词方法
CN115759095A (zh) 一种烟草病虫害的命名实体识别方法及其装置
CN115017907A (zh) 一种基于领域词典的中文农业命名实体识别方法
CN115221880A (zh) 一种命名实体识别方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant