CN109918644A - 一种基于迁移学习的中医健康咨询文本命名实体识别方法 - Google Patents

一种基于迁移学习的中医健康咨询文本命名实体识别方法 Download PDF

Info

Publication number
CN109918644A
CN109918644A CN201910076463.9A CN201910076463A CN109918644A CN 109918644 A CN109918644 A CN 109918644A CN 201910076463 A CN201910076463 A CN 201910076463A CN 109918644 A CN109918644 A CN 109918644A
Authority
CN
China
Prior art keywords
chinese medicine
text
entity recognition
medicine health
health consultation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910076463.9A
Other languages
English (en)
Other versions
CN109918644B (zh
Inventor
文贵华
陈河宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910076463.9A priority Critical patent/CN109918644B/zh
Publication of CN109918644A publication Critical patent/CN109918644A/zh
Application granted granted Critical
Publication of CN109918644B publication Critical patent/CN109918644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于迁移学习的中医健康咨询文本命名实体识别方法,包括以下步骤:S1、选择其他领域文本命名实体识别标注数据集,构造神经网络,进行预训练。S2、分别构造单向循环神经网络,利用中医健康咨询文本无标注数据集,进行语言模型训练,得到前向和反向语言模型。S3、融合单向语言模型的循环网络层输出特征,结合全连接网络层和条件随机场层得到最终的命名实体识别模型。S4、使用中医健康咨询文本命名实体识别标注数据集,进行微调训练。所述方法能够迁移其它领域的命名实体识别有标注文本知识和本领域的无标注文本知识,有效提高中医健康咨询文本命名实体识别的准确率和召回率,加速模型的收敛速度。

Description

一种基于迁移学习的中医健康咨询文本命名实体识别方法
技术领域
本发明涉及自然语言序列标注的应用技术领域,具体涉及一种基于迁移学习的中医健康咨询文本命名实体识别方法。
背景技术
随着互联网的快速发展和普及,越来越多的人选择通过在健康医疗网站上,以在线问答的形式,向医生进行在线的健康咨询,这种方法比较方便高效地促进医生和患者之间的健康交流,但是很多时候,由于我国医生资源相对紧张,很多患者的在线健康咨询问题,往往不能得到及时的专业答复。于此同时,随着人工智能技术在文本处理方面的应用,越来越多的机构构造了医学相关知识库。如何通过自然语言处理技术,自动的从用户的在线健康咨询文本中获取用户询问的意图,结合现有的医学知识库为用户提供专业的回答,具有重要的研究意义。
其中,信息抽取技术是从在线健康咨询文本中获取用户意图的关键技术,其包括实体抽取和关系抽取,而实体抽取即命名实体识别是实现信息抽取的先决技术,其命名实体识别的质量将直接影响到后续关系抽取等步骤的效果。命名实体识别技术具体指的是对文本中的人名,时间,地名,机构名称等指定类型的实体进行有效的识别提取,在在线健康咨询文本中主要指的是对健康咨询文本中的解剖部位,症状描述以及独立症状进行命名实体识别。
传统的命名实体识别技术主要包括基于规则的方法,基于概率统计的方法以及基于深度学习的方法,其中,基于深度学习的方法是目前广泛使用的有效方法,其通过神经网络自动从训练文本中学习到文本特征,结合归一化指数函数层(softmax)或条件随机场分类器进行序列标注。常用的命名实体识别神经网络包括循环神经网络,卷积神经网络和基于注意力机制的神经网络以及它们之间相互混合的神经网络。
由于深度学习需要比较大的命名实体识别标注数据才能够较好的学习文本的泛化特征,在有标注的咨询健康咨询文本量较少的情况下,利用上述的深度神经网络进行在线健康咨询文本命名实体识别时,模型容易发生过拟合现象,从而不能达到较好的识别效果。于此同时,相对于有标注数据获取比较困难的现状,我们往往可以比较容易的得到较大规模的其他领域命名实体标注数据和在线健康咨询文本的无标注数据,通过迁移学习技术学习这些大规模语料的语法和语义信息,将能够较好的改善神经网络进行在线健康咨询文本命名实体识别的效果。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于迁移学习的中医健康咨询文本命名实体识别方法,所述方法能够充分利用其它领域的标注语料和本领域的无标注语料信息,解决了由于中医在线健康咨询文本命名实体识别标注语料数据量小,导致进行命名实体识别低准确率,低召回率的问题。
本发明的目的可以通过如下技术方案实现。
一种基于迁移学习的中医健康咨询文本命名实体识别方法,所述方法包括以下步骤:
S1、构造函数,选择与中医健康咨询命名实体识别任务相关度高的其他领域文本命名实体识别标注数据集,构造神经网络,利用其他领域文本命名实体识别标注数据集对神经网络进行预训练;
S2、分别构造前向和反向的循环神经网络,利用中医健康咨询文本无标注数据集,分别对前向和反向的循环神经网络进行预训练,得到前向语言模型和反向语言模型;
S3、在S1预训练的神经网络基础上,融合S2中前向语言模型和反向语言模型的循环神经网络层特征,结合全连接网络层和条件随机场层,得到中医健康咨询文本命名实体识别模型;
S4、在S3的文本命名实体识别模型的基础上,使用中医健康咨询文本命名实体识别标注数据集,执行逐层学习率衰减的微调训练,训练完成后得到最终的中医健康咨询文本命名实体识别模型。
进一步地,所述步骤S1的其他领域文本命名实体识别标注数据集是在现有的中文命名实体识别公开数据集中,通过一个函数选择得到的最适合中医健康咨询文本命名实体识别任务的文本命名实体识别标注数据集,该函数用于衡量其他领域文本命名实体识别标注数据集和中医健康咨询文本命名实体识别任务的相关性程度。该函数如下:
其中,S表示当前选择的其他领域文本命名实体识别标注数据集,T表示中医健康咨询文本命名实体识别标注数据集,X表示S和T中所有词的集合,衡量了S数据集规模的大小,通过求T和S词概率分布的KL散度的倒数,衡量S和T之间的分布相关性,选择score(S)值最大的其他领域文本命名实体识别标注数据集。
进一步地,所述中医健康咨询文本无标注数据集是通过网络爬虫得到,通过对中医健康咨询文本无标注数据集的文本进行标注得到中医健康咨询文本命名实体识别标注数据集。
进一步地,所述神经网络包括词向量层,双向的循环神经网络层,全连接网络层和条件随机场层。
进一步地,所述前向的循环神经网络由词向量层、前向的循环神经网络层、全连接神经网络层和归一化指数函数层(Softmax)叠加构成;反向的循环神经网络由词向量层、反向的循环神经网络层、全连接神经网络层和归一化指数函数层叠加构成。
进一步地,所述步骤S2中的预训练是用前向和反向的循环神经网络作为编码器,分别对中医健康咨询文本无标注数据集进行训练,具体为输入一个句子A到前向和反向的循环神经网络中,前向的循环神经网络输出A中每一个词对应的后一个词,反向的循环神经网络输出A中每一个词对应的前一个词,从而得到前向语言模型和反向语言模型。
进一步地,所述步骤S3的过程具体包括:前向语言模型和反向语言模型中循环神经网络层的输出进行concact(连接)操作后,再将操作结果与双向的循环神经网络层的输出进行concact操作,并将操作结果输入到卷积神经网络层中进行融合,然后构造新得全连接神经网络层和条件随机场层进行预测和损失函数的计算,得到中医健康咨询文本命名实体识别模型。
进一步地,步骤S4的微调训练具体为:
将文本命名实体识别模型分为三个部分,每一个部分在反向传播更新权重时,按照从最上面部分往下衰减的方式使用不同的学习率,衰减的方式使用指数衰减,最大学习率为lr,衰减系数为μ,μ>1,则最上层为lr,中间层的学习率为lr/μ,最底层的学习率为lr/μ2
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过度量其他领域命名实体识别标注语料和在线中医健康咨询文本命名实体识别任务的相关性,选择其他领域的命名实体识别标注语料对神经网络进行预训练,从而迁移其他领域文本的语法和语义信息到神经网络中,相比于传统的随机初始化神经网络参数的方法,可以有效的提高模型的命名实体识别准确率和召回率。
2、本发明构建了前向的循环神经网络和反向的循环神经网络,利用在线中医健康咨询无标注语料,分别训练得到了前向和反向的语言模型,并通过卷积神经网络将其中间层特征融合到原命名实体模型中,显著的提高了模型识别的准确率,加速了模型在有标注语料上面的收敛。
3、本发明在预训练好的神经网络上,采用逐层学习率衰减的方法进行微调训练,相比于传统的所有参数使用同一个学习率的方法,有效的降低模型训练的损失值,提高了模型命名实体识别的准确率和召回率。
附图说明
图1为本发明的中医健康咨询文本命名实体识别方法的流程图。
图2为本发明实施例采用的神经网络结构图。
图3为本发明实施例采用的逐层学习率衰减的训练示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于迁移学习的中医健康咨询文本命名实体识别方法,所述方法的流程图如图1所示,包括以下步骤:
S1、构造函数,选择与中医健康咨询命名实体识别任务相关度高的其他领域文本命名实体识别标注数据集,构造神经网络,对神经网络进行预训练;
S2、分别构造前向和反向的循环神经网络,利用中医健康咨询文本无标注数据集,分别对前向和反向的循环神经网络进行预训练,得到前向语言模型和反向语言模型;
S3、在S1预训练的神经网络基础上,融合S2中前向语言模型和反向语言模型的循环神经网络层特征,结合全连接网络层和条件随机场层,得到中医健康咨询文本命名实体识别模型;
S4、在S3的文本命名实体识别模型的基础上,使用中医健康咨询文本命名实体识别标注数据集,执行逐层学习率衰减的微调训练,训练完成后得到最终的中医健康咨询文本命名实体识别模型。
本实施例的中医健康咨询文本无标注数据集是通过网络爬虫在各大在线医疗信息网站的中医科问答板块爬取用户的健康咨询问句得到,利用文本正则匹配的方式对原始爬虫数据进行特殊符号去除以及重复文本去除的操作后,得到中医健康咨询文本无标注数据集,然后利用brat(软件主页:http://brat.nlplab.org)软件,组织相关专业人员对文本进行命名实体标注,主要标注出文本中的“解剖部位”、“症状描述”和“独立症状”实体,然后以字符为粒度,采用BIO格式对数据进行标注,其中以B开头的标签表示当前字符属于“解剖部位”、“症状描述”或“独立症状”命名实体的开始部分,以I开头的标签表示当前字符属于“解剖部位”、“症状描述”或“独立症状”命名实体的中间或结束部分,O标签表示当前字符不属于命名实体的部分,最终得到可直接供模型使用的中医健康咨询文本命名实体识别标注数据集,数据集示例如表格1所示,这里O表示当前字符不属于命名实体的部分,B-Body表示当前字符属于“解剖部位”命名实体的开始部分,B-Sym表示当前字符属于“症状描述”命名实体的开始部分,I-Sym表示当前字符属于“症状描述”命名实体的中间或结束部分。
表格1
输入
标签 O O O O B-Body B-Sym I-Sym O O O O O O
步骤S1中,具体地,首先通过中国知网等论文检索平台获得现有的中文命名实体识别公开数据集,然后在现有的中文命名实体识别公开数据集中,通过一个函数选择得到一个最适合中医健康咨询文本命名实体识别任务的文本命名实体识别标注数据集,即其他领域文本命名实体识别标注数据集,该函数如下:
其中,S表示当前选择的其他领域文本命名实体识别标注数据集,T表示中医健康咨询文本命名实体识别标注数据集,X表示S和T中所有词的集合,衡量了S数据集规模的大小,通过求T和S词概率分布的KL散度的倒数,衡量S和T之间的分布相关性,选择score(S)值最大的其他领域文本命名实体识别标注数据集对神经网络进行预训练,这里使用2017CCKS(China Conference on Knowledge Graph and SemanticComputing,全国知识图谱与语义计算大会)中文电子病历的命名实体识别标注数据集作为当期选中的其他领域文本命名实体识别标注数据集。
接着,构建神经网络,并使用2017CCKS中文电子病历的命名实体识别标注数据集对网络进行预训练,网络结构如图2左侧网络结构所示,该神经网络主要由词向量层,双向的循环神经网络层(Recurrent Neural Networks,RNN),全连接网络层和条件随机场层组成,具体的超参数如表格2所示。
表格2
层名称 参数
词向量层 神经元维度:128
双向的循环神经网络层 神经元个数:128
优化器 Adam
步骤S2中,具体地,分别构造前向和反向的循环神经网络,其结构示意图如图2最右侧网络结构所示,其中右侧上方为前向的循环神经网络,右侧下方为反向的循环神经网络,所述前向的循环神经网络由词向量层、一层前向的循环神经网络层、全连接神经网络层和归一化指数函数层(Softmax层)叠加构成;反向的循环神经网络由词向量层、反向的循环神经网络层、全连接神经网络层和归一化指数函数层(即图中的Softmax层)叠加构成。其中词向量层的神经元维度为256,前向的循环神经网络层和反向的循环神经网络层的神经元个数为128,接着利用中医健康咨询文本无标注数据集,构造前向和反向的循环神经网络的训练样本,其形式分别如表格3和表格4所示,输入到前向和反向的循环神经网络中进行预训练,预训练完成后得到前向和反向语言模型。
表格3
输入
标签 <END>
表格4
输入
标签 <START>
步骤S3中,在步骤S1神经网络词向量层、双向的循环神经网络层的基础上重新构建的卷积神经网络层、全连接网络层和条件随机场层,结构如图2中间的网络结构所示,并用中医健康咨询文本命名实体识别标注数据集作为训练数据集对网络进行训练,具体地,将输入到神经网络中的句子分别输入到步骤S2中构建的前向和反向语言模型中,获取前向语言模型的循环神经网络层输出和反向语言模型的循环神经网络层输出,将两者进行concact(连接)操作后,将操作结果和神经网络的双向的循环神经网络层输出进行concact(连接)操作,接着,将concact操作后的矩阵输入到卷积神经网络层中进行融合,这里卷积神经网络层使用了relu函数和128个卷积核,卷积核宽度均为3。最后用步骤S3构造的全连接神经网络层和条件随机场层进行预测和损失函数的计算,得到完整的中医健康咨询文本命名实体识别模型。损失函数使用交叉熵损失,前向预测时使用维特比算法,具体的网络结构及参数初始化如图2所示。
步骤S4中,具体地,在S3步骤构建和初始化之后的神经网络基础上,使用逐层学习率衰减的微调操作,如图3所示,这里将S3步骤得到的文本命名实体识别模型分为条件随机场层+全连接神经网络层+卷积神经网络层、双向的循环神经网络层和词向量层3个部分,每一个部分在反向传播更新权重的时候,按照从最上面部分往下衰减的方式使用不同的学习率,衰减的方式使用指数衰减的方式,假设最大学习率为lr,衰减系数为μ(μ>1),则条件随机场层+全连接神经网络层+卷积神经网络层为lr,双向的循环神经网络层的学习率为lr/μ,词向量层的学习率为lr/μ2,这里优化器使用Adam,μ取2.5,训练过程中前向和反向语言模型的参数权重不更新,模型训练后得到的模型即为最终应用于生产环境的命名实体识别模型。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于,所述方法包括以下步骤:
S1、构造函数,根据与中医健康咨询命名实体识别任务的相关性,选择其他领域文本命名实体识别标注数据集,构造神经网络,利用其他领域文本命名实体识别标注数据集对神经网络进行预训练;
S2、分别构造前向和反向的循环神经网络,利用中医健康咨询文本无标注数据集,分别对前向和反向的循环神经网络进行预训练,得到前向语言模型和反向语言模型;
S3、在S1预训练的神经网络基础上,融合S2中前向语言模型和反向语言模型的循环神经网络层特征,结合全连接网络层和条件随机场层,得到中医健康咨询文本命名实体识别模型;
S4、在S3的文本命名实体识别模型的基础上,使用中医健康咨询文本命名实体识别标注数据集,执行逐层学习率衰减的微调训练,训练完成后得到最终的中医健康咨询文本命名实体识别模型。
2.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述步骤S1的其他领域文本命名实体识别标注数据集是在现有的中文命名实体识别公开数据集中,通过一个函数选择中医健康咨询文本命名实体识别任务的文本命名实体识别标注数据集,该函数用于衡量其他领域文本命名实体识别标注数据集和中医健康咨询文本命名实体识别任务的相关性程度,该函数如下:
其中,S表示当前选择的其他领域文本命名实体识别标注数据集,T表示中医健康咨询文本命名实体识别标注数据集,X表示S和T中所有词的集合,衡量了S数据集规模的大小,通过求T和S词概率分布的KL散度的倒数,衡量S和T之间的分布相关性,选择score(S)值最大的其他领域文本命名实体识别标注数据集。
3.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述神经网络包括词向量层,双向的循环神经网络层,全连接网络层和条件随机场层。
4.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述前向的循环神经网络由词向量层、前向的循环神经网络层、全连接神经网络层和归一化指数函数层(Softmax)叠加构成;反向的循环神经网络由词向量层、反向的循环神经网络层、全连接神经网络层和归一化指数函数层叠加构成。
5.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述步骤S2中的预训练是用前向和反向的循环神经网络作为编码器,分别对中医健康咨询文本无标注数据集进行训练,具体为输入一个句子A到前向和反向的循环神经网络中,前向的循环神经网络输出A中每一个词对应的后一个词,反向的循环神经网络输出A中每一个词对应的前一个词,从而得到前向语言模型和反向语言模型。
6.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述步骤S3的过程具体包括:将前向语言模型和反向语言模型中循环神经网络层的输出进行concact(连接)操作后,再将操作结果与双向的循环神经网络层的输出进行concact操作,并将操作结果输入到卷积神经网络层中进行融合,然后构造新的全连接网络层和条件随机场层进行预测和损失函数的计算,得到中医健康咨询文本命名实体识别模型。
7.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:步骤S4的微调训练为:
将文本命名实体识别模型分为三个部分,每一个部分在反向传播更新权重时,按照从最上面部分往下衰减的方式使用不同的学习率,衰减的方式使用指数衰减,最大学习率为lr,衰减系数为μ,μ>1,则最上层为lr,中间层的学习率为lr/μ,最底层的学习率为lr/μ2
8.根据权利要求1所述的一种基于迁移学习的中医健康咨询文本命名实体识别方法,其特征在于:所述中医健康咨询文本无标注数据集是通过网络爬虫得到,通过对中医健康咨询文本无标注数据集的文本进行标注得到中医健康咨询文本命名实体识别标注数据集。
CN201910076463.9A 2019-01-26 2019-01-26 一种基于迁移学习的中医健康咨询文本命名实体识别方法 Active CN109918644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910076463.9A CN109918644B (zh) 2019-01-26 2019-01-26 一种基于迁移学习的中医健康咨询文本命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910076463.9A CN109918644B (zh) 2019-01-26 2019-01-26 一种基于迁移学习的中医健康咨询文本命名实体识别方法

Publications (2)

Publication Number Publication Date
CN109918644A true CN109918644A (zh) 2019-06-21
CN109918644B CN109918644B (zh) 2022-12-16

Family

ID=66960757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910076463.9A Active CN109918644B (zh) 2019-01-26 2019-01-26 一种基于迁移学习的中医健康咨询文本命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109918644B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348017A (zh) * 2019-07-15 2019-10-18 苏州大学 一种文本实体检测方法、系统及相关组件
CN110489567A (zh) * 2019-08-26 2019-11-22 重庆邮电大学 一种基于跨网络特征映射的节点信息获取方法及其装置
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN111078875A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN111259626A (zh) * 2020-01-16 2020-06-09 上海国民集团健康科技有限公司 一种中医实体识别算法
CN111274820A (zh) * 2020-02-20 2020-06-12 齐鲁工业大学 一种基于神经网络的智能医疗命名实体识别方法和装置
CN111339777A (zh) * 2020-02-24 2020-06-26 中国科学院自动化研究所 基于神经网络的医学相关意图识别方法及系统
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111785350A (zh) * 2020-06-30 2020-10-16 易联众信息技术股份有限公司 一种信息提取的方法、应用、装置及介质
CN111950286A (zh) * 2020-08-10 2020-11-17 云南电网有限责任公司信息中心 一种人工智能法务评审引擎系统开发方法
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN112214998A (zh) * 2020-11-16 2021-01-12 中国平安财产保险股份有限公司 意图与实体的联合识别方法、装置、设备和存储介质
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112347782A (zh) * 2020-09-29 2021-02-09 第四范式(北京)技术有限公司 实体识别方法和系统
CN112365993A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种针对少样本公众健康问句的分类方法及系统
CN112667799A (zh) * 2021-03-15 2021-04-16 四川大学 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN112800766A (zh) * 2021-01-27 2021-05-14 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN114861667A (zh) * 2022-05-16 2022-08-05 中电金信软件有限公司 一种命名实体标签识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120197627A1 (en) * 2010-02-22 2012-08-02 Lei Shi Bootstrapping Text Classifiers By Language Adaptation
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120197627A1 (en) * 2010-02-22 2012-08-02 Lei Shi Bootstrapping Text Classifiers By Language Adaptation
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王红斌 等: "融合迁移学习的中文命名实体识别", 《小型微型计算机系统》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348017A (zh) * 2019-07-15 2019-10-18 苏州大学 一种文本实体检测方法、系统及相关组件
CN110489567B (zh) * 2019-08-26 2022-03-22 重庆邮电大学 一种基于跨网络特征映射的节点信息获取方法及其装置
CN110489567A (zh) * 2019-08-26 2019-11-22 重庆邮电大学 一种基于跨网络特征映射的节点信息获取方法及其装置
CN110807328B (zh) * 2019-10-25 2023-05-05 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN111078875B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN111078875A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111259626A (zh) * 2020-01-16 2020-06-09 上海国民集团健康科技有限公司 一种中医实体识别算法
CN111274820B (zh) * 2020-02-20 2023-04-07 齐鲁工业大学 一种基于神经网络的智能医疗命名实体识别方法和装置
CN111274820A (zh) * 2020-02-20 2020-06-12 齐鲁工业大学 一种基于神经网络的智能医疗命名实体识别方法和装置
CN111339777A (zh) * 2020-02-24 2020-06-26 中国科学院自动化研究所 基于神经网络的医学相关意图识别方法及系统
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111444721B (zh) * 2020-05-27 2022-09-23 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738003B (zh) * 2020-06-15 2023-06-06 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111785350A (zh) * 2020-06-30 2020-10-16 易联众信息技术股份有限公司 一种信息提取的方法、应用、装置及介质
CN111950286A (zh) * 2020-08-10 2020-11-17 云南电网有限责任公司信息中心 一种人工智能法务评审引擎系统开发方法
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN112347782A (zh) * 2020-09-29 2021-02-09 第四范式(北京)技术有限公司 实体识别方法和系统
CN112347253B (zh) * 2020-11-04 2023-09-08 新奥新智科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112214998B (zh) * 2020-11-16 2023-08-22 中国平安财产保险股份有限公司 意图与实体的联合识别方法、装置、设备和存储介质
CN112214998A (zh) * 2020-11-16 2021-01-12 中国平安财产保险股份有限公司 意图与实体的联合识别方法、装置、设备和存储介质
CN112365993A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种针对少样本公众健康问句的分类方法及系统
CN112800766A (zh) * 2021-01-27 2021-05-14 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112800766B (zh) * 2021-01-27 2023-08-22 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112667799A (zh) * 2021-03-15 2021-04-16 四川大学 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN114861667B (zh) * 2022-05-16 2023-04-28 中电金信软件有限公司 一种命名实体标签识别方法及装置
CN114861667A (zh) * 2022-05-16 2022-08-05 中电金信软件有限公司 一种命名实体标签识别方法及装置

Also Published As

Publication number Publication date
CN109918644B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN109918644A (zh) 一种基于迁移学习的中医健康咨询文本命名实体识别方法
Blouw et al. Concepts as semantic pointers: A framework and computational model
CN110083690B (zh) 一种基于智能问答的对外汉语口语训练方法及系统
WO2023098288A1 (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
Baroody et al. Two perspective on addition development
CN111708874A (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN109669994A (zh) 一种健康知识图谱的构建方法及系统
CN112148851A (zh) 一种基于知识图谱的医药知识问答系统的构建方法
CN107516110A (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN106295186A (zh) 一种基于智能推理的辅助疾病诊断的方法与系统
Reshmi et al. EMPOWERING CHATBOTS WITH BUSINESS INTELLIGENCE BY BIG DATA INTEGRATION.
Haug et al. Neural multi-step reasoning for question answering on semi-structured tables
Wang et al. Attention-based multi-instance neural network for medical diagnosis from incomplete and low quality data
CN107491655A (zh) 基于机器学习的肝脏疾病信息智能咨询方法及系统
CN113590837A (zh) 一种基于深度学习的食品及健康知识图谱构建方法
CN113571184B (zh) 一种用于精神健康测评的对话交互设计方法及系统
Jimenez et al. Word2set: WordNet-based word representation rivaling neural word embedding for lexical similarity and sentiment analysis
Youssef et al. Classification of chest pneumonia from x-ray images using new architecture based on ResNet
Zhang Application of intelligent grammar error correction system following deep learning algorithm in English teaching
Wei et al. LSTM-SN: complex text classifying with LSTM fusion social network
Sha et al. Designing online psychological consultation expert system using human-computer interaction
Lokman et al. Designing a Chatbot for diabetic patients
Feng et al. English-chinese knowledge base translation with neural network
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant