CN111222339B - 一种基于对抗多任务学习的医疗咨询命名实体识别方法 - Google Patents

一种基于对抗多任务学习的医疗咨询命名实体识别方法 Download PDF

Info

Publication number
CN111222339B
CN111222339B CN202010031774.6A CN202010031774A CN111222339B CN 111222339 B CN111222339 B CN 111222339B CN 202010031774 A CN202010031774 A CN 202010031774A CN 111222339 B CN111222339 B CN 111222339B
Authority
CN
China
Prior art keywords
model
named entity
language model
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010031774.6A
Other languages
English (en)
Other versions
CN111222339A (zh
Inventor
文贵华
陈河宏
李杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010031774.6A priority Critical patent/CN111222339B/zh
Publication of CN111222339A publication Critical patent/CN111222339A/zh
Application granted granted Critical
Publication of CN111222339B publication Critical patent/CN111222339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于对抗多任务学习的医疗咨询命名实体识别方法。所述方法包括以下步骤:采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别。本发明引入了迁移学习、对抗学习、多任务学习等技术,有效地提高了医疗咨询文本命名实体识别的效果。

Description

一种基于对抗多任务学习的医疗咨询命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于对抗多任务学习的医疗咨询命名实体识别方法。
背景技术
近年来,随着互联网技术的迅速发展和普及,越来越多的患者选择通过在线医疗网站,例如求医网、寻医问药网、家庭医生在线网等,以在线咨询的方式,向医生咨询医疗健康相关的问题,这种方法比较高效而方便的促进了医生和患者之间的医疗健康交流。但是,由于目前参与在线医疗问答服务的医生人数相对较少,很多患者的在线医疗咨询,往往不能得到及时的专业回复。与此同时,伴随着人工智能技术在自然语言处理方面的发展和成熟,越来越多的机构利用人工智能技术构建了专业的医疗知识库。利用信息抽取技术,自动从患者的在线医疗咨询文本中获取重要信息,然后从专业的医疗知识库中搜索答案,自动为患者提供专业的医疗答复,这种方法能够有效地减轻医生的工作量(侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018,55(12):2587–2599.)。
信息抽取是从患者的在线医疗咨询文本中获取重要信息的关键技术,这种技术是指对文本中的实体、实体之间的关系以及实体的属性进行抽取。文本中的实体指的是文本中特定的命名性指称项,例如对于在线医疗咨询文本,我们关注的命名性指称项包括患者的患病部位、症状等。对实体进行抽取的任务一般称为实体抽取或者命名实体识别,命名实体识别是进行信息抽取工作的第一步,命名实体识别的效果决定了后续对实体之间的关系以及实体的属性进行抽取的效果。
传统的命名实体识别方法主要包括基于规则以及基于传统机器学习的方法。其中,基于规则的方法就是使用人工编写的规则,通过对文本进行规则匹配的方法,识别出相应的实体类型,但是这种方法需要大量的人工去编写规则,存在着较大的局限性。基于传统机器学习的方法将命名实体识别问题当作序列标注问题,该方法首先对文本定义相关人工特征,然后将这些特征输入到隐马尔可夫、最大熵或者条件随机场等模型中,最后预测得到每一个字或词相应的序列标签。基于传统机器学习的方法,其命名实体识别效果依赖于人工所定义的特征的质量,所以往往需要消耗较多人工和时间去精心设计特征,存在着一定的局限性。
近年来,深度学习技术取得了迅猛的发展,并且在许多任务的解决上展现出显著的优势和巨大的潜力,越来越多的研究人员使用深度学习方法,进行命名实体识别的工作,这些工作以很小的特征工程代价,取得了比传统机器学习方法更优异的效果。近年来,基于深度学习的半监督学习、多任务学习和迁移学习等方法,在命名实体识别任务上均取得了优异甚至是当前业界领先的效果,这些工作证明了深度学习在命名实体识别任务上的显著优势和巨大潜力。虽然深度学习能够较好的提取数据特征,但是其效果往往依赖于训练数据集的规模。如果用于有监督训练的数据集规模较小,基于深度学习的命名实体识别效果往往较差,这个问题在许多实际任务中很常见。为此,许多学者在深度学习的基础上,使用了半监督学习、迁移学习等方法来提高命名实体识别的效果。目前针对在线医疗咨询文本进行命名实体识别的研究不多,如何使用了半监督学习、迁移学习等方法改善在线医疗咨询文本命名实体识别任务的效果,是一项亟待解决的工作。
发明内容
有鉴于此,为解决上述现有技术中的问题,本发明提供了一种基于对抗多任务学习的医疗咨询命名实体识别方法,通过在命名实体识别模型中引入语言模型的预训练特征,以及利用相近的命名实体识别任务的数据进行对抗多任务训练,有效地提高了医疗咨询文本命名实体识别的效果。
本发明的目的至少通过如下技术方案之一实现。
一种基于对抗多任务学习的医疗咨询命名实体识别方法,包括以下步骤:
步骤1、采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;
步骤2、构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;
步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;
步骤4、对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;
步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别。
进一步地,步骤1中,采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答,采取的预处理包括清洗噪音数据、去除无用符号、分词,标注的实体包括身体部位、症状描述、独立症状3种。
进一步地,步骤2包括以下步骤:
步骤21、构建双向语言模型并利用无标注的医疗咨询数据预训练双向语言模型;
步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型。
进一步地,步骤21中,双向语言模型由正向语言模型和反向语言模型构成,正向语言模型和反向语言模型联合进行训练;正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成,且正向语言模型和反向语言模型共用同一个字向量层,不同的是,正向语言模型的长短时记忆网络层是正向长短时记忆网络层,反向语言模型的长短时记忆网络层是反向长短时记忆网络层;正向语言模型的训练目标是对于句子中任意字,能够正确的预测出其下一个字;反向语言模型的训练目标是对于句子中任意字,能够正确的预测出其上一个字;正向语言模型和反向语言模型均通过Adam优化器进行训练。
进一步地,步骤22中,掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成;掩码语言模型通过Adam优化器进行训练;训练过程中,对于无标注的医疗咨询数据中的每一个句子,随机将句子中15%的字替换成<Mask>字符,训练目标为掩码语言模型能预测出句子原本的字;为了避免预训练时掩码语言模型只学习到<Mask>字符周围的上下文语义和语法,而微调阶段由于没有<Mask>字符,导致掩码语言模型预训练阶段学习到的上下文语法和语义信息失效,对于随机选中的15%的字符,在80%的情况下,将其替换成<Mask>字符;10%的情况下,将其随机替换成语料字典中的某个字;其余10%的情况下,不做替换操作。
进一步地,步骤3包括以下步骤:
步骤31、构建多任务对抗训练的命名实体识别模型,命名实体识别模型包括一个目标领域标注模型、源领域标注模型、领域鉴别器;
步骤32、将掩码语言模型的预训练特征通过权重迁移结合到目标领域标注模型的编码层中,双向语言模型对输入的编码与目标领域标注模型对输入的编码通过拼接操作进行特征融合作为目标领域标注模型解码层的输入。
进一步地,步骤31中,目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别,源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别,领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务;
目标领域标注模型和源领域标注模型均包括字向量层、共享编码层、两层卷积神经网络、双向长短时记忆网络和条件随机场;领域鉴别器包括一个字向量层、一个共享编码层和一个Softmax层,共享编码层由两层卷积神经网络构成;目标领域标注模型、源领域标注模型、领域鉴别器共享同一个字向量层和同一个共享编码层;领域鉴别器对共享编码层的输出进行平均操作,然后通过Softmax层计算当前进行的是哪个任务。
进一步地,步骤32中,将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型;掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中,双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合,作为目标领域标注模型双向长短时记忆网络的输入。
进一步地,步骤4中,命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练;命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务,在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务。
进一步地,对抗多任务训练的训练阶段包括以下步骤:
步骤41、随机选取一个批次的相近的命名实体数据,训练源领域标注模型,更新源领域标注模型的参数,源领域标注模型的损失函数如下:
Figure BDA0002364585340000051
其中θshare表示共享编码层的参数,θs表示源领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,ys表示输入的电子病历数据的实体标签,xs表示输入的电子病历数据的句子,p(.)表示概率;
步骤42、随机选取一个批次的有标注医疗咨询数据,训练目标领域标注模型,更新目标领域标注模型的参数,目标领域标注模型的损失函数是:
Figure BDA0002364585340000061
其中θshare表示共享编码层的参数,θt表示目标领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,yt表示输入的医疗咨询数据的实体标签,xt表示输入的医疗咨询数据的句子;
步骤43、分别用当前批次的电子病历数据和当前批次的医疗咨询数据,先后训练领域鉴别器和更新领域鉴别器的参数;领域鉴别器更新Softmax层的参数θd,以最小化其对x的领域类别所预测的概率分布和真实概率分布的交叉熵损失,公式表示为:
Figure BDA0002364585340000062
其中,x表示当前输入的句子,s、t都是类别,s表示x是源领域的句子,t表示x是目标领域的句子,I(x)用于判断输入模型的x是来自源领域还是目标领域,公式表示为:
Figure BDA0002364585340000063
其中,Ds表示源领域标注数据集,Dt表示目标领域标注数据集;与领域鉴别器的目标相反,共享编码层需要尽可能生成领域鉴别器无法鉴别其来源的特征,也就是使得鉴别器对x的领域类别的预测概率熵最大,即熵的相反数最小,所以对共享编码层的参数θshare的更新,以最小化如下公式的对抗损失为目标
Figure BDA0002364585340000064
步骤44、采用命名实体识别模型的总体损失函数对命名实体识别模型进行训练,得到训练好的命名实体识别模型;命名实体识别模型的总体损失函数是源领域标注模型的损失函数、目标领域标注模型的损失函数和领域鉴别器的损失函数的组合,公式表示为:
Figure BDA0002364585340000071
其中,θ表示模型所有的参数,D表示训练的数据集,λ表示控制对抗损失权重的超参数。
与现有技术比较,本发明具有以下优点和有益效果:
1、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法,通过两种语言模型引入了无标注的医疗咨询数据,从不同的角度获取到了无标注文本中蕴含的语法和语义信息。
2、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法,提出并实现了一个基于对抗多任务学习方法引入跨领域有监督信息,通过利用医疗咨询文本命名实体任务和相近的命名实体识别任务的共享信息提升医疗咨询文本命名实体任务的效果。
3、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法,使用无标注的数据和有标注的跨领域数据提升医疗咨询文本命名实体识别的效果,有效应对了有标注数据不足的情况,具有一定的市场价值和推广价值。
附图说明
图1为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的总流程图。
图2a和图2b为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的正向语言模型和反向语言模型网络结构图。
图3为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的掩码语言模型网络结构图。
图4为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的医疗咨询命名实体识别任务与电子病历文本命名实体识别任务联合训练的模型网络结构图。
具体实施方式
下面将结合附图和具体的实施例对本发明的具体实施作进一步说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,一种基于对抗多任务学习的医疗咨询命名实体识别方法,包括以下步骤:
步骤1、采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;
采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答,采取的预处理包括清洗噪音数据、去除无用符号、分词,标注的实体包括身体部位、症状描述、独立症状3种。
步骤2、构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;包括以下步骤:
步骤21、构建双向语言模型并利用无标注的医疗咨询数据预训练双向语言模型;
双向语言模型由正向语言模型和反向语言模型构成,正向语言模型和反向语言模型联合进行训练;如图2a和图2b所示,正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成,且正向语言模型和反向语言模型共用同一个字向量层,不同的是,正向语言模型的长短时记忆网络层是正向长短时记忆网络层,反向语言模型的长短时记忆网络层是反向长短时记忆网络层;正向语言模型的训练目标是对于句子中任意字,能够正确的预测出其下一个字;例如对于句子“头痛怎么处理呀”,训练目标为正向语言模型输出“痛怎么处理<END>”,“<END>”表示句子的结尾符。反向语言模型的训练目标是对于句子中任意字,能够正确的预测出其上一个字;例如对于句子“头痛怎么处理呀”,训练目标为反向语言模型输出“<Begin>头痛怎么处理”,“<Begin>”表示表示句子的起始符。正向语言模型和反向语言模型均通过Adam优化器进行训练,本实施例中,双向语言模型预训练的超参数如表1所示。
表1双向语言模型预训练的超参数表
Figure BDA0002364585340000091
步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型;
如图3所示,掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成;掩码语言模型通过Adam优化器进行训练,本实施例中,掩码语言模型预训练的超参数如表2所示;训练过程中,对于无标注的医疗咨询数据中的每一个句子,随机将句子中15%的字替换成<Mask>字符,训练目标为掩码语言模型能预测出句子原本的字,例如对于句子“头<Mask>怎么处理呀”,训练目标为掩码语言模型输出“头痛怎么处理呀”;为了避免预训练时掩码语言模型只学习到<Mask>字符周围的上下文语义和语法,而微调阶段由于没有<Mask>字符,导致掩码语言模型预训练阶段学习到的上下文语法和语义信息失效,对于随机选中的15%的字符,在80%的情况下,将其替换成<Mask>字符,例如对于句子“最近背部老是有点疼”选中了“背”字,在80%的情况下,将其替换成“<Mask>”字符,例如替换成“最近<Mask>部老是有点疼”;10%的情况下,将其随机替换成语料字典中的某个字,例如替换成“最近到部老是有点疼”;其余10%的情况下,不做替换操作。
表2掩码语言模型预训练的超参数表
名称
字向量层向量维度 128
第一层和第二层卷积神经网络的卷积核大小 3
第一层和第二层卷积神经网络的卷积核个数 128
双向长短时记忆网络的隐藏层大小 128
dropout比例 0.5
优化器 Adam
学习率 0.001
批大小 64
最大训练迭代轮数 50
步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;包括以下步骤:
步骤31、构建多任务对抗训练的命名实体识别模型,如图4所示,命名实体识别模型包括一个目标领域标注模型、源领域标注模型、领域鉴别器;
目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别,源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别,领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务;
目标领域标注模型和源领域标注模型均包括字向量层、共享编码层、两层卷积神经网络、双向长短时记忆网络和条件随机场;领域鉴别器包括一个字向量层、一个共享编码层和一个Softmax层,共享编码层由两层卷积神经网络构成;目标领域标注模型、源领域标注模型、领域鉴别器共享同一个字向量层和同一个共享编码层;领域鉴别器对共享编码层的输出进行平均操作,然后通过Softmax层计算当前进行的是哪个任务。
步骤32、将掩码语言模型的预训练特征通过权重迁移结合到目标领域标注模型的编码层中,双向语言模型对输入的编码与目标领域标注模型对输入的编码通过拼接操作进行特征融合作为目标领域标注模型解码层的输入;
将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型;掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中,双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合,作为目标领域标注模型双向长短时记忆网络的输入。
步骤4、对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;
命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练;命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务,在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务;
对抗多任务训练的训练阶段包括以下步骤:
步骤41、随机选取一个批次的相近的命名实体数据,训练源领域标注模型,更新源领域标注模型的参数,源领域标注模型的损失函数如下:
Figure BDA0002364585340000111
其中θshare表示共享编码层的参数,θs表示源领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,ys表示输入的电子病历数据的实体标签,xs表示输入的电子病历数据的句子,p(.)表示概率;
步骤42、随机选取一个批次的有标注医疗咨询数据,训练目标领域标注模型,更新目标领域标注模型的参数,目标领域标注模型的损失函数是:
Figure BDA0002364585340000121
其中θshare表示共享编码层的参数,θt表示目标领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,yt表示输入的医疗咨询数据的实体标签,xt表示输入的医疗咨询数据的句子;
步骤43、分别用当前批次的电子病历数据和当前批次的医疗咨询数据,先后训练领域鉴别器和更新领域鉴别器的参数;领域鉴别器更新Softmax层的参数θd,以最小化其对x的领域类别所预测的概率分布和真实概率分布的交叉熵损失,公式表示为:
Figure BDA0002364585340000122
其中,x表示当前输入的句子,s、t都是类别,s表示x是源领域的句子,t表示x是目标领域的句子,I(x)用于判断输入模型的x是来自源领域还是目标领域,公式表示为:
Figure BDA0002364585340000123
其中,Ds表示源领域标注数据集,Dt表示目标领域标注数据集;与领域鉴别器的目标相反,共享编码层需要尽可能生成领域鉴别器无法鉴别其来源的特征,也就是使得鉴别器对x的领域类别的预测概率熵最大,即熵的相反数最小,所以对共享编码层的参数θshare的更新,以最小化如下公式的对抗损失为目标
Figure BDA0002364585340000124
步骤44、采用命名实体识别模型的总体损失函数对命名实体识别模型进行训练,得到训练好的命名实体识别模型;命名实体识别模型的总体损失函数是源领域标注模型的损失函数、目标领域标注模型的损失函数和领域鉴别器的损失函数的组合,公式表示为:
Figure BDA0002364585340000131
其中,θ表示模型所有的参数,D表示训练的数据集,λ表示控制对抗损失权重的超参数。命名实体识别模型训练时的超参数如表3所示。
表3命名实体识别模型训练时的超参数
Figure BDA0002364585340000132
步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别。本实施例中,输入一段文本“天气一凉总腰酸”到训练好的命名实体识别模型的目标领域标注模型中,可以得到输出“o o o o o B-Body B-SymDesc”,其中,“B-Body”、“B-SymDesc”分别表示该字是身体部位、症状描述,“o”表示该字不是相关的实体。
以上为本发明的一个实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (9)

1.一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,包括以下步骤:
步骤1、采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;
步骤2、构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;
步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;
步骤4、对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;
步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别;
所述对抗多任务训练的训练阶段包括以下步骤:
步骤41、随机选取一个批次的相近的命名实体数据,训练源领域标注模型,更新源领域标注模型的参数,源领域标注模型的损失函数如下:
Figure FDA0004070314720000011
其中θshare表示共享编码层的参数,θs表示源领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,ys表示输入的电子病历数据的实体标签,xs表示输入的电子病历数据的句子,p(.)表示概率;
步骤42、随机选取一个批次的有标注医疗咨询数据,训练目标领域标注模型,更新目标领域标注模型的参数,目标领域标注模型的损失函数是:
Figure FDA0004070314720000012
其中θshare表示共享编码层的参数,θt表示目标领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,yt表示输入的医疗咨询数据的实体标签,xt表示输入的医疗咨询数据的句子;
步骤43、分别用当前批次的电子病历数据和当前批次的医疗咨询数据,先后训练领域鉴别器和更新领域鉴别器的参数;领域鉴别器更新Softmax层的参数θd,以最小化其对x的领域类别所预测的概率分布和真实概率分布的交叉熵损失,公式表示为:
Figure FDA0004070314720000021
其中,x表示当前输入的句子,s、t都是类别,s表示x是源领域的句子,t表示x是目标领域的句子,I(x)用于判断输入模型的x是来自源领域还是目标领域,公式表示为:
Figure FDA0004070314720000022
其中,Ds表示源领域标注数据集,Dt表示目标领域标注数据集;对共享编码层的参数θshare的更新,以最小化如下公式的对抗损失为目标
Figure FDA0004070314720000023
步骤44、采用命名实体识别模型的总体损失函数对命名实体识别模型进行训练,得到训练好的命名实体识别模型;命名实体识别模型的总体损失函数是源领域标注模型的损失函数、目标领域标注模型的损失函数和领域鉴别器的损失函数的组合,公式表示为:
Figure FDA0004070314720000024
其中,θ表示模型所有的参数,D表示训练的数据集,λ表示控制对抗损失权重的超参数。
2.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤1中,采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答,采取的预处理包括清洗噪音数据、去除无用符号、分词,标注的实体包括身体部位、症状描述、独立症状3种。
3.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤2包括以下步骤:
步骤21、构建双向语言模型并利用无标注的医疗咨询数据预训练双向语言模型;
步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型。
4.根据权利要求3所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤21中,双向语言模型由正向语言模型和反向语言模型构成,正向语言模型和反向语言模型联合进行训练;正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成,且正向语言模型和反向语言模型共用同一个字向量层,不同的是,正向语言模型的长短时记忆网络层是正向长短时记忆网络层,反向语言模型的长短时记忆网络层是反向长短时记忆网络层;正向语言模型的训练目标是对于句子中任意字,能够正确的预测出其下一个字;反向语言模型的训练目标是对于句子中任意字,能够正确的预测出其上一个字;正向语言模型和反向语言模型均通过Adam优化器进行训练。
5.根据权利要求3所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤22中,掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成;掩码语言模型通过Adam优化器进行训练;训练过程中,对于无标注的医疗咨询数据中的每一个句子,随机将句子中15%的字替换成<Mask>字符,训练目标为掩码语言模型能预测出句子原本的字;对于随机选中的15%的字符,在80%的情况下,将其替换成<Mask>字符;10%的情况下,将其随机替换成语料字典中的某个字;其余10%的情况下,不做替换操作。
6.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤3包括以下步骤:
步骤31、构建多任务对抗训练的命名实体识别模型,命名实体识别模型包括一个目标领域标注模型、源领域标注模型、领域鉴别器;
步骤32、将掩码语言模型的预训练特征通过权重迁移结合到目标领域标注模型的编码层中,双向语言模型对输入的编码与目标领域标注模型对输入的编码通过拼接操作进行特征融合作为目标领域标注模型解码层的输入。
7.根据权利要求6所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤31中,目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别,源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别,领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务;
目标领域标注模型和源领域标注模型均包括字向量层、共享编码层、两层卷积神经网络、双向长短时记忆网络和条件随机场;领域鉴别器包括一个字向量层、一个共享编码层和一个Softmax层,共享编码层由两层卷积神经网络构成;目标领域标注模型、源领域标注模型、领域鉴别器共享同一个字向量层和同一个共享编码层;领域鉴别器对共享编码层的输出进行平均操作,然后通过Softmax层计算当前进行的是哪个任务。
8.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤32中,将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型;掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中,双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合,作为目标领域标注模型双向长短时记忆网络的输入。
9.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤4中,命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练;命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务,在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务。
CN202010031774.6A 2020-01-13 2020-01-13 一种基于对抗多任务学习的医疗咨询命名实体识别方法 Active CN111222339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010031774.6A CN111222339B (zh) 2020-01-13 2020-01-13 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010031774.6A CN111222339B (zh) 2020-01-13 2020-01-13 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Publications (2)

Publication Number Publication Date
CN111222339A CN111222339A (zh) 2020-06-02
CN111222339B true CN111222339B (zh) 2023-05-23

Family

ID=70826121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010031774.6A Active CN111222339B (zh) 2020-01-13 2020-01-13 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111222339B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738003B (zh) * 2020-06-15 2023-06-06 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111984772B (zh) * 2020-07-23 2024-04-02 中山大学 一种基于深度学习的医疗影像问答方法及系统
CN112669331B (zh) * 2020-12-25 2023-04-18 上海交通大学 目标数据迁移迭代学习方法及目标数据迁移迭代学习系统
CN112613316B (zh) * 2020-12-31 2023-06-20 北京师范大学 一种生成古汉语标注模型的方法和系统
CN112417882A (zh) * 2021-01-25 2021-02-26 成都信息工程大学 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法
CN112926324B (zh) * 2021-02-05 2022-07-29 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN117807999B (zh) * 2024-02-29 2024-05-10 武汉科技大学 基于对抗学习的域自适应命名实体识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108228564A (zh) * 2018-01-04 2018-06-29 苏州大学 在众包数据上进行对抗学习的命名实体识别方法
CN108463815A (zh) * 2016-01-07 2018-08-28 Mz知识产权控股有限责任公司 聊天数据的命名实体识别
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108463815A (zh) * 2016-01-07 2018-08-28 Mz知识产权控股有限责任公司 聊天数据的命名实体识别
CN108228564A (zh) * 2018-01-04 2018-06-29 苏州大学 在众包数据上进行对抗学习的命名实体识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法

Also Published As

Publication number Publication date
CN111222339A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111222339B (zh) 一种基于对抗多任务学习的医疗咨询命名实体识别方法
Kalyan A survey of GPT-3 family large language models including ChatGPT and GPT-4
Li et al. Context-aware emotion cause analysis with multi-attention-based neural network
Kang et al. Pretraining to recognize PICO elements from randomized controlled trial literature
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN110111864A (zh) 一种基于关系模型的医学报告生成模型及其生成方法
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配系统
Islam et al. Challenges and future in deep learning for sentiment analysis: a comprehensive review and a proposed novel hybrid approach
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
Polignano et al. A study of Machine Learning models for Clinical Coding of Medical Reports at CodiEsp 2020.
Dua et al. Learning with instance bundles for reading comprehension
CN115691786A (zh) 基于电子病历的眼科疾病信息提取方法和辅助诊断装置
CN115062003A (zh) 基于gpt2的云erp社区生成式问答方法
Ding et al. Chinese keyword extraction model with distributed computing
Chen et al. H-FND: hierarchical false-negative denoising for distant supervision relation extraction
CN117874252A (zh) 一种知识图谱构建的方法及相关设备
CN117556002A (zh) 一种用于对话大模型的多轮对话训练方法
Reyes et al. Entity relation extraction from news articles in portuguese for competitive intelligence based on bert
Zaghir et al. Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts
Hu et al. An overlapping sequence tagging mechanism for symptoms and details extraction on Chinese medical records
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
Isaeva et al. Text-mining in Terms of Methodology and Development
Hammi et al. Deep Learning Models for Aspect-Based Sentiment Analysis Task: A Survey Paper
CN114490937A (zh) 基于语义感知的评论分析方法及装置
CN114862006A (zh) 一种基于人工智能的社会工作服务方案自动化生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant