CN111222339B

CN111222339B - 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Info

Publication number: CN111222339B
Application number: CN202010031774.6A
Authority: CN
Inventors: 文贵华; 陈河宏; 李杨辉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-05-23
Anticipated expiration: 2040-01-13
Also published as: CN111222339A

Abstract

本发明公开了一种基于对抗多任务学习的医疗咨询命名实体识别方法。所述方法包括以下步骤：采集医疗咨询数据，对医疗咨询数据进行预处理，并对其中一部分数据进行实体的标注，得到有标注的医疗咨询数据；构建双向语言模型和掩码语言模型，利用无标注的医疗咨询数据，分别预训练双向语言模型和掩码语言模型；将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型；对命名实体识别模型进行对抗多任务训练，得到训练好的命名实体识别模型；输入一段文本到训练好的命名实体识别模型的目标标注模型中，实现文本命名实体识别。本发明引入了迁移学习、对抗学习、多任务学习等技术，有效地提高了医疗咨询文本命名实体识别的效果。

Description

一种基于对抗多任务学习的医疗咨询命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于对抗多任务学习的医疗咨询命名实体识别方法。

背景技术

近年来，随着互联网技术的迅速发展和普及，越来越多的患者选择通过在线医疗网站，例如求医网、寻医问药网、家庭医生在线网等，以在线咨询的方式，向医生咨询医疗健康相关的问题，这种方法比较高效而方便的促进了医生和患者之间的医疗健康交流。但是，由于目前参与在线医疗问答服务的医生人数相对较少，很多患者的在线医疗咨询，往往不能得到及时的专业回复。与此同时，伴随着人工智能技术在自然语言处理方面的发展和成熟，越来越多的机构利用人工智能技术构建了专业的医疗知识库。利用信息抽取技术，自动从患者的在线医疗咨询文本中获取重要信息，然后从专业的医疗知识库中搜索答案，自动为患者提供专业的医疗答复，这种方法能够有效地减轻医生的工作量(侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018,55(12):2587–2599.)。

信息抽取是从患者的在线医疗咨询文本中获取重要信息的关键技术，这种技术是指对文本中的实体、实体之间的关系以及实体的属性进行抽取。文本中的实体指的是文本中特定的命名性指称项，例如对于在线医疗咨询文本，我们关注的命名性指称项包括患者的患病部位、症状等。对实体进行抽取的任务一般称为实体抽取或者命名实体识别，命名实体识别是进行信息抽取工作的第一步，命名实体识别的效果决定了后续对实体之间的关系以及实体的属性进行抽取的效果。

传统的命名实体识别方法主要包括基于规则以及基于传统机器学习的方法。其中，基于规则的方法就是使用人工编写的规则，通过对文本进行规则匹配的方法，识别出相应的实体类型，但是这种方法需要大量的人工去编写规则，存在着较大的局限性。基于传统机器学习的方法将命名实体识别问题当作序列标注问题，该方法首先对文本定义相关人工特征，然后将这些特征输入到隐马尔可夫、最大熵或者条件随机场等模型中，最后预测得到每一个字或词相应的序列标签。基于传统机器学习的方法，其命名实体识别效果依赖于人工所定义的特征的质量，所以往往需要消耗较多人工和时间去精心设计特征，存在着一定的局限性。

近年来，深度学习技术取得了迅猛的发展，并且在许多任务的解决上展现出显著的优势和巨大的潜力，越来越多的研究人员使用深度学习方法，进行命名实体识别的工作，这些工作以很小的特征工程代价，取得了比传统机器学习方法更优异的效果。近年来，基于深度学习的半监督学习、多任务学习和迁移学习等方法，在命名实体识别任务上均取得了优异甚至是当前业界领先的效果，这些工作证明了深度学习在命名实体识别任务上的显著优势和巨大潜力。虽然深度学习能够较好的提取数据特征，但是其效果往往依赖于训练数据集的规模。如果用于有监督训练的数据集规模较小，基于深度学习的命名实体识别效果往往较差，这个问题在许多实际任务中很常见。为此，许多学者在深度学习的基础上，使用了半监督学习、迁移学习等方法来提高命名实体识别的效果。目前针对在线医疗咨询文本进行命名实体识别的研究不多，如何使用了半监督学习、迁移学习等方法改善在线医疗咨询文本命名实体识别任务的效果，是一项亟待解决的工作。

发明内容

有鉴于此，为解决上述现有技术中的问题，本发明提供了一种基于对抗多任务学习的医疗咨询命名实体识别方法，通过在命名实体识别模型中引入语言模型的预训练特征，以及利用相近的命名实体识别任务的数据进行对抗多任务训练，有效地提高了医疗咨询文本命名实体识别的效果。

本发明的目的至少通过如下技术方案之一实现。

一种基于对抗多任务学习的医疗咨询命名实体识别方法，包括以下步骤：

步骤1、采集医疗咨询数据，对医疗咨询数据进行预处理，并对其中一部分数据进行实体的标注，得到有标注的医疗咨询数据；

步骤2、构建双向语言模型和掩码语言模型，利用无标注的医疗咨询数据，分别预训练双向语言模型和掩码语言模型；

步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型；

步骤4、对命名实体识别模型进行对抗多任务训练，得到训练好的命名实体识别模型；

步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中，实现文本命名实体识别。

进一步地，步骤1中，采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答，采取的预处理包括清洗噪音数据、去除无用符号、分词，标注的实体包括身体部位、症状描述、独立症状3种。

进一步地，步骤2包括以下步骤：

步骤21、构建双向语言模型并利用无标注的医疗咨询数据预训练双向语言模型；

步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型。

进一步地，步骤21中，双向语言模型由正向语言模型和反向语言模型构成，正向语言模型和反向语言模型联合进行训练；正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成，且正向语言模型和反向语言模型共用同一个字向量层，不同的是，正向语言模型的长短时记忆网络层是正向长短时记忆网络层，反向语言模型的长短时记忆网络层是反向长短时记忆网络层；正向语言模型的训练目标是对于句子中任意字，能够正确的预测出其下一个字；反向语言模型的训练目标是对于句子中任意字，能够正确的预测出其上一个字；正向语言模型和反向语言模型均通过Adam优化器进行训练。

进一步地，步骤22中，掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成；掩码语言模型通过Adam优化器进行训练；训练过程中，对于无标注的医疗咨询数据中的每一个句子，随机将句子中15％的字替换成<Mask>字符，训练目标为掩码语言模型能预测出句子原本的字；为了避免预训练时掩码语言模型只学习到<Mask>字符周围的上下文语义和语法，而微调阶段由于没有<Mask>字符，导致掩码语言模型预训练阶段学习到的上下文语法和语义信息失效，对于随机选中的15％的字符，在80％的情况下，将其替换成<Mask>字符；10％的情况下，将其随机替换成语料字典中的某个字；其余10％的情况下，不做替换操作。

进一步地，步骤3包括以下步骤：

步骤31、构建多任务对抗训练的命名实体识别模型，命名实体识别模型包括一个目标领域标注模型、源领域标注模型、领域鉴别器；

步骤32、将掩码语言模型的预训练特征通过权重迁移结合到目标领域标注模型的编码层中，双向语言模型对输入的编码与目标领域标注模型对输入的编码通过拼接操作进行特征融合作为目标领域标注模型解码层的输入。

进一步地，步骤31中，目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别，源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别，领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务；

目标领域标注模型和源领域标注模型均包括字向量层、共享编码层、两层卷积神经网络、双向长短时记忆网络和条件随机场；领域鉴别器包括一个字向量层、一个共享编码层和一个Softmax层，共享编码层由两层卷积神经网络构成；目标领域标注模型、源领域标注模型、领域鉴别器共享同一个字向量层和同一个共享编码层；领域鉴别器对共享编码层的输出进行平均操作，然后通过Softmax层计算当前进行的是哪个任务。

进一步地，步骤32中，将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型；掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中，双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合，作为目标领域标注模型双向长短时记忆网络的输入。

进一步地，步骤4中，命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练；命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务，在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务。

进一步地，对抗多任务训练的训练阶段包括以下步骤：

步骤41、随机选取一个批次的相近的命名实体数据，训练源领域标注模型，更新源领域标注模型的参数，源领域标注模型的损失函数如下：

其中θ_share表示共享编码层的参数，θ^s表示源领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数，y^s表示输入的电子病历数据的实体标签，x^s表示输入的电子病历数据的句子，p(.)表示概率；

步骤42、随机选取一个批次的有标注医疗咨询数据，训练目标领域标注模型，更新目标领域标注模型的参数，目标领域标注模型的损失函数是：

其中θ_share表示共享编码层的参数，θ^t表示目标领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数，y^t表示输入的医疗咨询数据的实体标签，x^t表示输入的医疗咨询数据的句子；

步骤43、分别用当前批次的电子病历数据和当前批次的医疗咨询数据，先后训练领域鉴别器和更新领域鉴别器的参数；领域鉴别器更新Softmax层的参数θ_d，以最小化其对x的领域类别所预测的概率分布和真实概率分布的交叉熵损失，公式表示为：

其中，x表示当前输入的句子，s、t都是类别，s表示x是源领域的句子，t表示x是目标领域的句子，I(x)用于判断输入模型的x是来自源领域还是目标领域，公式表示为：

其中，D_s表示源领域标注数据集，D_t表示目标领域标注数据集；与领域鉴别器的目标相反，共享编码层需要尽可能生成领域鉴别器无法鉴别其来源的特征，也就是使得鉴别器对x的领域类别的预测概率熵最大，即熵的相反数最小，所以对共享编码层的参数θ_share的更新，以最小化如下公式的对抗损失为目标

步骤44、采用命名实体识别模型的总体损失函数对命名实体识别模型进行训练，得到训练好的命名实体识别模型；命名实体识别模型的总体损失函数是源领域标注模型的损失函数、目标领域标注模型的损失函数和领域鉴别器的损失函数的组合，公式表示为：

其中，θ表示模型所有的参数，D表示训练的数据集，λ表示控制对抗损失权重的超参数。

与现有技术比较，本发明具有以下优点和有益效果：

1、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法，通过两种语言模型引入了无标注的医疗咨询数据，从不同的角度获取到了无标注文本中蕴含的语法和语义信息。

2、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法，提出并实现了一个基于对抗多任务学习方法引入跨领域有监督信息，通过利用医疗咨询文本命名实体任务和相近的命名实体识别任务的共享信息提升医疗咨询文本命名实体任务的效果。

3、本发明的一种基于对抗多任务学习的医疗咨询命名实体识别方法，使用无标注的数据和有标注的跨领域数据提升医疗咨询文本命名实体识别的效果，有效应对了有标注数据不足的情况，具有一定的市场价值和推广价值。

附图说明

图1为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的总流程图。

图2a和图2b为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的正向语言模型和反向语言模型网络结构图。

图3为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的掩码语言模型网络结构图。

图4为本发明实施例中一种基于对抗多任务学习的医疗咨询命名实体识别方法的医疗咨询命名实体识别任务与电子病历文本命名实体识别任务联合训练的模型网络结构图。

具体实施方式

下面将结合附图和具体的实施例对本发明的具体实施作进一步说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，一种基于对抗多任务学习的医疗咨询命名实体识别方法，包括以下步骤：

采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答，采取的预处理包括清洗噪音数据、去除无用符号、分词，标注的实体包括身体部位、症状描述、独立症状3种。

步骤2、构建双向语言模型和掩码语言模型，利用无标注的医疗咨询数据，分别预训练双向语言模型和掩码语言模型；包括以下步骤：

双向语言模型由正向语言模型和反向语言模型构成，正向语言模型和反向语言模型联合进行训练；如图2a和图2b所示，正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成，且正向语言模型和反向语言模型共用同一个字向量层，不同的是，正向语言模型的长短时记忆网络层是正向长短时记忆网络层，反向语言模型的长短时记忆网络层是反向长短时记忆网络层；正向语言模型的训练目标是对于句子中任意字，能够正确的预测出其下一个字；例如对于句子“头痛怎么处理呀”，训练目标为正向语言模型输出“痛怎么处理<END>”，“<END>”表示句子的结尾符。反向语言模型的训练目标是对于句子中任意字，能够正确的预测出其上一个字；例如对于句子“头痛怎么处理呀”，训练目标为反向语言模型输出“<Begin>头痛怎么处理”，“<Begin>”表示表示句子的起始符。正向语言模型和反向语言模型均通过Adam优化器进行训练，本实施例中，双向语言模型预训练的超参数如表1所示。

表1双向语言模型预训练的超参数表

步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型；

如图3所示，掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成；掩码语言模型通过Adam优化器进行训练，本实施例中，掩码语言模型预训练的超参数如表2所示；训练过程中，对于无标注的医疗咨询数据中的每一个句子，随机将句子中15％的字替换成<Mask>字符，训练目标为掩码语言模型能预测出句子原本的字，例如对于句子“头<Mask>怎么处理呀”，训练目标为掩码语言模型输出“头痛怎么处理呀”；为了避免预训练时掩码语言模型只学习到<Mask>字符周围的上下文语义和语法，而微调阶段由于没有<Mask>字符，导致掩码语言模型预训练阶段学习到的上下文语法和语义信息失效，对于随机选中的15％的字符，在80％的情况下，将其替换成<Mask>字符，例如对于句子“最近背部老是有点疼”选中了“背”字，在80％的情况下，将其替换成“<Mask>”字符，例如替换成“最近<Mask>部老是有点疼”；10％的情况下，将其随机替换成语料字典中的某个字，例如替换成“最近到部老是有点疼”；其余10％的情况下，不做替换操作。

表2掩码语言模型预训练的超参数表

名称	值
		字向量层向量维度	128
第一层和第二层卷积神经网络的卷积核大小	3
		第一层和第二层卷积神经网络的卷积核个数	128
双向长短时记忆网络的隐藏层大小	128
		dropout比例	0.5
优化器	Adam
		学习率	0.001
批大小	64
		最大训练迭代轮数	50

步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型；包括以下步骤：

步骤31、构建多任务对抗训练的命名实体识别模型，如图4所示，命名实体识别模型包括一个目标领域标注模型、源领域标注模型、领域鉴别器；

目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别，源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别，领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务；

步骤32、将掩码语言模型的预训练特征通过权重迁移结合到目标领域标注模型的编码层中，双向语言模型对输入的编码与目标领域标注模型对输入的编码通过拼接操作进行特征融合作为目标领域标注模型解码层的输入；

将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型；掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中，双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合，作为目标领域标注模型双向长短时记忆网络的输入。

命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练；命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务，在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务；

对抗多任务训练的训练阶段包括以下步骤：

其中，θ表示模型所有的参数，D表示训练的数据集，λ表示控制对抗损失权重的超参数。命名实体识别模型训练时的超参数如表3所示。

表3命名实体识别模型训练时的超参数

步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中，实现文本命名实体识别。本实施例中，输入一段文本“天气一凉总腰酸”到训练好的命名实体识别模型的目标领域标注模型中，可以得到输出“o o o o o B-Body B-SymDesc”，其中，“B-Body”、“B-SymDesc”分别表示该字是身体部位、症状描述，“o”表示该字不是相关的实体。

以上为本发明的一个实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，包括以下步骤：

步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中，实现文本命名实体识别；

所述对抗多任务训练的训练阶段包括以下步骤：

其中，D_s表示源领域标注数据集，D_t表示目标领域标注数据集；对共享编码层的参数θ_share的更新，以最小化如下公式的对抗损失为目标

2.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤1中，采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答，采取的预处理包括清洗噪音数据、去除无用符号、分词，标注的实体包括身体部位、症状描述、独立症状3种。

3.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤2包括以下步骤：

4.根据权利要求3所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤21中，双向语言模型由正向语言模型和反向语言模型构成，正向语言模型和反向语言模型联合进行训练；正向语言模型和反向语言模型均由字向量层、长短时记忆网络层和Softmax层组成，且正向语言模型和反向语言模型共用同一个字向量层，不同的是，正向语言模型的长短时记忆网络层是正向长短时记忆网络层，反向语言模型的长短时记忆网络层是反向长短时记忆网络层；正向语言模型的训练目标是对于句子中任意字，能够正确的预测出其下一个字；反向语言模型的训练目标是对于句子中任意字，能够正确的预测出其上一个字；正向语言模型和反向语言模型均通过Adam优化器进行训练。

5.根据权利要求3所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤22中，掩码语言模型的结构由字向量层、两层卷积神经网络、一层双向长短时记忆网络和Softmax层组成；掩码语言模型通过Adam优化器进行训练；训练过程中，对于无标注的医疗咨询数据中的每一个句子，随机将句子中15％的字替换成<Mask>字符，训练目标为掩码语言模型能预测出句子原本的字；对于随机选中的15％的字符，在80％的情况下，将其替换成<Mask>字符；10％的情况下，将其随机替换成语料字典中的某个字；其余10％的情况下，不做替换操作。

6.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤3包括以下步骤：

7.根据权利要求6所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤31中，目标领域标注模型用于进行医疗咨询命名实体识别任务即对医疗咨询数据进行命名实体识别，源领域标注模型用于进行源领域标注任务即对相近的命名实体进行识别，领域鉴别器用于判断当前进行的是医疗咨询命名实体识别任务还是相近的命名实体识别任务；

8.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤32中，将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型的目标领域标注模型；掩码语言模型的字向量层、两层卷积神经网络通过权重迁移的方法分别结合到目标领域标注模型的字向量层、两层卷积神经网络中，双向语言模型的双向长短时记忆网络层输出和目标领域标注模型的第二层卷积神经网络输出、共享编码层的输出通过拼接操作进行特征融合，作为目标领域标注模型双向长短时记忆网络的输入。

9.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法，其特征在于，步骤4中，命名实体识别模型对医疗咨询命名实体识别任务与相近的命名实体识别任务进行对抗多任务训练；命名实体识别模型的目标领域标注模型、源领域标注模型分别进行医疗咨询命名实体识别任务、相近的命名实体识别任务，在训练过程中通过领域鉴别器鉴别当前共享编码层的输出特征是来自于医疗咨询命名实体识别任务还是相近的命名实体识别任务。