CN116187348A

CN116187348A - 主题增强的两阶段医疗对话摘要模型

Info

Publication number: CN116187348A
Application number: CN202211605022.1A
Authority: CN
Inventors: 张旻; 邹一凡; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-30

Abstract

本发明公开了一种主题增强的两阶段医疗对话摘要模型，包括以下步骤：步骤(1)构建TTMSum模型；步骤(2)得到与医疗相关对话d`；步骤(3)通过神经主题模型得到患者与医生的主题信息τ_s‑τ_o；步骤(4)得到带有主题信息的话语；步骤(5)生成文本摘要；步骤(6)训练TTMSum模型，输出对应的摘要内容。该方法采用神经主题模型获得患者和医生各自话语的主题信息；在抽取器阶段，采用指针生成网络并融合统一医学语言系统将对话语句进行初步筛选，排除与医疗领域无关的对话；将主题信息与此前的解码结果进行融合，得到当前的解码结果，这进一步过滤了对话中的无用信息，最终输出摘要。该医疗对话数据集上具有更好的鲁棒性和自适应能力。

Description

主题增强的两阶段医疗对话摘要模型

技术领域

本发明属于自然语言处理技术领域，设计医疗领域的对话摘要生成模型，具体指一种主题增强的两阶段医疗对话摘要模型。

背景技术

在医疗领域中，自然语言处理技术(NLP)具有极大的发展潜力，可作用于许多实际应用，如医学文献中的关键信息抽取、电子健康记录中的风险因素识别和医学问题回答等。如今，许多人患病了也无法外出就诊，这极大地增加了线上就诊的压力，导致提高在线问诊的质量和效率、减少在线医生的工作压力成了一个迫切的需求。在线医疗平台的医患沟通主要有两种方式：基于语音和基于文本的对话聊天。通常，在结束与患者的对话后，医生或护士会将收集到的患者信息(如当临床症状、历史病例、历史医疗情况等)进行总结，并录入电子健康记录(EHR)中或是公开在在线医疗平台上。这样一来，其他有类似医疗问题的患者就可以找到对应的解决方案。然而，一方面由于对话具有冗余性，许多无用的信息也被参杂在一起，人们通常很难迅速找出实际有用的信息；另一方面，要求人类专家长期总结医疗对话会造成成本过高。因此，医疗领域对话的摘要，特别是针对症状描述和治疗方案，是一项艰巨而又十分重要的任务。

由于医疗对话摘要具有其他领域所不存在的独特目标：即寻求解决方案为特定健康问题提供医疗建议。我们可以通过识别医疗对话中的重要话语来完成这个目标。在本文中，重要话语指的是包含医疗问题或治疗建议等关键信息的话语。医疗对话摘要应做到：(1)能捕捉对话中描述的所有医疗术语(如咳嗽、发烧、呼吸急促等)；(2)能正确识别出医疗条件的肯定句和否定句(如无过敏、咳嗽两天等)。进一步地，可以发现摘要中所需要的大部分信息都出现在源文本中，并引入了一些新单词来将这些信息缝合在一起。这需要我们能较好地过滤无用信息，并留下重要话语。

端到端医疗对话摘要的另一大重要挑战是缺乏大规模的注释数据集。医疗对话的注释需要训练有素的医生来完成，然而这种方式不仅缓慢，而且成本过于昂贵。因此，这需要我们设立一种建模策略，能够从稀疏数据中学习上述的重要偏差。

发明内容

本发明的目的是：针对现有技术的不足，提供一种主题增强的两阶段医疗对话摘要模型，利用改进的神经主题模型进行主题建模来获得主题信息，并将主题信息融入到一个两阶段编解码器中的对话摘要生成方法；此外，针对大型数据集的缺乏，自主构建了医疗对话数据集。

本发明解决其技术问题所采用的技术方案，一种主题增强的两阶段医疗对话摘要模型，包括以下步骤：

步骤(1)：给定原始输入对话d输入到抽取器中，并结合统一医学语言系统(UMLS)进行筛选，得到与医疗相关对话d`；

步骤(2)：将原始输入对话d输入到改进的神经主题模型，学习到患者与医生的主题信息τ_s-τ_o；

步骤(3)：将d‘输入到细化器中进行编解码，在每一步解码中，将上一步的解码结果q_i与主题信息τ_s-τ_o进行融合，得到带有主题信息的话语；

步骤(4)：将带有主题信息的话语送入基于Transformer的解码器进行解码；并经过归一化后生成文本摘要；

步骤(5)：将TTMSum模型在自主构建的医疗对话数据集上进行训练，挑选出最优的TTMSum模型，将任意文本输入训练好的TTMSum模型，输出对应的摘要内容；

所述TTMSum模型由改进神经主题模型、两阶段编解码器、统一医学语言系统(UMLS)共同组成。

本发明有益效果如下：

本发明提出改进主题模型和两阶段编解码器能更好地提取出医疗对话的关键信息；并且本发明自主构建的数据集弥补了当前缺乏大型医疗对话数据集的问题。在训练时，将统一医学系统和主题信息融入编解码器中。通过这种操作，使得本模型面对下游任务时，能更好地参考主题信息进行特征选择。结果表明，这种方式具有更好地鲁棒性和自适应能力。根据文本摘要领域标准性能指标进行测试，评价指标包括ROUGE_1/ROUGE_2/ROUGE_L。在自主构建的医疗对话数据集上进行测试，并得到在领域内领先水平的结果。

附图说明

图1是本发明实施例中神经主题模型与传统神经主题模型的对比框架。

图2是数据集示例。

图3是本实验中各模型的训练结果。

图4是本发明实施例的整体流程框架。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明公开了一种主题增强的两阶段医疗对话摘要模型。本发明提出了一种基于改进的神经主题模型和两阶段编解码的模型，被称为TTMSum。在主题建模阶段，采用改进的神经主题模型获得患者和医生各自话语的主题信息；在抽取器阶段，采用指针生成网络并融合统一医学语言系统(UMLS)将对话语句进行初步筛选，排除与医疗领域无关的对话；在细化器阶段，将主题信息与此前的解码结果进行融合，得到当前的解码结果，这进一步过滤了对话中的无用信息，最终输出摘要。同时，本发明自主构建医疗对话数据集，并根据专业医疗人员的意见进行了审核对比。

如图1所示，为基本神经主题模型和改进神经主题模型的对比，该模型通过神经网络从每个对话d中推断出主题分布θ，从而找出两个角色各自的对话重点。通常，在口语对话中会出现大量随机噪音，这些噪音与有用信息混合在一起，其中目标摘要相对应的单词能提供有用信息。因此，可以将所有主题K分为两类：有用主题和其他主题。具体的计算方式可见下文。与传统的神经主题模型相比较，改进主题模型将所对话摘要中的有用信息与其他噪音等信息中分离出来，避免对混合信息直接进行建模。因此降低了噪音对摘要的影响，使主题推理更加健壮。

如图2所示，为数据集示例。本模型所使用的数据集来源于在线医疗服务平台“春雨医生”。由于目前尚无公开的大型中文医疗对话数据集，因此需要自主构建并筛选。首先，从平台中爬取了接近一百万条医疗对话数据集，然而这些数据集大多存在残缺。经过排除筛选，最终留下实际可用的数据有三万两千余条，且每条数据集都包含完整的对话和摘要。在预处理中，需要将所有数据集的每条对话分别按照字符和按照单词进行划分。最终，按照8:1:1的比例分别用于训练、验证和测试。

具体的，如图4所示，主题增强的两阶段医疗对话摘要模型，包括以下步骤：

所述TTMSum模型由改进神经主题模型、两阶段编解码器、统一医学语言系统(UMLS)共同组成；

进一步的，所述步骤(1)具体实现过程如下：

1-1给定原始文档d＝{u₁,u₂,...,u_n}，且u_i＝{r_i,w_i1,w_i2,...,w_ij}。其中u_i表示每句对话；r_i表示角色，它可以是患者，也可以是医生；表w_ij示第i句话里的第j个单词。然后使用Transformer的编码器对u_i进行编码，得到话语隐藏表示h_i；

1-2抽取器由指针生成网络(PGN)以及统一医学语言系统(UMLS)组成，通过抽取器对h_i反复提取话语并解码，从而留下与医疗领域相关的话语d’＝{u₂,...,u_k}；

进一步的，所述步骤(2)具体实现过程如下：

2-2由于部分主题可能是噪音，对真正的摘要有影响，因此，可以将所有主题K分为两类：有用主题K_s和其他主题K_o。为了计算这两种主题，给定从词袋中衍生出的

并利用不同参数分别推断

其中，W和b是可训练参数。且在主题建模生成部分，可以设定s∈R^|V|表示d的一个单词子集，且s中的每一个单词都出现在目标摘要和原始对话中，以此区分有用主题和无用主题；

2-3推算主题表示:

其中，t可以看作一个主题向量，它同时捕获有用信息和无用信息，并纳入后续的训练模型中，以加强生成摘要的过程。φ是个可训练的随机初始化参数。此外，为了获得不同角色的信息，我们分别对患者和医生的话语进行主题建模，通过Eq3可以分别推断出主题分布

和

然后可以利用Eq6得到不同角色的主题向量表示

和

2-4对于患者，

对于医生，

[·；·]意味着拼接，0是一个所有元素都设为0的向量。τ_s-τ_o表示加强对有用主题的关注，对其他主题减少关注。进一步加强了主题信息的影响；

进一步的，所述步骤(3)具体实现过程如下：

3-1首先，设q_i为第i步解码步骤的结果；x_j表示内存中的第j个元素，具体来说，在细化器中是所选话语的第j个单词的隐藏表示。则每个头部的原始注意力可定义为：

其中，W都是可训练参数；d_h是每个头的维度。

是在第i步解码步骤中得到的解码结果；

3-2其次，在一般的解码过程中，每个步骤的状态都基于先前的解码序列，这可能导致错误信息不断累计。这就需要将全局主题和角色信息作为额外的信息源，指导解码过程。则可设计主题注意力如下

其中，W是可训练参数；d_h是每个头的维度；μ_t是融合了主题信息的向量；

3-3最后，将上述两个注意力进行结合，在每个解码步骤中同时考虑全局主题和先前的解码序列，可通过以下公式形成一个融合体：

μ_i＝∑_jα_ij(x_jW_V) (5)

其中，

是一个平衡两个注意力的系数

进一步的，所述步骤(4)具体实现过程如下：

4-1将附带主题信息的话语μ_i送入到基于Transformer的解码器进行解码；

进一步的，所述步骤(5)具体实现过程如下：

5-1改进神经主题模型损失函数如下：

其中，第一项表示KL-散度损失、第二项和第三项表示重建损失；q(z|d)和p(z)分别表示NTM的编码器网络和解码器网络；

和

分别表示s和d-s中的第n个观察词；β∈R^K×|V|表示主题-单词分布；θ和s的定义可见步骤2-2。

5-2基于Transformer的解码器损失函数如下：

L_S＝-∑log(p|x；θ) (7)

其中，x代表输入对话，y代表参考摘要，θ是模型参数。

5-3设计一种联合损失，其中包括基于Transformer的解码器的损失，以及分别对应患者话语、医生话语和整体话语的三个神经主题模型。则联合训练损失定义如下：

其中，δ是基于Transformer的解码器与主题模型之间的损失的系数。

5-4将测试医疗对话输入到TTMSum模型中，获得摘要内容。

接下来将在ChunYu数据集上具体实施此方案。ChunYu数据集包含32661条医疗对话数据集，根据8:1:1的比例将其划分为训练、验证、测试三部分。经过上述模型的训练以及预测，部分医疗对话摘要结果如下所示：

最终实验结果如图3所示。从数据上分析可知，本发明提出的模型在该医疗对话数据集上具有更好的鲁棒性和自适应能力。

Claims

1.一种主题增强的两阶段医疗对话摘要模型，其特征在于，包括以下步骤：

步骤(1)构建TTMSum模型，所述TTMSum模型包括神经主题模型、两阶段的编解码器、统一医学语言系统；

步骤(2)给定原始输入对话d并输入到抽取器中，并结合统一医学语言系统进行筛选，得到与医疗相关对话d`；

步骤(3)将原始输入对话d输入到神经主题模型，学习得到患者与医生的主题信息τ_s-τ_o；

步骤(4)将d‘输入到细化器中进行编解码，在每一步解码中，将上一步的解码结果q_i与主题信息τ_s-τ_o进行融合，得到带有主题信息的话语；

步骤(5)将带有主题信息的话语送入基于Transformer的解码器进行解码；并经过归一化后生成文本摘要；

步骤(6)将TTMSum模型在自主构建的医疗对话数据集上进行训练，挑选出最优的TTMSum模型，将任意文本输入训练好的TTMSum模型，输出对应的摘要内容。

2.根据权利要求1所述的主题增强的两阶段医疗对话摘要模型，其特征在于，进一步的，所述步骤(2)具体实现过程如下：

1-1给定原始文档d＝{u₁,u₂,...,u_n}，且u_i＝{r_i,w_i1,w_i2,...,w_ij}，其中u_i表示每句对话；r_i表示角色；表w_ij示第i句话里的第j个单词，然后使用Transformer的编码器对u_i进行编码，得到话语隐藏表示h_i；

1-2通过抽取器对h_i反复提取话语并解码，从而留下与医疗领域相关的话语d’＝{u₂,...,u_k}。

3.根据权利要求2所述的主题增强的两阶段医疗对话摘要模型，其特征在于，所述抽取器由指针生成网络以及统一医学语言系统组成。

4.根据权利要求1所述的主题增强的两阶段医疗对话摘要模型，其特征在于，所述步骤(1)中，神经主题模型的构建：

5.根据权利要求4所述的主题增强的两阶段医疗对话摘要模型，其特征在于，所述步骤(3)具体实现过程如下：

3-1将原始输入对话d中的所有主题K分为两类有用主题K_s和其他主题K_o，为了计算这两种主题，给定从词袋中衍生出的

并利用不同参数分别推断

其中，W和b是可训练参数，设定s∈R^|V|表示d的一个单词子集，且s中的每一个单词都出现在目标摘要和原始对话中，以此区分有用主题和无用主题；

3-2推算主题表示：

其中，t看作一个主题向量，它同时捕获有用信息和无用信息，并纳入后续的训练模型中，以加强生成摘要的过程，φ是个可训练的随机初始化参数，通过Eq3可以分别推断出主题分布

和

然后利用Eq6得到不同角色的主题向量表示

和

3-3对于患者，

对于医生，

[·；·]意味着拼接，0是一个所有元素都设为0的向量；τ_s-τ_o表示加强对有用主题的关注，对其他主题减少关注，进一步加强了主题信息的影响。

6.根据权利要求5所述的主题增强的两阶段医疗对话摘要模型，其特征在于，所述步骤(4)具体实现过程如下：

4-1设q_i为第i步解码步骤的结果；x_j表示内存中的第j个元素，在细化器中是所选话语的第j个单词的隐藏表示，则每个头部的原始注意力可定义为

其中，W都是可训练参数；d_h是每个头的维度；

是在第i步解码步骤中得到的解码结果；

4-2将全局主题和角色信息作为额外的信息源，设计主题注意力如下

4-3将上述两个注意力进行结合，在每个解码步骤中同时考虑全局主题和先前的解码序列，可通过以下公式形成一个融合体

μ_i＝∑_jα_ij(x_jW_V) (5)

其中，

是一个平衡两个注意力的系数。

7.根据权利要求5所述的主题增强的两阶段医疗对话摘要模型，其特征在于，所述步骤(1)中

神经主题模型损失函数如下：

和

分别表示s和d-s中的第n个观察词；β∈R^K×|V|表示主题-单词分布；θ和s的定义可见步骤2-2，

基于Transformer的解码器损失函数如下

L_S＝-∑log(p|x；θ) (7)

其中，x代表输入对话，y代表参考摘要，θ是模型参数，

联合损失，其中包括基于Transformer的解码器的损失，以及分别对应患者话语、医生话语和整体话语的三个神经主题模块的损失，则联合训练损失定义如下