CN115964475A

CN115964475A - 一种用于医疗问诊的对话摘要生成方法

Info

Publication number: CN115964475A
Application number: CN202211678692.6A
Authority: CN
Inventors: 刘宇鹏; 张禹豪; 刘港
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-14

Abstract

一种用于医疗问诊的对话摘要生成方法，涉及自然语言处理技术领域，针对现有技术中由于句子中包含了无效信息，导致了生成的医患对话摘要事实出入大，准确率低的问题，本申请设置了抽取式摘要部分和生成式摘要，首先从文本之中选取出重要的含有有效信息的多个句子，再将其输入到生成式摘要的模型，通过生成式摘要模型，将抽取式摘要部分抽取的句子融合成更简短的包含了更多信息的句子。这样既保留了原文中包含了事实的有效信息，又生成了流畅简短的句子，并且提高了生成医患对话摘要的准确率。能够解决现有的摘要生成方法中存在的摘要结果与问诊对话事实出入大，可读性不强的问题，同时有助于辅助医生完成病例总结。

Description

一种用于医疗问诊的对话摘要生成方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种用于医疗问诊的对话摘要生成方法。

背景技术

近年来随着电脑和智能手机的广泛普及，网民数量日益增多，导致网络中数据呈爆炸式方式增长，在线医疗服务是近几年流行起来的一种网络服务，庞大的网民数量为在线医疗服务的发展提供了广大的市场，如今越来越多的人开始享受在线医疗服务，足不出户就可以与医生面对面交流，解决健康困扰。医疗问诊对话摘要已成为一个迫切需要，是一个非常有研究价值的问题。而自动生成对话摘要则提供了一个高效的解决方案。但现有技术中，由于句子中包含了无效信息，导致了生成的医患对话摘要事实出入大，准确率低的问题。

发明内容

本发明的目的是：针对现有技术中由于句子中包含了无效信息，导致了生成的医患对话摘要事实出入大，准确率低的问题，提出一种用于医疗问诊的对话摘要生成方法。

本发明为了解决上述技术问题采取的技术方案是：

一种用于医疗问诊的对话摘要生成方法，包括以下步骤：

步骤一：获取原始医疗问诊对话数据，并且同步获取已经由医生或医生助手总结的对话内容摘要，以此构建文本数据；

步骤二：将文本数据中医生与患者之间的对话作为特征、医生或医生助手总结的对话内容摘要作为标签，得到标记后的数据；

所述文本数据中医生与患者之间的对话包括病史、病情说明、症状、医生咨询建议以及医生给出诊断和合理治疗方案；

步骤三：利用标记后的数据训练BiLSTM神经网络，所述BiLSTM神经网络包括抽取式摘要、生成式摘要和指针生成器网络，所述生成式摘要包括编码器和解码器；

所述神经网络首先将标记后的数据进行分词，并将分词结果分别进行编码，得到多个词向量，然后抽取式摘要对词向量进行信息过滤，保留包含了事实的有效信息的词向量；

所述编码器用于将抽取式摘要保留的句子进行特征提取，并将提取到的特征进行拼接，得到最终特征表达；

所述解码器用于对最终特征表达进行解码，得到概率分布；

所述指针生成器网络用于结合复制机制和覆盖机制对概率分布进行处理，得到最终分布；

步骤四：将待识别医疗问诊对话数据输入训练好的BiLSTM神经网络，根据最终分布，保留概率最高的医疗问诊对话摘要。

进一步的，所述步骤一中原始医患对话数据通过urllib的request库从互联网上爬取得到。

进一步的，所述神经网络首先将标记后的数据进行分词，并将分词结果分别进行编码的具体步骤为：

针对标记后的数据，以[CLS]为句子开头，[SEP]为句子结尾，对每个句子进行处理，并将处理后的句子利用分词词典进行ID转换，设置输入模型的长度为512，对于大于输入长度的句子，保留前512个ID，对于小于输入长度的句子，使用[PAD]补全，最后将转换后的ID输入到预训练模型中，得到编码信息，即词向量。

进一步的，所述抽取式摘要对词向量进行信息过滤通过TextRank算法进行，所述TextRank算法表示为：

其中，WS(v_i)表示语句v_i的最终得分，d表示阻尼系数，初始值为0.85，w_ji表示j和i这两个句子之间的相似度值，w_jk表示j和k这两个句子之间的相似度值,v_k表示除句子v_i外的所有句子，WS(v_j)表示语句v_j的最终得分。

进一步的，所述编码器由一个双向长短期记忆网络构成，所述双向长短期记忆网络的隐藏层中包括三个门控结构和一个隐藏状态a_t，所述一个隐藏状态包括遗忘门f_t、输入门i_t和输出门o_t；

双向长短期记忆网络的隐藏层表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

a_t＝tanh(W_a·[h_t-1,x_t]+b_a)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，x_t表示t时刻的输入，h_t-1表示t-1时刻的隐藏状态值；W_f、W_i、W_o、W_a分别为遗忘门、输入门、输出门和特征提取过程中h_t-1的权重系数；b_f、b_i、b_o、b_a分别为遗忘门、输入门、输出门和特征提取过程中的偏置值；tanh表示正切双曲函数，tanh表示为：

σ表示Sigmoid激活函数，σ表示为：

遗忘门和输入门用于计算t时刻的状态c(t)，c(t)表示为：

c(t)＝c(t-1)⊙f(t)+i(t)⊙a(t)

其中⊙为Handamard积；

t时刻的隐藏状态h(t)由输出门o_t和当前时刻的状态c_t求出，表示为：

h(t)＝o(t)⊙tanh(c(t))。

进一步的，所述解码器采用注意力机制，通过对每个解码步骤中的输入状态s_t，隐藏状态h_i进行加权和得到输入的贡献值a^t，输入的贡献值a^t表示为：

a^t＝softmax(v^Ttanh(W_hh_i+W_ss_t))

其中，v、W_h和W_s是可以学习参数；

根据输入的贡献值a^t和隐藏状态h_i计算加权的输出向量表示为：

其中，为第i句的贡献值；

利用加权的输出向量和输入状态s_t得到t时刻输出词汇的概率分布，其公式为：

其中，V'和V为可以学习参数，y_t为第t时刻解码器输出。

进一步的，所述指针生成器网络结合复制机制和覆盖机制对概率分布进行处理，得到最终分布的具体步骤为：

指针生成器网络在第t时刻解码时计算生成概率p_gen，表示为：

其中，y_t-1表示第t-1时刻解码器输出，、w_s和w_y为可学习参数；

复制单词的贡献分布表示为：

其中，P_vocab(y_t)表示生成词的概率分布；

解码器过往时间步骤的注意力分布的和，得到覆盖向量c^t，表示为：

其中，c^t表示到第t时刻为止这些单词从注意力机制接受到的覆盖程度；

覆盖向量用于注意力机制，将输入的贡献值a^t公式改进为：

其中，w_c和b_attn为可以学习参数。

进一步的，所述BiLSTM神经网络的训练过程中采用集束搜索方式进行解码，每次只保留5个候选结果，生成医疗问诊对话摘要，再和输入摘要进行对比，计算负对数似然损失函数，通过反向传播更新模型中所有参数，基于损失最小化作为训练目标，采用Adam优化器重复训练过程，保存整个训练过程中所得的模型及其对应的模型参数，同时设置超参数：

所述超参数设置为：训练轮次设置为30，容忍度设置为50，训练批次大小设置为4，学习率为1e-5，BiLSTM隐藏层维度设置为150。

本发明的有益效果是：

本申请设置了抽取式摘要部分和生成式摘要，首先从文本之中选取出重要的含有有效信息的多个句子，再将其输入到生成式摘要的模型，通过生成式摘要模型，将抽取式摘要部分抽取的句子融合成更简短的包含了更多信息的句子。这样既保留了原文中包含了事实的有效信息，又生成了流畅简短的句子，并且提高了生成医患对话摘要的准确率。

能够解决现有的摘要生成方法中存在的摘要结果与问诊对话事实出入大，可读性不强的问题，同时有助于辅助医生完成病例总结。

附图说明

图1为本申请的流程图；

图2为TextRank算法抽取示意图；

图3为生成式摘要的模型示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种用于医疗问诊的对话摘要生成方法，包括：

步骤S1.通过爬虫获取原始训练数据。使用urllib的request库从互联网上爬取医疗问诊对话数据，并且同步获取已经由医生或医生助手总结的对话内容摘要。并构建医疗问诊对话语料库。

步骤S2.将文本数据集划分为训练数据集、测试数据集及验证数据集，对训练数据集、测试数据集及验证数据集进行预处理，生成训练样本、测试样本和验证样本。

步骤S3.构建医疗问诊对话摘要模型，医疗问诊对话摘要模型由抽取式部分和生成式部分组成，抽取式部分采用TextRank摘要算法，从医生和患者的对话中抽取包含有效信息的对话句子。生成式部分由编码器部分和解码器部分组成，编码端使用双向长短期记忆网络，解码端采用加入了指针生成网络和注意力机制的长短期记忆网络，使其不仅可以生成词汇表中的词，还可以从输入序列中复制词汇。

步骤S4.使用训练样本对对话摘要生成模型进行训练，采用Adam优化器作为优化方法，负对数似然损失函数更新对话摘要生成模型。

步骤S5.通过验证样本对更新后的对话摘要模型进行评估，获取评估结果最优的医疗问诊对话摘要生成模型；通过测试样本对优化对话摘要生成模型进行测试；

步骤S6.针对一组医患对话文本，输入进模型中，得到总结的对话内容摘要。

在步骤S1和步骤S2中将通过爬虫获取原始医患对话文本数据和由医生或医生助手总结的对话内容摘要作为数据标签。构建医疗问诊对话语料库，并将数据集划分为训练数据集、测试数据集和验证数据集。

在步骤S3至S5中,将从步骤S1中获取的数据集，首先通过抽取部分通过TextRank算法抽取出含有有效信息的句子并输入给生成模型进行训练。采用Adam优化器作为优化方法，负对数似然损失函数更新对话摘要生成模型。并通过测试选取结果最优的模型保留作为对话摘要生成模型。

在步骤S6中通过步骤S3至S5的模型表示，对模型进行模型预测。

下面分别进行说明：

(1)基于urllib中的request库从互联网上爬取医疗问诊对话数据，并且同步获取已经由医生或医生助手总结的对话内容摘要，并构建医疗问诊对话语料库。共获得约180万条对话数据，其每一段对话内容大致为患者先阐述病史，说明病情，症状等，向医生咨询建议，然后由医生给出诊断和合理治疗方案。

(2)获得数据后，对数据进行预处理，将医生与患者之间的对话作为特征，医生或医生助手总结的对话内容摘要作为标签。得到标记后的数据集

对于每一个句子，都处理成这种形如“[CLS]句子[SEP]”，并设置输入模型最大长度为512，对于小于输入长度的句子，使用[PAD]标记补全，并将数据分成训练数据集、测试数据集和验证数据集。

(3)首先将要用来训练的数据进行分词，将句子分词后使用词嵌入将自然语言的词转换成机器能识别的词向量。模型中抽取式部分使用TextRank算法抽取出对话中的无效句子，其中TextRank算法是基于PageRank算法改进后被提出的，该算法可以被用于计算得出关键词和关键句。TextRank算法通过将文本中的每一句话当作一个结点，句子间的相似程度作为结点的边，因为句子间的相似度是相互的，所以各个语句间的边没有方向，这样就构成了一个有权无向图。TextRank的计算公式为：

其中，WS(v_i)表示语句v_i的最终得分，d为阻尼系数，初始值一般为0.85，w_ji表示j和i这两个句子之间的相似度值。

生成式部分由编码器和解码器组成，其中编码器部分由一个双向长短期记忆网络构成，双向长短期记忆网络是由两个不同方向的长短期记忆网络组成的，其在主体结构上与传统的循环神经网络相似，其主要的改进是在隐藏层中加入了三个门控结构，分别是遗忘门、输入门、输出门，同时增加了一个隐藏状态。其形式化定义为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)#(2)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)#(3)

a_t＝tanh(W_a·[h_t-1,x_t]+b_a)#(4)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)#(5)

其中，x_t表示t时刻的输入，h_t-1表示t-1时刻的隐藏状态值；W_f、W_i、W_o、W_a分别为遗忘门、输入门、输出门和特征提取过程中h_t-1的权重系数；b_f、b_i、b_o、b_a分别为遗忘门、输入门、输出门和特征提取过程中的偏置值；tanh表示正切双曲函数，其公式如下：

σ表示Sigmoid激活函数，其公式如下：

其中遗忘门和输入门的计算用于计算t时刻的状态c(t)，其公式表示为：

c(t)＝c(t-1)⊙f(t)+i(t)⊙a(t)#(8)

其中⊙为Handamard积。最终，t时刻的隐藏状态h(y)由输出门o_t和当前时刻的状态c_t求出，其公式为：

h(t)＝o(t)⊙tanh(c(t))#(9)

双向长短期记忆网络是由两个独立的长短期记忆网络组成，网络的输入序列分别以正序和逆序输入两个长短期记忆网络中进行特征提取，并将两个网络提取特征后的特征向量进行拼接形成最终特征表达。双向长短期记忆网络由于其正向和反向同时提取特征的特性使其既可以同时拥有向前和向后信息。事实证明，这种网络模型对文本特征的提取效率和性能要明显优于单个长短期记忆网络结构模型。

解码器部分由于只使用长短期记忆网络解码生成单词可能会导致生成摘要与事实不一致的问题，因此为了更好的解码生成摘要，采用了注意力机制，通过对每个解码步骤中的输入状态s_t，隐藏状态h_i进行加权和得到输入的贡献值a^t。其公式如下：

a^t＝softmax(v^Ttanh(W_hh_i+W_ss_t))#(10)

其中v、W_h和W_s是可以学习参数。计算加权的输出向量，其公式为：

最终在第t时刻得到输出词汇的概率分布，其公式为：

其中V'和V为可以学习参数。

指针生成器网络既允许通过指针复制单词，也允许通过固定词汇生成单词。指针生成器网络在第t时刻解码时计算生成概率p_gen，该概率决定从词汇表生成单词概率，或者直接从输入序列中复制单词的概率1-p_gen。生成概率计算公式为：

其中y_t-1表示第t-1时刻解码器输出，、w_s和w_y为可学习参数，对于复制单词的贡献分布，重用公式(10)中的注意力分布。最终输出的概率分布为：

其中P_vocab(y_t)与公式(12)相同。同时使用了覆盖机制，用来解决传统序列到序列模型生成重复单词缺点，通过增加一个覆盖向量c^t，它的值是解码器过往时间步骤的注意力分布的和，其公式为：

c^t表示到第t时刻为止这些单词从注意力机制接受到的覆盖程度。覆盖向量用于注意力机制，将公式(10)改进为：

其中w_c和b_attn为可以学习参数，这样就可以确保注意力机制更容易避免重复关注同一位置，从而避免生成重复文本。

(4)基于构建好的数据集和神经网络结构，采用Adam优化器及负对数似然损失函数训练模型。输入大规模问诊对话和该对话摘要结果来训练搭建好的神经网络，采用集束搜索方式进行解码，每次只保留特定数量候选结果，生成医疗问诊对话摘要，再和输入摘要进行对比，计算负对数似然损失函数，通过反向传播更新模型中所有参数。基于损失最小化作为训练目标，采用Adam优化器重复训练过程，保存整个训练过程中所得的模型及其对应的模型参数。同时设置超参数：训练轮次设置为30，容忍度设置为50(当在验证集上的指标50次不再增加，就停止训练，以免过拟合)，训练批次大小设置为4，学习率为1e-5，BiLSTM隐藏层维度设置为150。

(5)通过评估指标ROUGE值来评价，分数越高说明对话摘要效果越好。此外，在算法评估基础上，由医学领域专家组基于医疗问诊对话的内容对自动结果进行人工审核及评估，最终保留输出精度最高的医疗问诊对话摘要。

(6)基于词嵌入词典及训练好的自动医疗问诊对话摘要模型，实现智能医疗问诊对话摘要，对新输入的线上医疗问诊对话，输出需要的摘要。具体流程如下：输入对话文本，对文本进行数据预处理，基于词典对文本进行分词，对分词得到的文本使用基于训练所得的模型，预测摘要，输出医疗问诊对话摘要。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种用于医疗问诊的对话摘要生成方法，其特征在于包括以下步骤：

所述解码器用于对最终特征表达进行解码，得到概率分布；

2.根据权利要求1所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述步骤一中原始医患对话数据通过urllib的request库从互联网上爬取得到。

3.根据权利要求2所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述神经网络首先将标记后的数据进行分词，并将分词结果分别进行编码的具体步骤为：

4.根据权利要求3所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述抽取式摘要对词向量进行信息过滤通过TextRank算法进行，所述TextRank算法表示为：

其中，WS(v_i)表示语句v_i的最终得分，d表示阻尼系数，初始值为0.85，w_ji表示j和i这两个句子之间的相似度值，w_jk表示j和k这两个句子之间的相似度值，v_k表示除句子v_i外的所有句子，WS(v_j)表示语句v_j的最终得分。

5.根据权利要求4所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述编码器由一个双向长短期记忆网络构成，所述双向长短期记忆网络的隐藏层中包括三个门控结构和一个隐藏状态a_t，所述一个隐藏状态包括遗忘门f_t、输入门i_t和输出门o_t；

双向长短期记忆网络的隐藏层表示为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

a_t＝tanh(W_a·[h_t-1，x_t]+b_a)

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

σ表示Sigmoid激活函数，σ表示为：

遗忘门和输入门用于计算t时刻的状态c(t)，c(t)表示为：

c(t)＝c(t-1)⊙f(t)+i(t)⊙a(t)

其中⊙为Handamard积；

h(t)＝o(t)⊙tanh(c(t))。

6.根据权利要求5所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述解码器采用注意力机制，通过对每个解码步骤中的输入状态s_t，隐藏状态h_i进行加权和得到输入的贡献值a^t，输入的贡献值a^t表示为：

a^t＝softmax(v^Ttanh(W_hh_i+W_ss_t))

其中，v、W_h和W_s是可以学习参数；

根据输入的贡献值a^t和隐藏状态h_i计算加权的输出向量

表示为：

其中，

为第i句的贡献值；

利用加权的输出向量

和输入状态s_t得到t时刻输出词汇的概率分布，其公式为：

其中，V′和V为可以学习参数，y_t为第t时刻解码器输出。

7.根据权利要求6所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述指针生成器网络结合复制机制和覆盖机制对概率分布进行处理，得到最终分布的具体步骤为：

其中，y_t-1表示第t-1时刻解码器输出，

w_s和w_y为可学习参数；

复制单词的贡献分布表示为：

其中，P_vocab(y_t)表示生成词的概率分布；

覆盖向量用于注意力机制，将输入的贡献值a^t公式改进为：

其中，w_c和b_attn为可以学习参数。

8.根据权利要求7所述的一种用于医疗问诊的对话摘要生成方法，其特征在于所述BiLSTM神经网络的训练过程中采用集束搜索方式进行解码，每次只保留5个候选结果，生成医疗问诊对话摘要，再和输入摘要进行对比，计算负对数似然损失函数，通过反向传播更新模型中所有参数，基于损失最小化作为训练目标，采用Adam优化器重复训练过程，保存整个训练过程中所得的模型及其对应的模型参数，同时设置超参数：