CN108491497A

CN108491497A - 基于生成式对抗网络技术的医疗文本生成方法

Info

Publication number: CN108491497A
Application number: CN201810227535.0A
Authority: CN
Inventors: 朱斐; 叶飞; 伏玉琛; 陈冬火
Original assignee: Suzhou University
Current assignee: Beijing Future Cloud Technology Co ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-04
Anticipated expiration: 2038-03-20
Also published as: CN108491497B; WO2019179100A1

Abstract

本发明公开了一种基于生成式对抗网络技术的医疗文本生成方法，包括如下步骤：下载某个科属领域的多篇医疗文档；利用词向量来表示每篇医疗文档中的每个词；对每篇医疗文档进行文本分类，保留需要的医疗文档；获得每篇需要的医疗文档的最佳的输出序列标注；获得每篇需要的医疗文档的关键词集的索引，将索引随机打乱顺序，得到新的医疗文档及其对应的序列标注；采用基于生成式对抗网络的生成模型训练生成医疗文本；输出生成的医疗文本；获取生成的医疗文本的BLEU参数；对生成的医疗文本进行评估，最终得到目标医疗文本。本发明通过打乱数据生成新的医疗文本，解决病人的隐私安全问题和医疗文本较少的问题。

Description

基于生成式对抗网络技术的医疗文本生成方法

技术领域

本发明涉及医疗文本的数据挖掘领域，具体涉及一种基于生成式对抗网络技术的医疗文本生成方法。

背景技术

目前，研究人员将人工智能、机器学习等新方法应用到医疗文本数据中，在获得了一些较好效果的同时也遇到了一些问题，如：

(1)数据匮乏。医学文本的数据，尤其是一些罕见疾病、重症疾病的数据严重不足，这样会导致机器学习等方法在训练学习阶段失效，也无法正确、如实、全面地反映对这些疾病的信息。

(2)隐私安全。如何保障隐私安全一直都是人们关注的热点。如，美国印第安纳州某位前市长突然被发现感染有恶性传染疾病。事后得知，该市长在事发前曾去某家医院就诊，有人根据这家医院提供的所谓“无个人敏感隐私信息”的医疗数据，结合其他大数据进行分析，推断出该市长患有恶性传染疾病。

在医疗中利用人工智能、机器学习等新方法，实现精准医疗、智能医疗时，一般需要使用大量的医疗文本数据进行训练，学习得到决策模型，再对模型进行效果测试，之后才能在临床中应用实践。但医疗文本数据的匮乏和隐私保护问题限制了这些新技术在医学信息学中的应用。故而，如何有效的解决这些问题，是本领域亟待解决的问题。

生成式对抗网络(Generative Adversarial Net，GAN)包括了生成模型和判别模型两个部分。判别模型如同分类器，有一个判别界限，通过这个判别界限去区分样本。例如输出1代表样本是真实的(true)，输出0代表样本是虚假的(false)，因此，从概率角度分析，可以得到样本x属于类别y的概率，是一个条件概率P(y|x)。生成模型产生数据拟合整个分布，从概率角度分析就是样本x在整个分布中的产生的概率，即联合概率P(xy)。

基于生成式对抗网络技术的医疗文本生成方法中，使用生成模型和判别模型：判别模型用于判断一批给定输入的医疗文本是否为“真实文本”；生成模型的任务是模拟创造尽可能多的被判别模型判定为“真实文本”的医疗文本。在初始化阶段，这两个模型都没有经过训练的，一起对抗训练，生成模型产生文本去欺骗判别模型，然后判别模型去判断文本是真是假，这两个模型不断学习、训练、改善，最终达到稳态。

长短期记忆网络(Long Short-Term Memory，LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为元胞(cell)。一个cell当中被放置了三扇门，分别为输入门、遗忘门和输出门。门机制是一种让信息选择性通过的方法，它包含一个sigmoid神经网络层和一个点积乘法(pointwise乘法)操作，其中sigmoid层输出0到1之间的数值，描述每个部分有多少量可以通过。0代表“不许任何量通过”，1就指“允许任意量通过”。LSTM网络适用于具有时序性的数据，因此适合解决本的医疗文本信息随时间变化的特点。

卷积神经网络(Convolutional Neural Network，CNN)是一种深度前馈人工神经网络，已成功地应用于图像识别。通常CNN包括输入层，卷积层，池化层和输出层。输入层和卷积层之间的映射关系称为特征映射，卷积层和池化层之间的映射关系称为池操作，如最大池操作、L2池化等。池化层和输出层之间的映射关系一般称为全连接操作。CNN在文本分类和文本建模等方面也有较多的应用，本专利方法在判别器结构采用CNN来判别医疗文本的“真”“假”。

发明内容

本发明的发明目的是提供一种基于生成式对抗网络技术的医疗文本生成方法，通过打乱数据、模拟生成新的医疗文本，供机器学习、数据挖掘、人工智能等方法在训练、学习和测试使用，解决医疗文本可能涉及到的病人隐私安全问题，解决医疗文本匮乏的问题。

基于生成式对抗网络技术的医疗文本生成方法中，使用生成模型和判别模型：判别模型用于判断一批给定输入的医疗文本是否为“真实文本”；生成模型的任务是模拟创造尽可能多的被判别模型判定为“真实文本”的医疗文本。在初始化阶段，这两个模型都没有经过训练的，一起对抗训练，生成模型产生文本去欺骗判别模型，然后判别模型去判断文本是“真”是“假”，这两个模型不断学习、训练、改善，最终达到稳态。

为实现上述发明目的，本发明提供以下的技术方案：一种基于生成式对抗网络技术的医疗文本生成方法，包括如下步骤：

(1)下载某个科属领域的多篇医疗文档，形成一个待预处理的医疗文档集PD_SET；

(2)设定需要生成的医疗文档数量n；

(3)初始化生成的医疗文本集GD_SET为空；

(4)初始化输入数据集INPUT_SET为空；

(5)判断待预处理的医疗文档集PD_SET是否还有文档未处理，如是，则随机读取其中的一篇医疗文档D，转向步骤(6)；如否，则转向步骤(10)；

(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除；

(7)对医疗文档D进行特征提取(向量化)处理，得到医疗文档D的每个词的词向量；

(8)利用RNN文本分类器，判断医疗文档D是否为需要的医疗文档，如是，则转向步骤(9)；如否，则医疗文档D为不需要的医疗文档，转向步骤(5)；

(9)读取医疗文档D的每个词的词向量，形成句向量，添加到输入数据集INPUT_SET，转向步骤(5)；

(10)读取输入数据集INPUT_SET内容；

(11)采用基于生成式对抗网络的方法训练读入的输入数据集INPUT_SET，得到医疗文本生成模型MODEL；

(12)设定已生成文本的数量m＝0；

(13)判断已生成文本的数量m是否小于需要生成的医疗文档数量n，如是，则转向步骤(14)；如否，则转向步骤(18)；

(14)使用医疗文本生成模型MODEL训练生成医疗文本GD；

(15)计算GD的BLEU参数值GD_BLEU；

(16)判断GD_BLEU是否大于设定的阈值BLEU_MAX，如是，则生成医疗文本GD为无效文本，舍弃GD，转向步骤(17)；如否，则将生成医疗文本GD添加到生成的医疗文本集GD_SET，转向步骤(17)；

(17)已生成文本的数量m值增加1，转向步骤(13)；

(18)判断生成的医疗文本集GD_SET是否为空，如是，则输出“无文本满足条件”，如否，则输出生成的医疗文本集GD_SET。

上述技术方案中，步骤(1)中，进入医学、生命科学领域的文本数据库PUBMED，下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档，

每篇医疗文档以txt格式保存，每篇医疗文档为英文文本。

上述技术方案中，步骤(7)中，采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量，

在给定单词的条件下，窗口内其他某个单词出现的概率为：

其中，Z代表相似度(u_x)^Tv_c，(u_x)^Tv_c＝W'v_c，v_c＝Ww_c，w_c表示目标单词的独热向量，v_c表示目标单词的词向量，u_x代表除了目标单词外窗口内第x个单词的词向量，(u_x)^T表示u_x的转置，W为目标单词的词向量组成的矩阵，W'为由除目标单词以外的窗口内其他所有单词的词向量的转置组成的矩阵；

e是自然常数，约为2.71828；

K代表目标单词的窗口内除目标单词外其他所有单词的个数；

j代表K个单词中某个单词的索引值。

上述技术方案中，步骤(8)中，采用基于循环神经网络(Recurrent NeuralNetwork，RNN)的分类模型训练对每篇医疗文档进行文本分类，

所述分类模型的目标是最小化预测概率分布和真实概率分布的交叉熵：

其中，代表ground-truth标签(真实值或者参考标准)，即第i个训练样本的属于第j个类别的概率值；

是第i个训练样本经过预测属于第j个类别的概率值；

N是训练样本的数量；

C是类别的数量，值为2，即表示有两种类别的文档，一种是满足条件可以作为“需要的医疗文档”，用类别“1”表示；另一种是不满足条件，作为“不需要的医疗文档”，用类别“0”表示；

上述技术方案中，首先选定k篇医疗文档作为训练集，通过训练得到分类模型，即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种，利用得到的分类模型对所有下载的医疗文档进行分类判断，如果分类结果为“需要的医疗文档”，则保留该文档，否则舍弃该文档；

具体的，上述技术方案中，RNN文本分类模型的倒数第二层softmax层用于输出一个一维列向量，使得该向量的每个元素值是介于(0,1)之间的实数，并且该向量的两个元素值之和为1。

上述公式中，exp是指数函数e^x，i的取值为0和1，x_i是softmax层的某一输入，y(x_i)表示softmax层的对应该输入的输出，即被分类为某一类的概率。

该列向量的第一个元素是文档被分类为类别“1”概率，第二个元素是文档被分类为类别“0”的概率。输出层再使用一个max函数：如果y_(x1)>y_(x0)，则预测文档属于类别“1”，即文档是“需要的医疗文档”；如果y_(x0)>＝y_(x1)，则预测文档属于类别“0”，即文档是“不需要的医疗文档”。

上述技术方案中，步骤(11)中，所述生成模型为生成式对抗网络的生成模型，其目标函数为：

其中，G为生成器；

D为判别器；

V(D,G)指的是目标函数名；

E代表期望；

p_data(x)代表真实数据的分布；

D(x)代表判别器判断x为真的概率；

p_z(z)代表生成器生成的数据z服从的概率分布；

G(z)指的是生成器生成的数据为z的概率；

D(G(z))代表判别器判别服从概率分布G(z)的生成数据为真的概率；

log为对数函数，底数为自然常数e；指鉴别器尝试最大化函数V(D,G)，使其辨别真伪能力达到最大，另一方面，生成器的任务完全相反，它试图最小化函数V(D,G)，使真实数据和假数据之间的区别最小化；

生成对抗网络所采用的框架是：生成器采用具有记忆功能的LSTM循环神经网络结构，判别器采用CNN深度神经网络结构。

CNN结构被用来给句子编码，它的核心包含一个卷积层和一个最大池化操作。假设输入是一个长度为T的句子(如果句子长度不够T则用空格补齐，如果句子长度超过T则截断)被表征为一个矩阵k*T的矩阵X，它的第t列xt就代表一个词向量。这样就构成了输入矩阵。

一个卷积操作涉及一个卷积核h代表某个单词的窗口大小，k代表词向量的维度大小。

f(·)是一个类似于双曲正切函数的非线性激活函数。b是偏置向量，*代表的是卷积操作。通过最大池化操作得到某方形区域(假设为2*2)最大的激活值，即通过这个方形区域对整个卷积层使用上述最大池化操作，最终得到了池化层，假设我们的窗口大小为h，使用了d个卷积核。那么池化层到输出层的全连接一共有h*d个。然后再使用一个softmax层来对输出层的每一个元素变为介于0到1之间的一维向量，这个向量的每个元素代表了其来自真实数据分布的概率。以此作为判断数据真伪的依据。

上述技术方案中，步骤(15)和步骤(16)中，BLEU参数值是源文本和目标文本之间相似程度自动评估，用于衡量从源文本转换到目标文本的质量，BLEU参数定义如下：

其中，如果c>r，则Bp＝1，如果c<＝r，则Bp＝e^(1-r/c)，C为生成文本的长度，R为真实文本的长度，e为自然常数，约为2.71828，N为4；

n为组成单词片段的单词个数，n取1,2,3,4，代表1-gram，2-gram，3-gram，4-gram；

w_n为权重值，取值为1/4；

C为出现在生成文本中并采用“修正的n-单位精确度”(modified n-gram precision)策略的单词片段，C'为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段；count_clip(n-gram)为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段的个数；Count(n-gram')

为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段的个数。

上述技术方案中，步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。

由于上述技术方案运用，本发明与现有技术相比具有以下优点：本发明基于生成式对抗网络模型，随机生成定量的医疗文本，解决病人的隐私安全问题和医疗文本较少的问题。

附图说明

图1为本发明公开的基于生成式对抗网络技术的医疗文本生成方法的流程图。

图2为本发明公开的生成式对抗网络模型的结构图。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

参见图1和图2，如其中的图例所示，一种基于生成式对抗网络技术的医疗文本生成方法，包括如下步骤：

(2)设定需要生成的医疗文档数量n；

(3)初始化生成的医疗文本集GD_SET为空；

(4)初始化输入数据集INPUT_SET为空；

(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除；

(10)读取输入数据集INPUT_SET内容；

(12)设定已生成文本的数量m＝0；

(14)使用医疗文本生成模型MODEL训练生成医疗文本GD；

(15)计算GD的BLEU参数值GD_BLEU；

(17)已生成文本的数量m值增加1，转向步骤(13)；

一种实施方式中，步骤(1)中，进入医学、生命科学领域的文本数据库PUBMED，下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档，

每篇医疗文档以txt格式保存，每篇医疗文档为英文文本；

定义txt文件的内容：

一种实施方式中，步骤(7)中，采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量，

在给定单词的条件下，窗口内其他某个单词出现的概率为：

e是自然常数，约为2.71828；

K代表目标单词的窗口内除目标单词外其他所有单词的个数；

j代表K个单词中某个单词的索引值。

一种实施方式中，步骤(8)中，采用基于循环神经网络(Recurrent NeuralNetwork，RNN)的分类模型训练对每篇医疗文档进行文本分类，

是第i个训练样本经过预测属于第j个类别的概率值；

N是训练样本的数量；

一种实施方式中，首先选定k篇医疗文档作为训练集，通过训练得到分类模型，即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种，利用得到的分类模型对所有下载的医疗文档进行分类判断，如果分类结果为“需要的医疗文档”，则保留该文档，否则舍弃该文档；

具体的，RNN文本分类模型的倒数第二层softmax层用于输出一个一维列向量，使得该向量的每个元素值是介于(0,1)之间的实数，并且该向量的两个元素值之和为1。

该列向量的第一个元素是文档被分类为类别“1”概率，第二个元素是文档被分类为类别“0”的概率。输出层再使用一个max函数：如果则预测文档属于类别“1”，即文档是“需要的医疗文档”；如果则预测文档属于类别“0”，即文档是“不需要的医疗文档”。

一种实施方式中，步骤(11)中，所述生成模型为生成式对抗网络的生成模型，其目标函数为：

其中，G为生成器；

D为判别器；

V(D,G)指的是目标函数名；

E代表期望；

p_data(x)代表真实数据的分布；

D(x)代表判别器判断x为真的概率；

p_z(z)代表生成器生成的数据z服从的概率分布；

G(z)指的是生成器生成的数据为z的概率；

log为对数函数，底数为自然常数e；指鉴别器尝试最大化函数V(D,G)，使其辨别真伪能力达到最大，另一方面，生成器的任务完全相反，它试图最小化函数V(D,G)，使真实数据和假数据之间的区别最小化。

一种实施方式中，步骤(15)和步骤(16)中，BLEU参数值是源文本和目标文本之间相似程度自动评估，用于衡量从源文本转换到目标文本的质量，BLEU参数定义如下：

w_n为权重值，取值为1/4；

一种实施方式中，步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于生成式对抗网络技术的医疗文本生成方法，其特征在于，包括如下步骤：

(2)设定需要生成的医疗文档数量n；

(3)初始化生成的医疗文本集GD_SET为空；

(4)初始化输入数据集INPUT_SET为空；

(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除；

(10)读取输入数据集INPUT_SET内容；

(12)设定已生成文本的数量m＝0；

(14)使用医疗文本生成模型MODEL训练生成医疗文本GD；

(15)计算GD的BLEU参数值GD_BLEU；

(17)已生成文本的数量m值增加1，转向步骤(13)；

2.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(1)中，进入医学、生命科学领域的文本数据库PUBMED，下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档，

每篇医疗文档以txt格式保存，每篇医疗文档为英文文本。

3.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(7)中，采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量，

在给定单词的条件下，窗口内其他某个单词出现的概率为：

e是自然常数，约为2.71828；

K代表目标单词的窗口内除目标单词外其他所有单词的个数；

j代表K个单词中某个单词的索引值。

4.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(8)中，采用基于循环神经网络(Recurrent Neural Network，RNN)的分类模型训练对每篇医疗文档进行文本分类，

是第i个训练样本经过预测属于第j个类别的概率值；

N是训练样本的数量；

C是类别的数量，值为2，即表示有两种类别的文档，一种是满足条件可以作为“需要的医疗文档”，用类别“1”表示；另一种是不满足条件，作为“不需要的医疗文档”，用类别“0”表示。

5.根据权利要求1所述的医疗文本生成方法，其特征在于，首先选定k篇医疗文档作为训练集，通过训练得到分类模型，即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种，利用得到的分类模型对所有下载的医疗文档进行分类判断，如果分类结果为“需要的医疗文档”，则保留该文档，否则舍弃该文档。

6.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(11)中，所述生成模型为生成式对抗网络的生成模型，其目标函数为：

其中，G为生成器；

D为判别器；

V(D,G)指的是目标函数名；

E代表期望；

p_data(x)代表真实数据的分布；

D(x)代表判别器判断x为真的概率；

p_z(z)代表生成器生成的数据z服从的概率分布；

G(z)指的是生成器生成的数据为z的概率分布；

7.根据权利要求1所述的医疗文本生成方法，其特征在于，生成器采用具有记忆功能的LSTM循环神经网络结构，判别器采用CNN深度神经网络结构。

8.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(15)和步骤(16)中，BLEU参数值是源文本和目标文本之间相似程度自动评估，用于衡量从源文本转换到目标文本的质量，BLEU参数定义如下：

w_n为权重值，取值为1/4；

C为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段，C′为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段；为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段的个数；Count(n-gram')为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段的个数。

9.根据权利要求1所述的医疗文本生成方法，其特征在于，步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。