CN108491497A - 基于生成式对抗网络技术的医疗文本生成方法 - Google Patents

基于生成式对抗网络技术的医疗文本生成方法 Download PDF

Info

Publication number
CN108491497A
CN108491497A CN201810227535.0A CN201810227535A CN108491497A CN 108491497 A CN108491497 A CN 108491497A CN 201810227535 A CN201810227535 A CN 201810227535A CN 108491497 A CN108491497 A CN 108491497A
Authority
CN
China
Prior art keywords
medical
text
document
medical document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810227535.0A
Other languages
English (en)
Other versions
CN108491497B (zh
Inventor
朱斐
叶飞
伏玉琛
陈冬火
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Future Cloud Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810227535.0A priority Critical patent/CN108491497B/zh
Publication of CN108491497A publication Critical patent/CN108491497A/zh
Priority to PCT/CN2018/112285 priority patent/WO2019179100A1/zh
Application granted granted Critical
Publication of CN108491497B publication Critical patent/CN108491497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于生成式对抗网络技术的医疗文本生成方法,包括如下步骤:下载某个科属领域的多篇医疗文档;利用词向量来表示每篇医疗文档中的每个词;对每篇医疗文档进行文本分类,保留需要的医疗文档;获得每篇需要的医疗文档的最佳的输出序列标注;获得每篇需要的医疗文档的关键词集的索引,将索引随机打乱顺序,得到新的医疗文档及其对应的序列标注;采用基于生成式对抗网络的生成模型训练生成医疗文本;输出生成的医疗文本;获取生成的医疗文本的BLEU参数;对生成的医疗文本进行评估,最终得到目标医疗文本。本发明通过打乱数据生成新的医疗文本,解决病人的隐私安全问题和医疗文本较少的问题。

Description

基于生成式对抗网络技术的医疗文本生成方法
技术领域
本发明涉及医疗文本的数据挖掘领域,具体涉及一种基于生成式对抗网络技术的医疗文本生成方法。
背景技术
目前,研究人员将人工智能、机器学习等新方法应用到医疗文本数据中,在获得了一些较好效果的同时也遇到了一些问题,如:
(1)数据匮乏。医学文本的数据,尤其是一些罕见疾病、重症疾病的数据严重不足,这样会导致机器学习等方法在训练学习阶段失效,也无法正确、如实、全面地反映对这些疾病的信息。
(2)隐私安全。如何保障隐私安全一直都是人们关注的热点。如,美国印第安纳州某位前市长突然被发现感染有恶性传染疾病。事后得知,该市长在事发前曾去某家医院就诊,有人根据这家医院提供的所谓“无个人敏感隐私信息”的医疗数据,结合其他大数据进行分析,推断出该市长患有恶性传染疾病。
在医疗中利用人工智能、机器学习等新方法,实现精准医疗、智能医疗时,一般需要使用大量的医疗文本数据进行训练,学习得到决策模型,再对模型进行效果测试,之后才能在临床中应用实践。但医疗文本数据的匮乏和隐私保护问题限制了这些新技术在医学信息学中的应用。故而,如何有效的解决这些问题,是本领域亟待解决的问题。
生成式对抗网络(Generative Adversarial Net,GAN)包括了生成模型和判别模型两个部分。判别模型如同分类器,有一个判别界限,通过这个判别界限去区分样本。例如输出1代表样本是真实的(true),输出0代表样本是虚假的(false),因此,从概率角度分析,可以得到样本x属于类别y的概率,是一个条件概率P(y|x)。生成模型产生数据拟合整个分布,从概率角度分析就是样本x在整个分布中的产生的概率,即联合概率P(xy)。
基于生成式对抗网络技术的医疗文本生成方法中,使用生成模型和判别模型:判别模型用于判断一批给定输入的医疗文本是否为“真实文本”;生成模型的任务是模拟创造尽可能多的被判别模型判定为“真实文本”的医疗文本。在初始化阶段,这两个模型都没有经过训练的,一起对抗训练,生成模型产生文本去欺骗判别模型,然后判别模型去判断文本是真是假,这两个模型不断学习、训练、改善,最终达到稳态。
长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为元胞(cell)。一个cell当中被放置了三扇门,分别为输入门、遗忘门和输出门。门机制是一种让信息选择性通过的方法,它包含一个sigmoid神经网络层和一个点积乘法(pointwise乘法)操作,其中sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。0代表“不许任何量通过”,1就指“允许任意量通过”。LSTM网络适用于具有时序性的数据,因此适合解决本的医疗文本信息随时间变化的特点。
卷积神经网络(Convolutional Neural Network,CNN)是一种深度前馈人工神经网络,已成功地应用于图像识别。通常CNN包括输入层,卷积层,池化层和输出层。输入层和卷积层之间的映射关系称为特征映射,卷积层和池化层之间的映射关系称为池操作,如最大池操作、L2池化等。池化层和输出层之间的映射关系一般称为全连接操作。CNN在文本分类和文本建模等方面也有较多的应用,本专利方法在判别器结构采用CNN来判别医疗文本的“真”“假”。
发明内容
本发明的发明目的是提供一种基于生成式对抗网络技术的医疗文本生成方法,通过打乱数据、模拟生成新的医疗文本,供机器学习、数据挖掘、人工智能等方法在训练、学习和测试使用,解决医疗文本可能涉及到的病人隐私安全问题,解决医疗文本匮乏的问题。
生成式对抗网络(Generative Adversarial Net,GAN)包括了生成模型和判别模型两个部分。判别模型如同分类器,有一个判别界限,通过这个判别界限去区分样本。例如输出1代表样本是真实的(true),输出0代表样本是虚假的(false),因此,从概率角度分析,可以得到样本x属于类别y的概率,是一个条件概率P(y|x)。生成模型产生数据拟合整个分布,从概率角度分析就是样本x在整个分布中的产生的概率,即联合概率P(xy)。
基于生成式对抗网络技术的医疗文本生成方法中,使用生成模型和判别模型:判别模型用于判断一批给定输入的医疗文本是否为“真实文本”;生成模型的任务是模拟创造尽可能多的被判别模型判定为“真实文本”的医疗文本。在初始化阶段,这两个模型都没有经过训练的,一起对抗训练,生成模型产生文本去欺骗判别模型,然后判别模型去判断文本是“真”是“假”,这两个模型不断学习、训练、改善,最终达到稳态。
长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为元胞(cell)。一个cell当中被放置了三扇门,分别为输入门、遗忘门和输出门。门机制是一种让信息选择性通过的方法,它包含一个sigmoid神经网络层和一个点积乘法(pointwise乘法)操作,其中sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。0代表“不许任何量通过”,1就指“允许任意量通过”。LSTM网络适用于具有时序性的数据,因此适合解决本的医疗文本信息随时间变化的特点。
卷积神经网络(Convolutional Neural Network,CNN)是一种深度前馈人工神经网络,已成功地应用于图像识别。通常CNN包括输入层,卷积层,池化层和输出层。输入层和卷积层之间的映射关系称为特征映射,卷积层和池化层之间的映射关系称为池操作,如最大池操作、L2池化等。池化层和输出层之间的映射关系一般称为全连接操作。CNN在文本分类和文本建模等方面也有较多的应用,本专利方法在判别器结构采用CNN来判别医疗文本的“真”“假”。
为实现上述发明目的,本发明提供以下的技术方案:一种基于生成式对抗网络技术的医疗文本生成方法,包括如下步骤:
(1)下载某个科属领域的多篇医疗文档,形成一个待预处理的医疗文档集PD_SET;
(2)设定需要生成的医疗文档数量n;
(3)初始化生成的医疗文本集GD_SET为空;
(4)初始化输入数据集INPUT_SET为空;
(5)判断待预处理的医疗文档集PD_SET是否还有文档未处理,如是,则随机读取其中的一篇医疗文档D,转向步骤(6);如否,则转向步骤(10);
(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除;
(7)对医疗文档D进行特征提取(向量化)处理,得到医疗文档D的每个词的词向量;
(8)利用RNN文本分类器,判断医疗文档D是否为需要的医疗文档,如是,则转向步骤(9);如否,则医疗文档D为不需要的医疗文档,转向步骤(5);
(9)读取医疗文档D的每个词的词向量,形成句向量,添加到输入数据集INPUT_SET,转向步骤(5);
(10)读取输入数据集INPUT_SET内容;
(11)采用基于生成式对抗网络的方法训练读入的输入数据集INPUT_SET,得到医疗文本生成模型MODEL;
(12)设定已生成文本的数量m=0;
(13)判断已生成文本的数量m是否小于需要生成的医疗文档数量n,如是,则转向步骤(14);如否,则转向步骤(18);
(14)使用医疗文本生成模型MODEL训练生成医疗文本GD;
(15)计算GD的BLEU参数值GD_BLEU;
(16)判断GD_BLEU是否大于设定的阈值BLEU_MAX,如是,则生成医疗文本GD为无效文本,舍弃GD,转向步骤(17);如否,则将生成医疗文本GD添加到生成的医疗文本集GD_SET,转向步骤(17);
(17)已生成文本的数量m值增加1,转向步骤(13);
(18)判断生成的医疗文本集GD_SET是否为空,如是,则输出“无文本满足条件”,如否,则输出生成的医疗文本集GD_SET。
上述技术方案中,步骤(1)中,进入医学、生命科学领域的文本数据库PUBMED,下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档,
每篇医疗文档以txt格式保存,每篇医疗文档为英文文本。
上述技术方案中,步骤(7)中,采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量,
在给定单词的条件下,窗口内其他某个单词出现的概率为:
其中,Z代表相似度(ux)Tvc,(ux)Tvc=W'vc,vc=Wwc,wc表示目标单词的独热向量,vc表示目标单词的词向量,ux代表除了目标单词外窗口内第x个单词的词向量,(ux)T表示ux的转置,W为目标单词的词向量组成的矩阵,W'为由除目标单词以外的窗口内其他所有单词的词向量的转置组成的矩阵;
e是自然常数,约为2.71828;
K代表目标单词的窗口内除目标单词外其他所有单词的个数;
j代表K个单词中某个单词的索引值。
上述技术方案中,步骤(8)中,采用基于循环神经网络(Recurrent NeuralNetwork,RNN)的分类模型训练对每篇医疗文档进行文本分类,
所述分类模型的目标是最小化预测概率分布和真实概率分布的交叉熵:
其中,代表ground-truth标签(真实值或者参考标准),即第i个训练样本的属于第j个类别的概率值;
是第i个训练样本经过预测属于第j个类别的概率值;
N是训练样本的数量;
C是类别的数量,值为2,即表示有两种类别的文档,一种是满足条件可以作为“需要的医疗文档”,用类别“1”表示;另一种是不满足条件,作为“不需要的医疗文档”,用类别“0”表示;
上述技术方案中,首先选定k篇医疗文档作为训练集,通过训练得到分类模型,即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种,利用得到的分类模型对所有下载的医疗文档进行分类判断,如果分类结果为“需要的医疗文档”,则保留该文档,否则舍弃该文档;
具体的,上述技术方案中,RNN文本分类模型的倒数第二层softmax层用于输出一个一维列向量,使得该向量的每个元素值是介于(0,1)之间的实数,并且该向量的两个元素值之和为1。
上述公式中,exp是指数函数ex,i的取值为0和1,xi是softmax层的某一输入,y(xi)表示softmax层的对应该输入的输出,即被分类为某一类的概率。
该列向量的第一个元素是文档被分类为类别“1”概率,第二个元素是文档被分类为类别“0”的概率。输出层再使用一个max函数:如果y(x1)>y(x0),则预测文档属于类别“1”,即文档是“需要的医疗文档”;如果y(x0)>=y(x1),则预测文档属于类别“0”,即文档是“不需要的医疗文档”。
上述技术方案中,步骤(11)中,所述生成模型为生成式对抗网络的生成模型,其目标函数为:
其中,G为生成器;
D为判别器;
V(D,G)指的是目标函数名;
E代表期望;
pdata(x)代表真实数据的分布;
D(x)代表判别器判断x为真的概率;
pz(z)代表生成器生成的数据z服从的概率分布;
G(z)指的是生成器生成的数据为z的概率;
D(G(z))代表判别器判别服从概率分布G(z)的生成数据为真的概率;
log为对数函数,底数为自然常数e;指鉴别器尝试最大化函数V(D,G),使其辨别真伪能力达到最大,另一方面,生成器的任务完全相反,它试图最小化函数V(D,G),使真实数据和假数据之间的区别最小化;
生成对抗网络所采用的框架是:生成器采用具有记忆功能的LSTM循环神经网络结构,判别器采用CNN深度神经网络结构。
CNN结构被用来给句子编码,它的核心包含一个卷积层和一个最大池化操作。假设输入是一个长度为T的句子(如果句子长度不够T则用空格补齐,如果句子长度超过T则截断)被表征为一个矩阵k*T的矩阵X,它的第t列xt就代表一个词向量。这样就构成了输入矩阵。
一个卷积操作涉及一个卷积核h代表某个单词的窗口大小,k代表词向量的维度大小。
f(·)是一个类似于双曲正切函数的非线性激活函数。b是偏置向量,*代表的是卷积操作。通过最大池化操作得到某方形区域(假设为2*2)最大的激活值,即通过这个方形区域对整个卷积层使用上述最大池化操作,最终得到了池化层,假设我们的窗口大小为h,使用了d个卷积核。那么池化层到输出层的全连接一共有h*d个。然后再使用一个softmax层来对输出层的每一个元素变为介于0到1之间的一维向量,这个向量的每个元素代表了其来自真实数据分布的概率。以此作为判断数据真伪的依据。
上述技术方案中,步骤(15)和步骤(16)中,BLEU参数值是源文本和目标文本之间相似程度自动评估,用于衡量从源文本转换到目标文本的质量,BLEU参数定义如下:
其中,如果c>r,则Bp=1,如果c<=r,则Bp=e(1-r/c),C为生成文本的长度,R为真实文本的长度,e为自然常数,约为2.71828,N为4;
n为组成单词片段的单词个数,n取1,2,3,4,代表1-gram,2-gram,3-gram,4-gram;
wn为权重值,取值为1/4;
C为出现在生成文本中并采用“修正的n-单位精确度”(modified n-gram precision)策略的单词片段,C'为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段;countclip(n-gram)为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段的个数;Count(n-gram')
为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段的个数。
上述技术方案中,步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。
由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明基于生成式对抗网络模型,随机生成定量的医疗文本,解决病人的隐私安全问题和医疗文本较少的问题。
附图说明
图1为本发明公开的基于生成式对抗网络技术的医疗文本生成方法的流程图。
图2为本发明公开的生成式对抗网络模型的结构图。
具体实施方式
下面结合本发明的原理、附图以及实施例对本发明进一步描述
参见图1和图2,如其中的图例所示,一种基于生成式对抗网络技术的医疗文本生成方法,包括如下步骤:
(1)下载某个科属领域的多篇医疗文档,形成一个待预处理的医疗文档集PD_SET;
(2)设定需要生成的医疗文档数量n;
(3)初始化生成的医疗文本集GD_SET为空;
(4)初始化输入数据集INPUT_SET为空;
(5)判断待预处理的医疗文档集PD_SET是否还有文档未处理,如是,则随机读取其中的一篇医疗文档D,转向步骤(6);如否,则转向步骤(10);
(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除;
(7)对医疗文档D进行特征提取(向量化)处理,得到医疗文档D的每个词的词向量;
(8)利用RNN文本分类器,判断医疗文档D是否为需要的医疗文档,如是,则转向步骤(9);如否,则医疗文档D为不需要的医疗文档,转向步骤(5);
(9)读取医疗文档D的每个词的词向量,形成句向量,添加到输入数据集INPUT_SET,转向步骤(5);
(10)读取输入数据集INPUT_SET内容;
(11)采用基于生成式对抗网络的方法训练读入的输入数据集INPUT_SET,得到医疗文本生成模型MODEL;
(12)设定已生成文本的数量m=0;
(13)判断已生成文本的数量m是否小于需要生成的医疗文档数量n,如是,则转向步骤(14);如否,则转向步骤(18);
(14)使用医疗文本生成模型MODEL训练生成医疗文本GD;
(15)计算GD的BLEU参数值GD_BLEU;
(16)判断GD_BLEU是否大于设定的阈值BLEU_MAX,如是,则生成医疗文本GD为无效文本,舍弃GD,转向步骤(17);如否,则将生成医疗文本GD添加到生成的医疗文本集GD_SET,转向步骤(17);
(17)已生成文本的数量m值增加1,转向步骤(13);
(18)判断生成的医疗文本集GD_SET是否为空,如是,则输出“无文本满足条件”,如否,则输出生成的医疗文本集GD_SET。
一种实施方式中,步骤(1)中,进入医学、生命科学领域的文本数据库PUBMED,下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档,
每篇医疗文档以txt格式保存,每篇医疗文档为英文文本;
定义txt文件的内容:
一种实施方式中,步骤(7)中,采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量,
在给定单词的条件下,窗口内其他某个单词出现的概率为:
其中,Z代表相似度(ux)Tvc,(ux)Tvc=W'vc,vc=Wwc,wc表示目标单词的独热向量,vc表示目标单词的词向量,ux代表除了目标单词外窗口内第x个单词的词向量,(ux)T表示ux的转置,W为目标单词的词向量组成的矩阵,W'为由除目标单词以外的窗口内其他所有单词的词向量的转置组成的矩阵;
e是自然常数,约为2.71828;
K代表目标单词的窗口内除目标单词外其他所有单词的个数;
j代表K个单词中某个单词的索引值。
一种实施方式中,步骤(8)中,采用基于循环神经网络(Recurrent NeuralNetwork,RNN)的分类模型训练对每篇医疗文档进行文本分类,
所述分类模型的目标是最小化预测概率分布和真实概率分布的交叉熵:
其中,代表ground-truth标签(真实值或者参考标准),即第i个训练样本的属于第j个类别的概率值;
是第i个训练样本经过预测属于第j个类别的概率值;
N是训练样本的数量;
C是类别的数量,值为2,即表示有两种类别的文档,一种是满足条件可以作为“需要的医疗文档”,用类别“1”表示;另一种是不满足条件,作为“不需要的医疗文档”,用类别“0”表示;
一种实施方式中,首先选定k篇医疗文档作为训练集,通过训练得到分类模型,即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种,利用得到的分类模型对所有下载的医疗文档进行分类判断,如果分类结果为“需要的医疗文档”,则保留该文档,否则舍弃该文档;
具体的,RNN文本分类模型的倒数第二层softmax层用于输出一个一维列向量,使得该向量的每个元素值是介于(0,1)之间的实数,并且该向量的两个元素值之和为1。
上述公式中,exp是指数函数ex,i的取值为0和1,xi是softmax层的某一输入,y(xi)表示softmax层的对应该输入的输出,即被分类为某一类的概率。
该列向量的第一个元素是文档被分类为类别“1”概率,第二个元素是文档被分类为类别“0”的概率。输出层再使用一个max函数:如果则预测文档属于类别“1”,即文档是“需要的医疗文档”;如果则预测文档属于类别“0”,即文档是“不需要的医疗文档”。
一种实施方式中,步骤(11)中,所述生成模型为生成式对抗网络的生成模型,其目标函数为:
其中,G为生成器;
D为判别器;
V(D,G)指的是目标函数名;
E代表期望;
pdata(x)代表真实数据的分布;
D(x)代表判别器判断x为真的概率;
pz(z)代表生成器生成的数据z服从的概率分布;
G(z)指的是生成器生成的数据为z的概率;
D(G(z))代表判别器判别服从概率分布G(z)的生成数据为真的概率;
log为对数函数,底数为自然常数e;指鉴别器尝试最大化函数V(D,G),使其辨别真伪能力达到最大,另一方面,生成器的任务完全相反,它试图最小化函数V(D,G),使真实数据和假数据之间的区别最小化。
生成对抗网络所采用的框架是:生成器采用具有记忆功能的LSTM循环神经网络结构,判别器采用CNN深度神经网络结构。
CNN结构被用来给句子编码,它的核心包含一个卷积层和一个最大池化操作。假设输入是一个长度为T的句子(如果句子长度不够T则用空格补齐,如果句子长度超过T则截断)被表征为一个矩阵k*T的矩阵X,它的第t列xt就代表一个词向量。这样就构成了输入矩阵。
一个卷积操作涉及一个卷积核h代表某个单词的窗口大小,k代表词向量的维度大小。
f(·)是一个类似于双曲正切函数的非线性激活函数。b是偏置向量,*代表的是卷积操作。通过最大池化操作得到某方形区域(假设为2*2)最大的激活值,即通过这个方形区域对整个卷积层使用上述最大池化操作,最终得到了池化层,假设我们的窗口大小为h,使用了d个卷积核。那么池化层到输出层的全连接一共有h*d个。然后再使用一个softmax层来对输出层的每一个元素变为介于0到1之间的一维向量,这个向量的每个元素代表了其来自真实数据分布的概率。以此作为判断数据真伪的依据。
一种实施方式中,步骤(15)和步骤(16)中,BLEU参数值是源文本和目标文本之间相似程度自动评估,用于衡量从源文本转换到目标文本的质量,BLEU参数定义如下:
其中,如果c>r,则Bp=1,如果c<=r,则Bp=e(1-r/c),C为生成文本的长度,R为真实文本的长度,e为自然常数,约为2.71828,N为4;
n为组成单词片段的单词个数,n取1,2,3,4,代表1-gram,2-gram,3-gram,4-gram;
wn为权重值,取值为1/4;
C为出现在生成文本中并采用“修正的n-单位精确度”(modified n-gram precision)策略的单词片段,C'为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段;countclip(n-gram)为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段的个数;Count(n-gram')
为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段的个数。
一种实施方式中,步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于生成式对抗网络技术的医疗文本生成方法,其特征在于,包括如下步骤:
(1)下载某个科属领域的多篇医疗文档,形成一个待预处理的医疗文档集PD_SET;
(2)设定需要生成的医疗文档数量n;
(3)初始化生成的医疗文本集GD_SET为空;
(4)初始化输入数据集INPUT_SET为空;
(5)判断待预处理的医疗文档集PD_SET是否还有文档未处理,如是,则随机读取其中的一篇医疗文档D,转向步骤(6);如否,则转向步骤(10);
(6)将医疗文档D从待预处理的医疗文档集PD_SET中移除;
(7)对医疗文档D进行特征提取(向量化)处理,得到医疗文档D的每个词的词向量;
(8)利用RNN文本分类器,判断医疗文档D是否为需要的医疗文档,如是,则转向步骤(9);如否,则医疗文档D为不需要的医疗文档,转向步骤(5);
(9)读取医疗文档D的每个词的词向量,形成句向量,添加到输入数据集INPUT_SET,转向步骤(5);
(10)读取输入数据集INPUT_SET内容;
(11)采用基于生成式对抗网络的方法训练读入的输入数据集INPUT_SET,得到医疗文本生成模型MODEL;
(12)设定已生成文本的数量m=0;
(13)判断已生成文本的数量m是否小于需要生成的医疗文档数量n,如是,则转向步骤(14);如否,则转向步骤(18);
(14)使用医疗文本生成模型MODEL训练生成医疗文本GD;
(15)计算GD的BLEU参数值GD_BLEU;
(16)判断GD_BLEU是否大于设定的阈值BLEU_MAX,如是,则生成医疗文本GD为无效文本,舍弃GD,转向步骤(17);如否,则将生成医疗文本GD添加到生成的医疗文本集GD_SET,转向步骤(17);
(17)已生成文本的数量m值增加1,转向步骤(13);
(18)判断生成的医疗文本集GD_SET是否为空,如是,则输出“无文本满足条件”,如否,则输出生成的医疗文本集GD_SET。
2.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(1)中,进入医学、生命科学领域的文本数据库PUBMED,下载权威的生物医学文献数据库MEDLINE中某个科属领域的多篇医疗文档,
每篇医疗文档以txt格式保存,每篇医疗文档为英文文本。
3.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(7)中,采用基于skip-gram的语言模型训练获得每篇医疗文档中所有词的词向量,
在给定单词的条件下,窗口内其他某个单词出现的概率为:
其中,Z代表相似度(ux)Tvc,(ux)Tvc=W'vc,vc=Wwc,wc表示目标单词的独热向量,vc表示目标单词的词向量,ux代表除了目标单词外窗口内第x个单词的词向量,(ux)T表示ux的转置,W为目标单词的词向量组成的矩阵,W'为由除目标单词以外的窗口内其他所有单词的词向量的转置组成的矩阵;
e是自然常数,约为2.71828;
K代表目标单词的窗口内除目标单词外其他所有单词的个数;
j代表K个单词中某个单词的索引值。
4.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(8)中,采用基于循环神经网络(Recurrent Neural Network,RNN)的分类模型训练对每篇医疗文档进行文本分类,
所述分类模型的目标是最小化预测概率分布和真实概率分布的交叉熵:
其中,代表ground-truth标签(真实值或者参考标准),即第i个训练样本的属于第j个类别的概率值;
是第i个训练样本经过预测属于第j个类别的概率值;
N是训练样本的数量;
C是类别的数量,值为2,即表示有两种类别的文档,一种是满足条件可以作为“需要的医疗文档”,用类别“1”表示;另一种是不满足条件,作为“不需要的医疗文档”,用类别“0”表示。
5.根据权利要求1所述的医疗文本生成方法,其特征在于,首先选定k篇医疗文档作为训练集,通过训练得到分类模型,即将分类的结果是“需要的医疗文档”或“不需要的医疗文档”中的一种,利用得到的分类模型对所有下载的医疗文档进行分类判断,如果分类结果为“需要的医疗文档”,则保留该文档,否则舍弃该文档。
6.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(11)中,所述生成模型为生成式对抗网络的生成模型,其目标函数为:
其中,G为生成器;
D为判别器;
V(D,G)指的是目标函数名;
E代表期望;
pdata(x)代表真实数据的分布;
D(x)代表判别器判断x为真的概率;
pz(z)代表生成器生成的数据z服从的概率分布;
G(z)指的是生成器生成的数据为z的概率分布;
D(G(z))代表判别器判别服从概率分布G(z)的生成数据为真的概率;
log为对数函数,底数为自然常数e;指鉴别器尝试最大化函数V(D,G),使其辨别真伪能力达到最大,另一方面,生成器的任务完全相反,它试图最小化函数V(D,G),使真实数据和假数据之间的区别最小化。
7.根据权利要求1所述的医疗文本生成方法,其特征在于,生成器采用具有记忆功能的LSTM循环神经网络结构,判别器采用CNN深度神经网络结构。
8.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(15)和步骤(16)中,BLEU参数值是源文本和目标文本之间相似程度自动评估,用于衡量从源文本转换到目标文本的质量,BLEU参数定义如下:
其中,如果c>r,则Bp=1,如果c<=r,则Bp=e(1-r/c),C为生成文本的长度,R为真实文本的长度,e为自然常数,约为2.71828,N为4;
n为组成单词片段的单词个数,n取1,2,3,4,代表1-gram,2-gram,3-gram,4-gram;
wn为权重值,取值为1/4;
C为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段,C′为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段;为出现在生成文本中并采用“修正的n-单位精确度”策略的单词片段的个数;Count(n-gram')为出现在生成文本中但未采用“修正的n-单位精确度”策略的单词片段的个数。
9.根据权利要求1所述的医疗文本生成方法,其特征在于,步骤(16)中的设定的阈值BLEU_MAX设定值为0.5。
CN201810227535.0A 2018-03-20 2018-03-20 基于生成式对抗网络技术的医疗文本生成方法 Active CN108491497B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810227535.0A CN108491497B (zh) 2018-03-20 2018-03-20 基于生成式对抗网络技术的医疗文本生成方法
PCT/CN2018/112285 WO2019179100A1 (zh) 2018-03-20 2018-10-29 基于生成式对抗网络技术的医疗文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810227535.0A CN108491497B (zh) 2018-03-20 2018-03-20 基于生成式对抗网络技术的医疗文本生成方法

Publications (2)

Publication Number Publication Date
CN108491497A true CN108491497A (zh) 2018-09-04
CN108491497B CN108491497B (zh) 2020-06-02

Family

ID=63318479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810227535.0A Active CN108491497B (zh) 2018-03-20 2018-03-20 基于生成式对抗网络技术的医疗文本生成方法

Country Status (2)

Country Link
CN (1) CN108491497B (zh)
WO (1) WO2019179100A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897769A (zh) * 2018-05-29 2018-11-27 武汉大学 基于生成式对抗网络实现文本分类数据集扩展方法
CN109376903A (zh) * 2018-09-10 2019-02-22 浙江工业大学 一种基于博弈神经网络的pm2.5浓度值预测方法
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN109614480A (zh) * 2018-11-26 2019-04-12 武汉大学 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109656878A (zh) * 2018-12-12 2019-04-19 中电健康云科技有限公司 健康档案数据生成方法及装置
CN109698017A (zh) * 2018-12-12 2019-04-30 中电健康云科技有限公司 医疗病历数据生成方法及装置
CN109766683A (zh) * 2019-01-16 2019-05-17 中国科学技术大学 一种移动智能设备传感器指纹的保护方法
CN109998500A (zh) * 2019-04-30 2019-07-12 陕西师范大学 一种基于生成式对抗网络的脉搏信号生成方法及系统
CN110110060A (zh) * 2019-04-24 2019-08-09 北京百度网讯科技有限公司 一种数据生成方法和装置
CN110147535A (zh) * 2019-04-18 2019-08-20 平安科技(深圳)有限公司 相似文本生成方法、装置、设备及存储介质
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110176311A (zh) * 2019-05-17 2019-08-27 北京印刷学院 一种基于对抗神经网络的自动医疗方案推荐方法和系统
WO2019179100A1 (zh) * 2018-03-20 2019-09-26 苏州大学张家港工业技术研究院 基于生成式对抗网络技术的医疗文本生成方法
CN110765491A (zh) * 2019-11-08 2020-02-07 国网浙江省电力有限公司信息通信分公司 一种去敏感化数据关联关系的保持方法及系统
CN110807207A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN111666588A (zh) * 2020-05-14 2020-09-15 武汉大学 一种基于生成对抗网络的情绪差分隐私保护方法
CN111863236A (zh) * 2019-04-24 2020-10-30 通用电气精准医疗有限责任公司 医疗机器合成数据和对应事件生成
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质
CN112949296A (zh) * 2019-12-10 2021-06-11 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113889213A (zh) * 2021-12-06 2022-01-04 武汉大学 超声内镜报告的生成方法、装置、计算机设备及存储介质
CN117093715A (zh) * 2023-10-18 2023-11-21 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质
CN112949296B (zh) * 2019-12-10 2024-05-31 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826337B (zh) * 2019-10-08 2023-06-16 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN110956579B (zh) * 2019-11-27 2023-05-23 中山大学 一种基于生成语义分割图的文本改写图片方法
CN111584029B (zh) * 2020-04-30 2023-04-18 天津大学 基于判别式对抗网络的脑电自适应模型及在康复中的应用
CN112036750A (zh) * 2020-08-31 2020-12-04 平安医疗健康管理股份有限公司 适用于医疗风控的异常识别方法、装置、设备及存储介质
CN112434722B (zh) * 2020-10-23 2024-03-19 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN112349370B (zh) * 2020-11-05 2023-11-24 大连理工大学 一种基于对抗网络+众包的电子病历语料构建方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN113268991B (zh) * 2021-05-19 2022-09-23 北京邮电大学 一种基于cgan模型的用户人格隐私保护方法
CN113360655B (zh) * 2021-06-25 2022-10-04 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113626601A (zh) * 2021-08-18 2021-11-09 西安理工大学 一种跨域文本分类方法
CN114241263B (zh) * 2021-12-17 2023-05-02 电子科技大学 基于生成对抗网络的雷达干扰半监督开集识别系统
CN115481630A (zh) * 2022-09-27 2022-12-16 深圳先进技术研究院 基于序列对抗和先验推理的电子保函自动生成方法及装置
CN115862036B (zh) * 2022-12-14 2024-02-23 北京瑞莱智慧科技有限公司 信息干扰模型训练方法、信息干扰方法、相关装置及介质
CN115938530B (zh) * 2023-01-09 2023-07-07 人工智能与数字经济广东省实验室(广州) 抗后门攻击的智能医疗影像诊断意见自动生成方法
CN116795972B (zh) * 2023-08-11 2024-01-09 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN107590531A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种基于文本生成的wgan方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936967B2 (en) * 2014-11-26 2021-03-02 Nec Corporation Information processing system, information processing method, and recording medium for learning a classification model
CN107330444A (zh) * 2017-05-27 2017-11-07 苏州科技大学 一种基于生成对抗网络的图像自动文本标注方法
CN107609009B (zh) * 2017-07-26 2020-02-18 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108491497B (zh) * 2018-03-20 2020-06-02 苏州大学 基于生成式对抗网络技术的医疗文本生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN107590531A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种基于文本生成的wgan方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王坤峰等: "生成式对抗网络GAN的研究进展与展望", 《自动化学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019179100A1 (zh) * 2018-03-20 2019-09-26 苏州大学张家港工业技术研究院 基于生成式对抗网络技术的医疗文本生成方法
CN108897769A (zh) * 2018-05-29 2018-11-27 武汉大学 基于生成式对抗网络实现文本分类数据集扩展方法
CN109376903A (zh) * 2018-09-10 2019-02-22 浙江工业大学 一种基于博弈神经网络的pm2.5浓度值预测方法
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN109522411B (zh) * 2018-11-12 2022-10-28 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN109614480A (zh) * 2018-11-26 2019-04-12 武汉大学 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN109698017A (zh) * 2018-12-12 2019-04-30 中电健康云科技有限公司 医疗病历数据生成方法及装置
CN109656878A (zh) * 2018-12-12 2019-04-19 中电健康云科技有限公司 健康档案数据生成方法及装置
CN109766683A (zh) * 2019-01-16 2019-05-17 中国科学技术大学 一种移动智能设备传感器指纹的保护方法
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110147535A (zh) * 2019-04-18 2019-08-20 平安科技(深圳)有限公司 相似文本生成方法、装置、设备及存储介质
CN111863236A (zh) * 2019-04-24 2020-10-30 通用电气精准医疗有限责任公司 医疗机器合成数据和对应事件生成
CN110110060A (zh) * 2019-04-24 2019-08-09 北京百度网讯科技有限公司 一种数据生成方法和装置
US11984201B2 (en) 2019-04-24 2024-05-14 GE Precision Healthcare LLC Medical machine synthetic data and corresponding event generation
CN109998500A (zh) * 2019-04-30 2019-07-12 陕西师范大学 一种基于生成式对抗网络的脉搏信号生成方法及系统
CN110176311A (zh) * 2019-05-17 2019-08-27 北京印刷学院 一种基于对抗神经网络的自动医疗方案推荐方法和系统
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN110807207B (zh) * 2019-10-30 2021-10-08 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN110807207A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN110765491A (zh) * 2019-11-08 2020-02-07 国网浙江省电力有限公司信息通信分公司 一种去敏感化数据关联关系的保持方法及系统
CN112949296A (zh) * 2019-12-10 2021-06-11 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN112949296B (zh) * 2019-12-10 2024-05-31 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN113032469B (zh) * 2019-12-24 2024-02-20 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN111666588A (zh) * 2020-05-14 2020-09-15 武汉大学 一种基于生成对抗网络的情绪差分隐私保护方法
CN111666588B (zh) * 2020-05-14 2023-06-23 武汉大学 一种基于生成对抗网络的情绪差分隐私保护方法
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质
CN113889213A (zh) * 2021-12-06 2022-01-04 武汉大学 超声内镜报告的生成方法、装置、计算机设备及存储介质
CN117093715B (zh) * 2023-10-18 2023-12-29 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质
CN117093715A (zh) * 2023-10-18 2023-11-21 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108491497B (zh) 2020-06-02
WO2019179100A1 (zh) 2019-09-26

Similar Documents

Publication Publication Date Title
CN108491497A (zh) 基于生成式对抗网络技术的医疗文本生成方法
Choudhary et al. Linguistic feature based learning model for fake news detection and classification
Karimi et al. Automatic diagnosis coding of radiology reports: a comparison of deep learning and conventional classification methods
CN111971698A (zh) 在神经网络中使用梯度来检测后门
Browne Neural network analysis, architectures and applications
Markou et al. Ex machina lex: Exploring the limits of legal computability
Kaya Optimization of SVM parameters with hybrid CS-PSO algorithms for Parkinson’s disease in LabVIEW environment
Rawat et al. A soft computing genetic-neuro fuzzy approach for data mining and its application to medical diagnosis
Moradi et al. Explaining black-box models for biomedical text classification
Lee et al. Fair selective classification via sufficiency
Nowotny Two challenges of correct validation in pattern recognition
CN110119355A (zh) 一种基于知识图谱向量化推理通用软件缺陷建模方法
Chattopadhyay et al. Predicting case fatality of dengue epidemic: Statistical machine learning towards a virtual doctor
Chen et al. A new optimal diagnosis system for coronavirus (COVID-19) diagnosis based on Archimedes optimization algorithm on chest X-ray images
Srinivasarao et al. Machine intelligence based hybrid classifier for spam detection and sentiment analysis of SMS messages
CN117153418B (zh) 抗后门攻击的智能早产儿视网膜病变分类预测方法
Wang et al. Fuzzy-clustering and fuzzy network based interpretable fuzzy model for prediction
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
Mumtaz et al. Evaluation of three neural network models using Wisconsin breast cancer database
Numan et al. Prediction of Lung Cancer Using Artificial Neural Network
Peng Automatic enemy item detection using natural language processing
Omer et al. Modelling logistic regression using multivariable fractional polynomials
Hsieh et al. Beyond quantity of experience: Exploring the role of semantic consistency in Chinese character knowledge.
Chen et al. Real: A Representative Error-Driven Approach for Active Learning
Bala et al. An Effective Approach for Multiclass Classification of Adverse Events Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201211

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 215104 No. 1188 Wuzhong Road, Wuzhong District, Suzhou, Jiangsu

Patentee before: SOOCHOW University

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220107

Address after: Room 206-1, floor 2, building 201, courtyard a 10, Jiuxianqiao North Road, Chaoyang District, Beijing 100020

Patentee after: Guokang Zhongjian (Beijing) Health Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 206-1, floor 2, building 201, courtyard a 10, Jiuxianqiao North Road, Chaoyang District, Beijing 100020

Patentee after: Guokang Zhongjian (Beijing) Technology Co.,Ltd.

Address before: Room 206-1, floor 2, building 201, courtyard a 10, Jiuxianqiao North Road, Chaoyang District, Beijing 100020

Patentee before: Guokang Zhongjian (Beijing) Health Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231109

Address after: 6715, 6th floor, No. 5 Guangyuanzha, Zizhuyuan Road, Haidian District, Beijing, 100080

Patentee after: Beijing Future Cloud Technology Co.,Ltd.

Address before: Room 206-1, floor 2, building 201, courtyard a 10, Jiuxianqiao North Road, Chaoyang District, Beijing 100020

Patentee before: Guokang Zhongjian (Beijing) Technology Co.,Ltd.