CN111461168A - 训练样本扩充方法、装置、电子设备及存储介质 - Google Patents

训练样本扩充方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111461168A
CN111461168A CN202010136917.XA CN202010136917A CN111461168A CN 111461168 A CN111461168 A CN 111461168A CN 202010136917 A CN202010136917 A CN 202010136917A CN 111461168 A CN111461168 A CN 111461168A
Authority
CN
China
Prior art keywords
disease
data set
model
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010136917.XA
Other languages
English (en)
Inventor
朱昭苇
孙行智
胡岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010136917.XA priority Critical patent/CN111461168A/zh
Priority to PCT/CN2020/098246 priority patent/WO2021174723A1/zh
Publication of CN111461168A publication Critical patent/CN111461168A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

一种训练样本扩充方法,所述方法包括:将数量少于预设数量阈值的目标疾病类型的样本确定为目标样本;将目标样本对应的疾病名称进行向量转换,获得名称向量;根据预先训练好的第一疾病分类模型,基于第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;将名称向量输入至训练好的生成模型,获得生成样本数据集;若生成样本数据集中的多个生成样本可用于模型训练,将真实样本数据集和生成样本数据集确定为辅助诊断模型的第一训练样本数据集。本发明还提供一种训练样本扩充装置、电子设备以及存储介质。本发明能扩充训练样本的数量,提高辅助诊断模型的准确度。

Description

训练样本扩充方法、装置、电子设备及存储介质
技术领域
本发明涉及神经网络技术领域,尤其涉及一种训练样本扩充方法、装置、电子设备及存储介质。
背景技术
目前,随着神经网络算法的发展,出现了越来越多的用于辅助诊断的辅助诊断模型,这些辅助诊断模型可以为医疗工作提供极大的便利性。但在实践中发现,用于训练辅助诊断模型的样本数据集中,因为有些类型的疾病比较罕见,所以可能存在某种类型的疾病症状样本的数量较少的情况,而使用较少数量的疾病症状样本来训练辅助诊断模型,会导致训练出来的辅助诊断模型的准确度不高。
因此,如何扩充训练样本的数量,以提高辅助诊断模型的准确度是一个亟需解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种训练样本扩充方法、装置、电子设备及存储介质,能够扩充训练样本的数量,以提高辅助诊断模型的准确度。
本发明的第一方面提供一种训练样本扩充方法,所述方法包括:
当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;
当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;
通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;
将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;
使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;
若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
在一种可能的实现方式中,所述第一疾病分类模型是使用第二训练样本数据集训练的,所述使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练包括:
根据测试数据集,确定所述第一疾病分类模型的第一精度;
将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集;
对所述第三训练样本数据集进行训练,获得第二疾病分类模型;
根据所述测试数据集,确定所述第二疾病分类模型的第二精度;
判断所述第二精度是否大于所述第一精度;
若所述第二精度大于所述第一精度,确定所述多个生成样本可用于模型训练;或
若所述第二精度小于或等于所述第一精度,确定所述多个生成样本不可用于模型训练。
在一种可能的实现方式中,所述通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量之后,所述方法还包括:
将所述名称向量的维度确定为所述生成网络的输入数组的维度;
将所述名称向量对应的疾病症状关系库中所有症状的数量确定为所述生成网络的输出数组的维度大小,并将预设值确定为所述生成网络的输出数组的元素的取值;
所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,按照所述生成网络的输入数组的维度、所述输出数组的维度大小以及所述输出数组的元素的取值,对生成网络进行训练,获得训练好的生成模型。
在一种可能的实现方式中,所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
使用生成网络生成疾病类型与所述目标疾病类型一致的多个假样本;
将所述多个假样本与所述第二训练样本数据集确定为第四训练样本数据集;
对所述第四训练样本数据集进行训练,获得第三疾病分类模型;
确定所述第三疾病分类模型的第三精度;
根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
在一种可能的实现方式中,所述根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型包括:
根据所述第三精度以及所述第一精度,确定精度变化率;
根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化;
通过反向传播算法,根据所述第二梯度变化,更新所述生成网络的参数,获得训练好的生成模型。
在一种可能的实现方式中,所述判别网络的损失函数为交叉熵损失函数。
在一种可能的实现方式中,所述转换网络是将完整的实体名词作为输入去训练的,所述判别网络的输出值为预设数值范围的浮点数,所述输出值用于衡量所述判别网络的输入为假数据的概率。
本发明的第二方面提供一种训练样本扩充装置,所述装置包括:
获取模块,用于当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;
确定模块,用于当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;
转换模块,用于通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;
训练模块,用于根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;
输入模块,用于将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;
判断模块,用于使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;
所述确定模块,还用于若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的训练样本扩充方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的训练样本扩充方法。
由以上技术方案,本发明中,当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。可见,本发明中,可以确定数量较少的目标样本,然后根据第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,可以获得训练好的生成模型,使用生成模型生成多个与目标疾病类型一致的多个生成样本,从而增加了目标疾病类型的样本的数量,并通过所述第一疾病分类模型判断多个生成样本是否可用于模型训练,若多个生成样本可用于模型训练,可以将多个生成样本添加至训练样本数据集中,扩充了用于训练辅助诊断模型的样本数量,提高了辅助诊断模型的准确度。
附图说明
图1是本发明公开的一种训练样本扩充方法的较佳实施例的流程图。
图2是本发明公开的一种训练样本扩充装置的较佳实施例的功能模块图。
图3是本发明实现训练样本扩充方法的较佳实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例的训练样本扩充方法可以应用在电子设备中。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备可以是由单个网络设备、多个网络设备组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络设备构成的云。所述用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种训练样本扩充的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、当需要训练辅助诊断模型时,电子设备获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状。
其中,所述辅助诊断模型可以为用于辅助疾病诊断的模型(比如:疾病分类模型等)。
其中,所述真实样本数据集可以为真实病例数据,每种疾病类型的样本可以由疾病名称以及其对应的症状组合构成。
S12、当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,电子设备将所述目标疾病类型的样本确定为目标样本。
本发明实施例中,可以预先设置一个数量阈值,当某种疾病类型的样本的数量比这个数量阈值小的时候,因为没有足够多的样本,使用该疾病类型的样本进行训练得到的辅助诊断模型的准确度可能不高,因此,需要对该疾病类型的样本进行样本扩充,以增加该疾病类型的样本的数量,可以提高训练出来的辅助诊断模型的准确度。
S13、电子设备通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量。
其中,所述转换网络可以将词转换为一组向量表示,所述转换网络可以使用CBOW(continuous-bag-of-words,连续词袋)训练获得。
本发明实施例中,可以使用预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得所述疾病名称的向量(名称向量),例如:“痛风”经过向量转换后表示为[-0.124,-0.871,0.812,-1.290,…]。
S14、电子设备根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型。
其中,所述第一疾病分类模型可以根据输入的疾病症状,输出所述疾病症状所属的疾病类型。
其中,所述生成网络以及所述判别网络共同组成生成对抗网络(GenerativeAdversarial Net,GAN),其中,所述生成对抗网络是一种基于对抗训练(Adversarialtraining)过程来训练生成模型(Generative Model)的一种新的深度学习框架。生成对抗网络的训练的目的就是要使得生成的生成样本和真实样本的分布尽量接近,从而能够解释真实的数据。在训练过程中,训练一个生成模型G,从随机噪声或者潜在变量(LatentVariable)中生成逼真的生成样本,同时训练一个判别模型D来鉴别真实样本(即输入样本)和生成样本。在GAN的训练中,生成模型G和判别模型D同时训练,多次训练后,直到达到一个纳什均衡,生成模型G生成的生成样本与真实样本无差别。判别模型D也无法正确的区分生成样本和真实样本。
作为一种可选的实施方式,步骤S13之后,所述方法还包括:
将所述名称向量的维度确定为所述生成网络的输入数组的维度;
将所述名称向量对应的疾病症状关系库中所有症状的数量确定为所述生成网络的输出数组的维度大小,并将预设值确定为所述生成网络的输出数组的元素的取值。
所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,按照所述生成网络的输入数组的维度、所述输出数组的维度大小以及所述输出数组的元素的取值,对生成网络进行训练,获得训练好的生成模型。
在该可选的实施方式中,在对所述目标样本对应的疾病名称进行向量转换,获得名称向量之后,可以对生成对抗网络的生成网络以及判别网络进行预处理,首先指定生成网络的输入数组的维度,该维度和经过转换网络转换后的名称向量的维度一致,生成网络的输出数组的维度大小为疾病症状关系库中所有症状的数量大小,即所述生成网络的输出数组的元素的数量为疾病症状关系库中所有症状的数量,并将预设值确定为所述生成网络的输出数组的元素的取值,比如指定取值只能为0或1。然后可以随机初始化生成网络的参数。
可选的,对抗生成网络的训练过程可以为首先利用生成网络生成一批假数据,标签为0。将假数据与真实数据(标签为1)混在一起输入判别网络,根据结果更新判别网络的参数。固定判别网络,再次使用生成网络生成假数据,标签为1,与真实数据一起输入判别网络,根据判别网络输出结果更新生成网络参数。如此反复迭代,直至生成网络和判别网络达到纳什均衡。
其中,判别网络的输入是症状和疾病组合的序列串及该序列组合的标签(标签为0和1,分别表示来源于生成网络和真实数据)。例如当前系统中共有10种症状和2种疾病,则序列串长度为10+2=12。某真实数据症状组合包括三个症状且分别位于位置1,3,5,该症状组合对应的疾病位于位置1,则序列串表示为[1,0,1,0,1,0,0,0,0,0,1,0]。判别网络的输入表示为{[1,0,1,0,1,0,0,0,0,0,1,0],1}。
其中,所述转换网络是将完整的实体名词作为输入去训练的,所述判别网络的输出值为预设数值范围的浮点数,所述输出值用于衡量所述判别网络的输入为假数据的概率。完整的实体名词保留了完整的疾病实体含义,可以避免实体被拆分,破坏词语本身含义;判别网络的输出可以是0-1之间的浮点数,值越小表示判别网络认为该条输入越有可能是假数据。
具体的,所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
使用生成网络生成疾病类型与所述目标疾病类型一致的多个假样本;
将所述多个假样本与所述第二训练样本数据集确定为第四训练样本数据集;
对所述第四训练样本数据集进行训练,获得第三疾病分类模型;
确定所述第三疾病分类模型的第三精度;
根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
在该可选的实施方式中,生成网络的输出是序列串(数组),是假的疾病症状关系数据,即假样本,可以将假样本与所述第二训练样本数据集确定为第四训练样本数据集,对所述第四训练样本数据集进行训练,获得第三疾病分类模型;可以使用相同的测试数据集,确定所述第三疾病分类模型的精度(第三精度),根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
具体的,所述根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型包括:
根据所述第三精度以及所述第一精度,确定精度变化率;
根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化;
通过反向传播算法,根据所述第二梯度变化,更新所述生成网络的参数,获得训练好的生成模型。
在该可选的实施方式中,可以将所述第三精度与所述第一精度的差值除以所述第三精度,获得精度变化率。可以结合所述精度变化率与所述判别网络的第一梯度变化,获得第二梯度变化,其中,将所述精度变化率记为PR、所述判别网络的第一梯度变化记为D,G,第二梯度变化记为Dnew,G,arg min表示寻找一个参数使得值最小,ε为期望,z为控制参数分布的常量,q(z)表示参数的分布,D(G(z))表示生成网络生成好的数据时判别网络的输出,D(Gng(z))表示生成网络生成不好的数据时判别网络的输出,根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化的公式为:
Dnew,G=PR*log((D,G))+(1-PR)*log(1-(D,G));
Figure BDA0002397644350000111
通过结合精度变化率,可以确定网络的参数的修改的方向是否正确,提高了生成对抗网络的训练速度。
其中,所述判别网络的损失函数为交叉熵损失函数。
判别网络是一个有监督的判别网络。判别网络的损失函数为交叉熵损失,训练过程中依据当前分类的结果使用反向传播的方法,按照梯度下降方向更新判别网络参数。而生成网络的任务是寻找能描述真实分布的最优参数,参数的更新同样采用反向传播方法,而且梯度变化的方向来自于判别网络传过来的梯度。其中,纳什均衡为V(D,G),pdata(x)为输入判别网络的真实样本数据的分布,pz(z)为输入判别网络的假样本数据的分布,生成网络和判别网络总体优化公式为:
Figure BDA0002397644350000112
S15、电子设备将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致。
本发明实施例中,可以使用所述训练好的生成模型生成与所述目标疾病类型一致的多个生成样本。
S16、电子设备使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练,若是,执行步骤S17,若否,结束本流程。
本发明实施例中,为了确保所述生成样本数据集中的多个生成样本可用于模型训练,需要使用第一疾病分类模型对所述多个生成样本进行判断,确保生成样本数据集的有效性。
具体的,所述第一疾病分类模型是使用第二训练样本数据集训练的,所述使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练包括:
根据测试数据集,确定所述第一疾病分类模型的第一精度;
将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集;
对所述第三训练样本数据集进行训练,获得第二疾病分类模型;
根据所述测试数据集,确定所述第二疾病分类模型的第二精度;
判断所述第二精度是否大于所述第一精度;
若所述第二精度大于所述第一精度,确定所述多个生成样本可用于模型训练;或
若所述第二精度小于或等于所述第一精度,确定所述多个生成样本不可用于模型训练。
在该可选的实施方式中,可以使用所述第一疾病分类模型对测试数据集中的症状进行判断,获得疾病分类结果,统计所述第一疾病分类模型正确的疾病分类结果以及错误的疾病分类结果,然后根据统计结果,确定所述第一疾病分类模型的疾病分类的正确率(即第一精度)。可以将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集,使用所述第三训练样本数据集训练出第二疾病分类模型,可以使用所述第二疾病分类模型对测试数据集中的症状进行判断,获得疾病分类结果,统计所述第二疾病分类模型正确的疾病分类结果以及错误的疾病分类结果,然后根据统计结果,确定所述第二疾病分类模型的正确率(即第二精度),然后判断所述第二精度是否大于所述第一精度,若所述第二精度大于所述第一精度,说明增加了所述多个生成样本训练后,获得的所述第二疾病分类模型比没有增加所述多个生成样本训练的所述第一疾病分类模型的准确度高,即所述多个生成样本可用于模型训练,若所述第二精度小于或等于所述第一精度,说明增加了所述多个生成样本训练后,获得的所述第二疾病分类模型不比没有增加所述多个生成样本训练的所述第一疾病分类模型的准确度高,甚至所述第二疾病分类模型的准确度比所述第一疾病分类模型的准确度更低,即所述多个生成样本不可用于模型训练。
S17、电子设备将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
本发明实施例中,若所述生成样本数据集中的多个生成样本可用于模型训练,可以将所述生成样本数据集以及所述正式样本数据集一起用于模型训练,保证了样本数量的充足,提高了训练出来的模型的准确度。
在图1所描述的方法流程中,当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。可见,可以确定数量较少的目标样本,然后根据第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,可以获得训练好的生成模型,使用生成模型生成多个与目标疾病类型一致的多个生成样本,从而增加了目标疾病类型的样本的数量,并通过所述第一疾病分类模型判断多个生成样本是否可用于模型训练,若多个生成样本可用于模型训练,可以将多个生成样本添加至训练样本数据集中,扩充了用于训练辅助诊断模型的样本数量,提高了辅助诊断模型的准确度。
请参见图2,图2是本发明公开的一种训练样本扩充装置的较佳实施例的功能模块图。
在一些实施例中,所述训练样本扩充装置运行于电子设备中。所述训练样本扩充装置可以包括多个由程序代码段所组成的功能模块。所述训练样本扩充装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的训练样本扩充方法中的部分或全部步骤。
本实施例中,所述训练样本扩充装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、确定模块202、转换模块203、训练模块204、输入模块205及判断模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状。
其中,所述辅助诊断模型可以为用于辅助疾病诊断的模型(比如:疾病分类模型等)。
其中,所述真实样本数据集可以为真实病例数据,每种疾病类型的样本可以由疾病名称以及其对应的症状组合构成。
确定模块202,用于当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本。
本发明实施例中,可以预先设置一个数量阈值,当某种疾病类型的样本的数量比这个数量阈值小的时候,因为没有足够多的样本,用到该疾病类型的样本进行训练得到的辅助诊断模型的准确度可能不高,因此,需要对该疾病类型的样本进行样本扩充,以增加该疾病类型的样本的数量,可以提高训练出来的辅助诊断模型的准确度。
转换模块203,用于通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量。
其中,所述转换网络可以将词转换为一组向量表示,所述转换网络可以使用CBOW(continuous-bag-of-words,连续词袋)训练获得。
本发明实施例中,可以使用预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得所述疾病名称的向量(名称向量),例如:“痛风”经过向量转换后表示为[-0.124,-0.871,0.812,-1.290,…]。
训练模块204,用于根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型。
其中,所述第一疾病分类模型可以根据输入的疾病症状,输出所述疾病症状所属的疾病类型。
其中,所述生成网络以及所述判别网络共同组成生成对抗网络(GenerativeAdversarial Net,GAN),其中,所述生成对抗网络是一种基于对抗训练(Adversarialtraining)过程来训练生成模型(Generative Model)的一种新的深度学习框架。生成对抗网络的训练的目的就是要使得生成的生成样本和真实样本的分布尽量接近,从而能够解释真实的数据。在训练过程中,训练一个生成模型G,从随机噪声或者潜在变量(LatentVariable)中生成逼真的生成样本,同时训练一个判别模型D来鉴别真实样本(即输入样本)和生成样本。在GAN的训练中,生成模型G和判别模型D同时训练,多次训练后,直到达到一个纳什均衡,生成模型G生成的生成样本与真实样本无差别。判别模型D也无法正确的区分生成样本和真实样本。
输入模块205,用于将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致。
本发明实施例中,可以使用所述训练好的生成模型生成与所述目标疾病类型一致的多个生成样本。
判断模块206,用于使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练。
本发明实施例中,为了确保所述生成样本数据集中的多个生成样本可用于模型训练,需要使用第一疾病分类模型对所述多个生成样本进行判断,确保生成样本数据集的有效性。
所述确定模块202,还用于若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
本发明实施例中,若所述生成样本数据集中的多个生成样本可用于模型训练,可以将所述生成样本数据集以及所述正式样本数据集一起用于模型训练,保证了样本数量的充足,提高了训练出来的模型的准确度。
作为一种可选的实施方式,所述第一疾病分类模型是使用第二训练样本数据集训练的,所述判断模块206使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练的方式具体为:
根据测试数据集,确定所述第一疾病分类模型的第一精度;
将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集;
对所述第三训练样本数据集进行训练,获得第二疾病分类模型;
根据所述测试数据集,确定所述第二疾病分类模型的第二精度;
判断所述第二精度是否大于所述第一精度;
若所述第二精度大于所述第一精度,确定所述多个生成样本可用于模型训练;或
若所述第二精度小于或等于所述第一精度,确定所述多个生成样本不可用于模型训练。
在该可选的实施方式中,可以使用所述第一疾病分类模型对测试数据集中的症状进行判断,获得疾病分类结果,统计所述第一疾病分类模型正确的疾病分类结果以及错误的疾病分类结果,然后根据统计结果,确定所述第一疾病分类模型的疾病分类的正确率(即第一精度)。可以将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集,使用所述第三训练样本数据集训练出第二疾病分类模型,可以使用所述第二疾病分类模型对测试数据集中的症状进行判断,获得疾病分类结果,统计所述第二疾病分类模型正确的疾病分类结果以及错误的疾病分类结果,然后根据统计结果,确定所述第二疾病分类模型的正确率(即第二精度),然后判断所述第二精度是否大于所述第一精度,若所述第二精度大于所述第一精度,说明增加了所述多个生成样本训练后,获得的所述第二疾病分类模型比没有增加所述多个生成样本训练的所述第一疾病分类模型的准确度高,即所述多个生成样本可用于模型训练,若所述第二精度小于或等于所述第一精度,说明增加了所述多个生成样本训练后,获得的所述第二疾病分类模型不比没有增加所述多个生成样本训练的所述第一疾病分类模型的准确度高,甚至所述第二疾病分类模型的准确度比所述第一疾病分类模型的准确度更低,即所述多个生成样本不可用于模型训练。
作为一种可选的实施方式,所述训练样本扩充装置还可以包括:
所述确定模块202,还用于所述转换模块203通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量之后,将所述名称向量的维度确定为所述生成网络的输入数组的维度;
所述确定模块202,还用于将所述名称向量对应的疾病症状关系库中所有症状的数量确定为所述生成网络的输出数组的维度大小,并将预设值确定为所述生成网络的输出数组的元素的取值;
所述训练模块204根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型的方式具体为:
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,按照所述生成网络的输入数组的维度、所述输出数组的维度大小以及所述输出数组的元素的取值,对生成网络进行训练,获得训练好的生成模型。
在该可选的实施方式中,在对所述目标样本对应的疾病名称进行向量转换,获得名称向量之后,可以对生成对抗网络的生成网络以及判别网络进行预处理,首先指定生成网络的输入数组的维度,该维度和经过转换网络转换后的名称向量的维度一致,生成网络的输出数组的维度大小为疾病症状关系库中所有症状的数量大小,即所述生成网络的输出数组的元素的数量为疾病症状关系库中所有症状的数量,并将预设值确定为所述生成网络的输出数组的元素的取值,比如指定取值只能为0或1。然后可以随机初始化生成网络的参数。
可选的,对抗生成网络的训练过程可以为首先利用生成网络生成一批假数据,标签为0。将假数据与真实数据(标签为1)混在一起输入判别网络,根据结果更新判别网络的参数。固定判别网络,再次使用生成网络生成假数据,标签为1,与真实数据一起输入判别网络,根据判别网络输出结果更新生成网络参数。如此反复迭代,直至生成网络和判别网络达到纳什均衡。
其中,判别网络的输入是症状和疾病组合的序列串及该序列组合的标签(标签为0和1,分别表示来源于生成网络和真实数据)。例如当前系统中共有10种症状和2种疾病,则序列串长度为10+2=12。某真实数据症状组合包括三个症状且分别位于位置1,3,5,该症状组合对应的疾病位于位置1,则序列串表示为[1,0,1,0,1,0,0,0,0,0,1,0]。判别网络的输入表示为{[1,0,1,0,1,0,0,0,0,0,1,0],1}。
其中,所述转换网络是将完整的实体名词作为输入去训练的,所述判别网络的输出值为预设数值范围的浮点数,所述输出值用于衡量所述判别网络的输入为假数据的概率。完整的实体名词保留了完整的疾病实体含义,可以避免实体被拆分,破坏词语本身含义;判别网络的输出可以是0-1之间的浮点数,值越小表示判别网络认为该条输入越有可能是假数据。
作为一种可选的实施方式,所述训练模块204包括:
生成子模块,用于使用生成网络生成疾病类型与所述目标疾病类型一致的多个假样本;
确定子模块,用于将所述多个假样本与所述第二训练样本数据集确定为第四训练样本数据集;
训练子模块,用于对所述第四训练样本数据集进行训练,获得第三疾病分类模型;
所述确定子模块,还用于确定所述第三疾病分类模型的第三精度;
更新子模块,用于根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
在该可选的实施方式中,生成网络的输出是序列串(数组),是假的疾病症状关系数据,即假样本,可以将假样本与所述第二训练样本数据集确定为第四训练样本数据集,对所述第四训练样本数据集进行训练,获得第三疾病分类模型;可以使用相同的测试数据集,确定所述第三疾病分类模型的精度(第三精度),根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
作为一种可选的实施方式,所述更新子模块根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型的方式具体为:
根据所述第三精度以及所述第一精度,确定精度变化率;
根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化;
通过反向传播算法,根据所述第二梯度变化,更新所述生成网络的参数,获得训练好的生成模型。
在该可选的实施方式中,可以将所述第三精度与所述第一精度的差值除以所述第三精度,获得精度变化率。可以结合所述精度变化率与所述判别网络的第一梯度变化,获得第二梯度变化,其中,将所述精度变化率记为PR、所述判别网络的第一梯度变化记为D,G,第二梯度变化记为Dnew,G,arg min表示寻找一个参数使得值最小,ε为期望,z为控制参数分布的常量,q(z)表示参数的分布,D(G(z))表示生成网络生成好的数据时判别网络的输出,D(Gng(z))表示生成网络生成不好的数据时判别网络的输出,根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化的公式为:
Dnew,G=PR*log((D,G))+(1-PR)*log(1-(D,G));
Figure BDA0002397644350000201
通过结合精度变化率,可以确定网络的参数的修改的方向是否正确,提高了生成对抗网络的训练速度。
其中,所述判别网络的损失函数为交叉熵损失函数。
判别网络是一个有监督的判别网络。判别网络的损失函数为交叉熵损失,训练过程中依据当前分类的结果使用反向传播的方法,按照梯度下降方向更新判别网络参数。而生成网络的任务是寻找能描述真实分布的最优参数,参数的更新同样采用反向传播方法,而且梯度变化的方向来自于判别网络传过来的梯度。其中,纳什均衡为V(D,G),pdata(x)为输入判别网络的真实样本数据的分布,pz(z)为输入判别网络的假样本数据的分布,生成网络和判别网络总体优化公式为:
Figure BDA0002397644350000202
在图2所描述的训练样本扩充装置中,当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。可见,可以确定数量较少的目标样本,然后根据第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,可以获得训练好的生成模型,使用生成模型生成多个与目标疾病类型一致的多个生成样本,从而增加了目标疾病类型的样本的数量,并通过所述第一疾病分类模型判断多个生成样本是否可用于模型训练,若多个生成样本可用于模型训练,可以将多个生成样本添加至训练样本数据集中,扩充了用于训练辅助诊断模型的样本数量,提高了辅助诊断模型的准确度。
如图3所示,图3是本发明实现训练样本扩充方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件等。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种训练样本扩充方法,所述处理器32可执行所述多个指令从而实现:
当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;
当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;
通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;
将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;
使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;
若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。可见,可以确定数量较少的目标样本,然后根据第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,可以获得训练好的生成模型,使用生成模型生成多个与目标疾病类型一致的多个生成样本,从而增加了目标疾病类型的样本的数量,并通过所述第一疾病分类模型判断多个生成样本是否可用于模型训练,若多个生成样本可用于模型训练,可以将多个生成样本添加至训练样本数据集中,扩充了用于训练辅助诊断模型的样本数量,提高了辅助诊断模型的准确度。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种训练样本扩充方法,其特征在于,所述方法包括:
当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;
当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;
通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;
将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;
使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;
若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
2.根据权利要求1所述的方法,其特征在于,所述第一疾病分类模型是使用第二训练样本数据集训练的,所述使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练包括:
根据测试数据集,确定所述第一疾病分类模型的第一精度;
将所述多个生成样本以及所述第二训练样本数据集确定为第三训练样本数据集;
对所述第三训练样本数据集进行训练,获得第二疾病分类模型;
根据所述测试数据集,确定所述第二疾病分类模型的第二精度;
判断所述第二精度是否大于所述第一精度;
若所述第二精度大于所述第一精度,确定所述多个生成样本可用于模型训练;或
若所述第二精度小于或等于所述第一精度,确定所述多个生成样本不可用于模型训练。
3.根据权利要求1所述的方法,其特征在于,所述通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量之后,所述方法还包括:
将所述名称向量的维度确定为所述生成网络的输入数组的维度;
将所述名称向量对应的疾病症状关系库中所有症状的数量确定为所述生成网络的输出数组的维度大小,并将预设值确定为所述生成网络的输出数组的元素的取值;
所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,按照所述生成网络的输入数组的维度、所述输出数组的维度大小以及所述输出数组的元素的取值,对生成网络进行训练,获得训练好的生成模型。
4.根据权利要求2所述的方法,其特征在于,所述根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型包括:
使用生成网络生成疾病类型与所述目标疾病类型一致的多个假样本;
将所述多个假样本与所述第二训练样本数据集确定为第四训练样本数据集;
对所述第四训练样本数据集进行训练,获得第三疾病分类模型;
确定所述第三疾病分类模型的第三精度;
根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三精度以及判别网络的梯度变化,对所述生成网络的参数进行更新,获得训练好的生成模型包括:
根据所述第三精度以及所述第一精度,确定精度变化率;
根据所述精度变化率以及所述判别网络的第一梯度变化,获得第二梯度变化;
通过反向传播算法,根据所述第二梯度变化,更新所述生成网络的参数,获得训练好的生成模型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述判别网络的损失函数为交叉熵损失函数。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述转换网络是将完整的实体名词作为输入去训练的,所述判别网络的输出值为预设数值范围的浮点数,所述输出值用于衡量所述判别网络的输入为假数据的概率。
8.一种训练样本扩充装置,其特征在于,所述训练样本扩充装置包括:
获取模块,用于当需要训练辅助诊断模型时,获取真实样本数据集,其中,所述真实样本数据集由多种疾病类型的样本组成,每种所述疾病类型的样本包括至少一个疾病症状;
确定模块,用于当所述多种疾病类型的样本中存在目标疾病类型的样本的数量小于预设数量阈值时,将所述目标疾病类型的样本确定为目标样本;
转换模块,用于通过预先训练好的转换网络,将所述目标样本对应的疾病名称进行向量转换,获得名称向量;
训练模块,用于根据预先训练好的第一疾病分类模型,基于所述第一疾病分类模型的精度以及判别网络的梯度变化,对生成网络进行训练,获得训练好的生成模型;
输入模块,用于将所述名称向量输入至所述训练好的生成模型,获得生成样本数据集,所述生成样本数据集包括的多个生成样本的疾病类型与所述目标疾病类型一致;
判断模块,用于使用所述第一疾病分类模型,根据所述第一疾病分类模型的精度,判断所述生成样本数据集中的多个生成样本是否可用于模型训练;
所述确定模块,还用于若所述生成样本数据集中的多个生成样本可用于模型训练,将所述真实样本数据集和所述生成样本数据集确定为所述辅助诊断模型的第一训练样本数据集。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的训练样本扩充方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的训练样本扩充方法。
CN202010136917.XA 2020-03-02 2020-03-02 训练样本扩充方法、装置、电子设备及存储介质 Pending CN111461168A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010136917.XA CN111461168A (zh) 2020-03-02 2020-03-02 训练样本扩充方法、装置、电子设备及存储介质
PCT/CN2020/098246 WO2021174723A1 (zh) 2020-03-02 2020-06-24 训练样本扩充方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010136917.XA CN111461168A (zh) 2020-03-02 2020-03-02 训练样本扩充方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111461168A true CN111461168A (zh) 2020-07-28

Family

ID=71679950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010136917.XA Pending CN111461168A (zh) 2020-03-02 2020-03-02 训练样本扩充方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN111461168A (zh)
WO (1) WO2021174723A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949886A (zh) * 2020-08-28 2020-11-17 腾讯科技(深圳)有限公司 一种用于信息推荐的样本数据生成方法和相关装置
CN112418305A (zh) * 2020-11-19 2021-02-26 北京紫光展锐通信技术有限公司 一种训练样本的生成方法、装置、计算机设备和存储介质
CN112767134A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 样本筛选方法、装置和电子设备
CN113256434A (zh) * 2021-06-08 2021-08-13 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN115579128A (zh) * 2022-10-19 2023-01-06 内蒙古卫数数据科技有限公司 一种多模型特征增强疾病筛查系统
CN116451087A (zh) * 2022-12-20 2023-07-18 石家庄七彩联创光电科技有限公司 性格匹配方法、装置、终端及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229175B (zh) * 2022-03-18 2023-12-26 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质
CN114664452B (zh) * 2022-05-20 2022-09-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测系统
CN115277189B (zh) * 2022-07-27 2023-08-15 中国人民解放军海军航空大学 基于生成式对抗网络的无监督式入侵流量检测识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470187A (zh) * 2018-02-26 2018-08-31 华南理工大学 一种基于扩充训练数据集的类别不平衡问题分类方法
US11461693B2 (en) * 2018-08-20 2022-10-04 United Microelectronics Corp. Training apparatus and training method for providing sample size expanding model
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109919230B (zh) * 2019-03-10 2022-12-06 西安电子科技大学 基于循环特征金字塔的医学图像肺结节检测方法
CN110188824B (zh) * 2019-05-31 2021-05-14 重庆大学 一种小样本植物病害识别方法及系统
CN110321945A (zh) * 2019-06-21 2019-10-11 深圳前海微众银行股份有限公司 扩充样本方法、终端、装置及可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949886A (zh) * 2020-08-28 2020-11-17 腾讯科技(深圳)有限公司 一种用于信息推荐的样本数据生成方法和相关装置
CN111949886B (zh) * 2020-08-28 2023-11-24 腾讯科技(深圳)有限公司 一种用于信息推荐的样本数据生成方法和相关装置
CN112418305A (zh) * 2020-11-19 2021-02-26 北京紫光展锐通信技术有限公司 一种训练样本的生成方法、装置、计算机设备和存储介质
CN112767134A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 样本筛选方法、装置和电子设备
CN113256434A (zh) * 2021-06-08 2021-08-13 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN115579128A (zh) * 2022-10-19 2023-01-06 内蒙古卫数数据科技有限公司 一种多模型特征增强疾病筛查系统
CN115579128B (zh) * 2022-10-19 2023-11-21 内蒙古卫数数据科技有限公司 一种多模型特征增强疾病筛查系统
CN116451087A (zh) * 2022-12-20 2023-07-18 石家庄七彩联创光电科技有限公司 性格匹配方法、装置、终端及存储介质
CN116451087B (zh) * 2022-12-20 2023-12-26 石家庄七彩联创光电科技有限公司 性格匹配方法、装置、终端及存储介质

Also Published As

Publication number Publication date
WO2021174723A1 (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN111461168A (zh) 训练样本扩充方法、装置、电子设备及存储介质
CN111679949A (zh) 基于设备指标数据的异常检测方法及相关设备
CN111063410B (zh) 一种医学影像文本报告的生成方法及装置
Laraba et al. Dance performance evaluation using hidden Markov models
CN111739016B (zh) 目标检测模型训练方法、装置、电子设备及存储介质
CN113298152B (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
CN112257578B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN109948680A (zh) 病历数据的分类方法及系统
CN110399488A (zh) 文本分类方法及装置
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN111949798A (zh) 图谱的构建方法、装置、计算机设备和存储介质
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
CN111858891A (zh) 问答库构建方法、装置、电子设备及存储介质
CN112214515A (zh) 数据自动匹配方法、装置、电子设备及存储介质
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN112052663B (zh) 客服语句质检方法及相关设备
CN113268597B (zh) 文本分类方法、装置、设备及存储介质
CN111679959A (zh) 计算机性能数据确定方法、装置、计算机设备及存储介质
CN111639500A (zh) 语义角色标注方法、装置、计算机设备及存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116503608A (zh) 基于人工智能的数据蒸馏方法及相关设备
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031272

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination