CN114863225A - 图像处理模型训练方法、生成方法、装置、设备及介质 - Google Patents
图像处理模型训练方法、生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114863225A CN114863225A CN202210788639.5A CN202210788639A CN114863225A CN 114863225 A CN114863225 A CN 114863225A CN 202210788639 A CN202210788639 A CN 202210788639A CN 114863225 A CN114863225 A CN 114863225A
- Authority
- CN
- China
- Prior art keywords
- image processing
- processing model
- training
- image
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图像处理模型训练方法,图像生成方法、装置、设备及介质,方法包括:获取第一训练样本集合,为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;调整所述图像处理模型的判别器网络的输出结果的格式;确定所述图像处理模型的损失函数;通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。本发明能够提升图像处理模型的训练精度与训练速度,使得图像处理模型能够适应不同的使用场景。
Description
技术领域
本发明涉及机器学习技术,尤其涉及一种图像处理模型训练方法、装置、电子设备、计算机程序产品及存储介质。
背景技术
现有技术中,深度神经网络在许多计算机视觉任务中获得了非常好的性能。一般而言,神经网络的参数量和计算量越大,神经网络的性能越好。尤其是生成性对抗网络已广泛应用于各种任务中。然而,生成性对抗网络是在无监督的非成对数据中进行学习和训练,这导致了训练过程汇中出现模式坍塌的问题,影响了模型的训练精确度。
发明内容
有鉴于此,本发明实施例提供一种图像处理模型训练方法、装置、电子设备、计算机程序产品及存储介质,能够通过利用图像处理模型的使用环境,调整图像处理模型的判别器网络的输出结果的格式,并根据判别器网络的输出结果的格式配置相应的损失函数,使得图像处理模型不会出现模式坍塌,从而提升图像处理模型的训练准确性,使得经过训练的图像处理模型能够适应各种类型的图像处理环境。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种图像处理模型训练方法,所述方法包括:
获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;
为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;
根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;
基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;
通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;
基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
本发明实施例还提供了一种图像生成方法,所述方法包括:
获取图像集合中的待处理图像;
通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像;
将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果。
本发明实施例还提供了一种图像处理模型的训练装置,所述训练装置包括:
数据传输模块,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;
噪声添加模块,用于为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;
图像处理模型训练模块,用于通根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;
所述图像处理模型训练模块,用于基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;
所述图像处理模型训练模块,用于通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;
所述图像处理模型训练模块,用于基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
上述方案中,所述噪声添加模块,用于当所述图像处理模型的使用环境为人脸图像生成时,确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值;
所述噪声添加模块,用于根据所述动态噪声数量阈值,为所述第一训练样本配置动态数量的随机噪声,以形成与所述动态噪声阈值相匹配的第二训练样本集合。
上述方案中,所述噪声添加模块,用于当所述图像处理模型的使用环境为医疗图像生成时,确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值;
所述噪声添加模块,用于根据所述固定噪声数量阈值,为所述第一训练样本配置固定数量的随机噪声,以形成与所述固定噪声阈值相匹配的第二训练样本集合。
上述方案中,所述图像处理模型训练模块,用于根据所述图像处理模型的使用环境,确定所述判别器网络的全连接层对应的标量数量;
所述图像处理模型训练模块,用于基于所述全连接层对应的标量数量,将所述图像处理模型的判别器网络的输出结果的格式配置为向量输出结果的格式,其中,所述向量输出结果的格式中包括:所述第一训练样本集合对应的第一向量和所述第二训练样本集合对应的第二向量。
上述方案中,所述图像处理模型训练模块,用于当所述判别器网络的输出结果的格式为向量格式时,根据所述第一向量,计算所述图像处理模型的第一子损失函数;
所述图像处理模型训练模块,用于根据所述第二向量,计算所述图像处理模型的第二子损失函数;
所述图像处理模型训练模块,用于计算所述第一子损失函数和所述第二子损失函数的差值作为所述图像处理模型的损失函数。
上述方案中,所述图像处理模型训练模块,用于通过所述第一训练样本集合和所述第二训练样本集合,计算所述图像处理模型的更新参数;
所述图像处理模型训练模块,用于根据所述图像处理模型的更新参数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型的生成器网络的参数和判别器网络参数进行迭代更新。
上述方案中,所述图像处理模型训练模块,用于基于所述判别器网络的输出结果,计算所述输出结果与所述第一训练样本集合中每一个训练样本的相似度;
所述图像处理模型训练模块,用于筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第一相似度;
所述图像处理模型训练模块,用于基于所述判别器网络的输出结果,计算所述输出结果与所述第二训练样本集合中每一个训练样本的相似度;
所述图像处理模型训练模块,用于筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第二相似度;
所述图像处理模型训练模块,用于计算所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值;
所述图像处理模型训练模块,用于根据所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值计算所述图像处理模型的更新参数。
本发明实施例还提供了一种图像生成装置,所述装置包括:
信息传输模,用于获取图像集合中的待处理图像;
信息处理模块,用于通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像;
将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果。
本发明实施例还提供了一种图像处理模型的训练装置,其特征在于,所述训练装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的图像处理模型的训练方法,或者实现前序的图像生成方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序或指令被处理器执行时,实现前序的图像处理模型的训练方法,或者实现前序的图像生成方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现前序的图像处理模型的训练方法,或者实现前序的图像生成方法。
本发明实施例具有以下有益效果:
通过获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数,由此,能够在不增加训练样本总量和无需重新训练的前提下,稳定提高图像处理模型的训练精确度,避免出现图像处理模型出现模式坍塌,增强神经网络模型的泛化能力,使得图像处理模型能够应用于各种类型的图像处理环境。
附图说明
图1是本发明实施例提供的一种图像处理模型训练方法的使用环境示意图;
图2为本发明实施例提供的图像处理模型的训练装置的组成结构示意图;
图3为传统方案中生成图像处理结果的示意图;
图4为本发明实施例中解决模式坍塌的方法示意图;
图5为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图;
图6为本发明实施例提供的在人脸图像中进行配置随机噪声的示意图;
图7为本发明实施例中调整图像处理模型的判别器网络的输出结果的格式的示意图;
图8为本发明实施例中计算图像处理模型的更新参数的过程示意图;
图9为本发明实施例中图像处理模型的检测效果示意图;
图10为本发明实施例中图像生成方法的处理流程示意图;
图11为本发明实施例中图像生成方法的效果示意图;
图12为本发明实施例中图像处理模型训练方法一个可选的处理流程示意图;
图13为本发明实施例中图像处理模型的训练过程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)Wasserstein distance:一种距离度量函数,主要用于衡量两个分布之间的差异。
2)人工神经网络:简称神经网络(Neural Network,NN),在机器学习和认知科学领域,是一种模仿生物神经网络结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
3)模型参数:是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中,模型参数通常是实数矩阵。
4)生成对抗网络(Generative Adversarial Networks,GAN):即生成式对抗网络,是一种深度学习模型。模型通过框架中至少两个模块:生成模型G(Generative Model)和判别模型D(Discriminative Model)的互相博弈学习产生相当好的输出。比如:G是制作高分图像(本文中也称为重构图像)的模型,D是检测是否为原始自然图像的模型。G的目标是使D判断不出G生成的高分图像是否为非自然图像,D则要尽可能的分辨出输入的图像是原始自然图像还是G生成的非自然图像,通过G和D的参数不断的迭代更新,直到生成对抗网络满足收敛条件。
5)生成器网络:用于通过低分辨率的图像生成高分辨率图像。生成器可为基于深度学习的卷积神经网络。
6)判别器网络:判断输入的图像x是生成器生成的非自然图像,还是自然图像。判别器输出一个0-1区间的概率值D1(x),当D1(x)为0时,表示判别输入的图像x是自然图像,当D1(x)为1时,表示判别输入的图像x是非自然图像。
7)Mode Collapse:模式坍塌,在生成对抗网络中,如果生成器只生成很少数量的样本,但是每个样本都很真实,这种情况也可以获得很小的损失函数,但是这会导致生成器没有学习到真实样本的实际分布,生成样本的多样性会得到限制。
8)Fully-Connected Layer:全链接网络,图像分类问题中常使用的一种网络结构,前一层和后一层的神经元节点完全连接。
9)Lipschitz constraint:Lipschitz 平滑性是用于描述映射函数的平滑性的一个约束,被广泛应用于机器学习领域。当模型满足该约束,会有很多理想的特性,如训练更加稳定,迁移性更好,同时对对抗攻击具有更好的鲁棒性。
10)Inception-V3:一种分类网路,在生成任务中常使用在ImageNet训练好后的Inception- V3模型来评价生成样本的准确性。
图1为本发明实施例提供的图像处理模型训练方法的使用场景示意图,参考图1,终端(包括终端10-1和终端10-2)上设置有图像处理软件的客户端,用户通过所设置的图像处理软件客户端可以输入相应的待处理图像,图像处理客户端也可以接收相应的图像处理结果,并将所接收的图像处理结果向用户进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述图像处理模型并对所述图像处理模型进行训练,以对图像处理模型的生成器参数和判别器参数进行迭代更新,以实现将通过图像处理模型中的生成器网络生成针对目标待处理图像的图像处理结果,并通过终端(终端10-1和/或终端10-2)展示图像处理模型所生成的与待处理图像相对应的图像处理结果。
当然在通过图像处理模型对目标待处理图像进行处理以生成相应的图像处理结果之前,还需要对图像处理模型进行训练,具体包括:获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
下面对本发明实施例的图像处理模型的训练装置的结构做详细说明,图像处理模型的训练装置可以各种形式来实施,如带有图像处理模型训练功能的专用终端,也可以为设置有图像处理模型训练功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的图像处理模型的训练装置的组成结构示意图,可以理解,图2仅仅示出了图像处理模型的训练装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的图像处理模型的训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。图像处理模型的训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的图像处理模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的图像处理模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的图像处理模型训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的图像处理模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的图像处理模型的训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的图像处理模型训练方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的图像处理模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的图像处理模型训练方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持图像处理模型的训练装置的操作。这些数据的示例包括:用于在图像处理模型的训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从图像处理模型训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的图像处理模型的训练装置可以采用软件方式实现,图2示出了存储在存储器202中的图像处理模型的训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括图像处理模型的训练装置,图像处理模型的训练装置中包括以下的软件模块:数据传输模块2081,噪声添加模块2082和图像处理模型训练模块2083。当图像处理模型的训练装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的图像处理模型训练方法,下面介绍本发明实施例中图像处理模型的训练装置中各个软件模块的功能,其中,数据传输模块2081,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本。
噪声添加模块2082,用于为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合。
图像处理模型训练模块2083,用于通根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式。
所述图像处理模型训练模块2083,用于基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数。
所述图像处理模型训练模块2083,用于通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数。
所述图像处理模型训练模块2083,用于基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
根据图2所示的图像处理模型训练装置,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像处理模型训练方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
当图像处理模型训练完成之后,可以部署在服务器中或者云服务器网络中,本申请所提供的图像生成装置也可以部署在图2所示的电子设备中,其中,信息传输模,用于获取图像集合中的待处理图像;信息处理模块,用于通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像;所述信息处理模块,用于将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果。
结合图2示出的图像处理模型的训练装置说明本发明实施例提供的图像处理模型的训练方法,在介绍本发明实施例提供的图像处理模型的训练方法之前,首先介绍本发明中相关技术中利用对抗网络对图像进行处理,实现样本扩充的过程,图3为传统方案中生成图像处理结果的示意图,其中,图1是相关技术基于生成对抗网络对图像进行超分处理的示意图,生成对抗网络SRGAN(SRGAN,Super Resolution Generative Adversarial Network)的结构如图1所示,包括有生成器网络301和判别器网络302。生成器网络301和判别器网络302为深度神经网络模型。训练集合中的图片被作为训练样本图像并进行下采样处理,形成向量化的训练样本图像,通过SRGAN模型中的生成器网络301对训练样本图像进行图像重构,形成重构图像;SRGAN模型中的判别器网络302对重构图像进行鉴别,根据相应的鉴别结果调整生成器网络301和/或判别器网络302的参数,直至所述生成器网络301和判别器网络302能够达到纳什平衡(Nash equilibrium),完成对SRGAN模型的训练,从而SRGAN模型能够对所输入的图像进行重构,形成新的目标图像,以对图像集合进行补充。
相关技术的上述方案在进行训练时,会导致出现模式坍塌的问题,其中,生成对抗网络通过对抗式的训练将生成器生成图像的数据分布向真实图像的数据分布拉拢,而真实图像的数据分布难以获得,则通过使用真实图像数据训练判别器得到接近真实的图像数据分布,原始生成对抗网络技术描述两种图像数据分布之间的距离的标准为交叉熵即JS散度,当两者分布在训练初期不存在相交时,采用JS散度的训练结果较差,不能够为生成器的训练提供有效的梯度从而导致模式坍塌。参考图4,图4为本发明实施例中解决模式坍塌的方法示意图,具体包括以下方式:1)在生成过程中加入噪音,增加模型生成样本的随机性,进而防止模型出现模式坍塌。这种方式的缺陷在于:增加噪音的方法主要是对生成器中的每一个卷积层的输出添加一个高斯噪音。基于这样的方法,可以发现,尽管使用相同的噪音作为输入,生成器得到的结果也不在固定,因此,极大的增加了生成过程的随机性。因此生成器难以只生成几张真实的图片对判别器进行欺骗,从而缓解了模式坍塌问题的出现。
2)引入额外信息(例如类别信息),进而降低模型的生成难度,以缓解模式坍塌,这种方式的缺陷在于:生成任务可以直接转变成在每个类别对应的子空间内进行生成。因此,生成任务的难度会大大降低,虽然可以有效缓解模式坍塌,增加类别信息会使的算法依赖于监督信息,但是难以在更广泛的应用场景中使用,为了适应新的图像处理场景,用户不得不重新训练图像处理模型,增加了模型训练时间和用户的硬件消耗成本。
为解决这一相关技术中的缺陷,参见图5,图5为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图,可以理解地,图5所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行,例如可以是如带有样本生成功能的专用终端、带有图像处理模型训练功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。
步骤501:图像处理模型训练装置获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本。
步骤502:图像处理模型训练装置为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合。
在本发明的一些实施例中,为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合,可以通过以下方式实现:
当所述图像处理模型的使用环境为人脸图像生成时,确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值;根据所述动态噪声数量阈值,为所述第一训练样本配置动态数量的随机噪声,以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中,由于人脸图像的使用环境多种多样,例如可以是安全摄像头采集的街头人脸图像,可以是终端采集的用户人脸图像,也可以是金融机构采集的安全认证人脸图像,由于训练样本来源于不同的数据源,数据源中包括各类型应用场景的数据作为相应的训练本的数据来源,针对这些图像处理模型的不同使用场景,可以使用与动态噪声阈值相匹配的第二训练样本集合对图像处理模型进行针对性的训练。
在本发明的一些实施例中,为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合,可以通过以下方式实现:
当所述图像处理模型的使用环境为医疗图像生成时,确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值;根据所述固定噪声数量阈值,为所述第一训练样本配置固定数量的随机噪声,以形成与所述固定噪声阈值相匹配的第二训练样本集合。由于训练样本来源于固定的数据源,数据源中包括固定场景的数据作为相应的训练本的数据来源(例如任一一种产生医疗图像的电子设备),例如,本发明所提供的图像处理模型可以作为软件模块封装于移动检测电子设备中,也可以封装于不同的固定医疗检查设备中(包括但不限于:手持诊断仪,病房中央监测系统,床边监测系统),当然也可以固化于智能机器人的硬件设备中,针对这些图像处理模型的不同使用场景,可以使用固定噪声阈值相匹配的第二训练样本集合对图像处理模型进行针对性的训练,以提升图像处理模型的训练速度。
在本发明的一些实施例中,由于医疗图像中存在高清图像,为了避免图像处理模型的训练过程中,生成器网络为了尽量还原高频信息会放大这些失真的噪声,在实现纳什均衡的过程中,影响生成器网络的参数和判别器网络的参数,从而导致利用训练完成的图像处理模型所生成的高清晰度的图片会有大量随机噪声,影响使用效果,可以对经过第二训练样本集合进行压缩,形成与所述目标图像具有相同压缩比例的第三训练样本图像,以降低图像处理模型在重构图像的过程中所产生的噪声幅度。
仍然以医用肿瘤超声图像为例,当获取第二训练样本图像后,可以根据超声图像的压缩比例(4倍)对第二训练样本图像进行压缩,例如,第二训练样本图像的分辨率为512*512,根据超声图像4倍的压缩比例,对第二训练样本图像进行压缩形成分辨率为128*128的第三训练样本图像,其与作为目标图像的超声图像具有相同的压缩比例,以提升图像处理模型的训练速度。
参见图6,图6为本发明实施例提供的在人脸图像中进行配置随机噪声的示意图,假设截取的人脸图像40为正方形图像,记为I,宽高均为W,在人脸图像40中绘制密度为N(表示网格中节点的整数)*N的均匀网格50,示例的网格的密度为5*5(即宽度方向5个节点,高度方向5个节点),在图6中示例性示出了节点51至节点55。
添加坐标噪声时,将每个节点分配坐标(x,y),记第i行第j列(在图6中,i和j的取值范围均在1至5之间)的坐标分别为(xij,yij),xij=i/N,yij=j/N,则所有的xij(i=0,…,4,j=0,…,4)、yij(i=0,…,4,j=0,…,4)组成矩阵(X,Y)。将(X,Y)的每个元素分别加上独立分布的高斯噪声,高斯噪声的期望为0,方差为σ2,方差的示例性取值为0.02,将矩阵(X,Y)使用图像插值的方法(例如使用线性插值),放大矩阵(X,Y)的宽高到W,得到新的图像(即矩阵)(X’、Y’)。构造宽高均为W的矩阵(X2,Y2),其中矩阵X2的元素x2ij=i/W,矩阵Y2中元素y2ij=j/W,其中i=0,…,W,j=0,…,W。
图像重映射时,对添加坐标噪声的人脸图像进行插值得到扭曲后的人脸图像Z。记Z第a行第b列的像素为zab,查找矩阵X2中比xab小的元素,记为x2c,查找矩阵Y2中比yij小的元素记为x2d,则可以构造如下四个点:A(x2c,d,y2c,d),B(x2c+1,d,y2c+1,d),C(x2c,d+1,y2c,d+11),D(x2c+1,d+1,y2c+1,d+1)。分别计算点(xab,yab)到A、B、C、D的距离dA、dB、dC和dD,根据这四个距离加权得到zab的值:zab=dA/(dA+dB+dC+dD)×Ic,d + dB/(dA+dB+dC+dD)×Ic+1,d+dC/(dA+dB+dC+dD)×Ic,d+1 + dD/(dA+dB+dC+dD)×Ic+1,d+1。
步骤503:图像处理模型训练装置根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式。
在本发明的一些实施例中,根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式,可以通过以下方式实现:
根据所述图像处理模型的使用环境,确定所述判别器网络的全连接层对应的标量数量;基于所述全连接层对应的标量数量,将所述图像处理模型的判别器网络的输出结果的格式配置为向量输出结果的格式,其中,所述向量输出结果的格式中包括:所述第一训练样本集合对应的第一向量和所述第二训练样本集合对应的第二向量。其中,参考图7,图7为本发明实施例中调整图像处理模型的判别器网络的输出结果的格式的示意图,以图像处理模型为深度卷积生成对抗网络(DCGAN Deep Convolutional Generative AdversarialNetwork)为例,生成对抗网络包括两个部分:判别器网络和生成器网络,判别器网络的训练目标是通过训练提高其对真实图像的甄别能力,提高对真实图像的分数,降低对生成图像的分数。生成器网络的训练目标是通过训练,提高生成图像数据的质量,让生成的图像数据能够在判别器网络中取得更高的分数。深度卷积生成对抗网络的训练过程主要包括两个阶段,第一个阶段对判别器网络输入图像数据,进行真实图像甄别能力的训练,第二个阶段对生成器网络进行训练,提高其生成图像数据在判别器中的分数,两个阶段循环进行,当判别器网络无法对生成器网络所生成的图像数据做出准确的判断时,可以确定生成对抗网络的训练达到了稳态平衡。这一过程,判别器网络最后一层的全连接层的输出的不再是标量格式,而是向量格式,由于噪声的随机配置阶段,可能根据图像处理模型的使用环境不同,添加至少一组第二训练样本集合(也可以添加一组第三训练样本集合,或者一组第三训练样本集合和一组第四训练样本集合,根据噪声数量阈值以此类推,本申请不做具体限制),因此,确定首先判别器网络的全连接层对应的标量数量,其中标量数量与作为噪声的训练样本集合的数量相同,之后基于全连接层对应的标量数量,将图像处理模型的判别器网络的输出结果的格式配置为向量输出结果的格式,即全连接层的输出结果由(1,)改为(32,)。
以给定一个长度为100的均匀分布噪音作为第二训练样本集合为例,通过使用卷积核大小为4x4的转制卷积操作,得到4*4*1024的向量,再使用8*8的卷积核将4*4*1024的向量变化为8*8*512。通过这种上采样策略,向量的大小从(1,1,100)开始变化,上采样到(4,4,1024),(8,8,512),(16,16,256),(32,32,128)和(64,64,3)的矩阵,此时大小为(64,64,3)的矩阵为生成图像。
而判别器网络与生成器网络的处理过程刚好相反,通过使用4*4的卷积核,步长大小为2的卷积将图像从(64,64,3)的大小逐渐变为(32,32,128),(16,16,256),(8,8,512)和(4,4,1024)。不同于以现有的判别器网络,通过本申请提供的图像处理模型训练方法,将图像处理模型的判别器网络的输出结果的格式配置为向量输出结果的格式,所以最终判别器网络将(4,4,1024)使用4*4的卷积映射为(1,1,1024),再使用全卷积网络(FCN FullyConvolutional Networks)将(1,1,1024)映射为(1,1,32)。
步骤504:图像处理模型训练装置基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数。
在本发明的一些实施例中,经过判别器网络的处理,利用第一训练样本集合所生成的第一向量和利用第二训练样本集合所生成的第二向量作为判别器网络的输出结果,在确定图像处理模型的损失函数时,当所述判别器网络的输出结果的格式为向量格式时,根据所述第一向量,计算所述图像处理模型的第一子损失函数;根据所述第二向量,计算所述图像处理模型的第二子损失函数;计算所述第一子损失函数和所述第二子损失函数的差值作为所述图像处理模型的损失函数。其中,图像处理模型的损失函数参考公式1:
其中是图像处理模型的损失函数,Pr是真实的图像分布即第一训练样本集合的图像分布,Pz是输入的噪音分布即第二训练样本集合的图像分布,而则是通过生成器网络所生成的图像。m是判别器网络输出向量的维度。因此该公式1使用判别器网络的输出向量的平均值作为图像真实度的度量。通过最大最小化图像的真实度来实现模型的训练,使得最大化生成器网络的输出结果分布的熵实现对抗模式坍塌,使得经过训练的图像处理模型能够适应不同的图像处理使用环境。
步骤505:图像处理模型训练装置通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数。
步骤506:图像处理模型训练装置基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
在本发明的一些实施例中,对所述图像处理模型进行训练时,首先通过第一训练样本集合和所述第二训练样本集合,计算所述图像处理模型的更新参数;
需要说明的是,图像处理模型中包括由生成器网络和判别器网络构成的生成式对抗网络,其中,生成器网络的结构可以采用:SRCNN,快速超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,FSRCNN),亚像素卷积网络(sub-pixelConvolutional Neural Network,ESPCN),残差超分辨率网络(Residual Super-Resolution Network,ResSRNet)等超分辨率模型的结构。本发明实施例对生成器网络所采用的结构不进行任何的限定,仅对判别器网络的全连接层的输出结果的格式进行配置。
参考图8,图8为本发明实施例中计算图像处理模型的更新参数的过程示意图,具体包括以下步骤:
步骤801:基于所述判别器网络的输出结果,计算所述输出结果与所述第一训练样本集合中每一个训练样本的相似度。
步骤802:筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第一相似度。
步骤803:基于所述判别器网络的输出结果,计算所述输出结果与所述第二训练样本集合中每一个训练样本的相似度。
步骤804:筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第二相似度。
步骤805:计算所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值。
步骤806:根据所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值计算所述图像处理模型的更新参数。
其中,通过步骤801-步骤806的处理,采用基于自适应矩估计(Adam Adamadaptivemoment estimation)的梯度下降法更新判别器网络的参数和生成器网络的参数,初始学习率为0.05,Adam中的betas=(0.95,0.9995)。
1) 当图像处理模型训练完成之后,可以部署在服务器中,以实现对图像样本的扩充,在进行部署时,可以对首先对经过训练的图像处理模型进行检测,以观察图像生成的效果,参考图9,图9为本发明实施例中图像处理模型的检测效果示意图,在CIFAR10 和ANIMEFACE两个数据集中的表现。其评价指标为I-Variance。该指标的具体计算过程为使用经过训练的图像处理模型,给定50000个噪音向量作为输入,生成500000张生成图像。将这50000张生成图像作为输入,放入使用训练好后的Inception-V3模型得到其对应的类别编码。I-Variance 则是50000张图像所对应的类别编码的标准差。如果生成的样本多样性高,则标准差比较大,如果生成的样本多样性低,则对应的标准差小。参考表1所示,可以发现在通过本申请提供的图像处理模型训练方法后,所生成的图像的多样性都有显著的增加。
表格1基准模型和申请的图像处理模型训练方法的I-Variance数值
2)通过用于评价图像处理模型的生成图像的质量的指标FID,对图像处理模型的结果进行测试。如表2所示,在使用相同的生成网络结构和数据下,本申请提供的图像处理模型训练方法达到了最高的FID,显著的超越了相关技术中的其他方案。
表2模型在CIFAR10的图像生成质量(FID)
参考图10,图10为本发明实施例中图像生成方法的处理流程示意图,图11为本发明实施例中图像生成方法的效果示意图,包括以下步骤:
步骤1001:获取图像集合中的待处理图像。
其中,待处理图像可以图像集合CIFAR-10训练数据集合中的一组图像。
步骤1002:通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像。
步骤1003:将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果。
经过扩充的图像集合如图11的效果所示,实现了图像集合的样本数量增广,能够使用经过扩充的图像集合执行新的模型训练任务。
为了更好的说明本申请提供的图像处理模型训练方法的处理过程,下面以医疗图像的处理为例进行说明,可以通过本申请所提供的图像处理方法对医疗环境中的医疗图像进行处理,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中,所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的相应目标对象的医疗图像进行浏览,或者获取相应的医疗图像,并对医疗图像所示的目标区域(例如病灶组织的区域)进行分析,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的相应目标对象的医疗图像类型既可以相同也可以不相同,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取与目标对象相匹配的病理图像或者医疗图像集合,也可以通过网络300从相应的服务器200中获取仅与当前目标相匹配的医疗图像集合(例如电子计算机断层扫描(CT Computed Tomography))进行浏览。服务器200中可以保存有不同目标对象各自对应的相应目标对象的医疗图像,也可以保存与所述目标对象的相应目标对象的医疗图像相匹配的辅助分析信息。在本发明的一些实施例中,服务器200中所保存的不同类型的相应目标对象的医疗图像可以由内窥镜所采集的内窥镜图像,或者CT机器所采集的患者的CT图像。
其中,医学影像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程,包括但不限于:CT,MRI,超声,X光,心电图,脑电图,光学摄影等等由医学仪器生成的图像,是用于辅助临床诊断的一种重要手段和参考因素,不同病征的内在异质性也在其成像表型(外观和形状)中体现。因此,通过医学影像进行病因诊断或病灶组织区域的图像分割,可以有效辅助医生进行准确地病理诊断。在仿真检测阶段,通过图像处理模型,能够利用数量较少的(例如仅有一张图像)特殊病灶位置的CT图像进行样本扩充,以辅助医生进行病理诊断练习,同时经过扩充的样本图像能够作为新的训练样本,对不同类型的图像处理网络进行辅助训练,例如:图像分割网络,图像识别网络,对此本申请不做具体限制。
其中,本发明实施例可结合云技术实现,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
结合实施例图1所示,本发明实施例所提供的目标对象确定方法可以通过相应的云端设备实现,例如:终端(包括终端10-1和终端10-2)通过网络300连接位于云端的服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。值得说明的是,服务器200可为实体设备,也可为虚拟化设备。
具体来说,结合前序实施例中的图1所示,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,在CT图像下查看的患者的病灶组织的区域可以包括多种不同的应用场景,如糖网病变筛查,宫颈癌早期筛查等实施环境。基于本实施例的图像处理方法可以部署到多种应用场景,从而便于医生的远程查阅与使用。
参考图12,图12为本发明实施例中图像处理模型训练方法一个可选的处理流程示意图,具体包括以下步骤:
步骤1201:获取一张真实CT图像和随机生成的噪音,形成两个处理队列,并初始化两个队列。
其中,两个队列采用先进先出的策略,初始化的队列里的元素是取值范围为0-1的随机噪音。两个队列分别对应为真实CT图像样本(至少一张)的队列和生成CT图像样本的队列。在执行步骤1201之前,还需要进行模型的初始化,其中,特征提取器使用的是方差为0.01,均值为0的高斯分布初始化。
步骤1202:将随机生成的噪音放入图像处理模型生成器网络中,生成对应的CT图像,此时图像处理模型中获得有两张图像,一张为真实CT图像,一张为生成的CT图像。
步骤1203:将真实CT图像和生成的CT图像输入图像处理模型的判别器网络中,计算L_MaF的损失函数,并得到参数对应的梯度,并记录判别器网络输出的两个向量数值,即生成CT图像对应的向量和真实CT图像对应的向量。
步骤1204:针对生成图像对应的向量,寻找生成CT图像样本的队列中与该向量最相似的向量,并最小化这两个向量的相似度。针对真实图片对应的向量,则在真实CT图像样本的队列中寻找最相似的向量并最小化相似度。
步骤1205:将生成图像对应的向量放入CT图像样本队列的队尾,将真实CT图像样本对应的向量放入真实样本队列的队尾。为保证队列的长度,从队列头部释放一个元素。
步骤1206:计算步骤1203的梯度,计算步骤1204的梯度,取两者的梯度平均值,并使用Adam更新参数。
步骤1207:迭代执行步骤1201-1205,直至完成图像处理模型的训练。
参考图13,图13为本发明实施例中图像处理模型的训练过程示意图,当通过图13迭代执行步骤1201-1205,完成图像处理模型的训练之后,经过训练的图像处理模型可以部署在医疗服务器中,利用经过训练的图像处理模型生成相应的CT图像,辅助用户进行仿真训练。
本发明具有以下有益技术效果:
通过获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数,由此,能够在不增加训练样本总量和无需重新训练的前提下,稳定提高图像处理模型的训练精确度,避免出现图像处理模型出现模式坍塌,增强神经网络模型的泛化能力,使得图像处理模型能够应用于各种类型的图像处理环境。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种图像处理模型训练方法,其特征在于,所述方法包括:
获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;
为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;
根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;
基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;
通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;
基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
2.根据权利要求1所述的方法,其特征在于,所述为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合,包括:
当所述图像处理模型的使用环境为人脸图像生成时,确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值;
根据所述动态噪声数量阈值,为所述第一训练样本配置动态数量的随机噪声,以形成与所述动态噪声阈值相匹配的第二训练样本集合。
3.根据权利要求1所述的方法,其特征在于,所述为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合,包括:
当所述图像处理模型的使用环境为医疗图像生成时,确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值;
根据所述固定噪声数量阈值,为所述第一训练样本配置固定数量的随机噪声,以形成与所述固定噪声阈值相匹配的第二训练样本集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式,包括:
根据所述图像处理模型的使用环境,确定所述判别器网络的全连接层对应的标量数量;
基于所述全连接层对应的标量数量,将所述图像处理模型的判别器网络的输出结果的格式配置为向量输出结果的格式,其中,所述向量输出结果的格式中包括:所述第一训练样本集合对应的第一向量和所述第二训练样本集合对应的第二向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数,包括:
当所述判别器网络的输出结果的格式为向量格式时,根据所述第一向量,计算所述图像处理模型的第一子损失函数;
根据所述第二向量,计算所述图像处理模型的第二子损失函数;
计算所述第一子损失函数和所述第二子损失函数的差值作为所述图像处理模型的损失函数。
6.根据权利要求1所述的方法,其特征在于,所述基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,包括:
通过所述第一训练样本集合和所述第二训练样本集合,计算所述图像处理模型的更新参数;
根据所述图像处理模型的更新参数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型的生成器网络的参数和判别器网络参数进行迭代更新。
7.根据权利要求6所述的方法,其特征在于,所述通过所述第一训练样本集合和所述第二训练样本集合,计算所述图像处理模型的更新参数,包括:
基于所述判别器网络的输出结果,计算所述输出结果与所述第一训练样本集合中每一个训练样本的相似度;
筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第一相似度;
基于所述判别器网络的输出结果,计算所述输出结果与所述第二训练样本集合中每一个训练样本的相似度;
筛选所述相似度中的最大值,并对最大相似度进行最小化处理,得到第二相似度;
计算所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值;
根据所述判别器网络的输出结果的梯度值、所述第一相似度的梯度值和所述第二相似度的梯度值计算所述图像处理模型的更新参数。
8.一种图像生成方法,其特征在于,所述方法包括:
获取图像集合中的待处理图像;
通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像;
将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果;
其中,所述图像处理模型基于如权利要求1至7任一项所述的方法训练得到。
9.一种图像处理模型的训练装置,其特征在于,所述训练装置包括:
数据传输模块,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组无噪声的训练样本;
噪声添加模块,用于为所述第一训练样本集合配置随机噪声,以形成相应的第二训练样本集合;
图像处理模型训练模块,用于通根据所述图像处理模型的使用环境,调整所述图像处理模型的判别器网络的输出结果的格式;
所述图像处理模型训练模块,用于基于所述判别器网络的输出结果的格式,确定所述图像处理模型的损失函数;
所述图像处理模型训练模块,用于通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理,以确定所述图像处理模型的初始参数;
所述图像处理模型训练模块,用于基于所述图像处理模型的初始参数和所述图像处理模型的损失函数,通过所述第一训练样本集合和所述第二训练样本集合,对所述图像处理模型进行训练,确定所述图像处理模型的生成器网络的参数和判别器网络的参数。
10.一种图像生成装置,其特征在于,所述装置包括:
信息传输模,用于获取图像集合中的待处理图像;
信息处理模块,用于通过图像处理模型的生成器网络对所述待处理图像进行样本扩充处理,以形成与所述待处理图像相匹配的目标图像;
所述信息处理模块,用于将所述目标图像添加至所述图像集合中,以达到对对所述图像集合进行扩充的效果;
其中,所述图像处理模型基于如权利要求1至7任一项所述的方法训练得到。
11.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时实现权利要求1至7任一项所述的图像处理模型训练方法,或者实现权利要求8所述的图像生成方法。
12.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至7任一项所述的图像处理模型训练方法,或者实现权利要求8所述的图像生成方法。
13.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至7任一项所述的图像处理模型训练方法,或者实现权利要求8所述的图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210788639.5A CN114863225B (zh) | 2022-07-06 | 2022-07-06 | 图像处理模型训练方法、生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210788639.5A CN114863225B (zh) | 2022-07-06 | 2022-07-06 | 图像处理模型训练方法、生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863225A true CN114863225A (zh) | 2022-08-05 |
CN114863225B CN114863225B (zh) | 2022-10-04 |
Family
ID=82625597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210788639.5A Active CN114863225B (zh) | 2022-07-06 | 2022-07-06 | 图像处理模型训练方法、生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863225B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100581A (zh) * | 2022-08-24 | 2022-09-23 | 有米科技股份有限公司 | 基于文本辅助的视频重构模型训练方法及装置 |
CN115496924A (zh) * | 2022-09-29 | 2022-12-20 | 北京瑞莱智慧科技有限公司 | 一种数据处理方法、相关设备及存储介质 |
CN115936090A (zh) * | 2022-11-25 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型训练方法、设备和存储介质 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108711138A (zh) * | 2018-06-06 | 2018-10-26 | 北京印刷学院 | 一种基于生成对抗网络的灰度图片彩色化方法 |
CN108805840A (zh) * | 2018-06-11 | 2018-11-13 | Oppo(重庆)智能科技有限公司 | 图像去噪的方法、装置、终端及计算机可读存储介质 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN110263872A (zh) * | 2019-06-26 | 2019-09-20 | 上海鹰瞳医疗科技有限公司 | 训练数据处理方法及装置 |
CN110263192A (zh) * | 2019-06-06 | 2019-09-20 | 西安交通大学 | 一种基于条件生成对抗网络的磨粒形貌数据库创建方法 |
CN110689086A (zh) * | 2019-10-08 | 2020-01-14 | 郑州轻工业学院 | 基于生成式对抗网络的半监督高分遥感图像场景分类方法 |
CN111582348A (zh) * | 2020-04-29 | 2020-08-25 | 武汉轻工大学 | 条件生成式对抗网络的训练方法、装置、设备及存储介质 |
CN112070209A (zh) * | 2020-08-13 | 2020-12-11 | 河北大学 | 基于w距离的稳定可控图像生成模型训练方法 |
CN112085677A (zh) * | 2020-09-01 | 2020-12-15 | 深圳先进技术研究院 | 一种图像处理方法、系统和计算机存储介质 |
US20210089903A1 (en) * | 2019-09-24 | 2021-03-25 | Naver Corporation | Neural network for generating images trained with a generative adversarial network |
CN113553954A (zh) * | 2021-07-23 | 2021-10-26 | 上海商汤智能科技有限公司 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
CN113569891A (zh) * | 2021-01-25 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种神经网络模型的训练数据处理、装置、电子设备及存储介质 |
CN113807183A (zh) * | 2021-08-17 | 2021-12-17 | 华为技术有限公司 | 模型训练方法及相关设备 |
CN113962887A (zh) * | 2021-10-20 | 2022-01-21 | 中国科学院计算技术研究所 | 一种二维冷冻电镜图像去噪模型的训练方法、去噪方法 |
CN113989100A (zh) * | 2021-09-18 | 2022-01-28 | 西安电子科技大学 | 一种基于样式生成对抗网络的红外纹理样本扩充方法 |
CN114038055A (zh) * | 2021-10-27 | 2022-02-11 | 电子科技大学长三角研究院(衢州) | 一种基于对比学习和生成对抗网络的图像生成方法 |
EP3968233A1 (en) * | 2020-09-09 | 2022-03-16 | Valeo Comfort and Driving Assistance | A computer implemented method for training a gan network to generate artificial images of faces for a driver monitoring system |
CN114494529A (zh) * | 2022-01-05 | 2022-05-13 | 电子科技大学长三角研究院(衢州) | 一种基于代价敏感学习的人脸属性编辑方法 |
WO2022105308A1 (zh) * | 2020-11-20 | 2022-05-27 | 南京大学 | 一种基于生成对抗级联网络增广图像的方法 |
WO2022120758A1 (zh) * | 2020-12-10 | 2022-06-16 | 深圳先进技术研究院 | 一种医学图像降噪方法、系统、终端以及存储介质 |
-
2022
- 2022-07-06 CN CN202210788639.5A patent/CN114863225B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108711138A (zh) * | 2018-06-06 | 2018-10-26 | 北京印刷学院 | 一种基于生成对抗网络的灰度图片彩色化方法 |
CN108805840A (zh) * | 2018-06-11 | 2018-11-13 | Oppo(重庆)智能科技有限公司 | 图像去噪的方法、装置、终端及计算机可读存储介质 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN110263192A (zh) * | 2019-06-06 | 2019-09-20 | 西安交通大学 | 一种基于条件生成对抗网络的磨粒形貌数据库创建方法 |
CN110263872A (zh) * | 2019-06-26 | 2019-09-20 | 上海鹰瞳医疗科技有限公司 | 训练数据处理方法及装置 |
US20210089903A1 (en) * | 2019-09-24 | 2021-03-25 | Naver Corporation | Neural network for generating images trained with a generative adversarial network |
CN110689086A (zh) * | 2019-10-08 | 2020-01-14 | 郑州轻工业学院 | 基于生成式对抗网络的半监督高分遥感图像场景分类方法 |
CN111582348A (zh) * | 2020-04-29 | 2020-08-25 | 武汉轻工大学 | 条件生成式对抗网络的训练方法、装置、设备及存储介质 |
CN112070209A (zh) * | 2020-08-13 | 2020-12-11 | 河北大学 | 基于w距离的稳定可控图像生成模型训练方法 |
CN112085677A (zh) * | 2020-09-01 | 2020-12-15 | 深圳先进技术研究院 | 一种图像处理方法、系统和计算机存储介质 |
EP3968233A1 (en) * | 2020-09-09 | 2022-03-16 | Valeo Comfort and Driving Assistance | A computer implemented method for training a gan network to generate artificial images of faces for a driver monitoring system |
WO2022105308A1 (zh) * | 2020-11-20 | 2022-05-27 | 南京大学 | 一种基于生成对抗级联网络增广图像的方法 |
WO2022120758A1 (zh) * | 2020-12-10 | 2022-06-16 | 深圳先进技术研究院 | 一种医学图像降噪方法、系统、终端以及存储介质 |
CN113569891A (zh) * | 2021-01-25 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种神经网络模型的训练数据处理、装置、电子设备及存储介质 |
CN113553954A (zh) * | 2021-07-23 | 2021-10-26 | 上海商汤智能科技有限公司 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
CN113807183A (zh) * | 2021-08-17 | 2021-12-17 | 华为技术有限公司 | 模型训练方法及相关设备 |
CN113989100A (zh) * | 2021-09-18 | 2022-01-28 | 西安电子科技大学 | 一种基于样式生成对抗网络的红外纹理样本扩充方法 |
CN113962887A (zh) * | 2021-10-20 | 2022-01-21 | 中国科学院计算技术研究所 | 一种二维冷冻电镜图像去噪模型的训练方法、去噪方法 |
CN114038055A (zh) * | 2021-10-27 | 2022-02-11 | 电子科技大学长三角研究院(衢州) | 一种基于对比学习和生成对抗网络的图像生成方法 |
CN114494529A (zh) * | 2022-01-05 | 2022-05-13 | 电子科技大学长三角研究院(衢州) | 一种基于代价敏感学习的人脸属性编辑方法 |
Non-Patent Citations (5)
Title |
---|
CV君: "GAN之再进化:分布判别器,大连理工提出一种新式无监督图像合成方法", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1846292》 * |
LIMIN: "图像盲去噪|GAN|GCBD", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/403031904》 * |
MARCO PASINI: "A New Way to look at GANs", 《HTTPS://TOWARDSDATASCIENCE.COM/A-NEW-WAY-TO-LOOK-AT-GANS-7C6B6E6E9737》 * |
YUANBO XIANGLI 等: "Real or Not Real, that is the Question", 《ARXIV:2002.05512》 * |
侯小春: "基于卷积神经网络的目标检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100581A (zh) * | 2022-08-24 | 2022-09-23 | 有米科技股份有限公司 | 基于文本辅助的视频重构模型训练方法及装置 |
CN115496924A (zh) * | 2022-09-29 | 2022-12-20 | 北京瑞莱智慧科技有限公司 | 一种数据处理方法、相关设备及存储介质 |
CN115936090A (zh) * | 2022-11-25 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型训练方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114863225B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | MCFNet: Multi-layer concatenation fusion network for medical images fusion | |
Xia et al. | A novel improved deep convolutional neural network model for medical image fusion | |
CN114863225B (zh) | 图像处理模型训练方法、生成方法、装置、设备及介质 | |
Ghorbani et al. | Dermgan: Synthetic generation of clinical skin images with pathology | |
CN109166130B (zh) | 一种图像处理方法及图像处理装置 | |
Nair et al. | Multi‐sensor medical image fusion using pyramid‐based DWT: a multi‐resolution approach | |
CN108537794B (zh) | 医学图像数据处理方法、装置和计算机可读存储介质 | |
CN111368849B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111369562B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110827216A (zh) | 图像去噪的多生成器生成对抗网络学习方法 | |
CN109754403A (zh) | 一种ct图像内的肿瘤自动分割方法及系统 | |
CN110348515A (zh) | 图像分类方法、图像分类模型训练方法及装置 | |
CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
Li et al. | A multiscale double-branch residual attention network for anatomical–functional medical image fusion | |
Chen et al. | Generative adversarial U-Net for domain-free medical image augmentation | |
Yang et al. | Generative Adversarial Networks (GAN) Powered Fast Magnetic Resonance Imaging--Mini Review, Comparison and Perspectives | |
CN111696042A (zh) | 基于样本学习的图像超分辨重建方法 | |
Sahu et al. | An application of deep dual convolutional neural network for enhanced medical image denoising | |
Gao et al. | LEGAN: A Light and Effective Generative Adversarial Network for medical image synthesis | |
Liu et al. | DL‐MRI: A Unified Framework of Deep Learning‐Based MRI Super Resolution | |
Luo et al. | Ultra-dense denoising network: application to cardiac catheter-based X-ray procedures | |
CN113850796A (zh) | 基于ct数据的肺部疾病识别方法及装置、介质和电子设备 | |
Sander et al. | Autoencoding low-resolution MRI for semantically smooth interpolation of anisotropic MRI | |
Kan et al. | Enhancing multi-channel eeg classification with gramian temporal generative adversarial networks | |
CN115965785A (zh) | 图像分割方法、装置、设备、程序产品及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40072636 Country of ref document: HK |