CN112132106A - 基于人工智能的图像增广处理方法、装置、设备及存储介质 - Google Patents
基于人工智能的图像增广处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112132106A CN112132106A CN202011074076.0A CN202011074076A CN112132106A CN 112132106 A CN112132106 A CN 112132106A CN 202011074076 A CN202011074076 A CN 202011074076A CN 112132106 A CN112132106 A CN 112132106A
- Authority
- CN
- China
- Prior art keywords
- image
- noise
- model
- classification
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于人工智能的图像增广处理方法、装置、设备及计算机可读存储介质;方法包括:对目标图像进行编码处理,得到所述目标图像的图像特征;基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数;基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征;对所述第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;将所述目标图像和所述第一对抗噪声图像进行叠加得到噪声扰动图像,以作为所述目标图像的增广图像。通过本申请,能够提升图像增广的性能和质量。
Description
技术领域
本申请涉及人工智能的图形图像处理技术,尤其涉及一种基于人工智能的图像增广处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。基于人工智能的图形处理技术在很多的领域得到应用,并发挥越来越重要的价值。
在图像分类模型应用中,通常需要通过图像增广来获得多样化的图像样本,以此训练图像分类模型进而提高图像分类模型的泛化能力,以人脸识别模型为例,如果人脸识别模型从各种各样的包括噪声的人脸图像中都能够识别出人脸,说明具有良好的泛化能力。
相关技术中,在图像增广方面往往采用常规的图像操作,例如,水平翻转、平移、旋转等,但通过这些方式获得的增广图像来训练图像分类模型,对于提高图像分类模型的泛化能力非常有限。
因此,相关技术中对于如何进行图像增广以提升图像分类模型的泛化能力尚无有效的方案。
发明内容
本申请实施例提供一种基于人工智能的图像增广处理方法、装置、电子设备及计算机可读存储介质,能够有效提升图像增广的性能和质量。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的图像增广处理方法,包括:
对目标图像进行编码处理,得到所述目标图像的图像特征;
基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数;
基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征;
对所述第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;
将所述目标图像和所述第一对抗噪声图像进行叠加得到噪声扰动图像,以作为所述目标图像的增广图像。
本申请实施例提供一种基于人工智能的图像增广处理装置,包括:
第一编码器,用于对目标图像进行编码处理,得到所述目标图像的图像特征;
调制器,用于基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数;
基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征;
解码器,用于对所述第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;
叠加模块,用于将所述目标图像和所述第一对抗噪声图像进行叠加得到噪声扰动图像,以作为所述目标图像的增广图像。
在上述方案中,所述特征库中存储有不同标记类型与不同特征参数之间的映射关系;
所述调制器,还用于基于所述目标图像的第一标记类型查询所述特征库存储的所述映射关系,得到与所述第一标记标签对应的正态分布的第一特征参数。
在上述方案中,所述第一标记类型所服从的正态分布的特征参数包括第一均值向量和第一方差向量;
其中,所述第一均值向量用于表征所述第一标记类型的图像特征的均值,所述第一方差向量用于表征所述第一标记类型的图像特征的抖动程度;
所述调制器,还用于确定所述第一均值向量与所述目标图像的图像特征之间的第一差值;
将所述第一差值与所述第一方差向量之间的第一比值确定所述第一对抗噪声特征。
在上述方案中,所述编码处理是通过编解码模型中的第一编码器实现的,所述噪声调制处理是通过所述编解码模型中的调制器实现的,所述解码处理是通过所述编解码模型中的解码器实现的;
在上述方案中,本申请实施例提供的一种基于人工智能的图像增广处理装置,还包括:
第一训练模块,用于迭代执行以下训练操作:
基于第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,联合训练所述编解码器模型、所述第一分类模型和所述特征库;
基于所述第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,训练所述第一分类模型。
在上述方案中,所述第一训练模块,还用于通过所述编解码模型生成所述图像样本的噪声扰动图像;
通过所述第一分类模型生成所述图像样本的噪声扰动图像的分类概率分布、以及所述图像样本的分类概率分布;
基于所述噪声扰动图像的分类概率分布、以及所述图像样本的分类概率分布之间的差异构建第一损失函数,通过最大化所述第一损失函数的方式,更新所述编解码器模型的模型参数、所述第一分类模型的模型参数和所述特征库的特征参数。
在上述方案中,所述图像样本的噪声扰动图像的分类概率分布包括所述图像样本的噪声扰动图像分别属于原始图像类型和噪声图像类型的概率;
所述图像样本的分类概率分布包括所述图像样本分别属于原始图像类型和噪声图像类型的概率;
所述第一训练模块,还用于确定最大化所述第一损失函数时所述编解码模型的梯度值、所述第一分类模型的梯度值和所述特征库的梯度值;
基于所述编解码模型的梯度值更新所述编解码模型的模型参数;
基于所述第一分类模型的梯度值更新所述第一分类模型的模型参数;
基于所述特征库的梯度值更新所述特征库中第二标记类型所服从的正态分布的特征参数;其中,所述第二标记类型是所述图像样本的预标记类型。
在上述方案中,所述调制器的模型参数包括调制偏置参数和调制速率参数;
所述第一训练模块,还用于确定最大化所述第一损失函数时所述调制器的梯度值,基于所述调制器的梯度值更新所述调制偏置参数和所述调制速率参数。
在上述方案中,所述第一训练模块,还用于通过所述第一编码器对所述图像样本进行下采样处理,得到所述图像样本的图像特征;
基于所述图像样本的第二标记类型查询所述特征库,得到所述图像样本的第二标记类型所服从的正态分布的第二特征参数;其中,所述第二标记类型是所述图像样本的预标记类型;
通过所述调制器、并基于所述第二特征参数对所述图像样本的图像特征进行噪声调制处理,得到第二对抗噪声特征;
通过所述解码器对所述第二对抗噪声特征进行上采样处理,得到所述图像样本的噪声扰动图像。
在上述方案中,所述第一分类模型包括第二编码器、第三编码器和分类器;
所述第一训练模块,还用于通过所述第二编码器以及所述第三编码器对所述图像样本的噪声扰动图像进行特征提取处理,得到所述图像样本的噪声扰动图像的图像特征,通过所述分类器将所述图像样本的噪声扰动图像的图像特征映射为所述图像样本的噪声扰动图像的分类概率分布;
通过所述第二编码器以及所述第三编码器对所述图像样本进行特征提取处理,得到所述图像样本的图像特征,通过所述分类器将所述图像样本的图像特征映射为所述图像样本的分类概率分布。
在上述方案中,所述第一编码器和所述第二编码器的结构相同,且共用相同的模型参数。
在上述方案中,所述第一训练模块,还用于通过所述第一分类模型对所述图像样本的噪声扰动图像和所述图像样本进行分类处理,得到所述图像样本的噪声扰动图像属于原始图像类型的概率以及所述图像样本属于原始图像类型的概率;
根据所述第一分类模型对所述图像样本属于原始图像类型的概率、以及对所述图像样本的噪声扰动图像属于原始图像类型的概率之间的差异,构建第二损失函数;
通过最小化所述第二损失函数的方式,更新所述第一分类模型的模型参数。
在上述方案中,所述本申请实施例提供的一种基于人工智能的图像增广处理装置,还包括:
第二训练模块,用于基于目标图像以及目标图像的噪声扰动图像建立训练集;
基于所述训练集训练第二分类模型;
其中,所述训练集中的标注数据是根据所述第二分类模型的分类任务标注的,且所述第二分类模型的分类任务区别于所述第一分类模型。
本申请实施例提供一种基于人工智能的图像增广处理装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的图像增广处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的基于人工智能的图像增广处理方法。
本申请实施例具有以下有益效果:
对目标图像进行编码、调制、解码及叠加一系列的处理,自动生成增广图像,有效提高图像增广的性能和质量;通过生成的增广图像扩充样本数量,获得多样化的图像样本,以此训练图像分类模型进而提高图像分类模型的泛化能力。
附图说明
图1是本申请实施例提供的基于人工智能的图像增广处理系统100的一个可选的架构示意图;
图2是本申请实施例提供的基于人工智能的图像增广处理的服务器200的结构示意图;
图3是本申请实施例提供的基于人工智能的图像增广处理装置255的结构示意图;
图4A是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图;
图4B是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图;
图4C是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图;
图5是本申请实施例提供的编解码模型的结构示意图;
图6是本申请实施例提供的第一分类模型的结构示意图;
图7为本申请实施例提供的编解码模型的训练方法的流程示意图;
图8是本申请实施例提供的训练编解码模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)对抗噪声,干扰图像分类模型对图像做出正确分类结果的噪声,例如在训练集中的图像样本中叠加对抗噪声后,图像分类模型对训练集的分类准确率相较于叠加对抗噪声前会有所降低,训练图像分类模型的目标就是让图像分类模型能够对对抗噪声“免疫”。
2)泛化能力,指机器学习算法对新鲜样本的适应能力,简而言之是在原有的样本数据集合上添加新的样本数据,通过训练输出一个合理的结果,学习的目的是学到隐含在样本数据背后的规律,对具有同一规律的样本数据集合以外的数据,经过训练的网络也能给出合适的输出,即称为泛化能力。
3)图像增广,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。例如,可以对图像进行不同方式的裁剪,使得感兴趣的物体出现在不同位置,从而让模型减轻对物体出现位置的依赖性。
4)第一分类模型,用于辅助训练编解码模型的分类模型,其分类结果是待分类图像分别属于图像的概率、以及属于噪声图像的概率所形成的概率分布。
5)第二分类模型,用于完成区别于第一分类模型的分类任务。
6)原始图像,没有添加噪声的“纯净”图像,例如通过图像采集的方式获得的图像。
7)目标图像,即需要进行添加噪声来进行图像增广的原始图像的,用于与原始图像组合形成训练集来训练第二分类模型。
8)噪声图像,通过对原始图像图像增广方式形成的含有噪声的图像。
图像分类模型一般需要通过图像增广来获得多样化的图像样本,以此训练图像分类模型进而提高图像分类模型的泛化能力,才能使得图像分类模型对于训练集和线上数据的识别达到较好的准确率和召回率。相关技术中,在图像增广方面,往往采用常规的图像操作,例如水平翻转,平移,旋转等;或是采用生成对抗网络学习特征的方式有针对性的增广图像,例如通过梯度反馈获得到图像空间的对抗噪声,然后将对抗噪声叠加到原始图像上,以减弱原始图像的特征,使得图像分类模型能够去学习到其他一般性的特征,以提高图像分类模型的泛化能力。
本申请实施例中发现相关技术的上述方法在实际应用过程中,会出现以下技术问题:采用人工定义的图片操作方式,对于提高图像分类模型的泛化能力有限;对于一张图片需要经过多次梯度反馈,才能获得比较好的对抗噪声,效率较低。
针对上述技术问题,本申请实施例提供一种基于人工智能的图像增广处理方法、装置、电子设备及计算机可读存储介质,能够有效提升图像增广的性能和质量,下面说明本申请实施例提供的基于人工智能的图像增广处理的电子设备的示例性应用,本申请实施例提供的基于人工智能的图像增广处理的电子设备可以实施为服务器,对目标图像进行编码、调制、解码及叠加一系列的处理,自动生成与目标图像的标记类型对应的增广图像;也可以实施为各种类型的用户终端,根据用户输入的目标图像自动生成与目标图像的标记类型对应的增广图像。下面,将说明电子设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的基于人工智能的图像增广处理系统100的一个可选的架构示意图。基于人工智能的图像增广处理系统100包括:服务器200、网络300和终端(示例性示出了终端400-1和终端400-2),终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
服务器200,用于基于终端发送的目标图像,对目标图像进行编码、调制、解码及叠加一系列的处理,自动生成增广图像,根据目标图像及增广图像训练图像分类模型,将训练好的图像分类模型下发至终端。
终端,用于根据识别任务,运行服务器200下发的图像分类模型,以识别出目标图像中的目标对象,以及基于识别出的目标对象进行后续任务。
在一些实施例中,以图像分类模型是人脸识别模型为例,终端发送目标图像给服务器200;服务器200对目标图像进行编码、调制、解码及叠加一系列的处理,生成目标图像对应的增广图像,根据目标图像及增广图像训练人脸识别模型,将训练好的人脸识别模型下发至终端;终端的客户端(例如,图片编辑程序)根据用户上传的目标图像,运行服务器200下发的人脸识别模型进行识别任务,以自动识别出该目标图像中的人脸区域,并显示编辑工具以供用户基于该人脸区域进行加特效或换脸等进一步的编辑任务。
结合本申请实施例提供的服务器的示例性应用和实施,根据上文可以理解,本申请实施例提供的基于人工智能的图像增广处理方法可以广泛应用于图像分类场景中,例如,应用于遥感图像识别领域中,对航空遥感和卫星遥感图像进行图像增广,再基于利用增广图像训练后的图像分类模型进行图像识别,提高地形地质探查结果的准确率;在智能家居领域,对摄像机拍摄的图像进行图像增广,再基于利用增广图像训练后的图像分类模型进行图像识别,以提高对图像内容的识别度和准确度;在医疗领域,对扫描图像进行图像增广,再基于利用增广图像训练后的图像分类模型进行图像识别,以更精准更快速地分辨核磁共振成像(MRI,Magnetic Resonance Imaging)、电子计算机扫描断层扫描(C T,Computed Tomography)等扫描图像。除此以外,与图像增广处理相关的场景都属于本申请实施例的潜在应用场景。
在上述领域中,由于图像样本的数量是有限的,通过本申请实施例基于人工智能的图像增广处理方法生成增广图像,以扩充样本数量,再基于扩充后的样本训练图像分类模型,提高图像分类模型的泛化能力;能够准确对目标图像进行识别,具有较好的抗干扰能力。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
下面对本申请实施例提供的基于人工智能的图像增广处理方法的电子设备的硬件结构做详细说明。以电子设备为图1示出的服务器200为例,参见图2,图2是本申请实施例提供的基于人工智能的图像增广处理的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的基于人工智能的图像增广处理装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的图像增广处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:神经网络模型2551、叠加模块2552、第一训练模块2553和第二训练模块2554,其中,神经网络模型2551包括编解码模型,编解码模型包括第一编码器、调制器和解码器,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的基于人工智能的图像增广处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的基于人工智能的图像增广处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的基于人工智能的图像增广处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
可以理解的是,本申请实施例提供的基于人工智能的图像增广处理方法可以由电子设备执行,电子设备包括但不限于服务器或终端。下面将结合本发明实施例提供的基于人工智能的图像增广处理方法实施为服务器的示例性应用,说明本申请实施例提供的基于人工智能的图像增广处理方法。
参见图3和图4A,图3是本申请实施例提供的基于人工智能的图像增广处理装置255的结构示意图,图4A是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图,下面将结合图3对图4A示出的步骤进行说明。
在步骤101中,对目标图像进行编码处理,得到目标图像的图像特征。
在一些实施例中,基于图3,参见图5,图5是本申请实施例提供的编解码模型的结构示意图,图3中的编解码模型如图5所示。其中,编解码模型包括第一编码器、调制器和解码器。
对目标图像进行编码处理是通过编解码模型中的第一编码器实现的。第一编码器用于提取目标图像的图像特征(例如,应用于人脸识别场景中,图像特征即为人脸特征),也就是将目标图像压缩为包括图像特征的特征图。
在一些示例中,第一编码器是通过下采样层(例如,卷积层)来实现的,可以包括多个级联的下采样层,以提取深层的人脸特征。由于在一个目标图像中的不同像素点位置的相同目标,它们的特征是基本相同的,每一个下采样层通过一个卷积核的卷积操作提取目标图像的不同像素点位置的同样特征。通过下采样层压缩图像,生成目标图像的缩略特征图,可以根据反映图像特征区域的像素点位置,对目标图像进行下采样处理,得到包括图像脸特征的特征图。
在步骤102中,基于目标图像的第一标记类型查询特征库,得到第一标记类型所服从的正态分布的第一特征参数。
在一些实施例中,参见图5,特征库中存储有不同标记类型与不同特征参数之间的映射关系;基于目标图像的第一标记类型查询特征库,得到第一标记类型所服从的正态分布的第一特征参数,包括:基于目标图像的第一标记类型查询特征库存储的映射关系,得到与第一标记标签对应的正态分布的第一特征参数。
在一些示例中,第一标记类型所服从的正态分布的特征参数,是第一标记类型的多个图像的图像特征所服从的正态分布的特征参数。举例来说,当目标图像为人脸图像时,第一标记类型为人脸;当目标图像为非人脸图像时,第一标记类型为非人脸;特征库中存储了第一标记类型与特征向量组之间的映射关系;当目标图像对应的第一标记类型为人脸时,查询数据库得到第一标记类型为人脸的特征向量组,当目标图像对应的第一标记类型为非人脸时,查询数据库得到第一标记类型为非人脸的特征向量组。这里,第一标记类型是目标图像的预标记类型。
在步骤103中,基于第一特征参数对图像特征进行噪声调制处理,得到第一对抗噪声特征。
在一些实施例中,参见图5,通过编解码模型的调制器对图像特征进行噪声调制处理,第一标记类型所服从的正态分布的特征参数包括第一均值向量和第一方差向量;其中,第一均值向量用于表征第一标记类型的的图像特征的均值,第一方差向量用于表征第一标记类型的图像特征的抖动程度。
基于第一特征参数对图像特征进行噪声调制处理,得到第一对抗噪声特征,包括:确定第一均值向量与目标图像的图像特征之间的第一差值;将第一差值与第一方差向量之间的第一比值确定第一对抗噪声特征。
举例来说,假设得到的人脸图像的图像特征为f,查询数据库得到人脸图像对应的第一方差向量v和第一均值向量m,基于第一特征参数对图像特征f进行噪声调制处理,得到第一对抗噪声特征,具体计算方式为第一对抗噪声特征其中,噪声调制处理,即在图像特征中融入噪声。
在另一些实施例中,第一标记类型也可以是根据第一分类模型的分类概率分布对应的图像类型。将第一分类模型和编解码模型集成为一个对抗噪声生成模型,输入可以是任意的目标图像,根据第一分类模型得到目标图像的分类类型,将这个分类类型作为目标图像的第一标记类型。根据目标图像和第一标记类型,得到目标图像的增广图像。
在本申请实施例中,通过第一标记类型的多个图像的图像特征所服从的正态分布的特征参数,对第一标记类型对应的目标图像进行调制,能够有针对性的学习到目标图像的图像特征,以在目标图像的图像特征中融入噪声,提升编解码模型训练的精度,而且生成的与图像特征的第一标记类型相关的第一对抗噪声,能够加快编解码模型拟合的速度。
在步骤104中,对第一对抗噪声特征进行解码处理,得到第一对抗噪声图像。
在一些实施例中,基于图3,参见图5,对第一对抗噪声特征进行解码处理是通过编解码模型中的解码器实现的。解码器用于根据第一对抗噪声特征(例如,应用于人脸识别场景中,图像特征即为人脸特征)还原出第一对抗噪声图像,也就是通过在第一对抗噪声特征图中图像插值的方式将第一对抗噪声图像放大至目标图像的尺寸大小,以得到第一对抗噪声图像。
在一些示例中,解码器是通过上采样层来实现的,可以包括多个级联的上采样层,上采样层执行的上采样操作包括内插值处理和反褶积处理。其中,内插值处理指的是在第一对抗噪声特征图的像素的基础上在像素点之间采用合适的插值算法插入新的元素,反褶积处理指的是通过压缩基本子波来提高数据垂向分辨率。
在步骤105中,将目标图像和第一对抗噪声图像进行叠加得到噪声扰动图像,以作为目标图像的增广图像。
在一些实施例中,参见图3,通过叠加模块将目标图像和第一对抗噪声图像进行叠加得到噪声扰动图像。获取目标图像和第一对抗噪声图像的各个图层同一位置的像素点的红色分量的像素值、有效值和透明值;以及,绿色分量的像素值、有效值和透明值;以及,蓝色分量的像素值、有效值和透明值;分别计算各个图层同一位置的红色分量的像素值、有效值和透明值的乘积和,绿色分量的像素值、有效值和透明值的乘积和,以及蓝色分量的像素值、有效值和透明值的乘积和;根据红色分量、蓝色分量以及绿色分量的乘积和输出图层叠加数据,以得到噪声扰动图像。
在另一些实施例中,还可以用亮度-蓝色色差-红色色差YcbCr色彩空间来表示一个像素点的颜色,其中Y表示亮度,Cb表示蓝色色差,Cr表示红色色差;获取目标图像和第一对抗噪声图像的各个图层同一位置的像素点的亮度的像素值、有效值和透明值;以及,绿色色差的像素值、有效值和透明值;以及,蓝色色差的像素值、有效值和透明值;分别计算各个图层同一位置的像素点的亮度的像素值、有效值和透明值的乘积和,绿色色差的像素值、有效值和透明值的乘积和,以及蓝色色差的像素值、有效值和透明值的乘积和;根据亮度的乘积和、蓝色色差的乘积和以及绿色色差的乘积和输出图层叠加数据,以得到噪声扰动图像。
在一些实施例中,参见图4B,图4B是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图,基于图4A,在步骤105之后,还可以执行步骤106和步骤107。
在步骤106中,基于目标图像以及目标图像的噪声扰动图像建立训练集。
在步骤107中,基于训练集训练第二分类模型;其中,训练集中的标注数据是根据第二分类模型的分类任务标注的,且第二分类模型的分类任务区别于第一分类模型。
举例来说,第二分类模型是图1中的图像分类模型,基于训练集训练以提高图像分类模型的识别率和准确率。分类任务可以为识别出目标图像中是否包括人脸图像、目标图像是否为高清图像等。以分类任务为目标图像中是否包括人脸图像为例,当目标图像中包括人脸图像时,对应的标注为1;当目标图像中不包括人脸图像时,对应的标注为0。
在本申请实施例中,通过将目标图像和目标图像的噪声扰动图像加入到训练集中进一步训练第二分类模型,可以提高第二分类模型在训练集和线上数据上的泛化能力。
在一些实施例中,对图像样本进行编码处理是通过编解码模型中的第一编码器实现的,噪声调制处理是通过编解码模型中的调制器实现的,解码处理是通过编解码模型中的解码器实现的;基于图4A,参见图4C,图4C是本申请实施例提供的基于人工智能的图像增广处理方法的一个可选的流程示意图,图4C示出了在步骤101之前还可以迭代执行以下训练操作:步骤108和步骤109,下面将结合各步骤进行说明。
在步骤108中,基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,联合训练编解码器模型、第一分类模型和特征库;
在步骤109中,基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,训练第一分类模型。
在一些实施例中,基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,联合训练编解码器模型、第一分类模型和特征库,包括:通过编解码模型生成图像样本的噪声扰动图像;通过第一分类模型生成图像样本的噪声扰动图像的分类概率分布、以及图像样本的分类概率分布;基于噪声扰动图像的分类概率分布、以及图像样本的分类概率分布之间的差异构建第一损失函数,通过最大化第一损失函数的方式,更新编解码器模型的模型参数、第一分类模型的模型参数和特征库的特征参数。这里,第一分类模型是用于辅助训练编解码模型的。
图像样本的噪声扰动图像的分类概率分布包括图像样本的噪声扰动图像分别属于原始图像类型和噪声图像类型的概率;图像样本的分类概率分布包括图像样本分别属于原始图像类型和噪声图像类型的概率。
通过最大化第一损失函数的方式,更新编解码器模型的模型参数、第一分类模型的模型参数和特征库的特征参数,包括:确定最大化第一损失函数时编解码模型每个层的梯度值、第一分类模型的梯度值和特征库每个类型的特征参数的梯度值;基于编解码模型每个层的梯度值更新编解码模型每个层的模型参数;基于第一分类模型每个层的梯度值更新第一分类模型每个层的模型参数;基于特征库每个类型的特征参数的梯度值更新特征库中第二标记类型所服从的正态分布的特征参数;其中,第二标记类型是图像样本的预标记类型。
在一些实施例中,调制器的模型参数包括调制偏置参数和调制速率参数;对编解码模型的训练还包括:确定最大化第一损失函数时调制器的梯度值,基于调制器的梯度值更新调制偏置参数和调制速率参数。
在一些实施例中,通过编解码模型生成图像样本的噪声扰动图像,包括:通过第一编码器对图像样本进行下采样处理,得到图像样本的图像特征;基于图像样本的第二标记类型查询特征库,得到图像样本的第二标记类型所服从的正态分布的第二特征参数;其中,第二标记类型是图像样本的预标记类型。
通过调制器、并基于第二特征参数对图像样本的图像特征进行噪声调制处理,得到第二对抗噪声特征;
通过解码器对第二对抗噪声特征进行上采样处理,得到图像样本的噪声扰动图像。
在一些示例中,对图像样本进行下采样处理,即为缩小图像样本得到图像样本的局部图像特征的过程,可以根据池化的相关技术来实现,目的就是用来降低特征的维度仅保留局部图像特征,一定程度上避免过拟合。举例来说,下采样包括最大值采样,平均值采样,求和区域采样和随机区域采样等,例如,平均值采样,对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到尺寸的得分辨率图像,对于矩阵形式的图像,就是把原始图像样本s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。
对第二对抗噪声特征进行上采样处理,即为通过图像插值的方式放大第二对抗噪声特征的过程,例如采用内插值方法,即在第二对抗噪声特征特征图的像素的基础上,在像素点之间采用插值算法插入新的像素,以将第二对抗噪声特征图放大至原始图像样本的尺寸大小。
在一些实施例中,基于图3,参见图6,图6是本申请实施例提供的第一分类模型的结构示意图,图3中的第一分类模型如图6所示。第一分类模型包括第二编码器、第三编码器和分类器;通过第一分类模型生成图像样本的噪声扰动图像的分类概率分布、以及图像样本的分类概率分布,包括:通过第二编码器以及第三编码器对图像样本的噪声扰动图像进行特征提取处理,得到图像样本的噪声扰动图像的图像特征,通过分类器将图像样本的噪声扰动图像的图像特征映射为图像样本的噪声扰动图像的分类概率分布;通过第二编码器以及第三编码器对图像样本进行特征提取处理,得到图像样本的图像特征,通过分类器将图像样本的图像特征映射为图像样本的分类概率分布。
举例来说,分类器可以包括全连接层和逻辑回归softmax函数。全连接层将得到的所有特征整合成一个特征向量,采用逻辑回归softmax函数对这个特征向量进行分类,以输出目标图像的分类概率分布。
在一些实施例中,第一编码器和第二编码器的结构相同,且共用相同的模型参数,即,编解码模型中的第一编码器和第一分类模型中的第二编码器采用的是权重共享的方式来更新模型参数的。
在另一些实施例中,编解码模型中的第一编码器和第一分类模型中的第二编码器也可以采用权重独立的方式来更新模型参数。即,基于图像样本的噪声扰动图像的分类概率分布、以及图像样本的分类概率分布之间的差异构建第一损失函数,通过最大化第一损失函数的方式,更新编解码器模型的模型参数和特征库的特征参数;根据第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布之间的差异,构建第二损失函数;通过最小化第二损失函数的方式,更新第一分类模型的模型参数。这里,编解码器模型中的第一编码器的模型参数与第一分类模型中的第二编码器的模型参数相互独立。
在一些实施例中,基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,训练第一分类模型,包括:通过第一分类模型对图像样本的噪声扰动图像和图像样本进行分类处理,得到图像样本的噪声扰动图像属于原始图像类型的概率以及图像样本属于原始图像类型的概率;根据第一分类模型对图像样本属于原始图像类型的概率、以及对图像样本的噪声扰动图像属于原始图像类型的概率之间的差异,构建第二损失函数;通过最小化第二损失函数的方式,更新第一分类模型的模型参数。
在一些示例中,通过最小化第二损失函数的方式,更新第一分类模型的模型参数,包括:确定当第二损失函数取得最小值时,分类器中的全连接层的梯度值、第二编码器和第三编码器中各个层的梯度值;根据分类器的全连接层的梯度值更新分类器的模型参数,并根据第二编码器和第三编码器中各个层的梯度值分别更新第二编码器和第三编码器的模型参数。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。以二分类人脸识别(即,识别一个图像是否为人脸图像)模型为例,开发者通过训练好的编解码模型生成噪声扰动图像,根据生成的噪声扰动图像训练二分类人脸识别模型能够减少二分类人脸识别模型在训练集上的过拟合,提高二分类人脸识别模型对于训练集和线上数据的准确率和召回率,将二分类人脸识别模型功能集成到刷脸应用程序中,用户使用刷脸应用程序时能够高效准确的识别用户的人脸,提升用户体验。参见图7,图7为本申请实施例提供的编解码模型的训练方法的流程示意图,本申请实施例提供的编解码模型的训练方法包括:
步骤201:将原始图像I输入到第二编码器中,得到图像特征f。
步骤202:将图像特征f继续输入到第三编码器中继续抽取特征并分类,得到原始图像I的分类概率分布P(y|original image)。
步骤204:将原始图像I与对抗噪声N叠加得到噪声扰动图像I’=I+N,将I’输入到第二编码器,再经过第三编码器后,得到噪声扰动图像的分类概率分布P(y|noisy image)。
步骤205:最大化I和I’对应的分类概率分布的距离,并以此回传梯度,更新第二编码器、解码器和特征库的参数。以用来训练生成模型以生成与原始图像相关的噪声扰动图像。
步骤206:重新将原始图像I和噪声扰动图像传入第二编码器和第三编码器,并最小化I和I’的分类损失函数,更新第二编码器和第三编码器的参数。以用来训练第一分类模型,使得I和I’的识别结果均为I。
步骤207:训练预设次数后,停止训练。
在一些示例中,参见图8,图8是本申请实施例提供的训练编解码模型的结构示意图,第一分类模型包括第二编码器、第三编码器和分类器。第二编码器的输出是图像特征(图中未示出),从第二编码器到第三编码器是图像的特征不断抽象化、维度不断提升的过程,第二编码器的输出再输入第三编码器中,第三编码器的输出是更深层的图像特征,基于这个图像特征,通过分类器输出对应图像属于人脸图像的概率,即原始人脸图像I的分类概率分布P(y|original image)和噪声扰动图像的分类概率分布P(y|noisy image)。在训练阶段,这个二分类人脸识别模型有两类输入,一类是原始图像,如人脸图像或非人脸图像,另一类是这张原始图像被噪声扰动后的图像,即噪声扰动图像。这两类图像都会被输入到第一分类模型中进行分类。
参见图8,噪声扰动图像主要由一个编解码模型生成,编解码模型包括第一编码器、调制器以及解码器。其第一编码器可以与第一分类模型中的第二编码器共享模型参数,其解码器是独立的。解码器的输出是一张噪声扰动图像。这个第一分类模型的输入是一张原始图像和该原始图像对应的标签,例如这里人脸图像可以用标签1表示,非人脸图像可以用标签0表示。对于特征库,该特征库有若干个特征向量组,具体数量对应于分类器需要区分的类别,例如这里总共是2个。每个特征向量组里面有两个向量,分别代表这个类别的特征在高维空间的第一均值向量m和第一方差向量v。如果该图像对应的标签是0,通过查询取出特征库里面编号为0的特征向量组,如果标签是1,则通过查询特征库取出编号为1的特征向量组。假设第一编码器的输出为图像特征f,使用特征向量组对f进行调制,具体方式为然后将f’输入到解码器中得到与原始图像对应的对抗噪声图像,将原始图像和对抗噪声图像进行叠加得到噪声扰动图像,以作为原始图像的增广图像。
根据增广图像训练二分类人脸识别模型能够减少二分类人脸识别模型在训练集上的过拟合,提高二分类人脸识别模型对于训练集和线上数据的准确率和召回率,将二分类人脸识别模型功能集成到刷脸应用程序中,用户使用刷脸应用程序时能够高效准确的识别用户的人脸,提升用户体验。这里,二分类人脸识别模型即为图3中所示的第二分类模型。
这里,第一分类模型中的第二编码器和生成模型中的第一编码器也可以采用权重独立的方式来构建,即第一编码器、第二编码器使用不同的模型参数;编解码模型也可以直接生成噪声扰动图像I’;这里产生用于特征调制的特征向量也可以使用全连接网络来生成两个向量分别对应第一均值向量m和第一方差向量v。
下面继续说明本申请实施例提供的基于人工智能的图像增广处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器240的基于人工智能的图像增广处理装置255中的软件模块可以包括:
神经网络模块2551,用于对目标图像进行编码处理,得到目标图像的图像特征;基于目标图像的第一标记类型查询特征库,得到第一标记类型所服从的正态分布的第一特征参数;基于第一特征参数对图像特征进行噪声调制处理,得到第一对抗噪声特征;对第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;叠加模块2552,用于将目标图像和第一对抗噪声图像进行叠加得到噪声扰动图像,以作为目标图像的增广图像。
在一些实施例中,特征库中存储有不同标记类型与不同特征参数之间的映射关系;神经网络模块2551,还用于基于目标图像的第一标记类型查询特征库存储的映射关系,得到与第一标记标签对应的正态分布的第一特征参数。
在一些实施例中,第一标记类型所服从的正态分布的特征参数包括第一均值向量和第一方差向量;其中,第一均值向量用于表征第一标记类型的图像特征的均值,第一方差向量用于表征第一标记类型的图像特征的抖动程度;神经网络模块2551,还用于确定第一均值向量与目标图像的图像特征之间的第一差值;将第一差值与第一方差向量之间的第一比值确定第一对抗噪声特征。
在一些实施例中,编码处理是通过编解码模型中的第一编码器实现的,噪声调制处理是通过编解码模型中的调制器实现的,解码处理是通过编解码模型中的解码器实现的;本申请实施例提供的一种基于人工智能的图像增广处理装置,还包括:第一训练模块2553,用于迭代执行以下训练操作:基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,联合训练编解码器模型、第一分类模型和特征库;基于第一分类模型对图像样本的分类概率分布、以及对图像样本的噪声扰动图像的分类概率分布,训练第一分类模型。
在一些实施例中,第一训练模块2553,还用于通过编解码模型生成图像样本的噪声扰动图像;通过第一分类模型生成图像样本的噪声扰动图像的分类概率分布、以及图像样本的分类概率分布;基于噪声扰动图像的分类概率分布、以及图像样本的分类概率分布之间的差异构建第一损失函数,通过最大化第一损失函数的方式,更新编解码器模型的模型参数、第一分类模型的模型参数和特征库的特征参数。
在一些实施例中,图像样本的噪声扰动图像的分类概率分布包括图像样本的噪声扰动图像分别属于原始图像类型和噪声图像类型的概率;图像样本的分类概率分布包括图像样本分别属于原始图像类型和噪声图像类型的概率;第一训练模块2553,还用于确定最大化第一损失函数时编解码模型的梯度值、第一分类模型的梯度值和特征库的梯度值;基于编解码模型的梯度值更新编解码模型的模型参数;基于第一分类模型的梯度值更新第一分类模型的模型参数;基于特征库的梯度值更新特征库中第二标记类型所服从的正态分布的特征参数;其中,第二标记类型是图像样本的预标记类型。
在一些实施例中,调制器的模型参数包括调制偏置参数和调制速率参数;第一训练模块2553,还用于确定最大化第一损失函数时调制器的梯度值,基于调制器的梯度值更新调制偏置参数和调制速率参数。
在一些实施例中,第一训练模块2553,还用于通过第一编码器对图像样本进行下采样处理,得到图像样本的图像特征;基于图像样本的第二标记类型查询特征库,得到图像样本的第二标记类型所服从的正态分布的第二特征参数;其中,第二标记类型是图像样本的预标记类型;通过调制器、并基于第二特征参数对图像样本的图像特征进行噪声调制处理,得到第二对抗噪声特征;通过解码器对第二对抗噪声特征进行上采样处理,得到图像样本的噪声扰动图像。
在一些实施例中,第一分类模型包括第二编码器、第三编码器和分类器;第一训练模块2553,还用于通过第二编码器以及第三编码器对图像样本的噪声扰动图像进行特征提取处理,得到图像样本的噪声扰动图像的图像特征,通过分类器将图像样本的噪声扰动图像的图像特征映射为图像样本的噪声扰动图像的分类概率分布;通过第二编码器以及第三编码器对图像样本进行特征提取处理,得到图像样本的图像特征,通过分类器将图像样本的图像特征映射为图像样本的分类概率分布。
在一些实施例中,第一编码器和第二编码器的结构相同,且共用相同的模型参数。
在一些实施例中,第一训练模块2553,还用于通过第一分类模型对图像样本的噪声扰动图像和图像样本进行分类处理,得到图像样本的噪声扰动图像属于原始图像类型的概率以及图像样本属于原始图像类型的概率;根据第一分类模型对图像样本属于原始图像类型的概率、以及对图像样本的噪声扰动图像属于原始图像类型的概率之间的差异,构建第二损失函数;通过最小化第二损失函数的方式,更新第一分类模型的模型参数。
在一些实施例中,本申请实施例提供的一种基于人工智能的图像增广处理装置,还包括:第二训练模块2554,用于基于目标图像以及目标图像的噪声扰动图像建立训练集;基于训练集训练第二分类模型;其中,训练集中的标注数据是根据第二分类模型的分类任务标注的,且第二分类模型的分类任务区别于第一分类模型。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的图像增广处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的图像增广处理方法,例如,如图4A、4B、4C示出的基于人工智能的图像增广处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够自动生成与标记类型相关的噪声扰动图像,有效提升图像增广的性能和质量;通过将目标图像和目标图像的噪声扰动图像加入到训练集中进一步训练第二分类模型,可以提高第二分类模型在训练集和线上数据上的泛化能力;根据生成的噪声扰动图像训练分类模型能够减少分类模型在训练集上的过拟合,提高分类模型对于训练集和线上数据的准确率和召回率;将分类模型功能集成到应用程序中,用户使用应用程序时能够高效准确的进行分类,提升用户体验。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种基于人工智能的图像增广处理方法,其特征在于,包括:
对目标图像进行编码处理,得到所述目标图像的图像特征;
基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数;
基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征;
对所述第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;
将所述目标图像和所述第一对抗噪声图像进行叠加得到噪声扰动图像,以作为所述目标图像的增广图像。
2.根据权利要求1所述的方法,其特征在于,
所述特征库中存储有不同标记类型与不同特征参数之间的映射关系;
所述基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数,包括:
基于所述目标图像的第一标记类型查询所述特征库中存储的所述映射关系,得到与所述第一标记标签对应的正态分布的第一特征参数。
3.根据权利要求1所述的方法,其特征在于,
所述第一标记类型所服从的正态分布的特征参数包括第一均值向量和第一方差向量;
其中,所述第一均值向量用于表征所述第一标记类型的图像特征的均值,所述第一方差向量用于表征所述第一标记类型的图像特征的抖动程度;
所述基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征,包括:
确定所述第一均值向量与所述目标图像的图像特征之间的第一差值;
将所述第一差值与所述第一方差向量之间的第一比值确定所述第一对抗噪声特征。
4.根据权利要求1所述的方法,其特征在于,
所述编码处理是通过编解码模型中的第一编码器实现的,所述噪声调制处理是通过所述编解码模型中的调制器实现的,所述解码处理是通过所述编解码模型中的解码器实现的;
在对所述目标图像进行编码处理之前,还包括:
迭代执行以下训练操作:
基于第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,联合训练所述编解码器模型、所述第一分类模型和所述特征库;
基于所述第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,训练所述第一分类模型。
5.根据权利要求4所述的方法,其特征在于,所述基于第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,联合训练所述编解码器模型、所述第一分类模型和所述特征库,包括:
通过所述编解码模型生成所述图像样本的噪声扰动图像;
通过所述第一分类模型生成所述图像样本的噪声扰动图像的分类概率分布、以及所述图像样本的分类概率分布;
基于所述噪声扰动图像的分类概率分布、以及所述图像样本的分类概率分布之间的差异构建第一损失函数,通过最大化所述第一损失函数的方式,更新所述编解码器模型的模型参数、所述第一分类模型的模型参数和所述特征库的特征参数。
6.根据权利要求5所述的方法,其特征在于,
所述图像样本的噪声扰动图像的分类概率分布包括所述图像样本的噪声扰动图像分别属于原始图像类型和噪声图像类型的概率;
所述图像样本的分类概率分布包括所述图像样本分别属于原始图像类型和噪声图像类型的概率;
所述通过最大化所述第一损失函数的方式,更新所述编解码器模型的模型参数、所述第一分类模型的模型参数和所述特征库的特征参数,包括:
确定最大化所述第一损失函数时所述编解码模型的梯度值、所述第一分类模型的梯度值和所述特征库的梯度值;
基于所述编解码模型的梯度值更新所述编解码模型的模型参数;
基于所述第一分类模型的梯度值更新所述第一分类模型的模型参数;
基于所述特征库的梯度值更新所述特征库中第二标记类型所服从的正态分布的特征参数;其中,所述第二标记类型是所述图像样本的预标记类型。
7.根据权利要求6所述的方法,其特征在于,
所述调制器的模型参数包括调制偏置参数和调制速率参数;
所述方法还包括:
确定最大化所述第一损失函数时所述调制器的梯度值,基于所述调制器的梯度值更新所述调制偏置参数和所述调制速率参数。
8.根据权利要求5所述的方法,其特征在于,所述通过所述编解码模型生成所述图像样本的噪声扰动图像,包括:
通过所述第一编码器对所述图像样本进行下采样处理,得到所述图像样本的图像特征;
基于所述图像样本的第二标记类型查询所述特征库,得到所述图像样本的第二标记类型所服从的正态分布的第二特征参数;其中,所述第二标记类型是所述图像样本的预标记类型;
通过所述调制器、并基于所述第二特征参数对所述图像样本的图像特征进行噪声调制处理,得到第二对抗噪声特征;
通过所述解码器对所述第二对抗噪声特征进行上采样处理,得到所述图像样本的噪声扰动图像。
9.根据权利要求5所述的方法,其特征在于,
所述第一分类模型包括第二编码器、第三编码器和分类器;
所述通过所述第一分类模型生成所述图像样本的噪声扰动图像的分类概率分布、以及所述图像样本的分类概率分布,包括:
通过所述第二编码器以及所述第三编码器对所述图像样本的噪声扰动图像进行特征提取处理,得到所述图像样本的噪声扰动图像的图像特征,通过所述分类器将所述图像样本的噪声扰动图像的图像特征映射为所述图像样本的噪声扰动图像的分类概率分布;
通过所述第二编码器以及所述第三编码器对所述图像样本进行特征提取处理,得到所述图像样本的图像特征,通过所述分类器将所述图像样本的图像特征映射为所述图像样本的分类概率分布。
10.根据权利要求9所述的方法,其特征在于,
所述第一编码器和所述第二编码器的结构相同,且共用相同的模型参数。
11.根据权利要求4所述的方法,其特征在于,所述基于所述第一分类模型对所述图像样本的分类概率分布、以及对所述图像样本的噪声扰动图像的分类概率分布,训练所述第一分类模型,包括:
通过所述第一分类模型对所述图像样本的噪声扰动图像和所述图像样本进行分类处理,得到所述图像样本的噪声扰动图像属于原始图像类型的概率以及所述图像样本属于原始图像类型的概率;
根据所述第一分类模型对所述图像样本属于原始图像类型的概率、以及对所述图像样本的噪声扰动图像属于原始图像类型的概率之间的差异,构建第二损失函数;
通过最小化所述第二损失函数的方式,更新所述第一分类模型的模型参数。
12.根据权利要求4至11任一项所述的方法,其特征在于,所述方法还包括:
基于目标图像以及目标图像的噪声扰动图像建立训练集;
基于所述训练集训练第二分类模型;
其中,所述训练集中的标注数据是根据所述第二分类模型的分类任务标注的,且所述第二分类模型的分类任务区别于所述第一分类模型。
13.一种基于人工智能的图像增广处理装置,其特征在于,包括:
第一编码器,用于对目标图像进行编码处理,得到所述目标图像的图像特征;
调制器,用于:
基于所述目标图像的第一标记类型查询特征库,得到所述第一标记类型所服从的正态分布的第一特征参数;
基于所述第一特征参数对所述图像特征进行噪声调制处理,得到第一对抗噪声特征;
解码器,用于对所述第一对抗噪声特征进行解码处理,得到第一对抗噪声图像;
叠加模块,用于将所述目标图像和所述第一对抗噪声图像进行叠加得到噪声扰动图像,以作为所述目标图像的增广图像。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的图像增广处理方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于人工智能的图像增广处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074076.0A CN112132106A (zh) | 2020-10-09 | 2020-10-09 | 基于人工智能的图像增广处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074076.0A CN112132106A (zh) | 2020-10-09 | 2020-10-09 | 基于人工智能的图像增广处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132106A true CN112132106A (zh) | 2020-12-25 |
Family
ID=73845004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074076.0A Pending CN112132106A (zh) | 2020-10-09 | 2020-10-09 | 基于人工智能的图像增广处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132106A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990015A (zh) * | 2021-03-16 | 2021-06-18 | 北京智源人工智能研究院 | 一种病变细胞自动识别方法、装置和电子设备 |
CN113486377A (zh) * | 2021-07-22 | 2021-10-08 | 维沃移动通信(杭州)有限公司 | 图像加密方法、装置、电子设备和可读存储介质 |
CN113656813A (zh) * | 2021-07-30 | 2021-11-16 | 深圳清华大学研究院 | 基于对抗攻击的图像处理方法、系统、设备及存储介质 |
CN114078201A (zh) * | 2021-11-23 | 2022-02-22 | 中国人民解放军国防科技大学 | 多目标类别对抗样本生成方法及相关设备 |
CN116704269A (zh) * | 2023-08-04 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
-
2020
- 2020-10-09 CN CN202011074076.0A patent/CN112132106A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990015A (zh) * | 2021-03-16 | 2021-06-18 | 北京智源人工智能研究院 | 一种病变细胞自动识别方法、装置和电子设备 |
CN112990015B (zh) * | 2021-03-16 | 2024-03-19 | 北京智源人工智能研究院 | 一种病变细胞自动识别方法、装置和电子设备 |
CN113486377A (zh) * | 2021-07-22 | 2021-10-08 | 维沃移动通信(杭州)有限公司 | 图像加密方法、装置、电子设备和可读存储介质 |
CN113656813A (zh) * | 2021-07-30 | 2021-11-16 | 深圳清华大学研究院 | 基于对抗攻击的图像处理方法、系统、设备及存储介质 |
CN113656813B (zh) * | 2021-07-30 | 2023-05-23 | 深圳清华大学研究院 | 基于对抗攻击的图像处理方法、系统、设备及存储介质 |
CN114078201A (zh) * | 2021-11-23 | 2022-02-22 | 中国人民解放军国防科技大学 | 多目标类别对抗样本生成方法及相关设备 |
CN116704269A (zh) * | 2023-08-04 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN116704269B (zh) * | 2023-08-04 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network | |
CN112132106A (zh) | 基于人工智能的图像增广处理方法、装置、设备及存储介质 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN111369582A (zh) | 图像分割方法、背景替换方法、装置、设备及存储介质 | |
CN115511969B (zh) | 图像处理与数据渲染方法、设备及介质 | |
Xiao et al. | Single image dehazing based on learning of haze layers | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
Swerdlow et al. | Street-View Image Generation From a Bird's-Eye View Layout | |
CN114332573A (zh) | 基于注意力机制的多模态信息融合识别方法及系统 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN113570678A (zh) | 基于人工智能的图像上色方法、装置、电子设备 | |
CN114973349A (zh) | 面部图像处理方法和面部图像处理模型的训练方法 | |
US20230115887A1 (en) | Digital twin sub-millimeter alignment using multimodal 3d deep learning fusion system and method | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Liang et al. | Depth map guided triplet network for deepfake face detection | |
CN115147261A (zh) | 图像处理方法、装置、存储介质、设备及产品 | |
CN117058554A (zh) | 电力设备目标检测方法、模型训练方法和装置 | |
CN112016592A (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
Vijayalakshmi K et al. | Copy-paste forgery detection using deep learning with error level analysis | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
US20230135978A1 (en) | Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder | |
CN110489584B (zh) | 基于密集连接的MobileNets模型的图像分类方法及系统 | |
Kumar et al. | Steganography-based facial re-enactment using generative adversarial networks | |
Kong et al. | DualPathGAN: Facial reenacted emotion synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40036305 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |