CN111353514A - 模型训练方法、图像识别方法、装置及终端设备 - Google Patents
模型训练方法、图像识别方法、装置及终端设备 Download PDFInfo
- Publication number
- CN111353514A CN111353514A CN201811564807.2A CN201811564807A CN111353514A CN 111353514 A CN111353514 A CN 111353514A CN 201811564807 A CN201811564807 A CN 201811564807A CN 111353514 A CN111353514 A CN 111353514A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- training
- incomplete
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本发明提供一种模型训练方法、图像识别方法、装置及终端设备,该图像识别方法包括:获取待识别的非完整图像;将非完整图像输入到图像恢复模型中,输出非完整图像对应的完整图像;所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;将完整图像输入到预先训练的图像识别模型中,输出表示非完整图像的图像对象信息的识别结果。本发明的实施例,可以保证图像恢复效果,且将复杂的识别非完整图像的任务,转换为常规的完整图像识别任务,从而大大提高识别的鲁棒性和精确度,降低识别复杂度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种模型训练方法、图像识别方法、装置及终端设备。
背景技术
人脸识别作为最广泛被社会认可的技术之一,几乎在每个领域都能见到它的身影。公安机关的公民身份审核、金融领域的用户征信、保险行业用户信息等一系列的应用中,人脸识别技术都是一个必不可少的参与者。随着技术的不断发展,人脸识别技术的识别精度也在不断的刷新纪录,到目前为止已经无限趋近于百分之百的识别准确率。但上述情况有一个前提条件,提供的待识别人脸图像均为无遮挡、无缺失的,一旦出现遮挡或缺失,目前的人脸识别技术很难达到预期的效果,因此需对有遮挡或缺失的人脸图像进行恢复。
对于有遮挡或缺失的人脸图像,目前常用的图像恢复方法为:基于传统机器学习的方法来实现,即人工构造相应的人脸特征,并利用传统的机器学习方法,如稀疏表达和字典学习等,来重建人脸被遮挡的区域。然而,此类图像恢复方法中训练的模型比较简单,难以学习到复杂特征数据之间的变换关系,使得图像恢复效果差,造成利用此模型对非完整图像进行识别时的识别准确率低。
发明内容
本发明实施例提供一种模型训练方法、图像识别方法、装置及终端设备,以解决现有图像识别方法对非完整图像进行识别时,因利用的图像恢复模型简单,无法有效恢复图像,造成识别准确率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种模型训练方法,包括:
将获取的随机噪声输入到预先搭建的对抗网络模型的生成器中,获得第一生成样本;
将所述第一生成样本和第一标签样本输入到所述对抗网络模型的判别器中,对所述第一标签样本和所述第一生成样本进行分类判断;其中,所述第一标签样本为具有预设图像特征分布的完整图像;
确定所述对抗网络模型的损失值,以基于所述损失值更新所述对抗网络模型的参数数值;其中,在所述对抗网络模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述对抗网络模型的损失值达到预设阈值,得到初始训练模型;
将获取的图像训练样本输入到所述初始训练模型的生成器中,获得第二生成样本;其中,所述图像训练样本为非完整图像;
将所述第二生成样本和第二标签样本输入到所述初始训练模型的判别器中,对所述第二标签样本和所述第二生成样本进行分类判断;其中,所述第二标签样本包括所述图像训练样本和所述图像训练样本的二值图;
确定所述初始训练模型的损失,以基于所述损失值更新所述初始训练模型的参数数值;其中,在所述初始训练模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述初始训练模型的损失值达到预设阈值,得到图像恢复模型。
第二方面,本发明实施例提供了一种图像识别方法,包括:
获取待识别的非完整图像;
将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像;其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;
将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
第三方面,本发明实施例提供了一种图像识别装置,包括:
获取模块,用于获取待识别的非完整图像;
恢复模块,用于将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像;其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;
识别模块,用于将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
第四方面,本发明实施例提供了一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述模型训练方法的步骤,或者上述图像识别方法的步骤。
第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述模型训练方法的步骤,或者上述图像识别方法的步骤。
本发明实施例中,基于分阶段递进的训练过程训练得到图像恢复模型,即第一阶段利用随机噪声训练得到初始训练模型,第二阶段利用非完整图像和对应的二值图训练得到图像恢复模型,该二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数,可以使得该图像恢复模型不仅能够恢复非完整图像,还能够在保证图像恢复效果的前提下,即使非完整图像的非完整程度较高,也能够完成恢复任务。
进一步的,通过上述图像恢复模型对待识别的非完整图像进行恢复,得到对应的完整图像,并通过预先训练的图像识别模型对该完整图像进行识别,可以保证图像恢复效果,且将复杂的识别非完整图像的任务,转换为常规的完整图像识别任务,从而大大提高识别的鲁棒性和精确度,降低识别复杂度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的模型训练方法的流程图;
图2为本发明具体实例的人脸恢复模型的训练过程的示意图;
图3为本发明实施例的图像识别方法的流程图;
图4为本发明实施例的模型训练装置的结构示意图;
图5为本发明实施例的图像识别装置的结构示意图;
图6为本发明实施例的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种模型训练方法的流程图,该方法应用于终端设备,如图1所示,该方法包括以下步骤:
步骤101:将获取的随机噪声输入到预先搭建的对抗网络模型的生成器中,获得第一生成样本。
其中,该随机噪声可选为满足正态分布[-1,1]。在训练时,可以选择预设数量的随机噪声同时进行训练。
步骤102:将所述第一生成样本和第一标签样本输入到所述对抗网络模型的判别器中,对所述第一标签样本和所述第一生成样本进行分类判断。
其中,所述第一标签样本为具有预设图像特征分布的完整图像。比如若训练用于恢复人脸图像的模型,该预设图像特征分布为人脸特征分布。可以理解,此步骤中对第一标签样本和第一生成样本进行分类判断,实质上是利用判别器对第一标签样本和第一生成样本分别进行真和假的判断,以得到该第一生成样本为真实图像的概率。在得到该概率值后,可基于交叉熵函数分别确定第一标签样本和第一生成样本的损失值,此两个损失值的和即为判别器端的总损失,模型在降低该总损失的过程中达到区别真假的目标。
步骤103:确定所述对抗网络模型的损失值,以基于所述损失值更新所述对抗网络模型的参数数值,其中,在所述对抗网络模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述对抗网络模型的损失值达到预设阈值,得到初始训练模型。
可以理解,此步骤中得到的初始训练模型能够将随机噪声恢复得到具有预设图像特征分布的完整图像。对于对抗网络模型的损失值,分为两部分,分别为生成器端的损失值和判别器端的损失值,其中生成器端的损失值用于迭代优化生成器的参数,判别器端的损失值用于迭代优化判别器的参数;每一轮迭代指生成器和判别器交替迭代一次;当生成器端的损失值和判别器的损失值之和达到预设阈值时,训练完成。
步骤104:将获取的图像训练样本输入到所述初始训练模型的生成器中,获得第二生成样本。
其中,所述图像训练样本为非完整图像。该非完整图像可以是部分图像区域被遮挡,也可以是部分图像区域缺失等。上述非完整图像可选为面部遮挡和/或缺失的人脸图像,或者符号遮挡和/或缺失的文本图像等。
步骤105:将所述第二生成样本和第二标签样本输入到所述初始训练模型的判别器中,对所述第二标签样本和所述第二生成样本进行分类判断。
其中,所述第二标签样本包括所述图像训练样本(即非完整图像)和所述图像训练样本的二值图。对于该二值图,可选为当非完整图像的像素i属于完整图像区域时,对应二值图中的像素i为1,而当非完整图像的像素i属于非完整图像区域时,对应二值图中的像素i为0。
可以理解,此步骤中对第二标签样本和第二生成样本进行分类判断,实质上是利用判别器对第二标签样本和第二生成样本分别进行真和假的判断,以得到该第二生成样本为真实图像的概率。在得到该概率值后,可基于交叉熵函数分别确定第二标签样本和第二生成样本的损失值,此两个损失值的和即为判别器端的总损失,模型在降低该总损失的过程中达到区别真假的目标。
步骤106:确定所述初始训练模型的损失值,以基于所述损失值更新所述初始训练模型的参数数值;其中,在所述初始训练模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述初始训练模型的损失值达到预设阈值,得到图像恢复模型。
其中,对于初始训练模型的损失值,分为两部分,分别为生成器端的损失值和判别器端的损失值,其中生成器端的损失值用于迭代优化生成器的参数,判别器端的损失值用于迭代优化判别器的参数;每一轮迭代指生成器和判别器交替迭代一次;当生成器端的损失值和判别器的损失值之和达到预设阈值时,训练完成。
可以理解,为了能够在待恢复图像的非完整程度较高的情况下也可以完成恢复任务,该图像恢复模型是利用两个阶段的训练过程得到,其中第一阶段完成模型初始化,第二阶段对初始化后的模型进行优化。上述两个训练阶段采用的网络架构是一致的,但是对应的输入、标签及损失函数是不同的。上述图像恢复模型可选为人脸图像恢复模型,即人脸恢复模型。
本发明实施例的模型训练方法,基于分阶段递进的训练过程训练得到图像恢复模型,即第一阶段利用随机噪声训练得到初始训练模型,第二阶段利用非完整图像和对应的二值图训练得到图像恢复模型,该二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数,可以使得该图像恢复模型不仅能够恢复非完整图像,还能够在保证图像恢复效果的前提下,即使非完整图像的非完整程度较高,也能够完成恢复任务。
本发明实施例中,可选的,所述生成器的结构包括多个卷积层,每个卷积层中包括对应的响应函数和池化层,每个卷积层通过卷积核对相应输入图像进行处理,增强输出图像的特征;所述判别器的结构为所述生成器的结构的逆运算结构。
比如具体实现时,该生成器的结构可包括4个卷积层,初始化训练时,可首先利用输入为100维的随机噪声进行投影及变形,随即经过4个卷积层即CONV1~CONV4输出一个生成图像(比如大小为64*64*3),然后通过判别器对该生成图像进行降维,同时将相应特征拉平变成一维输入到归一化指数函数softmax,最终输出一个分布在[0,1]的值,以进行初始模型的训练。
可以理解的,上述生成器和判别器的结构可以根据实际需求进行合理设置,比如包括的卷积层的个数以及卷积层结构都可以根据实际需求进行合理设置。
可选的,用于所述初始训练模型训练的损失函数为:
V=EPdata(x)logD(x)+EPg(x)log(1-D(x)) 公式一
其中,V表示损失函数值,EPdata(x)表示判别器端的损失值,EPg(x)表示生成器端的损失值,x表示生成器或判别器的输入,D(x)表示判别器的输出结果。
需说明的是,当x表示判别器的输入时,x具体指生成器生成的结果及训练所需的标签图像;而当x表示生成器的输入时,x具体指每一轮迭代过程中的中间输出结果,初始化时默认为符合正态分布[-1,1]的随机噪声。当损失函数值V满足预设条件(比如小于预设阈值)时,可确定初始训练模型的训练饱和,并保存训练得到的初始训练模型,以进一步进行第二阶段的训练。
可选的,用于所述图像恢复模型训练的损失函数为:
其中,Loss表示损失函数值,Lp(z)表示判别器端的先验损失值,Lc表示生成器端的图像内容损失值,z表示输入生成器的图像训练样本,G(z)表示生成器的输出结果,y表示输入判别器的图像训练样本,M表示输入判别器的图像训练样本的二值图,其中像素i属于完整图像区域时,Mi等于1,而像素i属于非完整图像区域时,Mi等于0,λ表示预设权重参数(用以平衡损失值Lp(z)和Lc),N(i)表示以像素i为中心的预设局部区域中除像素i之外所有像素点的个数,⊙表示针对每个像素单独点乘,||||1表示差的绝对值,Wi表示像素i的预设权重。
比如具体实现时,N(i)可选为以像素i为中心的7*7大小的局部区域中除像素i之外所有像素点的个数。当损失函数值Loss满足预设条件(比如小于预设阈值)时,可确定图像恢复模型的训练饱和,否则训练不饱和,需继续训练直至饱和。
下面以人脸恢复为例,结合图2对本发明具体实例中的人脸恢复模型(即图像恢复模型)的训练过程进行说明。
本发明具体实例中,如图2所示,人脸恢复模型的训练过程可分为两个阶段,分别为第一阶段和第二阶段。在第一阶段训练过程中,主要训练一个能够将随机噪声恢复为具有人脸特征分布的图像的初始训练模型,以完成模型参数的初始化,而采用的损失函数可如上述公式一所示,对应的训练流程为:随机噪声->生成器G->生成的假人脸->判别器D。在此判别器D中,可对标签1即具有人脸特征分布的完整人脸图像和生成器G生成的假人脸进行判别,以区分生成的人脸是真还是假。在训练过程中,生成器G端的损失值用于迭代优化生成器G的参数,判别器D端的损失值用于迭代优化判别器D的参数;每一轮迭代指生成器G和判别器D交替迭代一次;当生成器G端的损失值和判别器D端的损失值之和满足预设条件时,确定模型训练饱和,可保存训练得到的初始训练模型,以进行第二阶段的训练过程,否则继续训练。
在第二阶段训练过程中,主要基于图像训练样本(即遮挡和/或缺失人脸图像),对第一阶段训练得到的初始训练模型中的参数进行优化,采用的损失函数可如上述公式二所示,对应的训练流程为:图像样本->生成器G->生成的假人脸->判别器D。在此判别器D中,可对标签2即图像训练样本及对应的二值图和生成器G生成的假人脸进行判别,以区分生成的人脸是真还是假。在训练过程中,生成器G端的损失值用于迭代优化生成器G的参数,判别器D端的损失值用于迭代优化判别器D的参数;每一轮迭代指生成器G和判别器D交替迭代一次;当生成器G端的损失值和判别器D端的损失值之和满足预设条件时,确定模型训练饱和,可保存训练得到的人脸恢复模型,否则继续训练。
本发明实施例中,在获得图像恢复模型之后,可利用该图像恢复模型进行不同的图像处理,比如图像识别、图像特征提取等等。
请参见图3,图3是本发明实施例提供的一种图像识别方法的流程图,该方法应用于终端设备,如图3所示,该方法包括以下步骤:
步骤301:获取待识别的非完整图像。
本发明实施例中,所述待识别的非完整图像可以是部分图像区域被遮挡,也可以是部分图像区域缺失等。所述待识别的非完整图像可选为面部遮挡和/或缺失的人脸图像,或者符号遮挡和/或缺失的文本图像等。
步骤302:将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像。
其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数。
步骤303:将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
其中,上述图像识别模型可以是基于深度学习网络训练得到的,且在训练时,可以与图像恢复模型的训练过程同时进行。可选的,在训练图像识别模型时,可以首先利用残差网络模型(比如包括50个卷积层),对图像样本集中的图像样本进行特征提取,然后对提取到的特征进行类别回归,计算对应类别的交叉熵损失值,并不断优化迭代,以降低该交叉熵损失值直至图像识别模型饱和,并保存饱和后的图像识别模型。
例如,应用本发明实施例可对遮挡或缺失的人脸图像进行识别,通过预先训练的人脸恢复模型对遮挡或缺失的人脸图像进行恢复,输出一个完整人脸图像,可将复杂的对遮挡或缺失人脸图像的识别任务,回归到典型的完整人脸识别任务,从而提高识别的鲁棒性和精确度。
本发明实施例中,可选的,用于所述图像恢复模型训练的损失函数可包括图像内容损失值,所述图像内容损失值基于所述二值图进行调整;当训练样本中的非完整图像的像素i属于完整图像区域时,对应二值图中的像素i为1,而当训练样本中的非完整图像的像素i属于非完整图像区域时,对应二值图中的像素i为0。可选的,该图像内容损失值可根据上述公式二得到。
进一步可选的,所述图像恢复模型是采用上述图1实施例所示的模型训练方法训练得到,为避免重复,这里不再赘述。
本发明实施例的图像识别方法,通过预先训练的图像恢复模型对待识别的非完整图像进行恢复,得到对应的完整图像,并通过预先训练的图像识别模型对该完整图像进行识别,可以将复杂的识别非完整图像的任务,转换为常规的完整图像识别任务,从而大大提高识别的鲁棒性和精确度,降低识别复杂度。
上述实施例对本发明的模型训练方法和图像识别方法进行了说明,下面将结合实施例和附图对本发明的相应装置进行说明。
请参见图4,图4是本发明实施例提供的一种模型训练装置的结构示意图,该装置应用于终端设备,如图4所示,该装置包括:
第一生成模块41,用于将获取的随机噪声输入到预先搭建的对抗网络模型的生成器中,获得第一生成样本;
第一判断模块42,用于将所述第一生成样本和第一标签样本输入到所述对抗网络模型的判别器中,对所述第一标签样本和所述第一生成样本进行分类判断;其中,所述第一标签样本为具有预设图像特征分布的完整图像;
第一确定模块43,用于确定所述对抗网络模型的损失值,以基于所述损失值更新所述对抗网络模型的参数数值;其中,在所述对抗网络模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述对抗网络模型的损失值达到预设阈值,得到初始训练模型;
第二生成模块44,用于将获取的图像训练样本输入到所述初始训练模型的生成器中,获得第二生成样本;其中,所述图像训练样本为非完整图像;
第二判断模块45,用于将所述第二生成样本和第二标签样本输入到所述初始训练模型的判别器中,对所述第二标签样本和所述第二生成样本进行分类判断;其中,所述第二标签样本包括所述图像训练样本和所述图像训练样本的二值图;
第二确定模块46,用于确定所述初始训练模型的损失值,以基于所述损失值更新所述初始训练模型的参数数值;其中,在所述初始训练模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述初始训练模型的损失值达到预设阈值,得到图像恢复模型。
可选的,用于所述初始训练模型训练的损失函数为:
V=EPdata(x)logD(x)+EPg(x)log(1-D(x))
其中,V表示损失函数值,EPdata(x)表示判别器端的损失值,EPg(x)表示生成器端的损失值,x表示生成器或判别器的输入,D(x)表示判别器的输出结果。
可选的,用于所述图像恢复模型训练的损失函数为:
Loss=Lp(z)+Lc(z|y,M)
Lp(z)=λlog(1-D(G(z)))
Lc(z|y,M)=||W⊙(G(z)-y)||1
其中,Loss表示损失函数值,Lp(z)表示判别器端的先验损失值,Lc表示生成器端的图像内容损失值,z表示输入生成器的图像训练样本,G(z)表示生成器的输出结果,y表示输入判别器的图像训练样本,M表示输入判别器的图像训练样本的二值图,其中像素i属于完整图像区域时,Mi等于1,而像素i属于非完整图像区域时,Mi等于0,λ表示预设权重参数,N(i)表示以像素i为中心的预设局部区域中除像素i之外所有像素点的个数,⊙表示针对每个像素单独点乘,||||1表示差的绝对值,Wi表示像素i的预设权重。
可选的,所述生成器的结构包括多个卷积层,每个卷积层中包括对应的响应函数和池化层,每个卷积层通过卷积核对相应输入图像进行处理,增强输出图像的特征;所述判别器的结构为所述生成器的结构的逆运算结构。
可选的,所述随机噪声满足正态分布。
本发明实施例的模型训练装置,基于分阶段递进的训练过程训练得到图像恢复模型,即第一阶段利用随机噪声训练得到初始训练模型,第二阶段利用非完整图像和对应的二值图训练得到图像恢复模型,该二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数,可以使得该图像恢复模型不仅能够恢复非完整图像,还能够在保证图像恢复效果的前提下,即使非完整图像的非完整程度较高,也能够完成恢复任务。
请参见图5,图5是本发明实施例提供的一种图像识别装置的结构示意图,该装置应用于终端设备,如图5所示,该装置包括:
获取模块51,用于获取待识别的非完整图像;
恢复模块52,用于将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像;其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;
识别模块53,用于将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
可选的,用于所述图像恢复模型训练的损失函数包括图像内容损失值,所述图像内容损失值基于所述二值图进行调整;当训练样本中的非完整图像的像素i属于完整图像区域时,对应二值图中的像素i为1,而当训练样本中的非完整图像的像素i属于非完整图像区域时,对应二值图中的像素i为0。
可选的,所述图像恢复模型是采用上述图1实施例中所述的模型训练方法训练得到,为避免重复,再次不再赘述。
本发明实施例的图像识别装置,通过预先训练的图像恢复模型对待识别的非完整图像进行恢复,得到对应的完整图像,并通过预先训练的图像识别模型对该完整图像进行识别,可以将复杂的识别非完整图像的任务,转换为常规的完整图像识别任务,从而大大提高识别的鲁棒性和精确度,降低识别复杂度。
此外,本发明实施例还提供了一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述模型训练方法实施例的各个过程,或者上述图像识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图6所示,本发明实施例还提供了一种终端设备,包括总线61、收发机62、天线63、总线接口64、处理器65和存储器66。
在本发明实施例中,所述终端设备还包括:存储在存储器66上并可在处理器65上运行的计算机程序。其中,所述计算机程序被处理器65执行时可实现可实现上述模型训练方法实施例的各个过程,或者上述图像识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
在图6中,总线架构(用总线61来代表),总线61可以包括任意数量的互联的总线和桥,总线61将包括由处理器65代表的一个或多个处理器和存储器66代表的存储器的各种电路链接在一起。总线61还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口64在总线61和收发机62之间提供接口。收发机62可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器65处理的数据通过天线63在无线介质上进行传输,进一步,天线63还接收数据并将数据传送给处理器65。
处理器65负责管理总线61和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器66可以被用于存储处理器65在执行操作时所使用的数据。
可选的,处理器65可以是CPU、ASIC、FPGA或CPLD。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述模型训练方法实施例的各个过程,或者上述图像识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种模型训练方法,其特征在于,包括:
将获取的随机噪声输入到预先搭建的对抗网络模型的生成器中,获得第一生成样本;
将所述第一生成样本和第一标签样本输入到所述对抗网络模型的判别器中,对所述第一标签样本和所述第一生成样本进行分类判断;其中,所述第一标签样本为具有预设图像特征分布的完整图像;
确定所述对抗网络模型的损失值,以基于所述损失值更新所述对抗网络模型的参数数值;其中,在所述对抗网络模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述对抗网络模型的损失值达到预设阈值,得到初始训练模型;
将获取的图像训练样本输入到所述初始训练模型的生成器中,获得第二生成样本;其中,所述图像训练样本为非完整图像;
将所述第二生成样本和第二标签样本输入到所述初始训练模型的判别器中,对所述第二标签样本和所述第二生成样本进行分类判断;其中,所述第二标签样本包括所述图像训练样本和所述图像训练样本的二值图;
确定所述初始训练模型的损失值,以基于所述损失值更新所述初始训练模型的参数数值;其中,在所述初始训练模型的损失值未达到预设阈值时,进入下一轮迭代训练过程,直到所述初始训练模型的损失值达到预设阈值,得到图像恢复模型。
2.根据权利要求1所述的方法,其特征在于,用于所述初始训练模型训练的损失函数为:
V=EPdata(x)logD(x)+EPg(x)log(1-D(x))
其中,V表示损失函数值,EPdata(x)表示判别器端的损失值,EPg(x)表示生成器端的损失值,x表示生成器或判别器的输入,D(x)表示判别器的输出结果。
3.根据权利要求1所述的方法,其特征在于,用于所述图像恢复模型训练的损失函数为:
Loss=Lp(z)+Lc(z|y,M)
Lp(z)=λlog(1-D(G(z)))
Lc(z|y,M)=||W⊙(G(z)-y)||1
其中,Loss表示损失函数值,Lp(z)表示判别器端的先验损失值,Lc表示生成器端的图像内容损失值,z表示输入生成器的图像训练样本,G(z)表示生成器的输出结果,y表示输入判别器的图像训练样本,M表示输入判别器的图像训练样本的二值图,其中像素i属于完整图像区域时,Mi等于1,而像素i属于非完整图像区域时,Mi等于0,λ表示预设权重参数,N(i)表示以像素i为中心的预设局部区域中除像素i之外所有像素点的个数,⊙表示针对每个像素单独点乘,||||1表示差的绝对值,Wi表示像素i的预设权重。
4.根据权利要求1所述的方法,其特征在于,所述生成器的结构包括多个卷积层,每个卷积层中包括对应的响应函数和池化层,每个卷积层通过卷积核对相应输入图像进行处理,增强输出图像的特征;所述判别器的结构为所述生成器的结构的逆运算结构。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述随机噪声满足正态分布。
6.一种图像识别方法,其特征在于,包括:
获取待识别的非完整图像;
将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像;其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;
将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
7.根据权利要求6所述的方法,其特征在于,用于所述图像恢复模型训练的损失函数包括图像内容损失值,所述图像内容损失值基于所述二值图进行调整;当训练样本中的非完整图像的像素i属于完整图像区域时,对应二值图中的像素i为1,而当训练样本中的非完整图像的像素i属于非完整图像区域时,对应二值图中的像素i为0。
8.根据权利要求6所述的方法,其特征在于,所述图像恢复模型是采用权利要求1至5中任一项所述的模型训练方法训练得到。
9.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别的非完整图像;
恢复模块,用于将所述非完整图像输入到图像恢复模型中,输出所述非完整图像对应的完整图像;其中,所述图像恢复模型是基于分阶段递进的训练过程预先训练得到,训练过程中的训练样本包括非完整图像以及所述非完整图像的二值图,所述二值图用于调整训练过程中模型的与生成图像特征表达相关的模型参数;
识别模块,用于将所述完整图像输入到预先训练的图像识别模型中,输出表示所述非完整图像的图像对象信息的识别结果。
10.根据权利要求9所述的装置,其特征在于,所述图像恢复模型是采用权利要求1至5中任一项所述的模型训练方法训练得到。
11.一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的模型训练方法的步骤,或者实现如权利要求6至8中任一项所述的图像识别方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的模型训练的步骤,或者实现如权利要求6至8中任一项所述的图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564807.2A CN111353514A (zh) | 2018-12-20 | 2018-12-20 | 模型训练方法、图像识别方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564807.2A CN111353514A (zh) | 2018-12-20 | 2018-12-20 | 模型训练方法、图像识别方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353514A true CN111353514A (zh) | 2020-06-30 |
Family
ID=71193613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811564807.2A Pending CN111353514A (zh) | 2018-12-20 | 2018-12-20 | 模型训练方法、图像识别方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353514A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915626A (zh) * | 2020-08-14 | 2020-11-10 | 大连东软教育科技集团有限公司 | 心脏超声图像的心室区域自动分割方法、装置及存储介质 |
CN112766208A (zh) * | 2021-01-28 | 2021-05-07 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113298152A (zh) * | 2021-05-26 | 2021-08-24 | 深圳市优必选科技股份有限公司 | 模型训练方法、装置、终端设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945118A (zh) * | 2017-10-30 | 2018-04-20 | 南京邮电大学 | 一种基于生成式对抗网络的人脸图像修复方法 |
CN108269245A (zh) * | 2018-01-26 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于新型生成对抗网络的眼部图像修复方法 |
CN108921220A (zh) * | 2018-06-29 | 2018-11-30 | 国信优易数据有限公司 | 图像复原模型训练方法、装置及图像复原方法和装置 |
CN108986041A (zh) * | 2018-06-13 | 2018-12-11 | 浙江大华技术股份有限公司 | 一种图像恢复方法、装置、电子设备及可读存储介质 |
-
2018
- 2018-12-20 CN CN201811564807.2A patent/CN111353514A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945118A (zh) * | 2017-10-30 | 2018-04-20 | 南京邮电大学 | 一种基于生成式对抗网络的人脸图像修复方法 |
CN108269245A (zh) * | 2018-01-26 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于新型生成对抗网络的眼部图像修复方法 |
CN108986041A (zh) * | 2018-06-13 | 2018-12-11 | 浙江大华技术股份有限公司 | 一种图像恢复方法、装置、电子设备及可读存储介质 |
CN108921220A (zh) * | 2018-06-29 | 2018-11-30 | 国信优易数据有限公司 | 图像复原模型训练方法、装置及图像复原方法和装置 |
Non-Patent Citations (2)
Title |
---|
RAYMOND A. YEH等: "Semantic Image Inpainting with Deep Generative Models", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
孙全等: "基于生成对抗网络的图像修复", 《计算机科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915626A (zh) * | 2020-08-14 | 2020-11-10 | 大连东软教育科技集团有限公司 | 心脏超声图像的心室区域自动分割方法、装置及存储介质 |
CN111915626B (zh) * | 2020-08-14 | 2024-02-02 | 东软教育科技集团有限公司 | 心脏超声图像的心室区域自动分割方法、装置及存储介质 |
CN112766208A (zh) * | 2021-01-28 | 2021-05-07 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113298152A (zh) * | 2021-05-26 | 2021-08-24 | 深圳市优必选科技股份有限公司 | 模型训练方法、装置、终端设备及计算机可读存储介质 |
CN113298152B (zh) * | 2021-05-26 | 2023-12-19 | 深圳市优必选科技股份有限公司 | 模型训练方法、装置、终端设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107835496B (zh) | 一种垃圾短信的识别方法、装置和服务器 | |
WO2018166116A1 (zh) | 车损识别方法、电子装置及计算机可读存储介质 | |
CN107111782B (zh) | 神经网络结构及其方法 | |
WO2020003533A1 (en) | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN113781164B (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN110909784A (zh) | 一种图像识别模型的训练方法、装置及电子设备 | |
CN116343301B (zh) | 基于人脸识别的人员信息智能校验系统 | |
CN110705622A (zh) | 一种决策方法、系统以及电子设备 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
US20240013516A1 (en) | Method and system for deep learning based image feature extraction | |
CN112257689A (zh) | 人脸识别模型的训练和识别方法、存储介质及相关设备 | |
Krupiński et al. | Binarization of degraded document images with generalized Gaussian distribution | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN113221922B (zh) | 图像处理方法及相关装置 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN112597925B (zh) | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 | |
CN111695470B (zh) | 一种基于深度特征正交分解的可见光-近红外行人再识别方法 | |
CN114186039A (zh) | 一种视觉问答方法、装置及电子设备 | |
CN116664604B (zh) | 图像的处理方法及装置、存储介质及电子设备 | |
CN116912920B (zh) | 表情识别方法及装置 | |
CN116258906A (zh) | 一种对象识别方法、特征提取模型的训练方法及装置 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
Kumari et al. | Laplacian Nonlinear Logistic Stepwise and Gravitational Deep Neural Classification for Facial Expression Recognition | |
CN116704566A (zh) | 人脸识别、用于人脸识别的模型训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |
|
RJ01 | Rejection of invention patent application after publication |