CN108108807A - 学习型图像处理方法、系统及服务器 - Google Patents

学习型图像处理方法、系统及服务器 Download PDF

Info

Publication number
CN108108807A
CN108108807A CN201711487469.2A CN201711487469A CN108108807A CN 108108807 A CN108108807 A CN 108108807A CN 201711487469 A CN201711487469 A CN 201711487469A CN 108108807 A CN108108807 A CN 108108807A
Authority
CN
China
Prior art keywords
msub
mrow
loss function
mfrac
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711487469.2A
Other languages
English (en)
Other versions
CN108108807B (zh
Inventor
杨帆
张志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201711487469.2A priority Critical patent/CN108108807B/zh
Publication of CN108108807A publication Critical patent/CN108108807A/zh
Application granted granted Critical
Publication of CN108108807B publication Critical patent/CN108108807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例公开了一种学习型图像处理方法、系统及服务器,包括下述步骤:采集待测目标图像;将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性。

Description

学习型图像处理方法、系统及服务器
技术领域
本发明实施例涉及图像处理领域,尤其是一种学习型图像处理方法、系统及服务器。
背景技术
随着深度学习技术的发展,卷积神经网络已经成为提取人脸特征的有力工具,对于模型固定的卷积神经网络而言,最核心的技术是如何设计损失函数,使其能有效地监督卷积神经网络的训练,从而使卷积神经网络具有提取人脸特征的能力。
现有技术中常用损失函数基于Softmax+Centerloss的损失函数因为效果好,训练简单,成为最常使用的监督损失函数,Centerloss损失函数是指对每一个类统计一个平均的中心点,然后利用类中每个样本与中心点的欧式距离作为损失函数来调整网络参数,增加类内样本的聚敛行,相对于单纯的使用Softmax损失函数来说,Centerloss能够使相对于Softmax的hard样本更能准确分类,利用基于Softmax+Centerloss的损失函数学习到的模型提取的特征有更好的表达。
本发明创造的发明人在研究中发现,基于Softmax+Centerloss的损失函数可以更好解决相对于Softmax的复杂样本,但是对部分简单样本并没有进行优化,在余弦距离测度上,反而加大了部分简单样本的类内距离,虽然总体上能更好的表达人脸特征,但是对部分简单样本的特征表达还是有待进一步优化。
发明内容
本发明实施例提供一种能够将简单样本中的余弦距离趋向于欧氏距离的学习型图像处理方法、系统及服务器。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种学习型图像处理方法,包括下述步骤:
采集待测目标图像;
将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
具体地,所述损失函数包括:交叉熵损失函数、基于余弦距离的Centerloss损失函数和基于欧氏距离的Centerloss损失函数。
具体地,所述损失函数正向传播过程描述为:
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
具体地,所述损失函数反向传播过程描述为:
其中,L表示为总的损失函数,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
具体地,所述卷积神经网络模型通过下述步骤训练形成:
获取标记有分类判断信息的训练样本数据;
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致;
当所述模型分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
具体地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种学习型图像处理系统,包括:
采集模块,用于采集待测目标图像;
处理模块,用于将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
执行模块,用于获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
具体地,所述损失函数包括:交叉熵损失函数、基于余弦距离的Centerloss损失函数和基于欧氏距离的Centerloss损失函数。
具体地,所述损失函数正向传播过程描述为:
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
具体地,所述损失函数反向传播过程描述为:
其中,L表示为总的损失函数,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
具体地,所述卷积神经网络模型通过下述步骤训练形成:
第一获取子模块,用于获取标记有分类判断信息的训练样本数据;
第一输入子模块,用于将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
第一比对子模块,用于通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致;
第一处理子模块,用于当所述模型分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
具体地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种服务器,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述所述的学习型图像处理方法。
本发明实施例的有益效果是:卷积神经网络模型以损失函数为约束条件,对卷积神经网络模型的类内数据,当待测目标图像的内容比较简单(即色彩较为单一)时,因此卷积提取的类内数据本身的收敛程度较高,鲁棒性较好。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性使简单样本的类内距离更加的收敛,同时使卷积神经网络模型的分类结果更加准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例学习型图像处理方法的基本流程示意图;
图2为本发明实施例卷积神经网络模型训练方法基本流程示意图;
图3为本发明实施例学习型图像处理系统基本结构框图;
图4为本发明实施例服务器基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
需要指出的是卷积神经网络的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习,所以在使用卷积神经网络时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
VGG是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGG探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGG成功地构筑了16~19层深的卷积神经网络。VGG的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGG的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2)。到目前为止,VGG依然经常被用来提取图像特征。VGG训练后的模型参数在其官方网站上开源了,可用来在特定的图像分类任务上进行再训练(相当于提供了非常好的初始化权重)。
本实施方式中,采用VGG卷积神经网络模型进行深度学习及内容理解。但不局限于此,在一些选择性实施方式中,能够采用CNN卷积神经网络模型或CNN卷积神经网络模型的分支模型。
请参阅图1,图1为本实施例学习型图像处理方法的基本流程示意图。
如图1所示,一种学习型图像处理方法,包括下述步骤:
S1100采集待测目标图像;
本实施方式中,待测目标物图像为人脸图像,但不限于此,根据应用场景的不同,在一些实施方式中,待测目标图像能够是动物图像、植物图像或物品图像。
以人脸图像为例说明,获取人脸图像的方法包括实时采集和提取存储图像视频资料两种方法。实时采集主要用于智能终端(手机、平板电脑和监控设备)的实时应用(如:判断用户年龄、性别、颜值和相似度等)。提取存储图像视频资料主要用于对存储的图像和视频资料进行进一步的处理,也能够用于智能终端对历史照片进行应用。
S1200将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
卷积神经网络模型在进行人脸图像处理时,已经被训练至收敛,及通过特定的训练方式,已经能够使卷积神经网络模型能够按预期对人脸图像进行处理。
本实施方式中以人脸图像为例进行说明,卷积神经网络模型对输入的人脸图像进行特征提取,获取能够表征人脸图像最具表现性的特征。
本实施例中,采用损失函数变为softmax+E_Centerloss+C_Centerloss联合损失函数,其中E_Centerloss是指传统的基于欧式距离的Centerloss,C_Centerloss是指基于余弦距离的Centerloss,softmax为交叉熵损失函数。
由于卷积提取的类内数据本身的收敛程度较高,鲁棒性较好。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,实现了余弦距离趋向于欧氏距离的筛选。
具体地,下面给出基于余弦距离的Centerloss损失函数的基本原理以及前向反向传播过程。
其中,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征。
基于余弦距离的Centerloss损失函数筛选数据时,为使类内距离内敛,要求类内数据的余弦距离趋于最大化,根据余弦函数的特点:
要使最大化,不妨使最小化即使趋向于1,那么基于余弦距离的Centerloss转变成了基于欧式距离的Centerloss,这样可以简化实现的复杂性。
S1300获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
待分类数据经过损失函数的筛选后,待分类数据在卷积神经网络模型的分类层对数据进行分类。
分类层根据预设的分类标准,对待分类数据进行分类,并将分类数据进行输出。分类层输出的分类数据为一个或多个数值,通过将上述分类数据与分类阈值进行比对,实现人脸图像的内容理解。例如,人脸图像的内容理解为人脸相似度匹配时,预设相似度阈值,将分类数据输出的数值与相似度阈值进行比对,比对结果大于该阈值时,则人脸图像与参照比对图像为同源,否则人脸图像与参照比对图像不同。
内容理解包括(不限于)进行性别识别、年龄判断、颜值打分或人脸相似度比对。分类数据表示人脸图像中主要可识别特征,将该特征与预设的分类标准进行比对,就能够对人脸图像的性别、年龄和颜值做出判断。而根据两个人脸图像分类数据的cos(余弦空间)距离的比较,就能够计算出两个人脸图像之间的相似度。
上述实施方式卷积神经网络模型以损失函数为约束条件,对卷积神经网络模型的类内数据,当待测目标图像的内容比较简单(即色彩较为单一)时,由于卷积提取的类内数据本身的收敛程度较高,鲁棒性较好。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性使简单样本的类内距离更加的收敛,同时使卷积神经网络模型的分类结果更加准确。
具体的,本实施例中卷积神经网络模型采用的损失函数为联合损失函数,该损失函数正向传播公式如下:
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
在一些实施方式中,λ1=0.5和λ2=0.5但不限于此,超参数的数值设定不局限与此,能够根据具体训练结果的不同通过实验得到。
损失函数反向传播过程描述为:
其中,L表示为总的损失函数,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
请参阅图2,图2为本实施例卷积神经网络模型训练方法基本流程示意图。
如图2所示,卷积神经网络模型通过下述步骤训练形成:
S2100、获取标记有分类判断信息的训练样本数据;
训练样本数据是整个训练集的构成单位,训练集是由若干个训练样本训练数据组成的。
训练样本数据是由人脸数据以及对人脸数据对进行标记的分类判断信息组成的。
分类判断信息是指人们根据输入卷积神经网络模型的训练方向,通过普适性的判断标准和事实状态对训练样本数据做出的人为的判断,也就是人们对卷积神经网络模型输出数值的期望目标。如,在一个训练样本数据中,人工识别出该人脸图像数据与预存储的目标人脸图像为同一个人,则标定该人脸图像分类判断信息为与预存储的目标人脸图像相同。
S2200、将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类信息;
将训练样本集依次输入到卷积神经网络模型中,并获得卷积神经网络模型倒数第一个全连接层输出的模型分类信息。
模型分类信息是卷积神经网络模型根据输入的人脸图像而输出的激励数据,在卷积神经网络模型未被训练至收敛之前,分类参照信息为离散性较大的数值,当卷积神经网络模型未被训练至收敛之后,分类参照信息为相对稳定的数据。
S2300、通过止损函数比对所述训练样本数据内不同样本的模型分类信息与所述分类判断信息是否一致;
止损函数是用于检测卷积神经网络模型中模型分类信息,与期望的分类判断信息是否具有一致性的检测函数。当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时,需要对卷积神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。
S2400、当所述模型分类信息与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时,需要对卷积神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。
以训练卷积神经网络模型识别人脸图像的情绪为例进行举例说明。
具体地,收集大量的包括人体人脸图像的图片作为训练样本,根据人们对于各种人脸图像所表述的人体脸部动作信息的主观判断,获取每个训练样本肢体动作的主观含义,并将该含义设为人们对该训练样本的期望输出。然后将训练样本输入到卷积神经网络模型中,通过对训练样本特征的提取,并输出训练样本数据的分类数据,分类数据为训练样本在本轮训练中各分类结果(分类结果根据需求认为设定,分类结果根据输出的复杂程度能够为若干个,分类结果越多则训练的复杂程度越高)的概率值,本实施例中分类结果为不同的人体脸部动作信息的名称。其中概率值最大且大于预设的衡量阈值的分类结果,为本轮训练中该训练样本的激励输出。比较该期望输出与激励输出是否一致,当期望输出与激励输出一致时训练结束(有时需要反复输入以验证输出的稳定性,稳定性较好时结束训练),当期望输出与激励输出不一致时,通过反向传播算法,校正卷积神经网络的权值,以调整输出的结果,调整后将训练样本重新输入,循环往复直至期望输出与激励输出一致时训练结束。
本实施例还提供一种学习型图像处理系统,具体请参阅图3,图3为本实施例学习型图像处理系统基本结构框图。
本实施例还提供一种学习型图像处理系统,包括:采集模块2100、处理模块2200和执行模块2300。其中,采集模块2100用于采集待测目标图像;处理模块2200用于将待测目标图像输入到预设的卷积神经网络模型中,获取卷积神经网络模型响应人脸图像输入而输出分类数据,卷积神经网络模型以损失函数为约束条件,限定分类数据中类内特征的余弦距离趋向于欧氏距离;执行模块2300用于获取分类数据,并根据分类数据对待测目标图像进行内容理解。
学习型图像处理系统卷积神经网络模型以损失函数为约束条件,对卷积神经网络模型的类内数据,当待测目标图像的内容比较简单(即色彩较为单一)时,由于卷积提取的类内数据本身的收敛程度较高,鲁棒性较好。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性使简单样本的类内距离更加的收敛,同时使卷积神经网络模型的分类结果更加准确。
在一些实施方式中,损失函数包括:交叉熵损失函数、基于余弦距离的Centerloss损失函数和基于欧氏距离的Centerloss损失函数。
在一些实施方式中,损失函数正向传播过程描述为:
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
在一些实施方式中,损失函数反向传播过程描述为:
其中,L表示为总的损失函数,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
在一些实施方式中,卷积神经网络模型通过下述步骤训练形成:第一获取子模块、第一输入子模块、第一比对子模块和第一处理子模块。其中,第一获取子模块用于获取标记有分类判断信息的训练样本数据;第一输入子模块用于将训练样本数据输入卷积神经网络模型获取训练样本数据的模型分类参照信息;第一比对子模块用于通过止损函数比对训练样本数据内不同样本的模型分类参照信息与分类判断信息是否一致;第一处理子模块用于当模型分类参照信息与分类判断信息不一致时,反复循环迭代的更新卷积神经网络模型中的权重,至比对结果与分类判断信息一致时结束。
在一些实施方式中,人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
本实施例还提供一种服务器。具体请参阅图4,图4为本实施例服务器基本结构示意图。
如图4所示,服务器包括:一个或多个处理器3110和存储器3120;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:
采集待测目标图像;
将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
服务器通过卷积神经网络模型以损失函数为约束条件,对卷积神经网络模型的类内数据,当待测目标图像的内容比较简单(即色彩较为单一)时,由于卷积提取的类内数据本身的收敛程度较高,鲁棒性较好。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性使简单样本的类内距离更加的收敛,同时使卷积神经网络模型的分类结果更加准确。
需要指出的是本实施列中,服务器的存储器内存储用于实现本实施例中学习型图像处理方法中的所有程序,处理器能够调用该存储器内的程序,执行上述学习型图像处理方法所列举的所有功能。由于服务器实现的功能在本实施例中的学习型图像处理方法进行了详述,在此不再进行赘述。
需要说明的是,本发明的说明书及其附图中给出了本发明的较佳的实施例,但是,本发明可以通过许多不同的形式来实现,并不限于本说明书所描述的实施例,这些实施例不作为对本发明内容的额外限制,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施例,均视为本发明说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种学习型图像处理方法,其特征在于,包括下述步骤:
采集待测目标图像;
将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
2.根据权利要求1所述的学习型图像处理方法,其特征在于,所述损失函数包括:交叉熵损失函数、基于余弦距离的Centerloss损失函数和基于欧氏距离的Centerloss损失函数。
3.根据权利要求2所述的学习型图像处理方法,其特征在于,所述损失函数正向传播过程描述为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>=</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>c</mi> <mi>i</mi> </msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
4.根据权利要求2所述的学习型图像处理方法,其特征在于,所述损失函数反向传播过程描述为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mo>-</mo> <mn>2</mn> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <mo>*</mo> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mn>2</mn> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>c</mi> <mi>i</mi> </msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <msub> <mi>c</mi> <mi>i</mi> </msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,L表示为总的损失函数,f(xi)表示深度学习模型提取的图像特征,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
5.根据权利要求1所述的脸部图像处理方法,其特征在于,所述卷积神经网络模型通过下述步骤训练形成:
获取标记有分类判断信息的训练样本数据;
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致;
当所述模型分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
6.根据权利要求1~5任意一项所述的学习型图像处理方法,其特征在于,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
7.一种学习型图像处理系统,其特征在于,包括:
采集模块,用于采集待测目标图像;
处理模块,用于将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;
执行模块,用于获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。
8.根据权利要求7所述的学习型图像处理系统,其特征在于,所述损失函数包括:交叉熵损失函数、基于余弦距离的Centerloss损失函数和基于欧氏距离的Centerloss损失函数。
9.根据权利要求8所述的学习型图像处理系统,其特征在于,所述损失函数正向传播过程描述为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>=</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>c</mi> <mi>i</mi> </msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,L表示为总的损失函数,Lcrossentropy表示为交叉熵损失函数,(f(xi)-ci)2表示为基于欧式距离的centerloss损失函数,表示为基于余弦距离的centerloss损失函数,ci表示类内平均特征,λ1和λ2为调整损失函数权重的超参数。
10.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-6任意一项所述的学习型图像处理方法。
CN201711487469.2A 2017-12-29 2017-12-29 学习型图像处理方法、系统及服务器 Active CN108108807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711487469.2A CN108108807B (zh) 2017-12-29 2017-12-29 学习型图像处理方法、系统及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711487469.2A CN108108807B (zh) 2017-12-29 2017-12-29 学习型图像处理方法、系统及服务器

Publications (2)

Publication Number Publication Date
CN108108807A true CN108108807A (zh) 2018-06-01
CN108108807B CN108108807B (zh) 2020-06-02

Family

ID=62215145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711487469.2A Active CN108108807B (zh) 2017-12-29 2017-12-29 学习型图像处理方法、系统及服务器

Country Status (1)

Country Link
CN (1) CN108108807B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214360A (zh) * 2018-10-15 2019-01-15 北京亮亮视野科技有限公司 一种基于ParaSoftMax损失函数的人脸识别模型的构建方法及应用
CN109350100A (zh) * 2018-09-27 2019-02-19 上海联影医疗科技有限公司 医学成像方法、医学成像设备以及计算机可读存储介质
CN109523522A (zh) * 2018-10-30 2019-03-26 腾讯科技(深圳)有限公司 内窥镜图像的处理方法、装置、系统及存储介质
CN110084147A (zh) * 2019-04-04 2019-08-02 广州大学 一种用于人脸识别的性别隐私保护方法及系统
CN110084143A (zh) * 2019-04-04 2019-08-02 广州大学 一种用于人脸识别的情绪信息保护方法及系统
CN110930347A (zh) * 2018-09-04 2020-03-27 京东方科技集团股份有限公司 卷积神经网络的训练方法、焊点缺陷的检测方法及装置
CN111079790A (zh) * 2019-11-18 2020-04-28 清华大学深圳国际研究生院 一种构建类别中心的图像分类方法
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN112766399A (zh) * 2021-01-28 2021-05-07 电子科技大学 一种面向图像识别的自适应神经网络训练方法
CN112884728A (zh) * 2021-02-04 2021-06-01 复旦大学附属中山医院 基于深度学习卷积神经网络的内镜图像病变识别筛查方法
CN113128558A (zh) * 2021-03-11 2021-07-16 重庆邮电大学 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN113221964A (zh) * 2021-04-22 2021-08-06 华南师范大学 单样本图像分类方法、系统、计算机设备及存储介质
CN113378951A (zh) * 2021-06-22 2021-09-10 中海石油(中国)有限公司 一种油田画像的可视化类比方法、系统、可读介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096538A (zh) * 2016-06-08 2016-11-09 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN107423690A (zh) * 2017-06-26 2017-12-01 广东工业大学 一种人脸识别方法及装置
CN107506717A (zh) * 2017-08-17 2017-12-22 南京东方网信网络科技有限公司 无约束场景中基于深度变换学习的人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096538A (zh) * 2016-06-08 2016-11-09 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN107423690A (zh) * 2017-06-26 2017-12-01 广东工业大学 一种人脸识别方法及装置
CN107506717A (zh) * 2017-08-17 2017-12-22 南京东方网信网络科技有限公司 无约束场景中基于深度变换学习的人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIABAO WANG 等: "Learning deep discriminative features based on cosine loss function", 《ELECTRONIC LETTERS》 *
WEIYANG LIU 等: "SphereFace: Deep Hypersphere Embedding for Face Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930347B (zh) * 2018-09-04 2022-12-27 京东方科技集团股份有限公司 卷积神经网络的训练方法、焊点缺陷的检测方法及装置
CN110930347A (zh) * 2018-09-04 2020-03-27 京东方科技集团股份有限公司 卷积神经网络的训练方法、焊点缺陷的检测方法及装置
CN109350100A (zh) * 2018-09-27 2019-02-19 上海联影医疗科技有限公司 医学成像方法、医学成像设备以及计算机可读存储介质
CN109214360A (zh) * 2018-10-15 2019-01-15 北京亮亮视野科技有限公司 一种基于ParaSoftMax损失函数的人脸识别模型的构建方法及应用
CN109523522A (zh) * 2018-10-30 2019-03-26 腾讯科技(深圳)有限公司 内窥镜图像的处理方法、装置、系统及存储介质
CN110084147A (zh) * 2019-04-04 2019-08-02 广州大学 一种用于人脸识别的性别隐私保护方法及系统
CN110084143A (zh) * 2019-04-04 2019-08-02 广州大学 一种用于人脸识别的情绪信息保护方法及系统
CN111079790A (zh) * 2019-11-18 2020-04-28 清华大学深圳国际研究生院 一种构建类别中心的图像分类方法
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN111126573B (zh) * 2019-12-27 2023-06-09 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN112766399A (zh) * 2021-01-28 2021-05-07 电子科技大学 一种面向图像识别的自适应神经网络训练方法
CN112766399B (zh) * 2021-01-28 2021-09-28 电子科技大学 一种面向图像识别的自适应神经网络训练方法
CN112884728A (zh) * 2021-02-04 2021-06-01 复旦大学附属中山医院 基于深度学习卷积神经网络的内镜图像病变识别筛查方法
CN113128558A (zh) * 2021-03-11 2021-07-16 重庆邮电大学 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN113221964A (zh) * 2021-04-22 2021-08-06 华南师范大学 单样本图像分类方法、系统、计算机设备及存储介质
CN113378951A (zh) * 2021-06-22 2021-09-10 中海石油(中国)有限公司 一种油田画像的可视化类比方法、系统、可读介质和设备

Also Published As

Publication number Publication date
CN108108807B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN108108807A (zh) 学习型图像处理方法、系统及服务器
CN107818314B (zh) 脸部图像处理方法、装置及服务器
CN107742107B (zh) 人脸图像分类方法、装置及服务器
Shaheen et al. Impact of automatic feature extraction in deep learning architecture
CN104063719B (zh) 基于深度卷积网络的行人检测方法及装置
CN110097003A (zh) 基于神经网络的课堂考勤方法、设备、存储介质及装置
CN108388876A (zh) 一种图像识别方法、装置以及相关设备
CN107590460B (zh) 人脸分类方法、装置及智能终端
CN107679513B (zh) 图像处理方法、装置及服务器
CN108961245A (zh) 基于双通道深度并行卷积网络的图像质量分类方法
CN107358293A (zh) 一种神经网络训练方法及装置
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
CN109815826A (zh) 人脸属性模型的生成方法及装置
CN110390107B (zh) 基于人工智能的下文关系检测方法、装置及计算机设备
CN107871107A (zh) 人脸认证方法和装置
CN109145868A (zh) 一种辅助跑步训练的行为识别方法与装置
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN109271930A (zh) 微表情识别方法、装置与存储介质
CN109145871A (zh) 心理行为识别方法、装置与存储介质
CN110472495A (zh) 一种基于图形推理全局特征的深度学习人脸识别方法
CN107944363B (zh) 人脸图像处理方法、系统及服务器
CN116127298B (zh) 基于三元组损失的小样本射频指纹识别方法
CN110399547A (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN107633236B (zh) 图像内容理解方法、装置及服务器
Zhang et al. Integrating deep features for material recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant