CN107679513B - 图像处理方法、装置及服务器 - Google Patents

图像处理方法、装置及服务器 Download PDF

Info

Publication number
CN107679513B
CN107679513B CN201710984142.XA CN201710984142A CN107679513B CN 107679513 B CN107679513 B CN 107679513B CN 201710984142 A CN201710984142 A CN 201710984142A CN 107679513 B CN107679513 B CN 107679513B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
network model
loss function
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710984142.XA
Other languages
English (en)
Other versions
CN107679513A (zh
Inventor
杨帆
张志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201710984142.XA priority Critical patent/CN107679513B/zh
Publication of CN107679513A publication Critical patent/CN107679513A/zh
Application granted granted Critical
Publication of CN107679513B publication Critical patent/CN107679513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例公开了图像处理方法、装置及服务器,包括下述步骤:获取待处理的人脸图像;将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。通过在卷积神经网络模型上构建新的损失函数,该损失函数具有晒选增大图像分类后类间距的作用,通过该损失函数训练得到的卷积神经网络模型,输出的分类数据的类间距离增大,使图像识别过程中类间距离增大,图像之间差别的显著性明显提高,致使图像比对时准确性明显的提高,应用该图像处理方法的安全性也得到了有效地保障。

Description

图像处理方法、装置及服务器
技术领域
本发明实施例涉及图像处理领域,尤其是一种图像处理方法、装置及服务器。
背景技术
人脸识别,是指利用计算机对人脸图像进行处理、分析和理解,以识别各种不同人脸图像的目标和对像的技术。人脸识别可以应用在安防、金融等很多领域,人脸识别的过程一般分为三个阶段:人脸检测、人脸对齐、人脸特征提取与比对,而人脸特征提取是人脸识别的关键技术。
随着深度学习技术的发展,卷积神经网络已经成为提取人脸特征的有力工具,对于模型固定的卷积神经网络而言,最核心的技术是如何设计损失函数,使其能有效地监督卷积神经网络的训练,从而使卷积神经网络具有提取人脸特征的能力。目前主要使用的损失函数是基于Softmax Loss+Center Loss的特征提取方法,该方法是目前使用的比较主流的方法,该方法利用训练的卷积神经网络模型的最后一层提取人脸特征,将人脸数据映射到cos空间上,通过比对不同人脸的cos空间距离来判断人脸的相似性,是一种非端到端的方法,简单易于实现。
但是本发明创造的发明人再研究中发现,由于Softmax Loss+Center Loss的损失函数只关注了类内特征的距离,忽略了类间特征的距离,而致使图相比对时类间距离不够突出,导致图像比对时图像识别精度不高,错判几率较高,无法将图像识别技术应用于安全性要求较高的领域。
发明内容
本发明实施例提供一种能够提高图像提取过程中图像类间距离的图像处理方法、装置及服务器。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种图像处理方法,包括下述步骤:
获取待处理的人脸图像;
将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
可选地,所述损失函数为Triplet-Center Loss函数,且triplet-center Loss层构建在VGG卷积神经网络模型的softmax层上,所述triplet-center Loss层根据Triplet-Center Loss函数对softmax层输出的分类数据进行指向性筛选。
可选地,所述将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离的步骤,具体包括下述步骤:
所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;
当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
可选地,所述Triplet-Center Loss函数正向传播过程的特征描述为:
loss=tirplet_loss+center_loss;
定义函数:
Figure GDA0002742977040000021
Figure GDA0002742977040000022
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心;cj表示第j类的中心;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;α表示设定参数值。
可选地,所述Triplet-Center Loss函数反向传播过程的特征描述为:
Figure GDA0002742977040000031
Figure GDA0002742977040000032
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心,cj表示第j类的中心;M表示类别为i类的个数;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;K表示满足minj||f(xi)-cj||的cj的个数;L表示loss;Lc表示center_loss;Ls表示tirplet_loss;α表示设定参数值。
可选地,所述卷积神经网络模型的训练方法具体包括下述步骤:
获取训练样本集;
将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;
当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
可选地,所述获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解的步骤,具体包括下述步骤:
获取所述卷积神经网络模型输出的分类数据;
计算所述分类数据与预存储的标本数据之间的cos距离;
根据所述cos距离对所述人脸图像进行内容理解。
可选地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种图像处理装置,所述图像处理装置包括:
获取模块,用于获取待处理的人脸图像;
计算模块,用于将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
处理模块,用于获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
可选地,所述损失函数为Triplet-Center Loss函数,且triplet-center Loss层构建在VGG卷积神经网络模型的softmax层上,所述triplet-center Loss层根据Triplet-Center Loss函数对softmax层输出的分类数据进行指向性筛选。
可选地,所述图像处理装置还包括:
第一比对子模块,用于所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;
第一计算子模块,用于当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
可选地,所述Triplet-Center Loss函数正向传播过程的特征描述为:
loss=tirplet_loss+center_loss;
定义函数:
Figure GDA0002742977040000051
Figure GDA0002742977040000052
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心;cj表示第j类的中心;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;α表示设定参数值。
可选地,所述Triplet-Center Loss函数反向传播过程的特征描述为:
Figure GDA0002742977040000053
Figure GDA0002742977040000054
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心,cj表示第j类的中心;M表示类别为i类的个数;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;K表示满足minj||f(xi)-cj||的cj的个数;L表示loss;Lc表示center_loss;Ls表示tirplet_loss;α表示设定参数值。
可选地,所述图像处理装置还包括:
所述图像处理装置还包括:
第一获取子模块,用于获取训练样本集;
第二计算子模块,用于将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;
第一处理子模块,用于当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
可选地,所述图像处理装置还包括:
第二获取子模块,用于获取所述卷积神经网络模型输出的分类数据;
第三计算子模块,用于计算所述分类数据与预存储的标本数据之间的cos距离;
第二处理子模块,用于根据所述cos距离对所述人脸图像进行内容理解。
可选地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种服务器,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述所述的图像处理方法。
本发明实施例的有益效果是:通过在卷积神经网络模型上构建新的损失函数,该损失函数具有晒选增大图像分类后类间距的作用,通过该损失函数训练得到的卷积神经网络模型,输出的分类数据的类间距离增大,使图像识别过程中类间距离增大,图像之间差别的显著性明显提高,致使图像比对时准确性明显的提高,应用该图像处理方法的安全性也得到了有效地保障。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例图像处理方法基本流程示意图;
图2为本发明实施例损失函数调整卷积神经网络模型的流程示意图;
图3为本发明实施例卷积神经网络模型的训练流程示意图;
图4为本发明实施例分类数据的一种应用方式的流程示意图;
图5为本发明实施例图像处理装置基本结构框图;
图6为本发明实施例服务器基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
需要指出的是卷积神经网络的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习,所以在使用卷积神经网络时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
VGG是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGG探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGG成功地构筑了16~19层深的卷积神经网络。VGG的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGG的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2)。到目前为止,VGG依然经常被用来提取图像特征。VGG训练后的模型参数在其官方网站上开源了,可用来在特定的图像分类任务上进行再训练(相当于提供了非常好的初始化权重)。
请参阅图1,图1为本实施例图像处理方法基本流程示意图。
如图1所示,图像处理方法,包括下述步骤:
S1100、获取待处理的人脸图像;
获取人脸图像的方法包括实时采集和提取存储图像视频资料两种方法。实时采集主要用于智能终端(手机、平板电脑和监控设备)的实时应用(如:判断用户年龄、性别、颜值和相似度等)。提取存储图像视频资料主要用于对存储的图像和视频资料进行进一步的处理,也能够用于智能终端对历史照片进行应用。
S1200、将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
将获取的人脸图像输入到已经训练完成的卷积神经网络模型中,该卷积神经网络模型是通过选定的损失函数进行训练得到,选定的损失函数通过预设的期望,能够指向性的筛选增大被训练样本图像的类间距离。
预设的期望是指的是当类内的数据比类间的距离大时,就会产生损失,损失函数会对网络进行调整,使类内的距离逐渐减小,类间的距离逐渐增大。
训练完成后,将获取到的人脸图像输入到该构建有损失函数的卷积神经网络模型中,由该卷积神经网络模型对人脸图像进行分类处理,得到表征该人脸图像主要特点的分类数据。
S1300、获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
获取到卷积神经网络模型的分类数据,该分类数据中包括输入的人脸图像的主要识别特征,是降维分类后表征着人脸图像最主要特征的分类数据,该分类数据中类间距离较大,及分类数据中类别之间差距的显著性进一步提高,使后期处理过程中图像之间的差异性更加容易分辨。
得到人脸图像的分类数据后,能够使用该分类数据对人脸图像内容理解,内容理解包括(不限于)进行性别识别、年龄判断、颜值打分或人脸相似度比对。分类数据表示人脸图像中主要可识别特征,将该特征与预设的分类标准进行比对,就能够对人脸图像的性别、年龄和颜值做出判断。而根据两个人脸图像分类数据的欧氏距离或cos距离的比较,就能够计算出两个人脸图像之间的相似度。
上述实施方式通过在卷积神经网络模型上构建新的损失函数,该损失函数具有筛选增大图像分类后类间距的作用,通过该损失函数训练得到的卷积神经网络模型,输出的分类数据的类间距离增大,使图像识别过程中类间距离增大,图像之间差别的显著性明显提高,致使图像比对时准确性明显的提高,应用该图像处理方法的安全性也得到了有效地保障。
具体的,本实施例中卷积神经网络模型为VGG卷积神经网络模型。构建的损失函数为Triplet-Center Loss函数。且triplet-center Loss层构建在VGG卷积神经网络模型的softmax层上,triplet-center Loss层根据Triplet-Center Loss函数对softmax层输出的分类数据进行指向性筛选。
VGG卷积神经网络模型的计算过程分为,正向传播过程和反向传播过程,其中正向传播过程是指:VGG卷积神经网络模型对输入的人脸图像做出分类计算,反向传播是指:输出的分类数据不满足预设损失函数的期望输出,需要对VGG卷积神经网络模型的权重进行相应的调整,使输入人脸图像后得到的分类数据满足损失函数的期望输出。VGG卷积神经网络模型实际输出与期望之间不对等,至实际输出符合期望之间反复迭代过程,就是对VGG卷积神经网络模型训练的过程。
具体地,Triplet-Center Loss函数正向传播过程的特征描述为:
loss=tirplet_loss+center_loss;
定义函数:
Figure GDA0002742977040000101
Figure GDA0002742977040000102
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心;cj表示第j类的中心;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj2||,0)f(xi)的个数;α表示设定参数值。
tirplet_loss为tirpletloss函数,center_loss为centerloss函数。
Triplet-Center Loss函数反向传播过程的特征描述为:
Figure GDA0002742977040000111
Figure GDA0002742977040000112
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心,cj表示第j类的中心;M表示类别为i类的个数;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;K表示满足minj||f(xi)-cj||的cj的个数,
Figure GDA0002742977040000113
为求其偏导数;L表示loss;Lc表示center_loss;Ls表示tirplet_loss;α表示设定参数值。
Triplet-Center Loss函数比较VGG卷积神经网络模型输出的分类数据中类内数据与类间数据之间的真实距离,当类内的数据比类间的距离大时,就会产生损失,损失会对VGG卷积神经网络模型的权值进行调整,使类内的距离逐渐减小,类间的距离逐渐增大。
具体请参阅图2,图2为本实施例损失函数调整卷积神经网络模型的流程示意图。
如图2所示,步骤S1200具体包括下述步骤:
S1210、所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;
Triplet-Center Loss函数获取卷积神经网络模型输出的分类数据,并比较分类数据中类内距离与类间距离之间的大小。
S1220、当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
当类内距离大于类间距离时,Triplet-Center Loss函数触发卷积神经网络模型反向传播机制,计算进入到反向传播阶段,反向传播的过程在于调整卷积神经网络模型内的权重,以使卷积神经网络模型能够不断校正权重,使其输出的结果逐渐向损失函数的期望靠近,及输出的分类数据中类内距离大于类间距离时,对于该人脸图像的训练结束,训练过程是反复渐进的。
具体请参阅图3,图3为本实施例卷积神经网络模型的训练流程示意图。
如图3所示,卷积神经网络模型的训练包括下述步骤:
S2100、获取训练样本集;
通过开源数据库或网络爬虫收集若干人脸图像作为训练样本集,训练样本集的人脸图像的多少取决于对卷积神经网络模型精度的要求,精度要求越高的卷积神经网络模型,需要的训练样本集相对越大。
S2200、将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;
将训练样本集内的人脸图像依次的输入到VGG卷积神经网络模型,且VGG卷积神经网络模型上搭建有损失函数,损失函数为Triplet-Center Loss函数。
S2300、当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
损失函数的期望为输出的分类数据中,类内距离小于类间距离。将样本集内的人脸图像依次的输入到VGG卷积神经网络模型,输出的分类结果中若出现不符合损失函数的期望的数据时,触发VGG卷积神经网络模型进行反向传播,校正VGG卷积神经网络模型的权重至VGG卷积神经网络模型输出的人脸图像分类数据中类内距离小于类间距离时结束。
VGG卷积神经网络模型的训练是累积的过程,将训练样本集中的人脸图像依次输入,并在存在输出分类结果与损失函数期望结果不符的情况下,一次次的对VGG卷积神经网络模型进行校正,直至该VGG卷积神经网络模型容错率低于0.1%时停止训练。
当VGG卷积神经网络模型训练完成后,对输出的人脸图像分类数据进行应用,以图像相似度比对对其具体应用进行说明。
具体请参阅图4,图4为本实施例分类数据的一种应用方式的流程示意图。
如图4所示,步骤S1300具体包括下述步骤:
S1310、获取所述卷积神经网络模型输出的分类数据;
获取VGG卷积神经网络模型输出的人脸图像的分类数据,该分类数据中类内距离大于类间距离。
S1320、计算所述分类数据与预存储的标本数据之间的cos距离;
将获取的类内距离与预存储的标本数据之间进行处理,处理的方式为计算分类数据与标本数据cos距离。
标本数据是指与输入的人脸图像进行比对的参照图片的分类数据。
cos距离是指以原点为起始点到这两个点的向量的夹角的cos值从几何学的角度来看cos值越大两个点的相关性越高当为1的时候在一个方向上-1反方向。
S1330、根据所述cos距离对所述人脸图像进行内容理解。
计算分类数据与预存储的标本数据之间的cos距离,计算结果数值越大时分类数据表征的人脸图像与标本数据表征的参照图像的相似性越高,反之则相似性越低。
但对于分类数据的内容理解不局限与此,在一些实施方式中,根据将分类数据与不用的预设阈值区间进行比较,根据分类数据落入不同的阈值区间能够对人脸图像进行性别识别、年龄判断或颜值打分。
举例说明,准备数据:准备2w人的人脸数据,每个人大约100张左右,共200w张人脸图片,通过开源的Web_Face获得一部分,然后通过互联网中爬取部分数据,凑齐2w人脸数据,打乱顺序,一部分作为训练样本,一部分作为测试样本;搭建模型:搭建卷积神经网络模型,采用常用的VGG模型;增加Loss层:除了Softmax层外,在模型的Softmax层上构建新的triplet-center Loss层,并设置权重为0.01;训练模型:利用标记的200万人脸数据进行训练,采用反向传播算法优化模型,其中训练因子特征描述为:
W=W+ΔW+lr*αW;其中,W表示训练因子,lr表示第一参数值,α表示第二参数值,并定义函数:
Figure GDA0002742977040000141
其中,β表示第三参数值。
具体地,lr=0.01,α=0.0005,β=0.09
测试模型:利用VGG卷积神经网络模型对测试样本提取特征,利用VGG卷积神经网络模型的最后一层作为样本的特征,采用cos距离进行特征比对。
为解决现有技术存在的问题,本实施例还提供一种图像处理装置,具体请参阅图5,图5为本实施例图像处理装置基本结构框图。
如图5所示,一种图像处理装置,所述图像处理装置包括:获取模块2100、计算模块2200和处理模块2300。其中,获取模块2100用于获取待处理的人脸图像;计算模块2200用于将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;处理模块2300用于获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
上述图像处理装置,通过在卷积神经网络模型上构建新的损失函数,该损失函数具有晒选增大图像分类后类间距的作用,通过该损失函数训练得到的卷积神经网络模型,输出的分类数据的类间距离增大,使图像识别过程中类间距离增大,图像之间差别的显著性明显提高,致使图像比对时准确性明显的提高,应用该图像处理方法的安全性也得到了有效地保障。
在一些实施方式中,损失函数为Triplet-Center Loss函数,且triplet-centerLoss层构建在VGG卷积神经网络模型的softmax层上,所述triplet-center Loss层根据Triplet-Center Loss函数对sofimax层输出的分类数据进行指向性筛选。
在一些实施方式中,图像处理装置还包括:第一比对子模块和第一计算子模块。其中,第一比对子模块用于所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;第一计算子模块用于当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
在一些实施方式中,Triplet-Center Loss函数正向传播过程的特征描述为:
loss=tirplet_loss+center_loss;
定义函数:
Figure GDA0002742977040000151
Figure GDA0002742977040000152
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心;cj表示第j类的中心;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;α表示设定参数值。
在一些实施方式中,Triplet-Center Loss函数反向传播过程的特征描述为:
Figure GDA0002742977040000161
Figure GDA0002742977040000162
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;ci表示第i类的中心,cj表示第j类的中心;M表示类别为i类的个数;N表示输出满足max(||f(xi)-ci||+α-minj||f(xi)-cj||,0)f(xi)的个数;K表示满足minj||f(xi)-cj||的cj的个数;L表示loss;Lc表示center_loss;Ls表示tirplet_loss;α表示设定参数值。
在一些实施方式中,图像处理装置还包括:第一获取子模块、第二计算子模块和第一处理子模块。其中,第一获取子模块用于获取训练样本集;第二计算子模块用于将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;第一处理子模块用于当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
在一些实施方式中,图像处理装置还包括:第二获取子模块、第三计算子模块和第二处理子模块。其中,第二获取子模块用于获取所述卷积神经网络模型输出的分类数据;第三计算子模块用于计算所述分类数据与预存储的标本数据之间的cos距离;第二处理子模块用于根据所述cos距离对所述人脸图像进行内容理解。
在一些实施方式中,人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决现有技术存在的问题,本实施例还提供一种服务器,具体请参阅图6,图6为本实施例服务器基本结构框图。
如图6所示,一种服务器,包括:
一个或多个处理器3110;
存储器3120;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器3120中并被配置为由所述一个或多个处理器3110执行,所述一个或多个程序配置用于执行下述方法:
获取待处理的人脸图像;
将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
服务器通过在卷积神经网络模型上构建新的损失函数,该损失函数具有晒选增大图像分类后类间距的作用,通过该损失函数训练得到的卷积神经网络模型,输出的分类数据的类间距离增大,使图像识别过程中类间距离增大,图像之间差别的显著性明显提高,致使图像比对时准确性明显的提高,应用该图像处理方法的安全性也得到了有效地保障。
需要指出的是本实施列中,移动电源租借器的存储器3120内存储用于实现本实施例中图像处理方法的所有程序,处理器3110能够调用该存储器3120内的程序,执行上述图像处理方法所列举的所有功能。由于服务器实现的功能在本实施例中的图像处理方法进行了详述,在此不再进行赘述。
需要说明的是,本发明的说明书及其附图中给出了本发明的较佳的实施例,但是,本发明可以通过许多不同的形式来实现,并不限于本说明书所描述的实施例,这些实施例不作为对本发明内容的额外限制,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施例,均视为本发明说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (11)

1.一种图像处理方法,其特征在于,包括下述步骤:
获取待处理的人脸图像;
将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解;
所述损失函数为Triplet-Center Loss函数,且triplet-center Loss层构建在VGG卷积神经网络模型的softmax层上,所述triplet-center Loss层根据Triplet-Center Loss函数对softmax层输出的分类数据进行指向性筛选;
其中,所述将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离的步骤,具体包括下述步骤:
所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;
当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
2.根据权利要求1所述的图像处理方法,其特征在于,所述Triplet-Center Loss函数正向传播过程的特征描述为:
L=Lc+Ls;
定义函数:
Figure FDA0003042069650000011
Figure FDA0003042069650000012
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型sonmax层的输出;cp表示第p类的中心;cq表示第q类的中心;N表示满足max(||f(xi)-cp||+α-minq||f(xi)-cq||,0)的f(xi)的个数;α表示设定参数值。
3.根据权利要求1所述的图像处理方法,其特征在于,所述卷积神经网络模型的训练方法具体包括下述步骤:
获取训练样本集;
将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;
当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
4.根据权利要求1所述的图像处理方法,其特征在于,所述获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解的步骤,具体包括下述步骤:
获取所述卷积神经网络模型输出的分类数据;
计算所述分类数据与预存储的标本数据之间的cos距离;
根据所述cos距离对所述人脸图像进行内容理解。
5.根据权利要求1~4任意一项所述的图像处理方法,其特征在于,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
6.一种图像处理装置,其特征在于,所述图像处理装置包括:
获取模块,用于获取待处理的人脸图像;
计算模块,用于将所述人脸图像输入到构建有损失函数的卷积神经网络模型中,所述损失函数根据预设期望指向性的筛选增大图像分类后的类间距离;
处理模块,用于获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解;
所述损失函数为Triplet-Center Loss函数;且triplet-center Loss层构建在VGG卷积神经网络模型的softmax层上,所述triplet-center Loss层根据Triplet-Center Loss函数对softmax层输出的分类数据进行指向性筛选;
其中,所述图像处理装置还包括:
第一比对子模块,用于所述Triplet-Center Loss函数比对所述卷积神经网络模型正向传播时输出类内距离与类间距离;
第一计算子模块,用于当所述类内距离大于所述类间距离时反复迭代的将所述卷积神经网络模型转入反向传播,以调整所述卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
7.根据权利要求6所述的图像处理装置,其特征在于,所述Triplet-Center Loss函数正向传播过程的特征描述为:
L=Lc+Ls;
定义函数:
Figure FDA0003042069650000031
Figure FDA0003042069650000032
其中,xi表示人脸样本数据;f(xi)表示卷积神经网络模型softmax层的输出;cp表示第p类的中心;cq表示第q类的中心;N表示满足max(||f(xi)-cp||+α-minq||f(xi)-cq||,0)的f(xi)的个数;α表示设定参数值。
8.根据权利要求6所述的图像处理装置,其特征在于,所述图像处理装置还包括:
第一获取子模块,用于获取训练样本集;
第二计算子模块,用于将所述样本集输入到构建有所述损失函数的VGG卷积神经网络模型中,所述损失函数约束所述VGG卷积神经网络模型输出的数据中类内距离小于类间距离;
第一处理子模块,用于当所述类内距离大于所述类间距离时反复迭代的将所述VGG卷积神经网络模型转入反向传播,以调整所述VGG卷积神经网络模型中的权重,至所述类内距离小于所述类间距离时结束。
9.根据权利要求6所述的图像处理装置,其特征在于,所述图像处理装置还包括:
第二获取子模块,用于获取所述卷积神经网络模型输出的分类数据;
第三计算子模块,用于计算所述分类数据与预存储的标本数据之间的cos距离;
第二处理子模块,用于根据所述cos距离对所述人脸图像进行内容理解。
10.根据权利要求6~9任意一项所述的图像处理装置,其特征在于,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
11.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-5任意一项所述的图像处理方法。
CN201710984142.XA 2017-10-20 2017-10-20 图像处理方法、装置及服务器 Active CN107679513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710984142.XA CN107679513B (zh) 2017-10-20 2017-10-20 图像处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710984142.XA CN107679513B (zh) 2017-10-20 2017-10-20 图像处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN107679513A CN107679513A (zh) 2018-02-09
CN107679513B true CN107679513B (zh) 2021-07-13

Family

ID=61141073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710984142.XA Active CN107679513B (zh) 2017-10-20 2017-10-20 图像处理方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN107679513B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446688B (zh) * 2018-05-28 2020-01-07 北京达佳互联信息技术有限公司 人脸图像性别判断方法、装置、计算机设备及存储介质
CN110633722B (zh) * 2018-06-22 2023-07-14 赛灵思电子科技(北京)有限公司 人工神经网络调整方法和装置
CN108921106B (zh) * 2018-07-06 2021-07-06 重庆大学 一种基于capsule的人脸识别方法
CN109711386B (zh) * 2019-01-10 2020-10-09 北京达佳互联信息技术有限公司 获取识别模型的方法、装置、电子设备及存储介质
CN109902757B (zh) * 2019-03-08 2023-04-25 山东领能电子科技有限公司 一种基于Center Loss改进的人脸模型训练方法
CN110136103B (zh) * 2019-04-24 2024-05-28 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质
CN111639535B (zh) * 2020-04-29 2023-08-22 深圳英飞拓智能技术有限公司 基于深度学习的人脸识别方法及装置
CN111553428B (zh) * 2020-04-30 2024-01-12 北京百度网讯科技有限公司 用于训练判别模型的方法、装置、设备及可读存储介质
WO2023044663A1 (en) * 2021-09-23 2023-03-30 Intel Corporation Methods and apparatus for team classification in sports analysis
CN116310648B (zh) * 2023-03-23 2023-12-12 北京的卢铭视科技有限公司 模型训练方法、人脸识别方法、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100717A1 (en) * 2014-12-17 2016-06-23 Google Inc. Generating numeric embeddings of images

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574215B (zh) * 2016-03-04 2019-11-12 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
CN106096538B (zh) * 2016-06-08 2019-08-23 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN106503669B (zh) * 2016-11-02 2019-12-10 重庆中科云丛科技有限公司 一种基于多任务深度学习网络的训练、识别方法及系统
CN107103281A (zh) * 2017-03-10 2017-08-29 中山大学 基于聚集损失深度度量学习的人脸识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100717A1 (en) * 2014-12-17 2016-06-23 Google Inc. Generating numeric embeddings of images

Also Published As

Publication number Publication date
CN107679513A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679513B (zh) 图像处理方法、装置及服务器
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
EP3084682B1 (en) System and method for identifying faces in unconstrained media
CN108108807B (zh) 学习型图像处理方法、系统及服务器
CN107871100B (zh) 人脸模型的训练方法和装置、人脸认证方法和装置
CN107818314A (zh) 脸部图像处理方法、装置及服务器
CN109583449A (zh) 字符识别方法及相关产品
CN111325271B (zh) 图像分类方法及装置
CN108875487B (zh) 行人重识别网络的训练及基于其的行人重识别
Kang et al. Deep learning-based weather image recognition
Biswas et al. One shot detection with laplacian object and fast matrix cosine similarity
CN107886062A (zh) 图像处理方法、系统及服务器
CN113095333B (zh) 无监督特征点检测方法及装置
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN111325190A (zh) 一种表情识别方法、装置、计算机设备及可读存储介质
Tang et al. Improving cloud type classification of ground-based images using region covariance descriptors
CN112529068A (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices
Lin et al. Low‐complexity face recognition using contour‐based binary descriptor
CN107944363A (zh) 人脸图像处理方法、系统及服务器
CN110956116B (zh) 基于卷积神经网络的人脸图像性别识别模型及识别方法
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
CN114219977A (zh) 一种年龄估计方法、系统、电子设备及存储介质
Zaqout et al. An improved technique for face recognition applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant