CN113887428B - 一种基于上下文信息的深度学习成对模型人耳检测方法 - Google Patents
一种基于上下文信息的深度学习成对模型人耳检测方法 Download PDFInfo
- Publication number
- CN113887428B CN113887428B CN202111165355.2A CN202111165355A CN113887428B CN 113887428 B CN113887428 B CN 113887428B CN 202111165355 A CN202111165355 A CN 202111165355A CN 113887428 B CN113887428 B CN 113887428B
- Authority
- CN
- China
- Prior art keywords
- head
- candidate
- ear
- model
- paired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及生物特征识别技术领域,特别涉及一种基于上下文信息的深度学习成对模型人耳检测方法。本发明克服现有技术存在的不能针对大场景尤其是包含整个人物身体的背景图片中找出耳朵位置的问题。其技术方案是:一种基于上下文信息的深度学习成对模型人耳检测方法,其步骤:首先对所有图片进行预处理并标注目标;其次利用迁移学习将Oquab网络修改为四分类局部模型并训练;再次根据局部模型,分别训练头部和耳朵、身体和头部两个成对模型;最后利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测。本发明利用这种由大到小的层次关系建立上下文关联信息,可减少其他特征的干扰,更精确的检测出耳朵的位置。
Description
技术领域:
本发明涉及生物特征识别方法技术领域,特别涉及一种基于上下文信息的深度学习成对模型人耳检测方法。
背景技术:
生物特征识别的研究还处于发展阶段,任何一种生物特征都不是完美的,都有其固有的局限性。人耳识别作为一种新的生物特征识别技术,具有其自身的独特优势,以其自然性、较高的用户可接受性等优点受到了越来越多的关注。它是对生物特征识别领域的一种拓广,可以弥补人脸识别、虹膜识别技术上的不足。因此人耳的自动检测与识别是模式识别领域中一个较新的研究方向。人耳朵的检测是识别的重要前提。人耳检测是把整个人耳的全体作为一类模式,着重研究人耳的共性。人耳识别是把人耳个体作为一类模式,着重研究人耳的个性。对于一个完整的全自动人耳识别系统,二者都是不可缺少的重要组成部分。人耳检测和人耳识别关注的都与人耳图像特征有关,但由于其关注的角度不同,又形成它们不同的解决方案。人耳检测的内容是从一幅侧脸图像上将被检测对象分割出来包括确定其位置、大小。人耳识别是在已经检测得到耳朵的条件下识别出不同耳朵的类别。
CN109934834A,图像轮廓提取方法和系统,该专利提取的耳朵轮廓的方法主要是以检测到的耳朵矩形框为前提条件。CN106156739B,一种基于脸部轮廓分析的证件照耳朵检测与提取方法,该专利主要输入图像主要是证件照,也就是是以头部区域作为整个输入图片,耳朵背景区域单一且确定。CN109086657A,一种基于机器学习的耳朵检测方法、系统及模型,该发明采用的是超高分辨率侧脸照片,也就是说输入的原始图片位包含耳朵侧脸部位的局部图像,耳朵背景区域单一且干净。CN106650578A,基于ASM算法和Lazy Snapping算法的耳廓检测方法,通过检测耳廓上的特征点来实现耳朵曲线的输出,该方法输入图片是一个已经检测出的耳朵矩形框。有的学者提出了一种简单高效的从侧脸图像中检测人耳的方法,用图形指数的平均灰度值变化曲线来描述耳朵的模型模板。在在线检测阶段,利用阶跃边缘检测和闽值化、图像放大等步骤找到耳朵的可能区域,然后将形状指数和模板差异最小区域作为耳朵的目标区域。有的学者提出基于肤色统计模型的动态人耳检测方法。首先根据自适应背景模型从彩色序列图像中提取出运动物体,再运用色彩信息分割出肤色区域,然后用人耳模板在该区域内搜索匹配。
以上都是传统的基于特征的人耳检测方法,随着技术的发展基于CNN深度学习越来越受到众多学者的青睐。目前深度学习的检测方法大概分为两类,一类是以RCNN系列为代表的基于候选框两阶段深度学习目标检测算法;另一类是以YOLO系列为代表的基于回归方法的单阶段深度学习目标检测算法。但是不管哪一类算法直接应用在耳朵目标检测上都无法针对大场景下,尤其是包含了整个人物身体的背景图片中找出耳朵位置的问题。
发明内容:
本发明要提供一种基于上下文信息的深度学习成对模型人耳检测方法,以克服现有技术存在的不能针对大场景下,尤其是包含了整个人物身体的背景图片中找出耳朵位置的问题。
为了实现本发明的目的,本发明提供的技术方案是:一种基于上下文信息的深度学习成对模型人耳检测方法,包括以下步骤:
第一步、对所有图片进行预处理并标注目标:获取原始图片,对图片进行数据增广处理,获得原始图片训练集,然后对所有数据用矩形框对身体、头部、耳朵部分进行类别标注;
第二步、利用迁移学习将Oquab网络修改为四分类局部模型并训练:
1、将Oquab网络网络的输出层和最后特征层去除,添加一个包括ReLu和DropOut的全连接层提取特征,添加包括身体、头、耳和背景四个类别的输出层;
2、对每一张图片运用SSW方法给出建议候选窗口,并将人、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本;
3、读入每一幅训练图片,并根据所有样本求取图片平均值,然后所有样本减去均值并进行训练,其所有本求取均值为[Mr,Mg,Mb];
4、应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数;
第三步、根据局部模型,分别训练头部和耳朵、身体和头部两个成对模型:选取局部网络conv1到conv8部分作为前置部分,然后并联conv10和conv11。
1、成对模型设计过程:
对于成对模型训练,模型前部分与训练好的局部模型一样,后半部分并联两个全连接层,一个是单势场网络模型层,一个是成对模型势场网络层。现定义如下的联合分数函数如下:
式中α,β,γ(α+β+γ=1)为惩罚权重,表示不同势场对联合分数的影响。α为对头部势场影响,β为对耳朵势场的影响,γ为对成对模型的影响。yi(i∈v1)和yj(j∈v2)分别是二元变量,v1和v2分别是头部和耳朵的候选变量,ε为(i,j)形成的头部和耳朵成对的候选集合,也叫边集合。
对应于单个头部和耳朵的特征向量fi和fj,可以得到对应的单一势场值为:
对应于头部和耳朵的联合势场值为:
对于每一个头部和耳朵的成对候选框p,我们计算由联合分数的最大边际差异定义的个体分值sp(ω):
令v1=v2,v1+v2=v,当v数值较小时可以用枚举法精确求解式(4)的最优解。当v数值较大时候,首先用二次伪布尔函数求解式的次优解,标注部分数据候选项;然后对剩余未标注数据用枚举法进行求解并标注。当标注完所有数据后,可以求出成对模型的函数损失。
损失函数定义如下:
其中v(t)=log(1+exp(-t))。
2、成对模型训练:
①首先利用局部模型得到的每张图片Img分数值,按分值从大到小排列,并结合非极大值抑制方法,选择其中头部若干个候选窗口和耳朵若干个候选框,然后对所有的头部和耳朵候选窗口形成头耳对。然后对所有成对数据排序即保证头在左耳朵在右的布局,共可以形成多个候选对。
②用kmeans算法对所有图像候选对进行聚类分析,并对所有样本给出类别编号K即所属的聚类中心;
③去掉局部模型softmax层,将conv8得到的头部特征fi和耳朵特征fj作为初始特征,然后将初始特征同时送入conv10和conv11中。由conv10得到单一势场特征,由conv11得到成对势场特征。对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签,若有未标完的标签运用枚举法求得剩余候选窗口标签。并应用公式(5)计算最终的函数损失值。然后计算模型的梯度微分,反向传递进行参数更新,从而得到损失值最低情况下训练好的模型参数ωU和ωP。
可以得到头部和耳朵的成对模型2,头在左耳朵在右布局。
重复步骤三,获得身体和头部的成对模型1,身体在左头部在右布局。
第四步、利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测:
1、应用SSW分割方法获取被检测图片的候选窗口,将候选窗口送入局部模型进行检测,获得对应类别的局部分数值并按从大到小排列,通过非极大值抑制选择其中每个类别前若干个窗口作为候选项。根据成对模型1和成对模型2,将得到的局部特征作为输入项,分别输入conv10和conv11。得到检测图片的单势场值和成对势场值,最后根据单势场值和成对势场值计算,按得分从大到小排列得到头部候选项集合Ch和耳朵候选项集合Ce。
2、应用成对模型1和局部模型来检测头部的位置:根据身体候选款宽度计算出头部的高度Hh,然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离,向左向右各移动一个头部高度距离,定义该区域为所有与Hs区域相交的候选框作为头部候选框集合Hc。设定αh为头部概率阈值,并将Hc>αh的候选框Hcα作为候选目标。
3、根据身体与头部成对模型1检测得分Sh,按得分从大到小排序选择Ch个头部候选目标。将Hcα与Ch候选框联合联合判断,将两者相交的候选框作为头部候选目标集合Hsec。若相交集合为空,则选择Ch得分较好的几个候选框作为头部目标Hsec集合。
4、根据上一步获得的候选目标Hsec集合,对集合内每一个头部候选框计算对应的耳朵候选目标:将耳朵候选范围设定为以头部左右边界线为基准,头部宽度区间,本发明用高度代替宽度,即为范围内。根据Hsec集合内头部区域,可以计算获得对应的耳朵区域将分割目标集合与区域相交的部分为称为集合Se。将集合Se内所有候选框的按耳朵局部模型得分从高到低排序Sec。然后应用成对模型2得到候选窗口得分集合,将集合包含的头部候选窗口Ce与Hsec包含头部的候选窗口相交。若交集不为空,则选择相交部分作为最终耳朵检测目标集合Cec。若交集为空,则选择所有Ce中得分较大几个作为耳朵检测目标候选框集合Cec。
5、将集合Cec与集合Sec联合判断,求其相交集中成对模型2得分最大的作为最终耳朵目标。若交集为空选择Cec中得分最大的为最终耳朵目标。
6、对耳朵外围轮廓进行曲线演化。以耳朵的矩形候选框作为初始边界,对当前矩形框两倍区域内图像应用C-V(Chan-vese)方法进行曲线演化,获得耳朵的曲线轮廓。令耳朵轮廓像素坐标集合为Pc={pi,j|i,j∈N}。然后分别提取出轮廓曲线中最上、最下、最左、最右像素点的坐标(i,j),根据坐标值重新绘制矩形框,并将其作为最终的耳朵目标区域。
上述步骤三、2、③计算损失值时候,真值标签的权重与背景权重设置是按照真值标签数目与背景标签数目反比值并归一化来设置。
与现有技术相比,本发明的优点是:
1、由于传统耳朵检测方法只能解决头部区域为背景的输入图片,无法实现在大场景下找出耳朵的位置。本发明利用了上下文关联信息,因此可以在包含了整个人物身体的背景图片中找出耳朵位置。
本发明考虑了耳朵客观的上下文关联信息,即无论何时,耳朵一定属于头部某个区域,而头部一定属于人体某个区域。可以利用这种由大到小的层次关系建立上下文关联信息。减少其它特征的干扰,更精确的检测出耳朵的位置。
2、本发明与现有技术不同的地方为:采取了以下的关键步骤,(1)本发明定义了不同类别部件成对时的联合分数,并对不同部件给出了不同的权重参数,同时将空间布局信息以聚类类别形式融入了联合分数中,并以此计算损失函数训练成对模型。(2)耳朵检测时,决策过程联合了局部模型、成对模型1、成对模型2和人体结构,综合决策最终目标位置。并将耳朵候选框运用C-V方法提取其轮廓并重新定位耳朵区域。利用了各个类别部件之间的空间布局先验知识,利用聚类方法将空间信息融入了训练过程。从而在运用两个成对模型检测时候可以利用不同类别部件之间的特征信息,通过部件之间从大到小的空间布局信息增强检测目标的抗干扰能力,有效提高了目标检测的正确率。
附图说明:
图1是本发明方法总体流程图;
图2是局部模型流程图;
图3是成对模型流程图;
图4为模型联合检测示意图。
具体实施方式:
下面将结合附图和实施例对本发明进行详细地描述。
参见图1,本发明提供了一种基于上下文信息的深度学习成对模型人耳检测方法,包括以下步骤:
第一步、对所有图片进行预处理并标注目标:
通过网络采集和个人拍摄获取了700张原始图片,然后对图片进行数据增广处理:图片翻转、图片缩放、图片平移、图片旋转、添加噪声等等操作,共计获得了8000余张图片训练集。然后对所有数据用矩形框对身体、头部、耳朵部分进行类别标注。
第二步:利用迁移学习将Oquab网络修改为四分类局部模型并训练:
迁移学习可以将经过大量数据学习的源网络特征参数转移到具有少量训练样本的新网络。拷贝Oquab网络,并将网络的输出层和最后特征层去除,然后添加一个全连接层(包括ReLu和DropOut)来提取特征和添加四个类别(身体、头、耳和背景)的输出层。对每一张图片运用SSW方法给出建议候选窗口,并将身体、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本。读入每一幅训练图片,并根据所有样本求取图片平均值,然后所有样本减去均值并进行训练,其所有样本求取均值为[Mr,Mg,Mb]。应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数。
局部网络输入图片是224*224*3,整个网络流程如图2所有,参数见表1。
表1网络参数
第三步、根据局部模型,分别训练头部和耳朵、身体和头部两个成对模型:
选取局部网络conv1到conv8部分作为前置部分,然后并联conv10和conv11。将conv10输出的单势场和conv11输出的成对势场输入公式(5)即可获得Loss值。成对网络流程如图3所有,参数见表1。
1、成对模型设计过程:
对于成对模型训练,模型前部分与训练好的局部模型一样,后半部分并联两个全连接层,一个是单势场网络模型层,一个是成对模型势场网络层。现定义如下的联合分数函数如下:
式中α,β,γ(α+β+γ=1)为惩罚权重,表示不同势场对联合分数的影响。α为对头部势场影响,β为对耳朵势场的影响,γ为对成对模型的影响。由于头部目标较大,特征较多,更容易检测,因此出现错误损失的几率更小,因此给予相对较小的权重,而耳朵是小目标,检测困难容易出错,给予较大惩罚项。yi(i∈v1)和yj(j∈v2)分别是二元变量,v1和v2分别是头部和耳朵的候选变量,ε为(i,j)形成的头部和耳朵成对的候选集合,也叫边集合。
对应于单个头部和耳朵的特征向量fi和fj,可以得到对应的单一势场值为:
对应于头部和耳朵的联合势场值为:
对于每一个头部和耳朵的成对候选框p,我们计算由联合分数的最大边际差异定义的个体分值sp(ω):
本文令v1=v2,v1+v2=v,当v数值较小时可以用枚举法精确求解式(4)的最优解。当v数值较大时候,首先用二次伪布尔函数求解式的次优解,标注部分数据候选项;然后对剩余未标注数据用枚举法进行求解并标注。当标注完所有数据后,可以求出成对模型的函数损失。本设计中候选目标数量设定为32,模型对应的图规模较小,属于小规模目标优化。将联合分数的最大边际差异求解转化为二次伪布尔函数优化问题,伪布尔优化函数是一种重要的基础组合优化问题。用最大流最小割图割算法来求解其中部分变量最优解,将剩余未标记变量用枚举法求解,这是一种启发式优化算法,通过快速迭代能够收敛到较好的局部解。
损失函数定义如下:
其中v(t)=log(1+exp(-t))。
2、成对模型训练:
①首先利用局部模型得到的每张图片Img分数值,按分值从大到小排列,并结合非极大值抑制方法,选择其中头部32个候选窗口和耳朵32个候选框,然后对所有的头部和耳朵候选窗口形成头耳对。然后对所有成对数据排序即保证头在左耳朵在右的布局,共可以形成32*32=1024候选对。
②然后用kmeans算法对所有图像候选对进行聚类分析,并对所有样本给出类别编号K即所属的聚类中心,该聚类中心在下一步③计算Loss中要用到,隐含关联存在见公式3中。过程如下:
对所有样本成对模型的候选对即1024N个候选对计算K个聚类中心,本文设定k=16。对所有样本应用kmeans方法进行分析聚类后,并对所有样本给出所属类别编号[1,2,3……16]。聚类过程如下:令头部真值矩形框为[y1,x1,y2,x2],耳朵真值矩形框为[y3,x3,y4,x4],形成头部在左耳朵在右布局对。
(wh,hh)=(x2-x1+1,y2-y1+1) (7)
(we,he)=(x4-x3+1,y4-y3+1) (9)
聚类特征F为:
f1=|Xhc-Xec| (10)
f2=|Yhc-Yec| (11)
F=(f1,f2,f3) (13)
通过特征F应用kmeans方法进行聚类分析。
③去掉局部模型softmax层,将conv8得到的头部特征fi和耳朵特征fj作为初始特征,然后将初始特征同时送入conv10和conv11中。由conv10得到单一势场特征,由conv11得到成对势场特征。对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签,若有未标完的标签运用枚举法求得剩余候选窗口标签。并应用公式(5)计算最终的函数损失值。计算损失值时候,将真值标签的权重比背景权重设置的更大些(按照真值标签数目与背景标签数目反比值并归一化来设置)。这样在标签分错时候将产生更大的损失,也就将损失影响加入了最终Loss中。然后计算模型的梯度微分,反向传递进行参数更新,从而得到损失值最低情况下训练好的模型参数ωU和ωP。
由以上设计过程可以得到头部和耳朵的成对模型2,头在左耳朵在右布局。
重复步骤三,获得身体和头部的成对模型1,身体在左头部在右布局。
第四步、利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测:
由于人耳朵占身体的局部比较小,如何对半身甚至全身为场景的图片进行人耳检测是一个难题。参见图4,本发明训练成对模型1(身体和头)和成对模型2(头和耳朵)以及身体、头部、耳朵局部模型;通过两个成对模型和一个局部模型对耳朵进行联合判断检测。Bkg表示图像背景,bb1表示人体矩形框,bb2表示头部矩形框,bb3表示耳朵矩形框。
1、首先应用SSW分割方法获取被检测图片的候选窗口,将候选窗口送入局部模型进行检测,获得对应类别的局部分数值并按从大到小排列,通过非极大值抑制选择其中每个类别前32个窗口作为候选项。根据成对模型1和成对模型2,将得到的局部特征作为输入项,分别输入conv10和conv11。得到检测图片的单势场值和成对势场值,最后根据单势场值和成对势场值计算,按得分从大到小排列得到头部候选项集合Ch和耳朵候选项集合Ce。
2、应用成对模型1和局部模型来检测头部的位置。由于人体目标较大,特征丰富,因此局部模型容易检测出身体的位置。然后通过身体的位置信息,结合局部模型获得的头部候选框概率进行判断。与身体上部区域内相交的头部候选框,选择其概率较大的作为头部候选集合。根据人体结构比例理论,肩宽大概是头部高度的1.5倍~2.3倍的距离。根据身体候选款宽度可以计算出头部的高度Hh,然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离,向左向右各移动一个头部高度距离,定义该区域为所有与Hs区域相交的候选框作为头部候选框集合Hc。设定αh为头部概率阈值,并将Hc>αh的候选框Hcα作为候选目标。
3、根据身体与头部成对模型1检测得分Sh,按得分从大到小排序选择Ch个头部候选目标。将Hcα与Ch候选框联合联合判断,将两者相交的候选框作为头部候选目标集合Hsec。若相交集合为空,则选择Ch得分较好的几个候选框作为头部目标Hsec集合。
4、根据上一步获得的候选目标Hsec集合,对集合内每一个头部候选框计算对应的耳朵候选目标。根据三庭五眼方法推算,耳朵的位置大概在以人头部高度的中心线为基准,上下各1/3范围内。如果是幼儿,将中心线下移至头部高度下1/3位置。耳朵左右位置大概在头部宽度的左右两侧各1/5。考虑到头部外倾的姿态一般不超过45度,本方法将其进行再向左右外出再扩展1/5范围(如果为了包含特殊情况,可以扩展至3/5范围),以此来衡量耳朵的左右的距离范围。因此,本发明将耳朵候选范围设定为以头部左右边界线为基准,头部宽度区间,本发明用高度代替宽度,即为范围内。根据Hsec集合内头部区域,可以计算获得对应的耳朵区域将分割目标集合与区域相交的部分为称为集合Se。将集合Se内所有候选框的按耳朵局部模型得分从高到低排序Sec。然后应用成对模型2得到候选窗口得分集合,将集合包含的头部候选窗口Ce与Hsec包含头部的候选窗口相交。若交集不为空,则选择相交部分作为最终耳朵检测目标集合Cec。若交集为空,则选择所有Ce中得分较大几个作为耳朵检测目标候选框集合Cec。
5、将集合Cec与集合Sec联合判断,求其相交集中成对模型2得分最大的作为最终耳朵目标。若交集为空选择Cec中得分最大的为最终耳朵目标。
6、对耳朵外围轮廓进行曲线演化。以耳朵的矩形候选框作为初始边界,对当前矩形框两倍区域内图像应用C-V(Chan-vese)方法进行曲线演化,获得耳朵的曲线轮廓。令耳朵轮廓像素坐标集合为Pc={pi,j|i,j∈N}。然后分别提取出轮廓曲线中最上、最下、最左、最右像素点的坐标(i,j),根据坐标值重新绘制矩形框,并将其作为最终的耳朵目标区域。
Claims (2)
1.一种基于上下文信息的深度学习成对模型人耳检测方法,其特征在于:包括以下步骤:
第一步、对所有图片进行预处理并标注目标:获取原始图片,对图片进行数据增广处理,获得原始图片训练集,然后对所有数据用矩形框对身体、头部、耳朵部分进行类别标注;
第二步、利用迁移学习将Oquab网络修改为四分类局部模型并训练:
1)、将Oquab网络的输出层和最后特征层去除,添加一个包括ReLu和DropOut的全连接层提取特征,添加包括身体、头、耳和背景四个类别的输出层;
2)、对每一张图片运用SSW方法给出建议候选窗口,并将人、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本;
3)、读入每一幅训练图片,并根据所有样本求取图片平均值,然后所有样本减去均值并进行训练,其所有样本求取均值为[Mr,Mg,Mb];
4)、应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数;
第三步、根据局部模型,分别训练头部和耳朵、身体和头部两个成对模型:选取局部网络conv1到conv8部分作为前置部分,然后并联conv10和conv11;
1)、成对模型设计过程:
对于成对模型训练,模型前部分与训练好的局部模型一样,后半部分并联两个全连接层,一个是单势场网络模型层,一个是成对模型势场网络层,现定义如下的联合分数函数如下:
式中α,β,γ(α+β+γ=1)为惩罚权重,表示不同势场对联合分数的影响;α为对头部势场影响,β为对耳朵势场的影响,γ为对成对模型的影响;yi和yj分别是二元变量,v1和v2分别是头部和耳朵的候选变量,ε为(i,j)形成的头部和耳朵成对的候选集合,也叫边集合;
对应于单个头部和耳朵的特征向量fi和fj,可以得到对应的单一势场值为:
对应于头部和耳朵的联合势场值为:
对于每一个头部和耳朵的成对候选框p,计算由联合分数的最大边际差异定义的个体分值sp(ω):
令v1=v2,v1+v2=v,当v数值较小时用枚举法精确求解式(4)的最优解;当v数值较大时候,首先用二次伪布尔函数求解式的次优解,标注部分数据候选项;然后对剩余未标注数据用枚举法进行求解并标注,当标注完所有数据后,可以求出成对模型的函数损失;
损失函数定义如下:
其中v(t)=log(1+exp(-t))
2)、成对模型训练:
①首先利用局部模型得到的每张图片Img分数值,按分值从大到小排列,并结合非极大值抑制方法,选择其中头部若干个候选窗口和耳朵若干个候选框,然后对所有的头部和耳朵候选窗口形成头耳对;然后对所有成对数据排序即保证头在左耳朵在右的布局,共可以形成多个候选对;
②用kmeans算法对所有图像候选对进行聚类分析,并对所有样本给出类别编号K即所属的聚类中心;
③去掉局部模型softmax层,将conv8得到的头部特征fi和耳朵特征fj作为初始特征,然后将初始特征同时送入conv10和conv11中;由conv10得到单一势场特征,由conv11得到成对势场特征,对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签,若有未标完的标签运用枚举法求得剩余候选窗口标签,并应用公式(5)计算最终的函数损失值;然后计算模型的梯度微分,反向传递进行参数更新,从而得到损失值最低情况下训练好的模型参数ωU和ωP;
可以得到头部和耳朵的成对模型2,头在左耳朵在右布局;
重复步骤三,获得身体和头部的成对模型1,身体在左头部在右布局;
第四步、利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测:
1)、应用SSW分割方法获取被检测图片的候选窗口,将候选窗口送入局部模型进行检测,获得对应类别的局部分数值并按从大到小排列,通过非极大值抑制选择其中每个类别前若干个窗口作为候选项;根据成对模型1和成对模型2,将得到的局部特征作为输入项,分别输入conv10和convl1;得到检测图片的单势场值和成对势场值,最后根据单势场值和成对势场值计算,按得分从大到小排列得到头部候选项集合Ch和耳朵候选项集合Ce;
2)、应用成对模型1和局部模型来检测头部的位置:根据身体候选款宽度计算出头部的高度Hh,然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离,向左向右各移动一个头部高度距离,定义该区域为所有与Hs区域相交的候选框作为头部候选框集合Hc;设定αh为头部概率阈值,并将Hc>αh的候选框Hcα作为候选目标;
3)、根据身体与头部成对模型1检测得分Sh,按得分从大到小排序选择Ch个头部候选目标;将Hca与Ch候选框联合判断,将两者相交的候选框作为头部候选目标集合Hsec;若相交集合为空,则选择Ch得分较好的几个候选框作为头部目标Hsec集合;
4)、根据上一步获得的候选目标Hsec集合,对集合内每一个头部候选框计算对应的耳朵候选目标:将耳朵候选范围设定为以头部左右边界线为基准,头部宽度区间,用高度代替宽度,即为范围内;根据Hsec集合内头部区域,可以计算获得对应的耳朵区域将分割目标集合与区域相交的部分为称为集合Se;将集合Se内所有候选框的按耳朵局部模型得分从高到低排序Sec;然后应用成对模型2得到候选窗口得分集合,将集合包含的头部候选窗口Ce与Hsec包含头部的候选窗口相交;若交集不为空,则选择相交部分作为最终耳朵检测目标集合Cec,若交集为空,则选择所有Ce中得分较大几个作为耳朵检测目标候选框集合Cec;
5)、将集合Cec与集合Sec联合判断,求其相交集中成对模型2得分最大的作为最终耳朵目标;若交集为空选择Cec中得分最大的为最终耳朵目标;
6)、对耳朵外围轮廓进行曲线演化;以耳朵的矩形候选框作为初始边界,对当前矩形框两倍区域内图像应用C-V(Chan-vese)方法进行曲线演化,获得耳朵的曲线轮廓;令耳朵轮廓像素坐标集合为Pc={pr,c|r,c∈N};然后分别提取出轮廓曲线中最上、最下、最左、最右像素点的坐标(r,c),根据坐标值重新绘制矩形框,并将其作为最终的耳朵目标区域。
2.根据权利要求1所述的一种基于上下文信息的深度学习成对模型人耳检测方法,其特征在于:应用公式(5)计算最终损失值时候,真值标签的权重与背景权重设置是按照真值标签数目与背景标签数目反比值并归一化来设置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165355.2A CN113887428B (zh) | 2021-09-30 | 2021-09-30 | 一种基于上下文信息的深度学习成对模型人耳检测方法 |
US17/889,723 US11521427B1 (en) | 2021-09-30 | 2022-08-17 | Ear detection method with deep learning pairwise model based on contextual information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165355.2A CN113887428B (zh) | 2021-09-30 | 2021-09-30 | 一种基于上下文信息的深度学习成对模型人耳检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887428A CN113887428A (zh) | 2022-01-04 |
CN113887428B true CN113887428B (zh) | 2022-04-19 |
Family
ID=79005090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111165355.2A Active CN113887428B (zh) | 2021-09-30 | 2021-09-30 | 一种基于上下文信息的深度学习成对模型人耳检测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11521427B1 (zh) |
CN (1) | CN113887428B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291979B (zh) * | 2023-09-26 | 2024-04-26 | 北京鹰之眼智能健康科技有限公司 | 一种耳洞定位方法、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551853A (zh) * | 2008-11-14 | 2009-10-07 | 重庆大学 | 复杂静态彩色背景下的人耳检测方法 |
EP2648423A2 (de) * | 2012-04-05 | 2013-10-09 | Siemens Medical Instruments Pte. Ltd. | Einstellen einer Hörgerätevorrichtung |
CN108960076A (zh) * | 2018-06-08 | 2018-12-07 | 东南大学 | 基于卷积神经网络的耳朵识别与跟踪方法 |
CN109086657A (zh) * | 2018-06-08 | 2018-12-25 | 华南理工大学 | 一种基于机器学习的耳朵检测方法、系统及模型 |
CN110728185A (zh) * | 2019-09-10 | 2020-01-24 | 西安工业大学 | 一种判别驾驶人存在手持手机通话行为的检测方法 |
CN111339812A (zh) * | 2019-06-29 | 2020-06-26 | 北京澎思科技有限公司 | 一种基于全部或部分人体结构化特征集的行人识别和再识别的方法、电子设备和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100495427C (zh) * | 2007-07-18 | 2009-06-03 | 重庆大学 | 复杂背景下的人耳检测及多信息融合的人耳识别方法 |
CN102831390A (zh) * | 2012-07-02 | 2012-12-19 | 北京科技大学 | 一种人耳认证系统及方法 |
MY188125A (en) * | 2014-09-15 | 2021-11-22 | Temasek Life Sciences Laboratory | Image recognition system and method |
CN106156739B (zh) | 2016-07-05 | 2019-06-18 | 华南理工大学 | 一种基于脸部轮廓分析的证件照耳朵检测与提取方法 |
CN106650578B (zh) | 2016-09-26 | 2019-05-24 | 浙江大学 | 基于ASM算法和Lazy Snapping算法的耳廓检测方法 |
CN107133616B (zh) * | 2017-04-02 | 2020-08-28 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
CN109934834A (zh) | 2017-12-19 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 图像轮廓提取方法和系统 |
US10423823B1 (en) * | 2018-03-19 | 2019-09-24 | University Of South Florida | Unconstrained ear recognition using a combination of deep learning and handcrafted features |
US11558197B2 (en) * | 2019-04-10 | 2023-01-17 | Korea Institute Of Science And Technology | Method for unlocking mobile device using authentication based on ear recognition and mobile device performing the same |
GB2584152B (en) * | 2019-05-24 | 2024-02-21 | Sony Interactive Entertainment Inc | Method and system for generating an HRTF for a user |
CN111191732B (zh) * | 2020-01-03 | 2021-05-14 | 天津大学 | 一种基于全自动学习的目标检测方法 |
-
2021
- 2021-09-30 CN CN202111165355.2A patent/CN113887428B/zh active Active
-
2022
- 2022-08-17 US US17/889,723 patent/US11521427B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551853A (zh) * | 2008-11-14 | 2009-10-07 | 重庆大学 | 复杂静态彩色背景下的人耳检测方法 |
EP2648423A2 (de) * | 2012-04-05 | 2013-10-09 | Siemens Medical Instruments Pte. Ltd. | Einstellen einer Hörgerätevorrichtung |
CN108960076A (zh) * | 2018-06-08 | 2018-12-07 | 东南大学 | 基于卷积神经网络的耳朵识别与跟踪方法 |
CN109086657A (zh) * | 2018-06-08 | 2018-12-25 | 华南理工大学 | 一种基于机器学习的耳朵检测方法、系统及模型 |
CN111339812A (zh) * | 2019-06-29 | 2020-06-26 | 北京澎思科技有限公司 | 一种基于全部或部分人体结构化特征集的行人识别和再识别的方法、电子设备和存储介质 |
CN110728185A (zh) * | 2019-09-10 | 2020-01-24 | 西安工业大学 | 一种判别驾驶人存在手持手机通话行为的检测方法 |
Non-Patent Citations (1)
Title |
---|
基于混合卷积神经网络的人头检测方法;吉训生;《高技术通讯》;20180415;第28卷(第04期);第313-319页 * |
Also Published As
Publication number | Publication date |
---|---|
US11521427B1 (en) | 2022-12-06 |
CN113887428A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977671B (zh) | 一种基于多任务卷积神经网络的舌象分类方法 | |
CN107610087B (zh) | 一种基于深度学习的舌苔自动分割方法 | |
CN106203395B (zh) | 基于多任务深度学习的人脸属性识别方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
CN104850825B (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN105894047B (zh) | 一种基于三维数据的人脸分类系统 | |
CN106022343B (zh) | 一种基于傅里叶描述子和bp神经网络的服装款式识别方法 | |
CN110334565A (zh) | 一种显微镜病理照片的宫颈癌病变细胞分类系统 | |
CN104598885B (zh) | 街景图像中的文字标牌检测与定位方法 | |
Ahranjany et al. | A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks | |
CN107239777B (zh) | 一种基于多视角图模型的餐具检测和识别方法 | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
CN103996018A (zh) | 基于4dlbp的人脸识别方法 | |
CN108734138A (zh) | 一种基于集成学习的黑色素瘤皮肤病图像分类方法 | |
CN102930300B (zh) | 一种飞机目标识别方法及系统 | |
CN112052772A (zh) | 一种人脸遮挡检测算法 | |
CN114038037B (zh) | 基于可分离残差注意力网络的表情标签修正和识别方法 | |
CN107220655A (zh) | 一种基于深度学习的手写、印刷文本的分类方法 | |
CN109033978A (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN110599463A (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN111241957A (zh) | 一种基于多特征融合和de-elm的手指静脉活体检测方法 | |
CN113887428B (zh) | 一种基于上下文信息的深度学习成对模型人耳检测方法 | |
CN106339665A (zh) | 一种人脸的快速检测方法 | |
CN114863125A (zh) | 一种书法/美术作品智能评分方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |