CN113887428B

CN113887428B - 一种基于上下文信息的深度学习成对模型人耳检测方法

Info

Publication number: CN113887428B
Application number: CN202111165355.2A
Authority: CN
Inventors: 孙雷; 王洪喜; 王冠伟
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-04-19
Anticipated expiration: 2041-09-30
Also published as: US11521427B1; CN113887428A

Abstract

本发明涉及生物特征识别技术领域，特别涉及一种基于上下文信息的深度学习成对模型人耳检测方法。本发明克服现有技术存在的不能针对大场景尤其是包含整个人物身体的背景图片中找出耳朵位置的问题。其技术方案是：一种基于上下文信息的深度学习成对模型人耳检测方法，其步骤：首先对所有图片进行预处理并标注目标；其次利用迁移学习将Oquab网络修改为四分类局部模型并训练；再次根据局部模型，分别训练头部和耳朵、身体和头部两个成对模型；最后利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测。本发明利用这种由大到小的层次关系建立上下文关联信息，可减少其他特征的干扰，更精确的检测出耳朵的位置。

Description

一种基于上下文信息的深度学习成对模型人耳检测方法

技术领域：

本发明涉及生物特征识别方法技术领域，特别涉及一种基于上下文信息的深度学习成对模型人耳检测方法。

背景技术：

生物特征识别的研究还处于发展阶段,任何一种生物特征都不是完美的,都有其固有的局限性。人耳识别作为一种新的生物特征识别技术,具有其自身的独特优势,以其自然性、较高的用户可接受性等优点受到了越来越多的关注。它是对生物特征识别领域的一种拓广,可以弥补人脸识别、虹膜识别技术上的不足。因此人耳的自动检测与识别是模式识别领域中一个较新的研究方向。人耳朵的检测是识别的重要前提。人耳检测是把整个人耳的全体作为一类模式,着重研究人耳的共性。人耳识别是把人耳个体作为一类模式,着重研究人耳的个性。对于一个完整的全自动人耳识别系统,二者都是不可缺少的重要组成部分。人耳检测和人耳识别关注的都与人耳图像特征有关,但由于其关注的角度不同,又形成它们不同的解决方案。人耳检测的内容是从一幅侧脸图像上将被检测对象分割出来包括确定其位置、大小。人耳识别是在已经检测得到耳朵的条件下识别出不同耳朵的类别。

CN109934834A,图像轮廓提取方法和系统，该专利提取的耳朵轮廓的方法主要是以检测到的耳朵矩形框为前提条件。CN106156739B,一种基于脸部轮廓分析的证件照耳朵检测与提取方法，该专利主要输入图像主要是证件照，也就是是以头部区域作为整个输入图片，耳朵背景区域单一且确定。CN109086657A,一种基于机器学习的耳朵检测方法、系统及模型，该发明采用的是超高分辨率侧脸照片，也就是说输入的原始图片位包含耳朵侧脸部位的局部图像，耳朵背景区域单一且干净。CN106650578A,基于ASM算法和Lazy Snapping算法的耳廓检测方法，通过检测耳廓上的特征点来实现耳朵曲线的输出，该方法输入图片是一个已经检测出的耳朵矩形框。有的学者提出了一种简单高效的从侧脸图像中检测人耳的方法,用图形指数的平均灰度值变化曲线来描述耳朵的模型模板。在在线检测阶段,利用阶跃边缘检测和闽值化、图像放大等步骤找到耳朵的可能区域，然后将形状指数和模板差异最小区域作为耳朵的目标区域。有的学者提出基于肤色统计模型的动态人耳检测方法。首先根据自适应背景模型从彩色序列图像中提取出运动物体,再运用色彩信息分割出肤色区域,然后用人耳模板在该区域内搜索匹配。

以上都是传统的基于特征的人耳检测方法,随着技术的发展基于CNN深度学习越来越受到众多学者的青睐。目前深度学习的检测方法大概分为两类，一类是以RCNN系列为代表的基于候选框两阶段深度学习目标检测算法；另一类是以YOLO系列为代表的基于回归方法的单阶段深度学习目标检测算法。但是不管哪一类算法直接应用在耳朵目标检测上都无法针对大场景下，尤其是包含了整个人物身体的背景图片中找出耳朵位置的问题。

发明内容：

本发明要提供一种基于上下文信息的深度学习成对模型人耳检测方法，以克服现有技术存在的不能针对大场景下，尤其是包含了整个人物身体的背景图片中找出耳朵位置的问题。

为了实现本发明的目的，本发明提供的技术方案是：一种基于上下文信息的深度学习成对模型人耳检测方法，包括以下步骤：

第一步、对所有图片进行预处理并标注目标：获取原始图片，对图片进行数据增广处理，获得原始图片训练集，然后对所有数据用矩形框对身体、头部、耳朵部分进行类别标注；

第二步、利用迁移学习将Oquab网络修改为四分类局部模型并训练：

1、将Oquab网络网络的输出层和最后特征层去除，添加一个包括ReLu和DropOut的全连接层提取特征，添加包括身体、头、耳和背景四个类别的输出层；

2、对每一张图片运用SSW方法给出建议候选窗口，并将人、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本；

3、读入每一幅训练图片，并根据所有样本求取图片平均值，然后所有样本减去均值并进行训练，其所有本求取均值为[M_r，M_g,M_b]；

4、应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数；

第三步、根据局部模型，分别训练头部和耳朵、身体和头部两个成对模型：选取局部网络conv1到conv8部分作为前置部分，然后并联conv10和conv11。

1、成对模型设计过程：

对于成对模型训练，模型前部分与训练好的局部模型一样，后半部分并联两个全连接层，一个是单势场网络模型层，一个是成对模型势场网络层。现定义如下的联合分数函数如下：

式中α,β,γ(α+β+γ＝1)为惩罚权重，表示不同势场对联合分数的影响。α为对头部势场影响，β为对耳朵势场的影响，γ为对成对模型的影响。y_i(i∈v₁)和y_j(j∈v₂)分别是二元变量，v₁和v₂分别是头部和耳朵的候选变量，ε为(i,j)形成的头部和耳朵成对的候选集合，也叫边集合。

对应于单个头部和耳朵的特征向量f_i和f_j,可以得到对应的单一势场值为：

对应于头部和耳朵的联合势场值为：

将候选框特征f_i和f_j映射为

和

将头和耳朵成对的候选特征映射为向量，

其中第k部件对应于第k个聚类中心索引，ω^U,ω^P为可训练的参数。

对于每一个头部和耳朵的成对候选框p，我们计算由联合分数的最大边际差异定义的个体分值s_p(ω):

令v₁＝v₂,v₁+v₂＝v,当v数值较小时可以用枚举法精确求解式(4)的最优解。当v数值较大时候，首先用二次伪布尔函数求解式的次优解，标注部分数据候选项；然后对剩余未标注数据用枚举法进行求解并标注。当标注完所有数据后，可以求出成对模型的函数损失。

损失函数定义如下：

其中v(t)＝log(1+exp(-t))。

2、成对模型训练：

①首先利用局部模型得到的每张图片Img分数值，按分值从大到小排列，并结合非极大值抑制方法，选择其中头部若干个候选窗口和耳朵若干个候选框，然后对所有的头部和耳朵候选窗口形成头耳对。然后对所有成对数据排序即保证头在左耳朵在右的布局，共可以形成多个候选对。

②用kmeans算法对所有图像候选对进行聚类分析,并对所有样本给出类别编号K即所属的聚类中心；

③去掉局部模型softmax层，将conv8得到的头部特征f_i和耳朵特征f_j作为初始特征，然后将初始特征同时送入conv10和conv11中。由conv10得到单一势场特征，由conv11得到成对势场特征。对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签，若有未标完的标签运用枚举法求得剩余候选窗口标签。并应用公式(5)计算最终的函数损失值。然后计算模型的梯度微分，反向传递进行参数更新，从而得到损失值最低情况下训练好的模型参数ω^U和ω^P。

可以得到头部和耳朵的成对模型2，头在左耳朵在右布局。

重复步骤三，获得身体和头部的成对模型1,身体在左头部在右布局。

第四步、利用局部模型、成对模型1、成对模型2及人体特征对耳朵联合检测：

1、应用SSW分割方法获取被检测图片的候选窗口，将候选窗口送入局部模型进行检测，获得对应类别的局部分数值并按从大到小排列，通过非极大值抑制选择其中每个类别前若干个窗口作为候选项。根据成对模型1和成对模型2，将得到的局部特征作为输入项，分别输入conv10和conv11。得到检测图片的单势场值和成对势场值,最后根据单势场值和成对势场值计算,按得分从大到小排列得到头部候选项集合C_h和耳朵候选项集合C_e。

2、应用成对模型1和局部模型来检测头部的位置：根据身体候选款宽度计算出头部的高度H_h，然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离,向左向右各移动一个头部高度距离，定义该区域为

所有与H_s区域相交的候选框作为头部候选框集合H_c。设定α_h为头部概率阈值,并将H_c＞α_h的候选框H_cα作为候选目标。

3、根据身体与头部成对模型1检测得分S_h，按得分从大到小排序选择C_h个头部候选目标。将H_cα与C_h候选框联合联合判断,将两者相交的候选框作为头部候选目标集合H_sec。若相交集合为空，则选择C_h得分较好的几个候选框作为头部目标H_sec集合。

4、根据上一步获得的候选目标H_sec集合，对集合内每一个头部候选框计算对应的耳朵候选目标：将耳朵候选范围设定为以头部左右边界线为基准，头部宽度

区间，本发明用高度代替宽度，即为

范围内。根据H_sec集合内头部区域，可以计算获得对应的耳朵区域

将分割目标集合与区域

相交的部分为称为集合S_e。将集合S_e内所有候选框的按耳朵局部模型得分从高到低排序S_ec。然后应用成对模型2得到候选窗口得分集合,将集合包含的头部候选窗口C_e与H_sec包含头部的候选窗口相交。若交集不为空，则选择相交部分作为最终耳朵检测目标集合C_ec。若交集为空，则选择所有C_e中得分较大几个作为耳朵检测目标候选框集合C_ec。

5、将集合C_ec与集合S_ec联合判断，求其相交集中成对模型2得分最大的作为最终耳朵目标。若交集为空选择C_ec中得分最大的为最终耳朵目标。

6、对耳朵外围轮廓进行曲线演化。以耳朵的矩形候选框作为初始边界，对当前矩形框两倍区域内图像应用C-V(Chan-vese)方法进行曲线演化，获得耳朵的曲线轮廓。令耳朵轮廓像素坐标集合为P_c＝{p_i,j|i,j∈N}。然后分别提取出轮廓曲线中最上、最下、最左、最右像素点的坐标(i,j)，根据坐标值重新绘制矩形框，并将其作为最终的耳朵目标区域。

上述步骤三、2、③计算损失值时候，真值标签的权重与背景权重设置是按照真值标签数目与背景标签数目反比值并归一化来设置。

与现有技术相比，本发明的优点是：

1、由于传统耳朵检测方法只能解决头部区域为背景的输入图片，无法实现在大场景下找出耳朵的位置。本发明利用了上下文关联信息，因此可以在包含了整个人物身体的背景图片中找出耳朵位置。

本发明考虑了耳朵客观的上下文关联信息，即无论何时，耳朵一定属于头部某个区域，而头部一定属于人体某个区域。可以利用这种由大到小的层次关系建立上下文关联信息。减少其它特征的干扰，更精确的检测出耳朵的位置。

2、本发明与现有技术不同的地方为：采取了以下的关键步骤，(1)本发明定义了不同类别部件成对时的联合分数，并对不同部件给出了不同的权重参数，同时将空间布局信息以聚类类别形式融入了联合分数中，并以此计算损失函数训练成对模型。(2)耳朵检测时，决策过程联合了局部模型、成对模型1、成对模型2和人体结构，综合决策最终目标位置。并将耳朵候选框运用C-V方法提取其轮廓并重新定位耳朵区域。利用了各个类别部件之间的空间布局先验知识，利用聚类方法将空间信息融入了训练过程。从而在运用两个成对模型检测时候可以利用不同类别部件之间的特征信息，通过部件之间从大到小的空间布局信息增强检测目标的抗干扰能力，有效提高了目标检测的正确率。

附图说明：

图1是本发明方法总体流程图；

图2是局部模型流程图；

图3是成对模型流程图；

图4为模型联合检测示意图。

具体实施方式：

下面将结合附图和实施例对本发明进行详细地描述。

参见图1，本发明提供了一种基于上下文信息的深度学习成对模型人耳检测方法，包括以下步骤：

第一步、对所有图片进行预处理并标注目标：

通过网络采集和个人拍摄获取了700张原始图片，然后对图片进行数据增广处理：图片翻转、图片缩放、图片平移、图片旋转、添加噪声等等操作，共计获得了8000余张图片训练集。然后对所有数据用矩形框对身体、头部、耳朵部分进行类别标注。

第二步：利用迁移学习将Oquab网络修改为四分类局部模型并训练：

迁移学习可以将经过大量数据学习的源网络特征参数转移到具有少量训练样本的新网络。拷贝Oquab网络，并将网络的输出层和最后特征层去除，然后添加一个全连接层(包括ReLu和DropOut)来提取特征和添加四个类别(身体、头、耳和背景)的输出层。对每一张图片运用SSW方法给出建议候选窗口，并将身体、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本。读入每一幅训练图片，并根据所有样本求取图片平均值，然后所有样本减去均值并进行训练，其所有样本求取均值为[M_r，M_g,M_b]。应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数。

局部网络输入图片是224*224*3，整个网络流程如图2所有，参数见表1。

表1网络参数

第三步、根据局部模型，分别训练头部和耳朵、身体和头部两个成对模型：

选取局部网络conv1到conv8部分作为前置部分，然后并联conv10和conv11。将conv10输出的单势场和conv11输出的成对势场输入公式(5)即可获得Loss值。成对网络流程如图3所有，参数见表1。

1、成对模型设计过程：

式中α,β,γ(α+β+γ＝1)为惩罚权重，表示不同势场对联合分数的影响。α为对头部势场影响，β为对耳朵势场的影响，γ为对成对模型的影响。由于头部目标较大，特征较多，更容易检测，因此出现错误损失的几率更小，因此给予相对较小的权重，而耳朵是小目标，检测困难容易出错，给予较大惩罚项。y_i(i∈v₁)和y_j(j∈v₂)分别是二元变量，v₁和v₂分别是头部和耳朵的候选变量，ε为(i,j)形成的头部和耳朵成对的候选集合，也叫边集合。

对应于头部和耳朵的联合势场值为：

将候选框特征f_i和f_j映射为

和

将头和耳朵成对的候选特征映射为向量，

本文令v₁＝v₂,v₁+v₂＝v,当v数值较小时可以用枚举法精确求解式(4)的最优解。当v数值较大时候，首先用二次伪布尔函数求解式的次优解，标注部分数据候选项；然后对剩余未标注数据用枚举法进行求解并标注。当标注完所有数据后，可以求出成对模型的函数损失。本设计中候选目标数量设定为32，模型对应的图规模较小，属于小规模目标优化。将联合分数的最大边际差异求解转化为二次伪布尔函数优化问题，伪布尔优化函数是一种重要的基础组合优化问题。用最大流最小割图割算法来求解其中部分变量最优解，将剩余未标记变量用枚举法求解,这是一种启发式优化算法，通过快速迭代能够收敛到较好的局部解。

损失函数定义如下：

其中v(t)＝log(1+exp(-t))。

2、成对模型训练：

①首先利用局部模型得到的每张图片Img分数值，按分值从大到小排列，并结合非极大值抑制方法，选择其中头部32个候选窗口和耳朵32个候选框，然后对所有的头部和耳朵候选窗口形成头耳对。然后对所有成对数据排序即保证头在左耳朵在右的布局，共可以形成32*32＝1024候选对。

②然后用kmeans算法对所有图像候选对进行聚类分析,并对所有样本给出类别编号K即所属的聚类中心，该聚类中心在下一步③计算Loss中要用到，隐含关联存在见公式3中。过程如下：

对所有样本成对模型的候选对即1024N个候选对计算K个聚类中心，本文设定k＝16。对所有样本应用kmeans方法进行分析聚类后，并对所有样本给出所属类别编号[1,2,3……16]。聚类过程如下：令头部真值矩形框为[y₁,x₁,y₂,x₂],耳朵真值矩形框为[y₃,x₃,y₄,x₄],形成头部在左耳朵在右布局对。

(w_h,h_h)＝(x_2-x₁+1,y₂-y₁+1) (7)

(w_e,h_e)＝(x₄-x₃+1,y₄-y₃+1) (9)

聚类特征F为：

f₁＝|X_hc-X_ec| (10)

f₂＝|Y_hc-Y_ec| (11)

F＝(f₁,f₂,f₃) (13)

通过特征F应用kmeans方法进行聚类分析。

③去掉局部模型softmax层，将conv8得到的头部特征f_i和耳朵特征f_j作为初始特征，然后将初始特征同时送入conv10和conv11中。由conv10得到单一势场特征，由conv11得到成对势场特征。对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签，若有未标完的标签运用枚举法求得剩余候选窗口标签。并应用公式(5)计算最终的函数损失值。计算损失值时候，将真值标签的权重比背景权重设置的更大些(按照真值标签数目与背景标签数目反比值并归一化来设置)。这样在标签分错时候将产生更大的损失，也就将损失影响加入了最终Loss中。然后计算模型的梯度微分，反向传递进行参数更新，从而得到损失值最低情况下训练好的模型参数ω^U和ω^P。

由以上设计过程可以得到头部和耳朵的成对模型2，头在左耳朵在右布局。

由于人耳朵占身体的局部比较小，如何对半身甚至全身为场景的图片进行人耳检测是一个难题。参见图4，本发明训练成对模型1(身体和头)和成对模型2(头和耳朵)以及身体、头部、耳朵局部模型；通过两个成对模型和一个局部模型对耳朵进行联合判断检测。Bkg表示图像背景，bb1表示人体矩形框，bb2表示头部矩形框,bb3表示耳朵矩形框。

1、首先应用SSW分割方法获取被检测图片的候选窗口，将候选窗口送入局部模型进行检测，获得对应类别的局部分数值并按从大到小排列，通过非极大值抑制选择其中每个类别前32个窗口作为候选项。根据成对模型1和成对模型2，将得到的局部特征作为输入项，分别输入conv10和conv11。得到检测图片的单势场值和成对势场值,最后根据单势场值和成对势场值计算,按得分从大到小排列得到头部候选项集合C_h和耳朵候选项集合C_e。

2、应用成对模型1和局部模型来检测头部的位置。由于人体目标较大，特征丰富，因此局部模型容易检测出身体的位置。然后通过身体的位置信息，结合局部模型获得的头部候选框概率进行判断。与身体上部区域内相交的头部候选框，选择其概率较大的作为头部候选集合。根据人体结构比例理论，肩宽大概是头部高度的1.5倍～2.3倍的距离。根据身体候选款宽度可以计算出头部的高度H_h，然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离,向左向右各移动一个头部高度距离，定义该区域为

4、根据上一步获得的候选目标H_sec集合，对集合内每一个头部候选框计算对应的耳朵候选目标。根据三庭五眼方法推算，耳朵的位置大概在以人头部高度的中心线为基准，上下各1/3范围内。如果是幼儿，将中心线下移至头部高度下1/3位置。耳朵左右位置大概在头部宽度的左右两侧各1/5。考虑到头部外倾的姿态一般不超过45度，本方法将其进行再向左右外出再扩展1/5范围(如果为了包含特殊情况，可以扩展至3/5范围)，以此来衡量耳朵的左右的距离范围。因此，本发明将耳朵候选范围设定为以头部左右边界线为基准，头部宽度

区间，本发明用高度代替宽度，即为

将分割目标集合与区域

Claims

1.一种基于上下文信息的深度学习成对模型人耳检测方法，其特征在于：包括以下步骤：

1)、将Oquab网络的输出层和最后特征层去除，添加一个包括ReLu和DropOut的全连接层提取特征，添加包括身体、头、耳和背景四个类别的输出层；

2)、对每一张图片运用SSW方法给出建议候选窗口，并将人、头部、耳朵的真值一起加入建议候选窗口,形成初始训练样本；

3)、读入每一幅训练图片，并根据所有样本求取图片平均值，然后所有样本减去均值并进行训练，其所有样本求取均值为[M_r，M_g,M_b]；

4)、应用设置好的网络结构,采用带动量的随机梯度下降法来训练局部网络模型参数；

第三步、根据局部模型，分别训练头部和耳朵、身体和头部两个成对模型：选取局部网络conv1到conv8部分作为前置部分，然后并联conv10和conv11；

1)、成对模型设计过程：

对于成对模型训练，模型前部分与训练好的局部模型一样，后半部分并联两个全连接层，一个是单势场网络模型层，一个是成对模型势场网络层,现定义如下的联合分数函数如下：

式中α,β,γ(α+β+γ＝1)为惩罚权重，表示不同势场对联合分数的影响；α为对头部势场影响，β为对耳朵势场的影响，γ为对成对模型的影响；y_i和y_j分别是二元变量，v₁和v₂分别是头部和耳朵的候选变量，ε为(i,j)形成的头部和耳朵成对的候选集合，也叫边集合；

对应于头部和耳朵的联合势场值为：

将候选框特征f_i和f_j映射为

和

将头和耳朵成对的候选特征映射为向量，

其中第k部件对应于第k个聚类中心索引，ω^U,ω^P为可训练的参数；

对于每一个头部和耳朵的成对候选框p，计算由联合分数的最大边际差异定义的个体分值s_p(ω):

令v₁＝v₂,v₁+v₂＝v,当v数值较小时用枚举法精确求解式(4)的最优解；当v数值较大时候，首先用二次伪布尔函数求解式的次优解，标注部分数据候选项；然后对剩余未标注数据用枚举法进行求解并标注，当标注完所有数据后，可以求出成对模型的函数损失；

损失函数定义如下：

其中v(t)＝log(1+exp(-t))

2)、成对模型训练：

①首先利用局部模型得到的每张图片Img分数值，按分值从大到小排列，并结合非极大值抑制方法，选择其中头部若干个候选窗口和耳朵若干个候选框，然后对所有的头部和耳朵候选窗口形成头耳对；然后对所有成对数据排序即保证头在左耳朵在右的布局，共可以形成多个候选对；

③去掉局部模型softmax层，将conv8得到的头部特征f_i和耳朵特征f_j作为初始特征，然后将初始特征同时送入conv10和conv11中；由conv10得到单一势场特征，由conv11得到成对势场特征，对公式(4)运用最大流最小割方法标定所有的候选窗口的类别标签，若有未标完的标签运用枚举法求得剩余候选窗口标签，并应用公式(5)计算最终的函数损失值；然后计算模型的梯度微分，反向传递进行参数更新，从而得到损失值最低情况下训练好的模型参数ω^U和ω^P；

可以得到头部和耳朵的成对模型2，头在左耳朵在右布局；

重复步骤三，获得身体和头部的成对模型1，身体在左头部在右布局；

1)、应用SSW分割方法获取被检测图片的候选窗口，将候选窗口送入局部模型进行检测，获得对应类别的局部分数值并按从大到小排列，通过非极大值抑制选择其中每个类别前若干个窗口作为候选项；根据成对模型1和成对模型2，将得到的局部特征作为输入项，分别输入conv10和convl1；得到检测图片的单势场值和成对势场值，最后根据单势场值和成对势场值计算，按得分从大到小排列得到头部候选项集合C_h和耳朵候选项集合C_e；

2)、应用成对模型1和局部模型来检测头部的位置：根据身体候选款宽度计算出头部的高度H_h，然后以身体候选框顶中心部区域各向上和向下移动一个头部高度距离，向左向右各移动一个头部高度距离，定义该区域为

所有与H_s区域相交的候选框作为头部候选框集合H_c；设定α_h为头部概率阈值，并将H_c＞α_h的候选框H_cα作为候选目标；

3)、根据身体与头部成对模型1检测得分S_h，按得分从大到小排序选择C_h个头部候选目标；将H_ca与C_h候选框联合判断，将两者相交的候选框作为头部候选目标集合H_sec；若相交集合为空，则选择C_h得分较好的几个候选框作为头部目标H_sec集合；

4)、根据上一步获得的候选目标H_sec集合，对集合内每一个头部候选框计算对应的耳朵候选目标：将耳朵候选范围设定为以头部左右边界线为基准，头部宽度

区间，用高度代替宽度，即为

范围内；根据H_sec集合内头部区域，可以计算获得对应的耳朵区域

将分割目标集合与区域

相交的部分为称为集合Se；将集合Se内所有候选框的按耳朵局部模型得分从高到低排序S_ec；然后应用成对模型2得到候选窗口得分集合，将集合包含的头部候选窗口C_e与H_sec包含头部的候选窗口相交；若交集不为空，则选择相交部分作为最终耳朵检测目标集合C_ec，若交集为空，则选择所有C_e中得分较大几个作为耳朵检测目标候选框集合C_ec；

5)、将集合C_ec与集合S_ec联合判断，求其相交集中成对模型2得分最大的作为最终耳朵目标；若交集为空选择C_ec中得分最大的为最终耳朵目标；

6)、对耳朵外围轮廓进行曲线演化；以耳朵的矩形候选框作为初始边界，对当前矩形框两倍区域内图像应用C-V(Chan-vese)方法进行曲线演化，获得耳朵的曲线轮廓；令耳朵轮廓像素坐标集合为P_c＝{p_r，c|r，c∈N}；然后分别提取出轮廓曲线中最上、最下、最左、最右像素点的坐标(r，c)，根据坐标值重新绘制矩形框，并将其作为最终的耳朵目标区域。

2.根据权利要求1所述的一种基于上下文信息的深度学习成对模型人耳检测方法，其特征在于：应用公式(5)计算最终损失值时候，真值标签的权重与背景权重设置是按照真值标签数目与背景标签数目反比值并归一化来设置。