CN111932604A

CN111932604A - 人耳特征距离测量的方法和装置

Info

Publication number: CN111932604A
Application number: CN202010858219.0A
Authority: CN
Inventors: 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-13

Abstract

本申请公开了一种人耳特征距离测量的方法和装置，属于图像处理技术领域。所述方法包括：获取人耳图像，所述人耳图像包括人耳和预设的参照物；识别所述人耳中的各个人耳特征点，并基于所述各个人耳特征点，确定人耳特征像素距离；确定所述参照物的像素尺寸和所述参照物的实际尺寸；基于所述人耳特征像素距离、所述参照物的像素尺寸和所述参照物的实际尺寸，确定所述人耳的人耳特征距离。采用本申请，可以由计算机设备自动的确定出人耳特征距离，从而，降低了用户的学习成本，并提高了人耳特征距离测量的准确度。

Description

人耳特征距离测量的方法和装置

技术领域

本申请涉及图像处理技术领域，具体涉及一种人耳特征距离测量的方法和装置。

背景技术

HRTF(Head Related Transfer Function，头相关函数)用来描述空间中任意一个点声源到达双耳鼓膜处的频率响应系统。通过采用HRTF处理技术，使得用户使用耳机时也能体验到逼真的立体环绕音效。在HRTF建模的数据准备阶段，需要统计人耳的特征距离。而由于不同人的耳朵形状各不相同，所以为了提高HRTF的准确性，需要统计大量的人耳特征距离。

相关技术中，通常采用人工手动测量的方法，得到所要求的的人耳特征距离。在实现本申请的过程中，申请人发现相关技术中至少存在以下问题：用户需要学习人耳特征距离相关的知识，才能进行人耳特征距离的测量，用户的学习成本较高。并且，人工测量的准确度也较低。

发明内容

本申请实施例提供了一种人耳特征距离测量的方法和装置，可以解决相关技术中存在的技术问题。所述人耳特征距离测量的的方法和装置的技术方案如下：

第一方面，提供了一种人耳特征距离测量的方法，所述方法包括：

获取人耳图像，所述人耳图像包括人耳和预设的参照物；

识别所述人耳中的各个人耳特征点，并基于所述各个人耳特征点，确定人耳特征像素距离；

确定所述参照物的像素尺寸和所述参照物的实际尺寸；

基于所述人耳特征像素距离、所述参照物的像素尺寸和所述参照物的实际尺寸，确定所述人耳的人耳特征距离。

在一种可能的实现方式中，所述获取人耳图像，包括：

拍摄包含人耳和预设的参照物的视频；

实时检测所述视频是否包含符合设定标准的人耳图像；

如果检测到符合所述设定标准的人耳图像，则获取所述人耳图像。

在一种可能的实现方式中，所述实时检测所述视频是否包含符合设定标准的人耳图像，包括：

对于所述视频中的每一视频帧，基于OpenCV中的人耳检测器，检测所述视频帧中的人耳；

在检测出的一个或多个人耳中，确定尺寸最大的人耳作为目标人耳；

确定所述目标人耳在所述视频帧中的位置和尺寸，是否分别在设定的位置范围和尺寸范围内；

基于包含所述视频帧的视频段中所述目标人耳的尺寸和位置的变化幅度，确定所述视频帧是否处于稳定状态。

在一种可能的实现方式中，所述方法还包括：

如果在设定拍摄时长之后，仍然检测不到符合所述设定标准的人耳图像，则输出提示信息，所述提示信息用于引导用户变换拍摄姿势。

在一种可能的实现方式中，所述识别所述人耳中的各个人耳特征点，包括：

基于OpenCV中的人耳检测器，确定所述人耳图像中的人耳的位置和尺寸；

基于所述人耳的位置和尺寸，对ASM(Active Shape Model，主动形状模型)模型进行初始化配置；

基于初始化配置后的ASM模型，识别所述人耳中的各个人耳特征点。

在一种可能的实现方式中，所述基于所述各个人耳特征点，确定人耳特征像素距离之后，所述方法还包括：

在所述人耳图像中显示所述各个人耳特征点，并显示所述人耳特征像素距离的标记。

在一种可能的实现方式中，所述在所述人耳图像中显示所述各个人耳特征点，并显示所述人耳特征像素距离的标记之后，所述方法还包括：

接收对应于所述人耳特征像素距离的标记的调整指令；

基于所述调整指令，调整确定出的所述人耳特征像素距离。

在一种可能的实现方式中，所述基于所述人耳特征像素距离、所述参照物的像素尺寸和所述参照物的实际尺寸，确定所述人耳的人耳特征距离，包括：

基于所述参照物的实际尺寸和所述参照物的像素尺寸，确定映射比例；

基于所述人耳特征像素距离和所述映射比例，确定所述人耳特征距离。

在一种可能的实现方式中，所述人耳特征距离包括外耳腔的高、外耳腔的宽、耳窝的高、外耳廓的高和外耳廓的宽中的一种或多种。

第二方面，提供了一种人耳特征距离测量的装置，所述装置包括：

获取模块，用于获取人耳图像，所述人耳图像包括人耳和预设的参照物；

识别模块，用于识别所述人耳中的各个人耳特征点，并基于所述各个人耳特征点，确定人耳特征像素距离；

确定模块，用于确定所述参照物的像素尺寸和所述参照物的实际尺寸；

所述确定模块，还用于基于所述人耳特征像素距离、所述参照物的像素尺寸和所述参照物的实际尺寸，确定所述人耳的人耳特征距离。

在一种可能的实现方式中，所述获取模块，用于：

拍摄包含人耳和预设的参照物的视频；

实时检测所述视频是否包含符合设定标准的人耳图像；

在一种可能的实现方式中，所述获取模块，用于：

在一种可能的实现方式中，所述装置还包括显示模块，所述显示模块用于：

在一种可能的实现方式中，所述识别模块，用于：

基于所述人耳的位置和尺寸，对ASM模型进行初始化配置；

在一种可能的实现方式中，所述装置还包括调整模块，所述调整模块用于：

接收对应于所述人耳特征像素距离的标记的调整指令；

基于所述调整指令，调整确定出的所述人耳特征像素距离。

在一种可能的实现方式中，所述确定模块，用于：

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如第一方面所述的人耳特征距离测量的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如第一方面所述的人耳特征距离测量的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的人耳特征距离测量的方法，通过识别人耳图像中的各个人耳特征点，并根据人耳特征点确定人耳特征像素距离。之后，根据人耳特征像素距离，以及人耳图像中的参照物的实际尺寸和像素尺寸，可以自动确定出人耳图像中的人耳的人耳特征距离。从而，通过采用本申请提供的技术方案，可以降低用户的学习成本，并提高人耳特征距离测量的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种人耳特征距离测量的方法的流程图；

图2是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图3是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图4是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图5是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图6是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图7是本申请实施例提供的一种包含人耳特征点的图像的示意图；

图8是本申请实施例提供的一种人耳特征距离测量的装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种人耳特征距离测量的方法，该方法可以由终端实现，也可以由服务器实现，还可以由服务器和终端共同实现。具体的，参照图1，步骤101-104可以全部由终端执行，也可以全部由服务器执行，还可以某些步骤由终端执行，某些步骤由服务器执行，例如，步骤101可以由终端执行，步骤102-104可以由服务器执行。

本申请实施例提供的人耳特征距离测量的方法，可以用于自动确定人耳图像中的人耳的人耳特征距离，对于用户来说，只需要提供符合标准的人耳图像即可。本申请实施例提供的技术方案，通过实现人耳特征距离的自动测量，明确了所要测量的人耳特征距离的物理定义，避免产生人为理解的歧义，使得人耳特征距离的定义不再是造成测量误差的主要原因。无论是专业的测量员，还是用户本身，都不必投入时间成本去理解这些特征距离的定义，这大大降低了人耳特征距离的测量门槛，提升了数据采集的效率。另外，将人耳特征距离的测量转化为间接的特征点标注，可明显提高人耳特征距离测量的准确度。为后续HRTF(Head Related Transfer Function，头相关函数)建模提供了准确且高效的数据支撑。

如图1所示，本申请实施例提供的人耳特征距离测量的方法的处理流程可以包括如下步骤：

在步骤101中，获取人耳图像，人耳图像包括人耳和预设的参照物。

其中，预设参照物的种类可以有多种。为了使得参照物的实际尺寸可以更加容易且准确的确定，可以选择标准尺寸的物体作为参照物。例如，可以是银行卡、纸币和硬币等。为了提高本申请实施例提供的人耳特征距离测量的方法的适用性，可以支持多种参照物。

在实施中，计算机设备在确定人耳图像中的人耳特征距离时，首先需要获取到人耳图像，且该人耳图像必须符合一定的标准。其中，该计算机设备可以是终端，也可以是服务器。

在一种可能的实现方式中，步骤101可以由终端执行，则步骤101相应的处理过程可以如下所述：拍摄包含人耳和预设的参照物的视频。实时检测视频是否包含符合设定标准的人耳图像。如果检测到符合设定标准的人耳图像，则获取人耳图像。

在实施中，为了简化用户的操作，并且提高获取到的人耳图像的质量，可以在用户拍摄的包含人耳和参照物的视频中，实时检测是否包含符合设定标准的人耳图像。并在检测到符合设定标准的人耳图像时，获取人耳图像。

示例性的，在拍摄视频时，为了提高检测到符合设定标准的人耳图像的成功率，终端可以引导用户缓慢地摆出建议的动作。例如，提示用户双手平举终端，正视摄像头(可选的，终端可以是手机，则该摄像头可以是前置摄像头)，并将自己的头像置于手机屏幕中央。肩膀手臂保持不动，缓缓地向左侧扭头90度，并保持设定时长(如3秒钟)，继而向右侧扭头90度，并保持设定时长(如3秒钟)。另外，还可以引导用户在画面中的设定位置摆放已知实际尺寸的参照物，例如，终端可以提示用户在画面的右上角放置参照物。需要说明的是，该建议的动作只是一个示例，并不限于此。另外，终端在引导用户摆出建议的动作时，相应的提示信息的呈现形式，可以是文字描述，语音提示，或者动画示意等形式，本申请对此不做限定。

在拍摄视频时，终端可以实时检测视频中是否包含符合设定标准的人耳图像。下面，提供一种可能的检测处理流程：对于视频中的每一视频帧，基于OpenCV中的人耳检测器，检测视频帧中的人耳。在检测出的一个或多个人耳中，确定尺寸最大的人耳作为目标人耳。确定目标人耳在视频帧中的位置和尺寸，是否分别在设定的位置范围和尺寸范围内。基于包含视频帧的视频段中目标人耳的尺寸和位置的变化幅度，确定视频帧是否处于稳定状态。其中，OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，实现了图像处理和计算机视觉方面的很多通用算法。

在实施中，在确定视频帧包含的目标人耳的位置在设定的位置范围内，目标人耳的尺寸在设定的尺寸范围内，且该视频帧处于稳定状态时，则说明该视频帧中包括符合设定标准的人耳图像。则可以从该视频帧中获取符合设定标准的人耳图像。

下面，对检测处理流程的具体过程进行说明：

(1)OpenCV的人耳检测

终端从摄像头读取一个实时拍摄的视频，视频由多张连续不断的视频帧组成，每一张视频帧被视为一帧画面。利用OpenCV的人耳检测器，对每一视频帧做人耳检测，并可以返回检测出的人耳的位置和大小。可选的，人耳的位置和大小的表现形式，可以是该人耳的外接矩形框的位置和大小。

其中，OpenCV是一种图像处理和计算机视觉的开源算法工具库，可以实现一些常用的与图像处理相关的算法。另外，左右耳所使用的人耳检测器不同，如haarcascade_mcs_leftear.xml和haarcascade_mcs_rightear.xml。

(2)排除误检干扰项

人耳检测器支持同时检测多个耳朵，因此，在一个视频帧中可能返回多个人耳的外接矩形框。根据此处应用场景的先验知识可知，一个视频帧中只有一只耳朵为目标人耳。其余的有可能是背景图像中其他人的耳朵，或者是被误检为耳朵的东西。因此，需要剔除多余的干扰项。

由于采用自拍形式获取人耳图像，因此，每一个视频帧中用户的人耳应该是离摄像头最近的，其对应的外接矩形框是所有外接矩形框中最大的。在众多外接矩形框中找到高度最高的，或宽度最宽的，其对应的宽高和位置坐标便属于目标人耳。即在检测出的一个或多个人耳中，确定尺寸最大的人耳作为目标人耳。

其中，剔除干扰项的方法为：

[earHeightBig，earHeightBigIndex]＝max(ear[i].Height)；

earHeight＝ear[earHeightBigIndex].Height；

earWidth＝ear[earHeightBigIndex].Width；

earX＝ear[earHeightBigIndex].X；earY＝ear[earHeightBigIndex].Y。

(3)检测目标人耳的位置是否在设定的位置范围内

为了提高确定出的人耳特征距离的准确度，对人耳图像中的人耳往往会提出位置的要求。具体的，检测目标人耳的位置是否在设定的位置范围内的方法，可以如下所述：

根据人耳的外接矩形框的信息计算出人耳在人耳图像中的几何中心位置：

center.X＝earX+earWidth/2；center.Y＝earY+earHeight/2。

其中，center.X是人耳中心点在X轴的坐标，center.Y是人耳中心点在Y轴的坐标。earWidth为人耳的外接矩形框的宽度，earHeight为人耳的外接矩形框的高度。earX为人耳的外接矩形框左下顶点在X轴的坐标，earY为人耳的外接矩形框左下顶点在Y轴的坐标。

设定人耳中心点在X轴和Y轴的边界分别为：XUp、XDown、YUp、YDown。当人耳中心点的位置符合：XDown<center.X<XUp且YDown<center.Y<YUp，则认为所检测出的耳朵位置在设定的位置范围内。

(4)检测目标人耳的尺寸是否在设定的尺寸范围内

在实施中，可以根据OpenCV的人耳检测器返回的人耳的外接矩形框来表示人耳的尺寸。具体的，检测目标人耳的尺寸是否在设定的尺寸范围内的方法，可以如下所述：

人耳的设定的尺寸范围为，宽的最大值：widthUp，宽的最小值：widthDown；高的最大值：heightUp，高的最小值：heightDown。

当人耳外接矩形框的宽高符合：widthDown<earWidth<widthUp且heightDown<earHeight<heightUp时，则认为所检测出的人耳的尺寸在设定的尺寸范围内，earWidth为人耳的外接矩形框的宽度，earHeight为人耳的外接矩形框的高度。

(5)人耳图像稳定状态的检测

为了保障获取到的人耳图像是稳定清晰的，还可以对视频帧的稳定状态进行检测。

示例性的，检测人耳图像是否处于稳定状态的方法可以如下所述：

在检测出某一视频帧(该视频帧可以称为目标视频帧)的人耳的尺寸和位置均符合要求的前提下，可以将人耳的位置和尺寸作为稳定状态检测的数据依据。即可以根据包含视频帧的视频段中目标人耳的尺寸和位置的变化幅度，确定视频帧是否处于稳定状态。如果在该视频段中，人耳的尺寸或位置有较大的变化，则说明该视频帧不处于稳定状态。

将当前视频帧的人耳的外接矩形框的中心点和宽高分别记为centerNew、earWidthNew、earHeightNew，上一视频帧中的人耳的外接矩形框的中心点和宽高分别记为：center、earWidth、earHeight。

如果当前视频帧中的人耳的中心点的位置符合：

(center.X–alpha1×earWidth)<centerNew.X<(center.X+alpha1×earWidth)；

(center.Y–belta1×earHeight)<centerNew.Y<(center.Y+belta1×earHeight)。

且人耳的宽高符合：

(1-alpha2)×earWidth<earWidthNew<(1+alpha2)×earWidth

且(1–belta2)×earHeight<earHeightNew<(1+belta2)×earHeight

则认为当前视频帧在视频中处于备选稳定状态。

其中，centerNew.X为当前视频帧的人耳的外接矩形框的中心点在X轴的坐标，centerNew.Y为当前视频帧的人耳的外接矩形框的中心点在Y轴的坐标；center.X为上一视频帧中的人耳的外接矩形框的中心点在X轴的坐标，center.Y为上一视频帧中的人耳的外接矩形框的中心点在Y轴的坐标。

alpha1、belta1、alpha2、belta2四个参数在0和0.5之间取值，越接近0值表示对用户稳定状态的要求越高，越接近0.5值表示对稳定状态的要求越低。

在包含目标视频帧的连续的设定数目(如30)个视频帧中，如果满足备选稳定状态的帧数达到一定比例(如30个视频帧中有25个视频帧满足备选稳定状态)，则确定目标视频帧处于符合拍照要求的稳定状态。

可见，本申请设计了一种状态累积的方法，以判定人耳图像在视频中是否处于稳定状态。从而避免获取一些短暂符合要求，但画面又因快速移动而模糊不清的图像。

(6)符合设定标准的人耳图像的获取。

当检测到目标视频帧符合设定标准时，可以将该目标视频帧作为获取到的人耳图像。

另外，为了提高获取到的人耳图像的准确率，还可以在该目标视频帧中截取出包括人耳的图像，并显示该包括人耳的图像。则用户可以通过观察该包括人耳的图像，判断图像中是否真的是人耳，并在判断图像中不是人耳时，由用户操作，重新进行人耳图像的获取处理。同时，也可以由用户进行调整，调整人耳的外接矩形框的大小。

具体的，该裁剪处理的伪代码可以为：

Rect rectEar(centerNew.X–earWidthNew/2，centerNew.Y–earHeightNew/2，earWidthNew，earHeightNew)；

ROIEar＝frame(rectEar)；

其中，rectEar包含了外接矩形框的位置和宽高等信息，frame表示当前帧的图像数据，ROIEar表示截取后的局部耳朵的图像数据。

另外，需要补充说明的是，在目标视频帧中还需要包括参照物，如果在视频帧中检测不到参照物，则也认为该视频帧不符合设定标准。

如果在设定拍摄时长之后，仍然检测不到符合设定标准的人耳图像，则输出提示信息，该提示信息用于引导用户变换拍摄姿势。

其中，设定拍摄时长可以由开发人员根据实际经验设置，本申请对此不做限定。

提示信息可以是用于显示的提示信息，如文字信息和图像信息等。提示信息也可以是语音信息，则终端可以播放语音信息。另外，提示信息还可以是语音信息和用于显示的提示信息的结合。

在实施中，如果长时间无法检测到符合设定标准的人耳图像，则终端可以输出提示信息，引导用户变换拍摄姿势。具体的，在引导用户变换拍摄姿势时，可以根据检测到的视频帧不符合哪一标准，输出相应的提示信息。下面，提供几种可能的实现方式：

当检测出目标人耳的尺寸在设定的尺寸范围内，而目标人耳的位置不在设定的位置范围内，则终端可以引导用户朝目标位置移动。

当检测出目标人耳的尺寸不在设定的尺寸范围内，而目标人耳的位置在设定的位置范围内，则终端可以引导用户拉近或拉运终端的位置。

当检测出目标人耳的尺寸不在设定的尺寸范围内，且目标人耳的位置不在设定的位置范围内，则终端可以先引导用户朝目标位置移动，再引导用户拉近或拉远终端的位置；也可以先引导用户拉近或拉远终端的位置，再引导用户朝目标位置移动。

当检测出目标人耳所在的图像不处于稳定状态，则终端引导用户尽量不要晃动自己。

当检测出视频帧中不包括参照物，则终端引导用户在设定位置放置参照物，并且，用户还可以在终端上操作选择参照物的类型，以提高确定的参照物的实际尺寸的准确性。

本申请实施例提供的一种终端获取人耳图像的方法，由过去要求用户摆出固定姿势，变为在流动画面中的瞬间抓拍。“傻瓜”式的操作，降低了用户的学习成本，实现全自动的抓拍过程，提高交互的流畅度，降低拍摄难度。用户只需要做出建议动作，终端便可自动从视频中捕获符合设定标准的人耳图像。这大大降低了用户的学习成本和拍摄难度，同时也使得设定标准的修改变得简单易行。

以上所述的终端获取人耳图像的方法，仅仅是一个实例，在实际处理中，终端还可以采用其余方式获取人耳图像，本申请对此不做限定。

在另一种可能的实现方式中，步骤101还可以由服务器执行，则步骤101相应的处理过程可以如下所述：接收终端发送的人耳图像。

在实施中，终端可以执行上述方法得到人耳图像，并将人耳图像发送给服务器，则服务器可以接收终端发送的人耳图像，从而服务器获取到人耳图像。

在步骤102中，识别人耳中的各个人耳特征点，并基于各个人耳特征点，确定人耳特征像素距离。

其中，人耳特征像素距离是指人耳特征距离在人耳图像中的像素尺寸，在确定人耳特征像素距离之后，还需要计算出其对应的人耳特征距离。

在实施中，可以根据OpenCV中的人耳检测器对获取到的人耳图像进行检测，得到人耳图像中的人耳的外接矩形框，并以外接矩形框的位置和尺寸，来确定人耳的位置和尺寸。即基于OpenCV中的人耳检测器，确定人耳图像中的人耳的位置和尺寸。

然后，根据人耳的位置和尺寸，设置ASM(Active Shape Model，主动形状模型)模型的初始位置，并调整ASM模型的大小使其与人耳的大小相匹配。即基于人耳的位置和尺寸，对ASM模型进行初始化配置。

最后，利用初始化配置后的ASM模型，识别出人耳图像中人耳特征点。示例性的，可以返回预设数量如24个人耳特征点的位置坐标，并可以将这24个人耳特征点在人耳图像中标注出来(如图2-图7所示，以左耳为例)。其中，图中编号1-12的点表示人耳的外形轮廓，其余点表示人耳的一些纹理特征。这些人耳特征点经过ASM模型更新后，已经由公模位置收敛到每张人耳图像中的实际位置。

之后，根据识别出的预设数量如24个人耳特征点，可以确定任意人耳特征像素距离。

在确定出人耳特征像素距离之后，还可以在人耳图像中显示人耳特征像素距离的标记。具体的，如图3-图7所示，可以使用黑色双向箭头来表示人耳特征像素距离的标记。

下面，以影响HRTF的5个常见人耳特征距离为例，对人耳特征像素距离进行说明：

外耳腔的高(d1ASM)：第18点到第17、20点中心点的距离，如图3所示。

外耳腔的宽(d2ASM)：第17点到第19、20点中心点的距离，如图4所示。

耳窝的高(d3ASM)：第15、16点中心点到第22、23点中心点的距离，如图5所示。

外耳廓的高(d4ASM)：第2、3点分别到第9、10、11点的距离的最大值，如图6所示，图6中的外耳廓的高为第2点到第11点的距离。

外耳廓的宽(d5ASM)：将构成外耳廓的高的两个点(第2点和第11点)连成直线，分别过第5、6、7、13、14点做与之平行的直线，这5条直线中彼此间相距最远的距离(图7中为过第6点的直线与过第13点的直线的距离)即为外耳廓的宽。

另外，在一种可能的实现方式中，如果在人耳图像中的人耳特征像素距离的标记出现可观察到的偏差，则可手动调整至合适的位置，从而，使得人耳特征像素距离更加准确。则相应的处理过程可以如下所述：接收对应于人耳特征像素距离的标记的调整指令；基于调整指令，调整确定出的人耳特征像素距离。

在步骤103中，确定参照物的像素尺寸和参照物的实际尺寸。

其中，实际尺寸是指物体在实际世界中的尺寸，可以理解为通过测量工具(如尺子)实际测得的尺寸。像素尺寸是指物体在图像中的尺寸。

在实施中，确实参照物的像素尺寸的过程可以如下所述：

检测人耳图像中的参照物的轮廓，并基于该轮廓确定参照物的像素尺寸。示例性的，在确定参照物的像素尺寸时，可以通过边缘检测、膨胀和腐蚀等图像处理手段，将参照物的轮廓检测出来。然后，再分别计算得到其像素宽和像素高。

确定参照物的实际尺寸的处理过程可以如下所述：

在一种可能的实现方式中，计算机设备中可以预先存储有预设的参照物对应的实际尺寸，则计算机设备可以检测人耳图像包括参照物的具体类别和型号等，然后查询该参照物对应的尺寸，作为参照物的实际尺寸。

在另一种可能的实现方式中，用户在拍摄人耳图像时，可以输入所采用的预设的参照物的具体类别和型号等信息。然后，计算机设备直接根据参照物的具体类别和型号等信息，查询该参照物对应的尺寸，作为参照物的实际尺寸。

需要说明的是，本申请实施例对步骤102和步骤103的执行顺序不做限定，可以是先执行步骤102，也可以是先执行步骤103，或者，步骤102和步骤103同时执行。

在步骤104中，基于人耳特征像素距离、参照物的像素尺寸和参照物的实际尺寸，确定人耳的人耳特征距离。

在实施中，首先，基于参照物的实际尺寸和像素尺寸，确定映射比例。然后，基于人耳特征像素距离和该映射比例，确定人耳特征距离。

示例性的，映射比例的确定过程可以如下所述：

scaleWidth＝参照物实际宽度/cardWidth，其中，cardWidth表示参照物的像素宽；

scaleHeight＝参照物实际高度/cardHeight，其中，cardHeight表示参照物的像像素高；

scale＝0.5×scaleWidth+0.5×scaleHeight。

参数scale即映射比例，表示了从像素尺寸到实际尺寸的一个映射关系，其单位为毫米/像素，该映射比例综合考虑了高度映射比例(scaleHeight)和宽度映射比例(scaleWidth)，使得映射比例更加准确合理。需要说明的是，映射比例计算公式中的权重数值(即0.5)仅仅是示例说明，还可以是根据实际需要设置的其他值。

然后，采用人耳特征像素距离乘以映射比例，即可得到对应的人耳特征距离。以上述5个人耳特征像素距离为例，其对应的人耳特征距离：

d1＝d1ASM×scale；d2＝d2ASM×scale；d3＝d3ASM×scale；d4＝d4ASM×scale；

d5＝d5ASM×scale。

本申请实施例提供了一种人耳特征距离测量的方法，该方法将人耳特征距离转化为人耳的多个人耳特征点的间接表示，使得人耳特征距离的自动测量成为可能。并且，利用ASM等图像关键点信息标注算法可以实现像素层面的标注，从而提高测量得到的人耳特征距离的准确度。

另外，将人耳特征点和人耳特征像素距离实时地显示出来，方便了用户对人耳特征距离定义的理解，同时也为备用的手动调整测量结果提供可能。对于偏差较大的情况，也只需要调整人耳特征距离便可快速更正。

基于相同的技术构思，本申请实施例还提供了一种人耳特征距离测量的装置，该装置可以为上述实施例中的终端或服务器，如图8所示，该装置包括：

获取模块801，用于获取人耳图像，人耳图像包括人耳和预设的参照物；

识别模块802，用于识别人耳中的各个人耳特征点，并基于所述各个人耳特征点，确定人耳特征像素距离；

确定模块803，用于确定所述参照物的像素尺寸和所述参照物的实际尺寸；

确定模块803，还用于基于人耳特征像素距离、参照物的像素尺寸和参照物的实际尺寸，确定人耳的人耳特征距离。

在一种可能的实现方式中，获取模块801，用于：

拍摄包含人耳和预设的参照物的视频；

实时检测视频是否包含符合设定标准的人耳图像；

如果检测到符合设定标准的人耳图像，则获取人耳图像。

在一种可能的实现方式中，获取模块801，用于：

对于视频中的每一视频帧，基于OpenCV中的人耳检测器，检测视频帧中的人耳；

确定目标人耳在视频帧中的位置和尺寸，是否分别在设定的位置范围和尺寸范围内；

基于包含视频帧的视频段中目标人耳的尺寸和位置的变化幅度，确定视频帧是否处于稳定状态。

在一种可能的实现方式中，装置还包括显示模块，显示模块用于：

如果在设定拍摄时长之后，仍然检测不到符合设定标准的人耳图像，则输出提示信息，提示信息用于引导用户变换拍摄姿势。

在一种可能的实现方式中，识别模块802，用于：

基于OpenCV中的人耳检测器，确定人耳图像中的人耳的位置和尺寸；

基于人耳的位置和尺寸，对ASM模型进行初始化配置；

基于初始化配置后的ASM模型，识别人耳中的各个人耳特征点。

在人耳图像中显示各个人耳特征点，并显示人耳特征像素距离的标记。

在一种可能的实现方式中，装置还包括调整模块，调整模块用于：

接收对应于人耳特征像素距离的标记的调整指令；

基于调整指令，调整确定出的人耳特征像素距离。

在一种可能的实现方式中，确定模块803，用于：

基于参照物的实际尺寸和参照物的像素尺寸，确定映射比例；

基于人耳特征像素距离和映射比例，确定人耳特征距离。

在一种可能的实现方式中，人耳特征距离包括外耳腔的高、外耳腔的宽、耳窝的高、外耳廓的高和外耳廓的宽中的一种或多种。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的人耳特征距离测量的装置在测量人耳特征距离时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人耳特征距离测量的装置与人耳特征距离测量的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种终端的结构框图。该终端900可以是便携式移动终端，比如：智能手机、平板电脑。终端900还可能被称为用户设备、便携式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中提供的人耳特征距离测量的方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。显示屏905用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907用于提供用户和终端900之间的音频接口。音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，可以根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的正面。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，存储器1002中存储有至少一条指令，所述至少一条指令由处理器1001加载并执行以实现上述人耳特征距离测量的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的人耳特征距离测量的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人耳特征距离测量的方法，其特征在于，所述方法包括：

获取人耳图像，所述人耳图像包括人耳和预设的参照物；

确定所述参照物的像素尺寸和所述参照物的实际尺寸；

2.根据权利要求1所述的方法，其特征在于，所述获取人耳图像，包括：

拍摄包含人耳和预设的参照物的视频；

实时检测所述视频是否包含符合设定标准的人耳图像；

3.根据权利要求2所述的方法，其特征在于，所述实时检测所述视频是否包含符合设定标准的人耳图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述识别所述人耳中的各个人耳特征点，包括：

基于所述人耳的位置和尺寸，对ASM模型进行初始化配置；

6.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述各个人耳特征点，确定人耳特征像素距离之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述人耳图像中显示所述各个人耳特征点，并显示所述人耳特征像素距离的标记之后，所述方法还包括：

接收对应于所述人耳特征像素距离的标记的调整指令；

基于所述调整指令，调整确定出的所述人耳特征像素距离。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述人耳特征像素距离、所述参照物的像素尺寸和所述参照物的实际尺寸，确定所述人耳的人耳特征距离，包括：

9.根据权利要求1-4任一项所述的方法，其特征在于，所述人耳特征距离包括外耳腔的高、外耳腔的宽、耳窝的高、外耳廓的高和外耳廓的宽中的一种或多种。

10.一种人耳特征距离测量的装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1-9任一项所述的人耳特征距离测量的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1-9任一项所述的人耳特征距离测量的方法。