CN111432115B

CN111432115B - 基于声音辅助定位的人脸追踪方法、终端及存储装置

Info

Publication number: CN111432115B
Application number: CN202010172789.4A
Authority: CN
Inventors: 陈明珠; 项宇宁; 杨增启; 徐金华
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-12-10
Anticipated expiration: 2040-03-12
Also published as: CN111432115A

Abstract

本发明公开了一种基于声音辅助定位的人脸追踪方法、终端及存储装置，其中方法包括：获取摄像头拍摄的场景的图像；判断图像中是否存在目标对象的人脸；当图像中不存在目标对象的人脸时，通过声音采集装置采集场景中的所有声音；确认是否存在与目标对象对应的目标声音特征；当存在与目标对象对应的目标声音特征时，基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。通过上述方式，本申请能够在摄像机失去跟踪的目标对象时，通过声音定位目标的位置，并控制摄像头继续跟踪目标。

Description

基于声音辅助定位的人脸追踪方法、终端及存储装置

技术领域

本申请涉及人脸追踪技术领域，特别是涉及一种基于声音辅助定位的人脸追踪方法、终端及存储装置。

背景技术

随着视频摄像技术的发展，摄像头已经成为计算机必不可少的配置之一，家庭娱乐、教学视频、智能机器人领域等领域均需要用到摄像头，而为了提高用户体验，现有的摄像头通过人脸识别和追踪算法，可以实现实时追踪人脸，将摄像头聚焦与目标人物身上，例如在教学视频录制过程中，讲师讲课时经常会来回走动，在黑板上书写，走一圈巡视或者朗读文章等，通过摄像头识别讲师的人脸信息，并追踪讲师，提高上课质量，但是，当讲师快速移动至摄像头拍摄区域之外时，因无法继续追踪人脸而导致摄像头不能够继续追踪拍摄，影响追踪拍摄的效果；再例如录制会议现场时，当发言人不断切换时，摄像头难以追踪拍摄到每个发言人，录制效果差。

发明内容

本申请提供一种基于声音辅助定位的人脸追踪方法、终端及存储装置，以解决现有人脸追踪摄像头无法追踪视野范围外的目标的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于声音辅助定位的人脸追踪方法，包括：获取摄像头拍摄的场景的图像；判断图像中是否存在目标对象的人脸；当图像中不存在目标对象的人脸时，通过声音采集装置采集场景中的所有声音；确认是否存在与目标对象对应的目标声音特征；当存在与目标对象对应的目标声音特征时，基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种终端，该终端包括处理器、与处理器耦接的存储器、摄像头以及声音采集装置，其中，存储器存储有用于实现上述基于声音辅助定位的人脸追踪方法的程序指令；处理器用于执行存储器存储的程序指令以追踪目标对象的人脸；摄像头用于获取场景中的图像；声音采集装置用于采集场景中的所有声音。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述基于声音辅助定位的人脸追踪方法的程序文件。

本申请的有益效果是：本发明的基于声音辅助定位的人脸追踪方法、终端及存储装置通过追踪目标对象的人脸，从而实现对目标对象的跟踪拍摄，并且当目标对象处于摄像头的当前拍摄范围之外时，通过目标对象发出的目标声音特征确定目标对象的空间位置，在控制摄像头聚焦该空间位置以追踪目标对象，本发明使得当目标对象不在摄像头的拍摄范围之内时，可以根据目标对象的声音来确定目标对象的空间位置，并继续跟踪目标对象，避免了视频拍摄过程中目标对象丢失的问题。

附图说明

图1是本发明第一实施例的基于声音辅助定位的人脸追踪方法的流程示意图；

图2是本发明第二实施例的基于声音辅助定位的人脸追踪方法的流程示意图；

图3是本发明第二实施例的声球联动模型示意图；

图4是本发明第二实施例的目标对象空间坐标转换为二维坐标的示意图；

图5是本发明第三实施例的基于声音辅助定位的人脸追踪方法的流程示意图；

图6是本发明第四实施例的基于声音辅助定位的人脸追踪方法的流程示意图；

图7是本发明实施例的基于声音辅助定位的人脸追踪装置的结构示意图；

图8是本发明实施例的终端的结构示意图；

图9是本发明实施例的存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的基于声音辅助定位的人脸追踪方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取摄像头拍摄的场景的图像。

在步骤S101中，在开启摄像头进行跟踪拍摄时，首先将摄像头移动到初始设定的画面。

步骤S102：判断图像中是否存在目标对象的人脸。当图像中不存在目标对象的人脸时，则执行步骤S103。

在步骤S102中，目标对象是追踪需要追踪的人员，其人脸的特征信息预先录入存储。具体地，在摄像头开始追踪拍摄时，通过采集图像中所有的人脸的特征信息，进而根据特征信息判断图像中是否存在目标对象的人脸；当图像中存在目标对象的人脸时，锁定目标对象，控制摄像头自动聚焦目标对象并且变倍放大使目标对象在画面中居中，从而显示出清晰的目标对象的画面。进一步的，可通过智能算法将目标对象通过方框框选出来，当目标对象移动时画面上的方框也跟着移动，当目标静止时方框也静止，以保证跟踪的目标对象不丢失；此外，还可通过将框选目标对象的方框始终固定在图像的中央位置，当目标对象移动时，控制摄像头跟随移动，保证方框始终处于图像的中央位置，以跟踪目标对象。

步骤S103：通过声音采集装置采集场景中的所有声音。

在步骤S103中，声音采集装置预先设置在场景中，当图像中不存在目标对象的人脸时，通过声音采集装置获取场景中所有的声音并进行分析，得到每一种声音的声音特征，例如：当场景中同时存在两个人说话时，则会采集到两个人的声音，通过分析可以得到两种声音特征。

步骤S104：确认是否存在与目标对象对应的目标声音特征。当存在与目标对象对应的目标声音特征时，执行步骤S105。

在步骤S104中，将采集的所有声音的声音特征与目标对象的声音特征一一进行匹配，当存在与目标对象的声音特征匹配的目标声音特征时，执行步骤S105。进一步的，当目标对象不处于摄像头的图像中，且较长时间内未检测到目标对象的目标声音特征时，还可以控制摄像头移动到初始设定的画面，停止对目标对象的跟踪拍摄。

步骤S105：基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。

在步骤S105中，通过实时获取的目标对象的目标声音特征计算出目标对象的实时的空间位置，再根据空间位置控制摄像头对准空间位置处，从而再次聚焦目标对象的人脸，实现对目标对象的追踪。

本发明第一实施例的基于声音辅助定位的人脸追踪方法通过追踪目标对象的人脸，从而实现对目标对象的跟踪拍摄，并且当目标对象处于摄像头的当前拍摄范围之外时，通过目标对象发出的目标声音特征确定目标对象的空间位置，在控制摄像头聚焦该空间位置以追踪目标对象，本发明使得当目标对象不在摄像头的拍摄范围之内时，可以根据目标对象的声音来确定目标对象的空间位置，并继续跟踪目标对象，避免了目标对象处于摄像头当前拍摄范围之外时，无法继续跟踪拍摄目标对象的问题。

图2是本发明第二实施例的基于声音辅助定位的人脸追踪方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤S201：获取摄像头拍摄的场景的图像。

在本实施例中，图2中的步骤S201和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S202：判断图像中是否存在目标对象的人脸。当图像中不存在目标对象的人脸时，执行步骤S203。

在本实施例中，图2中的步骤S202和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S203：通过声音采集装置采集场景中的所有声音。

在本实施例中，图2中的步骤S203和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S204：确认是否存在与目标对象对应的目标声音特征。

在本实施例中，图2中的步骤S204和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S205：获取至少四个声音接收装置接收到目标对象的声音的时间差。

需要说明的是，在本实施例中，声音采集装置包括至少四个声音接收装置，声音接收装置可以为话筒，且至少四个声音接收装置分设于场景中的不同位置，且不处于同一平面内，以致可以从不同距离和角度采集到声音。

在步骤S205中，至少四个声音接收装置分别接收目标对象的声音，而由于声音接收装置分别设置于场景中的不同位置，与目标对象之间的距离各不相同，因此，不同声音接收装置之间接收到目标对象的声音时的时间不相同，从而可以计算得到不同声音接收装置间接收到目标对象的声音的时间差，以第一个接收到目标对象的声音的声音接收装置接收到目标对象的声音的时间t为基准，计算出后续每个声音接收装置接收到目标对象的声音时的时间与时间t的时间差，从而得到三个时间差t₁,t₂,t₃。

步骤S206：利用声音接收装置相对于摄像头的坐标位置、以及时间差计算目标对象相对于摄像头的相对坐标。

在步骤S206中，请一并参阅图3，图3展示本实施例的声球联动模型示意图，假设当前场景包括四个声音接收装置，以摄像头所在空间位置为坐标原点(0,0,0)建立空间坐标系，声音接收装置1、2、3、4的坐标分别为(a₁,b₁,c₁)、(a₂,b₂,c₂)、(a₃,b₃,c₃)、(a₄,b₄,c₄)，四个声音接收装置处于不同的平面，而根据单个声音接收装置可以推算得到声源位于该声音接收装置的一个球面上，因此，假设目标对象的相对坐标(x,y,z)，第一个接收到目标对象的声音的时间为t，可得方程组：

求解上述方程式，从而计算得到目标对象的相对坐标(x,y,z)和时间t。

步骤S207：基于相对坐标控制摄像头移动以聚焦相对坐标。

在步骤S207中，获取到相对坐标后，根据相对坐标控制摄像头转动，从而再次聚焦相对坐标出的目标对象。具体地，目标对象的相对坐标是摄像头坐标系下的空间位置，而摄像头在跟踪过程中通常需采用二维平面坐标来判断目标对象在图像中的映射位置，因此，通过进行坐标系转换，将目标坐标转换为二维坐标，具体参考图4，图4展示了本实施例目标对象空间坐标转换为二维坐标的示意图，实际相机位置在光心O位置，X、Y、Z轴及光心O构成空间坐标系，捕捉到的目标对象的相对坐标P(x,y,z)，光心O`为映射至二维平面坐标系的坐标原点，X`、Y`轴及光心O`构成二维平面坐标系，光心O`到光心O的焦距为f，P`(x`,y`)为P映射至二维平面坐标系的坐标，从而利用焦距f，根据下述公式计算得到P`(x`,y`)；

进一步的，在通过声音采集装置定位目标对象的位置后，目标对象还可能处于移动过程中，因此，上述步骤S207之后，还包括：

步骤S208：判断时间差是否发生了变化。若是，则执行步骤S209。

在步骤S208中，具体地，当目标对象在场景中移动时，目标对象与各个声音接收装置之间的距离也不相同，因此，各个声音接收装置之间接收到目标对象的声音的时间差也不相同，因此，通过判断时间差是否发生变化即可确认目标对象是否移动了。

步骤S209：计算得到在不同时间的相对坐标，再通过不同时间的相对坐标计算得到目标对象的移动速度和方向，基于移动速度和方向控制摄像头移动以追踪目标对象的人脸。

在步骤S209中，通过步骤S207中的计算方法计算得到在不同时间点目标对象的相对坐标，并转换为二维平面坐标，再根据微分法计算出，目标对象在二维平面坐标系下的运动速度和方向，通过运动速度和方向控制摄像头移动以追踪目标对象的人脸。

本发明第二实施例的基于声音辅助定位的人脸追踪方法在第一实施例的基础上，通过在不同平面中设置至少四个声音接收装置，根据四个声音接收装置接收到目标对象的声音时的时间差计算得到目标对象相对于摄像头的相对坐标，再控制摄像头对准该相对坐标，以聚焦目标对象，从而实现对摄像头之外的目标对象进行跟踪，并且，当目标对象处于持续移动状态时，通过在不同时间计算得到的目标对象的坐标确认目标对象的移动速度和方向，进而利用移动速度和方向控制摄像头移动，从而达到持续跟踪目标对象的目的。

图5是本发明第三实施例的基于声音辅助定位的人脸追踪方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该方法包括步骤：

步骤S301：获取摄像头拍摄的场景的图像。

在本实施例中，图5中的步骤S301和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S302：判断图像中是否存在目标对象的人脸。当图像中不存在目标对象的人脸时，执行步骤S303。

在本实施例中，图5中的步骤S302和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S303：通过声音采集装置采集场景中的所有声音。

在本实施例中，图5中的步骤S303和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S304：从场景中提取每一个声音的声音特征。

在步骤S304中，从场景中采集到声音后，对声音进行杂音和静音过滤，再分别提取每个声音的声音特征

步骤S305：将每一个声音特征与数据库中存储的目标对象的声音特征进行匹配，以确认是否存在与目标对象对应的目标声音特征。若是，则执行步骤S306。

需要说明的是，在实时本实施例之前，还需要预先录入目标对象的声音特征，具体包括：

1、预先在不同场景采集目标对象的不同音量大小的声音。

具体地，提前在不同的场景下录制目标对象的不同音量大小的声音，例如：在空旷区域、大型会议室、教室、小型房间等场景下，分别录制目标对象的不同音量大小的声音。

2、过滤声音中的杂音和静音部分，并提取过滤后的声音的声音特征通过神经网络进行学习训练，得到目标对象的声音特征。

具体地，通过静音检测和杂音消除等方式，将声音中的杂音部分和静音部分过滤掉，方便后续得到目标对象的声音特征，再通过神经网络进行学习和训练，得到目标对象的声音特征。

3、将目标对象的声音特征存储至数据库。

在步骤S305中，通过将提取到的每个声音的声音特征一一与数据库中存储的目标对象的声音特征进行匹配，从而确认是否存在与目标对象对应的目标声音特征，若是，则执行步骤S306。

步骤S306：基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。

在本实施例中，图5中的步骤S306和图1中的步骤S105类似，为简约起见，在此不再赘述。

本发明第三实施例的基于声音辅助定位的人脸追踪方法在第一实施例的基础上，通过预先在不同场景下录入目标对象的声音，通过深度学习识别目标对象的声音特征，建立数据库，从而当摄像头失去目标对象后，通过采集并分析场景中的声音的声音特征，并与数据库中的声音特征进行对比匹配，再根据匹配的声音特征计算得到目标对象所在的位置，进而控制摄像头继续跟踪拍摄目标对象。

图6是本发明第四实施例的基于声音辅助定位的人脸追踪方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括步骤：

步骤S401：获取摄像头拍摄的场景的图像。

在本实施例中，图6中的步骤S401和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S402：判断图像中是否存在目标对象的人脸。当图像中不存在目标对象的人脸时，则执行步骤S403。当图像中存在目标对象的人脸时，则执行步骤S406。

在本实施例中，图6中的步骤S402和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S403：通过声音采集装置采集场景中的所有声音。

在本实施例中，图6中的步骤S403和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S404：确认是否存在与目标对象对应的目标声音特征。当存在与目标对象对应的目标声音特征时，执行步骤S405。

在本实施例中，图6中的步骤S404和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S405：基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。

在本实施例中，图6中的步骤S405和图1中的步骤S105类似，为简约起见，在此不再赘述。

步骤S406：检测目标对象的人脸是否移动。若是，则执行步骤S407；若否，则执行步骤S408。

在步骤S406中，当目标对象在摄像头拍摄的图像范围之类时，通过比对获取的前后帧图像中目标对象所在的位置，从而判断目标对象的人脸是否发生移动。

步骤S407：当目标对象的人脸仍在图像中时，控制摄像头移动以追踪目标对象的人脸。

在步骤S407中，当目标对象的人脸发生移动时，则进一步确认目标对象的人脸是否还在图像中；若是，则控制摄像头移动以追踪目标对象的人脸；若否，则执行步骤S403～步骤S405以重新定位目标对象的位置。

进一步的，当目标对象在摄像头拍摄的图像中移动时，同样需要控制摄像头调整自身位置以追踪目标对象，因此，控制摄像头移动以追踪目标对象的人脸包括：

1、获取目标对象在相邻帧图像中的像素位差。

具体地，通过获取相邻前后两帧图像，确认目标对象在图像中的位置。

2、比对不同帧图像中目标对象的像素位差以计算目标对象的移动速度和方向。

具体地，通过比对前后相邻两帧图像中目标对象的位置，从而确定两帧图像之间的像素位差，再根据像素位差想拍摄两帧图像的时间间隔计算得到目标对象的移动速度和方向。

3、基于移动速度和方向控制摄像头移动，以追踪目标对象的人脸。

进一步的，为了避免摄像头移动过快，导致拍摄的画面不清晰，因此，基于移动速度和方向控制摄像头移动，以追踪目标对象的人脸包括；

1、基于移动速度计算摄像头运动速度。

2、判断运动速度是否超过预设最大速度。

3、若是，则控制摄像头按预设最大速度和方向移动。

4、若否，则控制摄像头按运动速度和方向移动。

具体地，通过为摄像头的运动速度设定预设最大速度，当根据目标对象的移动速度计算出摄像头的运动速度后，判断该运动速度是否超过预设最大速度；若未超过，则按照计算得到的运动速度控制摄像头移动，从而保证摄像头能够追踪到目标对象；若超过，为了防止摄像头移动过快而导致拍摄的画面不清晰，则按照预设最大速度控制摄像头移动，若因目标对象移动速度过快而脱离摄像头的拍摄区域，则结合声音来定位目标对象的位置，保证能够继续追踪目标对象。

步骤S408：控制摄像头聚焦目标对象的人脸。

本发明第四实施例的基于声音辅助定位的人脸追踪方法在第一实施例的基础上，当目标对象在摄像头的拍摄区域内移动时，通过前后帧图像的像素位差确定目标对象的移动速度和方向，进而计算得到摄像头的运动速度和方向，在控制摄像头运动以追踪目标对象，若当目标对象移动速度过快而脱离摄像头的拍摄区域时，则可再次结合目标对象的声音特征来定位目标对象的位置，实现继续跟踪。

图7是本发明实施例的基于声音辅助定位的人脸追踪装置的结构示意图。如图7所示，该装置70包括获取模块71、判断模块72、采集模块73、确认模块74和计算及追踪模块75。

获取模块71，用于获取摄像头拍摄的场景的图像。

判断模块72，与获取模块71耦接，用于判断图像中是否存在目标对象的人脸。

采集模块73，与判断模块72耦接，用于当图像中不存在目标对象的人脸时，通过声音采集装置采集场景中的所有声音。

确认模块74，与采集模块73耦接，用于确认是否存在与目标对象对应的目标声音特征。

计算及追踪模块75，与确认模块74耦接，用于当存在与目标对象对应的目标声音特征时，基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸。

可选地，声音采集装置包括至少四个声音接收装置，且至少四个声音接收装置分设于不同位置且处于不同平面；计算及追踪模块75基于目标声音特征计算得到目标对象的空间位置，再控制摄像头对准空间位置以追踪目标对象的人脸的操作还可以为：获取至少四个声音接收装置接收到目标对象的声音的时间差；利用声音接收装置相对于摄像头的坐标位置、以及时间差计算目标对象相对于摄像头的相对坐标；基于相对坐标控制摄像头移动以聚焦相对坐标。

可选地，计算及追踪模块75基于相对坐标控制摄像头移动以聚焦相对坐标的操作还可以为：判断时间差是否发生了变化；若是，则计算得到在不同时间的相对坐标，再通过不同时间的相对坐标计算得到目标对象的移动速度和方向，再基于移动速度和方向控制摄像头移动以追踪目标对象的人脸。

可选地，确认模块74确认是否存在与目标对象对应的目标声音特征的操作还可以为：从场景中提取每一个声音的声音特征；将每一个声音特征与数据库中存储的目标对象的声音特征进行匹配，以确认是否存在与目标对象对应的目标声音特征。其中，在执行上述操作之前，还需要建立数据库，建立数据库的操作包括：预先在不同场景采集目标对象的不同音量大小的声音；过滤声音中的杂音和静音部分，并提取过滤后的声音的声音特征通过神经网络进行学习训练，得到目标对象的声音特征；将目标对象的声音特征存储至数据库。

可选地，判断模块72判断图像中是否存在目标对象的人脸的操作还可以为：当图像中存在目标对象的人脸时，检测目标对象的人脸是否移动；若是，则当目标对象的人脸仍在图像中时，控制摄像头移动以追踪目标对象的人脸；若否，则控制摄像头聚焦目标对象的人脸。其中，控制摄像头移动以追踪目标对象的人脸的操作还可以为：获取目标对象在相邻帧图像中的像素位差；比对不同帧图像中目标对象的像素位差以计算目标对象的移动速度和方向；基于移动速度和方向控制摄像头移动，以追踪目标对象的人脸。其中，基于移动速度和方向控制摄像头移动，以追踪目标对象的人脸的操作还可以为：基于移动速度计算摄像头运动速度；判断运动速度是否超过预设最大速度；若是，则控制摄像头按预设最大速度和方向移动；若否，则控制摄像头按运动速度和方向移动。

请参阅图8，图8为本发明实施例的终端的结构示意图。如图8所示，该终端80包括处理器81及和处理器81耦接的存储器82、摄像头83以及声音采集装置84。

存储器82存储有用于实现上述任一实施例所述的基于声音辅助定位的人脸追踪方法的程序指令。

处理器81用于执行存储器82存储的程序指令以追踪目标对象的人脸；

摄像头83用于获取场景中的图像；

声音采集装置84用于采集场景中的所有声音。

其中，处理器81还可以称为CPU(Central Processing Unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于声音辅助定位的人脸追踪方法，其特征在于，包括：

获取摄像头拍摄的场景的图像；

判断所述图像中是否存在目标对象的人脸；

当所述图像中不存在目标对象的人脸时，通过声音采集装置采集所述场景中的所有声音；

确认是否存在与所述目标对象对应的目标声音特征；

当存在与所述目标对象对应的目标声音特征时，基于所述目标声音特征计算得到所述目标对象的空间位置，再控制所述摄像头对准所述空间位置以追踪所述目标对象的人脸；

所述声音采集装置包括至少四个声音接收装置，且所述至少四个声音接收装置分设于不同位置且处于不同平面；

所述基于所述目标声音特征计算得到所述目标对象的空间位置，再控制所述摄像头对准所述空间位置以追踪所述目标对象的人脸的步骤，包括：

获取所述至少四个声音接收装置接收到所述目标对象的声音的时间差；

利用所述声音接收装置相对于所述摄像头的坐标位置、以及所述时间差计算所述目标对象相对于所述摄像头的相对坐标；

基于所述相对坐标控制所述摄像头移动以聚焦所述相对坐标；

所述基于所述相对坐标控制所述摄像头移动以聚焦所述相对坐标的步骤之后，还包括：

判断所述时间差是否发生了变化；

若是，则计算得到在不同时间的相对坐标，再通过所述不同时间的相对坐标计算得到所述目标对象的移动速度和方向，再基于所述移动速度和方向控制所述摄像头移动以追踪所述目标对象的人脸。

2.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

预先在不同场景采集所述目标对象的不同音量大小的声音；

过滤所述声音中的杂音和静音部分，并提取过滤后的声音的声音特征通过神经网络进行学习训练，得到目标对象的声音特征；

将所述目标对象的声音特征存储至数据库。

3.根据权利要求2所述的方法，其特征在于，

所述确认是否存在与所述目标对象对应的目标声音特征的步骤，包括：

从所述场景中提取每一个声音的声音特征；

将每一个所述声音特征与所述数据库中存储的所述目标对象的声音特征进行匹配，以确认是否存在与所述目标对象对应的目标声音特征。

4.根据权利要求1所述的方法，其特征在于，

所述判断所述图像中是否存在目标对象的人脸的步骤之后，还包括：

当所述图像中存在目标对象的人脸时，检测所述目标对象的人脸是否移动；

若是，则当目标对象的人脸仍在所述图像中时，控制所述摄像头移动以追踪所述目标对象的人脸；

若否，则控制摄像头聚焦所述目标对象的人脸。

5.根据权利要求4所述的方法，其特征在于，

所述控制所述摄像头移动以追踪所述目标对象的人脸的步骤，包括：

获取所述目标对象在相邻帧图像中的像素位差；

比对不同帧图像中目标对象的像素位差以计算目标对象的移动速度和方向；

基于所述移动速度和方向控制所述摄像头移动，以追踪所述目标对象的人脸。

6.根据权利要求5所述的方法，其特征在于，

所述基于所述移动速度和方向控制所述摄像头移动，以追踪所述目标对象的人脸的步骤，包括；

基于所述移动速度计算所述摄像头运动速度；

判断所述运动速度是否超过预设最大速度；

若是，则控制所述摄像头按所述预设最大速度和方向移动；

若否，则控制所述摄像头按所述运动速度和方向移动。

7.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器、摄像头以及声音采集装置，其中，

所述存储器存储有用于实现如权利要求1-6中任一项所述的基于声音辅助定位的人脸追踪方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以追踪目标对象的人脸；

所述摄像头用于获取场景中的图像；

所述声音采集装置用于采集场景中的所有声音。

8.一种存储装置，其特征在于，存储有能够实现如权利要求1-6中任一项所述的基于声音辅助定位的人脸追踪方法的程序文件。