CN115426474A

CN115426474A - 对象显示方法、装置、系统、设备、介质和产品

Info

Publication number: CN115426474A
Application number: CN202210872924.5A
Authority: CN
Inventors: 高学江; 谢伟; 朱飞月
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-12-02

Abstract

本申请涉及一种对象显示方法、装置、系统、设备、介质和产品，通过对预设区域进行人脸识别检测和语音跟踪检测；在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域；在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域；根据目标区域凸显相应的人脸对象，解决了无法在视频图像中基于不同的会议场景自适应显示对象的问题，实现了在视频图像中基于不同的会议场景自适应显示对象的有益效果。

Description

对象显示方法、装置、系统、设备、介质和产品

技术领域

本申请涉及视频图像处理技术领域，特别是涉及一种对象显示方法、装置、系统、设备、介质和产品。

背景技术

视频直播和视频会议为远程办公提供了高效便捷的解决方案，大大提高了办公效率。相关技术提供了一种自动框选人的方法，对摄像头图像进行人脸检测，输出人脸检测结果，根据人脸检测结果计算框选区域，根据框选区域处理摄像头图像，使得参会人员集中显示于摄像头图像。但是，有时候会议场景需要关注的是发言者，而不是所有参会人员，而发言者身份不是固定的，发言者还可能在视频会议过程中处于移动状态。

针对相关技术中存在无法基于不同的会议场景自适应显示对象的问题，目前还没有提出有效的解决方案。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在视频图像中基于不同的会议场景自适应显示对象的对象显示方法、装置、系统、设备、介质和产品。

第一个方面，本申请提供了一种对象显示方法，包括：

对预设区域进行人脸识别检测和语音跟踪检测；

在检测到人脸对象和语音信号的情况下，获取所述人脸对象和声源在视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定目标区域；

在检测到所述人脸对象但未检测到所述语音信号的情况下，获取所述人脸对象在所述视频图像中所处的位置，根据所述人脸对象的位置，在所述视频图像中确定所述目标区域；

根据所述目标区域凸显相应的人脸对象。

在其中一个实施例中，所述人脸对象的识别结果包括人脸检测框，获取所述人脸对象在视频图像中所处的位置包括：

将所述人脸检测框的顶点坐标和尺寸基于预设图像分辨率进行调整，其中，所述预设图像分辨率的宽高比例为1:1。

在其中一个实施例中，在检测到人脸对象和语音信号的情况下，获取所述人脸对象和声源在视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定目标区域之后，所述方法还包括：

在摄像机的镜头处于初始回正状态下，确定所述目标区域与所述摄像机的拍摄视野范围的相对位置关系；

在所述目标区域不完全包含于所述摄像机的拍摄视野范围的情况下，将所述摄像机的镜头沿着水平方向转动，直至所述目标区域完全包含于所述摄像机的拍摄视野范围内。

在其中一个实施例中，在所述视频图像中确定目标区域之后，所述方法还包括：

将当前目标区域和在上一阶段确定的历史目标区域进行比较，判断所述当前目标区域与所述历史目标区域之间的偏差是否大于预设阈值；

在判断到所述当前目标区域与所述历史目标区域之间的偏差大于预设阈值的情况下，对所述当前目标区域的图像进行数字图像处理，其中，所述数字图像处理包括裁剪和缩放。

在其中一个实施例中，对所述当前目标区域的图像进行数字图像处理包括：

在所述当前目标区域的缩放倍数小于所述历史目标区域的放大倍数的情况下，将所述当前目标区域的图像进行先缩小后平移；或者，

在所述当前目标区域的缩放倍数大于所述历史目标区域的放大倍数的情况下，将所述当前目标区域的图像进行先平移后放大。

在其中一个实施例中，所述方法还包括：

响应于第一指令，启动第一预设模式，其中，所述第一预设模式被配置为在检测到所述语音信号的情况下，获取所述人脸对象和所述声源在所述视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定所述目标区域；和/或，

响应于第二指令，启动第二预设模式，其中，所述第二预设模式被配置为获取所述人脸对象在所述视频图像中所处的位置，根据所述人脸对象的位置，在所述视频图像中确定所述目标区域。

在其中一个实施例中，在所述第一预设模式和所述第二预设模式均被启动的情况下，所述方法还包括：

在预设时长内或者经预设检测次数未检测到所述语音信号的情况下，将所述视频图像的展示模式从所述第一预设模式切换至所述第二预设模式。

在其中一个实施例中，根据所述目标区域凸显相应的人脸对象包括：

所述目标区域包括几何选框，采用所述几何选框框选相应的人脸对象；或者，所述目标区域包括几何图形，采用所述几何图形标记相应的人脸对象；或者，将所述目标区域在所述视频图像中进行居中设置，并在所述目标区域中显示相应的人脸对象。

第二个方面，本申请提供了一种数据处理装置，包括：人脸识别模块、语音跟踪模块和主控模块，所述人脸识别模块、所述语音跟踪模块分别与所述主控模块连接；

所述人脸识别模块被配置为对预设区域进行人脸识别检测，所述语音跟踪模块被配置为对所述预设区域进行语音跟踪检测；

所述主控模块被配置为在检测到人脸对象和语音信号的情况下，获取所述人脸对象和声源在视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定目标区域；在检测到人脸对象但未检测到语音信号的情况下，获取所述人脸对象在所述视频图像中所处的位置，根据所述人脸对象的位置，在所述视频图像中确定所述目标区域；根据所述目标区域凸显相应的人脸对象包括。

第三个方面，本申请提供了一种确定人脸对象的系统，包括：摄像机、麦克风、播放设备和上述第二个方面所述的数据处理装置，所述摄像机、所述麦克风、所述播放设备分别与所述数据处理装置连接；所述摄像机用于拍摄预设区域的视频；所述麦克风用于采集所述预设区域的语音信号；所述播放设备用于输出经所述数据处理装置处理得到的视频图像和语音信号。

第四个方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的对象显示方法的步骤。

第五个方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一个方面所述的对象显示方法的步骤。

第六个方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一个方面所述的对象显示方法的步骤。

上述对象显示方法、装置、系统、设备、介质和产品，通过对预设区域进行人脸识别检测和语音跟踪检测；在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域；在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域；根据目标区域凸显相应的人脸对象，解决了无法在视频图像中基于不同的会议场景自适应显示对象的问题，实现了在视频图像中基于不同的会议场景自适应显示对象的有益效果。

附图说明

图1为一个实施例中对象显示方法的应用环境图；

图2为一个实施例中对象显示方法的流程示意图；

图3为一个实施例中人脸对象和声源在视频图像中所处位置的示意图；

图4为一个实施例中摄像机的拍摄视野范围的示意图；

图5为一个实施例中框选人脸对象的整体方法流程图；

图6为一个实施例中在第一预设模式下框选人脸对象的流程图；

图7为一个实施例中目标区域在视频图像中的示意图；

图8为一个实施例中在第二预设模式下框选人脸对象的流程图；

图9为一个实施例中调整目标区域的流程图；

图10为一个实施例中数据处理装置的结构示意图；

图11为一个实施例中对象显示系统的结构示意图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的对象显示方法，可以应用于如图1所示的应用环境中，该应用环境可以是视频直播或者视频会议，终端设备100包括摄像机101、麦克风102、显示屏103和扬声器104，此外，终端设备100内部安装有数据处理装置(图中未示出)，摄像机101、麦克风102、显示屏103和扬声器104分别与数据处理装置连接。在方法执行过程中，摄像机101拍摄预设区域的视频，麦克风102采集预设区域的语音信号，数据处理装置处理视频和语音信号，并将处理结果发送至显示屏103和扬声器104进行输出。具体的，数据处理装置基于视频和语音信号，对预设区域进行人脸识别检测和语音跟踪检测；在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域105；在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域105；根据目标区域105凸显相应的人脸对象。

在一个实施例中提供了一种对象显示方法，可应用于图1所示的应用环境中，图2为该方法的流程图，该流程包括以下步骤：

步骤S201，对预设区域进行人脸识别检测和语音跟踪检测。

数据处理装置接收摄像机和麦克风采集的视音频数据(视频和语音信号)，执行人脸识别检测和语音跟踪检测，其中，人脸识别检测和语音跟踪检测可以并行执行。其中，语音跟踪检测结果包括声源定位角度，该声源定位角度是指摄像机镜头处于初始回正状态下，声源相对于摄像机镜头的角度，可以通过获取摄像机和麦克风之间的相对位置关系，再根据该相对位置关系和声源定位角度，得到声源在视频图像中所处的位置。其中，摄像机和麦克风之间相对位置关系可以事先标定，并将标定参数存储至数据处理装置中。

步骤S202，在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域。

检测到语音信号，代表会议上有人发言，在这种情况下，会优先开启第一预设模式，以在视频图像中凸显发言者。人脸对象可以是一个或者多个，声源可以是一个或者多个，目标区域可以是一个或者多个。为了避免引入场外干扰，可以在视频图像中设置有效监测区域，只有位于有效监测区域中的人脸对象和声源才为有效数据。请参阅图3，图3是本实施例中人脸对象和声源在视频图像中所处位置的示意图。在视频图像中建立直角坐标系，横轴为X轴，纵轴为Y轴。人脸对象与声源相交，是指人脸对象和声源的位置至少存在相同的横坐标。有效监测区域为Area1，S1～S5为人脸对象，在图中以检测框形式呈现，X1～X5为声源横坐标，为便于理解，在图中以竖线形式呈现，且竖线的横坐标确定。由于X1和S2处于Area1之外，所以为无效数据；X3对应的竖线上无人脸对象，也为无效数据；X2对应的竖线上有S1，X4对应的竖线上有S3和S4，S1、S3和S4都在有效监测区域内，所以目标区域分别为S1、S3和S4所在位置。需要说明的是，声源定位结果包括沿着视频图像的水平方向和/或竖直方向的坐标，即声源定位结果可以只有横坐标，或者只有纵坐标，或者同时包含横坐标和纵坐标。

步骤S203，在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域。

未检测到语音信号，代表会议上无人发言，在这种情况下，会屏蔽第一预设模式，开启第二预设模式，以在视频图像中凸显所有参会者。

步骤S204，根据目标区域凸显相应的人脸对象。

在目标区域中显示相应的人脸对象。可选的，目标区域包括几何选框，采用几何选框框选相应的人脸对象，例如用方框或者椭圆包围人脸对象；或者，目标区域包括几何图形，采用几何图形标记相应的人脸对象，例如在人脸对象上方叠加指示箭头；或者，将目标区域在视频图像中进行居中设置，并在目标区域中显示相应的人脸对象。

在上述步骤S201至S204中，通过对预设区域进行人脸识别检测和语音跟踪检测，识别有人发言和无人发言这两种情况，面对这两种会议情况，在第一预设模式和第二预设模式之间进行自适应切换，即在检测到语音信号的情况下，优先开启第一预设模式，以在视频图像中凸显发言者，在未检测到语音信号的情况下，屏蔽第一预设模式，开启第二预设模式，以在视频图像中凸显所有参会者，解决了无法在视频图像中基于不同的会议场景自适应显示对象的问题，实现了在视频图像中基于不同的会议场景自适应显示对象的有益效果。

在一个实施例中，第一预设模式和第二预设模式可以基于用户指令进行开启或者关闭。可选的，数据处理装置响应于第一指令，启动第一预设模式，其中，第一预设模式被配置为在检测到语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域。可选的，数据处理装置响应于第二指令，启动第二预设模式，其中，第二预设模式被配置为获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域。可选的，数据处理装置响应于第一指令和第二指令，启动第一预设模式和第二预设模式，根据会议上是否有人发言，在第一预设模式和第二预设模式之间进行自适应切换，即当第一预设模式和第二预设模式都开启的情况下，优先执行第一预设模式，在达到某种条件下，可以自动切换至第二预设模式。

在一个实施例中，给出了在第一预设模式和第二预设模式均被启动的情况下，从第一预设模式自动切换至第二预设模式的方法：在预设时长内或者经预设检测次数未检测到语音信号的情况下，将视频图像的展示模式从第一预设模式切换至第二预设模式。

在一个实施例中，人脸对象的识别结果包括人脸检测框，获取人脸对象在视频图像中所处的位置包括：将人脸检测框的顶点坐标和尺寸基于预设图像分辨率进行调整，其中，预设图像分辨率的宽高比例为1:1。

参考图3，S1～S5为人脸对象，X1～X5对应竖线为声源横坐标。假设视频图像的分辨率为W1×H1，预设图像分辨率为M×M，其中，W1为宽，H1为高。假设人脸检测框的顶点坐标为(P1，Q1)，人脸检测框尺寸为W2×H2，以下是将人脸检测框的顶点坐标和尺寸进行归一化处理的计算公式：

人脸检测框的顶点坐标调整结果：P1’＝P1×W1/M，Q1’＝P1×H1/M；

人脸检测框的尺寸调整结果：W2’＝W2×W1/M，H2’＝H2×H1/M。

通过将人脸检测框进行归一化处理，能够适应任何比例的视频图像输入，即人脸检测框中，同一个坐标在原画面的位置，在不同分辨率的相同宽高比例情况下，对应的归一化处理后的坐标相同，对于本实施例的预设图像分辨率而言，只要保证宽高比例为1:1即可。

在一个实施例中，在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域之后，还将调整摄像机的拍摄角度，直至目标区域所包含的人脸对象在视频图像中居中显示。

相关技术的摄像机拍摄视野范围有限，一旦固定将无法调整。回到本申请中，在确定目标区域后，也存在该问题，即可能出现目标区域处于视频图像的边界，导致人脸对象无法居中显示的问题。为解决该问题，本实施例的摄像机的拍摄角度可调，并通过调整摄像机的拍摄角度，使得目标区域所包含的人脸对象在视频图像中居中显示。具体地，摄像机的镜头可以左右调整角度，从而实现在摄像机的镜头处于初始回正状态下，即使目标区域处于边界位置也可以在视频图像中居中显示。

进一步地，在一个实施例中给出了摄像机拍摄角度调整方法，调整摄像机的拍摄角度，直至目标区域所包含的人脸对象在视频图像中居中显示包括：

在摄像机的镜头处于初始回正状态下，确定目标区域与摄像机的拍摄视野范围的相对位置关系；在目标区域不完全包含于摄像机的拍摄视野范围的情况下，将摄像机的镜头沿着水平方向转动，直至目标区域完全包含于摄像机的拍摄视野范围内。其中，目标区域不完全包含于摄像机的拍摄视野范围的情况下，指的是在摄像机的镜头处于初始回正状态下，目标区域中至少部分区域处于拍摄视野范围之外。

图4给出了摄像机的拍摄视野范围的示意图，如图4所示，摄像机的镜头处于初始回正状态下，拍摄视野范围为Area1，镜头调整至最左时，拍摄视野范围为Area2，镜头调整至最右时，拍摄视野范围为Area3，其中，只有Area1的声源定位结果才有效。当目标区域在A区或A+B区时，镜头会适当往左调整，从而使人脸对象回到视频图像的中间；当目标区域全部在A区、B区或C区时，镜头则为回正状态不调整；当目标区域在C区或B+C区时，镜头会适当往右调整，从而使人脸对象回到视频图像的中间。

在一个实施例中，在视频图像中确定目标区域之后，方法还包括：将当前目标区域和在上一阶段确定的历史目标区域进行比较，判断当前目标区域与历史目标区域之间的偏差是否大于预设阈值；在判断到当前目标区域与历史目标区域之间的偏差大于预设阈值的情况下，对当前目标区域的图像进行数字图像处理，其中，数字图像处理包括裁剪和缩放。

由于人脸对象存在误差和浮动，当人左右摇头或者低头抬头，人脸检测框的大小有所变化。本实施例通过上述步骤，能够起到防抖动的效果，避免出现反复缩放或平移的抖动现象。其中，当前目标区域与历史目标区域之间的偏差，包括以下任意一个方面：当前目标区域的中心点位置与历史目标区域的中心位置存在偏差，且偏差值大于第一阈值；当前目标区域的面积与历史目标区域的面积存在偏差，且偏差大于第二阈值。

进一步地，在一个实施例中给出了对当前目标区域的图像进行数字图像处理的方法，该方法包括：在当前目标区域的缩放倍数小于历史目标区域的放大倍数的情况下，将当前目标区域的图像进行先缩小后平移；或者，在当前目标区域的缩放倍数大于历史目标区域的放大倍数的情况下，将当前目标区域的图像进行先平移后放大。

由于在缩小情况下，如果先平移再缩小，会出现平移过程中看不到人脸对象直至缩小的现象。在放大情况下，如果先放大再平移，会出现放大过程中看不到人脸对象直至平移的现象。如此设置，起到在缩放平移过程中人脸对象都是可见的，另外，也起到了一定的防抖动效果。

以下将通过优选实施例介绍对象显示方法。

图5是一个实施例中框选人脸对象的整体方法流程图，在本实施例中，将第一预设模式设置为能够框选出现在摄像机视野范围内的发言者，将第二预设模式设置为能够框选出现在摄像机视野范围内的所有参会者，识别得到的人脸对象用检测框包围，并将目标区域设置成矩形框，如图5所示，该流程包括如下步骤：

步骤S501，对视频图像进行人脸识别检测，对语音信号进行语音跟踪检测，将人脸对象和声源定位结果进行归一化处理；

步骤S502，开启第一预设模式和第二预设模式；

步骤S503，判断是否有人员说话；若是，则跳转至步骤S506；若否，则跳转至步骤S504；

步骤S504，切换为第二预设模式；

步骤S505，根据人脸对象确定目标区域；

步骤S506，切换为第一预设模式；

步骤S507，根据人脸对象和声源定位结果确定目标区域，并调整摄像机镜头的左右角度；

步骤S508，对目标区域进一步处理；

步骤S509，根据目标区域确定数字变倍缩放比例，根据数字变倍缩放比例调整视频图像。

结合图5，在一个实施例中，图6给出了在第一预设模式下框选人脸对象的流程图，如图6所示，该流程包括如下步骤：

步骤S601，开启第一预设模式；

步骤S602，开启语音跟踪检测，并调整摄像机的镜头处于初始回正状态；

步骤S603，判断是否检测到语音信号；若是，则跳转至步骤S604；若否，则跳转至步骤S619；

步骤S604，判断是否检测到人脸对象；若是，则跳转至步骤S605；若否，则跳转至步骤S615；

步骤S605，判断摄像机的镜头是否处于初始回正状态；若是，则跳转至步骤S606；若否，则跳转至步骤S616；

步骤S606，确定声源定位角度，根据声源定位角度输出声源在视频图像中的X坐标；

步骤S607，比较声源X坐标和人脸对象的位置，确定目标区域；

步骤S608，判断目标区域是否不存在；若是，则跳转至步骤S621；若否，则跳转至步骤S609；

步骤S609，目标区域四条边往外各拓展1个最大人脸框选的width尺寸；

步骤S610，判断目标区域是否超过四围边界中的任一边界；若是，则跳转至步骤S617；若否，则跳转至步骤S611；

步骤S611，调整目标区域的宽高比例为1:1；

步骤S612，判断目标区域是否超过四围边界中的任一边界；若是，则跳转至步骤S618；若否，则跳转至步骤S613；

步骤S613，判断目标区域中心点位置偏差是否大于第一阈值或者目标区域面积偏差是否大于第二阈值；若是，则跳转至步骤S614；若否，则跳转至步骤S622；

步骤S614，对目标区域进行数字图像处理，输出人脸对象坐标；

步骤S615，目标区域为整个视频图像，无缩放比例，镜头角度回正，计数清零；

步骤S616，获取当前人脸对象和声源，并将当前人脸对象和声源映射到原视频图像；

步骤S617，调整目标区域；

步骤S618，调整目标区域，确定镜头左/右偏转角度；

步骤S619，判断是否无语音连续计数超时；若是，则跳转至步骤S620；若否，则跳转至步骤S603；

步骤S620，切换到第二预设模式；

步骤S621，镜头角度回正；

步骤S622，计数清零。

在本实施例中，若当前目标区域中心相较于历史目标区域中心的X坐标偏差值超过历史目标区域的宽度的30％，或Y坐标偏差值超过历史目标区域的高度的30％，或当前目标区域相较于历史目标区域的面积偏差值相差20％，则需要对目标区域进行数字图像处理，包括裁剪、缩放以及平移。其中，输出数字缩放后人脸对象相对于原视频图像的新坐标，能够为后期叠加OSD(屏幕信息显示)信息提供有效信息。

进一步地，图7给出了目标区域在视频图像中的示意图，如图7所示，M1为原视频图像大小，M2为目标区域，M3和M4为人脸对象。根据上述步骤S604、步骤S611和步骤S612，得到所有人脸对象以及目标区域，即已知所有人脸对象的左上角顶点坐标(x，y)以及宽度width和高度height，目标区域的左上角顶点坐标(X，Y)以及宽度W和高度H，则缩放后人脸对象相对于原视频图像的坐标位置为(x1，y1)，宽度w1，高度h1，x1＝(x-X)×原视频图像的宽度/W，y1＝(y-Y)×原图像的高度/H，w1＝width×原图像的宽度/W，h1＝height×原图像的高度/H。

结合图5，在一个实施例中，图8给出了在第二预设模式下框选人脸对象的流程图，如图8所示，该流程包括如下步骤：

步骤S801，切换至第二预设模式，并调整摄像机的镜头处于初始回正状态；

步骤S802，判断是否检测到人脸对象；若是，则跳转至S810；若否，则跳转至S803；

步骤S803，计算包含摄像机拍摄视野范围内所有人脸对象的目标区域；

步骤S804，目标区域四条边往外各拓展1个最大人脸框选的width尺寸；

步骤S805，目标区域超过四围边界中的任一边界；若是，则跳转至S811；若否，则跳转至S806；

步骤S806，调整目标区域的宽高比例为1:1；

步骤S807，目标区域超过四围边界中的任一边界；若是，则跳转至S812；若否，则跳转至S808；

步骤S808，目标区域中心点位置偏差大于第一阈值或者框选区域面积偏差大于第二阈值；若是，则跳转至S809；若否，则跳转至S802；

步骤S809，对目标区域进行数字图像处理，输出人脸对象坐标；

步骤S810，将目标区域设置为整个视频图像，无缩放比例；

步骤S811，调整目标区域；

步骤S812，调整目标区域，确定镜头左/右偏转角度。

其中，输出数字缩放后人脸对象相对于原视频图像的新坐标，能够为后期叠加OSD(屏幕信息显示)信息提供有效信息。

结合图6和图8，在一个实施例中，图9给出了一种调整目标区域的流程图，如图9所示，该流程包括如下步骤：

步骤S901，目标区域四条边往外各拓展1个最大人脸框选的width尺寸；

步骤S902，判断目标区域的宽/高是否超出原视频图像；若是，则跳转至步骤S908；若否，则跳转至步骤S903；

步骤S903，判断目标区域的上边界是否超出原视频图像；若是，则跳转至步骤S909；若否，则跳转至步骤S904；

步骤S904，判断目标区域的下边界是否超出原视频图像；若是，则跳转至步骤S911；若否，则跳转至步骤S905；

步骤S905，判断目标区域的左边界是否超出原视频图像；若是，则跳转至步骤S910；若否，则跳转至步骤S906；

步骤S906，判断目标区域的右边界是否超出原视频图像；若是，则跳转至步骤S912；若否，则跳转至步骤S907；

步骤S907，调整目标区域的宽高比例为1:1；

步骤S908，将目标区域设置为整个视频图像；

步骤S909，将目标区域下移，移动量为超出量；

步骤S910，将目标区域右移，移动量为超出量；

步骤S911，将目标区域上移，移动量为超出量；

步骤S912，将目标区域左移，移动量为超出量。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的对象显示方法的数据处理装置。图10是一个实施例中数据处理装置的结构示意图，如图10所示，包括：人脸识别模块、语音跟踪模块和主控模块，人脸识别模块、语音跟踪模块分别与主控模块连接；人脸识别模块被配置为对预设区域进行人脸识别检测，语音跟踪模块被配置为对预设区域进行语音跟踪检测；主控模块被配置为在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域；在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域；根据目标区域凸显相应的人脸对象。

该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于对象显示方法的限定，在此不再赘述。

在一个实施例中，主控模块还被配置为：将人脸检测框的顶点坐标和尺寸基于归一化坐标系进行调整，其中，归一化坐标系的宽高比例为1:1。

在一个实施例中，主控模块还被配置为：调整摄像机的拍摄角度，直至当前目标区域所包含的人脸对象在视频图像中居中显示。

在一个实施例中，主控模块还被配置为：在摄像机的镜头处于初始回正状态下，确定目标区域与摄像机的拍摄视野范围的相对位置关系；在目标区域不完全包含于摄像机的拍摄视野范围的情况下，将摄像机的镜头沿着水平方向转动，直至目标区域完全包含于摄像机的拍摄视野范围内。

在一个实施例中，主控模块还被配置为：将当前目标区域和在上一阶段确定人脸对象时得到的历史目标区域进行比较，判断当前目标区域与历史目标区域之间的偏差是否大于预设阈值；在判断到当前目标区域与历史目标区域之间的偏差大于预设阈值的情况下，对当前目标区域的图像进行数字图像处理，其中，数字图像处理包括裁剪和缩放。

在一个实施例中，主控模块还被配置为：在当前目标区域的缩放倍数小于历史目标区域的放大倍数的情况下，将当前目标区域的图像进行先缩小后平移；或者，在当前目标区域的缩放倍数大于历史目标区域的放大倍数的情况下，将当前目标区域的图像进行先平移后放大。

在一个实施例中，主控模块还被配置为：响应于第一指令，启动第一预设模式，其中，第一预设模式被配置为在检测到语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域；和/或，响应于第二指令，启动第二预设模式，其中，第二预设模式被配置为获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域。

在一个实施例中，主控模块还被配置为：在第一预设模式和第二预设模式均被启动的情况下，方法还包括在预设时长内或者经预设检测次数未检测到语音信号的情况下，将视频图像的展示模式从第一预设模式切换至第二预设模式。

上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例还提供了一种对象显示系统，图11是一个实施例中对象显示系统的架构示意图，如图11所示，包括：摄像机、麦克风、播放设备和上述实施例的数据处理装置，摄像机、麦克风、播放设备分别与数据处理装置连接；摄像机用于拍摄预设区域的视频图像；麦克风用于采集预设区域的语音信号；播放设备用于输出经数据处理装置处理得到的视频图像和语音信号。在本实施例中，对象显示系统中的各部件相互独立，通过线缆连接。播放设备至少包括显示屏和扬声器，播放设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能车载设备等，便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中，预先设定摄像机和多个麦克风之间的相对位置关系，得到相对位置关系的标定参数，并将标定参数写入数据处理装置中。

在一个实施例中，摄像机的镜头可以左右偏转，数据处理装置能够控制摄像机的镜头角度。

在一个实施例中，对象显示系统中的各部件相互集成于一体，如图1所示，对象显示系统包括图1所示的终端设备100，其中，摄像机101、麦克风102、播放设备(显示屏103和扬声器104)和数据处理装置集成与一体。

本申请实施例还提供了一种计算机设备，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象显示方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

步骤S201，对预设区域进行人脸识别检测和语音跟踪检测；

步骤S202，在检测到人脸对象和语音信号的情况下，获取人脸对象和声源在视频图像中所处的位置，根据人脸对象与声源的相交位置，在视频图像中确定目标区域；

步骤S203，在检测到人脸对象但未检测到语音信号的情况下，获取人脸对象在视频图像中所处的位置，根据人脸对象的位置，在视频图像中确定目标区域；

步骤S204，根据目标区域凸显相应的人脸对象。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

步骤S201，对预设区域进行人脸识别检测和语音跟踪检测；

步骤S204，根据目标区域凸显相应的人脸对象。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种对象显示方法，其特征在于，包括：

对预设区域进行人脸识别检测和语音跟踪检测；

根据所述目标区域凸显相应的人脸对象。

2.根据权利要求1所述的对象显示方法，其特征在于，所述人脸对象的识别结果包括人脸检测框，获取所述人脸对象在视频图像中所处的位置包括：

3.根据权利要求1所述的对象显示方法，其特征在于，在检测到人脸对象和语音信号的情况下，获取所述人脸对象和声源在视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定目标区域之后，所述方法还包括：

4.根据权利要求1所述的对象显示方法，其特征在于，在所述视频图像中确定目标区域之后，所述方法还包括：

5.根据权利要求4所述的对象显示方法，其特征在于，对所述当前目标区域的图像进行数字图像处理包括：

6.根据权利要求1所述的对象显示方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的对象显示方法，其特征在于，在所述第一预设模式和所述第二预设模式均被启动的情况下，所述方法还包括：

8.根据权利要求1至7中任一项所述的对象显示方法，其特征在于，根据所述目标区域凸显相应的人脸对象包括：

9.一种数据处理装置，其特征在于，包括：人脸识别模块、语音跟踪模块和主控模块，所述人脸识别模块、所述语音跟踪模块分别与所述主控模块连接；

所述主控模块被配置为在检测到人脸对象和语音信号的情况下，获取所述人脸对象和声源在视频图像中所处的位置，根据所述人脸对象与所述声源的相交位置，在所述视频图像中确定目标区域；在检测到人脸对象但未检测到语音信号的情况下，获取所述人脸对象在所述视频图像中所处的位置，根据所述人脸对象的位置，在所述视频图像中确定所述目标区域；根据所述目标区域凸显相应的人脸对象。

10.一种对象显示系统，其特征在于，包括：摄像机、麦克风、播放设备和权利要求9所述的数据处理装置，所述摄像机、所述麦克风、所述播放设备分别与所述数据处理装置连接；所述摄像机用于拍摄预设区域的视频；所述麦克风用于采集所述预设区域的语音信号；所述播放设备用于输出经所述数据处理装置处理得到的视频图像和语音信号。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的对象显示方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的对象显示方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的对象显示方法的步骤。