CN113794814B

CN113794814B - 一种控制视频图像输出的方法、装置及存储介质

Info

Publication number: CN113794814B
Application number: CN202111352217.5A
Authority: CN
Inventors: 肖兵; 陈宇; 许汉龙
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-08
Anticipated expiration: 2041-11-16
Also published as: CN113794814A

Abstract

本申请公开了一种控制视频图像输出的方法、装置及存储介质，用于使特写画面的计算更加准确、可靠，提升用户体验。本申请方法包括：开启视频预览；并行接收音画信息，所述音画信息包括声源定位信息和目标检测信息；在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者；若是，则根据所述音画信息计算并输出第一视频图像结果。

Description

一种控制视频图像输出的方法、装置及存储介质

技术领域

本申请涉及视频图像处理技术领域，尤其涉及一种控制视频图像输出的方法、装置及存储介质。

背景技术

当下视频会议已较为普及，目前市面上已有一些智能会议系统能够在视频会议过程中自动对画面中的发言者给予特写画面，使其他与会者能清晰看到发言者的面部表情和肢体动作，极大地提升了会议效果。

这其中，如何确定画面中发言者的位置尤为关键。现有技术中有采用阵列麦克风声源定位技术的，也有利用图像识别技术，例如人像检测、嘴部开合程度判别、起立动作检测、人脸动作信息辨识等。

然而在实际场景中，声源定位信息可能因噪声、混响等因素出现异常值，同时发言者说话时短暂的停顿也会使得声源方位有一定波动，另外，目标检测也可能偶尔出现漏检或误检情况，这些不稳定因素综合起来都会影响到特写画面计算结果，影响用户体验。

发明内容

本申请提供了一种控制视频图像输出的方法、装置及存储介质，用于使特写画面的计算更加准确、可靠，提升用户体验。

本申请第一方面提供了一种控制视频图像输出的方法，包括：

开启视频预览；

并行接收音画信息，所述音画信息包括声源定位信息和目标检测信息；

在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者；

若是，则根据所述音画信息计算并输出第一视频图像结果。

可选的，所述在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者包括：

在预设时间段内对所述音画信息进行统计分析，若声源角度变化在有效范围内且有效音画信息个数达到设定比例则确定有稳定的发言者。

可选的，所述声源定位信息包含音频时间戳，所述目标检测信息包含画面时间戳；

在所述在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者之前，所述方法还包括：

根据所述音频时间戳配置预先创建的音画信息单元；

根据所述画面时间戳确定匹配的目标音画信息单元；

将所述目标检测信息更新至所述目标音画信息单元；

所述在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者包括：

在预设时间段内对所述目标音画信息单元中的音画信息进行统计分析，判断是否有稳定的发言者。

可选的，在所述根据所述音频时间戳配置预先创建的音画信息单元之后，所述方法还包括：

将所述音画信息单元存储至目标队列中；

根据所述画面时间戳确定匹配的目标音画信息单元包括：

根据所述画面时间戳从所述目标队列中确定匹配的目标音画信息单元。

可选的，所述根据所述画面时间戳从所述目标队列中确定匹配的目标音画信息单元包括：

逆序遍历所述目标队列，根据所述画面时间戳和所述音频时间戳通过目标公式计算所述目标队列中所有音画信息单元的音画时间差；

将所述音画时间差由小变大的极值点位置的音画信息单元确定为目标音画信息单元；

可选的，所述目标公式为：

；

其中

为音画时间差，

为音画信息单元编号，

表示目标检测信息中的画面时间戳，

表示第

个音画信息单元的音频时间戳，

为预设音画时间补偿。

可选的，所述根据所述音画信息计算并输出第一视频图像结果包括：

当接收到所述视频更新请求时，根据所述音画信息计算并输出第一视频图像结果。

根据预设时间间隔按时计算并输出第一视频图像结果；

或，

根据预设时间间隔按时计算第一视频图像结果；

在所述第一视频图像结果发生变化时输出所述第一视频图像结果。

可选的，根据所述音画信息计算并输出第一视频图像结果包括：

根据所述音画信息确定所述发言者的位置；

根据所述发言者的位置计算目标画面子区域；

输出所述目标画面子区域。

可选的，在所述输出所述目标画面子区域之后，所述方法还包括：

判断所述音画信息接收状态是否正常且根据所述音画信息判断画面中是否存在有效目标；

若所述音画信息接收状态不正常或所述画面中不存在有效目标，则输出整幅画面区域；

可选的，若所述音画信息接收状态正常且所述画面中存在有效目标，则进一步判断所述发言者的位置是否超出设定范围且持续时间达到预设时间；

若所述发言者的位置超出设定范围且持续时间达到预设时间，则根据所述发言者的位置重新计算并输出目标画面子区域。

可选的，在所述在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者之后，所述方法还包括：

若否，则输出整幅画面区域。

可选的，在确定有稳定的发言者之后，在所述输出第一视频图像结果之前，所述方法包括：

确定第二视频图像结果；

所述输出第一视频图像结果包括：

同时输出所述第一视频图像结果和所述第二视频图像结果。

可选的，所述确定第二视频图像结果包括：

根据上一个所述稳定的发言者的位置确定第二视频图像结果；

或，

根据所述稳定的发言者的发言内容确定第二视频图像结果。

可选的，所述根据所述稳定的发言者的发言内容确定第二视频图像结果包括：

分析所述稳定的发言者的发言内容，确定所述发言内容中目标用户的名字；

根据所述目标用户的名字确定所述目标用户的位置；

根据所述目标用户的位置确定第二视频图像结果。

本申请第二方面提供了一种控制视频图像输出的装置，包括：

开启单元，用于开启视频预览；

接收单元，用于并行接收音画信息，所述音画信息包括声源定位信息和目标检测信息；

第一判断单元，用于在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者；

特写输出单元，用于当所述第一判断单元确定有稳定的发言者时，根据所述音画信息计算并输出第一视频图像结果。

可选的，所述第一判断单元具体用于：

可选的，所述声源定位信息包含音频时间戳，所述目标检测信息包含画面时间戳；所述装置还包括：音画同步单元；

所述音画同步单元具体包括：

配置模块，用于根据所述音频时间戳配置预先创建的音画信息单元；

匹配模块，用于根据所述画面时间戳确定匹配的目标音画信息单元；

更新模块，用于将所述目标检测信息更新至所述目标音画信息单元；

所述第一判断单元具体用于：

可选的，所述音画同步单元还包括：

存储模块，用于将所述音画信息单元存储至目标队列中；

所述匹配模块具体用于：

可选的，所述匹配模块具体用于：

将所述音画时间差由小变大的极值点位置的音画信息单元确定为目标音画信息单元。

可选的，所述目标公式为：

；

其中

为音画时间差，

为音画信息单元编号，

表示目标检测信息中的画面时间戳，

表示第

个音画信息单元的音频时间戳，

为预设音画时间补偿。

可选的，所述特写输出单元具体用于：

当接收到视频更新请求时，根据所述音画信息计算并输出第一视频图像结果。

可选的，所述特写输出单元具体用于：

根据预设时间间隔按时计算并输出第一视频图像结果；

或，

根据预设时间间隔按时计算第一视频图像结果；

可选的，所述特写输出单元具体用于：

根据所述音画信息确定所述发言者的位置；

根据所述发言者的位置计算目标画面子区域；

输出所述目标画面子区域。

可选的，所述装置还包括：

第二判断单元，用于判断所述音画信息接收状态是否正常且根据所述音画信息判断画面中是否存在有效目标；

原画输出单元，用于当所述第二判断单元确定所述音画信息接收状态不正常或所述画面中不存在有效目标时，输出整幅画面区域。

可选的，所述装置还包括：

第三判断单元，用于当所述第二判断单元确定所述音画信息接收状态正常且所述画面中存在有效目标时，进一步判断所述发言者的位置是否超出设定范围且持续时间达到预设时间；

所述特写输出单元具体还用于：

当所述第三判断单元确定所述发言者的位置超出设定范围且持续时间达到预设时间时，根据所述发言者的位置重新计算并输出目标画面子区域。

可选的，所述原画输出单元具体还用于：

当所述第一判断单元确定没有稳定的发言者时，输出整幅画面区域。

可选的，所述装置还包括：

确定单元，用于确定第二视频图像结果；

所述特写输出单元具体还用于：

同时输出所述第一视频图像结果和所述第二视频图像结果。

可选的，所述确定单元具体用于：

或，

根据所述稳定的发言者的发言内容确定第二视频图像结果。

可选的，所述确定单元具体用于：

根据所述目标用户的名字确定所述目标用户的位置；

根据所述目标用户的位置确定第二视频图像结果。

本申请第三方面提供了一种控制视频图像输出的装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的控制视频图像输出的方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的控制视频图像输出的方法。

从以上技术方案可以看出，本申请具有以下优点：

通过采用声源定位与图像识别相结合的方案，同时利用音、视频信息，在实际应用场景中更准确、可靠的确定发言者的位置。并且基于音画信息在一段时间内进行统计分析,在判断是否有稳定的发言者时对声源定位和图像识别的异常值具有较好的容忍度，从而使得特写画面的计算更加准确、可靠，极大提升了用户体验。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的控制视频图像输出的方法一个实施例流程示意图；

图2为本申请提供的控制视频图像输出的方法另一个实施例流程示意图；

图3为本申请提供的控制视频图像输出的方法中音画信息单元和音画时间差的一个关系曲线图；

图4为本申请提供的控制视频图像输出的方法中音画信息单元和音画时间差的另一个关系曲线图；

图5为本申请提供的控制视频图像输出的装置一个实施例结构示意图；

图6为本申请提供的控制视频图像输出的装置另一个实施例结构示意图；

图7为本申请提供的控制视频图像输出的实体装置一个实施例结构示意图。

具体实施方式

需要说明的是，本申请提供的控制视频图像输出的方法，可以应用于终端，还可以应用于服务器上，例如终端可以是会议电视、会议电脑、会议平板、智能手机或电脑、平板电脑、智能电视、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的控制视频图像输出的方法的一个实施例，该方法包括：

101、开启视频预览；

目前，视频会议已较为普及，市面上已有一些智能会议系统能够在视频会议过程中自动对画面中的发言者给予特写画面，使其他与会者能清晰看到发言者的面部表情和肢体动作，特写画面的关键在于对发言者的位置进行准确定位。会议系统一般包括摄像头、麦克风、处理器和视频播放设备，由摄像头采集会议图像，麦克风采集会议声音，处理器则对该会议图像和会议声音进行处理然后发送至视频播放设备进行显示。

在本实施例中，终端将视频输出的画面分为两种类型：原画和特写。当类型为原画时，目标画面区域为整幅画面区域；当类型为特写时，目标画面区域为包含发言者的局部子区域。在每次视频预览开始时需要进行一次状态重置，终端将当前画面类型设置为原画，即终端控制视频图像输出整幅画面区域，整幅画面区域具体是指摄像头所拍摄到的全部画面区域。

102、并行接收音画信息，音画信息包括声源定位信息和目标检测信息；

在本实施例中，终端通过麦克风设备接收音频信息，并根据声源定位技术确定该音频信息中的声源定位信息，同时终端通过摄像头设备接收视频信息，并根据图像识别技术确定该视频信息中的目标检测信息，并行接收的目的是可以提高终端的处理效率，以下将该声源定位信息和目标检测信息统称为音画信息。

音画信息中的声源定位信息是指终端所接收到的音频信息的方向和角度等信息，通过该声源定位信息可以大致确定发言者的位置。而目标检测信息是对终端所接收到的视频信息中的人脸检测和/或人头检测和/或人体检测结果，优选为人脸检测结果。

需要说明的是，由于麦克风和摄像头在实际工作时可能存在不同程度的延迟，因此在接收音画信息之后，在对音画信息统计分析之前，还需要进行音画信息的同步，该同步方法可以是通过声源定位信息中的音频时间戳和目标检测信息中的画面时间戳进行同步，还可以是通过一个固定的音画延迟差来进行音画信息的同步，具体此处不做限定。

103、在预设时间段内对音画信息进行统计分析，判断是否有稳定的发言者，若是，则执行步骤104；

终端在预设的时间段内对接收到的音画信息进行统计分析，判断预设时间段内是否存在稳定的发言者，如果存在稳定的发言者，则执行步骤104以输出该发言者的特写画面。

在一些具体的实施例中，可以通过判断预设时间段内的声源角度变化是否在一个有效范围内，再结合预设时间段内的有效音画信息的个数是否达到设定比例来判断是否存在稳定的发言者。其中声源角度变化在有效范围内具体是指：若声源角度波动范围不超过该有效范围（例如30°），则认为该声源角度是相对稳定有效的。有效音画信息具体是指音画信息中有效目标不为0且声源角度在有效范围内的音画信息。终端判断该有效音画信息的个数是否达到设定比例，具体是指终端在预设时间段（例如3s）内，统计有效音画信息个数Nv，该时间段总的音画信息个数为Nt，若Nv >= k * Nt（其中k为预设比例，例如设定为0.8），则表示该时间段内有效音画信息个数达到设定比例。若同时满足上述两个条件，则确定有稳定的发言者，若上述两个条件有任意一个不满足，则确定没有稳定的发言者。

需要说明的是，该声源角度变化的有效范围以及有效音画信息的个数对应的设定比例的具体数值，可以根据实际需求而做具体的设定，此处不做限定。

104、根据音画信息计算并输出第一视频图像结果。

当确定存在稳定的发言者时，则需要输出该发言者的特写画面，终端根据接收到的音画信息，即声源定位信息和目标检测信息对发言者的位置进行计算，然后根据发言者的位置确定第一视频图像结果，输出该第一视频图像结果，该第一视频图像结果即为发言者的特写画面。具体的，终端需要计算出特写画面的实际帧数据或特写画面对应的剪裁缩放参数来确定第一视频图像结果。

在本实施例中，通过采用声源定位与图像识别相结合的方案，同时利用音、视频信息，在实际应用场景中更准确、可靠的确定发言者的位置。并且基于音画信息在一段时间内进行统计分析,在判断是否有稳定的发言者时对声源定位和图像识别的异常值具有较好的容忍度，从而使得特写画面的计算更加准确、可靠，极大提升了用户体验。

请参阅图2，图2为本申请提供的控制视频图像输出的方法的另一个实施例，该方法包括：

201、开启视频预览；

在本实施例中，步骤201与前述实施例步骤101类似，此处不做赘述。

202、并行接收音画信息，音画信息包括声源定位信息和目标检测信息；

需要说明的是，终端接收到的声源定位信息包括音频时间戳，该音频时间戳可以是声源时间戳，也可以是接收到声源定位信息的时间戳，此外声源定位信息中还包含声源方位，该声源方位可以是一维的声源角度，也可以是二维或三维的声源位置，具体此处不做限定。

需要说明的是，终端接收到的目标检测信息包括画面时间戳，该画面时间戳可以是该视频帧的采集时间戳，也可以是该视频帧被目标检测前的时间戳，此外目标检测信息中还包含目标检测包围盒集合，具体的，目标检测类型为人脸检测和/或人头检测和/或人体检测，优选为人脸检测。

在实际应用中，由于麦克风和摄像头在实际工作时可能存在不同程度的延迟，因此在接收音画信息之后，在对音画信息统计分析之前，还需要进行音画信息的同步，该同步方法可以是基于声源定位信息中的音频时间戳和目标检测信息中的画面时间戳来实现，在一些具体的实施例中，终端执行步骤203至步骤205以进行音画信息的同步，下面进行详细描述：

203、根据音频时间戳配置预先创建的音画信息单元；

终端预先创建有若干音画信息单元，该音画信息单元是用于存储时间戳、声源方位和有效目标检测结果的载体，终端通过一系列的处理，会将处理后的声源定位信息和目标检测信息写入该音画信息单元并进行存储，从而在终端需要计算特写画面时可以从该音画信息单元中读取时间戳、声源方位以及有效目标检测结果，并以这些数据作为依据来计算输出的视频图像结果。

具体的，终端将音画信息单元中的时间戳设置为接收到的声源定位信息的音频时间戳，该音频时间戳可以是声源定位信息中的声源时间戳，也可以是接收到声源定位信息时的时间戳。此外，终端还需要将音画信息单元中存储的声源方位设置为接收到的声源定位信息的声源方位，并将音画信息单元中存储的有效目标检测结果初始化为无效值，初始化的目的为接下来存储终端所接收到的目标检测信息做准备。

需要说明的是，终端所获取的声源定位信息中的音频时间戳可以是声源时间戳，也可以是终端接收到声源定位信息时的时间戳。前者比后者更接近真实时间戳，理论偏差更小，但往往不易获得。而后者理论偏差更大，但能很容易获得。而本实施例中在计算音画时间差的过程中还包含音画时间补偿，可根据实际情况对这种偏差进行修正。因此不论选择上述两种时间戳的任意一种，本发明均能得到较为准确的结果。同理，终端所获取的目标检测信息中的画面时间戳可以是该视频帧的采集时间戳，也可以是该视频帧被目标检测前的时间戳。前者相比后者更接近真实时间，理论偏差更小，但同样未必能获得，因而实际一般使用后者。如前所述，本实施例提供的音画同步方法能很好地对音画时间偏差进行补偿，故具体选用哪种时间戳，对最终的视频画面处理结果均无明显影响。

在一些具体的实施例中，终端将音画信息单元存储在目标队列中，该目标队列的长度固定，新的音画信息单元由队尾加入，且在加入前需要先判断目标队列长度是否已达到设定值（预设长度），若没有达到设定值，则执行步骤a，若达到设定值，则执行步骤b。

a）如果目标队列的长度没有达到设定值，则直接将新的音画信息单元由队尾加入该目标队列。

b）如果目标队列的长度已达到设定值，则先从目标队列的队首删除一个音画信息单元，再将新的音画信息单元由队尾加入该目标队列。

204、根据画面时间戳确定匹配的目标音画信息单元；

终端根据接收到的目标检测信息的画面时间戳在若干音画信息单元中匹配时间最邻近的音画信息单元，将其确定为目标音画信息单元。

在一些具体的实施例中，在确定匹配的目标音画信息单元前，需要先对目标检测信息和目标队列的状态进行检查，下面进行详细描述：

一、检查输入的目标检测信息：

终端检测输入的目标检测信息中检测到的目标数目，即检测到的人脸和/或人头和/或人体的数目，如果目标数目为0，则直接返回接收新的声源定位信息和目标检测信息。如果目标数目不为0，则进行目标音画信息单元的匹配。

二、检查目标队列：

如果目标队列中没有音画信息单元，则直接返回接收新的声源定位信息和目标检测信息。如果目标队列中存在音画信息单元，则进行目标音画信息单元的匹配。

需要说明的是，上述两种状态不分先后顺序且可以同时进行。在确定状态检查通过后，终端则根据目标检测信息中的画面时间戳从音画信息单元中匹配时间最邻近的音画信息单元。

在一些具体的实施例中，终端逆序遍历目标队列，根据画面时间戳和音频时间戳通过目标公式计算目标队列中所有音画信息单元的音画时间差，通过该音画时间差确定匹配的目标音画单元。

具体的，终端逆序遍历目标队列中的音画信息单元，对于各个音画信息单元，终端根据目标公式计算音画时间差

，若

超过预设最大音频时间间隔则直接返回重新接收新的声源定位信息和目标检测信息，否则继续遍历，直到找到

开始由小变大的极值点位置，相应位置的音画信息单元即为匹配到的目标音画信息单元。该预设最大音频时间间隔可根据不同设备的录制情况做具体设定。

进一步的，目标公式如下：

；

其中

为音画时间差，

为音画信息单元编号，

表示目标检测信息中的画面时间戳，

表示第

个音画信息单元的音频时间戳，

为预设音画时间补偿。

具体的，该

用于补偿音画不同步的问题，可根据不同设备的实际情况来设定和调整，若音频时间戳滞后于画面时间戳，则

为正，反之

为负，而当音频时间戳与画面时间戳延迟比较接近时，

就趋近于0。

终端将音画时间差由小变大的极值点位置确定为要匹配的位置，原因是在逆序遍历目标队列中的音画信息单元的过程中，由于新的音画信息单元是由队尾加入，相应的音频时间戳是由新到旧的，即越往前遍历，时间戳越早。

未超过预设最大音频时间间隔的情况下，如图3和图4所示，由右至左只有两种变化趋势：

1）如图3所示，

先变小后变大；

2）如图4所示，

逐步增大。

因此只有当处于音画时间差由小变大的极值点（最低点）时，音频和画面的实际时间才最为接近，因而将该位置作为音画同步的匹配点，即将该位置的音画信息单元确定为目标音画信息单元。

205、将目标检测信息更新至目标音画信息单元；

对于匹配到的目标音画信息单元，终端将目标检测信息更新至该目标音画信息单元。目标音画信息单元中存储的声源定位信息和目标检测信息，由于经过了音频时间戳和画面时间戳的校准，能够减小或消除该目标音画信息单元中音画数据的音画时间差，从而在终端需要输出视频图像结果时可以从该目标音画信息单元中读取经过校准的音画数据并根据该音画数据来计算输出的视频图像结果。

进一步的，终端接收到的声源定位信息包括声源方位，声源方位可以是一维的声源角度，也可以是二维或三维的声源位置，具体此处不做限定。对于匹配到的目标音画信息单元，终端统计其声源方位（声源角度）的预设范围内的目标检测结果作为有效目标检测结果。终端只将有效目标检测结果更新至目标音画信息单元，对于预设范围外的目标检测结果则不予考虑，进一步提高特写画面计算的准确性。

在一些具体的实施例中，音画信息单元中有效目标检测结果存储的是有效目标包围盒集合，即统计声源方位范围内的目标包围盒，并将其确定为有效目标检测结果。其中目标包围盒指的是目标检测中产生的矩形目标检测框，用于定位对象在图像中的位置，一般使用其中心点的横纵坐标结合包围盒长宽确定。

在另一些具体的实施例中，音画信息单元中有效目标检测结果存储的是有效目标数目，即统计声源方位范围内检测到的目标数目，并将其确定为有效目标检测结果。例如，目标检测任务为检测人脸信息，而声源方位为视频画面中的60°方向，预设范围为30°，终端则统计视频画面中30°至90°范围内的目标检测结果（检测到的人脸个数），若范围内的目标检测结果有2个，则有效目标检测结果为2个。优选的，音画信息单元中存储的有效目标检测结果为上述有效目标数目。

206、在预设时间段内对目标音画信息单元中的音画信息进行统计分析，判断是否有稳定的发言者，若否，则执行步骤207，若是，则直接执行步骤208；

终端在预设的时间段内对目标音画信息单元中的音画信息进行统计分析，即对经过音画同步矫正后的音画信息进行统计分析，判断预设时间段内是否存在稳定的发言者，如果不存在稳定的发言者，则执行步骤207，继续输出整幅画面区域，而如果存在稳定的发言者，则直接执行步骤208及后续步骤以输出该发言者的特写画面。

在一些具体的实施例中，可以通过判断预设时间段内的声源角度变化是否在一个有效范围内，再结合预设时间段内的有效音画信息（具体为音画信息单元）的个数是否达到设定比例来判断是否存在稳定的发言者。其中声源角度变化在有效范围内具体是指：若声源角度波动范围不超过该有效范围（例如30°），则认为该声源角度是相对稳定有效的。有效音画信息具体是指音画信息中有效目标数目不为0且声源角度在有效范围内的音画信息。终端判断该有效音画信息的个数是否达到设定比例具体是指终端在预设时间段（例如3s）内，统计有效音画信息个数Nv，该时间段总的音画信息个数为Nt，若Nv >= k * Nt（其中k为预设比例，例如设定为0.8），则表示该时间段内有效音画信息个数达到设定比例。若同时满足上述两个条件，则确定有稳定的发言者，若上述两个条件有任意一个不满足，则确定没有稳定的发言者。

207、输出整幅画面区域；

终端通过对预设时间段内的音画信息进行统计分析，具体是通过预设时间段内的声源角度变化是否在一个有效范围内，再结合有效音画信息的个数是否达到设定比例来确定是否有稳定的发言者，如果没有，则继续输出整幅画面区域。

需要说明的是，终端在输出整幅画面区域时，还需要持续执行步骤202以接收实时的音画信息，再执行步骤203及后续步骤，直到视频预览结束。

208、根据音画信息确定发言者的位置；

如果终端确定当前存在稳定的发言者，则需要先确定该发言者的位置。

在一些具体的实施例中，终端首先根据若干音画信息中的有效目标数目不为0的多个声源角度，求出平均声源角度作为初始水平位置，然后在声源角度的有效范围内根据目标检测信息中的目标包围盒的中心点平均值作为发言者的位置。

在另一些具体的实施例中，终端可以将音画信息中最新的一个有效目标数目不为0的声源角度作为初始水平位置，并从相应的目标包围盒中选择最大的一个包围盒作为发言人的位置。

需要说明的是，上述有效目标数目具体是指声源角度一定范围内的目标数目，而声源角度一定范围外的目标则不予考虑。

209、根据发言者的位置计算目标画面子区域；

根据步骤208中得到的发言者的位置，计算包含发言者的目标画面子区域，即发言者的特写画面。具体的，终端需要计算出目标画面子区域的实际帧数据或目标画面子区域对应的剪裁缩放参数来确定该目标画面子区域。

在一些可选的实施例中，如果发言者的目标画面子区域附近一定范围内还存在其它多个目标检测包围盒，即如果发言者的附近还存在其他人，终端则可以调整目标画面子区域的大小及位置，使其能够包含更多的目标。

210、输出目标画面子区域；

在计算出包含发言者特写画面的目标画面子区域后，终端则输出该目标画面子区域，即输出第一视频结果。

在一些具体的实施例中，终端可以根据视频更新请求来计算和输出第一视频图像结果。

在另一些具体的实施例中，终端还可以根据预设的时间间隔来按时计算并输出第一视频图像结果，或者是根据预设的时间间隔按时计算第一视频图像结果，但仅在计算结果发生变化时才输出第一视频图像结果。

211、判断音画信息接收状态是否正常且根据音画信息判断画面中是否存在有效目标，若是，则执行步骤212，若否，则执行步骤207；

在输出发言者的特写画面时，终端还需要持续判断输出的过程中，后台音画信息的接收状态是否正常，再判断画面中是否存在有效目标。

在一些具体的实施例中，音画信息记录状态正常的表现包括但不限于：

a.音画信息队列不为空；

b.当前时间与音画信息队列中最新的音画信息时间戳的差值在有效范围内；

c.音画信息队列中相邻音画信息时间戳差值在预期范围内。

而根据音画信息判定画面中存在有效目标具体步骤包括：逆序遍历音画信息队列，若在设定的时间内存在至少一条音画信息单元的有效目标数目不为0，即认为当前画面存在有效目标。需要说明的是，该有效目标数目是指声源角度一定范围内的目标数目，而声源角度一定范围外的目标则不予考虑。

若上述两个条件有一个不满足，则执行步骤207，退出发言人特写的输出转换为输出整幅画面区域。

若上述两个条件均满足，则进一步判断是否有稳定的发言者，判断方法如前述步骤206，此处不再赘述。当存在有稳定的发言者时，则执行步骤212以进一步判断发言者的位置是否发生变化，当发言者的位置未发生变化时，则返回步骤210，即保持目标画面子区域不变继续输出该目标画面子区域。

212、判断发言者的位置是否超出设定范围且持续时间达到预设时间，若是，则执行步骤213，若否，则返回步骤210；

终端在输出发言者的特写画面时，还需要持续判断后台音画信息的接收状态是否正常，再判断画面中是否存在有效目标。如果上述两个条件均满足，则进一步判断是否有稳定的发言者，如果存在稳定的发言者，则继续进一步判断该稳定的发言者的位置是否发生变化。

判断该稳定的发言者的位置是否发生变化具体是通过判断该发言者的位置是否超出设定范围并且持续时间达到预设时间，如果满足这两个条件，则认为发言者的位置发生变化，此时执行步骤213，如果这两个条件有任意一个不满足，则认为该发言者的位置没有发生变化，此时返回步骤210，即保持目标画面子区域不变继续输出该目标画面子区域。

在一些具体的实施例中，该持续时间可以通过帧数计算，当持续帧数达到设定值时则判定发言者位置发生变化，需要移动特写画面。

在另一些具体的实施例中，该持续时间可以通过分或秒计算，当持续时间达到设定值时则判定发言者位置发生变化，需要移动特写画面。

213、根据发言者的位置重新计算并输出目标画面子区域。

如果终端确定了发言者的位置发生了变化，则需要根据该发言者的位置重新确定目标画面子区域，并输出新的目标画面子区域，根据发言者的位置重新计算目标画面子区域的过程可以参照上述步骤208至210，此处不再赘述。

在一些可选的实施例中，由于在多人会议中，会出现两个人对话的情况，此时终端可以通过多个摄像头，确定当前正在发言的人以及当前发言人所针对的对象，同时输出两个人的特写画面，具体如下：

终端在确定第一视频图像结果之后，还需要确定第二视频图像结果，然后同时输出该第一视频图像结果和第二视频图像结果。

关于第二视频图像结果的确定，可以是直接以上一个稳定的发言者的特写画面作为该第二视频图像结果，也可以是根据当前稳定的发言者的发言内容，基于语义分析来确定发言内容中提到的与会人的名字，再通过人脸识别技术在摄像头拍摄区域内确定该与会人的位置，通过该与会人的位置确定第二视频图像结果。

在本实施例中，通过采用声源定位与图像识别相结合的方案，同时利用音、视频信息，在实际应用场景中更准确、可靠的确定发言者的位置。在输出发言者的特写画面时终端还需要在后台持续判断发言状态，使得在发言者的位置发生变化时，继续输出新的特写画面，使得特写画面的计算更加灵活。并且基于音画信息在一段时间内进行统计分析,在判断是否有稳定的发言者时对声源定位和图像识别的异常值具有较好的容忍度，从而使得特写画面的计算更加准确、可靠，极大提升了用户体验。

进一步的，在本实施例中，通过对声源定位信息和目标检测结果进行分别处理，首先根据声源定位信息中的音频时间戳来配置预先创建的音画信息单元，再根据接收到的目标检测结果中的画面时间戳来匹配相应的目标音画信息单元，再将目标检测结果更新到所匹配的目标音画信息单元中。进一步的，本实施例中在确定匹配的目标音画信息单元时采用音画时间差来进行匹配，将目标队列中音画时间差由小变大的极值点位置的音画单元确定为目标音画信息单元，再统计声源方位的预设范围内的有效目标检测结果，将其更新至该目标音画信息单元，以便后续在计算视频图像结果时可以从该目标音画信息单元中读取音画数据并计算。对声源定位和目标检测的延迟具有较好的容忍度，在实际应用中能极大限度的减少输入数据音画不同步对最终的视频画面处理结果带来的不利影响，进一步使得特写画面的计算更加准确、可靠。

请参阅图5，图5为本申请提供的控制视频图像输出的装置一个实施例，该装置包括：

开启单元501，用于开启视频预览；

接收单元502，用于并行接收音画信息，音画信息包括声源定位信息和目标检测信息；

第一判断单元503，用于在预设时间段内对音画信息进行统计分析，判断是否有稳定的发言者；

特写输出单元504，用于当判断单元确定有稳定的发言者时，根据音画信息计算并输出第一视频图像结果。

下面对本申请提供的控制视频图像输出的装置进行详细说明，请参阅图6，图6为本申请提供的控制视频图像输出的装置另一个实施例，该装置包括：

开启单元601，用于开启视频预览；

接收单元602，用于并行接收音画信息，音画信息包括声源定位信息和目标检测信息；

第一判断单元603，用于在预设时间段内对音画信息进行统计分析，判断是否有稳定的发言者；

特写输出单元604，用于当第一判断单元603确定有稳定的发言者时，根据音画信息计算并输出第一视频图像结果。

可选的，第一判断单元603具体用于：

在预设时间段内对音画信息进行统计分析，若声源角度变化在有效范围内且有效音画信息个数达到设定比例则确定有稳定的发言者。

可选的，声源定位信息包含音频时间戳，目标检测信息包含画面时间戳；装置还包括：音画同步单元605；

音画同步单元605具体包括：

配置模块6051，用于根据音频时间戳配置预先创建的音画信息单元；

匹配模块6052，用于根据画面时间戳确定匹配的目标音画信息单元；

更新模块6053，用于将目标检测信息更新至目标音画信息单元；

第一判断单元603具体用于：

在预设时间段内对目标音画信息单元中的音画信息进行统计分析，判断是否有稳定的发言者。

可选的，音画同步单元605还包括：

存储模块6054，用于将音画信息单元存储至目标队列中；

匹配模块6052具体用于：

根据画面时间戳从目标队列中确定匹配的目标音画信息单元。

可选的，匹配模块6052具体用于：

逆序遍历目标队列，根据画面时间戳和音频时间戳通过目标公式计算目标队列中所有音画信息单元的音画时间差；

将音画时间差由小变大的极值点位置的音画信息单元确定为目标音画信息单元。

可选的，目标公式为：

；

其中

为音画时间差，

为音画信息单元编号，

表示目标检测信息中的画面时间戳，

表示第

个音画信息单元的音频时间戳，

为预设音画时间补偿。

可选的，特写输出单元604具体用于：

当接收到视频更新请求时，根据音画信息计算并输出第一视频图像结果。

可选的，特写输出单元604具体用于：

根据预设时间间隔按时计算并输出第一视频图像结果；

或，

根据预设时间间隔按时计算第一视频图像结果；

在第一视频图像结果发生变化时输出第一视频图像结果。

可选的，特写输出单元604具体用于：

根据音画信息确定发言者的位置；

根据发言者的位置计算目标画面子区域；

输出目标画面子区域。

可选的，装置还包括：

第二判断单元606，用于判断音画信息接收状态是否正常且根据音画信息判断画面中是否存在有效目标；

原画输出单元607，用于当第二判断单元606确定音画信息接收状态不正常或画面中不存在有效目标时，输出整幅画面区域。

可选的，装置还包括：

第三判断单元608，用于当第二判断单元606确定音画信息接收状态正常且画面中存在有效目标时，进一步判断发言者的位置是否超出设定范围且持续时间达到预设时间；

特写输出单元604具体还用于：

当第三判断单元608确定发言者的位置超出设定范围且持续时间达到预设时间时，根据发言者的位置重新计算并输出目标画面子区域。

可选的，原画输出单元607具体还用于：

当第一判断单元603确定没有稳定的发言者时，输出整幅画面区域。

可选的，装置还包括：

确定单元609，用于确定第二视频图像结果；

特写输出单元604具体还用于：

同时输出第一视频图像结果和第二视频图像结果。

可选的，确定单元609具体用于：

根据上一个稳定的发言者的位置确定第二视频图像结果；

或，

根据稳定的发言者的发言内容确定第二视频图像结果。

可选的，确定单元609具体用于：

分析稳定的发言者的发言内容，确定发言内容中目标用户的名字；

根据目标用户的名字确定目标用户的位置；

根据目标用户的位置确定第二视频图像结果。

本实施例装置中，各单元的功能与前述图2所示方法实施例中的步骤对应，此处不再赘述。

本申请还提供了一种控制视频图像输出的装置，请参阅图7，图7为本申请提供的控制视频图像输出的装置一个实施例，该装置包括：

处理器701、存储器702、输入输出单元703、总线704；

处理器701与存储器702、输入输出单元703以及总线704相连；

存储器702保存有程序，处理器701调用程序以执行如上任一控制视频图像输出的方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，其特征在于，当程序在计算机上运行时，使得计算机执行如上任一控制视频图像输出的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，read-onlymemory）、随机存取存储器（RAM，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种控制视频图像输出的方法，其特征在于，所述方法包括：

开启视频预览；

若声源角度变化在有效范围内且有效音画信息个数达到设定比例则确定有稳定的发言者，根据所述音画信息计算并输出第一视频图像结果，所述声源角度变化为所述预设时间段内声源角度的波动范围，所述有效音画信息为有效目标不为0且声源角度在所述有效范围内的音画信息。

2.根据权利要求1所述的方法，其特征在于，所述声源定位信息包含音频时间戳，所述目标检测信息包含画面时间戳；

根据所述音频时间戳配置预先创建的音画信息单元；

根据所述画面时间戳确定匹配的目标音画信息单元；

将所述目标检测信息更新至所述目标音画信息单元；

3.根据权利要求2所述的方法，其特征在于，在所述根据所述音频时间戳配置预先创建的音画信息单元之后，所述方法还包括：

将所述音画信息单元存储至目标队列中；

所述根据所述画面时间戳确定匹配的目标音画信息单元包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述画面时间戳从所述目标队列中确定匹配的目标音画信息单元包括：

5.根据权利要求4所述的方法，其特征在于，所述目标公式为：

；

其中

为音画时间差，

为音画信息单元编号，

表示目标检测信息中的画面时间戳，

表示第

个音画信息单元的音频时间戳，

为预设音画时间补偿。

6.根据权利要求1所述的方法，其特征在于，所述根据所述音画信息计算并输出第一视频图像结果包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述音画信息计算并输出第一视频图像结果包括：

根据预设时间间隔按时计算并输出第一视频图像结果；

或，

根据预设时间间隔按时计算第一视频图像结果；

8.根据权利要求1所述的方法，其特征在于，根据所述音画信息计算并输出第一视频图像结果包括：

根据所述音画信息确定所述发言者的位置；

根据所述发言者的位置计算目标画面子区域；

输出所述目标画面子区域。

9.根据权利要求8所述的方法，其特征在于，在所述输出所述目标画面子区域之后，所述方法还包括：

若所述音画信息接收状态不正常或所述画面中不存在有效目标，则输出整幅画面区域。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若所述音画信息接收状态正常且所述画面中存在有效目标，则进一步判断所述发言者的位置是否超出设定范围且持续时间达到预设时间；

11.根据权利要求1所述的方法，其特征在于，在所述在预设时间段内对所述音画信息进行统计分析，判断是否有稳定的发言者之后，所述方法还包括：

若声源角度变化在有效范围外或有效音画信息个数未达到设定比例则确定没有稳定的发言者，输出整幅画面区域。

12.根据权利要求1至11中任一项所述的方法，其特征在于，在确定有稳定的发言者之后，在所述输出第一视频图像结果之前，所述方法包括：

确定第二视频图像结果；

所述输出第一视频图像结果包括：

同时输出所述第一视频图像结果和所述第二视频图像结果。

13.根据权利要求12所述的方法，其特征在于，所述确定第二视频图像结果包括：

或，

根据所述稳定的发言者的发言内容确定第二视频图像结果。

14.根据权利要求13所述的方法，其特征在于，所述根据所述稳定的发言者的发言内容确定第二视频图像结果包括：

根据所述目标用户的名字确定所述目标用户的位置；

根据所述目标用户的位置确定第二视频图像结果。

15.一种控制视频图像输出的装置，其特征在于，所述装置包括：

开启单元，用于开启视频预览；

特写输出单元，用于当声源角度变化在有效范围内且有效音画信息个数达到设定比例则确定有稳定的发言者，根据所述音画信息计算并输出第一视频图像结果，所述声源角度变化为所述预设时间段内声源角度的波动范围，所述有效音画信息为有效目标不为0且声源角度在所述有效范围内的音画信息。

16.一种控制视频图像输出的装置，其特征在于，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述存储器保存有程序，所述处理器调用所述程序以执行如权利要求1至14中任一项所述方法。

17.一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行如权利要求1至14中任一项所述方法。