CN114245032A

CN114245032A - 视频取景的自动切换方法及系统、视频播放器及存储介质

Info

Publication number: CN114245032A
Application number: CN202111574013.6A
Authority: CN
Inventors: 张明
Original assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Current assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25
Anticipated expiration: 2041-12-21
Also published as: CN114245032B

Abstract

本发明公开了一种视频取景的自动切换方法和系统、视频播放器及存储介质。该视频取景的自动切换方法包括：基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息；确定当前取景视图的输出时间已超过阈值；根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。本发明根据取景视图的优先级别及其状态来进行自动切换取景视图，实现了不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求。

Description

视频取景的自动切换方法及系统、视频播放器及存储介质

技术领域

本发明实施例涉及视频技术领域，尤其涉及视频取景的自动切换方法和系统、视频播放器及存储介质。

背景技术

在视频会议、多人访谈等应用场景下，需要在不同的景别之间做切换，例如全景视图、局部视图和特写视图之间的切换等等，不同视图之间的切换能丰富视频的内容，也能反映情境的进展和变化，满足用户对不同景别的需求。现有的技术主要通过多台摄像机和人工进行导播切换，操作繁琐，使用人力和多摄像机带来成本的大幅上升，这对于小型应用场景和非专业场景而言，成本巨大，而且现场不熟，操作复杂度上升。

发明内容

本发明提供一种视频取景的自动切换方法和系统、视频播放器及存储介质，以实现小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

第一方面，本发明实施例提供了一种视频取景的自动切换方法，该视频取景的自动切换方法包括：

基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息；

确定当前取景视图的输出时间已超过阈值；

根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。

第二方面，本发明实施例提供了一种视频取景的自动切换系统，该视频取景的自动切换系统包括：

取景模块，用于基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息；

输出时间确定模块，用于确定当前取景视图的输出时间已超过阈值；

视图输出模块，用于根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。

第三方面，本发明实施例还提供了一种视频播放器，该视频播放器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的视频取景的自动切换方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的视频取景的自动切换方法。

本发明通过基于视频图像序列图像获取不同优先级别的取景视图的参数信息；若当前取景视图的输出时间已超过阈值，则根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息，本发明根据取景视图的优先级别及其状态来进行自动切换取景视图，实现了小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

附图说明

图1是本发明实施例一中提供的一种视频取景的自动切换方法的方法流程图；

图2是本发明实施例二中提供的另一种视频取景的自动切换方法的方法流程图；

图3是本发明实施例二中提供的一种视频取景的自动切换方法的一子方法流程图；

图4是本发明实施例二中提供的一种视频取景的自动切换方法的另一子方法流程图；

图5是本发明实施例二中提供的一种视频取景的自动切换方法的又一子方法流程图；

图6是本发明实施例三中提供的一种视频取景的自动切换系统的结构框图；

图7是本发明实施例三中提供的另一种视频取景的自动切换系统的结构框图；

图8是本发明实施例四中提供的一种视频播放器的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频取景的自动切换方法的方法流程图，本实施例可适用于需要切换不同视图的会议、课堂、表演等小型场景和非专业场景，该方法可以由视频播放器来执行，具体包括如下步骤：

步骤110、基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息。

本实施例将不同的取景视图进行优先级别设置，获取每一级别的取景视图对应的边界框信息和状态信息，其中状态信息表示的是对应的取景视图是否有效，若状态信息为有效，则说明对应的取景视图满足预设状态条件；若状态信息为无效，则说明对应的取景视图不满足预设状态条件。

步骤S120、确定当前取景视图的输出时间已超过阈值。

判断当前取景视图的输出时间是否超过阈值，若是，则表示当前取景视图的输出时间比较长，可以根据预设切换条件判断是否需要切换取景视图；若否则，则继续输出当前取景视图。该阈值可以根据实际需要进行设置，这里不做限制。

步骤S130、根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。

本实施例中取景视图可分为第N视图、第N-1视图、……、及第1视图，其优先级别依次递高，若当前取景视图的输出时间已超过阈值，则根据优先级从高到低依次判断不同取景视图的状态信息，即依次判断第1视图、第2视图、……和第N视图的状态信息，首先判断第1视图的状态信息是否为有效，若第1视图的状态信息为有效，则根据第1视图的边界框信息从视频图像序列中裁剪第1视图并输出；若第1视图的状态信息为无效，则判断第2视图的状态信息是否为有效，若第2视图的状态信息为有效，则根据第2视图的边界框信息从视频图像序列中裁剪第2视图并输出；若第2视图的状态信息为无效，则判断第3视图的状态信息是否为有效，……，若第1～N-1视图的状态信息均为无效，则判断第N视图的状态信息是否为有效，若第N视图的状态信息为有效，则根据全景视图的边界框信息从视频图像序列中裁剪全景视图并输出；若第N视图的状态信息为无效，则继续保持当前输出视图的输出。

优选地，在一些实施例中，最低级别的取景视图的状态信息一直为有效，即第N视图的状态信息一直为有效，当第1～第N-1视图的状态信息均为无效时，裁剪第N视图并输出，如此视频输出的逻辑性更为完整。

本发明通过基于视频图像序列图像获取不同优先级别的取景视图的参数信息；若当前取景视图的输出时间已超过阈值，则根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息，本发明根据取景视图的优先级别及其状态来进行取景视图的自动切换，实现了小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且采用单台摄像机即可实现本实施例提供的技术方案，实现成本低、部署简单。

在一些实施例中，在上述技术方案的基础上，所述基于视频图像序列图像获取不同优先级别的取景视图的参数信息包括：基于视频图像序列图像，获取优先级别从低到高依次排列的全景视图、人物视图及特写视图的参数信息。在本实施例中，全景视图的状态信息一直是有效；对于人物视图，若全景图像中的人物数量小于等于预置数量，则人物视图为包括所有人物的最小边界框对应的视图，人物视图的状态信息为有效；否则，人物视图的状态信息为无效；对于特写视图，若基于深度卷积神经网络判断出全景图像中只有一个人物正在说话，则特写视图的状态信息为有效，特写视图为该人物的特写图像；否则，特写视图的状态信息为无效。

本实施例中取景视图可分为全景视图、人物视图及特写视图，其优先级别依次递高，若当前取景视图的输出时间已超过阈值，则根据优先级从高到低依次判断不同取景视图的状态信息，即依次判断特写视图、人物视图和全景视图的状态信息，首先判断特写视图的状态信息是否为有效，若特写视图的状态信息为有效，即全景图像(拍摄范围内)只有一个人物正在说话，则根据特写视图的边界框信息从视频图像序列中裁剪特写画面并输出，即输出该人物的特写镜头；若特写视图的状态信息为无效，则判断人物视图的状态信息是否为有效，若人物视图的状态信息为有效，则根据人物视图的边界框信息从视频图像序列中裁剪人物视图并输出；若人物视图的状态信息为无效，则判断全景视图的状态信息是否为有效，若全景视图的状态信息为有效，则根据全景视图的边界框信息从视频图像序列中裁剪全景视图并输出。在一些实施例中，全景视图的状态信息一直为有效，如此视频输出的逻辑性更强。

本实施例的技术方案若拍摄范围内只有一个人物正在说话，则特写视图的状态信息为有效，则根据特写视图的边界框信息从视频图像序列中裁剪该人物的特写画面并输出；若特写视图的状态信息为无效，则判断人物视图的状态信息是否为有效，若拍摄范围内的人物数量少于等于预置数量，则人物视图的状态信息为有效，则根据特写视图的边界框信息从视频图像序列中裁剪人物视图并输出；若人物视图的状态信息为无效，则根据全景视图的边界框信息从视频图像序列中裁剪全景视图并输出。本发明根据取景视图的优先级别及其状态来进行取景视图的自动切换，实现了小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

实施例二

图2为本发明实施例二提供的一种视频取景的自动切换方法的方法流程图，本实施例可适用于需要切换不同视图的会议、课堂、表演等小型场景和非专业场景，该方法可以由视频播放器来执行，具体包括如下步骤：

步骤210、按预置周期基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息。

本实施例将不同的取景视图进行优先级别设置，按预置周期获取每一级别的取景视图对应的边界框信息和状态信息，其中状态信息表示的是对应的取景视图是否处于有效,若状态信息为有效，则说明对应的取景视图满足预设状态条件；状态信息为无效，则说明对应的取景视图不满足预设状态条件。预置周期可根据实际需要设置，这取决于切换的响应时间，太短系统负担大，太长则导致画面切换的响应时间太长，一般预置周期的取值范围为0.1s～0.5s。

在一些实施例中，所述基于视频图像序列图像获取不同优先级别的取景视图的参数信息包括：基于视频图像序列图像，获取优先级别从低到高依次排列的全景视图、人物视图及特写视图的参数信息。在一些实施例中，全景视图具体为摄像机拍摄到的图像，全景视图的边界框信息为摄像机整机的拍摄画面，全景视图的状态信息一直是有效。人物视图的获取具体为：基于视频图像序列图像根据多人裁剪算法获取包含所有人物的最小边界框对应的图像。若拍摄范围内(即全景图像中)的人物数量小于等于预置数量，则人物视图为包括所有人物的最小边界框对应的视图，人物视图的状态信息为有效；否则，人物视图的状态信息为无效；对于特写视图，若基于深度卷积神经网络判断出全景图像中只有一个人物正在说话，则特写视图的状态信息为有效，特写视图的边界框信息为该人物特写画面对应的边界框信息，即特写视图为该人物的特写画面；否则，特写视图的状态信息为无效。

在一些实施例中，如图3所示，所述特写视图参数信息的获取具体包括步骤S211～步骤S214，具体内容如下：

步骤S211、对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息。

本实施例利用人脸检测算法对视频图像帧序列中的人物进行人脸检测，以获取当前帧每一人物的人脸特征信息和嘴唇特征信息，从当前帧视频图像中获取每一人物的坐标信息。

在一些实施例中，从人脸检测结果中提取嘴唇特征信息包括步骤a～c，具体内容如下：

步骤a、对人脸检测结果中的人脸进行关键点检测，检测出嘴唇位置。

步骤b、以所述嘴唇位置为中心，裁剪出一个图像块，并缩放到一固定尺寸，得到嘴唇图像。

步骤c、将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

具体的从人脸检测结果中提取嘴唇特征信息的流程如图4所示，人脸检测、嘴唇特征信息的处理接近于实时处理，可使用轻量级的网络架构和快速的图像处理算法，有利于提高设备的处理效率，提高响应速度。

步骤S212、根据所述人物检测信息维护人物位置序列表。

其中，为每一个人物构建一个人物位置序列信息，所述人物位置序列信息包括人脸特征信息、嘴唇特征信息、坐标信息及当前帧图像的时间戳，所有人物位置序列信息组成所述人物位置序列表。优选地，根据每帧视频图像检测的人物检测信息维护人物位置序列表，具体包括：将人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配，若存在匹配的人物，则对该人物对应的人物位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息；或将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配，若存在匹配的人物，则对该人物对应的位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息。本实施例根据人脸特征信息进行匹配，可以提高检测的准确性，进而提高定位特写拍摄的准确性；而对于座位固定的场所，特别是对于座位固定整齐排列的场所，根据坐标信息进行人物位置序列表的更新，在保证准确性的前提下，系统负担小，响应速度更快。

步骤S213、根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话。

每一人物在人物位置序列表中对应一序列的嘴唇特征信息，即记录嘴唇变化过程的嘴唇轨迹，根据序列的嘴唇特征信息能准确地判断出对应的人物是否正在说话，然后依据判断结果确定正在说话的人物只有一人。

在一些实施例中，如图4所示，步骤S213、根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话包括步骤S2131～步骤S2133，具体包括以下内容：

步骤S2131、依次将每一人物对应的人物位置序列信息中的嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息送入说话分类器中，得到每一人物的实时得分。

每一人物的嘴唇轨迹的实时得分每个一段时间计算一次，将嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息，将这些嘴唇特征信息进行顺序拼接然后送入说话分类器中，得到该人物的嘴唇轨迹的实时得分。

步骤S2132、对每一人物前M次计算的实时得分进行平均值计算，得到当前帧视频图像的说话得分，若所述说话得分大于等于预设阈值，则判断出该人物正在说话。

每一人物的嘴唇轨迹由一系列实时得分的序列构成，其值越高代表对应的人物正在说话的可能性越高，对每一人物前M次计算的实时得分进行平均作为当前帧视频图像的说话得分，若一人物当前帧视频图像的说话得分大于等于预设阈值，则判断出该人物正在说话。M的取值取1s内摄像机拍摄的帧数即可，M的取值太小，则计算负荷太大，响应系统功能；M的取值太大，则实时性会下降。

步骤S2133、统计正在说话的人物的数量，若正在说话的人物的数量等于1，则确定只有一个人物正在说话。

本实施例可以根据人物的嘴唇特征判断人物是否正在说话，统计正在说话的人物的数量，若正在说话的人物的数量等于1，即只有一个人物正在说话时，则根据该人物在当前帧视频图像对应的边界框信息从当前帧视频图像中裁剪该人物的特写镜头。

步骤S214、将获取的该正在说话的人物的特写画面对应的边界框信息作为特写视图的边界框信息，将特写视图的状态信息设置为有效。

若视频图像中不存在正在说话的人物，则特写视图的状态信息为无效；若视频图像中存在两个以上的正在说话的人物，则特写视图的状态信息亦为无效；仅当视频图像中正在说话的人物的数量为1时，特写视图的状态信息为有效。当视频图像中正在说话的人物的数量为1时，获取当前帧视频图像中正在说话的人物的特写画面对应的边界框信息，该人物特写画面对应的边界框信息即为特写视图的边界框信息；将特写视图的状态信息设置为有效。

本实施例通过根据人物的一序列的嘴唇特征(即嘴唇轨迹)来判断人物是否说话，能准确地判断出人物是否正在说话，若只存在一个人物正在说话，则获取当前帧视频图像中正在说话的人物的特写画面对应的边界框信息，即根据特写画面对应的边界框信息从当前帧视频图像中裁剪正在说话的人物的特写画面，本实施例通过视觉处理技术来定位视频中的发言者，以省去视频会议系统的麦克风阵列，这对于小型会议室、低成本会议室解决方案具有显著意义，可以在不增加成本的情况下具备定位拍摄功能。

步骤S220、判断当前取景视图的输出时间是否超过阈值，若是，执行步骤S230；若否，执行步骤S250、休眠指定时间。

判断当前取景视图的输出时间是否超过阈值，若是，则表示当前取景视图的输出时间比较长，可以根据预设条件判断是否需要切换取景视图；否则，休眠指定时间，即不做进一步的操作，继续输出当前取景视图即可。该阈值可以根据实际需要进行设置，这里不做限制。

步骤S230、根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。

在本实施例中，如图5所示，步骤S230具体包括步骤S231～步骤S236，具体内容如下：

步骤S231、判断特写视图的状态信息是否为有效，若否，执行步骤S232；若是，执行步骤S234。

边界框信息步骤S232、判断人物视图的状态信息是否为有效，若否，执行步骤S233；若是，执行步骤S235。

人物视图为包括所有人物的最小边界框对应的视图，优选地，若全景图像中的人物数量小于等于预置数量，则人物视图的状态信息为有效；否则，人物视图的状态信息为无效。在一些实施例中，预置数量可以为3、4、5、6、7、8、9、10、11等，这里不做限制，用户可以根据实际情况进行设置。

步骤S233、判断全景视图的状态信息是否为有效，若否，执行步骤S237、输出指定画面；若是，执行步骤S236。

其中，输出指定画面具体为：继续输出当前输出的取景视图，或者输出预设的指定视图，用户可以预先设置输出的视图，可以为全景视图，或者指定的一个人物(例如主讲人、主持人、或一领导等)或多个人物的特写视图等等，以满足用户的多方位需求。

步骤S234、根据特写视图对应的边界框信息从视频图像序列中裁剪特写视图并输出。

若特写视频的状态信息为有效，则根据特写视图对应的边界框信息从视频图像序列中裁剪特写视图并输出。

步骤S235、根据人物视图对应的边界框信息从视频图像序列中裁剪人物视图并输出。

步骤S236、根据全景视图对应的边界框信息从视频图像序列中裁剪全景视图并输出。

作为一优选的实施例，全景视图的状态信息设置为有效，即实际操作中，步骤S232之后，若人物视图的状态信息为无效，则直接输出全景视图。这样能保持视频取景输出的的流畅性和逻辑性，更符合用户的使用习惯。

步骤S240、若当前输出的取景视图与上一输出的取景视图不是同一视图，则启动当前输出的取景视图的计时器，以重新计时；否则，计时器继续保持计时。

本实施例的技术方案通过基于视频图像序列图像获取全景视图、人物视图及特写视图的参数信息；本实施例通过根据人物的一序列的嘴唇特征(即嘴唇轨迹)来判断人物是否说话，能准确地判断出人物是否正在说话，若只存在一个人物正在说话，则特写视图的状态信息为有效，获取当前帧视频图像中正在说话的人物的特写画面对应的边界框信息，即根据特写画面对应的边界框信息从当前帧视频图像中裁剪正在说话的人物的特写画面，若特写视图的状态信息为无效，若拍摄范围内的人物数量少于等于预置数量，则人物视图的状态信息为有效，则根据特写视图的边界框信息从视频图像序列中裁剪特写视图并输出；若人物视图的状态信息为无效，则根据全景视图的边界框信息从视频图像序列中裁剪全景视图并输出。本发明根据取景视图的优先级别及其状态来进行自动切换取景视图，实现了小型应用场景和非专业场景中不同取景视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

实施例三

本发明实施例所提供的视频取景的自动切换系统可执行本发明任意实施例所提供的视频取景的自动切换方法，具备执行方法相应的功能模块和有益效果，在本实施例中为详尽的内容可参考本发明实施例一和实施例二中的对应的内容。

图6为本发明实施例三提供的一种视频取景的自动切换系统的结构框图，如图6所示，本实施例提供的视频取景的自动切换系统包括取景模块10、输出时间确定模块20和视图输出模块30，具体内容如下：

取景模块10，用于基于视频图像序列图像获取不同优先级别的取景视图的参数信息，其中，所述参数信息包括边界框信息及状态信息。

输出时间确定模块20，用于确定当前取景视图的输出时间已超过阈值。

视图输出模块30，用于根据优先级从高到低依次判断不同取景视图的状态信息是否为有效，若取景视图的状态信息为有效，则根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出；若取景视图的状态信息为无效，则判断下一级别的取景视图的状态信息。

本实施例提供的视频取景的自动切换系统根据取景视图的优先级别及其状态来进行自动切换取景视图，实现了小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

在一些实施例中，取景模块10具体用于，基于视频图像序列图像，获取优先级别从低到高依次排列的全景视图、人物视图及特写视图的参数信息。

在一些实施例中，如图7所示，取景模块10具体包括检测单元11、列表维护单元12、说话确定单元13和信息获取单元14，具体内容如下：

检测单元11，用于对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息。

列表维护单元12，用于根据所述人物检测信息维护人物位置序列表。

说话确定单元13，用于根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话。

信息获取单元14，用于将获取的该正在说话的人物的特写画面对应的边界框信息作为特写视图的边界框信息，将特写视图的状态信息设置为有效。

在一些实施例中，所述说话确定单元13具体用于：

依次将每一人物对应的人物位置序列信息中的嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息送入说话分类器中，得到每一人物的实时得分；

对每一人物前M次计算的实时得分进行平均值计算，得到当前帧视频图像的说话得分，若所述说话得分大于等于预设阈值，则判断出该人物正在说话；

统计正在说话的人物的数量，若正在说话的人物的数量等于1，则确定只有一个人物正在说话。

在一些实施例中，取景模块10还具体用于基于视频图像序列图像根据多人裁剪算法获取包含所有人物的最小边界框对应的图像。

在一些实施例中，所述取景模块10具体用于按预置周期基于视频图像序列图像获取不同优先级别的取景视图的参数信息。

在一些实施例中，如图7所示，本实施例提供的视频取景的自动切换系统还包括计时模块40，用于若当前输出的取景视图与上一输出的取景视图不是同一视图，则启动当前输出的取景视图的计时器，以重新计时；否则，计时器继续保持计时。

本实施例的技术方案通过基于视频图像序列图像获取全景视图、人物视图及特写视图的参数信息；若当前取景视图的输出时间已超过阈值，则根据优先级从高到低依次判断全景视图、人物视图及特写视图的状态信息是否为有效，若特写视图的状态信息为有效，则根据特写视图的边界框信息从视频图像序列中裁剪特写视图并输出；若特写视图的状态信息为无效，则判断人物视图的状态信息是否为有效，若人物视图的状态信息为有效，则根据特写视图的边界框信息从视频图像序列中裁剪特写视图并输出；若人物视图的状态信息为无效，则根据全景视图的边界框信息从视频图像序列中裁剪全景视图并输出。本发明根据取景视图的优先级别及其状态来进行自动切换取景视图，实现了小型应用场景和非专业场景中不同视图之间的自动切换，丰富视频的内容，满足用户对不同景别的需求，而且实现成本低、部署简单。

实施例四

图8为本发明实施例三提供的一种视频播放器的结构框图。图8示出了适于用来实现本发明实施方式的示例性视频播放器80的结构框图。图8显示的视频播放器80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，视频播放器80以通用计算设备的形式表现。视频播放80的组件可以包括但不限于：一个或者多个处理器或者处理单元82，系统存储器81，连接不同系统组件的总线83。

总线83表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

视频播放器80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被视频播放器80访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器81可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)811和/或高速缓存存储器814。视频播放器80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统812可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线83相连。存储器81可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8131的程序/实用工具813，可以存储在系统存储器81中，这样的程序模块8131包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8131通常执行本发明所描述的实施例中的功能和/或方法。

视频播放器80也可以与一个或多个外部设备100(例如键盘、指向设备、显示器90等)通信，还可与一个或者多个使得用户能与该视频播放器80交互的设备通信，和/或与使得该视频播放器80能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口84进行。并且，视频播放器80还可以通过网络适配器85与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器85通过总线83与视频播放器80的其它模块通信。应当明白，尽管图中未示出，可以结合视频播放器80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元82通过运行存储在系统存储器81中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视频取景的自动切换方法，该视频取景的自动切换方法包括：

确定当前取景视图的输出时间已超过阈值；

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行一种视频取景的自动切换方法包括：

确定当前取景视图的输出时间已超过阈值；

当然，本发明实施例所提供的计算机可读存储介质，其计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频取景的自动切换方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频取景的自动切换方法，其特征在于，所述视频取景的自动切换方法包括：

确定当前取景视图的输出时间已超过阈值；

2.根据权利要求1所述的视频取景的自动切换方法，其特征在于，所述基于视频图像序列图像获取不同优先级别的取景视图的参数信息包括：基于视频图像序列图像，获取优先级别从低到高依次排列的全景视图、人物视图及特写视图的参数信息。

3.根据权利要求2所述的视频取景的自动切换方法，其特征在于，所述特写视图参数信息的获取具体包括：

对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息；

根据所述人物检测信息维护人物位置序列表；

根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话；

将获取的该正在说话的人物的特写画面对应的边界框信息作为特写视图的边界框信息，将特写视图的状态信息设置为有效。

4.根据权利要求3所述的视频取景的自动切换方法，其特征在于，根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话包括：

5.根据权利要求3所述的视频取景的自动切换方法，其特征在于，所述人物视图的获取具体为：基于视频图像序列图像根据多人裁剪算法获取包含所有人物的最小边界框对应的图像。

6.根据权利要求1所述的视频取景的自动切换方法，其特征在于，所述基于视频图像序列图像获取不同优先级别的取景视图的参数信息具体为：按预置周期基于视频图像序列图像获取不同优先级别的取景视图的参数信息。

7.根据权利要求1所述的视频取景的自动切换方法，其特征在于，所述根据对应的边界框信息从视频图像序列中裁剪对应的取景视图并输出之后还包括：若当前输出的取景视图与上一输出的取景视图不是同一视图，则启动当前输出的取景视图的计时器，以重新计时；否则，计时器继续保持计时。

8.一种视频取景的自动切换系统，其特征在于，所述视频取景的自动切换方法包括：

9.根据权利要求8所述的视频取景的自动切换系统，其特征在于，所述取景模块具体用于，基于视频图像序列图像，获取优先级别从低到高依次排列的全景视图、人物视图及特写视图的参数信息。

10.根据权利要求9所述的视频取景的自动切换系统，其特征在于，所述取景模块具体包括：

检测单元，用于对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息；

列表维护单元，用于根据所述人物检测信息维护人物位置序列表；

说话确定单元，用于根据所述人物位置序列表中的嘴唇特征信息确定只有一个人物正在说话；

信息获取单元，用于将获取的该正在说话的人物的特写画面对应的边界框信息作为特写视图的边界框信息，将特写视图的状态信息设置为有效。

11.一种视频播放器，其特征在于，所述视频播放器包括：

一个或多个处理器；

系统存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7所述的视频取景的自动切换方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7所述的视频取景的自动切换方法。