CN116453181A

CN116453181A - 基于机器视觉自动导播方法及智慧屏、存储介质

Info

Publication number: CN116453181A
Application number: CN202310300188.0A
Authority: CN
Inventors: 吴杰
Original assignee: Xinhuasan Intelligent Terminal Co ltd
Current assignee: Xinhuasan Intelligent Terminal Co ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-18

Abstract

本申请提供基于机器视觉自动导播方法及智慧屏、存储介质，其中，方法包括：采集包含场景内所有人员视频流；通过人形检测算法获取每帧图像内人形区域，并依次序缓存到第一存储队列；判断检测出的人形区域是否是站立状态；将站立状态的人形区域依次序缓存到第二存储队列；对第二存储队列中站立状态的人形区域获取人脸嘴部关键点，并存入第三存储队列；根据人脸嘴部关键点判断所选人员的是否处于说话状态；将处于说话状态的人员依次缓存在第四存储队列供自动导播显示。本申请实施例即使在摄像场景中有多人站立也能识别出说话人，自动进行导播切换，受外界因素干扰小。且只需要一台摄像机即可实现自动导播的精准切换。

Description

基于机器视觉自动导播方法及智慧屏、存储介质

技术领域

本说明书涉及通信技术领域，尤其涉及基于机器视觉自动导播方法及智慧屏、存储介质。

背景技术

随着计算机视觉技术和互联网技术的不断发展，传统导播系统，大多数不能自动准确定位切换站立人员回答问题的画面，而且还需要多个摄像头来实现这个功能，需要花费比较高的成本和人力。

如《一种基于分布云的智能拍摄系统》(申请人：吝秀梅；李彦孚等)。该专利主要设计了一个基于分布云的学生站立识别智能拍摄系统，通过背景差分法提取出站立学生的运动轮廓，为智能拍摄进行自动拍摄学生提供了定位依据。该方案只是通过背景差分法识别了运动目标的运动轮廓，当有多人站立以及走动的情况就会对算法形成很大的干扰。

发明内容

为克服相关技术中存在的问题，本说明书提供了基于机器视觉自动导播方法及智慧屏、存储介质。

根据本说明书实施例的第一方面基于机器视觉自动导播方法，包括：

采集包含场景内所有人员视频流；

通过人形检测算法获取每帧图像内人形区域，并依次序缓存到第一存储队列；

判断检测出的人形区域是否是站立状态；

将站立状态的人形区域依次序缓存到第二存储队列；

对第二存储队列中站立状态的人形区域获取人脸嘴部关键点，并存入第三存储队列；

根据人脸嘴部关键点判断所选人员是否处于说话状态；

将处于说话状态的人员依次缓存在第四存储队列供自动导播显示。

优选的，在将检测到的人形区域依次缓存到第一存储队列之前，通过聚类算法将所有检测到的人形区域进行分类，去除掉边缘误检测的人形区域。

优选的，判断检测出的人形区域是否站立状态的方法包括：

通过判断连续多帧图像中当前人形区域的上半身质心的运动方向向上，且上半身质心高于第一阈值，则是站立状态。

进一步地，还包括判断检测出的人形区域是否是坐下状态，其方法包括：

通过判断连续多帧图像中当前人形区域的上半身质心的运动方向向下，且上半身质心低于第二阈值，则是坐下状态。

进一步地，若当前人形区域被判断为坐下状态，且之前帧图像中被判断为站立状态，则将该人形区域对应人员从第二队列中删除。

优选的，对第二存储队列中站立状态的人形区域获取人脸嘴部关键点方法包括：

对第二存储队列中站立状态的人形区域通过人脸检测模型获取其人脸区域；

通过人脸关键点检测模型对人脸区域进行检测获取其人脸关键点，人脸关键点包括嘴部关键点。

进一步地，根据人脸嘴部关键点判断所选人员的是否处于说话状态方法包括：

第三存储队列中获取人员的嘴部关键点次数若超过设定的第三阈值，则通过嘴部说话检测模型判断当前人员是否在说话状态。

进一步地，嘴部说话检测模型为时序神经网络模型，当通过时序神经网络模型检测到当前人员嘴部正在说话状态的概率超过设定的第四阈值则判断当前人员处于说话状态，否则处于不在说话状态。

进一步地，将不在说话状态的人员从第三队列中删除。

优选的，将处于说话状态的人员依次缓存在第四存储队列供自动导播显示的方法包括：

将缓存在第四存储队列的人脸区域自适应比例放大到相同尺寸；

若人员的数量大于等于两个，将人员的人脸进行拼接并投屏显示。

本申请实施例第二方面提供了智慧屏，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述基于机器视觉自动导播方法。

本申请实施例第三方面提供了存储介质，其上存储有计算机程序指令，程序指令被处理器执行时用于实现上述基于机器视觉自动导播方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例即使在摄像场景中有多人站立也能识别出说话人，自动进行导播切换，受外界因素干扰小。且只需要一台摄像机即可实现自动导播的精准切换。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本申请实施例自动导播方法流程示意图；

图2是本申请判断人形区域是否是站立状态方法流程示意图；

图3是本申请判断所选人员是否处于说话状态方法流程示意图；

图4是本申请智慧屏硬件框架示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

基于百度百科的解释，导播指的是在例如节目现场，对于采用固定场地，固定灯光类的节目，比如电视栏目、情景剧等节目，一般用多台摄像机拍摄。这样制作完成后的节目具有多角度、多景别的特点，表现的更全面，更好看。因此大多数不能自动准确定位切换到站立人员回答问题的画面，而且还需要多个摄像头来实现这个功能，需要花费比较高的成本和人力。

为了解决背景技术中存在的问题，本申请提供了本申请提供了基于及其视觉自动导播方法，如图1所示，包括：

101：采集包含场景内所有人员视频流；

通过一个固定的摄像头实时采集场景内的视频流，采集过程中要保证拍摄到场景内所有人员的位置区域。

102：通过人形检测算法获取每帧图像内人形区域，并依次序缓存到第一存储队列；

为了确定每个人员的位置，首先需要通过人形检测的深度学习模型检测出每个人员的人形区域的目标位置。我们可以通过TensorFlow的深度学习框架训练出一个人形检测算法的深度学习模型。为了提高实际使用过程中人形区域目标检测的稳定性，针对场景内的灯光亮度不一样、远距离人员模糊的情况，我们会对采集到的人员人形区域图像进行图像亮度变化、mosaic增强等方式进行图像数据增强。这里的人形检测算法采用现有技术，在此不再赘述。

103：判断检测出的人形区域是否是站立状态；

方法，如图2所示，包括：

1031：获取第一存储队列中所存储的人员的人形区域的连续多帧图像；

这里的连续多帧图像指设定数量帧数的图像。

1032：若判断连续多帧图像中当前人形区域的上半身质心的运动方向向上，且上半身质心高于第一阈值，则当前人员是站立状态。

方法还包括步骤1033：若判断连续多帧图像中当前人形区域的上半身质心的运动方向向下，且上半身质心第二阈值，则当前人员是坐下状态。

因为在通过人形检测算法进行人形区域检测的过程中会得到人形区域的位置信息，同时也可获得了人形区域的质心坐标(x_m,y_m)。

104：将站立状态的人形区域依次序缓存到第二存储队列；

若当前人员的人形区域被判断为坐下状态，且之前设定数量帧图像中被判断为站立状态，则将该人形区域对应人员从第二队列中删除。减少第二存储队列的存储量。

105：对第二存储队列中站立状态的人形区域获取人脸嘴部关键点，并存入第三存储队列；

其方法包括：

1051：对第二存储队列中站立状态的人形区域通过人脸检测模型获取其人脸区域；

基于第二队列中站立状态的人形区域，通过深度学习的人脸检测模型检测出每个人员的人脸目标区域。考虑到实际场景中人脸会存在多种角度面对摄像头的情况，将人脸进行从0到180度旋转方式作为人脸数据样本的增强，以提高人员人脸检测模型的鲁棒性。这里旋转方式采样可以是每1度采样设定次数，也可以是2度等，具体根据设定。主要基于样本数量的资源问题与检测模型鲁棒性之间的平衡进行考虑。这里的人脸检测模型可采用现有技术，在此不再赘述。

1052：通过人脸关键点检测模型对人脸区域进行检测获取其人脸关键点，人脸关键点包括嘴部关键点。

考虑轻量的特征提取网络模型作为人脸关键点特征的识别模型，可采用比如mobilenet、shufflenet等。

106：根据人脸嘴部关键点判断所选人员是否处于说话状态；

方法，如图3所示，包括：

1061：获取第三存储队列中获取当前人员的嘴部关键点次数；

1062：若超过设定的第三阈值，则通过嘴部说话检测模型判断当前人员是否在说话状态；

这里的嘴部说话检测模型可采用时序神经网络模型，当通过时序神经网络模型检测到当前人员嘴部正在说话状态的概率超过设定的第四阈值，判断当前人员处于说话状态，否则处于不在说话状态。当然嘴部说话检测模型也可采用其他现有技术，只要作用相同，均在本申请保护范围之内，在此不再赘述。

在这里可以通过pytorch的深度学习框架对时序神经网络模型进行训练。

1063：将不在说话状态的人员从第三队列中删除。

107：将处于说话状态的人员依次缓存在第四存储队列供自动导播显示。

方法包括：

1071：将缓存在第四存储队列的人脸区域自适应比例放大到相同尺寸；

1072：若人员的数量大于等于两个，将人员的人脸进行拼接并投屏显示。

本申请在摄像场景中有多人站立也能识别出说话人，自动进行导播切换，受外界因素干扰小。且只需要一台摄像机即可实现自动导播的精准切换，成本低，且自动导播的定位精确，效率高。

作为本申请的一个优选实施例，步骤102，在将检测到的人形区域依次缓存到第一存储队列之前，可通过聚类算法将所有检测到的人形区域进行分类，去除掉边缘误检测的人形区域。

由于场景内的作为是固定区域，座位都是连着的。因此可通过基于例如密度聚类的dbscan方法将所有检测到的人形检测区域进行分类，去除掉边缘误检测的人形区域，将人形区域筛选出来，放进一个人形追踪队列当中。去除掉边缘误检测的人形区域，减少样本误差。

需要说明的是，上述实施例中，第一存储队列到第四存储队列中的数据都是依次缓存，这里的依次缓存指按照设定的一定次序进行缓存，可以依摄像时间先后顺序。而存储在队列中的位置可以按照地址的顺序存储，当然也不一定要按照地址的前后顺序存储，只要符合设定的规则即可。

本申请实施例第二方面提供了智慧屏，如图4所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时执行上述基于机器视觉自动导播方法。

上述实施方式阐明的系统，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本领域内的技术人员应明白，本申请的实施方式可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本申请实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员应明白，本申请的实施方式可提供为方法、系统或计算机程序产品。因此，本申请可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且，本申请可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.基于机器视觉自动导播方法，其特征在于，包括：

采集包含场景内所有人员视频流；

判断检测出的人形区域是否是站立状态；

将站立状态的人形区域依次序缓存到第二存储队列；

根据人脸嘴部关键点判断所选人员是否处于说话状态；

2.根据权利要求1所述的基于机器视觉自动导播方法，其特征在于，在将检测到的人形区域依次缓存到第一存储队列之前，通过聚类算法将所有检测到的人形区域进行分类，去除掉边缘误检测的人形区域。

3.根据权利要求1所述的基于机器视觉自动导播方法，其特征在于，所述判断检测出的人形区域是否站立状态的方法包括：

4.根据权利要求3所述的基于机器视觉自动导播方法，其特征在于，还包括判断检测出的人形区域是否是坐下状态，其方法包括：

5.根据权利要求4所述的基于机器视觉自动导播方法，其特征在于，若所述当前人形区域被判断为坐下状态，且之前帧图像中被判断为站立状态，则将该人形区域对应人员从第二队列中删除。

6.根据权利要求1所述的基于机器视觉自动导播方法，其特征在于，所述对第二存储队列中站立状态的人形区域获取人脸嘴部关键点方法包括：

对第二存储队列中站立状态的人形区域通过人脸检测模型获取其人脸区域；通过人脸关键点检测模型对所述人脸区域进行检测获取其人脸关键点，所述人脸关键点包括嘴部关键点。

7.根据权利要求6所述的基于机器视觉自动导播方法，其特征在于，所述根据人脸嘴部关键点判断所选人员是否处于说话状态方法包括：

8.根据权利要求7所述的基于机器视觉自动导播方法，其特征在于，所述的嘴部说话检测模型为时序神经网络模型，当通过所述时序神经网络模型检测到当前人员嘴部正在说话状态的概率超过设定的第四阈值则判断当前人员处于说话状态，否则处于不在说话状态。

9.根据权利要求8所述的基于机器视觉自动导播方法，其特征在于，将不在说话状态的人员从第三队列中删除。

10.根据权利要求1所述的基于机器视觉自动导播方法，其特征在于，所述将处于说话状态的人员依次缓存在第四存储队列供自动导播显示的方法包括：

11.智慧屏，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行权利要求1-10任意一项所述的基于机器视觉自动导播方法。

12.存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1-8任一项中所述的基于机器视觉自动导播方法。