CN108683874B

CN108683874B - 一种视频会议注意力聚焦的方法及一种存储设备

Info

Publication number: CN108683874B
Application number: CN201810465189.XA
Authority: CN
Inventors: 程明传
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2020-09-11
Anticipated expiration: 2038-05-16
Also published as: CN108683874A

Abstract

本发明涉及多媒体技术领域，特别涉及一种视频会议注意力聚焦的方法及一种存储设备。一种视频会议注意力聚焦的方法，包括步骤：获取全景图像和全向声音；分割全景图像，并对分割后的全景图像进行处理得到目标图像；分割全向声音，并对分割后的全向声音进行处理得到目标声音；发送所述目标图像和所述目标声音至目标设备。所发送的目标图像是经过处理后的，对中等以上区域权重的照片才进行处理传输，并非原始的整个全景图像，大大节省传输过程中的网络带宽，网络带宽的减少，也使得参会人员的人数可以大大增加。

Description

一种视频会议注意力聚焦的方法及一种存储设备

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频会议注意力聚焦的方法及一种存储设备。

背景技术

随着科技的发展，与商业的发展，越来越多的公司在日常的业务当中需要用到视频会议。现有技术中，高级的视频会议场景，为在主会场的长方形或椭圆形会议桌四周围坐参会人员。多个普通摄像头从多个位置采集会场图像，然后视频会议系统将摄像头的多路图像中的一路或多路传输给参会人员。或者机械旋转摄像头，根据声音的有向性，自动旋转到目标角度，然后视频会议系统将摄像头的图像传输给参会人员。同时广域网视频会议参加者的视频图像，也会传到主会场视频会议系统。

而类似这样的视频会议系统都存在以下缺陷：第一，多路传输浪费网络带宽，普通视频会议系统由于带宽限制，仅支持若干路视频通话，限制了参会人员人数。第二，机械旋转摄像头，根据声音的有向性做出反向，当多人发言或交头接耳时，其无法做出有效性方向判断，另外有向性改变时，过场时间较长。

发明内容

为此，需要提供一种视频会议注意力聚焦的方法，用以解决多路传输浪费网络带宽、多人发言或交头接耳时，无法对声音有效性方向做出判断等等问题。具体的技术方案如下所述：

一种视频会议注意力聚焦的方法，包括步骤：获取全景图像；获取全向声音；分割全景图像，并对分割后的全景图像进行处理得到目标图像；分割全向声音，并对分割后的全向声音进行处理得到目标声音；发送所述目标图像和所述目标声音至目标设备

进一步的，所述“分割全景图像，并对分割后的全景图像进行处理得到目标图像”，还包括步骤：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域；通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据分割区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像。

进一步的，还包括步骤：主视频注意力分割区域切换，根据预设场景切换模式进行场景切换，所述预设场景切换模式包括：自然过度、延迟过度和画中画过度；所述主视频注意力分割区域为：权重最大的视频注意力分割区域。

进一步的，所述“对所述优选分割区域进行处理输出目标图像”，还包括步骤：根据画面主次关系将多区域图像合成一张目标图像，优选中等以上权重的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域。

进一步的，所述“分割全向声音，并对分割后的全向声音进行处理得到目标声音”，还包括步骤：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音。

为解决上述问题，还提供了一种存储设备。具体的技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：获取全景图像；获取全向声音；分割全景图像，并对分割后的全景图像进行处理得到目标图像；分割全向声音，并对分割后的全向声音进行处理得到目标声音；发送所述目标图像和所述目标声音至目标设备。

进一步的，所述指令集还用于执行：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域；通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像。

进一步的，所述指令集还用于执行：主视频注意力分割区域切换，根据预设场景切换模式进行场景切换，所述预设场景切换模式包括：自然过度、延迟过度和画中画过度；所述主视频注意力分割区域为：权重最大的视频注意力分割区域。

进一步的，所述指令集还用于执行：所述“对所述优选分割区域进行处理输出目标图像”，还包括步骤：根据画面主次关系将多区域图像合成一张目标图像，优选中等以上权重的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域。

进一步的，所述指令集还用于执行：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音。

本发明的有益效果是：

1、通过获取全景图像，分割全景图像，并对分割后的全景图像进行处理得到目标图像，发送目标图像至目标设备，所发送的目标图像是经过处理后的，对中等以上区域权重的照片才进行处理传输，并非原始的整个全景图像，大大节省传输过程中的网络带宽，网络带宽的减少，也使得参会人员的人数可以大大增加。

2、通过获取全向声音，分割全向声音，并对分割后的全向声音进行处理得到目标声音，且结合分割区域权重调整音频注意力相关性权重，使得声音的获取及时有效，避免杂音；同时也大大节省传输过程中的网络带宽。

附图说明

图1为具体实施方式所述一种视频会议注意力聚焦的方法的流程图；

图2为具体实施方式所述一种存储设备的模块图。

附图标记说明：

200、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，首先，对本实施方式中会出现的一些名词做以下解释：

画中画：是一种图像或视频呈现方式，是指主画面有机的叠加若干子画面的形成的效果。视频画中画是指全屏的视频叠加若干个预览小窗口。在本实施方式中是指图像的画中画效果，主画面图像和有机的叠加若干子图像，最终形成带画中画效果的单幅画面。

在本实施方式中，一种视频会议注意力聚焦的方法可应用在一种注意力聚焦的视频会议系统上，该系统可在智能手机、平板电脑、台式PC、笔记本电脑、PDA、智能手表等等上运行，并通过360度全景摄像头采集全景图像；视频会议系统通过360度全向麦克风阵列采集声音数据。

步骤S101：获取全景图像。可采用如下方式：通过360度全景摄像头采集全景图像。在其他实施方式中，亦可以采用其他方式获取全景图像，如：3d沉浸式全景、普通全景视频和3d视频。

步骤S102：获取全向声音。可采用如下方式：通过360度全向麦克风阵列采集声音数据。在其他实施方式中，亦可以采用其他方式获取全向声音。

步骤S103：分割全景图像，并对分割后的全景图像进行处理得到目标图像。可采用如下方式：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域，通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据分割区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像。在本实施方式中，优先的人像区域权重相对较高，区域权重越大，则为优选的分割区域。举例如下：在实际场景中，一个会议桌前有三个人A/B/C，在整个视频会议的过程中，将通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域，通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重。如：可通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域，如在某一时间段，算法计算出来的注意力区域及权重为:Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weigh t-10)。在下一时间段又实时计算视频注意力分割区域。最后对所述优选分割区域进行处理输出目标图像。

在本实施方式中，对于画面的微抖动，需要进行抖动去除操作，将大大提升用户体验。

在本实施方式中，所述“对所述优选分割区域进行处理输出目标图像”，还包括步骤：根据画面主次关系将多区域图像合成一张目标图像，优选中等以上权重的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域。如：以上某一时刻，注意力区域及权重为:Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weight-10)。此时根据画面的主次关系将多区域图像合成一张图像，优选A/B的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域C和分割区域D。

在其他实施方式中，亦可以是权重最高的A的画面分割出来(1920x1080)。B的画面(150x200),C的画面(150x200),B/C画面和主画面(A的画面)合成画中画(1920x1080)。其它的低权重区域则被认为是背景噪声，不进行图像合成。

在本实施方式中，在对全景图像进行分割处理前，还包括步骤：图像输入格式转换，通过图像处理模块对全景图像进行前处理去躁，确保了用于后处理的全景图像具有较好的画质和清晰度。

在本实施方式中，对分割后的全景图像的处理还包括：优选缩放、字幕、水印等处理。

步骤S104：分割全向声音，并对分割后的全向声音进行处理得到目标声音。可采用如下方式：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音。在本实施方式中，根据主视频注意力分割区域权重调整音频注意力相关性权重，如：在某一帧画面中，A/B/C三个人在进行讨论，实时计算得到的音频注意力相关性权重为A和B相同，但此时A所在的视频注意力分割区域权重最大，则根据该情况对音频注意力相关性权重做调整，得到最佳相关性音频方向为对准A的方向，并对所述最佳相关性音频方向进行处理输出目标声音。

在本实施方式中，在对全向声音进行分割处理前，还包括步骤：音频输入格式转换，通过音效模块对全向声音进行前处理去躁，确保了用于后处理的全向声音具有较好的音质和清晰度。

步骤S105：发送所述目标图像和所述目标声音至目标设备。可采用如下方式：对目标图像和目标声音进行高效编码打包，其中目标图像优选H264/H265/VP9等编码格式，目标声音优选AAC/AC3等编码格式。在本实施方式中，目标设备可为：目标视频会议系统，在其它实施方式中，亦可以是其他目标设备。

通过获取全景图像，分割全景图像，并对分割后的全景图像进行处理得到目标图像，发送目标图像至目标设备，所发送的目标图像是经过处理后的，对中等以上区域权重的照片才进行处理传输，并非原始的整个全景图像，大大节省传输过程中的网络带宽，网络带宽的减少，也使得参会人员的人数可以大大增加。

通过获取全向声音，分割全向声音，并对分割后的全向声音进行处理得到目标声音，且结合分割区域权重调整音频注意力相关性权重，使得声音的获取及时有效，避免杂音。同时也大大节省传输过程中的网络带宽。

进一步的，在本实施方式中，主视频注意力分割区域切换，根据预设场景切换模式进行场景切换，所述预设场景切换模式包括：自然过度、延迟过度和画中画过度；所述主视频注意力分割区域为：权重最大的视频注意力分割区域。可采用如下方式：如：在全景图像中(全景图像是指:一帧图像(已拼接-宽度很宽)或多帧图像(未拼接))，通过算法识别到ABC都在发言，算法识别出了注意力区域:Area-A、Area-B、Area-C、Area-D，计算权重后，Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weigh t-10)。

场景变换，T1时间A发言，T2时间B发言，则根据预设的场景切换模式进行场景切换，所述预设场景切换模式包括：自然过度、延迟过度和画中画过度，三种模式具体如下：

自然过度：画面从A发言显示自然过度到B发言显示。

延迟过度：A发言画面进行停顿片刻，在过度到B发言显示。

画中画过度：原来A发言时，B发言以小窗口显示；现在B发言以大窗口显示，A发言以小窗口显示。

请参阅图2，在本实施方式中，一种存储设备的具体实施方案如下：

一种存储设备200，其中存储有指令集，所述指令集用于执行：获取全景图像；获取全向声音；分割全景图像，并对分割后的全景图像进行处理得到目标图像；分割全向声音，并对分割后的全向声音进行处理得到目标声音；发送所述目标图像和所述目标声音至目标设备。

进一步的，所述指令集还用于执行：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域；通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像。可采用如下方式：在实际场景中，一个会议桌前有三个人A/B/C，在整个视频会议的过程中，将通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域，通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重。如：可通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域，如在某一时间段，算法计算出来的注意力区域及权重为:Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weigh t-10)。在下一时间段又实时计算视频注意力分割区域。最后对所述优选分割区域进行处理输出目标图像。进一步的，所述指令集还用于执行：所述“对所述优选分割区域进行处理输出目标图像”，还包括步骤：根据画面主次关系将多区域图像合成一张目标图像，优选中等以上权重的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域。如：以上某一时刻，注意力区域及权重为:Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weight-10)。此时根据画面的主次关系将多区域图像合成一张图像，优选A/B的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域C和和分割区域D。

在其他实施方式中，亦可以是权重最高的A的画面分割出来(1920x1080)。B的画面(150x200),C的画面(150x200),B/C画面和主画面(A的画面)合成画中画(1920x1080)。其它的则被认为是背景噪声，不进行图像合成。

进一步的，所述指令集还用于执行：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音。可采用如下方式：在本实施方式中，根据主视频注意力分割区域权重调整音频注意力相关性权重，如：在某一帧画面中，A/B/C三个人在进行讨论，实时计算得到的音频注意力相关性权重为A和B相同，但此时A所在的视频注意力分割区域权重最大，则根据该情况对音频注意力相关性权重做调整，得到最佳相关性音频方向为对准A的方向，并对所述最佳相关性音频方向进行处理输出目标声音。

在本实施方式中，对目标图像和目标声音进行高效编码打包，其中目标图像优选H264/H265/VP9等编码格式，目标声音优选AAC/AC3等编码格式。在本实施方式中，目标设备可为：目标视频会议系统，在其它实施方式中，亦可以是其他目标设备。

可采用如下方式：如：在全景图像中(全景图像是指：一帧图像(已拼接-宽度很宽)或多帧图像(未拼接))，通过算法识别到ABC都在发言，算法识别出了Area-A、Area-B、Area-C、Area-D，计算权重后，Area-A(weight-80),Area-B(weight-30),Area-C(weight-20),Area-D(weight-10)。

自然过度：画面从A发言显示自然过度到B发言显示。

延迟过度：A发言画面进行停顿片刻，在过度到B发言显示。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种视频会议注意力聚焦的方法，其特征在于，包括步骤：

获取全景图像；

获取全向声音；

分割全景图像，并对分割后的全景图像进行处理得到目标图像；具体包括：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域；通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据分割区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像；

分割全向声音，并对分割后的全向声音进行处理得到目标声音；具体包括步骤：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音；

发送所述目标图像和所述目标声音至目标设备。

2.根据权利要求1所述的一种视频会议注意力聚焦的方法，其特征在于，还包括步骤：

主视频注意力分割区域切换，根据预设场景切换模式进行场景切换，所述预设场景切换模式包括：自然过度、延迟过度和画中画过度；

所述主视频注意力分割区域为：权重最大的视频注意力分割区域。

3.根据权利要求1所述的一种视频会议注意力聚焦的方法，其特征在于，

所述“对所述优选分割区域进行处理输出目标图像”，还包括步骤：

根据画面主次关系将多区域图像合成一张目标图像，优选中等以上权重的注意力分割区域的图像合成目标图像，屏蔽低权重的注意力分割区域。

4.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

获取全景图像；

获取全向声音；

分割全景图像，并对分割后的全景图像进行处理得到目标图像；所述指令集还用于执行：通过基于人工智能的视频注意力聚焦算法，实时计算视频注意力分割区域；通过基于分割区域评分的视频注意力聚焦算法，实时计算视频注意力分割区域权重；根据区域权重获取优选分割区域；对所述优选分割区域进行处理输出目标图像；

分割全向声音，并对分割后的全向声音进行处理得到目标声音；所述指令集还用于执行：通过基于人工智能的音频注意力聚焦算法和基于音频相关性评分的聚焦算法，实时计算音频注意力相关性权重；根据视频注意力分割区域权重调整音频注意力相关性权重；根据音频注意力相关性权重获取最佳相关性音频方向；对所述最佳相关性音频方向进行处理输出目标声音；

发送所述目标图像和所述目标声音至目标设备。

5.根据权利要求4所述的一种存储设备，其特征在于，所述指令集还用于执行：

6.根据权利要求4所述的一种存储设备，其特征在于，所述指令集还用于执行：