CN112866617A

CN112866617A - 视频会议设备以及视频会议方法

Info

Publication number: CN112866617A
Application number: CN201911188023.9A
Authority: CN
Inventors: 王皓玄; 郑喆夫; 谢其璋; 罗英鸿
Original assignee: Coretronic Corp
Current assignee: Coretronic Corp
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-05-28
Also published as: US20210168241A1

Abstract

本发明提供一种视频会议设备以及视频会议方法。视频会议设备包括图像检测装置、音源检测装置以及处理器。所述图像检测装置取得会议空间的会议图像。所述音源检测装置检测所述会议空间的声音来源，并且输出对应于所述声音来源的定位信号。所述处理器接收所述会议图像以及所述定位信号，以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像。所述处理器检测距离所述第一子会议图像的中心轴最近的人脸图像，并且以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像，并且输出所述第二子会议图像。本发明的视频会议设备以及视频会议方法，可自动地产生适当的特写会议图像，以提供良好视频会议体验。

Description

视频会议设备以及视频会议方法

技术领域

本发明涉及一种会议设备，特别是有关于一种视频会议设备以及视频会议方法。

背景技术

随着视频会议的需求增加，如何设计一种视频会议设备可适用于各种会议情境皆可提供良好的视频效果是目前视频会议设备重要的研发方向之一。举例而言，当视频空间中具有一个或多个会议成员时，如何自动地追踪一个或多个声音来源来提供相对应的会议画面是目前主要须克服的重要技术课题之一。并且，一般而言，传统的视频会议设备在取得会议图像后，会花费大量的处理器资源的运算量来对于撷取的整个会议图像进行图像分析，以决定特写人脸(说话者)的位置。有鉴于此，如何使视频会议设备可以以较低的图像处理的数据运算量来达成可自动追踪声音来源以及显示适当的会议画面效果，以下将提出几个实施例的解决方案。

本“背景技术”段落只是用来说明了解本发明内容，因此在“背景技术”段落所公开的内容可能包含一些没有构成所属技术领域中的技术人员所知道的已知技术。在“背景技术”段落所公开的内容，不代表所述内容或者本发明一个或多个实施例所要解决的问题，在本发明申请前已被所属技术领域中的技术人员所知晓或认知。

发明内容

本发明是针对一种视频会议设备以及视频会议方法，可自动地产生适当的特写会议图像，以提供良好视频会议体验。

为达上述之一或部分或全部目的或是其他目的，本发明的视频会议设备包括图像检测装置、音源检测装置以及处理器。所述图像检测装置用以取得会议空间的会议图像。所述音源检测装置用以检测所述会议空间的声音来源，并且输出对应于所述声音来源的定位信号。所述处理器耦接所述图像检测装置以及所述音源检测装置，并且用以接收所述会议图像以及所述定位信号，以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像。所述处理器对所述第一子会议图像进行人脸检测，以检测距离所述第一子会议图像的中心轴最近的人脸图像，其中所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像，并且输出所述第二子会议图像。

为达上述之一或部分或全部目的或是其他目的，本发明的视频会议方法包括以下步骤：通过图像检测装置取得会议空间的会议图像；通过音源检测装置检测所述会议空间的声音来源，并且输出对应于所述声音来源的定位信号；通过处理器依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像；通过所述处理器对所述第一子会议图像进行人脸检测，以检测距离所述第一子会议图像的中心轴最近的人脸图像；以及通过所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像，并且输出所述第二子会议图像。

基于上述，本发明的视频会议设备以及视频会议方法可通过图像检测装置取得会议空间的会议图像，并且依据音源检测装置的定位信号来选择会议图像中对应于声音来源的部分会议图像，以输出所述部分会议图像至外部的显示设备来显示之。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1是依照本发明的一实施例的视频会议设备的装置方框图；

图2是依照本发明的一实施例的视频会议情境的示意图；

图3A是依照本发明的一实施例的第一子会议图像的示意图；

图3B是依照本发明的一实施例的第二子会议图像的示意图；

图4是依照本发明的一实施例的视频会议方法的步骤流程图；

图5是依照本发明的另一实施例的会议图像的示意图；

图6是依照本发明的又一实施例的会议图像的示意图。

具体实施方式

有关本发明的前述及其他技术内容、特点与功效，在以下配合参考附图之一较佳实施例的详细说明中，将可清楚的呈现。以下实施例中所提到的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本发明。

为了使本发明的内容可以被更容易明了，以下特举实施例作为本发明确实能够据以实施的范例。另外，凡可能之处，在附图及实施方式中使用相同标号的组件/构件/步骤代表相同或类似部件。

图1是依照本发明的一实施例的视频会议设备的装置方框图。参考图1，视频会议设备100包括处理器110、存储器120、图像检测装置130以及音源检测装置140。处理器110耦接存储器120、图像检测装置130以及音源检测装置140。存储器120包括神经网络模型(Neural Network，NN)121。在本实施例中，图像检测装置130可用以取得会议空间的会议图像，并且输出会议图像至处理器110，其中会议图像可包括会议空间中的所有会议成员。在一实施例中，图像检测装置130可为360度摄影机，并且会议图像包括360度全景图像，但本发明并不限于此。音源检测装置140可用以检测会议空间的声音来源，并且输出对应于声音来源的定位信号至处理器110。在一实施例中，音源检测装置140可为麦克风阵列(Microphone array)，并且定位信号包括音源坐标，但本发明并不限于此。

在本实施例中，视频会议设备100可为一个独立且可移动的装置，并且可放置在会议空间中的任何适当位置，例如桌子中央处、会议室的天花板等，以便取得会议空间的会议图像以及检测在会议空间中的声音来源。然而，在另一实施例中，视频会议设备100也可与其他计算机设备或显示设备整合，本发明亦不加以限制。在本实施例中，处理器110可依据定位信号来选取在会议图像中对应于声音来源的第一子会议图像，并且对第一子会议图像进行人脸检测，以检测距离第一子会议图像的中心轴最近的人脸图像。处理器110以人脸图像为图像中心来重新选取在会议图像中的第二子会议图像，并且输出第二子会议图像。换言之，本实施例的处理器110可先依据图像检测装置130提供的会议图像以及音源检测装置140提供的定位信号来决定在会议图像中的第一子会议图像的范围，接着再依据第一子会议图像的人脸检测的判断结果来决定在会议图像中的第二子会议图像的范围。并且，在处理器110所输出的第二子会议图像中，对应于声音来源的人脸图像将位于第二子会议图像的中间位置。也就是说，本实施例的视频会议设备100无须对整张会议图像进行图像处理或人脸辨识，而是以较低的图像处理的数据运算量来自动地产生适当的特写会议图像。

更进一步而言，本实施例的处理器110对第一子会议图像进行人脸检测的方式是读取存储器120中的神经网络模型121，并且将第一子会议图像输入至神经网络模型121，以通过神经网络模型121辨识在第一子会议图像中的至少一人脸。接着，处理器110再依据所述至少一人脸在第一子会议图像中的分布来决定距离第一子会议图像的中心轴最近的人脸图像。另外，本实施例的神经网络模型121可预先通过不同会议情境的多个参考会议图像来进行训练，以使经训练后的神经网络模型121可至少用于辨识第一子会议图像的任意对象是否为人脸。上述的不同会议情境可以是指不同会议背景、不同会议室亮度或不同会议室对象等，而本发明并不加以限制。

在本实施例中，处理器110可包括具有图像数据分析以及计算处理功能的中央处理单元(Central Processing Unit,CPU)，或是其他可编程的通用或专用的微处理器(Microprocessor)、图像处理器(Image Processing Unit,IPU)、图形处理器(GraphicsProcessing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuits,ASIC)、可编程逻辑设备(ProgrammableLogic Device,PLD)、其他类似运算电路或这些电路的结合。并且，处理器110耦接存储器120，以将用于实现本发明的视频会议方法所需的神经网络模型121、相关图像数据、图像分析软件(Image Analysis Software)以及图像处理软件(Image Processing Software)储存在存储器120中，以供处理器110读取并执行相关的软件程序。存储器120例如是可移动存储器随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash memory)或类似组件或上述组件的组合。在一实施例中，视频会议设备100也可与其他计算机设备或显示设备整合，本发明亦不加以限制。

图2是依照本发明的一实施例的视频会议情境的示意图。图3A是依照本发明的一实施例的第一子会议图像的示意图。图3B是依照本发明的一实施例的第二子会议图像的示意图。参考图1至图3B，视频会议设备100可例如放置于会议桌上，并且多个会议成员201～204坐于会议桌旁。举例而言，图像检测装置130先取得此会议空间的会议图像。接着，当会议成员204说话时，音源检测装置140输出对应于会议成员204的定位信号至处理器110。因此，处理器110将依据定位信号来选取在会议图像中对应于会议成员204的第一子会议图像。然而，由于音源检测装置140提供的定位信号未必完全精准，因此在一实施例中，处理器110可能所选取如图3A所示的包括了会议成员203～204的第一子会议图像310。在此一实施例中，处理器110将对第一子会议图像310进行人脸检测，以检测距离第一子会议图像310的中心轴C1最近的会议成员204的人脸图像301。接着，处理器110以会议成员204的人脸图像301为图像中心来重新选取如图3B所示的第二子会议图像320，并且输出第二子会议图像320。据此，视频会议设备100可将说话的会议成员204的人脸图像301以特写的形式输出，并且自动地将会议成员204的人脸图像301呈现于输出图像的置中位置。

此外，在另一实施例中，视频会议设备100的处理器110还可判断会议成员204的人脸图像301在第二子会议图像320中是否大于第一图像范围阈值或小于第二图像范围阈值，以基于人脸图像301为中心来执行图像缩放操作，并且输出经缩放的第二子会议图像310。换言之，视频会议设备100还可自动地依据说话的会议成员204与视频会议设备100的距离，来适当地调整人脸图像301在第二子会议图像320中的图像大小，进而提供更为适当的说话者的人脸特写图像。然而，上述的第一图像范围阈值以及上述的第二图像范围阈值可依据外部显示设备的显示分辨率来决定，而本发明并不加以限制。

图4是依照本发明的一实施例的视频会议方法的步骤流程图。参考图1以及图4，本实施例的视频会议方法可至少适用于图1实施例的视频会议设备100。在步骤S410中，图像检测装置130取得会议空间的会议图像。在步骤S420中，音源检测装置140检测会议空间的声音来源，并且输出对应于声音来源的定位信号。在步骤S430中，处理器110依据定位信号来选取在会议图像中对应于声音来源的第一子会议图像。在步骤S440中，处理器110对第一子会议图像进行人脸检测，以检测距离第一子会议图像的中心轴最近的人脸图像。在步骤S450中，处理器110以人脸图像为图像中心来选取在会议图像中的第二子会议图像，并且输出第二子会议图像。因此，本实施例的视频会议方法以及视频会议设备100可自动地提供适当的特写会议图像。

另外，关于本实施例的各步骤的实施方式、变化以及其延伸可参照上述图1至图3B实施例的说明而获致足够的教示、建议以及实施说明，因此不再赘述。

图5是依照本发明的另一实施例的会议图像的示意图。再参考图1，在另一实施例中，当音源检测装置140检测到多个声音来源时，音源检测装置140输出对应多个声音来源的多个定位信号至处理器110，以使处理器110依据多个定位信号来分别选取在会议图像中对应于多个声音来源的多个第一子会议图像。并且，处理器110对多个第一子会议图像分别进行人脸检测，以检测分别距离多个第一子会议图像的中心轴最近的多个人脸图像。处理器110分别以多个人脸图像为图像中心来选取在会议图像中的多个第二子会议图像，并且处理器110将多个第二子会议图像合并输出。

因此，参考图1、图2以及图5，举例而言，若会议成员201、204皆发出声音时，则音源检测装置140可分别提供会议成员201、204的两个定位信号至处理器110。因此，处理器110可依据此两个定位信号来决定两个第二子会议图像510、520(详细步骤请参考前述说明)。并且，处理器110将第二子会议图像510、520分别作为两个水平分割画面来合并输出为当前会议画面500。值得注意的是，可类推如上述图3A、3B实施例的方式。会议成员201、204的人脸图像511、521将分别位于两个分割画面中央。据此，在此另一实施例的视频会议设备100可提供同时呈现对应于多说话者的适当的多个特写会议图像。

另外，关于本实施例的视频会议设备的实施方式、变化以及其延伸可参照上述图1至图4实施例的说明而获致足够的教示、建议以及实施说明，因此不再赘述。

图6是依照本发明的又一实施例的会议图像的示意图。参考图1以及图6，在又一实施例中，当处理器110执行类似如上述图3A及图3B实施例所述的方法，而取得会议成员204的人脸图像位于中央的第二子会议图像620后，处理器110可进一步将第二子会议图像620以及会议图像610作为如图6所示的两个垂直分割画面来合并输出为当前会议画面600。换言之，处理器110可将全景会议图像与特写会议图像合并输出，以使当前会议画面600可同时呈现具有所有会议成员201～204的整体会议图像(例如全景会议图像)以及说话的会议成员204的特写图像。据此，在此又一实施例的视频会议设备100可提供另一种适当的特写会议图像。

另外，关于本实施例的视频会议设备的实施方式、变化以及其延伸可参照上述图1至图5实施例的说明而获致足够的教示、建议以及实施说明，因此不再赘述。

综上所述，本发明的视频会议设备以及视频会议方法可通过图像检测装置取得会议空间的全景会议图像，并且依据音源检测装置的定位信号来决定从全景会议图像中撷取对应于声音来源的部分会议图像，其中对应于声音来源的说话者的人脸图像将会自动地置中于所述部分会议图像的中央。因此，本发明的视频会议设备以及视频会议方法可自动地产生适当的特写会议图像，以提供良好视频会议体验。

只是以上所述内容，仅为本发明的较佳实施例而已，当不能以此限定本发明实施的范围，即所有依本发明权利要求书及发明内容所作的简单的等效变化与修改，皆仍属本发明专利涵盖的范围内。另外本发明的任一实施例或权利要求不须达成本发明所公开的全部目的或优点或特点。此外，摘要和发明名称仅是用来辅助专利档检索之用，并非用来限制本发明的权利范围。此外，本说明书或权利要求书中提及的“第一”、“第二”等用语仅用于命名组件(element)的名称或区别不同实施例或范围，而并非用来限制组件数量上的上限或下限。

Claims

1.一种视频会议设备，其特征在于，所述视频会议设备包括图像检测装置、音源检测装置和处理器，其中：

所述图像检测装置用以取得会议空间的会议图像；

所述音源检测装置用以检测所述会议空间的声音来源，并且输出对应于所述声音来源的定位信号；以及

所述处理器耦接所述图像检测装置以及所述音源检测装置，并且用以接收所述会议图像以及所述定位信号，以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像，

其中所述处理器对所述第一子会议图像进行人脸检测，以检测距离所述第一子会议图像的中心轴最近的人脸图像，其中所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像，并且输出所述第二子会议图像。

2.根据权利要求1所述的视频会议设备，其特征在于，所述处理器将所述第一子会议图像输入至神经网络模型，以辨识在所述第一子会议图像中的至少一人脸，并且所述处理器依据所述至少一人脸在所述第一子会议图像中的分布来决定距离所述第一子会议图像的所述中心轴最近的所述人脸图像。

3.根据权利要求2所述的视频会议设备，其特征在于，所述神经网络模型预先通过不同会议情境的多个参考会议图像进行训练，以至少用于辨识所述第一子会议图像中的任意对象是否为人脸。

4.根据权利要求1所述的视频会议设备，其特征在于，所述处理器判断所述人脸图像在所述第二子会议图像中是否大于第一图像范围阈值或小于第二图像范围阈值，以基于所述人脸图像为中心来执行图像缩放操作，并且输出经缩放的所述第二子会议图像。

5.根据权利要求4所述的视频会议设备，其特征在于，所述处理器耦接外部显示设备，并且所述第一图像范围阈值以及所述第二图像范围阈值依据所述外部显示设备的显示分辨率来决定。

6.根据权利要求1所述的视频会议设备，其特征在于，所述处理器还输出所述会议图像，以将所述第二子会议图像以及所述会议图像作为两个垂直分割画面来合并输出为当前会议画面。

7.根据权利要求1所述的视频会议设备，其特征在于，当所述音源检测装置检测到多个声音来源时，所述音源检测装置输出对应所述多个声音来源的多个定位信号至所述处理器，以使所述处理器依据所述多个定位信号来分别选取在所述会议图像中对应于所述多个声音来源的多个第一子会议图像，

其中所述处理器对所述多个第一子会议图像分别进行人脸检测，以检测分别距离所述多个第一子会议图像的中心轴最近的多个人脸图像，其中所述处理器分别以所述多个人脸图像为图像中心来选取在所述会议图像中的多个第二子会议图像，并且所述处理器将所述多个第二子会议图像合并输出。

8.根据权利要求7所述的视频会议设备，其特征在于，所述处理器将所述多个第二子会议图像作为多个水平分割画面来合并输出为当前会议画面，并且所述多个人脸图像分别位于所述多个分割画面中央。

9.根据权利要求1所述的视频会议设备，其特征在于，所述图像检测装置为360度摄影机，并且所述会议图像包括360度全景图像。

10.根据权利要求1所述的视频会议设备，其特征在于，所述音源检测装置为麦克风阵列，并且所述定位信号包括音源坐标。

11.一种视频会议方法，其特征在于，包括：

通过图像检测装置取得会议空间的会议图像；

通过音源检测装置检测所述会议空间的声音来源，并且输出对应于所述声音来源的定位信号；

通过处理器依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像；

通过所述处理器对所述第一子会议图像进行人脸检测，以检测距离所述第一子会议图像的中心轴最近的人脸图像；以及

通过所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像，并且输出所述第二子会议图像。

12.根据权利要求11所述的视频会议方法，其特征在于，通过所述处理器对所述第一子会议图像进行所述人脸检测，以检测距离所述第一子会议图像的所述中心轴最近的所述人脸图像的步骤包括：

通过所述处理器将所述第一子会议图像输入至神经网络模型，以辨识在所述第一子会议图像中的至少一人脸；以及

通过所述处理器依据所述至少一人脸在所述第一子会议图像中的分布来决定距离所述第一子会议图像的所述中心轴最近的所述人脸图像。

13.根据权利要求12所述的视频会议方法，其特征在于，所述神经网络模型预先通过不同会议情境的多个参考会议图像进行训练，以至少用于辨识所述第一子会议图像中的任意对象是否为人脸。

14.根据权利要求11所述的视频会议方法，其特征在于，通过所述处理器以所述人脸图像为所述图像中心来选取在所述会议图像中的所述第二子会议图像，并且输出所述第二子会议图像的步骤包括：

通过所述处理器判断所述人脸图像在所述第二子会议图像中是否大于第一图像范围阈值或小于第二图像范围阈值，以基于所述人脸图像为中心来执行图像缩放操作，并且输出经缩放的所述第二子会议图像。

15.根据权利要求14所述的视频会议方法，其特征在于，所述处理器耦接外部显示设备，并且所述第一图像范围阈值以及所述第二图像范围阈值依据所述外部显示设备的显示分辨率来决定。

16.根据权利要求11所述的视频会议方法，其特征在于，所述视频会议方法还包括：

通过所述处理器还输出所述会议图像，以将所述第二子会议图像以及所述会议图像作为两个垂直分割画面来合并输出为当前会议画面。

17.根据权利要求11所述的视频会议方法，其特征在于，所述视频会议方法还包括：

当所述音源检测装置检测到多个声音来源时，通过所述音源检测装置输出对应所述多个声音来源的多个定位信号至所述处理器，以使所述处理器依据所述多个定位信号来分别选取在所述会议图像中对应于所述多个声音来源的多个第一子会议图像；

通过所述处理器对所述多个第一子会议图像分别进行人脸检测，以检测分别距离所述多个第一子会议图像的中心轴最近的多个人脸图像，其中所述处理器分别以所述多个人脸图像为图像中心来选取在所述会议图像中的多个第二子会议图像；以及

通过所述处理器将所述多个第二子会议图像合并输出。

18.根据权利要求17所述的视频会议方法，其特征在于，所述视频会议方法还包括：

通过所述处理器将所述多个第二子会议图像作为多个水平分割画面来合并输出为当前会议画面，并且所述多个人脸图像分别位于所述多个分割画面中央。

19.根据权利要求11所述的视频会议方法，其特征在于，所述图像检测装置为360度摄影机，并且所述会议图像包括360度全景图像。

20.根据权利要求11所述的视频会议方法，其特征在于，所述音源检测装置为麦克风阵列，并且所述定位信号包括音源坐标。