CN108933915A

CN108933915A - 视频会议装置与视频会议管理方法

Info

Publication number: CN108933915A
Application number: CN201810141603.1A
Authority: CN
Inventors: 曾羽鸿; 陈柏森
Original assignee: Pegatron Corp
Current assignee: Pegatron Corp
Priority date: 2017-05-26
Filing date: 2018-02-11
Publication date: 2018-12-04
Anticipated expiration: 2038-02-11
Also published as: TW201901527A; CN108933915B

Abstract

本发明提供一种视频会议装置与对应的视频会议管理方法。所述方法包括接收会议空间内所发出的声音；根据所接收到的声音来判断所述声音的第一位置；获取会议空间的全景影像；识别所述全景影像中的多个与会者的脸部影像，并且识别所述多个脸部影像于所述全景影像中的第二位置；根据所述第一位置、所述多个第二位置与所述多个脸部影像来判定所述多个与会者中的发言者；设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的该发言者的所述影像显示于所述视频会议影像的第二区域。

Description

视频会议装置与视频会议管理方法

技术领域

本发明涉及一种视频装置，且特别涉及一种适用于视频会议的视频会议装置与视频会议管理方法。

背景技术

传统视频会议系统利用3个以上的摄影机来拍摄参与会议的人，同时使用麦克风阵列来进行发言者的定位，并且将所定位的发言者放大于视频会议影像中。然而，传统作法仅执行声音定位来判断音源位置，并且认为该音源位置即是发言者的位置，进而将该位置的影像放大于视频会议影像中。因此，上述传统方法会因为环境噪音的影像而导致准确度不足，无法精准地判断发言者的位置。

发明内容

本发明提供一种视频会议装置与视频会议管理方法，可通过声音定位与影像识别来准确且自动地检测发言者，以将发言者的影像放大且显示于视频会议影像中。

本发明的一实施例提供一种视频会议装置。所述装置包括麦克风阵列、声音定位单元、影像获取装置、影像识别单元与视频会议管理单元。所述麦克风阵列包括多个麦克风，并且用以接收会议空间内所发出的声音。所述声音定位单元耦接至所述麦克风阵列，并且用以根据所接收到的所述声音来判断所述声音的第一位置。所述影像获取装置用以获取所述会议空间的全景影像。所述影像识别单元耦接所述影像获取装置，用以识别所述全景影像中的至少一个与会者的脸部影像，并且判断所述至少一个脸部影像的第二位置。所述视频会议管理单元耦接所述声音定位单元与所述影像识别单元，并且用以根据所述第一位置、所述至少一个第二位置与所述至少一个脸部影像来判定所述至少一个与会者中的发言者。此外，所述视频会议管理单元设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的所述发言者的所述影像显示于所述视频会议影像的第二区域。

在上述的实施例中，所述视频会议管理单元对所述发言者所发出的所述声音进行语音转文字操作，以将所述发言者的所述声音转换为对应所述发言者的文字信息，其中所述视频会议管理单元存储对应该发言者的识别名称与所述文字信息至会议记录数据库。

本发明的一实施例提供一种视频会议管理方法，适用于在会议空间所进行的视频会议，其中所述会议空间具有至少一个与会者。所述方法包括接收所述会议空间内所发出的声音；根据所接收到的所述声音来判断所述声音的第一位置；获取所述会议空间的全景影像；识别所述全景影像中的所述至少一个与会者的脸部影像，并且判断所述至少一个脸部影像的第二位置；根据所述第一位置、所述至少一个第二位置与所述至少一个脸部影像来判定所述至少一个与会者中的发言者；以及设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的该发言者的所述影像显示于所述视频会议影像的第二区域。

基于上述，本发明所提供的视频会议装置与视频会议管理方法，能够利用声音定位与影像识别，来精确地判别举行视频会议的会议空间中的发言者，将发言者的影像放大且显示于具有所述会议空间中的所有与会者的全景影像的视频会议影像中。此外，更能够对发言者的言论进行语音转文字操作，存储对应所述发言者的识别名称与所述言论的文字信息，以建立所述视频会议的会议记录。如此一来，本发明所提供的视频会议装置与视频会议管理方法能够让所有与会者直觉地且专注于发言者上，以更有效率地进行视频会议，并且所述装置与方法还能够实时地建立会议记录，进而增进了视频会议的整体工作效率。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1A是依照本发明的一实施例所示的视频会议的示意图；

图1B是依照本发明的一实施例所示的对应图1A中的视频会议的全景影像的示意图；

图2是依照本发明的一实施例所示的视频会议装置的方框图；

图3是依照本发明的一实施例所示的视频会议方法的流程图；

图4是依照本发明的一实施例所示的视频会议方法的步骤S309的流程图；

图5A是依照本发明的一实施例所示的全景影像的示意图；

图5B是依照本发明的一实施例所示的特征识别区域的示意图；

图5C是依照本发明的一实施例所示的视频会议影像的示意图。

具体实施方式

图1A是依照本发明的一实施例所示的视频会议的示意图。图1B是依照本发明的一实施例所示的对应图1A中的视频会议的全景影像的示意图。请同时参照图1A、图1B，假设在会议空间1(如，会议室或演讲厅等空间)中，有四名与会者2、3、4、5正举行视频会议(或其他会利用到视频的会议、视频教学等类型的活动)，并且会议空间1中配置有视频会议装置10。本实施例所提供的视频会议装置10会获取周遭的影像，来获得全景影像11(如，视频会议装置10会经由360度的全景摄影来获得全景影像)。如图1B所示，所述全景影像11会包含所有的与会者2、3、4、5，并且所述全景影像11也会包含所述与会者2、3、4、5周围的会议空间的影像。在本实施例中，视频会议装置10会判断在所有与会者中，谁是当前说话的发言者，并且根据此判断结果来产生(输出)视频会议影像。举例来说，当与会者2说话时(即，与会者2为发言者)，视频会议装置10会接收与会者2所发出的声音21(亦称，言论21)，根据所接收到的声音21来进行声音定位，并且根据对应与会者2的脸部影像的变化以及所获得的声音定位结果来判定与会者2为发出上述声音(言论)的发言者。以下会先通过图2来详细说明本发明所提供的视频会议装置。

图2是依照本发明的一实施例所示的视频会议装置的方框图。请参照图2，在本实施例中，视频会议装置10包括视频会议管理单元110、麦克风阵列120、声音定位单元121、影像获取装置130、影像识别单元131、存储单元140以及连接接口单元150。声音定位单元121耦接至麦克风阵列120。影像识别单元131耦接至影像获取装置130。所述视频会议管理单元110耦接至声音定位单元121、影像识别单元131、存储单元140与连接接口单元150。

在本实施例中，所述视频会议管理单元110为具备运算能力的硬件(例如芯片组、处理器等)，用以控制视频会议装置10的其他元件的功能以及管理视频会议装置10的整体运行。在本实施例中，视频会议管理单元110例如是一核心或多核心的中央处理单元(Central Processing Unit，CPU)、图像处理单元(Graphic Processing Unit，GPU)、微处理器(micro-processor)或是其他可程序化的处理单元(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可程序化控制器、专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、可程序化逻辑装置(Programmable LogicDevice，PLD)或其他类似装置。

所述存储单元140可经由视频会议管理单元110的指示来暂存数据，所述数据包括用以管理视频会议装置10的数据、从其他电子装置所接收的数据、用以传送至其他电子装置的数据或是其他类型的数据，本发明不限于此。除此之外，在本实施例中，存储单元140还可以经由视频会议管理单元110的指示来记录一些需要长时间存储的数据，例如，存储多个数据库。所述多个数据库包括人脸数据库141、会议记录数据库142。在另一实施例中，所述多个数据库还包括语音数据库143。应注意的是，所述多个数据库亦可存储至远程的服务器中，并且经由与视频会议装置之间的通信连接(或网络连接)来被存取。所述人脸数据库141记录分别对应不同人的多个脸部影像。所述人脸数据库141亦可记录分别对应不同人的多个脸部影像的脸部影像特征数据组。所述脸部影像特征数据组记录所对应的脸部影像的多个影像特征值。此外，所述人脸数据库141亦可记录所述多个脸部影像所对应的人的识别名称(如，名字、代号或识别码)。所述会议记录数据库142会记录每一次会议的内容，特别是，所述内容可包括每一次会议中对应所有发言者的言论的文字信息。所述语音数据库143可记录不同人的多笔语音消息。此外，语音数据库143也可记录分别对应所述不同人的语音的多个语音特征数据组。所述语音特征数据组记录所对应的人的语音的多个语音特征值。

所述麦克风阵列120包括配置在视频会议装置10上的多个麦克风。所述多个麦克风接收声音的空间范围涵盖视频会议装置10四周的空间。麦克风阵列120将每个麦克风所接收到的声音转换为音频信号传送至声音定位单元121。由于每个与会者2、3、4、5与麦克风阵列120的多个麦克风的相对位置不同。因此，假设目前麦克风阵列120的多个麦克风接收到与会者2说话的声音，麦克风阵列120的多个麦克风各自接收到的声音强弱会不同，进而使得所转换的音频信号的强度也会不同。

所述声音定位单元121为可根据分别从麦克风阵列120的多个麦克风所接收到的多个音频信号来计算所接收的声音的位置的电路单元/芯片。在上述的例子中，声音定位单元121可根据麦克风阵列120的多个麦克风所接收到来自同一个音源(如、上述例子的与会者2)的不同声音强度的声音，来计算出所述音源的位置(亦称，第一位置)。所述第一位置的坐标可以通过对应全景影像11的坐标系(如，直角坐标系或角坐标系)来表示。

所述影像获取装置130例如是一或两个可获取(拍摄)全景影像的摄影机/相机/镜头。所述影像获取装置130可以调整高度。所述全景影像会涵盖视频会议装置10周围的会议空间的影像。所述影像获取装置130会将所获取的全景影像传送给影像识别单元131。

所述影像识别单元131为可对所接收的影像进行影像识别操作(如，人脸检测操作与人脸识别操作)的电路单元。所述影像识别单元131亦可耦接至存储单元140，并且通过人脸数据库141中的多个脸部影像来进行机器学习，以增强影像识别单元131所进行的人脸检测操作或人脸识别操作的速度与准确率。影像识别单元131可将所识别出的与会者的脸部影像(或对应的脸部影像特征数据组)记录至人脸数据库141。

所述连接接口单元150例如是可符合串行高级技术附件(Serial AdvancedTechnology Attachment,SATA)标准、并行高级技术附件(Parallel Advanced TechnologyAttachment,PATA)标准、电气和电子工程师协会(Institute of Electrical andElectronic Engineers,IEEE)1394标准、周边元件扩展接口(Peripheral ComponentInterconnect Express,PCI Express)标准、通用串行总线(Universal Serial Bus,USB)标准、超高速一代(Ultra High Speed-I，UHS-I)接口标准、超高速二代(Ultra HighSpeed-II,UHS-II)接口标准、安全数字(Secure Digital,SD)接口标准、存储棒(MemoryStick,MS)接口标准、多媒体存储卡(Multi Media Card,MMC)接口标准、小型快闪(CompactFlash,CF)接口标准、电子集成驱动器(Integrated Device Electronics,IDE)标准、终端微通道互连架构部件(Personal Computer Memory Card International Association，PCMCIA)标准、视频图形阵列(Video Graphics Array，VGA)标准、数字视频接口(DigitalVisual Interface，DVI)标准、高清晰多媒体接口(High Definition MultimediaInterface，HDMI)标准或其他适合的标准的电路单元。在本实施例中，视频会议管理单元110可通过连接接口单元150连接至声音播放装置151(如，喇叭)、显示装置152(如，屏幕、投影机)或其他类型的输出装置，以输出数据(如，视频会议装置10所产生的视频会议影像)。此外，视频会议管理单元110可通过连接接口单元150连接至输入装置153，以接收来自输入装置153的输入信号，或是接收使用者(如，与会者)的操控。应注意的是，输出装置与输入装置亦可整合至同一电子装置中(如，触控屏幕)。特别是，连接接口单元150亦可连接至其他存储单元(如，存储卡、外接式硬盘等)，以让视频会议管理单元110可存取所述经由连接接口单元150所外接的存储单元中的数据。此外，在另一实施例中，上述经由连接接口单元150所连接的不同的输入/输出装置亦可被整合至视频会议装置10中。

在一实施例中，视频会议装置10亦可经由连接接口单元150与其他电子装置(如，台式机、笔记本电脑、平板电脑、服务器、智能手机等等)连接，以让其他电子装置通过视频会议装置10与执行于其他电子装置中的应用程序(如，Skype、QQ、Line、FB Messenger、Google Handout等通信软件)来进行视频会议。

在另一实施例中，所述视频会议装置10还包括耦接至视频会议管理单元110的通信单元160。所述通信单元160用以通过无线通信的方式来传输或是接收数据。在本实施例中，通信单元160可具有一无线通信模块，并支持全球移动通信(Global System forMobile Communication，GSM)系统、个人手持式电话系统(Personal Handy-phone System，PHS)、码分多地址(Code Division Multiple Access，CDMA)系统、无线兼容认证(WirelessFidelity，WiFi)系统、全球微波互联接入(Worldwide Interoperability for MicrowaveAccess，WiMAX)系统、第三代无线通信技术(3G)、第四代无线通信技术(4G)、长期演进技术(Long Term Evolution,LTE)、红外线(Infrared)传输、蓝牙(Bluetooth，BT)通信技术的其中之一或其组合，且不限于此。此外，通信单元160亦可具有网络适配器(NetworkInterface Card，NIC)，以建立网络连线，进而让视频会议装置10可连接至局域网络或是英特网。

在又另一实施例中，所述视频会议装置10还包括耦接至视频会议管理单元110、麦克风阵列120与存储单元140的语音识别单元122。所述语音识别单元122为可对麦克风阵列120所接收的声音进行语音识别操作的电路单元，其可用以分辨声音是否为人声(语音，Voice)。此外，在所进行的语音识别操作中，语音识别单元122亦可根据所识别的语音来对照语音数据库143中的多个语音消息或是多个语音特征数据组来识别发出所述语音的人的识别名称。除此之外，语音识别单元122亦可执行语音转文字操作，以将所识别的语音(语音消息)转换为文字信息。应注意的是，所述语音识别单元122可通过语音数据库143中的多个语音消息或是多个语音特征数据组来进行机器学习，以增进语音识别单元122所执行的语音识别操作的能力。以下会配合图3、图4来详细说明本实施例所提供的视频会议装置的运行以及其所使用的视频会议管理方法。

图3是依照本发明的一实施例所示的视频会议方法的流程图。请参照图3，假设当前(如图1所示)与会者2、3、4、5中的与会者2发出了声音21。在步骤S301中，麦克风阵列120接收会议空间内所发出的声音。例如，麦克风阵列120的多个麦克风接收到所述声音21。接着，在步骤S303中，声音定位单元121根据所接收到的所述声音来判断所述声音的第一位置。即，声音定位单元121会根据麦克风阵列120接收声音21而产生的多个音频信号来进行声音定位操作，以计算发出声音21的音源的位置。

应注意的是，在一实施例中，若语音识别单元122判定所接收的声音并不是人声，则不会继续进行步骤S303来处理所接收的声音。如此一来，可避免掉非人声的环境噪音的干扰。此外，如上所述，若语音识别单元122判定所接收的声音是人声，语音识别单元122或视频会议管理单元110除了可对应地进行语音转文字操作外，还可根据所接收的人声的声音特征以及利用经由语音数据库所训练的语音识别模型来辅助校正所转换的文字信息。接着，再将所识别到的发言者的识别名称(如，可利用影像识别或是语音识别的方式，通过人脸数据库或语音数据库来找寻发言者的识别名称)与文字信息记录作为本次会议记录的所述发言者的言论存储至会议记录数据库中。

在步骤S305中，影像获取装置130会获取所述会议空间的全景影像。如在图1A、1B的例子，影像获取装置130会获取且产生会议空间1的全景影像11，并且将对应全景影像11的影像数据传送给影像识别单元131。

在步骤S307中，识别所述全景影像中的至少一个与会者的脸部影像，并且识别出所述至少一脸部影像的第二位置。

具体来说，影像识别单元131会对所接收到的全景影像11设定一个坐标系。此外，影像识别单元131会持续地对所接收到的全景影像11来检测全景影像中是否有脸部影像(经由人脸检测操作)。若检测到至少一与会者(一或多个与会者)的脸部影像，影像识别单元131会根据检测到的脸部影像于全景影像中的位置，来对所述被检测到的脸部影像设定一个坐标值，此坐标值即表示被检测到的脸部影像在全景影像中的位置。例如，此坐标值可用来表示所述脸部影像的中心点，脸部影像的嘴部区域的中心点(如，图5A中的嘴部区域的中心点503)，或对应用以涵盖脸部影像的特定区域的一个点的坐标。本发明并不限于对应脸部影像的坐标值的设定方式。

此外，在一实施例中，影像识别单元131会尝试去对所检测到的脸部影像进行人脸识别(经由人脸识别操作)。在所述人脸识别操作中，影像识别单元131会比对人脸数据库141与所检测到的脸部影像，若有匹配的脸部影像，则可对应地找出被匹配的脸部影像所属的与会者的识别名称。在一实施例中，若没有匹配的脸部影像，则影像识别单元131可将所检测到的脸部影像新增至人脸数据库141中(对应的识别名称可利用接收使用者的输入操作来获得，经由语音识别的方式来获得，或是利用存取包含所有与会者的识别名称的会议信息来获得)。

得一提的是，视频会议管理单元110会平行地(同步地)进行步骤S301至S303的运行与步骤S305至S307的运行。换句话说，视频会议管理单元110可同时且持续地识别当前所接收声音的音源的位置，持续地拍摄全景影像且识别于全景影像中的脸部影像以及对应所检测到的脸部影像的位置。

接着，在步骤S309中，视频会议管理单元110根据所述第一位置、所述至少一第二位置与所述至少一脸部影像来判定所述至少一与会者中的发言者。

图4是依照本发明的一实施例所示的视频会议方法的步骤S309的流程图。图5A是依照本发明的一实施例所示的全景影像的示意图。图5B是依照本发明的一实施例所示的特征识别区域的示意图。请参照图5A，在图5A的全景影像500中有四个与会者。如上所述，影像识别单元131会识别出每个与会者的脸部影像，以及对应的多个第二位置。

请同时参照图4与图5A，在步骤S3091中，视频会议管理单元110根据所述第一位置，设定所述全景影像中的一目标区域，并且根据所述目标区域与所述至少一第二位置识别在所述目标区域中的至少一目标脸部影像。举例来说，假设目前视频会议管理单元110根据所接收的声音判定对应该声音的第一位置502。视频会议管理单元110会以第一位置502为中心，设定一个目标区域501，并且根据所设定的目标区域与已识别出的多个第二位置判定在目标区域中的目标脸部影像的位置503以及对应的目标脸部影像。更详细来说，视频会议管理单元110会根据目标区域的涵盖范围(与对应的区域边界的坐标值)来判断是否有至少一第二位置被涵盖于目标区域中。若有，则推测目标区域中会具有发言者的脸部影像。

接着，在步骤S3093中，视频会议管理单元110根据所述至少一目标脸部影像的影像变化判定所述至少一目标脸部影像所属的至少一目标与会者中的该发言者。

举例来说，请参照图5B，视频会议管理单元110或影像识别单元131会设定目标脸部影像511的四个角的参考坐标值，其中目标脸部影像511的长度为“H”，宽度为“W”。在本实施例中，目标脸部影像511的嘴部区域可预先被设定为目标脸部影像511内的一个区域。假设目标脸部影像511的左上角坐标为O(0,0)；右上角坐标为W(W,0)；左下角坐标为H(0,H)；右下角坐标为WH(W,H)。在此例子中，嘴部区域的范围可预设为目标脸部影像的3/5H至4/5H以及1/3W至2/3W的范围。即，嘴部区域的(相对于目标脸部影像的)左上角坐标为O1(1/3W,3/5H)；右上角坐标为W1(2/3W,3/5H)；左下角坐标为H1(1/3W,4/5H)；右下角坐标为WH1(2/3W,4/5H)。

在本实施例中，视频会议管理单元110会指示影像识别单元131将嘴部区域作为特征识别区域，并且更进一步地对于该特征识别区域来计算影像变化。更详细来说，视频会议管理单元110指示影像识别单元131根据所述多个第二位置中对应所述目标脸部影像511的目标位置502来设定所述目标脸部影像的特征识别区域520。设定完特征识别区域520后，影像识别单元131计算一段时间内，所述目标脸部影像511的特征识别区域520中的像素变化值。

举例来说，于每一个视频框的时间点，影像识别单元131计算当前视频框(frame)的全景影像的特征识别区域520的平均的像素值(如，RGB值、灰阶值、亮度值等其他类型的像素值)。接着，影像识别单元131会计算此当前视频框的平均像素值与每一前M个视频框的全景影像的特征识别区域520的平均像素值的差值(取绝对值)。接着，影像识别单元131会取所述多个差值中的最大者作为对应当前视频框的特征识别区域520的像素变化值。

接着，影像识别单元131将所计算出的对应目标脸部影像511的像素变化值作为所述目标脸部影像511的特征影像变化值。若所述特征影像变化值超过预定门限值，视频会议管理单元110判定所对应的与会者为发言者。

应注意的是，上述的例子中，目标区域仅具有一个目标与会者。然而，若目标区域具有多个目标与会者，影像识别单元131会设定对应所有与会者的脸部影像的特征识别区域以计算所有与会者的特征影像变化值，并且找出其中的最大者(亦称最大特征影像变化值)。若所述最大特征影像变化值超过所述预定门限值，视频会议管理单元110判定该最大特征影像变化值所对应的与会者为所述多个目标与会者中的发言者。

请再回到图3，在判定出发言者后，于步骤S311中，视频会议管理单元110设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的该发言者的所述影像显示于所述视频会议影像的第二区域。

图5C是依照本发明的一实施例所示的视频会议影像的示意图。请参照图5C，继续上方图5A、5B的例子，判定全景影像500中最左方的与会者为发言者后，视频会议管理单元110会根据目标脸部影像511的第二位置来设定发言者的影像(如，影像510)，并且视频会议管理单元110会根据所接收的全景影像500来产生视频会议画面530。举例来说，所产生的视频会议画面530会具有第一区域以及第二区域。视频会议管理单元110会设定全景影像500显示于第一区域。视频会议管理单元110会放大发言者的影像510，并且设定放大后的影像510显示于第二区域。

在一实施例中，视频会议管理单元110可利用机器学习来进行超分辨率的操作，以使所放大的发言者的影像510保持清晰(不会因放大影像的操作而使影像变得模糊)。

应注意的是，在上述的例子中，第一区域配置在第二区域的上方，但本发明不限于此。例如，在另一实施例中，第一区域可配置在第二区域的下方。

请再回到图3，在设定/产生完视频会议影像后，于步骤S313中，视频会议管理单元110输出所述视频会议影像。具体来说，在本实施例，会议管理单元110可通过通信单元160所建立的连线，将所产生的视频会议影像转换为对应的视频信号并且传送至其他电子装置，以让其他电子装置的屏幕或是显示装置可以显示所产生的视频会议影像。

在一实施例中，视频会议装置10可通过连接接口单元150或通信单元160连接至会议空间的电子装置，以作为所连接电子装置的相机，进而让电子装置所执行的一般可进行视频会议的应用程序(如，Skype、Line等实时通信软件)可通过视频会议装置10所产生的视频会议影像来进行视频会议。如此一来，可让使用者利用当前市面上的一般实时通信软件来进行智能的视频会议。即，提供本地端的整体会议影像(利用视频会议影像的第一区域的全景影像)以及当前发言者的影像(利用视频会议影像的第二区域的影像)给远程的实时通信软件的使用者。

值得一提的是，在另一实施例中，视频会议管理单元110亦可将经由语音转文字操作所获得的文字信息以另一图层的方式附加至所产生的视频会议影像上，以让该文字信息可作为对应该发言者的言论的字幕。在又另一实施例中，视频会议管理单元110可更将经由语音转文字操作所获得的所述文字信息输入至翻译单元，以获得翻译后文字信息(如，将发言者所说的中文语音转换且翻译成英文文字)，并且将翻译后文字信息作为对应的字幕附加至视频会议影像上。

综上所述，本发明所提供的视频会议装置与视频会议管理方法，能够利用声音定位与影像识别，来精确地判别举行视频会议的会议空间中的发言者，将发言者的影像放大且显示于具有所述会议空间中的所有与会者的全景影像的视频会议影像中。此外，更能够对发言者的言论进行语音转文字操作，存储对应所述发言者的识别名称与所述言论的文字信息，以建立所述视频会议的会议记录。如此一来，本发明所提供的视频会议装置与视频会议管理方法能够让所有与会者直觉地且专注于发言者上，以更有效率地进行视频会议，并且所述装置与方法还能够实时地建立会议记录，进而增进了视频会议的整体工作效率。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，任何所属技术领域中技术人员，在不脱离本发明的构思和范围内，当可作些许的变动与润饰，故本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种视频会议装置，其特征在于，包括：

麦克风阵列，包括多个麦克风，用以接收会议空间内所发出的声音；

声音定位单元，耦接至所述麦克风阵列，用以根据所接收到的所述声音来判断所述声音的第一位置；

影像获取装置，用以获取所述会议空间的全景影像；

影像识别单元，耦接所述影像获取装置，用以识别所述全景影像中的至少一个与会者的脸部影像，并且判断至少一个脸部影像的第二位置；以及

视频会议管理单元，耦接所述声音定位单元与所述影像识别单元，用以根据所述第一位置、至少一个第二位置与所述至少一个脸部影像来判定所述至少一个与会者中的发言者，

其中所述视频会议管理单元设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的所述发言者的所述影像显示于所述视频会议影像的第二区域。

2.根据权利要求1所述的视频会议装置，其特征在于，所述视频会议管理单元对所述发言者所发出的所述声音进行语音转文字操作，以将所述发言者的所述声音转换为对应所述发言者的文字信息，其中所述视频会议管理单元存储对应所述发言者的识别名称与所述文字信息至会议记录数据库。

3.根据权利要求1所述的视频会议装置，其特征在于，所述视频会议管理单元根据所述第一位置，设定所述全景影像中的目标区域，并且指示所述影像识别单元根据所述目标区域与所述至少一个第二位置识别在所述目标区域中的至少一个目标脸部影像，

其中所述视频会议管理单元根据所述至少一个目标脸部影像的影像变化判定所述至少一个目标脸部影像所属的至少一个目标与会者中的所述发言者。

4.根据权利要求3所述的视频会议装置，其特征在于，所述视频会议管理单元指示所述影像识别单元计算所述至少一个目标脸部影像的特征影像变化值，

若至少一个特征影像变化值的最大特征影像变化值超过预定门限值，所述视频会议管理单元判定所述最大特征影像变化值所对应的与会者为所述至少一个目标与会者中的所述发言者。

5.根据权利要求4所述的视频会议装置，其特征在于，所述视频会议管理单元指示所述影像识别单元根据所述至少一个第二位置中对应所述至少一个目标脸部影像的至少一个目标位置来设定所述至少一个目标脸部影像的特征识别区域，

其中所述影像识别单元计算预定时间内，所述至少一个目标脸部影像的特征识别区域的像素变化值，并且将所计算出的对应所述至少一个目标脸部影像的像素变化值作为所述至少一个目标脸部影像的所述特征影像变化值。

6.一种视频会议管理方法，适用于在会议空间所进行的视频会议，其中所述会议空间具有至少一个与会者，其特征在于，所述方法包括：

接收所述会议空间内所发出的声音；

根据所接收到的所述声音来判断所述声音的第一位置；

获取所述会议空间的全景影像；

识别所述全景影像中的至少一个与会者的脸部影像，并且判断至少一个脸部影像的第二位置；

根据所述第一位置、至少一个第二位置与所述至少一个脸部影像来判定所述至少一个与会者中的发言者；以及

设定所述全景影像显示于视频会议影像的第一区域，放大所述全景影像中的所判定的所述发言者的影像，并且设定所放大的所述发言者的所述影像显示于所述视频会议影像的第二区域。

7.根据权利要求6所述的视频会议管理方法，其特征在于，还包括：

对所述发言者所发出的所述声音进行语音转文字操作，以将所述发言者的所述声音转换为对应所述发言者的文字信息，并且存储对应所述发言者的识别名称与所述文字信息至会议记录数据库。

8.根据权利要求6所述的视频会议管理方法，其特征在于，所述根据所述第一位置、所述至少一个第二位置与所述至少一个脸部影像来判定所述至少一个与会者中的所述发言者的步骤包括：

根据所述第一位置，设定所述全景影像中的目标区域，并且根据所述目标区域与所述至少一个第二位置识别在所述目标区域中的至少一个目标脸部影像；以及

根据所述至少一个目标脸部影像的影像变化判定所述至少一个目标脸部影像所属的至少一个目标与会者中的所述发言者。

9.根据权利要求8所述的视频会议管理方法，其特征在于，所述根据所述至少一个目标脸部影像的所述影像变化判定所述至少一个目标脸部影像所属的至少一个目标与会者中的所述发言者的步骤包括：

计算所述至少一个目标脸部影像的特征影像变化值；以及

若至少一个特征影像变化值的最大特征影像变化值超过预定门限值，判定所述最大特征影像变化值所对应的与会者为所述至少一个目标与会者中的所述发言者。

10.根据权利要求9所述的视频会议管理方法，其特征在于，所述计算所述至少一个目标脸部影像的所述特征影像变化值的步骤包括：

根据所述至少一个第二位置中对应所述至少一个目标脸部影像的至少一个目标位置来设定所述至少一个目标脸部影像的特征识别区域；以及

计算预定时间内，所述至少一个目标脸部影像的特征识别区域的像素变化值，并且将所计算出的对应所述至少一个目标脸部影像的像素变化值作为所述至少一个目标脸部影像的所述特征影像变化值。