CN210469530U

CN210469530U - 发言人员音频及影像追踪系统

Info

Publication number: CN210469530U
Application number: CN201921530824.4U
Authority: CN
Inventors: 薛乐山
Original assignee: Nanjing Shenshi Optical Point Technology Co Ltd
Current assignee: Nanjing Shenshi Optical Point Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-05-05
Anticipated expiration: 2029-09-12

Abstract

本实用新型提供一种发言人员音频及影像追踪系统，主要设于例如一会议室的开放空间中，并包含一控制主机、一环景影像获取设备及一麦克风数组装置，其中，控制主机的一数据库预先加载数笔脸部动作特征信息，当会议室进行会议时，环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者，并分析出发言者的三维空间地址信息后，透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音，再进一步将发言者的脸部画面特写投影至会议室的一显示屏，以供其他与会者可立即得知目前谁在发言以及可清楚聆听发言人的发言。

Description

发言人员音频及影像追踪系统

技术领域

本实用新型涉及一种发言人员音频及影像追踪系统，尤指一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。

背景技术

传统视频会议系统可利用三个以上的摄影机来拍摄参与会议的人，同时使用麦克风数组来进行发言者的定位，并且将所定位的发言者放大于视频会议影像中，然而，传统作法仅执行声音定位来判断音源位置，并且认为该音源位置即是发言者的位置，进而将该位置的影像放大于视频会议影像中，因此，上述传统方法会因为环境噪音而导致准确度不足，无法精准地判断发言者的位置，又，一般传统式单收音麦克风系统具有下列缺点：

(1)收音方向性限制，讲话的人没有对着麦克风的收音效果很差；

(2)于会议环境使用时，当换人发言时，需将麦克风转交给下一发言人；

(3)于家用智能家电设备使用时，收音效率极低。

而传统式麦克风数组收音会议系统虽然因为采用全向性麦克风数组收音，有效提高了对使用环境内所有发言者的收音质量，但无法鉴别声音源是信号还是噪音，不利于背景噪声源的收音。

实用新型内容

有鉴于上述的问题，本申请人依据多年来从事会议视讯设备相关行业的经验，针对视讯中发言人的音源及影像定位进行研究及分析；缘此，本实用新型的主要目的在于提供一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。

为达上述的目的，本实用新型发言人员音频及影像追踪系统，其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置，其中，控制主机的一数据库预先加载数笔脸部动作特征信息，当会议室进行会议时，环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者，并分析出该发言者的三维空间地址信息后，透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音，再进一步将发言者的脸部画面特写投影至会议室的一显示屏上，以供其他与会者可清楚得知目前的发言人影像以及其发言内容。

为使贵审查委员得以清楚了解本实用新型的目的、技术特征及其实施后的功效，兹以下列说明搭配图示进行说明，敬请参阅。

附图说明

图1为本实用新型的系统组成示意图；

图2为本实用新型的实施示意图(一)；

图3为本实用新型的实施示意图(二)；

图4为本实用新型的实施示意图(三)；

图5为本实用新型的另一实施例(一)；

图6为本实用新型的实施例(一)实施示意图；

图7为本实用新型的另一实施例(二)；

图8为实施例(二)的实施示意图。

具体实施方式

请参阅「图1」，图中所示为本实用新型的系统组成示意图，如图中所示的发言人员音频及影像追踪系统10，其主要包括一控制主机101、一环景影像获取设备102以及一麦克风数组装置103，其中，控制主机101可例如为一实体服务器或云端主机，且控制主机101具有一中央处理模块1011，所述的中央处理模块1011用以驱动各模块作动，并分别与一数据库1012、一信息接收发送模块1013以及一投影模块1014形成信息链接，且数据库1012中预先储存有数笔脸部动作特征信息F，所述的脸部动作特征信息F可例如为嘴部张开讲话时脸部肌肉的动作信息等，而信息接收发送模块1013用以接收或传送电子信息，且投影模块1014可用以将影像信息投影至一显示屏11(图中未绘示)；环景影像获取设备102主要设置于例如会议室的一开放空间的中，其设有一影像分析模块1021，且影像分析模块1021中具有一脸部辨识单元1022，环景影像获取设备102可例如为环景摄影机或是深度摄影机(Depth Camera，亦可称立体摄影机)等，环景影像获取设备102可获取不同方向的影像信息，并且可进一步将各个影像信息合成为环景影像，使环景影像的影像范围可涵盖整个会议环境，且影像分析模块1021的脸部辨识单元1022可依据数据库1012中的数笔脸部动作特征信息F，辨识出开放空间内正在发言的一发言人，并获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2(例如三维坐标)，所述的脸部影像信息F1主要为该发言人的一脸部特写影像信息，所述的人脸动作辨识作业可透过机器学习或深度学习进行影像比对，例如可基于卷积神经网络(Convolutional Neural Network，CNN)进行人脸辨识训练，更进一步例如使用Faster RCNN(Faster Region-based Convolutional NeuralNetwork)的卷积神经网络进行人脸辨识训练，并且可通过随机梯度下降算法(StochasticGradient Descent，SGD)进行迭代训练，而三维空间地址信息F2为该发言人在开放空间中的三维空间地址信息F2，可定位出发言人的位置，又，为进一步便于环景影像获取设备102进行现场环境的影像获取作业，可进一步在环景影像获取设备102的底部加装一转动基座(例如一万向转动基座，图中未绘示)，便于环景影像获取设备102可以360度取景；麦克风数组装置103，具有一声源过滤模块1031，可设置于例如会议室的开放空间中，其可以为数组式麦克风(Array Microphone)，所述的麦克风数组装置103具有数个麦克风收音单元，可获取数个不同方向的环境音讯N，所述的环境音讯N中主要为一人声音源信息N1以及一环境噪音信息N2所组成，声源过滤模块1031可预先设定过滤参数，以将环境噪音信息N2过滤后只留下人声音源信息N1；又，环景影像获取设备102及麦克风数组装置103亦可以组设于控制主机101中，使环景影像获取设备102及麦克风数组装置103，同步获取环景影像及声音讯号。

请参阅「图2」，图中所示为本实用新型的实施示意图(一)，请搭配参阅「图1」，本实用新型于实施时，系预先将环景影像获取设备102以及麦克风数组装置103架设于一适当位置，例如一会议室12的一开放空间13中，常态下会议室12中所有与会人员的脸部表情均受到环景影像获取设备102的聚焦监控，当有人进行发言时，例如图中所示的一发言人A，环景影像获取设备102会依据数据库1012中的数笔脸部动作特征信息F，进一步针对发言人A的脸部表情进行辨识，以确定该人员是否正在发言，若是，则获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2，并进一步传送至控制主机101的数据库1012储存；再请搭配参阅「图3」，图中所示为本实用新型的实施示意图(二)，承「图2」所述，中央处理模块1011系进一步透过信息接收发送模块1013将三维空间地址信息F2传送至麦克风数组装置103，使麦克风数组装置103可依据三维空间地址信息F2屏蔽或关闭其他方向的麦克风收音单元，仅开启该地址方向的麦克风单元，以聚焦接收该方向的环境音讯N，并透过声源过滤模块1031将环境音频N过滤出人声音源信息N1，并进一步传送至控制主机101；再请搭配参阅「图4」，图中所示为本实用新型的实施示意图(三)，承上所述，控制主机101可进一步将发言人A的脸部影像信息F1透过投影模块1014投影至会议室12的显示屏11上，以供会议室12的与会人员可透过投影幕11得知目前发言人的脸部影像，再将人声音源信息N1透过信息接收发送模块1013发送至外部音讯设备，例如喇叭等，藉此，透过本实用新型的实施，可清楚辨识会议中发言人A的声音以及影像，以确保其他与会者可清楚得知目前发言人的影像以及其发言内容。

请参阅「图5」，图中所示为本实用新型的另一实施例(一)，本实用新型可进一步在数据库1012中预先储存有数笔身份辨识信息B，所述的数笔身份辨识信息B可为脸部特征信息、名字等身份信息，而投影模块1014中具有一标注单元1015，所述的标注单元1015可将数笔身份辨识信息B标注于影像中的人物；再请搭配参阅「图6」，图中所示为本实用新型的实施例(一)实施示意图，承「图5」所述，请搭配参阅「图1」，当环景影像获取设备102获取发言人A的脸部影像信息F1并进行影像投放时，环景影像获取设备102亦可进一步将脸部影像信息F1与数据库1012中储存的数笔身份辨识信息B进行比对辨识，以取得对应发言人A的正确身份辨识信息B，而完成比对后，控制主机101即可进一步透过投影模块1014的标注单元1015，将对应于发言人A的正确身份辨识信息B标注于投影幕11的发言人A头部影像上，以供与会人员可得知发言人A的身份。

请参阅「图7」，图中所示为本实用新型的另一实施例(二)，本实用新型亦可进一步搭配视讯设备进行画面连动，如本图所示的控制主机101，其投影模块1014系具有一影像嵌入单元1016；再请搭配参阅「图8」，图中所示为实施例(二)的实施示意图，所述的影像嵌入单元1016可将发言人A的脸部影像信息F1嵌入于一视讯画面C中，使脸部影像信息F1以子画面的形式嵌入于视讯画面C中，藉以让远程参与视讯的相关与会人员可清楚得知视讯画面C中正在发言的人是谁。

由上所述可知，本实用新型的发言人员音频及影像追踪系统，其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置，其中，控制主机的一数据库系预先加载数笔脸部动作特征信息，当会议室进行会议时，环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者，并分析出该发言者的三维空间地址信息后，透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音，再进一步将发言者的脸部画面特写投影至会议室的一显示屏上，使本实用新型可达到提供其他与会者可清楚得知目前的发言人影像以及其发言内容的目的。

唯，以上所述者，仅为本实用新型的较佳的实施例而已，并非用以限定本实用新型实施的范围；任何熟习此技艺者，在不脱离本实用新型的精神与范围下所作的均等变化与修饰，皆应涵盖于本实用新型的专利范围内。

综上所述，本实用新型的功效，系具有实用新型的「产业可利用性」、「新颖性」与「进步性」等专利要件；申请人根据专利法的规定，向贵局提起新型专利的申请。

【符号说明】

10 发言人员音频及影像追踪系统

101 控制主机 102 环景影像获取设备

1011 中央处理模块 1021 影像分析模块

1012 数据库 1022 脸部辨识单元

1013 信息接收发送模块

1014 投影模块

1015 标注单元

1016 影像嵌入单元

103 麦克风数组装置

1031 声源过滤模块

11 显示屏

12 会议室

13 开放空间

A 发言人 B 身份辨识信息

C 视讯画面 F 脸部动作特征信息

F1 脸部影像信息 F2 三维空间地址信息

N 环境音频 N1 人声音源信息

N2 环境噪音信息

Claims

1.一种发言人员音频及影像追踪系统，其特征在于，所述发言人员音频及影像追踪系统可设于一开放空间中，其包括：

一控制主机，具有一中央处理模块，所述中央处理模块分别与一数据库、一信息接收发送模块以及一投影模块形成信息链接，其中，所述数据库预先储存有数笔脸部动作特征信息；

一环景影像获取设备，与所述控制主机形成信息链接，所述环景影像获取设备可依据所述数据库中的数笔该脸部动作特征信息，辨识出所述开放空间内正在发言的一发言人，并获取及分析出所述发言人的一脸部影像信息以及一三维空间地址信息，而所述脸部影像信息以及所述三维空间地址信息可分别经过所述信息接收发送模块传送至所述数据库储存；

一麦克风数组装置，与所述控制主机形成信息链接，可供以接收所述三维空间地址信息，使所述麦克风数组装置可依据所述三维空间地址信息获取一环境音频，并过滤及分析出所述环境音讯中的一人声音源信息；以及

所述人声音源信息可进一步传送至所述控制主机，并透过所述信息接收发送模块进行信息的传递进行信息的发送，而所述脸部影像信息则可透过所述投影模块投影至一显示屏中。

2.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述环景影像获取设备设有一转动基座。

3.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述环景影像获取设备设有一影像分析模块。

4.如权利要求3所述的发言人员音频及影像追踪系统，其特征在于，所述影像分析模块中设有一脸部辨识单元。

5.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述麦克风数组装置设有一声源过滤模块。

6.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述数据库中预先储存有数笔身份辨识信息。

7.如权利要求6所述的发言人员音频及影像追踪系统，其特征在于，数笔所述身份辨识信息为脸部特征信息。

8.如权利要求6所述的发言人员音频及影像追踪系统，其特征在于，所述投影模块中具有一标注单元。

9.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述信息接收发送模块可将所述脸部影像信息传送至一视讯画面中。

10.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述环境音讯包括所述人声音源信息以及一环境噪音信息。

11.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述脸部影像信息为所述发言人的一脸部特写影像信息。

12.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述环景影像获取设备及该麦克风数组装置设于所述控制主机内。

13.如权利要求1所述的发言人员音频及影像追踪系统，其特征在于，所述投影模块具有一影像嵌入单元。