CN210469530U - 发言人员音频及影像追踪系统 - Google Patents

发言人员音频及影像追踪系统 Download PDF

Info

Publication number
CN210469530U
CN210469530U CN201921530824.4U CN201921530824U CN210469530U CN 210469530 U CN210469530 U CN 210469530U CN 201921530824 U CN201921530824 U CN 201921530824U CN 210469530 U CN210469530 U CN 210469530U
Authority
CN
China
Prior art keywords
information
image
speaker
tracking system
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201921530824.4U
Other languages
English (en)
Inventor
薛乐山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shenshi Optical Point Technology Co Ltd
Original Assignee
Nanjing Shenshi Optical Point Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shenshi Optical Point Technology Co Ltd filed Critical Nanjing Shenshi Optical Point Technology Co Ltd
Priority to CN201921530824.4U priority Critical patent/CN210469530U/zh
Application granted granted Critical
Publication of CN210469530U publication Critical patent/CN210469530U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本实用新型提供一种发言人员音频及影像追踪系统,主要设于例如一会议室的开放空间中,并包含一控制主机、一环景影像获取设备及一麦克风数组装置,其中,控制主机的一数据库预先加载数笔脸部动作特征信息,当会议室进行会议时,环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者,并分析出发言者的三维空间地址信息后,透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音,再进一步将发言者的脸部画面特写投影至会议室的一显示屏,以供其他与会者可立即得知目前谁在发言以及可清楚聆听发言人的发言。

Description

发言人员音频及影像追踪系统
技术领域
本实用新型涉及一种发言人员音频及影像追踪系统,尤指一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。
背景技术
传统视频会议系统可利用三个以上的摄影机来拍摄参与会议的人,同时使用麦克风数组来进行发言者的定位,并且将所定位的发言者放大于视频会议影像中,然而,传统作法仅执行声音定位来判断音源位置,并且认为该音源位置即是发言者的位置,进而将该位置的影像放大于视频会议影像中,因此,上述传统方法会因为环境噪音而导致准确度不足,无法精准地判断发言者的位置,又,一般传统式单收音麦克风系统具有下列缺点:
(1)收音方向性限制,讲话的人没有对着麦克风的收音效果很差;
(2)于会议环境使用时,当换人发言时,需将麦克风转交给下一发言人;
(3)于家用智能家电设备使用时,收音效率极低。
而传统式麦克风数组收音会议系统虽然因为采用全向性麦克风数组收音,有效提高了对使用环境内所有发言者的收音质量,但无法鉴别声音源是信号还是噪音,不利于背景噪声源的收音。
实用新型内容
有鉴于上述的问题,本申请人依据多年来从事会议视讯设备相关行业的经验,针对视讯中发言人的音源及影像定位进行研究及分析;缘此,本实用新型的主要目的在于提供一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。
为达上述的目的,本实用新型发言人员音频及影像追踪系统,其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置,其中,控制主机的一数据库预先加载数笔脸部动作特征信息,当会议室进行会议时,环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者,并分析出该发言者的三维空间地址信息后,透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音,再进一步将发言者的脸部画面特写投影至会议室的一显示屏上,以供其他与会者可清楚得知目前的发言人影像以及其发言内容。
为使贵审查委员得以清楚了解本实用新型的目的、技术特征及其实施后的功效,兹以下列说明搭配图示进行说明,敬请参阅。
附图说明
图1为本实用新型的系统组成示意图;
图2为本实用新型的实施示意图(一);
图3为本实用新型的实施示意图(二);
图4为本实用新型的实施示意图(三);
图5为本实用新型的另一实施例(一);
图6为本实用新型的实施例(一)实施示意图;
图7为本实用新型的另一实施例(二);
图8为实施例(二)的实施示意图。
具体实施方式
请参阅「图1」,图中所示为本实用新型的系统组成示意图,如图中所示的发言人员音频及影像追踪系统10,其主要包括一控制主机101、一环景影像获取设备102以及一麦克风数组装置103,其中,控制主机101可例如为一实体服务器或云端主机,且控制主机101具有一中央处理模块1011,所述的中央处理模块1011用以驱动各模块作动,并分别与一数据库1012、一信息接收发送模块1013以及一投影模块1014形成信息链接,且数据库1012中预先储存有数笔脸部动作特征信息F,所述的脸部动作特征信息F可例如为嘴部张开讲话时脸部肌肉的动作信息等,而信息接收发送模块1013用以接收或传送电子信息,且投影模块1014可用以将影像信息投影至一显示屏11(图中未绘示);环景影像获取设备102主要设置于例如会议室的一开放空间的中,其设有一影像分析模块1021,且影像分析模块1021中具有一脸部辨识单元1022,环景影像获取设备102可例如为环景摄影机或是深度摄影机(Depth Camera,亦可称立体摄影机)等,环景影像获取设备102可获取不同方向的影像信息,并且可进一步将各个影像信息合成为环景影像,使环景影像的影像范围可涵盖整个会议环境,且影像分析模块1021的脸部辨识单元1022可依据数据库1012中的数笔脸部动作特征信息F,辨识出开放空间内正在发言的一发言人,并获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2(例如三维坐标),所述的脸部影像信息F1主要为该发言人的一脸部特写影像信息,所述的人脸动作辨识作业可透过机器学习或深度学习进行影像比对,例如可基于卷积神经网络(Convolutional Neural Network,CNN)进行人脸辨识训练,更进一步例如使用Faster RCNN(Faster Region-based Convolutional NeuralNetwork)的卷积神经网络进行人脸辨识训练,并且可通过随机梯度下降算法(StochasticGradient Descent,SGD)进行迭代训练,而三维空间地址信息F2为该发言人在开放空间中的三维空间地址信息F2,可定位出发言人的位置,又,为进一步便于环景影像获取设备102进行现场环境的影像获取作业,可进一步在环景影像获取设备102的底部加装一转动基座(例如一万向转动基座,图中未绘示),便于环景影像获取设备102可以360度取景;麦克风数组装置103,具有一声源过滤模块1031,可设置于例如会议室的开放空间中,其可以为数组式麦克风(Array Microphone),所述的麦克风数组装置103具有数个麦克风收音单元,可获取数个不同方向的环境音讯N,所述的环境音讯N中主要为一人声音源信息N1以及一环境噪音信息N2所组成,声源过滤模块1031可预先设定过滤参数,以将环境噪音信息N2过滤后只留下人声音源信息N1;又,环景影像获取设备102及麦克风数组装置103亦可以组设于控制主机101中,使环景影像获取设备102及麦克风数组装置103,同步获取环景影像及声音讯号。
请参阅「图2」,图中所示为本实用新型的实施示意图(一),请搭配参阅「图1」,本实用新型于实施时,系预先将环景影像获取设备102以及麦克风数组装置103架设于一适当位置,例如一会议室12的一开放空间13中,常态下会议室12中所有与会人员的脸部表情均受到环景影像获取设备102的聚焦监控,当有人进行发言时,例如图中所示的一发言人A,环景影像获取设备102会依据数据库1012中的数笔脸部动作特征信息F,进一步针对发言人A的脸部表情进行辨识,以确定该人员是否正在发言,若是,则获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2,并进一步传送至控制主机101的数据库1012储存;再请搭配参阅「图3」,图中所示为本实用新型的实施示意图(二),承「图2」所述,中央处理模块1011系进一步透过信息接收发送模块1013将三维空间地址信息F2传送至麦克风数组装置103,使麦克风数组装置103可依据三维空间地址信息F2屏蔽或关闭其他方向的麦克风收音单元,仅开启该地址方向的麦克风单元,以聚焦接收该方向的环境音讯N,并透过声源过滤模块1031将环境音频N过滤出人声音源信息N1,并进一步传送至控制主机101;再请搭配参阅「图4」,图中所示为本实用新型的实施示意图(三),承上所述,控制主机101可进一步将发言人A的脸部影像信息F1透过投影模块1014投影至会议室12的显示屏11上,以供会议室12的与会人员可透过投影幕11得知目前发言人的脸部影像,再将人声音源信息N1透过信息接收发送模块1013发送至外部音讯设备,例如喇叭等,藉此,透过本实用新型的实施,可清楚辨识会议中发言人A的声音以及影像,以确保其他与会者可清楚得知目前发言人的影像以及其发言内容。
请参阅「图5」,图中所示为本实用新型的另一实施例(一),本实用新型可进一步在数据库1012中预先储存有数笔身份辨识信息B,所述的数笔身份辨识信息B可为脸部特征信息、名字等身份信息,而投影模块1014中具有一标注单元1015,所述的标注单元1015可将数笔身份辨识信息B标注于影像中的人物;再请搭配参阅「图6」,图中所示为本实用新型的实施例(一)实施示意图,承「图5」所述,请搭配参阅「图1」,当环景影像获取设备102获取发言人A的脸部影像信息F1并进行影像投放时,环景影像获取设备102亦可进一步将脸部影像信息F1与数据库1012中储存的数笔身份辨识信息B进行比对辨识,以取得对应发言人A的正确身份辨识信息B,而完成比对后,控制主机101即可进一步透过投影模块1014的标注单元1015,将对应于发言人A的正确身份辨识信息B标注于投影幕11的发言人A头部影像上,以供与会人员可得知发言人A的身份。
请参阅「图7」,图中所示为本实用新型的另一实施例(二),本实用新型亦可进一步搭配视讯设备进行画面连动,如本图所示的控制主机101,其投影模块1014系具有一影像嵌入单元1016;再请搭配参阅「图8」,图中所示为实施例(二)的实施示意图,所述的影像嵌入单元1016可将发言人A的脸部影像信息F1嵌入于一视讯画面C中,使脸部影像信息F1以子画面的形式嵌入于视讯画面C中,藉以让远程参与视讯的相关与会人员可清楚得知视讯画面C中正在发言的人是谁。
由上所述可知,本实用新型的发言人员音频及影像追踪系统,其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置,其中,控制主机的一数据库系预先加载数笔脸部动作特征信息,当会议室进行会议时,环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者,并分析出该发言者的三维空间地址信息后,透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音,再进一步将发言者的脸部画面特写投影至会议室的一显示屏上,使本实用新型可达到提供其他与会者可清楚得知目前的发言人影像以及其发言内容的目的。
唯,以上所述者,仅为本实用新型的较佳的实施例而已,并非用以限定本实用新型实施的范围;任何熟习此技艺者,在不脱离本实用新型的精神与范围下所作的均等变化与修饰,皆应涵盖于本实用新型的专利范围内。
综上所述,本实用新型的功效,系具有实用新型的「产业可利用性」、「新颖性」与「进步性」等专利要件;申请人根据专利法的规定,向贵局提起新型专利的申请。
【符号说明】
10 发言人员音频及影像追踪系统
101 控制主机 102 环景影像获取设备
1011 中央处理模块 1021 影像分析模块
1012 数据库 1022 脸部辨识单元
1013 信息接收发送模块
1014 投影模块
1015 标注单元
1016 影像嵌入单元
103 麦克风数组装置
1031 声源过滤模块
11 显示屏
12 会议室
13 开放空间
A 发言人 B 身份辨识信息
C 视讯画面 F 脸部动作特征信息
F1 脸部影像信息 F2 三维空间地址信息
N 环境音频 N1 人声音源信息
N2 环境噪音信息

Claims (13)

1.一种发言人员音频及影像追踪系统,其特征在于,所述发言人员音频及影像追踪系统可设于一开放空间中,其包括:
一控制主机,具有一中央处理模块,所述中央处理模块分别与一数据库、一信息接收发送模块以及一投影模块形成信息链接,其中,所述数据库预先储存有数笔脸部动作特征信息;
一环景影像获取设备,与所述控制主机形成信息链接,所述环景影像获取设备可依据所述数据库中的数笔该脸部动作特征信息,辨识出所述开放空间内正在发言的一发言人,并获取及分析出所述发言人的一脸部影像信息以及一三维空间地址信息,而所述脸部影像信息以及所述三维空间地址信息可分别经过所述信息接收发送模块传送至所述数据库储存;
一麦克风数组装置,与所述控制主机形成信息链接,可供以接收所述三维空间地址信息,使所述麦克风数组装置可依据所述三维空间地址信息获取一环境音频,并过滤及分析出所述环境音讯中的一人声音源信息;以及
所述人声音源信息可进一步传送至所述控制主机,并透过所述信息接收发送模块进行信息的传递进行信息的发送,而所述脸部影像信息则可透过所述投影模块投影至一显示屏中。
2.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环景影像获取设备设有一转动基座。
3.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环景影像获取设备设有一影像分析模块。
4.如权利要求3所述的发言人员音频及影像追踪系统,其特征在于,所述影像分析模块中设有一脸部辨识单元。
5.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述麦克风数组装置设有一声源过滤模块。
6.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述数据库中预先储存有数笔身份辨识信息。
7.如权利要求6所述的发言人员音频及影像追踪系统,其特征在于,数笔所述身份辨识信息为脸部特征信息。
8.如权利要求6所述的发言人员音频及影像追踪系统,其特征在于,所述投影模块中具有一标注单元。
9.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述信息接收发送模块可将所述脸部影像信息传送至一视讯画面中。
10.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环境音讯包括所述人声音源信息以及一环境噪音信息。
11.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述脸部影像信息为所述发言人的一脸部特写影像信息。
12.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环景影像获取设备及该麦克风数组装置设于所述控制主机内。
13.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述投影模块具有一影像嵌入单元。
CN201921530824.4U 2019-09-12 2019-09-12 发言人员音频及影像追踪系统 Active CN210469530U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201921530824.4U CN210469530U (zh) 2019-09-12 2019-09-12 发言人员音频及影像追踪系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201921530824.4U CN210469530U (zh) 2019-09-12 2019-09-12 发言人员音频及影像追踪系统

Publications (1)

Publication Number Publication Date
CN210469530U true CN210469530U (zh) 2020-05-05

Family

ID=70433163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201921530824.4U Active CN210469530U (zh) 2019-09-12 2019-09-12 发言人员音频及影像追踪系统

Country Status (1)

Country Link
CN (1) CN210469530U (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN113140223A (zh) * 2021-03-02 2021-07-20 广州朗国电子科技有限公司 一种会议语音数据处理方法、设备及存储介质
CN115988164A (zh) * 2022-12-03 2023-04-18 北京视通科技有限公司 一种会议室多媒体控制方法、系统及计算机设备
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN112887652B (zh) * 2021-01-21 2023-03-14 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN113140223A (zh) * 2021-03-02 2021-07-20 广州朗国电子科技有限公司 一种会议语音数据处理方法、设备及存储介质
CN115988164A (zh) * 2022-12-03 2023-04-18 北京视通科技有限公司 一种会议室多媒体控制方法、系统及计算机设备
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法

Similar Documents

Publication Publication Date Title
CN210469530U (zh) 发言人员音频及影像追踪系统
US11875796B2 (en) Audio-visual diarization to identify meeting attendees
TWM594202U (zh) 發言人員音訊追蹤系統
US11128793B2 (en) Speaker tracking in auditoriums
WO2020119032A1 (zh) 基于生物特征的声源追踪方法、装置、设备及存储介质
CN108470169A (zh) 人脸识别系统及方法
CN110324723B (zh) 字幕生成方法及终端
US20210407516A1 (en) Processing Overlapping Speech from Distributed Devices
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
JP2007147762A (ja) 発話者予測装置および発話者予測方法
CN105981375A (zh) 信息处理设备、控制方法、程序和系统
KR20110073758A (ko) 발언자를 구별하는 영상 회의 장치 및 방법
CN111260313A (zh) 发言者的识别方法、会议纪要生成方法、装置及电子设备
CN103685783A (zh) 信息处理系统和存储介质
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
CN113486690A (zh) 一种用户身份识别方法、电子设备及介质
CN114556469A (zh) 数据处理方法、装置、电子设备和存储介质
TW200411627A (en) Robottic vision-audition system
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
US11775834B2 (en) Joint upper-body and face detection using multi-task cascaded convolutional networks
CN112507829B (zh) 一种多人视频手语翻译方法及系统
TWM591655U (zh) 發言人員音訊及影像追蹤系統
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP7400364B2 (ja) 音声認識システム及び情報処理方法
CN114666454A (zh) 一种智能会议系统

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant