CN207443029U - 一种基于语音跟踪的全景视频录制设备 - Google Patents

一种基于语音跟踪的全景视频录制设备 Download PDF

Info

Publication number
CN207443029U
CN207443029U CN201721441643.5U CN201721441643U CN207443029U CN 207443029 U CN207443029 U CN 207443029U CN 201721441643 U CN201721441643 U CN 201721441643U CN 207443029 U CN207443029 U CN 207443029U
Authority
CN
China
Prior art keywords
video
audio
processing
module
shell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201721441643.5U
Other languages
English (en)
Inventor
詹五洲
柳振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Split Stone Video Technology Co Ltd
Original Assignee
Shenzhen Split Stone Video Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Split Stone Video Technology Co Ltd filed Critical Shenzhen Split Stone Video Technology Co Ltd
Priority to CN201721441643.5U priority Critical patent/CN207443029U/zh
Application granted granted Critical
Publication of CN207443029U publication Critical patent/CN207443029U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本实用新型公开一种基于语音跟踪的全景视频录制设备,设备括外壳,所述外壳上设置有视频采集装置和音频采集装置,所述外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块。上述方案的有益效果是通过单一的高度集中的录制设备采用全景视频结合语音定位和图像识别的方式实现对视频中发言人的跟踪及特写功能,同时具有特写和会议全貌无缝切换的功能,也可以进一步缩减成本,有利于录播系统的推广。

Description

一种基于语音跟踪的全景视频录制设备
技术领域
本实用新型涉及全景视频录制技术领域,特别涉及一种基于语音跟踪的全景视频录制设备。
背景技术
通常的使用遥控器的视频会议摄像机位调整方位,需要与会人员或者专门的人手进行手动控制,该方式显然是影响会议体验的,与会者无法全心全意的投入会议,无形之中降低了会议的效率。
同样根据发言者开启传声器来进行摄像机机位自动判断和调整的方法也存在其不足,比如需要在每个与会人员面前都设置一个单独的传声器,而现在视频会议通常会采用一个全向麦替代每个人面前的单独的传声器,可以增加设备的集成度也保持了会议桌面的整洁。
宝利通的方案(中国专利CN102256098A)采用了一个语音定位装置、2个高清摄像头、一个主机;采用的设备及外设数目比较多,而且该方案在双摄像头的情况下,只能特写两个发言人,具体实现是当第二个人同时发言的时候,经过策略判断后,将房间画面摄像头也用于拍摄发言人特写;这种方案下,如果有更多的人发言的话,需要增加摄像头,进一步添加外接设备。
因此,有必要提出一种新的录制设备。
实用新型内容
本实用新型的主要目的是提出一种基于语音跟踪的全景视频录制设备,旨在采用单一全景视频录制设备结合语音定位和图像识别的方式,实现视频中发言人的跟踪及特写功能,同时具有特写和会议全貌无缝切换的功能。
为实现上述目的,本实用新型提出的基于语音跟踪的全景视频录制设备,包括外壳,所述外壳上设置有视频采集装置和音频采集装置,所述外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块;所述视频采集装置和音频采集装置嵌入设置在所述外壳上,并分别与外壳内设置的视频处理装置和音频处理装置对应连接,所述微处理器分别与所述视频处理装置、所述音频处理装置、所述网络传输模块和所述人机交互模块通讯连接。
优选地,所述外壳设置为球型外壳,所述视频采集装置包括设置在球型外壳顶部的第一摄像头、以及均匀排布在球型外壳侧边的若干第二摄像头。
优选地,所述音频处理装置包括均衡设置在球型外壳侧边的若干麦克风阵列,每一麦克风阵列包括均匀排布在球型外壳侧边的若干麦克风。
优选地,所述球型外壳底部还设置有一底部支架。
优选地,所述音频处理装置包括音频定位模块和音频处理模块,所述音频处理模块用于处理所述音频采集装置采集的音频数据的音频质量,所述音频定位模块通过TDOA算法确定发言者的位置并将方位信息发送给所述视频处理装置。
优选地,所述视频处理装置包括全景视频拼接模块和视频处理模块,所述全景视频拼接模块用于对所述视频采集装置采集到的视频进行全景拼接,所述视频处理模块用于处理视频参数,以及根据所述音频处理装置发送的发言者方位信息进行图像识别并获取发言者的特写画面视频。
优选地,还包括音视频输出接口,所述音视频输出接口用于输出处理后的音视频数据。
本实用新型技术方案的有益效果如下:
1,本实用新型将语音定位功能与全景视频系统结合。通过语音定位功能,可以实现视频会议中的发言人自动跟踪及特写,也可以实现自动跟踪声源的录播系统。
2,本实用新型实现了自动的视频会议发言人跟踪及特写功能。并且,本实用新型未使用多个单独摄像头组合使用的方案,避免了会议全貌画面和特写画面不能流畅切换的问题。本实用新型采用的全景视频拼接技术,可以随意截取发言人的特写画面,并根据需求进行排版显示。
3,本实用新型使用单一设备实现录制,最大限度不去改变现场原有环境;本实用新型使用语音定位加上图像识别的技术,定位精度大于传统的红外线跟踪等方法,也优于单纯使用图像识别方法的跟踪技术;而且本实用新型提出的全景视频录制是一个全新的录制方法,尽可能实现了对现场的还原,不会错失重要场景。
附图说明
为了更清楚地说明本实用新型实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本实用新型的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本实用新型中录制设备的结构示意图;
图2为本实用新型中录制设备的工作原理图;
图3为本实用新型中录制设备的另一的结构示意图;
图4为视频画面截取的示意图;
本实用新型目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本实用新型提出一种基于语音跟踪的全景视频录制设备。
在本实用新型实施例中,如图1所示,该基于语音跟踪的全景视频录制设备,包括外壳,外壳上设置有视频采集装置和音频采集装置,外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块;视频采集装置和音频采集装置嵌入设置在外壳上,并分别与外壳内设置的视频处理装置和音频处理装置对应连接,微处理器分别与视频处理装置、音频处理装置、网络传输模块和人机交互模块通讯连接。其中,视频处理装置用于视频采集装置采集到的各个视频进行全景拼接,得到一个全景视频,并将全景视频根据人机交互模块的参数处理;也可以根据音频处理装置提供的发言者的方位信息,在该区域运行图像识别算法,精确定位到发言者,并将发言者所在区域按人机交互模块提供的分辨率等参数进行截取,获取到特写画面并传输到控制处理器。
工作过程中,如图2所示,本实用新型的录制设备对现场进行视频采集和音频采集,对视频采集的结果进行全景视频拼接得到全景视频,与此同时对音频采集的结果进行音频处理提升录制的音频效果,音频处理包括但不限于降噪、自动增益控制、自动房间均衡器、混响抑制、自动音频调整等。使用者通过人机接口模块对系统进行设置,若设置为输出全貌画面则全景视频拼接的结果按人机接口模块设定的配置输出到音视频输出;若设置为特写画面视频,则对音频采集获取到的多路音频数据运用波束成形、声源定位等算法对发言者在声场中的方位进行定位,并将定位结果发送至视频处理模块,并利用对发言者的定位结果对全景视频进行图像识别,获取到以发言者人脸为中心的区域参数,并按人机接口模块设定的配置进行视频处理,对发言者所在区域进行截取,获得的视频连同音频处理获取到的音频一同进行音视频输出。音视频输出通过网络传输模块发送至远处的节点。
在本实用新型实施例中,如图3所示,本实用新型录制设备100的外壳110设置为球型,视频采集装置包括设置在球型外壳110顶部的第一摄像头120、以及均匀排布在球型外壳侧边的若干第二摄像头130。全景视频拼接需要各摄像头的画面之间有重叠,视频拼接算法根据重叠的区域进行匹配、拼接、融合等操作。在与所拍摄的场景水平方向摆设若干第二摄像头130,每个第二摄像头130摆放的角度不同,分别同时对场景的某一个特定角度进行拍摄,使之能够拍摄到场景的全景。在与所拍摄场景垂直方向即场景的顶部放置第一摄像头120,这样就可以实现对场景进行全景拍摄。
在本实用新型实施例中,如图3所示,音频处理装置包括均衡设置在球型外壳110侧边的若干麦克风阵列,每一麦克风阵列包括均匀排布在球型外壳110侧边的若干麦克风140。
在本实用新型实施例中,如图3所示,球型外壳110底部还设置有一底部支架150。平时用于手持,因为本实用新型的录制设备100是球形,不方便握持,所以有这个部件,方便手抓。其中底部支架150下面有一个接口,可以将本实用新型的录制设备100连通上面的设备一起安置在相机架上或者倒吊在录播系统自动升降设备上。
在本实用新型实施例中,音频处理装置包括音频定位模块和音频处理模块,音频处理模块用于处理音频采集装置采集的音频数据的音频质量,音频定位模块通过TDOA算法确定发言者的位置并将方位信息发送给视频处理装置。其中,TDOA(Time difference ofArrival)表示到达时间差,它是一种通过声音到达麦克风阵列中不同麦克风的时间差结合麦克风阵列空间位置进行声源定位的方法。
在本实用新型实施例中,视频处理装置包括全景视频拼接模块和视频处理模块,全景视频拼接模块用于对视频采集装置采集到的视频进行全景拼接,视频处理模块用于处理视频参数,以及根据音频处理装置发送的发言者方位信息进行图像识别并获取发言者的特写画面视频。
在本实用新型实施例中,还包括音视频输出接口,音视频输出接口用于输出处理后的音视频数据。音视频输出接口用于将接受到并经微处理器解码后的音视频数据发往周边外设,比如显示屏、音响等。
上述任意一项的全景视频录制设备的录制步骤如下:
S1:录制开始,默认视频显示方式为全貌画面显示,并将视频画面输出;
S2:根据音频定位模块及音频处理模块的数据处理结果判断是否有人发言,是则将全貌画面切换为单个特写画面显示,并继续执行S3,否则继续S1;
S3:根据音频定位模块及音频处理模块的数据处理结果进行判断,是否有多人发言,是则根据获取发言人数目截取多个特写画面,并对特写画面的截取分辨率进行计算,并继续执行S4,否则继续S2;
S4:根据声源在一定时间内在声场的位置变化对发言人是否移动进行判断,若发言人位置有误差范围之外的变动则判断为发言人在移动;音频定位模块重新发送发言人方位信息至视频处理模块,重新截取特写画面,保持发言人始终在特写画面的正中间;
S5:返回执行步骤S2直至结束。
优选地,通过微处理器设定切换画面的时间阀值T,每次切换画面后需等待的时间值为t,t大于时间阀值T时才能继续切换。为了避免画面不停切换,进行切换时间阈值判断,每次画面切换后需要等待至时间t大于预设时间阈值T,再进行再次判断进行确认后才进行输出视频画面切换。
在工作中,如图4所示,会议全貌画面200为拼接后的全景视频,根据人机交互模块的设置参数进行适当处理后,符合常规视频高宽比的视频画面。该画面通常可以囊括本地全体与会人员。
发言人的特写画面根据发言人数目或者人机交互模块的预设参数有所不同。201A为一个发言人或者人机交互模块的预设为单个特写画面的情况下的特写画面截屏模式;201B为两个发言人或者人机交互模块的预设为两个特写画面同时显示的情况下的特写画面截屏模式;201C为三个发言人或者人机交互模块的预设为三个特写画面同时显示的情况下的特写画面截屏模式。其中中的特写画面宽度为:其中WH表示单个特写画面时候的横向分辨率,Wf表示当前特写画面的横向分辨率,N表示同时显示的特写画面个数。如图所示101C表示N=3的情形,但不意味着N不能更大,适当调整设置特写画面高宽比,N可以继续增大。具体地,Wf也可以不是均分的,可以通过人机交互模块进行设置,满足使用者不同需求;例如,N=3时,3个特写画面的大小可以通过人机交互模块设置,将其中特定的一个特写画面放大,另外两个相对较小。
本实用新型技术方案的有益效果如下:
1,本实用新型将语音定位功能与全景视频系统结合。通过语音定位功能,可以实现视频会议中的发言人自动跟踪及特写,也可以实现自动跟踪声源的录播系统。
2,本实用新型实现了自动的视频会议发言人跟踪及特写功能。并且,本实用新型未使用多个单独摄像头组合使用的方案,避免了会议全貌画面和特写画面不能流畅切换的问题。本实用新型采用的全景视频拼接技术,可以随意截取发言人的特写画面,并根据需求进行排版显示。
3,本实用新型使用单一设备实现录制,最大限度不去改变现场原有环境;本实用新型使用语音定位加上图像识别的技术,定位精度大于传统的红外线跟踪等方法,也优于单纯使用图像识别方法的跟踪技术;而且本实用新型提出的全景视频录制是一个全新的录制方法,尽可能实现了对现场的还原,不会错失重要场景。
以上所述仅为本实用新型的优选实施例,并非因此限制本实用新型的专利范围,凡是在本实用新型的实用新型构思下,利用本实用新型说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本实用新型的专利保护范围内。

Claims (7)

1.一种基于语音跟踪的全景视频录制设备,其特征在于,包括外壳,所述外壳上设置有视频采集装置和音频采集装置,所述外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块;
所述视频采集装置和音频采集装置嵌入设置在所述外壳上,并分别与外壳内设置的视频处理装置和音频处理装置对应连接,所述微处理器分别与所述视频处理装置、所述音频处理装置、所述网络传输模块和所述人机交互模块通讯连接。
2.如权利要求1所述的全景视频录制设备,其特征在于,所述外壳设置为球型外壳,所述视频采集装置包括设置在球型外壳顶部的第一摄像头、以及均匀排布在球型外壳侧边的若干第二摄像头。
3.如权利要求2所述的全景视频录制设备,其特征在于,所述音频处理装置包括均衡设置在球型外壳侧边的若干麦克风阵列,每一麦克风阵列包括均匀排布在球型外壳侧边的若干麦克风。
4.如权利要求2所述的全景视频录制设备,其特征在于,所述球型外壳底部还设置有一底部支架。
5.如权利要求1所述的全景视频录制设备,其特征在于,所述音频处理装置包括音频定位模块和音频处理模块,所述音频处理模块用于处理所述音频采集装置采集的音频数据的音频质量,所述音频定位模块通过TDOA算法确定发言者的位置并将方位信息发送给所述视频处理装置。
6.如权利要求1所述的全景视频录制设备,其特征在于,所述视频处理装置包括全景视频拼接模块和视频处理模块,所述全景视频拼接模块用于对所述视频采集装置采集到的视频进行全景拼接,所述视频处理模块用于处理视频参数,以及根据所述音频处理装置发送的发言者方位信息进行图像识别并获取发言者的特写画面视频。
7.如权利要求1所述的全景视频录制设备,其特征在于,还包括音视频输出接口,所述音视频输出接口用于输出处理后的音视频数据。
CN201721441643.5U 2017-11-02 2017-11-02 一种基于语音跟踪的全景视频录制设备 Active CN207443029U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201721441643.5U CN207443029U (zh) 2017-11-02 2017-11-02 一种基于语音跟踪的全景视频录制设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201721441643.5U CN207443029U (zh) 2017-11-02 2017-11-02 一种基于语音跟踪的全景视频录制设备

Publications (1)

Publication Number Publication Date
CN207443029U true CN207443029U (zh) 2018-06-01

Family

ID=62290784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201721441643.5U Active CN207443029U (zh) 2017-11-02 2017-11-02 一种基于语音跟踪的全景视频录制设备

Country Status (1)

Country Link
CN (1) CN207443029U (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474849A (zh) * 2018-11-12 2019-03-15 广东乐心医疗电子股份有限公司 多媒体数据处理方法、系统、终端和计算机可读存储介质
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN109873973A (zh) * 2019-04-02 2019-06-11 京东方科技集团股份有限公司 会议终端和会议系统
CN110210835A (zh) * 2019-06-04 2019-09-06 成都四通瑞坤科技有限公司 一种智能高效会议实现控制方法及系统
CN111586341A (zh) * 2020-05-20 2020-08-25 深圳随锐云网科技有限公司 一种视频会议拍摄装置拍摄方法和画面显示方法
CN111629126A (zh) * 2019-02-28 2020-09-04 钉钉控股(开曼)有限公司 音视频采集设备和方法
CN116156158A (zh) * 2023-04-24 2023-05-23 百鸟数据科技(北京)有限责任公司 一种野外临时部署监测装置、方法和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474849A (zh) * 2018-11-12 2019-03-15 广东乐心医疗电子股份有限公司 多媒体数据处理方法、系统、终端和计算机可读存储介质
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN109474797B (zh) * 2019-01-04 2023-12-08 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN111629126A (zh) * 2019-02-28 2020-09-04 钉钉控股(开曼)有限公司 音视频采集设备和方法
CN109873973A (zh) * 2019-04-02 2019-06-11 京东方科技集团股份有限公司 会议终端和会议系统
US10771694B1 (en) 2019-04-02 2020-09-08 Boe Technology Group Co., Ltd. Conference terminal and conference system
CN109873973B (zh) * 2019-04-02 2021-08-27 京东方科技集团股份有限公司 会议终端和会议系统
CN110210835A (zh) * 2019-06-04 2019-09-06 成都四通瑞坤科技有限公司 一种智能高效会议实现控制方法及系统
CN111586341A (zh) * 2020-05-20 2020-08-25 深圳随锐云网科技有限公司 一种视频会议拍摄装置拍摄方法和画面显示方法
CN116156158A (zh) * 2023-04-24 2023-05-23 百鸟数据科技(北京)有限责任公司 一种野外临时部署监测装置、方法和存储介质
CN116156158B (zh) * 2023-04-24 2023-07-04 百鸟数据科技(北京)有限责任公司 一种野外临时部署监测装置、方法和存储介质

Similar Documents

Publication Publication Date Title
CN207443029U (zh) 一种基于语音跟踪的全景视频录制设备
CN107613243A (zh) 一种基于语音跟踪的全景视频录制设备及录制方法
CN102160398B (zh) 电子设备定向音频视频采集
US11477413B2 (en) System and method for providing wide-area imaging and communications capability to a handheld device
KR101495937B1 (ko) 카메라 스피커폰을 위한 마이크로폰 어레이
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
US10873666B2 (en) Camera tracking method and director device
WO2019184650A1 (zh) 字幕生成方法及终端
JPWO2019234877A1 (ja) 携帯情報端末
WO2004112290A2 (en) Receiving system for video conferencing system
CN104380721A (zh) 视频会议终端设备、视频会议系统、图像失真修正方法和图像失真修正处理程序产品
WO2020063675A1 (zh) 一种智能音箱及智能音箱使用的方法
CN104349040B (zh) 用于视频会议系统中的摄像机底座及其方法
US20210026517A1 (en) Electronic Nameplate Display Method and Apparatus in Video Conference
CN110121048A (zh) 一种会议一体机的控制方法及控制系统和会议一体机
Kapralos et al. Audiovisual localization of multiple speakers in a video teleconferencing setting
US11477393B2 (en) Detecting and tracking a subject of interest in a teleconference
CN208459748U (zh) 一种摄影棚
JPH1042264A (ja) テレビ会議システム
CN205912235U (zh) 一种智能音箱
US11496675B2 (en) Region of interest based adjustment of camera parameters in a teleconferencing environment
CN110519520A (zh) 一种后摄自拍的方法及系统
WO2017185486A1 (zh) 投影设备、会议系统及投影设备控制方法
CN107438169A (zh) 定位系统、预定位方法以及实时定位方法
CN217546174U (zh) 智能会议系统

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant