CN103581606B - 一种多媒体采集装置和方法 - Google Patents
一种多媒体采集装置和方法 Download PDFInfo
- Publication number
- CN103581606B CN103581606B CN201210283273.2A CN201210283273A CN103581606B CN 103581606 B CN103581606 B CN 103581606B CN 201210283273 A CN201210283273 A CN 201210283273A CN 103581606 B CN103581606 B CN 103581606B
- Authority
- CN
- China
- Prior art keywords
- spokesman
- audio
- camera
- location information
- real time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
Abstract
本发明公开了一种多媒体采集装置和方法,属于多媒体领域。装置包括:音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。本发明通过至少四通道对外部音场进行检测采集,并基于语音模型对所得的音场环境中的当前发言者进行跟踪,则得出发言者的相对位置并实时调整摄像头进行音频和视频同步采集;且四个采集通道均衡设置,摄像头转动灵活,也通过多个通道扩大了音频采集的范围,从而采集立体效果的音频质量。
Description
技术领域
本发明涉及多媒体领域,尤其涉及一种多媒体采集装置和方法。
背景技术
随着传感器技术、电子技术和信号处理技术的飞速发展,视频会议已经成为公司之间交流通讯的最佳方式。采用视频会议,可以实现与多人同时进行通讯,人们还可以面对面讲话。在全球各地的办公室和教育机构,视频会议还能够用于学习、培训和与联系人会面,不需要进行旅行。视频会议不仅能够节省电话费,而且通过取消旅行还有助于改善环境和减少业务开支中安排员工外出开会的旅差费。
目前的视频会议系统往往将往往使用PTZ摄像机和音频采集系统综合使用,由PTZ摄像机的操控人控制摄像机摆动和变焦,从而捕捉发言者的特写镜头,这样远程的与会者就能清楚地看到发言者。但毕竟需要人为操控PTZ摄像机,难免造成不便。
VCON公司的VoiceFinder是一种基于音频定位技术的个人会议系统,将音频采集装置和摄像头整合在一起,插在笔记本电脑或者PC机上即可使用,该设备采集发言者的音频信息后,通过定位发言者位置调整摄像头的朝向从而进行视频采集。但由于该装置为便携式装置,摄像头的转动角度只能在既定范围内转动,且音频采集范围也有限,造成音频采集效果很差,往往带有噪声和回音。
发明内容
本发明的实施例提供了一种多媒体采集装置和方法,通过至少四通道对外部音场进行检测采集,根据所得的音场环境对当前发言者进行跟踪,则得出发言者的相对位置并实时调整摄像头进行视频采集,从而使音频和视频同步进行采集。
本发明公开了一种多媒体采集装置,包括:
音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;所述各采集通道在几何平面内均衡设置;
音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;
视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。
优选的,所述预置的语音模型由以下单元构建:
音频预处理单元,用于对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;
音频建模单元,用于对量化后的特征量进行建模,得到语音模型。
优选的,所述音频预处理单元接收音频采集单元采集的音频信号,并将量化后的特征量发送至音频建模单元。
优选的,所述语音模型存储发言者的位移和各通道对应的音量值。
优选的,所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息。
优选的,所述音频采集单元中的各采集通道以摄像头为中心对称地进行设置。
本发明还公开了一种多媒体采集方法,包括至少四个采集通道,在几何平面内均衡设置,还包括如下步骤:
各采集通道分别采集发言者的发出的音频信号;
将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;
根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。
优选的,所述预置的语音模型构建时,对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;
对量化后的特征量进行建模,得到语音模型。
优选的,所述语音模型存储发言者的位移和各通道对应的音量值。
优选的,所述方法还包括:结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息。
优选的,所述各采集通道以摄像头为圆心,均匀在圆周上进行设置。
本发明实施例提供的一种多媒体采集装置和方法,通过至少四通道对外部音场进行检测采集,并基于语音模型对所得的音场环境中的当前发言者进行跟踪,则得出发言者的相对位置并实时调整摄像头进行视频采集,从而使音频和视频同步进行采集;且四个采集通道在几何平面内均衡设置,摄像头转动灵活,进行音频采集的多个通道扩大了音频采集的范围,从而采集到立体效果的音频质量。
附图说明
图1为本发明实施例一提供的一种多媒体采集装置的模块结构图;
图2为本发明实施例二提供的一种多媒体采集装置的场景示意图;
图3为本发明实施例一提供的一种多媒体采集方法的流程图。
具体实施方式
下面结合附图对本发明实施例一种多媒体采集装置和方法进行详细描述。
本发明公开了一种多媒体采集装置,如图1所示,包括:音频采集单元101、音频分析单元102、视频同步单元103、预置的语音模型104和摄像头105。音频采集单元101采集音频信息,并将采集到的音频信息发送至音频分析单元102,音频分析单元102结合预置的语音模型104进行分析,得到发言者对应的坐标;视频同步单元103根据发言者的坐标同步调整摄像头105,进而实现音频信息和摄像头摄取的视频信心进行同步。
本发明公开了一种多媒体采集装置,包括如下模块:
音频采集单元101,本实施例中,音频采集单元101包括四个采集通道,这四个采集通道以摄像头105为中心对称地均衡设置。音频采集单元101用于采集发言者的发出的音频信号;如图2所示,各采集通道分别在所固定的位置采集当前位置下发言者的音频数据。本实施例中,所述各采集通道以摄像头为圆心,均匀在圆周上进行设置,由于各采集通道位置不同,采集到音频数据对应的频率和振幅各有不同,正是这些差异的音频数据为被动声定位技术提供了计算依据,分别在时序上对各采集通道对应的音频数据进行跟踪、统计,通过时延估计法,从而得到不同时刻声源坐标,即发言者所在的位置信息。
所述预置的语音模型104由音频预处理单元和音频建模单元构建。
音频预处理单元,用于对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化。由于各采集通道的位置不同,降噪、量化后的音频数据必存在一定时间的顺时时延,对所述时延进行精确测量,结合各采集通道的位置坐标对应的几何关系即可根据被动声定位的原理对发言者的发声坐标进行计算,从而对发言者的相对位置进行量化。
音频建模单元,用于对量化后的特征量进行建模,得到语音模型。本实施例中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置进行结构化存储,所述语音模型可离线存储于设备本地,也可以通过网络端口将语音模型存储于云端。
音频分析单元102,用于将采集到的发言者的音频信号中的特征量在预置的语音模型104中进行匹配分析,实时定位发言者的位置信息。
语音模型离线存储于设备本地时,音频分析单元将采集到的音频信号中的特征值直接在本地的语音模型中基于音场均衡策略进行匹配,得到发言者的发声坐标,进而实时对发言者的坐标进行记录,实现发言者的跟踪,从而实时定位发言者的位置信息。语音模型通过网络端口将语音模型存储于云端时,音频分析单元将采集到的音频信号中的特征值通过网络端口在云端服务器端基于音场均衡策略进行分析匹配,同样得到发言者的发声坐标,而实时对发言者的坐标进行记录,实现发言者的跟踪,从而实时定位发言者的位置信息。
视频同步单元103,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。
提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号。当然,发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。本实施例中,发言者的偏转角度的对应变化大于5度时,则摄像头相对偏转角进行对应的调整。
本发明还公开了一种多媒体采集方法对应的实施例,包括至少四个采集通道,在几何平面内均衡设置,如图3所示,还包括如下步骤:
步骤301、各采集通道分别采集发言者的发出的音频信号;
将本实施例中的四个采集通道以摄像头为中心对称地均衡设置。各采集通道采集发言者的发出的音频信号;各采集通道分别在所固定的位置采集当前位置下发言者的音频数据。本实施例中,所述各采集通道以摄像头为圆心,均匀在圆周上进行设置,由于各采集通道位置不同,采集到音频数据对应的频率和振幅各有不同,正是这些差异的音频数据为被动声定位技术提供了计算依据,分别在时序上对各采集通道对应的音频数据进行跟踪、统计,通过时延估计法,从而得到不同时刻声源坐标,即发言者所在的位置信息。
步骤302、将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;
优选的,所述预置的语音模型构建时,还包括:
步骤a、对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;
由于各采集通道的位置不同,降噪、量化后的音频数据必存在一定时间的顺时时延,对所述时延进行精确测量,结合各采集通道的位置坐标对应的几何关系即可根据被动声定位的原理对发言者的发声坐标进行计算,从而对发言者的相对位置进行量化。
步骤b、对量化后的特征量进行建模,得到语音模型。本实施例中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置进行结构化存储。所述语音模型可离线存储于设备本地,也可以通过网络端口将语音模型存储于云端。
语音模型离线存储于设备本地时,将采集到的音频信号中的特征值直接在本地的语音模型中基于音场均衡策略进行匹配,得到发言者的发声坐标,进而实时对发言者的坐标进行记录,实现发言者的跟踪,从而实时定位发言者的位置信息。
语音模型通过网络端口将语音模型存储于云端时,将采集到的音频信号中的特征值通过网络端口在云端服务器端基于音场均衡策略进行分析匹配,同样得到发言者的发声坐标,而实时对发言者的坐标进行记录,实现发言者的跟踪,从而实时定位发言者的位置信息。
步骤303、根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。
提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号。当然,发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。本实施例中,发言者的偏转角度的对应变化大于5度时,则摄像头相对偏转角进行对应的调整。
本发明实施例提供的一种多媒体采集装置和方法,通过至少四通道对外部音场进行检测采集,并基于语音模型对所得的音场环境中的当前发言者进行跟踪,则得出发言者的相对位置并实时调整摄像头进行视频采集,从而使音频和视频同步进行采集;且四个采集通道在几何平面内均衡设置,摄像头转动灵活,进行音频采集的多个通道扩大了音频采集的范围,从而采集到立体的音频质量。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种多媒体采集装置,其特征在于,包括:音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;所述各采集通道在几何平面内均衡设置;音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号;
所述预置的语音模型由以下单元构建:音频预处理单元,用于对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;
音频建模单元,用于对量化后的特征量进行建模,得到语音模型;其中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置信息进行结构话存储;
所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息;
其中,提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号;发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。
2.根据权利要求1所述的装置,其特征在于:所述音频预处理单元接收音频采集单元采集的音频信号,并将量化后的特征量发送至音频建模单元。
3.根据权利要求1所述的装置,其特征在于:所述语音模型存储发言者的位移和各通道对应的音量值。
4.根据权利要求1所述的装置,其特征在于:所述音频采集单元中的各采集通道以摄像头为圆心,均匀在圆周上进行设置。
5.一种多媒体采集方法,其特征在于,包括至少四个采集通道,在几何平面内均衡设置,还包括如下步骤:各采集通道分别采集发言者的发出的音频信号;将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号;
所述预置的语音模型构建时,对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;对量化后的特征量进行建模,得到语音模型;其中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置信息进行结构话存储;
所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息;
其中,提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号;发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。
6.根据权利要求5所述的方法,其特征在于:所述语音模型存储发言者的位移和各通道对应的音量值。
7.根据权利要求5所述的方法,其特征在于:所述各采集通道以摄像头为圆心,均匀在圆周上进行设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210283273.2A CN103581606B (zh) | 2012-08-09 | 2012-08-09 | 一种多媒体采集装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210283273.2A CN103581606B (zh) | 2012-08-09 | 2012-08-09 | 一种多媒体采集装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103581606A CN103581606A (zh) | 2014-02-12 |
CN103581606B true CN103581606B (zh) | 2018-09-07 |
Family
ID=50052406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210283273.2A Expired - Fee Related CN103581606B (zh) | 2012-08-09 | 2012-08-09 | 一种多媒体采集装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103581606B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104270607A (zh) * | 2014-09-28 | 2015-01-07 | 北京塞宾科技有限公司 | 一种流媒体服务提供方法 |
CN104469154B (zh) * | 2014-12-05 | 2017-09-26 | 合肥国科声拓信息技术有限公司 | 一种基于麦克风阵列的摄像头引导装置及引导方法 |
CN104580992B (zh) * | 2014-12-31 | 2018-01-23 | 广东欧珀移动通信有限公司 | 一种控制方法及移动终端 |
CN104902203A (zh) * | 2015-05-19 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种基于旋转摄像头的视频录制方法及终端 |
CN104934037B (zh) * | 2015-06-02 | 2019-06-25 | 阔地教育科技有限公司 | 一种直录播互动系统中的音频处理方法及装置 |
CN104967777B (zh) * | 2015-06-11 | 2018-03-27 | 广东欧珀移动通信有限公司 | 一种控制摄像头拍摄方法及终端 |
CN104978884A (zh) * | 2015-07-18 | 2015-10-14 | 呼和浩特职业学院 | 一种学前教育专业学生学习乐理视唱练耳课程的教学系统 |
CN105338311A (zh) * | 2015-10-12 | 2016-02-17 | 北京奇虎科技有限公司 | 一种网络摄像机、网络摄像机的数据传输方法和系统 |
CN106603957A (zh) * | 2015-10-16 | 2017-04-26 | 鸿合科技有限公司 | 协同会议一体机及协同会议方法 |
CN105684422A (zh) * | 2016-01-18 | 2016-06-15 | 王晓光 | 一种视频网络会议的人物跟踪方法及系统 |
CN109696658B (zh) | 2017-10-23 | 2021-08-24 | 京东方科技集团股份有限公司 | 采集设备、声音采集方法、声源跟踪系统及其方法 |
CN108366216A (zh) * | 2018-02-28 | 2018-08-03 | 深圳市爱影互联文化传播有限公司 | 会议视频录制、记录及传播方法、装置及服务器 |
CN108259926A (zh) * | 2018-03-15 | 2018-07-06 | 田英 | 一种基于人物声音的访谈直播切换方法 |
EP3726842A1 (en) | 2019-04-16 | 2020-10-21 | Nokia Technologies Oy | Selecting a type of synchronization |
CN110620852A (zh) * | 2019-09-29 | 2019-12-27 | 深圳市旗华科技有限公司 | 一种ai全景视频会议摄像头系统及工作方法 |
CN114630072A (zh) * | 2022-03-22 | 2022-06-14 | 联想(北京)有限公司 | 处理方法、处理装置及采集装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201426153Y (zh) * | 2009-05-27 | 2010-03-17 | 中山佳时光电科技有限公司 | 用于视频会议智能摄像头控制系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4644555B2 (ja) * | 2005-07-27 | 2011-03-02 | 日本放送協会 | 映像音声合成装置及び遠隔体験共有型映像視聴システム |
CN101771814A (zh) * | 2009-12-29 | 2010-07-07 | 天津市亚安科技电子有限公司 | 具有声音识别定位功能的云台摄像机 |
-
2012
- 2012-08-09 CN CN201210283273.2A patent/CN103581606B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201426153Y (zh) * | 2009-05-27 | 2010-03-17 | 中山佳时光电科技有限公司 | 用于视频会议智能摄像头控制系统 |
Non-Patent Citations (1)
Title |
---|
基于麦克风阵列的MUSIC声源定位算法研究;殷作亮;《中国优秀硕士学位论文全文数据库》;20111215(第S1期);第11-14、18、21-25页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103581606A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103581606B (zh) | 一种多媒体采集装置和方法 | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
CN103841357A (zh) | 基于视频跟踪的麦克风阵列声源定位方法、装置及系统 | |
CN107820037B (zh) | 音频信号、图像处理的方法、装置和系统 | |
CN104240606B (zh) | 显示装置及显示装置观看角度的调节方法 | |
US10582117B1 (en) | Automatic camera control in a video conference system | |
CN108089152A (zh) | 一种设备控制方法、装置及系统 | |
CN107945625A (zh) | 一种英语发音测试与评价系统 | |
CN101567969B (zh) | 基于麦克风阵列声音制导的智能视频导播方法 | |
CN103152546B (zh) | 基于模式识别和延迟前馈控制的视频会议回声抑制方法 | |
CN107230476A (zh) | 一种自然的人机语音交互方法和系统 | |
CN103607550B (zh) | 一种根据观看者位置调整电视虚拟声道的方法及电视 | |
JP2021532403A (ja) | 光学式捕捉によるパーソナライズされたhrtf | |
CN105376515B (zh) | 用于视频通讯的通讯信息的呈现方法、装置及系统 | |
CN104378635B (zh) | 基于麦克风阵列辅助的视频感兴趣区域的编码方法 | |
US9591229B2 (en) | Image tracking control method, control device, and control equipment | |
CN109672853A (zh) | 基于视频监控的预警方法、装置、设备及计算机存储介质 | |
CN112396887B (zh) | 基于声源定位和面部检测的pbl课堂记录方法和系统 | |
CN105245811B (zh) | 一种录像方法及装置 | |
CN108389586A (zh) | 一种远程集音装置、监控装置及远程集音方法 | |
US20170345437A1 (en) | Voice receiving method and device | |
CN110503045A (zh) | 一种人脸定位方法及装置 | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
CN107124540A (zh) | 采集处理方法、装置及系统 | |
Sægrov et al. | Bagadus an integrated system for soccer analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100085 C, block 9, 3rd Street, Beijing, Haidian District, C612 Applicant after: Beijing horizon Technology Co.,Ltd. Address before: 100080, room 5026, Shen Chang building, No. 51, Zhichun Road, Beijing, Haidian District Applicant before: Beijing Boweikang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180907 |
|
CF01 | Termination of patent right due to non-payment of annual fee |