CN103581606A

CN103581606A - 一种多媒体采集装置和方法

Info

Publication number: CN103581606A
Application number: CN201210283273.2A
Authority: CN
Inventors: 孙敏刚; 赵照
Original assignee: BEIJING BVCOM TECHNOLOGY Co Ltd
Current assignee: BEIJING BVCOM TECHNOLOGY Co Ltd
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2014-02-12
Anticipated expiration: 2032-08-09
Also published as: CN103581606B

Abstract

本发明公开了一种多媒体采集装置和方法，属于多媒体领域。装置包括：音频采集单元，包括至少四个采集通道，用于采集发言者的发出的音频信号；音频分析单元，用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；视频同步单元，用于根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。本发明通过至少四通道对外部音场进行检测采集，并基于语音模型对所得的音场环境中的当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行音频和视频同步采集；且四个采集通道均衡设置，摄像头转动灵活，也通过多个通道扩大了音频采集的范围，从而采集立体效果的音频质量。

Description

一种多媒体采集装置和方法

技术领域

本发明涉及多媒体领域，尤其涉及一种多媒体采集装置和方法。

背景技术

随着传感器技术、电子技术和信号处理技术的飞速发展，视频会议已经成为公司之间交流通讯的最佳方式。采用视频会议，可以实现与多人同时进行通讯，人们还可以面对面讲话。在全球各地的办公室和教育机构，视频会议还能够用于学习、培训和与联系人会面，不需要进行旅行。视频会议不仅能够节省电话费，而且通过取消旅行还有助于改善环境和减少业务开支中安排员工外出开会的旅差费。

目前的视频会议系统往往将往往使用PTZ摄像机和音频采集系统综合使用，由PTZ摄像机的操控人控制摄像机摆动和变焦，从而捕捉发言者的特写镜头，这样远程的与会者就能清楚地看到发言者。但毕竟需要人为操控PTZ摄像机，难免造成不便。

VCON公司的VoiceFinder是一种基于音频定位技术的个人会议系统，将音频采集装置和摄像头整合在一起，插在笔记本电脑或者PC机上即可使用，该设备采集发言者的音频信息后，通过定位发言者位置调整摄像头的朝向从而进行视频采集。但由于该装置为便携式装置，摄像头的转动角度只能在既定范围内转动，且音频采集范围也有限，造成音频采集效果很差，往往带有噪声和回音。

发明内容

本发明的实施例提供了一种多媒体采集装置和方法，通过至少四通道对外部音场进行检测采集，根据所得的音场环境对当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行视频采集，从而使音频和视频同步进行采集。

本发明公开了一种多媒体采集装置，包括：

音频采集单元，包括至少四个采集通道，用于采集发言者的发出的音频信号；所述各采集通道在几何平面内均衡设置；

音频分析单元，用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；

视频同步单元，用于根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。

优选的，所述预置的语音模型由以下单元构建：

音频预处理单元，用于对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化；

音频建模单元，用于对量化后的特征量进行建模，得到语音模型。

优选的，所述音频预处理单元接收音频采集单元采集的音频信号，并将量化后的特征量发送至音频建模单元。

优选的，所述语音模型存储发言者的位移和各通道对应的音量值。

优选的，所述音频分析单元结合各采集通道对应的音量值进行分析，基于音场均衡策略在语音模型中实时确定发言者的位置信息。

优选的，所述音频采集单元中的各采集通道以摄像头为中心对称地进行设置。

本发明还公开了一种多媒体采集方法，包括至少四个采集通道，在几何平面内均衡设置，还包括如下步骤：

各采集通道分别采集发言者的发出的音频信号；

将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；

根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。

优选的，所述预置的语音模型构建时，对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化；

对量化后的特征量进行建模，得到语音模型。

优选的，所述方法还包括：结合各采集通道对应的音量值进行分析，基于音场均衡策略在语音模型中实时确定发言者的位置信息。

优选的，所述各采集通道以摄像头为圆心，均匀在圆周上进行设置。

本发明实施例提供的一种多媒体采集装置和方法，通过至少四通道对外部音场进行检测采集，并基于语音模型对所得的音场环境中的当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行视频采集，从而使音频和视频同步进行采集；且四个采集通道在几何平面内均衡设置，摄像头转动灵活，进行音频采集的多个通道扩大了音频采集的范围，从而采集到立体效果的音频质量。

附图说明

图1为本发明实施例一提供的一种多媒体采集装置的模块结构图；

图2为本发明实施例二提供的一种多媒体采集装置的场景示意图；

图3为本发明实施例一提供的一种多媒体采集方法的流程图。

具体实施方式

下面结合附图对本发明实施例一种多媒体采集装置和方法进行详细描述。

本发明公开了一种多媒体采集装置，如图1所示，包括：音频采集单元101、音频分析单元102、视频同步单元103、预置的语音模型104和摄像头105。音频采集单元101采集音频信息，并将采集到的音频信息发送至音频分析单元102，音频分析单元102结合预置的语音模型104进行分析，得到发言者对应的坐标；视频同步单元103根据发言者的坐标同步调整摄像头105，进而实现音频信息和摄像头摄取的视频信心进行同步。

本发明公开了一种多媒体采集装置，包括如下模块：

音频采集单元101，本实施例中，音频采集单元101包括四个采集通道，这四个采集通道以摄像头105为中心对称地均衡设置。音频采集单元101用于采集发言者的发出的音频信号；如图2所示，各采集通道分别在所固定的位置采集当前位置下发言者的音频数据。本实施例中，所述各采集通道以摄像头为圆心，均匀在圆周上进行设置，由于各采集通道位置不同，采集到音频数据对应的频率和振幅各有不同，正是这些差异的音频数据为被动声定位技术提供了计算依据，分别在时序上对各采集通道对应的音频数据进行跟踪、统计，通过时延估计法，从而得到不同时刻声源坐标，即发言者所在的位置信息。

所述预置的语音模型104由音频预处理单元和音频建模单元构建。

音频预处理单元，用于对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化。由于各采集通道的位置不同，降噪、量化后的音频数据必存在一定时间的顺时时延，对所述时延进行精确测量，结合各采集通道的位置坐标对应的几何关系即可根据被动声定位的原理对发言者的发声坐标进行计算，从而对发言者的相对位置进行量化。

音频建模单元，用于对量化后的特征量进行建模，得到语音模型。本实施例中，将同一时刻采集到的各音频信号中的特征值和发言者的相对位置进行结构化存储，所述语音模型可离线存储于设备本地，也可以通过网络端口将语音模型存储于云端。

音频分析单元102，用于将采集到的发言者的音频信号中的特征量在预置的语音模型104中进行匹配分析，实时定位发言者的位置信息。

语音模型离线存储于设备本地时，音频分析单元将采集到的音频信号中的特征值直接在本地的语音模型中基于音场均衡策略进行匹配，得到发言者的发声坐标，进而实时对发言者的坐标进行记录，实现发言者的跟踪，从而实时定位发言者的位置信息。语音模型通过网络端口将语音模型存储于云端时，音频分析单元将采集到的音频信号中的特征值通过网络端口在云端服务器端基于音场均衡策略进行分析匹配，同样得到发言者的发声坐标，而实时对发言者的坐标进行记录，实现发言者的跟踪，从而实时定位发言者的位置信息。

视频同步单元103，用于根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。

提取发言者的位置信息对应的极坐标系中的偏转角和极轴长，根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整，调整摄像头的偏转角度和焦距，从而使摄像头清晰地摄取发言者对应的视频信号。当然，发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。本实施例中，发言者的偏转角度的对应变化大于5度时，则摄像头相对偏转角进行对应的调整。

本发明还公开了一种多媒体采集方法对应的实施例，包括至少四个采集通道，在几何平面内均衡设置，如图3所示，还包括如下步骤：

步骤301、各采集通道分别采集发言者的发出的音频信号；

将本实施例中的四个采集通道以摄像头为中心对称地均衡设置。各采集通道采集发言者的发出的音频信号；各采集通道分别在所固定的位置采集当前位置下发言者的音频数据。本实施例中，所述各采集通道以摄像头为圆心，均匀在圆周上进行设置，由于各采集通道位置不同，采集到音频数据对应的频率和振幅各有不同，正是这些差异的音频数据为被动声定位技术提供了计算依据，分别在时序上对各采集通道对应的音频数据进行跟踪、统计，通过时延估计法，从而得到不同时刻声源坐标，即发言者所在的位置信息。

步骤302、将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；

优选的，所述预置的语音模型构建时，还包括：

步骤a、对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化；

由于各采集通道的位置不同，降噪、量化后的音频数据必存在一定时间的顺时时延，对所述时延进行精确测量，结合各采集通道的位置坐标对应的几何关系即可根据被动声定位的原理对发言者的发声坐标进行计算，从而对发言者的相对位置进行量化。

步骤b、对量化后的特征量进行建模，得到语音模型。本实施例中，将同一时刻采集到的各音频信号中的特征值和发言者的相对位置进行结构化存储。所述语音模型可离线存储于设备本地，也可以通过网络端口将语音模型存储于云端。

语音模型离线存储于设备本地时，将采集到的音频信号中的特征值直接在本地的语音模型中基于音场均衡策略进行匹配，得到发言者的发声坐标，进而实时对发言者的坐标进行记录，实现发言者的跟踪，从而实时定位发言者的位置信息。

语音模型通过网络端口将语音模型存储于云端时，将采集到的音频信号中的特征值通过网络端口在云端服务器端基于音场均衡策略进行分析匹配，同样得到发言者的发声坐标，而实时对发言者的坐标进行记录，实现发言者的跟踪，从而实时定位发言者的位置信息。

步骤303、根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。

本发明实施例提供的一种多媒体采集装置和方法，通过至少四通道对外部音场进行检测采集，并基于语音模型对所得的音场环境中的当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行视频采集，从而使音频和视频同步进行采集；且四个采集通道在几何平面内均衡设置，摄像头转动灵活，进行音频采集的多个通道扩大了音频采集的范围，从而采集到立体的音频质量。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多媒体采集装置，其特征在于，包括：

2.根据权利要求1所述的装置，其特征在于：所述预置的语音模型由以下单元构建：

3.根据权利要求2所述的装置，其特征在于：所述音频预处理单元接收音频采集单元采集的音频信号，并将量化后的特征量发送至音频建模单元。

4.根据权利要求1或2所述的装置，其特征在于：所述语音模型存储发言者的位移和各通道对应的音量值。

5.根据权利要求4所述的装置，其特征在于：所述音频分析单元结合各采集通道对应的音量值进行分析，基于音场均衡策略在语音模型中实时确定发言者的位置信息。

6.根据权利要求1所述的装置，其特征在于：所述音频采集单元中的各采集通道以摄像头为圆心，均匀在圆周上进行设置。

7.一种多媒体采集方法，其特征在于，包括至少四个采集通道，在几何平面内均衡设置，还包括如下步骤：

各采集通道分别采集发言者的发出的音频信号；

8.根据权利要求7所述的方法，其特征在于：所述预置的语音模型构建时，

对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化；

对量化后的特征量进行建模，得到语音模型。

9.根据权利要求7或8所述的方法，其特征在于：所述语音模型存储发言者的位移和各通道对应的音量值。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

结合各采集通道对应的音量值进行分析，基于音场均衡策略在语音模型中实时确定发言者的位置信息。

11.根据权利要求7所述的方法，其特征在于：所述各采集通道以摄像头为圆心，均匀在圆周上进行设置。