CN110890100A

CN110890100A - 语音增强、多媒体数据采集、播放方法、装置及监控系统

Info

Publication number: CN110890100A
Application number: CN201811051587.3A
Authority: CN
Inventors: 陈扬坤; 钱能锋; 陈展
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-03-17
Anticipated expiration: 2038-09-10
Also published as: CN110890100B

Abstract

本申请提供一种语音增强方法及装置、语音采集方法及装置、多媒体数据采集方法及装置、多媒体数据播放方法及装置、以及监控系统。其中，语音增强方法包括：确定基于麦克风阵列得到的多路频域音频数据；以及确定所述麦克风阵列中每个麦克风的坐标信息；根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；根据所述声源角度信息对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。本申请可以根据麦克风阵列中每个麦克风的坐标信息和多路频域音频数据，确定声源角度信息，从而精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰。

Description

语音增强、多媒体数据采集、播放方法、装置及监控系统

技术领域

本申请涉及语音增强技术领域，具体涉及一种语音增强方法及装置，一种语音采集方法及装置，一种多媒体数据采集方法及装置、一种多媒体数据播放方法及装置，以及一种监控系统。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号进行增强，以抑制、降低噪声干扰的技术。

相关技术提供的语音增强技术包括谱减法、维纳滤波法、卡尔曼滤波、小波变换等，这类算法通过时域、频域、小波变换域等滤波来抑制噪声，但实际取得的效果并不理想，例如，相关技术提供的一种通过盲源分离实现对语音的分离增强的方法，但该方法的实现方法算法复杂度高，在实际应用中会受限制，而且，分离出来的声音经常会出现分离不干净，严重影响听感。

发明内容

本申请实施例的目的是提供一种语音增强方法及装置，一种语音采集方法及装置，一种多媒体数据采集方法及装置、一种多媒体数据播放方法及装置，以及一种监控系统。

本申请实施例第一方面提供一种语音增强方法，包括：

确定基于麦克风阵列得到的多路频域音频数据；以及

确定所述麦克风阵列中每个麦克风的坐标信息；

根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。

本申请实施例第一方面的一个变更实施方式中，所述确定基于麦克风阵列得到的多路频域音频数据，包括：

获取采用麦克风阵列采集的多路时域音频数据；

对所述多路时域音频数据进行时频域变换，得到多路频域音频数据。

本申请实施例第一方面的另一个变更实施方式中，述对所述多路时域音频数据进行时频域变换，得到多路频域音频数据，包括：

对所述多路时域音频数据进行时域加窗处理和快速傅里叶变换处理，得到多路频域音频数据。

本申请实施例第一方面的再一个变更实施方式中，所述确定所述麦克风阵列中每个麦克风的坐标信息，包括：

从多媒体数据包中解析得到所述麦克风阵列中每个麦克风的坐标信息。

本申请实施例第一方面的又一个变更实施方式中，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，包括：

根据所述多路频域音频数据和所述每个麦克风的坐标信息，采用基于麦克风阵列的声源定位算法，确定声源相对于所述麦克风阵列的声源角度信息。

本申请实施例第一方面的又一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

本申请实施例第一方面的又一个变更实施方式中，所述对所述多路频域音频数据进行增强处理，包括：

采用超指向波束形成算法对所述多路频域音频数据进行增强处理，其中，所述超指向波束形成算法包括自适应波束形成算法。

本申请实施例第一方面的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

本申请实施例第一方面的又一个变更实施方式中，在所述得到增强的目标频域音频数据之后，还包括：

对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，得到目标时域音频数据；

输出所述目标时域音频数据。

本申请实施例第二方面提供一种语音增强装置，包括：

多路频域数据确定模块，用于确定基于麦克风阵列得到的多路频域音频数据；以及

第一坐标信息确定模块，用于确定所述麦克风阵列中每个麦克风的坐标信息；

第一声源角度确定模块，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

第一增强处理模块，用于根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。

本申请实施例第二方面的另一个变更实施方式中，所述多路频域数据确定模块，包括：

多路时域数据获取单元，用于获取采用麦克风阵列采集的多路时域音频数据；

时频域转换单元，用于对所述多路时域音频数据进行时频域变换，得到多路频域音频数据。

本申请实施例第二方面的再一个变更实施方式中，所述时频域转换单元，包括：

傅里叶变换子单元，用于对所述多路时域音频数据进行时域加窗处理和快速傅里叶变换处理，得到多路频域音频数据。

本申请实施例第二方面的又一个变更实施方式中，所述第一坐标信息确定模块，包括：

第一坐标信息确定单元，用于从多媒体数据包中解析得到所述麦克风阵列中每个麦克风的坐标信息。

本申请实施例第二方面的又一个变更实施方式中，所述第一声源角度确定模块，包括：

第一声源定位单元，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息，采用基于麦克风阵列的声源定位算法，确定声源相对于所述麦克风阵列的声源角度信息。

本申请实施例第二方面的又一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

本申请实施例第二方面的又一个变更实施方式中，所述第一增强处理模块，包括：

第一超指向增强单元，用于采用超指向波束形成算法对所述多路频域音频数据进行增强处理，其中，所述超指向波束形成算法包括自适应波束形成算法。

本申请实施例第二方面的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

本申请实施例第二方面的又一个变更实施方式中，所述装置，还包括：

快速傅里叶逆变换模块，用于对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，得到目标时域音频数据，并输出所述目标时域音频数据。

本申请实施例第三方面提供一种语音采集方法，包括：

获取采用麦克风阵列采集的多路时域音频数据；以及

确定所述麦克风阵列中每个麦克风的坐标信息；

根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

本申请实施例第三方面的一个变更实施方式中，在所述根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还包括：

确定所述麦克风阵列中的麦克风的数量；

所述根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包，包括：

根据所述多路时域音频数据、所述各所述麦克风的坐标信息和所述麦克风的数量，生成多媒体数据包。

本申请实施例第四方面提供一种语音采集装置，包括：

多路时域数据获取模块，用于获取采用麦克风阵列采集的多路时域音频数据；以及

第一麦克坐标确定模块，用于确定所述麦克风阵列中每个麦克风的坐标信息；

音频数据打包模块，用于根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

本申请实施例第四方面的一个变更实施方式中，所述装置，还包括：

第一麦克数量确定模块，用于确定所述麦克风阵列中的麦克风的数量；

所述音频数据打包模块，包括：

音频数据打包单元，用于根据所述多路时域音频数据、所述各所述麦克风的坐标信息和所述麦克风的数量，生成多媒体数据包。

本申请实施例第五方面提供一种多媒体数据采集方法，包括：

获取采用摄像装置采集的视频数据；以及，

获取与所述视频数据同步的、采用麦克风阵列采集的多路时域音频数据；

确定所述麦克风阵列中每个麦克风的坐标信息；

根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

本申请实施例第五方面的一个变更实施方式中，在所述根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还包括：

确定所述麦克风阵列中的麦克风的数量；

所述根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包，包括：

根据所述视频数据、所述多路时域音频数据、所述各所述麦克风的坐标信息和所述麦克风的数量，生成多媒体数据包。

本申请实施例第六方面提供一种多媒体数据采集装置，包括：

视频数据获取模块，用于获取采用摄像装置采集的视频数据；

音频数据获取模块，用于获取与所述视频数据同步的、采用麦克风阵列采集的多路时域音频数据；

第二麦克坐标确定模块，用于确定所述麦克风阵列中每个麦克风的坐标信息；

多媒体数据打包模块，用于根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

本申请实施例第六方面的一个变更实施方式中，所述装置，还包括：

第二麦克数量确定模块，用于确定所述麦克风阵列中的麦克风的数量；

所述多媒体数据打包模块，包括：

资源数据打包单元，用于根据所述视频数据、所述多路时域音频数据、所述各所述麦克风的坐标信息和所述麦克风的数量，生成多媒体数据包。

本申请实施例第七方面提供一种多媒体数据播放方法，包括：

解析多媒体数据包，得到视频数据和多路时域音频数据，其中，所述多路时域音频数据是基于麦克风阵列得到的；

将所述多路时域音频数据转换为多路频域音频数据；

获取所述麦克风阵列中每个麦克风的坐标信息；

根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据；

将所述目标频域音频数据转换为目标时域音频数据；

同步播放所述视频数据和所述目标时域音频数据。

本申请实施例第七方面的一个变更实施方式中，所述将所述多路时域音频数据转换为多路频域音频数据，包括：

本申请实施例第七方面的另一个变更实施方式中，所述确定所述麦克风阵列中每个麦克风的坐标信息，包括：

从所述多媒体数据包中解析得到所述麦克风阵列中每个麦克风的坐标信息。

本申请实施例第七方面的再一个变更实施方式中，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，包括：

本申请实施例第七方面的又一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

本申请实施例第七方面的又一个变更实施方式中，所述对所述多路频域音频数据进行增强处理，包括：

本申请实施例第七方面的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

本申请实施例第七方面的又一个变更实施方式中，所述将所述目标频域音频数据转换为目标时域音频数据，包括：

对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，得到目标时域音频数据。

本申请实施例第八方面提供一种多媒体数据播放装置，包括：

数据包解析模块，用于解析多媒体数据包，得到视频数据和多路时域音频数据，其中，所述多路时域音频数据是基于麦克风阵列得到的；

时频域转换模块，用于将所述多路时域音频数据转换为多路频域音频数据；

第二坐标信息确定模块，用于获取所述麦克风阵列中每个麦克风的坐标信息；

第二声源角度确定模块，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

第二增强处理模块，用于根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据；

时频域逆变换模块，用于将所述目标频域音频数据转换为目标时域音频数据；

音视频播放模块，用于同步播放所述视频数据和所述目标时域音频数据。

本申请实施例第八方面的一个变更实施方式中，所述时频域转换模块，包括：

傅里叶变换单元，用于对所述多路时域音频数据进行时域加窗处理和快速傅里叶变换处理，得到多路频域音频数据。

本申请实施例第八方面的另一个变更实施方式中，所述第二坐标信息确定模块，包括：

第二坐标信息确定单元，用于从所述多媒体数据包中解析得到所述麦克风阵列中每个麦克风的坐标信息。

本申请实施例第八方面的再一个变更实施方式中，所述第二声源角度确定模块，包括：

第二声源定位单元，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息，采用基于麦克风阵列的声源定位算法，确定声源相对于所述麦克风阵列的声源角度信息。

本申请实施例第八方面的又一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

本申请实施例第八方面的又一个变更实施方式中，所述第二增强处理模块，包括：

第二超指向增强单元，用于采用超指向波束形成算法对所述多路频域音频数据进行增强处理，其中，所述超指向波束形成算法包括自适应波束形成算法。

本申请实施例第八方面的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

本申请实施例第八方面的又一个变更实施方式中，所述时频域逆变换模块，包括：

快速傅里叶逆变换单元，用于对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，得到目标时域音频数据。

本申请实施例第九方面提供一种监控系统，包括：麦克风阵列、摄像装置、监控端处理器和播放器；

所述麦克风阵列和所述摄像装置均与所述监控端处理器连接，且上述三者均设于监控场所中，所述监控端处理器与所述播放器连接；

所述麦克风阵列用于对所述监控场所进行语音采集，并输出多路时域音频数据和所述麦克风阵列中各麦克风的坐标信息；

所述摄像装置用于对所述监控场所进行视频采集，并输出视频数据；

所述监控端处理器用于根据所述视频数据、所述多路时域音频数据和所述各麦克风的坐标信息，生成多媒体数据包；

所述播放器用于播放所述多媒体数据包。

本申请实施例第九方面的一个变更实施方式中，所述播放器具体用于解包所述多媒体数据包得到多路时域音频数据和视频数据，将所述多路时域音频数据转换为多路频域音频数据，并根据所述多路频域音频数据和所述麦克风阵列中每个麦克风的坐标信息确定声源角度信息，以及根据所述声源角度信息对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据，在将所述目标频域音频数据转换为目标时域音频数据后，同步播放所述视频数据和所述目标时域音频数据。

本申请实施例第九方面的一个变更实施方式中，所述播放器具体通过对所述多路时域音频数据进行时域加窗处理和快速傅里叶变换处理，将所述多路时域音频数据转换为多路频域音频数据。

本申请实施例第九方面的另一个变更实施方式中，所述播放器具体根据所述多路频域音频数据和所述每个麦克风的坐标信息，采用基于麦克风阵列的声源定位算法，确定声源相对于所述麦克风阵列的声源角度信息。

本申请实施例第九方面的再一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：基于到达时间差的声源定位算法。

本申请实施例第九方面的又一个变更实施方式中，所述超指向波束形成算法，包括：自适应波束形成算法。

本申请实施例第九方面的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

本申请实施例第九方面的又一个变更实施方式中，所述播放器具体通过对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，将所述目标频域音频数据转换为目标时域音频数据。

本申请实施例第一方面提供的语音增强方法，包括：确定基于麦克风阵列得到的多路频域音频数据；以及确定所述麦克风阵列中每个麦克风的坐标信息；根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；根据所述声源角度信息，采用超指向波束形成算法对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。相较于相关技术，本申请实施例第一方面提供的语音增强方法，可以根据麦克风阵列中每个麦克风的坐标信息和多路频域音频数据，确定声源角度信息，进而根据所述声源角度信息，采用超指向波束形成算法对所述多路频域音频数据进行增强处理，其中，由于确定了声源角度信息，因而，可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，本方案还具有算法简单、处理速度快等优点。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种语音增强方法的流程图；

图2示出了本申请的一些实施方式所提供的一种具体的语音增强方法的流程图；

图3示出了本申请的一些实施方式所提供的一种语音增强装置的示意图；

图4示出了本申请的一些实施方式所提供的一种语音采集方法的流程图；

图5示出了本申请的一些实施方式所提供的一种语音采集装置的示意图；

图6示出了本申请的一些实施方式所提供的一种多媒体数据采集方法的流程图；

图7示出了本申请的一些实施方式所提供的一种多媒体数据包的数据结构示意图；

图8示出了本申请的一些实施方式所提供的一种多媒体数据采集装置的示意图；

图9示出了本申请的一些实施方式所提供的一种多媒体数据播放方法的流程图；

图10示出了本申请的一些实施方式所提供的一种多媒体数据播放装置的示意图；

图11示出了本申请的一些实施方式所提供的一种监控系统的示意图；

图12示出了本申请的一些实施方式所提供的一种监控系统的工作流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施方式提供了一种语音增强方法及装置，一种语音采集方法及装置，一种多媒体数据采集方法及装置、一种多媒体数据播放方法及装置，以及一种监控系统。下面结合附图对本申请的实施例进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种语音增强方法的流程图，如图1所示，所述语音增强方法，包括以下步骤：

步骤S101：确定基于麦克风阵列得到的多路频域音频数据。

本申请实施例中，所述麦克风阵列是指利用多个麦克风形成的不同拓扑结构的阵列，所述麦克风阵列可以是一字线形、十字、米字、环形、矩形、平面、螺旋、球形及无规则形状等任意阵列。所述麦克风阵列的阵元数量，即麦克风的数量，可以从2个到上千个不等。

所述多路频域音频数据，是指基于麦克风阵列形成的多路的频域音频数据，每个麦克风可采集一路音频数据，所述频域音频数据是指频域的音频数据，由于声源发出的音频为时域数据即时域音频数据，因此，需要对时域音频数据进行傅里叶变换等时频域变换处理后，将时域音频数据转换为频域音频数据，在本申请实施例的一些实施方式中，所述确定基于麦克风阵列得到的多路频域音频数据，可以包括：

获取采用麦克风阵列采集的多路时域音频数据；

其中，对所述多路时域音频数据进行时频域变换，得到多路频域音频数据，可以包括：

上述实施方式中，时域加窗处理可以起到滤波的作用，以便于消除部分噪声、得到更干净的音频数据，而快速傅里叶变换(fast Fourier transform,IFFT)可以极为快速地完成时域信号向频域信号的转换，有利于整体上快速地实现语音增强。

步骤S102：确定所述麦克风阵列中每个麦克风的坐标信息。

其中，所述坐标信息可以包括三维坐标信息。本申请实施例中，所述麦克风阵列中每个麦克风的坐标信息可以从语音采集装置获取，也可以是携带于多媒体数据包中，在本步骤中可以通过解包所述多媒体数据包得到所述麦克风阵列中每个麦克风的坐标信息。在本申请实施例的一些实施方式中，所述确定所述麦克风阵列中每个麦克风的坐标信息，可以包括：

其中，所述多媒体数据包可以是音频数据包、也可以是包含音频数据和视频数据的多媒体数据包，请参考图7，其示出了本申请的一些实施方式所提供的一种多媒体数据包的数据结构示意图，如图所示，所述多媒体数据包，可以采用视频帧标志、摄像机数量、摄像机坐标信息、视频数据、音频帧标志、麦克风数量、麦克风坐标信息和音频数据打包编码生成。其中，所述摄像机数量、摄像机坐标信息、麦克风数量和麦克风坐标信息均有利于更加精确地确定声源的声源角度信息。

需要说明的是，步骤S102可以在步骤S101之后执行，也可以在步骤S101之前执行，还可以并行执行，本申请实施例并不限定其顺序。

步骤S103：根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息。

本步骤S103，可以通过声源定位技术实现，所述声源定位技术是指基于麦克风阵列，通过算法估计出声源空间位置的技术，本申请实施例中，可以采用相关技术中提供的任意基于麦克风阵列的声源定位技术直接或变更后实施，其均应在本申请的保护范围之内。

在一些实施方式中，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，可以包括：

其中，所述基于麦克风阵列的声源定位算法，可以包括：基于到达时间差的声源定位算法。所述到达时间差，是指声源发出的声音到达所述麦克风阵列中的不同麦克风的时间差，利用该时间差和各个麦克风的位置信息(如坐标信息)，即可精确地估算出声源的方位信息。通过本实施方式，采用基于到达时间差的声源定位算法，可以精确地估算声源相对于所述麦克风阵列的声源角度信息，可以更为准确地增强该声源角度信息所表示的方向即声源所在方向的声音。

在前述实施方式的基础上，在一些变更实施方式中，还可以确定所述麦克风阵列中麦克风的数量，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，可以包括：

根据所述多路频域音频数据、所述麦克风阵列中麦克风的数量和所述每个麦克风的坐标信息，采用基于麦克风阵列的声源定位算法，确定声源相对于所述麦克风阵列的声源角度信息。

步骤S104：根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。

在一些实施方式中，所述对所述多路频域音频数据进行增强处理，可以包括：采用超指向波束形成算法对所述多路频域音频数据进行增强处理

其中，波束形成算法，是指基于阵列麦克风，对某一方向的声音形成波束，增强该方向的声音的算法。超指向波束形成算法能够获得比相同尺度半波长间隔的标准阵列更高的波束形成增益，得到超指向性的波束，因此，根据所述声源角度信息可以得到更高增益的增强波束，提升语音增强效果和质量。

在一些实施方式中，所述超指向波束形成算法，可以包括：自适应波束形成算法。本申请实施例可以采用相关技术提供的任意自适应波束形成算法直接或变更后实施，例如，可以采用闭环算法、也可以采用开环算法，可以采用非盲算法，也可以采用盲算法，本发明实施例不作限定。利用自适应波束形成算法，能够适应各种环境、因素的变化，实时的将权集调整到最佳位置附近，快速、稳定地形成波束，具有算法简单、性能可靠的优点。

在一些具体的实施方式中，所述自适应波束形成算法，可以包括：最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)算法。通过本实施方式，可以精确地将声源角度信息所表示的方向的声音进行分离和增强，且兼具算法简单、稳定可靠的优点。

考虑到，频域音频数据需要转换为时域音频数据后才可播放，因此，在一些实施方式中，在所述得到增强的目标频域音频数据之后，还包括：

对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，得到目标时域音频数据，并输出所述目标时域音频数据。

其中，进行重叠相加处理的算法可以采用OLA(Overlap-and-Add,OLA)重叠叠加算法，具有简单、高效的优点。快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)同样具有处理高速、高效的优点。

通过上述实施方式，可以将目标频域音频数据需要转换为目标时域音频数据后进行播放、传输或存储。

请参考图2，其示出了本申请的一些实施方式所提供的一种具体的语音增强方法的流程图，由于图中相关概念已在前述实施例说明中进行了详细说明，因此，不再详细赘述，请参照图2所示的流程图对本申请实施例进行理解。

需要说明的是，本申请实施例所提供的语音增强方法，其执行主体可以为具备语音播放功能的播放设备，例如音箱、耳机、手机、笔记本电脑、平板电脑、台式机电脑、行车记录仪、虚拟现实设备、增强现实设备等，以在播放采用麦克风阵列采集的音频数据时，对声源的语音进行针对性的增强处理；所述语音增强方法的执行主体也可以是具有语音采集功能的终端设备，例如录音笔、监控摄像机、监控终端、录像机、行车记录仪、手机、平板电脑、笔记本电脑等，以在利用麦克风阵列采集得到音频数据后，实时地对其进行语音增强处理，然后将语音增强处理后的音频数据进行存储或输出，这样，利用普通的音频播放设备即可播放所述语音增强处理后的音频数据，得到清晰的、增强后的声音。

以上，为本申请实施例所提供的语音增强方法的示例性说明，相较于相关技术，本申请实施例提供的语音增强方法，可以根据麦克风阵列中每个麦克风的坐标信息和多路频域音频数据，确定声源角度信息，进而根据所述声源角度信息，自动采用超指向波束形成算法对所述多路频域音频数据进行增强处理，其中，由于确定了声源角度信息，因而，可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，本方案还具有算法简单、处理速度快等优点。此外，本申请实施例不需要用户指定需要增强的方向，而是可以自动计算声源所在的方向，并直接增强该方向的声音。

在上述的实施例中，提供了一种语音增强方法，与之相对应的，本申请还提供一种语音增强装置。本申请实施例提供的语音增强装置可以实施上述语音增强方法，该语音增强装置可以通过软件、硬件或软硬结合的方式来实现。例如，该语音增强装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图3，其为本申请实施方式所提供的一种语音增强装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图3所示，本申请实施例提供的一种语音增强装置10，包括：

多路频域数据确定模块101，用于确定基于麦克风阵列得到的多路频域音频数据；以及

第一坐标信息确定模块102，用于确定所述麦克风阵列中每个麦克风的坐标信息；

第一声源角度确定模块103，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

第一增强处理模块104，用于根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据。

在本申请实施例的另一个变更实施方式中，所述多路频域数据确定模块101，包括：

在本申请实施例的再一个变更实施方式中，所述时频域转换单元，包括：

在本申请实施例的又一个变更实施方式中，所述第一坐标信息确定模块102，包括：

在本申请实施例的又一个变更实施方式中，所述第一声源角度确定模块103，包括：

在本申请实施例的又一个变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

在本申请实施例的又一个变更实施方式中，所述第一增强处理模块104，包括：

在本申请实施例的又一个变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

在本申请实施例的又一个变更实施方式中，所述装置，还包括：

本申请实施例提供的语音增强装置10，与本申请前述实施例提供的语音增强方法出于相似的发明构思，至少具有以下有益效果：可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，本方案还具有算法简单、处理速度快等优点。此外，本申请实施例不需要用户指定需要增强的方向，而是可以自动计算声源所在的方向，并直接增强该方向的声音。

本申请实施例还提供一种与前述实施例所提供的语音增强方法对应的语音采集方法，所述语音采集方法与所述语音增强方法出于相似的发明构思，相关内容请参照上述关于语音增强方法的实施例说明，部分内容不再赘述。

请参考图4，其示出了本申请的一些实施方式所提供的一种语音采集方法的流程图，所述语音采集方法，包括以下步骤：

步骤S201：获取采用麦克风阵列采集的多路时域音频数据；

步骤S202：确定所述麦克风阵列中每个麦克风的坐标信息；

需要说明的是，步骤S202可以在步骤S201之后执行，也可以在步骤S201之前执行，还可以并行执行，本申请实施例并不限定其顺序。

步骤S203：根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

在一些变更实施方式中，在所述根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还可以包括：

确定所述麦克风阵列中的麦克风的数量；

本申请实施例提供的语音采集方法，与本申请前述实施例提供的语音增强方法出于相似的发明构思，至少具有以下有益效果：通过采用麦克风阵列采集多路时域音频数据，并确定所述麦克风阵列中每个麦克风的坐标信息，以及根据所述多路时域音频数据和所述麦克风的坐标信息生成多媒体数据包，从而可以生成含有所述多路时域音频数据和所述麦克风的坐标信息的多媒体数据包，有助于播放设备在播放所述多媒体数据包时，根据所述麦克风阵列中每个麦克风的坐标信息和所述多路时域音频数据更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好。

在上述的实施例中，提供了一种语音采集方法，与之相对应的，本申请还提供一种语音采集装置。本申请实施例提供的语音采集装置可以实施上述语音采集方法，该语音采集装置可以通过软件、硬件或软硬结合的方式来实现。例如，该语音采集装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图5，其为本申请实施方式所提供的一种语音采集装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图5所示，本申请实施例提供的一种语音采集装置20，包括：

多路时域数据获取模块201，用于获取采用麦克风阵列采集的多路时域音频数据；以及

第一麦克坐标确定模块202，用于确定所述麦克风阵列中每个麦克风的坐标信息；

音频数据打包模块203，用于根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

在一些变更实施方式中，所述装置20，还包括：

所述音频数据打包模块203，包括：

音频数据打包单元，用于根据所述多路时域音频数据、所述各所述麦克风坐标信息和所述麦克风的数量，生成多媒体数据包。

本申请实施例提供的语音采集装置20，与本申请前述实施例提供的语音采集方法出于相似的发明构思，至少具有以下有益效果：利用所述多路时域数据获取模块、第一麦克坐标确定模块和所述音频数据打包模块，可以生成含有多路时域音频数据和麦克风阵列中每个麦克风的坐标信息的多媒体数据包，有助于播放设备在播放所述多媒体数据包时，根据所述麦克风阵列中每个麦克风的坐标信息和所述多路时域音频数据更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好。

本申请实施例还提供一种与前述实施例所提供的语音采集方法相应的多媒体数据采集方法，所述多媒体数据采集方法与所述语音采集方法出于相似的发明构思，相关内容请参照上述关于语音采集方法的实施例说明，部分内容不再赘述。

请参考图6，其示出了本申请的一些实施方式所提供的一种多媒体数据采集方法的流程图，所述多媒体数据采集方法，包括以下步骤：

步骤S301：获取采用摄像装置采集的视频数据；

步骤S302：获取与所述视频数据同步的、采用麦克风阵列采集的多路时域音频数据；该步骤S302可与步骤S301同步执行，所述同步执行是指二者在执行时的时钟是同步的。

步骤S303：确定所述麦克风阵列中每个麦克风的坐标信息；

步骤S304：根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

本申请实施例中，所述多媒体数据采集方法的执行主体可以包括视频监控设备，具体的，可以包括具有语音采集功能的视频监控设备，通过同步采集监控场所内的视频数据和多路时域音频数据，以及确定用于语音采集的麦克风阵列中每个麦克风的坐标信息，从而生成多媒体数据包。此外，所述多媒体数据采集方法的执行主体也可以包括具备语音和视频采集功能的终端设备，例如手机、平板电脑、笔记本电脑、录像机、行车记录仪等等，其均在本申请的保护范围之内。

在一些变更实施方式中，在所述根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还可以包括：

确定所述麦克风阵列中的麦克风的数量；

所述根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包，可以包括：

请参考图7，其示出了本申请的一些实施方式所提供的一种多媒体数据包的数据结构示意图，如图所示，所述多媒体数据包，可以采用视频帧标志、摄像机数量、摄像机坐标信息、视频数据、音频帧标志、麦克风数量、麦克风坐标信息和音频数据打包编码生成。其中，所述摄像机数量、摄像机坐标信息、麦克风数量和麦克风坐标信息均有利于更加精确地确定声源的声源角度信息。

需要说明的是，本申请实施例中，步骤S301、步骤S302和步骤S303的顺序可以任意调整，本申请实施例对上述步骤的顺序并不限定。

本申请实施例提供的多媒体数据采集方法，与本申请前述实施例提供的语音采集方法出于相似的发明构思，至少具有以下有益效果：通过采用麦克风阵列采集多路时域音频数据，并确定所述麦克风阵列中每个麦克风的坐标信息，以及根据所述多路时域音频数据、所述麦克风阵列中每个麦克风的坐标信息和视频数据生成多媒体数据包，从而可以生成含有所述多路时域音频数据、所述麦克风阵列中每个麦克风的坐标信息和视频数据的多媒体数据包，有助于播放设备在播放所述多媒体数据包时，根据所述麦克风阵列中每个麦克风的坐标信息和所述多路时域音频数据更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好。

在上述的实施例中，提供了一种多媒体数据采集方法，与之相对应的，本申请还提供一种多媒体数据采集装置。本申请实施例提供的多媒体数据采集装置可以实施上述多媒体数据采集方法，该多媒体数据采集装置可以通过软件、硬件或软硬结合的方式来实现。例如，该多媒体数据采集装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图8，其为本申请实施方式所提供的一种多媒体数据采集装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图8所示，本申请实施例提供的一种多媒体数据采集装置30，包括：

视频数据获取模块301，用于获取采用摄像装置采集的视频数据；

音频数据获取模块302，用于获取与所述视频数据同步的、采用麦克风阵列采集的多路时域音频数据；

第二麦克坐标确定模块303，用于确定所述麦克风阵列中每个麦克风的坐标信息；

多媒体数据打包模块304，用于根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包。

在一些变更实施方式中，所述装置30，还可以包括：

所述多媒体数据打包模块，可以包括：

本申请实施例提供的多媒体数据采集装置30，与本申请前述实施例提供的多媒体数据采集方法出于相似的发明构思，至少具有以下有益效果：利用所述视频数据获取模块、音频数据获取模块、第二麦克坐标确定模块和多媒体数据打包模块，可以生成含有多路时域音频数据和麦克风阵列中每个麦克风的坐标信息的多媒体数据包，有助于播放设备在播放所述多媒体数据包时，根据所述麦克风阵列中每个麦克风的坐标信息和所述多路时域音频数据更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好。

本申请实施例还提供一种与前述实施例所提供的语音增强方法相应的多媒体数据播放方法，所述多媒体数据播放方法与所述语音增强方法出于相似的发明构思，相关内容请参照上述关于语音增强方法的实施例说明，部分内容不再赘述。

请参考图9，其示出了本申请的一些实施方式所提供的一种多媒体数据播放方法的流程图，所述多媒体数据播放方法的执行主体，可以是兼具语音播放功能和视频播放功能的终端设备，所述多媒体数据播放方法，可以包括以下步骤：

步骤S401：解析多媒体数据包，得到视频数据和多路时域音频数据，其中，所述多路时域音频数据是基于麦克风阵列得到的；

步骤S402：将所述多路时域音频数据转换为多路频域音频数据；

步骤S403：获取所述麦克风阵列中每个麦克风的坐标信息；

步骤S404：根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

步骤S405：根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据；

步骤S406：将所述目标频域音频数据转换为目标时域音频数据；

步骤S407：同步播放所述视频数据和所述目标时域音频数据。

其中，同步播放是指将所述视频数据和所述目标时域音频数据的播放时间轴对齐后进行播放，以确保声画同步。

在本申请实施例的一些变更实施方式中，所述将所述多路时域音频数据转换为多路频域音频数据，可以包括：

在本申请实施例的另一些变更实施方式中，所述确定所述麦克风阵列中每个麦克风的坐标信息，可以包括：

在本申请实施例的再一些变更实施方式中，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，可以包括：

在本申请实施例的又一些变更实施方式中，所述基于麦克风阵列的声源定位算法，可以包括：

基于到达时间差的声源定位算法。

在本申请实施例的又一些变更实施方式中，所述对所述多路频域音频数据进行增强处理，包括：

在本申请实施例的又一些变更实施方式中，所述超指向波束形成算法，可以包括：最小方差无失真响应算法。

在本申请实施例的又一些变更实施方式中，所述将所述目标频域音频数据转换为目标时域音频数据，可以包括：

本申请实施例提供的多媒体数据播放方法，与本申请前述实施例提供的语音增强方法出于相似的发明构思，至少有以下有益效果：可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，本方案还具有算法简单、处理速度快等优点。此外，本申请实施例不需要用户指定需要增强的方向，而是可以自动计算声源所在的方向，并直接增强该方向的声音。

在上述的实施例中，提供了一种多媒体数据播放方法，与之相对应的，本申请还提供一种多媒体数据播放装置。本申请实施例提供的多媒体数据播放装置可以实施上述多媒体数据播放方法，该多媒体数据播放装置可以通过软件、硬件或软硬结合的方式来实现。例如，该多媒体数据播放装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图10，其为本申请实施方式所提供的一种多媒体数据播放装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图10所示，本申请实施例提供的一种多媒体数据播放装置40，包括：

数据包解析模块401，用于解析多媒体数据包，得到视频数据和多路时域音频数据，其中，所述多路时域音频数据是基于麦克风阵列得到的；

时频域转换模块402，用于将所述多路时域音频数据转换为多路频域音频数据；

第二坐标信息确定模块403，用于获取所述麦克风阵列中每个麦克风的坐标信息；

第二声源角度确定模块404，用于根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息；

第二增强处理模块405，用于根据所述声源角度信息，对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据；

时频域逆变换模块406，用于将所述目标频域音频数据转换为目标时域音频数据；

音视频播放模块407，用于同步播放所述视频数据和所述目标时域音频数据。

在本申请实施例的一些变更实施方式中，所述时频域转换模块402，包括：

在本申请实施例的另一些变更实施方式中，所述第二坐标信息确定模块403，包括：

在本申请实施例的再一些变更实施方式中，所述第二声源角度确定模块404，包括：

在本申请实施例的又一些变更实施方式中，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

在本申请实施例的又一些变更实施方式中，所述第二增强处理模块405，包括：

在本申请实施例的又一些变更实施方式中，所述自适应波束形成算法，包括：最小方差无失真响应算法。

在本申请实施例的又一些变更实施方式中，所述时频域逆变换模块406，包括：

本申请实施例提供的多媒体数据播放装置40，与本申请前述实施例提供的多媒体数据播放方法出于相似的发明构思至少有以下有益效果：可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，本方案还具有算法简单、处理速度快等优点。此外，本申请实施例不需要用户指定需要增强的方向，而是可以自动计算声源所在的方向，并直接增强该方向的声音。

本申请实施例还提供一种监控系统，请参照图11，其示出了本申请的一些实施方式所提供的一种监控系统的示意图，所述监控系统与本申请前述实施例提供的语音增强方法及装置、语音采集方法及装置、多媒体数据采集方法及装置和多媒体数据播放方法及装置出于相似的发明构思，因此，相关内容可参照前述实施例说明进行理解，部分内容不再赘述。如图11所述，所述监控系统，包括：麦克风阵列51、摄像装置52、监控端处理器53和播放器54；

所述麦克风阵列51和所述摄像装置52均与所述监控端处理器53连接，且上述三者均设于监控场所中，所述监控端处理器53与所述播放器54连接；

所述麦克风阵列51用于对所述监控场所进行语音采集，并输出多路时域音频数据和所述麦克风阵列中各麦克风的坐标信息；

所述摄像装置52用于对所述监控场所进行视频采集，并输出视频数据；

所述监控端处理器53用于根据所述视频数据、所述多路时域音频数据和所述各麦克风的坐标信息，生成多媒体数据包；

所述播放器54用于播放所述多媒体数据包。

在本申请实施例的一些变更实施方式中，所述播放器54具体用于解包所述多媒体数据包得到多路时域音频数据和视频数据，将所述多路时域音频数据转换为多路频域音频数据，并根据所述多路频域音频数据和所述麦克风阵列51中每个麦克风的坐标信息确定声源角度信息，以及根据所述声源角度信息，采用超指向波束形成算法对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据，在将所述目标频域音频数据转换为目标时域音频数据后，同步播放所述视频数据和所述目标时域音频数据。

在本申请实施例的一些变更实施方式中，所述播放器54具体通过对所述多路时域音频数据进行时域加窗处理和快速傅里叶变换处理，将所述多路时域音频数据转换为多路频域音频数据。

在本申请实施例的另一些变更实施方式中，所述播放器54具体根据所述多路频域音频数据和所述每个麦克风的坐标信息，采用基于麦克风阵列51的声源定位算法，确定声源相对于所述麦克风阵列51的声源角度信息。

在本申请实施例的再一些变更实施方式中，所述基于麦克风阵列51的声源定位算法，包括：基于到达时间差的声源定位算法。

在本申请实施例的又一些变更实施方式中，所述超指向波束形成算法，包括：自适应波束形成算法。

在本申请实施例的又一些变更实施方式中，所述播放器54具体通过对所述目标频域音频数据进行重叠相加处理和快速傅里叶逆变换处理，将所述目标频域音频数据转换为目标时域音频数据。

请参照图12，其示出了本申请的一些实施方式所提供的一种监控系统的工作流程图，如图所示，所述监控系统包括监控终端50和播放器54，所述监控终端50上设有麦克风阵列51、摄像装置52和监控端处理器53，所述监控系统的工作流程如下：一方面，由麦克风阵列51进行声音采集，以及对采集的声音进行音频编码，另一方面，由摄像装置52进行视频采集，以及对采集的视频进行视频编码，然后，所述监控端处理器53将编码后的音频和视频进行打包，得到多媒体数据包；所述播放器54在获取到所述多媒体数据包并对其进行解包后，一方面进行视频解码，另一方面进行声音解码，并利用对所述多媒体数据包进行解包得到的麦克风阵列51中的麦克风坐标信息，对解码后的声音进行语音增强处理，然后将解码后的视频和语音增强处理后的音频进行同步播放。

其中，所述监控终端50可以为安防前端设备如监控摄像头、网络摄像机等。所述播放器54可以采用任意具有视频、音频播放功能的终端设备实现，例如，所述播放器54可以但不限于是手机、平板电脑、笔记本电脑、台式机电脑、行车记录仪等。

需要说明的是，所述监控终端50和播放器54可以是分离设置的，两者可以通过有线方式或无线通信方式进行通信连接，所述监控终端50和播放器54可以组成网络监控设备，从而可以实现远程监控；所述监控终端50和播放器54也可以是一体设计的，相应的，所述监控系统可以为兼具监控功能和播放功能的一体机设备，例如行车记录仪等。

本申请实施例所提供的监控系统，与本申请前述实施例提供的语音增强方法及装置、语音采集方法及装置、多媒体数据采集方法及装置和多媒体数据播放方法及装置出于相似的发明构思，至少具有以下有益效果：基于所述麦克风阵列，可以生成含有多路时域音频数据和麦克风阵列中每个麦克风的坐标信息的多媒体数据包，相应的，针对所述多媒体数据包，所述播放器可以更加精准地对声源所发出的语音进行针对性地增强，使得增强后的音频数据播放起来更加清晰、效果更好，此外，所述监控系统还具有算法简单、处理速度快等优点。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种语音增强方法，其特征在于，包括：

确定基于麦克风阵列得到的多路频域音频数据；以及

确定所述麦克风阵列中每个麦克风的坐标信息；

2.根据权利要求1所述的方法，其特征在于，所述确定基于麦克风阵列得到的多路频域音频数据，包括：

获取采用麦克风阵列采集的多路时域音频数据；

3.根据权利要求2所述的方法，其特征在于，所述对所述多路时域音频数据进行时频域变换，得到多路频域音频数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述麦克风阵列中每个麦克风的坐标信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

7.根据权利要求1所述的方法，其特征在于，所述对所述多路频域音频数据进行增强处理，包括：

8.根据权利要求7所述的方法，其特征在于，所述自适应波束形成算法，包括：最小方差无失真响应算法。

9.根据权利要求1所述的方法，其特征在于，在所述得到增强的目标频域音频数据之后，还包括：

10.一种语音增强装置，其特征在于，包括：

11.一种语音采集方法，其特征在于，包括：

获取采用麦克风阵列采集的多路时域音频数据；以及

确定所述麦克风阵列中每个麦克风的坐标信息；

12.根据权利要求11所述的方法，在所述根据所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还包括：

确定所述麦克风阵列中的麦克风的数量；

13.一种语音采集装置，其特征在于，包括：

14.一种多媒体数据采集方法，其特征在于，包括：

获取采用摄像装置采集的视频数据；以及，

确定所述麦克风阵列中每个麦克风的坐标信息；

15.根据权利要求14所述的方法，其特征在于，在所述根据所述视频数据、所述多路时域音频数据和所述各所述麦克风的坐标信息，生成多媒体数据包之前，还包括：

确定所述麦克风阵列中的麦克风的数量；

16.一种多媒体数据采集装置，其特征在于，包括：

17.一种多媒体数据播放方法，其特征在于，包括：

将所述多路时域音频数据转换为多路频域音频数据；

获取所述麦克风阵列中每个麦克风的坐标信息；

将所述目标频域音频数据转换为目标时域音频数据；

同步播放所述视频数据和所述目标时域音频数据。

18.根据权利要求17所述的方法，其特征在于，所述将所述多路时域音频数据转换为多路频域音频数据，包括：

19.根据权利要求17所述的方法，其特征在于，所述确定所述麦克风阵列中每个麦克风的坐标信息，包括：

20.根据权利要求17所述的方法，其特征在于，所述根据所述多路频域音频数据和所述每个麦克风的坐标信息确定声源角度信息，包括：

21.根据权利要求20所述的方法，其特征在于，所述基于麦克风阵列的声源定位算法，包括：

基于到达时间差的声源定位算法。

22.根据权利要求17所述的方法，其特征在于，所述对所述多路频域音频数据进行增强处理，包括：

23.根据权利要求22所述的方法，其特征在于，所述自适应波束形成算法，包括：最小方差无失真响应算法。

24.根据权利要求17所述的方法，其特征在于，所述将所述目标频域音频数据转换为目标时域音频数据，包括：

25.一种多媒体数据播放装置，其特征在于，包括：

第二坐标信息确定模块，用于确定所述麦克风阵列中每个麦克风的坐标信息；

26.一种监控系统，其特征在于，包括：麦克风阵列、摄像装置、监控端处理器和播放器；

所述播放器用于播放所述多媒体数据包。

27.根据权利要求26所述的监控系统，其特征在于，所述播放器具体用于解包所述多媒体数据包得到多路时域音频数据和视频数据，将所述多路时域音频数据转换为多路频域音频数据，并根据所述多路频域音频数据和所述麦克风阵列中每个麦克风的坐标信息确定声源角度信息，以及根据所述声源角度信息对所述多路频域音频数据进行增强处理，得到增强的目标频域音频数据，在将所述目标频域音频数据转换为目标时域音频数据后，同步播放所述视频数据和所述目标时域音频数据。