CN105812969A

CN105812969A - 一种拾取声音信号的方法、系统及装置

Info

Publication number: CN105812969A
Application number: CN201410853169.1A
Authority: CN
Inventors: 蒋斌; 吴晟; 林福辉; 徐晶明; 袁野; 雍雅琴; 纪伟
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2016-07-27

Abstract

本发明实施例公开了一种拾取声音信号的方法、系统及装置，通过智能设备的空间模块，分析麦克风阵列获取的麦克风信号得到声学场景信息，分析摄像头获取的视频图像信息得到图像场景信息，并根据声学场景信息、图像场景信息以及用户的操作信息，获取所要拾取声音信号的特定区域的位置信息；再根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的空间坐标信息；麦克风阵列根据空间坐标信息，拾取特定区域的声音信号，从而解决智能设备个性化拾取声音信号这一问题。

Description

一种拾取声音信号的方法、系统及装置

技术领域

本发明涉及拾取声音信号技术领域，更具体地说，涉及一种拾取声音信号的方法、系统及装置。

背景技术

现如今的智能设备经常会在复杂声学环境下使用，并通过麦克风拾取声音。然而声学环境中可能包括多个声源和噪声源，无法按照使用者的意愿来个性化地拾取声音。现有的全指向性麦克风，对于来自不同角度的声音，其灵敏度是相同的，常见于需要收录整个环境声音的录音工程；或是声源在移动时，希望能保持良好收音的情况；常见的指向性麦克风，对获取麦克风前方的声音有最佳的收音效果，而来自其他方向的声音则会被衰减。两种拾取声音的方法，都只能按照特定方式进行声音信号的拾取，不能根据用户的选择来个性化的拾取声音信号，影响用户体验。

因此，智能设备如何个性化的拾取声音信号，成为需要解决的问题。

发明内容

本发明的目的在于提供一种拾取声音信号的方法、系统及装置，以解决智能设备个性化拾取声音信号这一问题。

为实现上述目的，本发明实施例提供了如下技术方案：

一种拾取声音信号的方法，包括：

控制模块从麦克风阵列获取麦克风信号，从摄像头获取视频图像信号；

所述控制模块分析所述麦克风信号，得到声学场景信息；

所述控制模块分析所述视频图像信号，得到图像场景信息；

所述控制模块根据声学场景信息，图像场景信息和操作信息，选择特定区域；其中，所述特定区域是所需拾取声音信号的区域；

所述控制模块根据计算所述麦克风阵列相对智能设备的位置信息、所述麦克风阵列相对摄像头的位置信息以及所述智能设备的空间位置信息，得出所述特定区域的方向信息；其中，所述方向信息是所述特定区域相对于所述智能设备的空间坐标信息；

所述控制模块向所述麦克风阵列传递所述方向信息，拾取所述特定区域的声音信号。

优选的，所述控制模块分析所述麦克风信号，得到声学场景信息，包括：

所述控制模块根据分析所述麦克风信号的声场能量分布，得到所述声学场景信息。

优选的，控制模块根据声学场景信息、图像场景信息和操作信息选择特定区域，包括:

所述控制模块根据所述操作信息，从所述图像场景信息提供的物体位置和声学场景信息提供的声源特征中，选择所述特定区域；

所述控制模块根据所述操作信息，从所述图像场景信息提供的物体位置中，选择所述特定区域；

所述控制模块根据所述操作信息，从所述声学场景信息提供的声源特征，选择所述特定区域；

所述控制模块根据操作信息选择预设模式，选择所述特定区域。

优选的，所述控制模块根据所述操作信息选择预设模式，选择所述特定区域，包括：

所述控制模块选取声音能量最大的物体为所述特定区域；

所述控制模块选取在所述视频图像上的显示的物体为所述特定区域；

所述控制模块选取当前对焦区域内的物体为特定区域；

所述控制模块选取特定方向为特定区域；

所述控制模块选取所述声学场景信息中声场能量最大的区域为声源区域；或者，

所述控制模块选取所述图像场景信息中声场能量最大的区域为声源区域。

一种拾取声音信号的装置，包括：

第一获取信号模块，用于从麦克风阵列获取麦克风信号；

第二获取信号模块，用于从摄像头获取视频图像信号；

第三获取信号模块，用于获取操作信息；

第一分析模块，用于分析所述麦克风信号，获取声学场景信息；

第二分析模块，用于分析所述视频图像信号，获取图像场景信息；

获取物体位置模块，用于根据声学场景信息和操作信息，图像场景信息和操作信息或者操作信息选择特定区域；其中，所述特定区域是所需拾取声音信号的区域；

位置信息计算模块，用于根据所述麦克风阵列相对智能设备的位置信息、所述麦克风阵列相对摄像头的位置信息以及所述智能设备的空间位置信息，计算得出所述特定区域的方向信息；其中，所述方向信息是所述特定区域相对于所述智能设备的空间坐标信息；

发送模块，用于向所述麦克风阵列发送所述方向信息，拾取所述特定区域的声音信号。

优选的，所述第一分析模块分析所述麦克风信号，获取声学场景信息，具体用于：

所述第一分析模块根据分析所述麦克风信号的声场能量分布，得到所述声学场景信息。

优选的，所述获取物体位置模块具体用于：

根据所述操作信息，从所述图像场景信息提供的物体位置和声学场景信息提供的声源特征中，选择所述特定区域；

根据所述操作信息，从所述图像场景信息提供的物体位置中，选择所述特定区域；或者；

根据所述操作信息，从所述声学场景信息提供的声源特征，选择所述特定区域；

根据操作信息选择预设模式，选择所述特定区域。

优选的，所述获取物体位置模块根据操作信息选择预设模式，具体用于：

选取声音能量最大的物体为所述特定区域；

选取在所述视频图像上的显示的物体为所述特定区域；

选取当前对焦区域内的物体为特定区域；

选取特定方向为特定区域；

选取所述声学场景信息中声场能量最大的区域为声源区域；或者，

选取所述图像场景信息中声场能量最大的区域为声源区域。

一种拾取声音信号的系统，包括：

麦克风阵列，用于获取麦克风信号；并从控制模块获取特定区域的方向信息，拾取所述特定区域的声音信号；

控制模块，用于从所述麦克风阵列获取所述麦克风信号，从摄像头获取视频图像信号；分析所述麦克风信号，得到声学场景信息；分析所述视频图像信号，得到图像场景信息；根据声学场景信息，图像场景信息和操作信息，选择特定区域；根据计算所述麦克风阵列相对智能设备的位置信息、所述麦克风阵列相对摄像头的位置信息以及所述智能设备的空间位置信息，得出所述特定区域的方向信息，并将所述方向信息发送给所述麦克风阵列；

其中，所述特定区域是所需拾取声音信号的区域；所述方向信息是所述特定区域相对于所述智能设备的空间坐标信息；

后处理模块，用于获取所述麦克风阵列获取的特定区域的声音信号，并对所述特定区域的声音信号进行后处理，以及融合声音信号和视频信号。

优选的，所述控制模块分析所述麦克风信号，得到声学场景信息，具体用于：

优选的，所述控制模块根据声学场景信息，图像场景信息和操作信息，选择特定区域，具体用于：

根据所述操作信息，从所述图像场景信息提供的物体位置中，选择所述特定区域；

根据所述操作信息，从所述声学场景信息提供的声源特征，选择所述特定区域；或者，

根据操作信息选择预设模式，选择所述特定区域。

优选的，所述控制模块根据操作信息选择预设模式，选择所述特定区域，具体用于：

选取声音能量最大的物体为所述特定区域；

选取在所述视频图像上的显示的物体为所述特定区域；

选取当前对焦区域内的物体为特定区域

选取特定方向为特定区域；

选取所述图像场景信息中声场能量最大的区域为声源区域。

优选的，所述麦克风阵列根据所述方向信息，拾取特定区域的声音，具体用于：

所述麦克风阵列根据所述方向信息，形成指向该方向的波束，拾取特定区域的声音信息。

优选的，所述后处理模块对所述特定区域的声音信号进行后处理，具体用于：

抑制所述特定区域声音信号中的环境噪声，调节所述特定区域声音信号中的混响。

通过以上方案可知，本发明实施例提供的一种拾取声音信号的方法、系统及装置，通过智能设备的空间模块，分析麦克风阵列获取的麦克风信号得到声学场景信息，分析摄像头获取的视频图像信息得到图像场景信息，并根据声学场景信息、图像场景信息以及用户的操作信息，获取所要拾取声音信号的特定区域的位置信息；再根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的空间坐标信息；麦克风阵列根据空间坐标信息，拾取特定区域的声音信号，从而解决智能设备个性化拾取声音信号这一问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种拾取声音信号的方法流程图；

图2(a)为本发明实施例公开的一种麦克风阵列示意图；

图2(b)为本发明实施例公开的另一种麦克风阵列示意图；

图3为本发明实施例公开的另一种拾取声音信号的方法流程图；

图4为本发明实施例公开的一种麦克风阵列拾取声音信号的示意图；

图5为本发明实施例公开的另一种麦克风阵列拾取声音信号的示意图；

图6为本发明实施例公开的另一种麦克风阵列拾取声音信号的示意图；

图7为本发明实施例公开的一种拾取声音信号的装置结构示意图；

图8为本发明实施例公开的一种拾取声音信号的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种拾取声音信号的方法、系统及装置,以解决智能设备个性化拾取声音信号这一问题。

参见图1，一种拾取声音信号的方法，包括：

S11、控制模块从麦克风阵列获取麦克风信号，从摄像头获取视频图像信号；

需要说明的是，在本步骤中，若麦克风阵列获取的麦克风信号是模拟信号，则需要经过数模转换器得到数字信号。

S12、控制模块分析麦克风信号，得到声学场景信息；

S13、控制模块分析视频图像信号，得到图像场景信息；

S14、控制模块根据声学场景信息，图像场景信息和操作信息，选择特定区域；其中，所述特定区域是所需拾取声音信号的区域；

具体的，控制模块选定的所述特定区域，可以指代某个物体、若干个物体或者某些空间区域。

S15、控制模块根据计算麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，得出特定区域的方向信息；其中，所述方向信息是特定区域相对于智能设备的空间坐标信息；

S16、控制模块向麦克风阵列传递方向信息，拾取特定区域的声音信号。

具体的，参见图2(a)，麦克风阵列可以是智能设备自带的麦克风阵列，如M1、M2、M3和M4；如图2(b)，也可以是通过智能设备外接的麦克风阵列的麦克风阵列M5，其阵列结构可以是线阵列、面阵列、体积阵列等。

具体的，当麦克风阵列是智能设备自带的麦克风阵列时，麦克风阵列相对智能设备的位置信息和麦克风阵列相对摄像头的位置信息是智能设备系统设定的；当麦克风阵列是智能设备外接的麦克风阵列时，麦克风阵列相对智能设备的位置信息和麦克风阵列相对摄像头的位置信息是由操作人员手动输入的；智能设备的空间位置信息是通过加速度传感器、方向传感器和陀螺仪传感器数据融合处理得到。

本发明实施例提供的一种拾取声音信号的方法，通过智能设备的控制模块，分析麦克风阵列获取的麦克风信号得到声学场景信息，分析摄像头获取的视频图像信息得到图像场景信息，并根据声学场景信息、图像场景信息以及用户的操作信息，获取所要拾取声音信号的特定区域的位置信息；再根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的空间坐标信息；麦克风阵列根据空间坐标信息，拾取特定区域的声音信号，从而解决智能设备个性化拾取声音信号这一问题。

还需要说明的是：本发明实施例公开的拾取声音信号的方法，可以与麦克风阵列采集麦克风信号、摄像头采集视频图像信号同步执行；当然，还可以是保存麦克风阵列采集的迈克风信号、摄像头采集的视频图像信号，之后再执行本发明实施例公开的拾取声音信号。

优选的，为了获得声学场景信息，在本发明提供的另一实施例中，控制模块分析麦克风信号，得到声学场景信息，包括：

控制模块根据分析麦克风信号的声场能量分布，得到声学场景信息。

具体的，声场是指有声波在其中传播的那部分媒质范围，具体是指有声波存在的弹性媒质所占有的空间。

具体的，声学场景信息是指声源个数，声源位置，声源特征等信息。

参见图3，为本发明提供的另一种拾取声音信号的方法，包括：

S21、控制模块从麦克风阵列获取麦克风信号，从摄像头获取视频图像信号；

S22、控制模块分析麦克风信号，得到声学场景信息；

S23、控制模块分析视频图像信号，得到图像场景信息；其中图像场景信息包括图像场景信号中的物体位置，物体个数，及物体特征；

S24、控制模块根据图像场景信息和操作信息，选择特定区域；其中特定区域是所需拾取声音信号的物体；

S25、控制模块根据计算麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，得出特定区域的方向信息；其中方向信息是特定区域相对于智能设备的空间坐标信息；

S26、控制模块向麦克风阵列传递方向信息，拾取特定区域的声音信号。

具体的，参见图4，为智能设备自带的麦克风阵列时，根据控制模块分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，则智能设备自带的麦克风阵列会形成指向声源1的波束，拾取声源1的声音信号。

具体的，参见图5，为智能设备外接麦克风阵列时，根据控制模块分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，则智能设备外接的麦克风阵列会形成指向声源1的波束，拾取声源1的声音信号。

优选的，为了选择特定区域，在本发明的另一实施例中，控制模块根据声学场景信息和操作信息选择特定区域，包括：

控制模块根据操作信息，从图像场景信息提供的物体位置和声学场景信息提供的声源特征中，选择所述特定区域；

控制模块根据操作信息，从声学场景信息提供的声源特征，选择特定区域；

控制模块根据操作信息选择预设模式，选择特定区域。

具体的，控制模块分析麦克风信号获取声学场景信息，其中声学场景信息包括声源个数，声源位置以及声源特征；其中声源特征是对声源信号进行分析，判断声源的类型，其中声源类型可以是语音信号，音乐信号或者噪声信号等；用户根据在声源的个数，声源的位置以及声源的特征，可以个性化的选择声源。

具体的，用户可以根据智能设备预设模式，来进行预先设定，使智能设备自动选择需要拾取声音信号的物体，并拾取声音信号。

优选的，在本发明提供的另一实施例中，控制模块根据操作信息选择预设模式，选择特定区域，包括：

控制模块选取声音能量最大的物体为特定区域；

控制模块选取在视频图像上的显示的物体为特定区域；

控制模块选取当前对焦区域内的物体为特定区域；

控制模块选取特定方向为特定区域；

控制模块选取声学场景信息中声场能量最大的区域为声源区域；或者，

控制模块选取图像场景信息中声场能量最大的区域为声源区域。

具体的，控制模块选取声音能量最大的物体为特定区域，可以根据声场能量分布，来判断物体声源的能量，并自动选择声源能量最大的物体为特定区域；麦克风阵列形成指向声源最大的物体的波束，拾取其声音信号。

具体的，参见图6，控制模块选取在视频图像上显示的物体为特定区域时，可以看出空间内存在的声源物体分别是声源1，声源2，声源3和声源4，其中在智能设备上显示的物体只有声源1声源2以及声源3，所以控制模块选取特定区域时，声源4不在考虑的范围内；控制模块自动选择声源1，声源2以及声源3为特定区域，并由麦克风阵列形成指向声源1，声源2以及声源3的波束，拾取声源物体1，声源物体2以及声源物体3的声音信号。

具体的，控制模块选取当前对焦区域内的物体为特定区域时，根据控制模块分析图像视频图像得到图像的对焦区域信息，来选取对焦区域的物体为特定区域，并由麦克风阵列生成形成指向对焦区域声源物体的波束，拾取对焦区域内特定区域的声音信号。

具体的，在以上实施例所提供的根据图像视频信号拾取信号的方法中，若对显示图像或显示视频进行缩放，使显示器内的物体发生变化时，则控制模块根据新的对应环境空间，重新生成特定区域的方向信息。

参见图7，一种拾取声音信号的装置，包括：

第一获取信号模块11，用于从麦克风阵列获取麦克风信号；

第二获取信号模块12，用于从摄像头获取视频图像信号；

第三获取信号模块13，用于获取操作信息；

第一分析模块14，用于分析麦克风信号，获取声学场景信息；

第二分析模块15，用于分析视频图像信号，获取图像场景信息；

获取物体位置模块16，用于根据声学场景信息和操作信息，图像场景信息和操作信息或者操作信息选择特定区域；其中特定区域是所需拾取声音信号的区域；

位置信息计算模块17，用于根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的方向信息；其中方向信息是特定区域相对于智能设备的空间坐标信息；

发送模块18，用于向麦克风阵列发送方向信息，拾取特定区域的声音信号。

具体的，需要说明的是，在本步骤中，若麦克风阵列获取的麦克风信号是模拟信号，则需要经过数模转换器得到数字信号。

本发明实施例提供的一种拾取声音信号的装置，通过第一获取模块11获取麦克风信号，并根据第一分析模块14获取声学场景信息；通过第二获取模块12获取图像视频信号，并根据第二分析模块15获取图像场景信息；再通过第三控制模块13获取操作信息；获取物体位置模块16根据声学场景信息、图像场景信息以及用户的操作信息，获取所要拾取声音信号的特定区域的位置信息；位置信息计算模块17再根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的空间坐标信息；发送模块18将特定区域的空间坐标信息传给麦克风阵列，麦克风阵列根据空间坐标信息，拾取特定区域的声音信号，从而解决智能设备个性化拾取声音信号这一问题。

优选的，在本发明的另一实施例中，第一分析模块11分析麦克风信号，获取声学场景信息，具体用于：

分析麦克风信号的声场能量分布，得到声学场景信息。

优选的，本发明提供的一种拾取声音信号的装置，具体用于：

第二获取信号模块12，用于从摄像头获取视频图像信号；

第三获取信号模块13，用于获取操作信息；

获取物体位置模块16，还用于根据视频图像信号，操作信息，选择视频图像上特定区域；其中特定区域是所需拾取声音信号的物体；

优选的，为了选择特定区域，在本发明的另一实施例中，获取物体位置模块16具体用于：

根据操作信息选择预设模式，选择所述特定区域。

具体的，参见图4，智能设备自带的麦克风阵列时，根据第二分析模块15分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，产生操作信息，使获取物体位置模块16获取选取声源1为特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，智能设备自带的麦克风阵列形成指向声源1的波束，拾取声源1的声音信号。

具体的，参见图5，为智能设备外接麦克风阵列时，根据第二分析模块15分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，产生操作信息，使获取物体位置模块16获取选取声源1为特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，智能设备外接的麦克风阵列形成指向声源1的波束，拾取声源1的声音信号。

具体的，第二分析模块15分析麦克风信号获取声学场景信息，其中声学场景信息包括声源个数，声源位置以及声源特征；其中声源特征是对声源信号进行分析，判断声源的类型，其中声源类型可以是语音信号，音乐信号或者噪声信号等；第三获取信号模块13获取用户选择特定区域的信号；获取物体位置模块16生成选择特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，智能设备外接的麦克风阵列形成指向特定区域的波束，拾取特定区域的声音信号。

优选的，在本发明的另一实施例中，获取物体位置模块16根据操作信息选择预设模式，具体用于：

选取声音能量最大的物体为特定区域；

选取在视频图像上的显示的物体为特定区域；

选取当前对焦区域内的物体为特定区域。

选取特定方向为特定区域；

选取所述图像场景信息中声场能量最大的区域为声源区域。

具体的，获取物体位置模块16选取声音能量最大的物体为特定区域，可以根据声场能量分布，来判断物体声源的能量，并自动选择声源能量最大的物体为特定区域；获取物体位置模块16生成选择特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，智能设备外接的麦克风阵列形成指向声源最大的物体的波束，拾取其声音信号。

具体的，参见图6，控制模块选取在视频图像上的显示的物体为特定区域时，可以看出空间内存在的声源物体分别是声源1，声源2，声源3和声源4，其中在智能设备上显示的物体只有声源1声源2以及声源3，所以控制模块选取特定区域时，声源4不在考虑的范围内；获取物体位置模块16自动选择声源1，声源2以及声源3为特定区域，获取物体位置模块16生成选择特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，麦克风阵列形成指向声源1，声源2以及声源3的波束，拾取声源物体1，声源物体2以及声源物体3的声音信号。

具体的，控制模块选取当前对焦区域内的物体为特定区域时，根据控制模块分析图像视频图像得到图像的对焦区域信息，来选取对焦区域的物体为特定区域，获取物体位置模块16生成选择特定区域的信号，由位置信息计算模块17计算出特定区域的方向信息，并由发送模块18将方向信息传递给麦克风阵列，智能设备外接的麦克风阵列形成指向对焦区域声源物体的波束，拾取对焦区域内特定区域的声音信号。

参见图8，本发明另一实施例公开的一种拾取声音信号的系统，包括：

麦克风阵列21，用于获取麦克风信号；并从控制模块获取特定区域的方向信息，拾取特定区域的声音信号；

控制模块22，用于从麦克风阵列21获取麦克风信号，从摄像头获取视频图像信号；分析麦克风信号，得到声学场景信息；分析视频图像信号，得到图像场景信息；根据声学场景信息，图像场景信息和操作信息，选择特定区域；根据计算麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，得出特定区域的方向信息，并将方向信息发送给麦克风阵列21；其中，所述方向信息是特定区域相对于智能设备的空间坐标信息；

后处理模块23，用于获取麦克风阵列21获取的特定区域的声音信号，并对特定区域的声音信号进行后处理，以及融合声音信号和视频信号。

具体的，参见图2(a)，麦克风阵列可以是智能设备自带的麦克风阵列，如M1、M2、M3和M4；如图2(b)，也可以是通过智能设备外接的麦克风阵列，的麦克风阵列M5，其阵列结构可以是线阵列、面阵列、体积阵列等。

具体的，麦克风矩阵21根据从控制模块22获取的特定区域的方向信息，形成指向特定区域的波束，拾取指定区域的声音信号。

具体的，麦克风阵列21是将两个麦克风的信号耦合为一个信号。亦即在两个麦克风的正前方形成一个接收区域，进而削减两个麦克风侧向的收音效果。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用，分析出接收到语音信号音源的方向以及其变化。而这些分析都可以由极坐标图以波束形式来显示语音信号的强度与角度。

具体的，在本系统中，若第一获取信号模块11获取的麦克风信号是模拟信号，则需要经过数模转换器得到数字信号，因为拾取声音信号的整个工作过程都是在数字域里处理。

具体的，当麦克风阵列11是智能设备自带的麦克风阵列时，麦克风阵列相对智能设备的位置信息和麦克风阵列相对摄像头的位置信息是智能设备系统设定的；当麦克风阵列11是智能设备外接的麦克风阵列时，麦克风阵列相对智能设备的位置信息和麦克风阵列相对摄像头的位置信息是由操作人员手动输入的；智能设备的空间位置信息是通过加速度传感器、方向传感器和陀螺仪传感器数据融合处理得到。

具体的，后处理模块23可以再在录像时对视频信号同步处理，保存处理后的声音信号，其中，同步处理包括对特定区域声音信号的拾取；或者，将麦克风信号进行保存，通过后处理模块23对其后期处理。

本发明另一实施例提供的一种拾取声音信号的系统，通过智能设备的空间模块，分析麦克风阵列获取的麦克风信号得到声学场景信息，分析摄像头获取的视频图像信息得到图像场景信息，并根据声学场景信息、图像场景信息以及用户的操作信息，获取所要拾取声音信号的特定区域的位置信息；再根据麦克风阵列相对智能设备的位置信息、麦克风阵列相对摄像头的位置信息以及智能设备的空间位置信息，计算得出特定区域的空间坐标信息；麦克风阵列根据空间坐标信息，拾取特定区域的声音信号，从而解决智能设备个性化拾取声音信号这一问题。

优选的，在本发明的另一实施例中，控制模块22分析麦克风信号，获取声学场景信息，具体用于：

分析麦克风信号的声场能量分布，得到声学场景信息。

优选的，控制模块22根据声学场景信息，图像场景信息和操作信息，选择特定区域，具体用于：

根据操作信息，从图像场景信息提供的物体位置和声学场景信息提供的声源特征中，选择所述特定区域；

根据操作信息，从所述图像场景信息提供的物体位置中，选择特定区域；

根据操作信息，从声学场景信息提供的声源特征，选择特定区域；或者，

根据操作信息选择预设模式，选择特定区域。

具体的，参见图4，智能设备自带麦克风阵列21时，根据控制模块22分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，则智能设备自带的麦克风阵列会形成指向声源1的波束，拾取声源1的声音信号，并通过后处理模块23对声音信号进行后处理，若是视频，则通过后处理模块23将录制的声音信号和视频信号进行融合。

具体的，参见图5，为智能设备外接麦克风阵列21时，根据控制模块22分析视频图像信息，在屏幕上显示出物体的个数，位置，及物体的特征，并通过用户进行选中操作，选中声源1，则智能设备外接的麦克风阵列21会形成指向声源1的波束，拾取声源1的声音信号，并通过后处理模块23对声音信号进行后处理，若是视频，则通过后处理模块23将录制的声音信号和视频信号进行融合。

具体的，具体的，控制模块22分析麦克风信号获取声学场景信息，其中声学场景信息包括声源个数，声源位置以及声源特征；其中声源特征是对声源信号进行分析，判断声源的类型，其中声源类型可以是语音信号，音乐信号或者噪声信号等；用户根据在声源的个数，声源的位置以及声源的特征，可以个性化的选择声源，并通过麦克风阵列21形成指向特定区域的波束，拾取特定区域的声音信号，并通过后处理模块23对声音信号进行后处理。

优选的，在本发明的另一实施例中，控制模块根据操作信息选择预设模式，选择特定区域，具体用于：

选取声音能量最大的物体为特定区域；

选取在视频图像上的显示的物体为特定区域；

选取当前对焦区域内的物体为特定区域；

选取特定方向为特定区域；

选取所述图像场景信息中声场能量最大的区域为声源区域。

具体的，控制模块22选取声音能量最大的物体为特定区域，可以根据声场能量分布，来判断物体声源的能量，并自动选择声源能量最大的物体为特定区域；麦克风阵列21形成指向声源最大的物体的波束，拾取其声音信号。

具体的，参见图6，控制模块22选取在视频图像上的显示的物体为特定区域时，可以看出空间内存在的声源物体分别是声源1，声源2，声源3和声源4，其中在智能设备上显示的物体只有声源1声源2以及声源3，所以控制模块22选取特定区域时，声源4不在考虑的范围内；控制模块22自动选择声源1，声源2以及声源3为特定区域，并由麦克风阵列21形成指向声源1，声源2以及声源3的波束，拾取声源物体1，声源物体2以及声源物体3的声音信号。

具体的，控制模块22选取当前对焦区域内的物体为特定区域时，根据控制模块22分析图像视频图像得到图像的对焦区域信息，来选取对焦区域的物体为特定区域，并由麦克风阵列21生成形成指向对焦区域声源物体的波束，拾取对焦区域内特定区域的声音信号。

具体的，在以上实施例所提供的根据图像视频信号拾取信号的系统中，若对显示图像或显示视频进行缩放，使显示器内的物体发生变化时，则控制模块22根据新的对应环境空间，重新生成特定区域的方向信息。

优选的，在本发明的另一实施例中，麦克风阵列21根据方向信息，拾取特定区域的声音，具体用于：

麦克风阵列21根据方向信息，形成指向该方向的波束，拾取特定区域的声音信息。

具体的，波束形成技术是将一个多元阵经适当处理使其对某空间方向的声波具有所需相应的方法。

优选的，在本发明的另一实施例中，后处理模块对特定区域的声音信号进行后处理，具体用于：

抑制特定区域声音信号中的环境噪声，调节所述特定区域声音信号中的混响。

具体的，声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后声音还继续一段时间，这种现象叫做混响。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种拾取声音信号的方法，其特征在于，包括：

所述控制模块分析所述麦克风信号，得到声学场景信息；

所述控制模块分析所述视频图像信号，得到图像场景信息；

2.根据权利要求1所述的方法，其特征在于，所述控制模块分析所述麦克风信号，得到声学场景信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述控制模块根据声学场景信息、图像场景信息和操作信息选择特定区域，包括：

所述控制模块根据所述操作信息，从所述声学场景信息提供的声源特征，选择所述特定区域；或者，

4.根据权利要求3所述的方法，其特征在于，所述控制模块根据所述操作信息选择预设模式，选择所述特定区域，包括：

所述控制模块选取声音能量最大的物体为所述特定区域；

所述控制模块选取当前对焦区域内的物体为特定区域；

所述控制模块选取特定方向为特定区域；

5.一种拾取声音信号的装置，其特征在于，包括：

第一获取信号模块，用于从麦克风阵列获取麦克风信号；

第二获取信号模块，用于从摄像头获取视频图像信号；

第三获取信号模块，用于获取操作信息；

6.根据权利要求5所述的装置，其特征在于，所述第一分析模块分析所述麦克风信号，获取声学场景信息，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述获取物体位置模块具体用于：

根据操作信息选择预设模式，选择所述特定区域。

8.根据权利要求7所述的装置，其特征在于，所述获取物体位置模块根据操作信息选择预设模式，具体用于：

选取声音能量最大的物体为所述特定区域；

选取在所述视频图像上的显示的物体为所述特定区域；

选取当前对焦区域内的物体为特定区域；

选取特定方向为特定区域；

选取所述图像场景信息中声场能量最大的区域为声源区域。

9.一种拾取声音信号的系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述控制模块分析所述麦克风信号，得到声学场景信息，具体用于：

11.根据权利要求9所述的系统，其特征在于，所述控制模块根据声学场景信息，图像场景信息和操作信息，选择特定区域，具体用于：

根据操作信息选择预设模式，选择所述特定区域。

12.根据权利要求11所述的系统，其特征在于，所述控制模块根据操作信息选择预设模式，选择所述特定区域，具体用于：

选取声音能量最大的物体为所述特定区域；

选取在所述视频图像上的显示的物体为所述特定区域；

选取当前对焦区域内的物体为特定区域

选取特定方向为特定区域；

选取所述图像场景信息中声场能量最大的区域为声源区域。

13.根据权利要求9所述的系统，其特征在于，所述麦克风阵列根据所述方向信息，拾取特定区域的声音，具体用于：

14.根据权利要求9所述的系统，其特征在于，所述后处理模块对所述特定区域的声音信号进行后处理，具体用于：