CN108200515A

CN108200515A - 多波束会议拾音系统及方法

Info

Publication number: CN108200515A
Application number: CN201711485910.3A
Authority: CN
Inventors: 浦宏杰; 鄢仁祥; 曹李军; 陈卫东
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108200515B

Abstract

本发明提供了一种多波束会议拾音系统及方法，系统包括摄像头、控制设备和拾音器，其中：摄像头采集拾音场所的俯视图像；控制设备显示拾音场所的俯视图像，识别拾音器的位置；控制设备获取用户在俯视图像中的圈取动作，根据圈取动作的类型确定对应的圈取区域的类型；控制设备分别计算各个圈取区域相对于拾音器的相对位置；拾音器根据各个圈取区域的相对位置处理输入音频。本发明通过采用摄像头获取拾音场所的俯视图像，并展示给用户，用户可以自己在图像中圈取拾音区域和降噪区域，用户可以自定义拾音区域、降噪区域以及圈取区域的大小，操作更加方便，在拾音的过程中同时对突出的潜在噪声干扰源进行降噪，拾音效果更加贴合实际需求。

Description

多波束会议拾音系统及方法

技术领域

本发明涉及音频处理技术领域，尤其涉及一种多波束会议拾音系统及方法。

背景技术

随着信息时代的到来，计算机多媒体技术的迅猛发展，网络技术的普遍应用，各种会议的进行对多媒体音频的要求越来越高。现有技术中的会议拾音方案中，往往仅采用单纯的降噪方案，对声音进行滤波等简单处理。然而采用该种方式，无法很好地区分音源，也无法针对性地对需要降噪的位置进行合理降噪，无法获得很好的会议拾音效果。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种多波束会议拾音系统及方法，用户可以自行定义拾音区域和降噪区域，有针对性地对拾音区域的声源进行增强，对降噪区域的声源进行抑制。

本发明实施例提供一种多波束会议拾音方法，包括摄像头、控制设备和拾音器，其中：

所述摄像头采集拾音场所的俯视图像，并发送至所述控制设备；

所述控制设备显示所述拾音场所的俯视图像，识别所述拾音器的位置；

所述控制设备获取用户在所述俯视图像中的圈取动作，根据所述圈取动作的类型确定对应的圈取区域的类型，其中，第一类圈取动作的圈取区域为拾音区域，第二类圈取动作的圈取区域为降噪区域；

所述控制设备分别计算各个所述圈取区域相对于所述拾音器的相对位置，并发送至所述拾音器；

所述拾音器根据各个所述圈取区域的相对位置处理输入音频，对所述拾音区域对应的声源进行增强，对所述降噪区域对应的声源进行抑制。

可选地，所述第一类圈取动作为沿顺时针方向圈取一区域，所述第二类圈取动作为逆时针方向圈取一区域；或所述第一类圈取动作为逆时针方向圈取一区域，所述第二类圈取动作为顺时针圈取一区域。

可选地，所述拾音器的表面设置有至少两个特征点，所述控制设备于所述拾音场所的俯视图像中识别所述拾音器的特征点，并根据所述拾音器的特征点的连线方向确定所述拾音器所处位置和基准指向。

可选地，所述拾音器的表面设置有两个特征点：中心特征点和边缘特征点，所述拾音器的0°指向基准角为：

其中，(x_c,y_c)为所述拾音器的中心特征点的坐标，(x_e,y_e)为所述边缘特征点的坐标。

可选地，所述拾音器上设置有移动侦测传感器，所述移动侦测传感器检测到移动信号时发送至所述拾音器，所述拾音器通知所述控制设备重新识别所述拾音器的特征点，重新确定所述拾音器所处位置和基准指向，并重新确定各个所述圈取区域相对于所述拾音器的相对位置，所述拾音器根据重新确定的各个所述圈取区域的相对位置处理输入音频。

可选地，所述拾音器的特征点处设置有发光件，所述发光件具有两种发光状态；

所述拾音器初始化时，所述发光件为第一发光状态，所述拾音器获取到所述圈取区域的相对位置后，使所述发光件进入第二发光状态；

所述拾音器获取到移动信号时，控制所述发光件重新进入第一发光状态；

所述控制设备识别到所述发光件处于第一发光状态时，识别所述拾音器的特征点，定义所述拾音器的指向基准方向，并计算各个圈取区域相对于所述拾音器的相对位置。

可选地，所述拾音器为包括多个单指向性麦克风的可变指向数字拾音器或包括多个全指向性麦克风的多波束阵列数字拾音器。

可选地，所述拾音器为可变指向数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和所述降噪区域相对于所述拾音器的指向角；

所述拾音器根据各个所述圈取区域的相对位置处理输入音频，包括：所述拾音器基于指向性阵元的子带差分算法处理输入的音频，对与所述拾音区域最接近的声源进行增强，与所述降噪区域最接近的声源进行抑制。

可选地，所述圈取区域相对于所述拾音器的相对位置还包括所述拾音区域相对于所述拾音器的张角和所述降噪区域相对于所述拾音器的张角；

所述拾音器根据各个所述圈取区域的相对位置处理输入音频，还包括：所述拾音器根据所述拾音区域的张角和所述降噪区域的张角选择拾音的波束宽度，以与所述拾音区域的张角和所述降噪区域的张角相适应。

可选地，所述拾音器为多波束阵列数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和张角以及所述降噪区域相对于所述拾音器的指向角和张角；

所述拾音器根据各个所述圈取区域的相对位置处理输入音频，包括：所述拾音器根据所述圈取区域的相对位置进行波束构型，每个波束的指向角为对应的拾音区域的指向角，每个波束的零陷角包括的两个角度以及所有降噪区域的指向角，其中，θ为与所对应拾音区域的指向角，为与所对应拾音区域的张角，K为预设的束宽控制参数。

本发明实施例还提供一种多波束会议拾音方法，其特征在于，采用所述的多波束会议拾音系统，所述方法包括如下步骤：

本发明所提供的多波束会议拾音系统及方法具有下列优点：

本发明通过采用摄像头获取拾音场所的俯视图像，并展示给用户，用户可以自己在图像中圈取拾音区域和降噪区域，通过识别用户不同的圈取动作可以进行不同区域的区分，并且计算圈取区域相对于拾音器的相对位置，拾音器可以根据拾音区域和降噪区域的相对位置进行音频处理，得到对拾音区域的声音增强，对降噪区域的声音抑制的音频；用户可以自定义拾音区域、降噪区域以及圈取区域的大小，操作更加方便，在拾音的过程中同时对突出的潜在噪声干扰源进行降噪，拾音效果更加贴合实际需求。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的多波束会议拾音系统的结构示意图；

图2是本发明一实施例的多波束会议拾音方法的流程图；

图3是本发明一实施例的手持控制设备中拾音区域和降噪区域圈取方式的示意图；

图4是本发明一实施例的圈取区域角度转换示意图；

图5是本发明另一实施例的数字麦克风波束虚拟通道指向性示意图；

图6是本发明的多波束会议拾音方法应用于具体实例的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，本发明实施例提供一种多波束会议拾音系统，包括摄像头100、控制设备300和拾音器200。在该实施例中，摄像头100为吸顶式广角数字摄像头，用于采集拾音场所的俯视图；控制设备300为手持式控制设备，用于对拾音区域进行控制；拾音器200为数字麦克风拾音器，用于声音的采集，由多个麦克风按特定方式排列而成，各麦克风拾取声音信号后经处理后输出。摄像头100、控制设备300和拾音器200之间可以通过无线射频网络进行数据传输。

如图2所示，本发明实施例提供一种多波束会议拾音方法，采用所述的多波束会议拾音系统，所述方法包括如下步骤：

S100：所述摄像头采集拾音场所的俯视图像，并发送至所述控制设备；

S200：所述控制设备显示所述拾音场所的俯视图像，识别所述拾音器的位置；控制设备界面包括如下关键因素：与会人员(潜在发言人)、声音回放设备(此处为电视机扬声器)、室内噪声设备(如空调等)，室外噪声源。

S300：所述控制设备获取用户在所述俯视图像中的圈取动作，根据所述圈取动作的类型确定对应的圈取区域的类型，其中，第一类圈取动作的圈取区域为拾音区域，第二类圈取动作的圈取区域为降噪区域；此处控制设备可以是手持式控制设备，方便用户拿在手中，直接进行圈取操作。例如，控制设备可以是具有触摸屏的手机、平板电脑等，可以与摄像头以及拾音器进行无线通信以交互数据，并且可以获取用户的手动操作；

S400：所述控制设备分别计算各个所述圈取区域相对于所述拾音器的相对位置，并发送至所述拾音器；

S500：所述拾音器根据各个所述圈取区域的相对位置处理输入音频，对所述拾音区域对应的声源进行增强，对所述降噪区域对应的声源进行抑制。

所述拾音器可以为包括多个单指向性麦克风的可变指向数字拾音器，多个麦克风可以为心形或超心形单指向性麦克风按不同朝向组合排列；也可以为包括多个全指向性麦克风的多波束阵列数字拾音器，多个全指向性麦克风按照特定排列构成阵列。多个麦克风的声音信号经过数字信号处理器，可以单个麦克风直接输出、指向不同区域的单波束虚拟通道输出及任意两个及以上虚拟通道混音输出。

如图3所示，为本发明一实施例的手持控制设备中拾音区域和降噪区域圈取方式的示意图。图中以拾音场所的俯视图作为操作背景，用户可以通过顺时针圈取拾音区域，逆时针圈取干扰噪声源区域。

在该实施例中，所述第一类圈取动作为沿顺时针方向圈取一区域，所述第二类圈取动作为逆时针方向圈取一区域；或所述第一类圈取动作为逆时针方向圈取一区域，所述第二类圈取动作为顺时针圈取一区域。在实际应用中，也可以采用其他的圈取动作设定，圈取的区域形状和大小也可以由用户根据需要设定，只要能够将拾音区域和降噪区域区分开来即可。例如，设定画圆形区域为拾音区域，画方形区域为降噪区域等等。

为了定位拾音器的指向基准方向，所述拾音器的表面设置有至少两个特征点，所述控制设备于所述拾音场所的俯视图像中识别所述拾音器的特征点，并根据所述拾音器的特征点的连线方向确定所述拾音器的指向基准方向。

如图4所示，在圈取图层中，各个圈取区域定义为{x,y|(x,y)∈Ω}，以拾音器中心特征点(x_c,y_c)与各圈取区域求切线，获得指向角和张角。在图3中，角度a即为拾音区域相对于拾音器的张角的1/2，角度b即为拾音区域相对于拾音器的指向角，即拾音区域的中心与拾音器中心的连线与拾音器指向基准方向m之间的夹角。此处a为12.4°，b为18.4°。

如图4所示，在该实施例中，所述拾音器的表面设置有两个特征点：：中心特征点和边缘特征点，所述拾音器的0°指向基准角为：

其中，(x_c,y_c)为所述拾音器的中心特征点的坐标，(x_e,y_e)为所述拾音器的边缘特征点的坐标，在图4中，连线m的方向即为拾音器的指向基准方向。

进一步地，在该实施例中，所述拾音器上设置有移动侦测传感器，所述移动侦测传感器检测到移动信号时发送至所述拾音器，所述拾音器通知所述控制设备重新识别所述拾音器的特征点，并重新定义所述拾音器的指向基准方向。

所述拾音器通知所述控制设备重新识别特征点可以是通过数据传输，将重新定位信号发送至所述控制设备，也可以是通过闪光的方式通知控制设备。例如，所述拾音器的特征点处设置有双色发光二极管；

所述拾音器初始化时，所述发光二极管点亮，所述控制设备获取到发光信号时即进行拾音器的基准定位。所述拾音器获取到所述圈取区域的相对位置后，使关闭所述发光二极管；

所述拾音器获取到移动侦测传感器发送的移动信号时，控制所述发光二极管重新点亮；所述控制设备识别到所述发光信号时，重新识别所述拾音器的特征点，重新定义所述拾音器的指向基准方向，并计算各个圈取区域相对于所述拾音器的相对位置，并发送至所述拾音器。

对于不同类型的拾音器，对圈取区域的位置数据的需求不同。当所述拾音器为可变指向数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和所述降噪区域相对于所述拾音器的指向角。

在该实施例中，可变指向数字拾音器的旋转角度可以预先设定，例如预设360°范围内每隔10°旋转的心形/超心形指向。选取其中与拾音区域及降噪区域的多个指向角最接近的波束，调用双麦/多麦降噪算法对潜在声源进行增强，对干扰声源进行抑制，获得多个拾音区域的虚拟通道输出。此处双麦/多麦降噪算法可以是现有技术中已有的基于多麦的子带差分降噪算法或多麦自适应滤波降噪算法。例如硕士论文“《一种双麦克风自适应语音降噪算法研究与实现》，作者吴继忠，北京大学”中的方法，采用其他的降噪算法也是可以的。

进一步地，所述圈取区域相对于所述拾音器的相对位置还可以包括所述拾音区域相对于所述拾音器的张角和所述降噪区域相对于所述拾音器的张角；所述拾音器根据所述拾音区域的张角和所述降噪区域的张角选择拾音的波束宽度。例如，在该实施例中，拾音区域的张角为25°，则可以设置可变指向数字拾音器在360°范围内每隔20°旋转，以与所述拾音区域的张角和所述降噪区域的张角相适应

在另一实施例中，所述拾音器为多波束阵列数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和张角以及所述降噪区域相对于所述拾音器的指向角和张角。

如图5所示，所述拾音器根据各个所述圈取区域的相对位置处理输入音频，包括：所述拾音器根据所述降噪区域的指向角和张角计算得到波束零陷角：

其中，θ为与所述降噪区域对应的指向角，为与所述降噪区域对应的张角，K为预设的束宽控制参数。

在处理所述拾音器根据所述拾音区域的指向角和张角进行波束构型，并根据所述波束零陷角对构型得到的波束进行约束。

在图5中，角度c为16.9°，角度d为26.9°。朝向拾音区域的波束即为构型和约束后的波束。波束构型的方法可以采用现有技术中波束构型的方式，多个拾音区域的虚拟通道输出，通过智能混音器，合并为单通道输出。例如可以参照“《麦克风阵列信号处理》，JacobBenesty著，邹霞等译，国防工业出版社”。

如图6所示，为本发明的多波束会议拾音方法应用于具体实例的流程图。首先系统初始化，默认工作于全向拾音状态。控制设备识别拾音器的特征点，设定拾音器基准0°。摄像头获取俯视图像，并呈现在控制设备的界面上。控制设备获取用户圈取的拾音区域和降噪区域。控制设备采用切线法求圈取区域的张角和指向角。对于不同的拾音器类型，会采用不同的方法结合圈取区域的张角和指向角对各声源进行增强后作为虚拟音频通道，然后对虚拟通道进行智能混音，最终输出混音后的音频。在拾音器工作过程中，如果发生了移动，控制设备会重新设定拾音器基准0°，并重新采用切线法求圈取区域的张角和指向角，进而自动更新波束指向以保持拾音区域不变。

与现有技术相比，本发明通过采用摄像头获取拾音场所的俯视图像，并展示给用户，用户可以自己在图像中圈取拾音区域和降噪区域，通过识别用户不同的圈取动作可以进行不同区域的区分，并且计算圈取区域相对于拾音器的相对位置，拾音器可以根据拾音区域和降噪区域的相对位置进行音频处理，得到对拾音区域的声音增强，对降噪区域的声音抑制的音频；用户可以自定义拾音区域、降噪区域以及圈取区域的大小，操作更加方便，在拾音的过程中同时对突出的潜在噪声干扰源进行降噪，拾音效果更加贴合实际需求。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种多波束会议拾音系统，其特征在于，包括摄像头、控制设备和拾音器，其中：

2.根据权利要求1所述的多波束会议拾音系统，其特征在于，所述第一类圈取动作为沿顺时针方向圈取一区域，所述第二类圈取动作为逆时针方向圈取一区域；或所述第一类圈取动作为逆时针方向圈取一区域，所述第二类圈取动作为顺时针圈取一区域。

3.根据权利要求1所述的多波束会议拾音系统，其特征在于，所述拾音器的表面设置有至少两个特征点，所述控制设备于所述拾音场所的俯视图像中识别所述拾音器的特征点，并根据所述拾音器的特征点的连线方向确定所述拾音器所处位置和基准指向。

4.根据权利要求3所述的多波束会议拾音系统，其特征在于，所述拾音器的表面设置有两个特征点：中心特征点和边缘特征点，所述拾音器的0°指向基准角为：

5.根据权利要求3所述的多波束会议拾音系统，其特征在于，所述拾音器上设置有移动侦测传感器，所述移动侦测传感器检测到移动信号时发送至所述拾音器，所述拾音器通知所述控制设备重新识别所述拾音器的特征点，重新确定所述拾音器所处位置和基准指向，并重新确定各个所述圈取区域相对于所述拾音器的相对位置，所述拾音器根据重新确定的各个所述圈取区域的相对位置处理输入音频。

6.根据权利要求5所述的多波束会议拾音系统，其特征在于，所述拾音器的特征点处设置有发光件，所述发光件具有两种发光状态；

7.根据权利要求1所述的多波束会议拾音系统，其特征在于，所述拾音器为包括多个单指向性麦克风的可变指向数字拾音器或包括多个全指向性麦克风的多波束阵列数字拾音器。

8.根据权利要求1所述的多波束会议拾音系统，其特征在于，所述拾音器为可变指向数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和所述降噪区域相对于所述拾音器的指向角；

9.根据权利要求8所述的多波束会议拾音系统，其特征在于，所述圈取区域相对于所述拾音器的相对位置还包括所述拾音区域相对于所述拾音器的张角和所述降噪区域相对于所述拾音器的张角；

10.根据权利要求1所述的多波束会议拾音系统，其特征在于，所述拾音器为多波束阵列数字拾音器时，所述圈取区域相对于所述拾音器的相对位置包括所述拾音区域相对于所述拾音器的指向角和张角以及所述降噪区域相对于所述拾音器的指向角和张角；

11.一种多波束会议拾音方法，其特征在于，采用权利要求1至10中任一项所述的多波束会议拾音系统，所述方法包括如下步骤：