CN114071057A

CN114071057A - 用于视频会议的声音处理方法和装置

Info

Publication number: CN114071057A
Application number: CN202111136219.0A
Authority: CN
Inventors: 吴泰云
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-18

Abstract

一种用于视频会议的声音处理方法和装置，该方法包括：获取视频会议中的图像采集设备当前的视野角度和收音设备当前收集的声音数据；至少根据所述视野角度确定所述收音设备的期望收音范围；基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据。本申请根据视频会议中图像采集设备当前的视野角度来确定收音设备的期望收音范围，并仅输出期望收音范围内的目标声音数据，能够大大改善收音效果，提高用户体验。

Description

用于视频会议的声音处理方法和装置

技术领域

本申请涉及视频会议技术领域，更具体地涉及一种用于视频会议的声音处理方法和装置。

背景技术

现如今，视频会议越来越普及，随着摄像头技术的不断更新，视频会议中画质也越来越清晰，很多会议摄像头还支持变焦功能。然而，视频会议中除画质以外另一个很重要的因素——音质，却没有很大的改进。

目前，视频会议中收音设备大多均是360度各方位收音，收音后直接输出给视频会议终端的参会人。然而，这样全方位收音方式得到的声音数据中往往掺杂太多无关噪声，使得会议终端的参会人听到的声音效果往往不佳。

发明内容

根据本申请一方面，提供了一种用于视频会议的声音处理方法，所述方法包括：获取视频会议中的图像采集设备当前的视野角度和收音设备当前收集的声音数据；至少根据所述视野角度确定所述收音设备的期望收音范围；基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据。

在本申请的实施例中，所述方法还包括：获取所述图像采集设备当前的视角角度；并且所述期望收音范围是根据所述视野角度和所述视角角度确定的。

在本申请的实施例中，获取所述图像采集设备当前的视野角度和视角角度，包括：获取用户输入，基于所述用户输入确定所述图像采集设备当前的视野角度和视角角度；其中，所述用户输入包括用户从多个预设的画面显示模式中选择的画面显示模式；或者，所述用户输入包括用户手动设定的收音对象和/或收音区域。

在本申请的实施例中，所述多个预设的画面显示模式包括以下中的至少两项：固定角度模式，所述固定角度模式是指所述图像采集设备的视角中心保持不动、视野角度可调整的模式；中心人脸模式，所述中心人脸模式是指所述图像采集设备的视野角度内以最大人脸为视角中心的模式；自动画框模式，所述自动画框模式是指所述图像采集设备的视野角度内包含所有参会人的模式。

在本申请的实施例中，根据所述视野角度和所述视角角度确定所述期望收音范围，包括：根据所述视野角度和所述视角角度确定所述收音设备的最小收音角度和最大收音角度，从所述最小收音角度到所述最大收音角度的角度范围即为所述期望收音范围。

在本申请的实施例中，所述最小声音角度等于90度加上所述视角角度再减去二分之一的所述视野角度；所述最大声音角度等于90度加上所述视角角度再加上二分之一的所述视野角度。

在本申请的实施例中，所述基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据，包括：基于所述期望收音范围确定用于波束形成的输出信号模型中的最佳权值向量和方向矢量；将所述声音数据、所述最佳权值向量以及所述方向矢量代入所述输出信号模型，得到所述目标声音数据。

根据本申请另一方面，提供了一种用于视频会议的装置，所述装置包括图像采集设备、收音设备、存储器和处理器，其中：所述图像采集设备用于针对视频会议采集图像；所述收音设备用于针对所述视频会议进行收音；所述存储器上存储有由所述处理器运行的计算机可读指令，所述指令在由所述处理器运行时，使得所述处理器执行以下操作：获取视频会议所述图像采集设备当前的视野角度和所述收音设备当前收集的声音数据；至少根据所述视野角度确定所述收音设备的期望收音范围；基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据。

在本申请的实施例中，所述指令在由所述处理器运行时，还使得所述处理器执行以下操作：获取所述图像采集设备当前的视角角度；并且所述期望收音范围是根据所述视野角度和所述视角角度确定的。

在本申请的实施例中，所述装置还包括用户接口，所述处理器获取所述图像采集设备当前的视野角度和视角角度，包括：经由所述用户接口获取用户输入，基于所述用户输入确定所述图像采集设备当前的视野角度和视角角度；其中，所述用户输入包括用户经由所述用户接口从多个预设的画面显示模式中选择的画面显示模式；或者，所述用户输入包括用户经由所述用户接口手动设定的收音对象和/或收音区域。

在本申请的实施例中，所述处理器根据所述视野角度和所述视角角度确定所述期望收音范围，包括：根据所述视野角度和所述视角角度确定所述收音设备的最小收音角度和最大收音角度，从所述最小收音角度到所述最大收音角度的角度范围即为所述期望收音范围。

基于上面的描述，根据本申请实施例的用于视频会议的声音处理方法和装置根据视频会议中图像采集设备当前的视野角度来确定收音设备的期望收音范围，并仅输出期望收音范围内的目标声音数据，能够大大改善收音效果，提高用户体验。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本申请实施例的用于视频会议的声音处理方法的示意性流程图。

图2示出图像采集设备的视野角度的示意图。

图3示出根据本申请实施例的用于视频会议的声音处理方法中根据视野角度确定收音设备的期望收音范围的一个示例的示意图。

图4示出根据本申请实施例的用于视频会议的声音处理方法中根据视野角度确定收音设备的期望收音范围的另一个示例的示意图。

图5示出根据本申请实施例的用于视频会议的声音处理方法中根据视野角度确定收音设备的期望收音范围的再一个示例的示意图。

图6示出图像采集设备的视角角度的示意图。

图7示出根据本申请实施例的用于视频会议的声音处理方法中根据视野角度和视角角度确定收音设备的期望收音范围的一个示例的示意图。

图8示出图像采集设备视野角度内包括多个声源的示意图。

图9示出根据本申请实施例的用于视频会议的声音处理方法中根据用户设定的收音对象(或收音区域)确定期望收音区域的一个示例的示意图。

图10示出根据本申请实施例的用于视频会议的声音处理方法中根据用户设定的收音对象(或收音区域)确定期望收音区域的一个示例的示意图。

图11示出根据本申请实施例的用于视频会议的声音处理方法中根据用户设定的收音对象(或收音区域)确定期望收音区域的另一个示例的示意图。

图12示出根据本申请实施例的用于视频会议的装置的示意性框图。

图13示出根据本申请实施例的用于视频会议的装置中图像采集设备和收音设备的位置关系的一个示例的示意图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

首先，参考图1描述根据本申请实施例的用于视频会议的声音处理方法100。如图1所示，用于视频会议的声音处理方法100可以包括如下步骤：

在步骤S110，获取视频会议中的图像采集设备当前的视野角度和收音设备当前收集的声音数据。

在步骤S120，至少根据视野角度确定收音设备的期望收音范围。

在步骤S130，基于期望收音范围对声音数据进行过滤，输出期望收音范围内的目标声音数据。

在本申请的实施例中，根据视频会议中图像采集设备当前的视野(Field ofView，简称为FOV)角度来确定收音设备的期望收音范围，并仅输出期望收音范围内的目标声音数据，能够大大改善收音效果，提高用户体验。下面结合图2来描述本申请能够改善收音效果的原理。图2示出了图像采集设备的视野角度的示意图。如图2所示，图像采集设备可具有多种FOV角度，诸如图2所示的60度、90度、120度等等。可根据会议场景(诸如会议室大小、参会人数、主要发言人位置等等因素)来选择适用该会议场景的FOV角度。因此，视频会议中采用的图像采集设备的视野角度一般主要涵盖了视频会议中的所有参会人或者主要参会人或者主要发言人，因此根据该视野角度确定对应的期望收音范围，将期望收音范围锁定在该视野角度内，而视野角度外的声音数据可作为噪声滤除，从而能够使得在视频会议的终端用户听到的声音是用户需要听到的声音，其他不需要的声音被滤除，使得需要听到的声音也更为清晰，从而实现有效改善视频会议收音效果，提高视频会议的终端用户的体验。

在本申请的实施例中，步骤120的至少根据视野角度确定收音设备的期望收音范围可以包括：根据视野角度确定收音设备的最小声音角度和最大声音角度，从最小声音角度到最大声音角度的角度范围即为期望收音范围。下面结合图3到图5来描述根据本申请实施例的用于视频会议的声音处理方法中根据视野角度确定收音设备的期望收音范围的几个示例。

在图3所示的示例中，视频会议采用一个图像采集设备，四个收音设备，其中该图像采集设备位于中心位置，左右两侧各包含两个收音设备，并且此时，图像采集设备的当前FOV角度为120度。假定按照象限角度来定义麦克风的收音角度，则如图3所示的，右侧水平线处的角度表示收音角度(也称为声源定位(Direction of Arrival，简称为DOA)角度)为0度，左侧水平线处的角度表示收音角度为180度，上侧垂直线处的角度表示收音角度为90度，下侧垂直线处的角度表示收音角度为270度。基于此，当图像采集设备的当前FOV角度为120度时，由于图像采集设备在中心位置，因此该FOV角度应当左右平均分配，即左侧60度，右侧60度，对应于收音角度的范围即为：最小收音角度30度(90度减去60度)，最大收音角度150度(90度加上60度)。也就是说，在该示例中，图像采集设备的当前FOV角度为120度时，可确定期望收音范围为30度到150度。

在图4所示的示例中，视频会议采用一个图像采集设备，四个收音设备，其中该图像采集设备位于中心位置，左右两侧各包含两个收音设备，并且此时，图像采集设备的当前FOV角度为90度。假定按照象限角度来定义麦克风的收音角度，则如图4所示的，右侧水平线处的角度表示收音角度(也称为声源定位(Direction of Arrival，简称为DOA)角度)为0度，左侧水平线处的角度表示收音角度为180度，上侧垂直线处的角度表示收音角度为90度，下侧垂直线处的角度表示收音角度为270度。基于此，当图像采集设备的当前FOV角度为90度时，由于图像采集设备在中心位置，因此该FOV角度应当左右平均分配，即左侧45度，右侧45度，对应于收音角度的范围即为：最小收音角度45度(90度减去45度)，最大收音角度135度(90度加上45度)。也就是说，在该示例中，图像采集设备的当前FOV角度为90度时，可确定期望收音范围为45度到135度。

在图5所示的示例中，视频会议采用一个图像采集设备，四个收音设备，其中该图像采集设备位于中心位置，左右两侧各包含两个收音设备，并且此时，图像采集设备的当前FOV角度为60度。假定按照象限角度来定义麦克风的收音角度，则如图5所示的，右侧水平线处的角度表示收音角度(也称为声源定位(Direction of Arrival，简称为DOA)角度)为0度，左侧水平线处的角度表示收音角度为180度，上侧垂直线处的角度表示收音角度为90度，下侧垂直线处的角度表示收音角度为270度。基于此，当图像采集设备的当前FOV角度为60度时，由于图像采集设备在中心位置，因此该FOV角度应当左右平均分配，即左侧30度，右侧30度，对应于收音角度的范围即为：最小收音角度60度(90度减去30度)，最大收音角度120度(90度加上30度)。也就是说，在该示例中，图像采集设备的当前FOV角度为60度时，可确定期望收音范围为60度到120度。

以上结合图3到图5描述了根据本申请实施例的用于视频会议的声音处理方法中根据视野角度确定收音设备的期望收音范围的几个示例。此处应注意，在图3到图5所示的示例中，均以“视频会议采用一个图像采集设备和四个收音设备，其中该图像采集设备位于中心位置，左右两侧各包含两个收音设备”为前提而采用90-FOV/2～90+FOV/2这样的公式来计算期望收音角度。容易理解，该公式适用于视频会议的图像采集设备位于中心位置处，且其左右两侧包括相同数目的收音设备这样的场景。应理解，在其他场景中，例如图像采集设备和收音设备彼此成十字形排列时，应该采用适用于该排列的公式来根据FOV角度计算期望收音范围，本领域技术人员很容易推导出适用于该排列的公式，此处不再赘述。

此外，以上示例均是以图像采集设备的视角(Angle of View，简称为AOV)角度为0度的场景来描述的。然而，在一些场景中，视频会议的画面中心不一定对准图像采集设备最大可视范围(即视野角度)的中心，而是会根据需求而改变到中心以外的其他位置，此时图像采集设备的AOV角度不为0度。在该实施例中，可以根据图像采集设备当前的FOV角度和AOV角度这两者来确定期望收音范围，以更有针对性地将图像采集设备当前聚焦的焦点位置处的声音输出至视频会议的终端用户，从而进一步提高用户体验。下面结合图6和图7来描述。

图6示出了图像采集设备的视角角度的示意图。在该示例中，图像采集设备的视角不在该视野范围的中心位置，而是向左偏移45度。由于图像采集设备的视角在中心位置处(即图6的竖直线位置处)时对应的AOV角度为0度，仍以象限概念，则视角向左偏移为增加AOV度数，向右偏移为减少AOV度数，故左侧视角为正数度数，右侧视角为负数度数。因此，如图6所示的，图像采集设备的当前AOV角度为45度。此时，假定图像采集设备的FOV角度为120度，则可根据该FOV角度和该AOV角度确定收音设备的期望收音范围，如图7所示的。在该示例中，FOV角度为120度，当AOV角度偏左，为45度，也就是说，当前图像采集设备视角集中在左侧45度，那么应以该左侧45度为中心线，在该中心线左右两侧各分配60度，因此，可计算期望收音范围的最小收音角度为90+45-60＝75度，最大收音角度为90+45+60＝195度，即期望收音范围为90+AOV-FOV/2～90+AOV+FOV/2。

此处应注意，在图6和图7所示的示例中，仍以视频会议的图像采集设备位于中心位置处，且其左右两侧包括相同数目的收音设备这样的场景来描述的，即上述公式90+AOV-FOV/2～90+AOV+FOV/2适用于这样的场景。在其他场景中，例如图像采集设备和收音设备彼此成十字形排列时，或是多个收音设备沿图像采集设备的环向间隔分布时，同样适用上述公式。

以上示例性地描述了根据本申请实施例的用于视频会议的声音处理方法中根据图像采集设备的FOV角度确定收音设备的期望收音范围的示例以及根据图像采集设备的FOV角度和AOV角度确定收音设备的期望收音范围的示例。下面描述如何获取图像采集设备的FOV角度和/或AOV角度的示例。

在本申请的实施例中，获取图像采集设备当前的FOV角度和/或AOV角度，可以包括：获取用户输入，基于用户输入确定图像采集设备当前的视野角度和视角角度；其中，用户输入包括用户从多个预设的画面显示模式中选择的画面显示模式；或者，用户输入包括用户手动设定的收音对象和/或收音区域。

在该实施例中，提供了两种获取图像采集设备当前的FOV角度和/或AOV角度的示例性方式，即自动模式和手动模式。其中，自动模式是指用户从多个预设的画面显示模式中选择一种画面显示模式，基于用户选择的画面显示模式，可自动确定图像采集设备当前的FOV角度和/或AOV角度。自动模式是指用户手动设定收音对象和/或收音区域，基于用户手动的设定，可换算出图像采集设备当前的FOV角度和/或AOV角度。无论是自动模式还是手动模式，均能反映出用户的需求，从而能够实现输出用户需求的期望收音范围内的声音。

下面首先讨论自动模式的示例。在本申请的实施例中，前述的多个预设的画面显示模式可以包括：固定角度模式、中心人脸模式和自动画框模式。其中，固定角度模式是指图像采集设备的视角中心保持不动、视野角度可调整的模式。在固定角度模式下，图像采集设备的AOV角度为0度，因此可根据用户选择的视野角度来计算期望收音范围。在一个示例中，提供120度、90度、60度、45度等多种视野角度的选项，可供用户选择，在用户选择后，可确定期望收音范围。中心人脸模式是指图像采集设备的视野角度内以最大人脸为视角中心的模式。在中心人脸模式下，随着最大人脸的移动或变化，AOV角度是可改变的，FOV角度也是可改变的，用户一旦选择该模式，可根据图像采集设备的视野角度的最大人脸实时获取FOV角度和AOV角度，从而确定期望收音范围。自动画框模式是指图像采集设备的视野角度内包含所有参会人的模式。在自动画框模式下，图像采集设备总在画面中显示所有参会人，因此同样可实时获取对应于显示画面的FOV角度和AOV角度，从而确定期望收音范围。

现在结合图8到图11描述手动模式。图8示出图像采集设备视野角度内包括多个声源的示意图。在图8所示的示例中，图像采集设备视野角度内包括3个声源，分别为声源1、声源2和声源3。假定用户期望接收声源1、声源2和声源3这三个声源，则可选定包含这三个声源的收音区域或者选定这三个声源，如图9所示的。基于此，可根据用户所框选的收音区域或收音对象换算出对应的FOV角度和AOV角度，从而确定期望收音范围。再如，用户期望仅接收声源3这一个声源，则可选定包含声源3的收音区域或者选定声源3，如图10所示的。基于此，可根据用户所框选的收音区域或收音对象换算出对应的FOV角度和AOV角度，从而确定期望收音范围。又如，用户期望接收声源1和声源3这两个声源，则可选定包含这两个声源的收音区域或者选定这两个声源，如图11所示的。基于此，可根据用户所框选的收音区域换算出对应的FOV角度和AOV角度，从而确定期望收音范围。

以上示例性地描述了根据本申请实施例的用于视频会议的声音处理方法中获取图像采集设备的FOV角度和/或AOV角度的示例。根据所获取的FOV角度和/或AOV角度，可确定出期望收音范围。基于期望收音范围，可对收音设备当前收集的声音数据进行过滤，输出该期望收音范围内的目标声音数据。

在本申请的实施例中，步骤S130中基于期望收音范围对声音数据进行过滤，输出期望收音范围内的目标声音数据，可以包括：基于期望收音范围确定用于波束形成的输出信号模型中的最佳权值向量和方向矢量；将声音数据、最佳权值向量以及方向矢量代入输出信号模型，得到目标声音数据。在该实施例中，提供了根据期望收音范围输出目标声音数据的示例方式——波束形成。

波束形成是利用多收音设备之间的相位差，来减少目标方向以外的声音的技术，不但能减少环境噪音，还能提升标的声的清晰度。波束形成有很多方式可以完成，上文所述实施例是以最小方差无失真响应(Minimum Variance Distortion Response，简称为MVDR)架构为例来描述的。在该实施例中，以均匀线性模型为例，用于波束形成的输出信号模型可以表示为：

其中，y(t)为输出的目标声音数据，x_i(t)为各路收音设备采集的声音数据，ω＝[ω₁,ω₂,...,ω_N]^T表示波束形成器的权值向量，T表示转置、H表示共轭转置。a(θ)为方向矢量(或称为导向矢量)，θ为前文得到的期望收音范围中的角度。在期望信号无失真的约束条件下，选择合适的滤波器系数，使得阵列输出的平均功率最小化，MVDR的权重优化问题可以表示为：

其中，a(θ_s)＝[a₁(θ)...a_M(θ)]^T表示声源方向和收音设备之间的传递函数，M为收音设备的数量，可以通过纯净语音信号达到每个收音设备的不同延迟时间τ计算得到。R_x为空间信号相关协方差矩阵，根据快拍次数估计得到。当在时间上彼此不相关的k个噪声信号从不同方向到达收音设备阵元时，空间相关协方差矩阵被定义为：

由此，可以解出最优权重为：

总体上，根据前文得到的期望收音范围，可计算得到方向矢量和该最优权重向量，将它们以及收音设备收集的声音数据代入前文的输出信号模型公式，即可得到目标声音数据。

基于上面的描述，根据本申请实施例的用于视频会议的声音处理方法根据视频会议中图像采集设备当前的视野角度来确定收音设备的期望收音范围，并仅输出期望收音范围内的目标声音数据，能够大大改善收音效果，提高用户体验。

下面结合图12和图13描述根据本申请另一方面提供的用于视频会议的装置。图12示出了根据本申请实施例的用于视频会议的装置1200的示意性框图。如图12所示，根据本申请实施例的用于视频会议的装置1200可以包括图像采集设备1210、收音设备1220、存储器1230和处理器1240，其中：图像采集设备1210用于针对视频会议采集图像；收音设备1220用于针对视频会议进行收音；存储器1230上存储有由处理器1240运行的计算机可读指令，指令在由处理器1240运行时，使得处理器1240执行前文所述根据本申请实施例的用于视频会议的声音处理方法100。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的用于视频会议的装置1200的各部件的结构和具体操作，为了简洁，此处不再赘述具体的细节，仅描述一些主要操作。

在本申请的实施例中，指令在由处理器1240运行时，使得处理器1240执行以下操作：获取视频会议图像采集设备1210当前的视野角度和收音设备1220当前收集的声音数据；至少根据视野角度确定收音设备1220的期望收音范围；基于期望收音范围对声音数据进行过滤，输出期望收音范围内的目标声音数据。

在本申请的实施例中，指令在由处理器1240运行时，还使得处理器1240执行以下操作：获取图像采集设备1210当前的视角角度；并且期望收音范围是根据视野角度和视角角度确定的。

在本申请的实施例中，装置1200还包括用户接口(未示出)，处理器1240获取图像采集设备1210当前的视野角度和视角角度，可以包括：经由用户接口获取用户输入，基于用户输入确定图像采集设备1210当前的视野角度和视角角度；其中，用户输入包括用户经由用户接口从多个预设的画面显示模式中选择的画面显示模式；或者，用户输入包括用户经由用户接口手动设定的收音对象和/或收音区域。

在本申请的实施例中，多个预设的画面显示模式包括以下中的至少两项：固定角度模式，固定角度模式是指图像采集设备1210的视角中心保持不动、视野角度可调整的模式；中心人脸模式，中心人脸模式是指图像采集设备1210的视野角度内以最大人脸为视角中心的模式；自动画框模式，自动画框模式是指图像采集设备1210的视野角度内包含所有参会人的模式。

在本申请的实施例中，处理器1240根据视野角度和视角角度确定期望收音范围，可以包括：根据视野角度和视角角度确定收音设备1220的最小收音角度和最大收音角度，从最小收音角度到最大收音角度的角度范围即为期望收音范围。

在本申请的实施例中，装置1200包括至少两个收音设备1220，图像采集设备1210位于至少两个收音设备1220的之间的中心位置，并且图像采集设备1210左右两侧具有相同数量的收音设备1220；最小声音角度等于90度加上视角角度再减去二分之一的视野角度；最大声音角度等于90度加上视角角度再加上二分之一的视野角度。

在本申请的实施例中，处理器1240基于期望收音范围对声音数据进行过滤，输出期望收音范围内的目标声音数据，可以包括：基于期望收音范围确定用于波束形成的输出信号模型中的最佳权值向量和方向矢量；将声音数据、最佳权值向量以及方向矢量代入输出信号模型，得到目标声音数据。

图13示出根据本申请实施例的用于视频会议的装置中图像采集设备和收音设备的位置关系的一个示例的示意图。如图13所示，在一个示例中，根据本申请实施例的用于视频会议的装置可以包括一个图像采集设备1310和四个收音设备1320，其中图像采集设备位于中心位置处，图像采集设备的左右两侧各自有两个收音设备。这样的位置关系可以采用前文实施例中所述的90+AOV-FOV/2～90+AOV+FOV/2来计算期望收音范围，如前文所描述的，此处不再赘述。

此外，根据本申请实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本申请实施例的用于视频会议的声音处理方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于视频会议的声音处理方法，其特征在于，所述方法包括：

获取视频会议中的图像采集设备当前的视野角度和收音设备当前收集的声音数据；

至少根据所述视野角度确定所述收音设备的期望收音范围；

基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述图像采集设备当前的视角角度；并且

所述期望收音范围是根据所述视野角度和所述视角角度确定的。

3.根据权利要求2所述的方法，其特征在于，获取所述图像采集设备当前的视野角度和视角角度，包括：

获取用户输入，基于所述用户输入确定所述图像采集设备当前的视野角度和视角角度；

其中，所述用户输入包括用户从多个预设的画面显示模式中选择的画面显示模式；或者，所述用户输入包括用户手动设定的收音对象和/或收音区域。

4.根据权利要求3所述的方法，其特征在于，所述多个预设的画面显示模式包括以下中的至少两项：

固定角度模式，所述固定角度模式是指所述图像采集设备的视角中心保持不动、视野角度可调整的模式；

中心人脸模式，所述中心人脸模式是指所述图像采集设备的视野角度内以最大人脸为视角中心的模式；

自动画框模式，所述自动画框模式是指所述图像采集设备的视野角度内包含所有参会人的模式。

5.根据权利要求2所述的方法，其特征在于，根据所述视野角度和所述视角角度确定所述期望收音范围，包括：

根据所述视野角度和所述视角角度确定所述收音设备的最小收音角度和最大收音角度，从所述最小收音角度到所述最大收音角度的角度范围即为所述期望收音范围。

6.根据权利要求5所述的方法，其特征在于，所述最小声音角度等于90度加上所述视角角度再减去二分之一的所述视野角度；

所述最大声音角度等于90度加上所述视角角度再加上二分之一的所述视野角度。

7.根据权利要求1所述的方法，其特征在于，所述基于所述期望收音范围对所述声音数据进行过滤，输出所述期望收音范围内的目标声音数据，包括：

基于所述期望收音范围确定用于波束形成的输出信号模型中的最佳权值向量和方向矢量；

将所述声音数据、所述最佳权值向量以及所述方向矢量代入所述输出信号模型，得到所述目标声音数据。

8.一种用于视频会议的装置，其特征在于，所述装置包括图像采集设备、收音设备、存储器和处理器，其中：

所述图像采集设备用于针对视频会议采集图像；

所述收音设备用于针对所述视频会议进行收音；

所述存储器上存储有由所述处理器运行的计算机可读指令，所述指令在由所述处理器运行时，使得所述处理器执行以下操作：

获取视频会议所述图像采集设备当前的视野角度和所述收音设备当前收集的声音数据；

至少根据所述视野角度确定所述收音设备的期望收音范围；

9.根据权利要求8所述的装置，其特征在于，所述指令在由所述处理器运行时，还使得所述处理器执行以下操作：

获取所述图像采集设备当前的视角角度；并且

10.根据权利要求9所述的装置，其特征在于，所述装置还包括用户接口，所述处理器获取所述图像采集设备当前的视野角度和视角角度，包括：

经由所述用户接口获取用户输入，基于所述用户输入确定所述图像采集设备当前的视野角度和视角角度；

其中，所述用户输入包括用户经由所述用户接口从多个预设的画面显示模式中选择的画面显示模式；或者，所述用户输入包括用户经由所述用户接口手动设定的收音对象和/或收音区域。

11.根据权利要求8所述的装置，其特征在于，所述处理器根据所述视野角度和所述视角角度确定所述期望收音范围，包括：

12.根据权利要求11所述的装置，其特征在于，所述最小声音角度等于90度加上所述视角角度再减去二分之一的所述视野角度；