CN117412223A

CN117412223A - 远场拾音的方法、装置、设备与存储介质

Info

Publication number: CN117412223A
Application number: CN202311721537.2A
Authority: CN
Inventors: 熊悦; 李庆余; 熊晨阳; 黄智�
Original assignee: Shenzhen Shengfeite Technology Co ltd
Current assignee: Shenzhen Shengfeite Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-01-16

Abstract

本发明涉及语音识别的技术领域，公开了一种远场拾音的方法、装置、设备与存储介质；本发明根据麦克风阵列中各个麦克风的预设运动区域和当前位置信息构建出麦克风阵列的远场拾音预测模型，以判断目标声源是否处于麦克风阵列的最佳拾音区域，并根据目标声源的实际位置推算出该如何调节麦克风阵列中各个麦克风的位置，以使得目标声源处于麦克风阵列的最佳拾音区域，从而确保麦克风阵列的拾音效果，解决了现有技术中麦克风阵列在远场声源位置不断变化的场景中远场拾音效果相对不佳的问题。

Description

远场拾音的方法、装置、设备与存储介质

技术领域

本发明涉及语音识别的技术领域，尤其是一种远场拾音的方法、装置、设备与存储介质。

背景技术

麦克风是一种应用于音声领域的人机交互设备，可用于对人声进行采集，目标麦克风的拾音技术可大致分为近场拾音技术和远场拾音技术，一般超过一米之外就可以认为是属于远场拾音技术的范围。

在现有技术中，为了减少环境噪声的影响，通常使用麦克风阵列来进行远场拾音，麦克风阵列是一种通过设置多个麦克风进行音声采集的技术，当远场声源的位置较为固定时，麦克风阵列进行有效的声音采集，但在远场声源位置不断进行变换的场景（例如舞台表演、教学展示等）中，麦克风阵列的远场拾音效果会有所下降。

发明内容

本发明的目的在于提供一种远场拾音的方法、装置、设备与存储介质，旨在解决现有技术中麦克风阵列在远场声源位置不断变化的场景中远场拾音效果相对不佳的问题。

本发明是这样实现的，第一方面，本发明提供一种远场拾音的方法，包括：

获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，根据所述麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型；所述远场拾音预测模型用于描述所述麦克风阵列中各个麦克风的当前位置信息和所述麦克风阵列的最佳拾音区域之间的对应关系；

获取目标声源的位置信息，并将所述目标声源的位置信息代入至所述远场拾音预测模型中，以判断所述目标声源是否处于所述麦克风阵列的最佳拾音区域；

若判断的结果显示所述目标声源未处于所述麦克风阵列的最佳拾音区域，则将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中，以得到对应所述目标拾音区域的所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息，并根据所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息对所述麦克风阵列的各个麦克风进行位置调节。

优选地，获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，根据所述麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型的步骤包括：

获取所述麦克风阵列的各个麦克风的预设运动区域，根据所述麦克风阵列的各个麦克风的预设运动区域构建各个拾音单元预设区域和对应各个所述拾音单元预设区域的拾音效果区域，并在各个所述拾音单元预设区域中建立用于代表麦克风的拾音单元模型；所述拾音效果区域用于描述所述拾音单元模型在所述拾音单元预设区域中对外部不同位置的拾音效果；

持续对所述麦克风阵列的各个麦克风的当前位置信息进行采集，并根据采集的结果确定各个所述拾音单元模型在对应的所述拾音单元预设区域中的位置；

根据各个所述拾音单元模型在对应的所述拾音单元预设区域中的位置确定对应各个所述拾音单元模型的所述拾音效果区域；

将各个所述拾音效果区域进行叠加处理，得到所述最佳拾音区域，以构建远场拾音预测模型。

优选地，将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中，以得到对应所述目标拾音区域的所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息的步骤包括：

将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中；

以令所述目标拾音区域成为所述最佳拾音区域为目标，对各个所述拾音单元模型的所述拾音效果区域进行调节，获取当所述目标拾音区域为所述最佳拾音区域时，各个所述拾音单元模型在所述拾音单元预设区域中的位置信息，并将所述位置信息作为所述麦克风阵列的各个麦克风在各自预设运动区域的目标位置信息。

优选地，还包括：

将所述目标声源的位置信息代入至所述远场拾音预测模型，计算所述目标声源的预期拾音音量；

获取所述麦克风阵列接收到的实际拾音音量，并将所述实际拾音音量与所述预期拾音音量进行对比分析，获取所述目标声源的实际拾音音量与预期拾音音量的差值，并根据差值对所述远场拾音预测模型中各个所述拾音效果区域进行对应调整。

优选地，所述拾音效果区域包括水平拾音区域和垂直拾音区域，所述水平拾音区域由所述麦克风在所述预设运动区域的位置决定，所述垂直拾音区域由所述麦克风的朝向角度决定。

第二方面，本发明提供一种远场拾音的装置，包括：

模型构建单元，用于获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，根据所述麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型；所述远场拾音预测模型用于描述所述麦克风阵列中各个麦克风的当前位置信息和所述麦克风阵列的最佳拾音区域之间的对应关系；

实时判断单元，用于获取目标声源的位置信息，并将所述目标声源的位置信息代入至所述远场拾音预测模型中，以判断所述目标声源是否处于所述麦克风阵列的最佳拾音区域；

拾音调节单元，用于当判断的结果显示所述目标声源未处于所述麦克风阵列的最佳拾音区域，则将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中，以得到对应所述目标拾音区域的所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息，并根据所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息对所述麦克风阵列的各个麦克风进行位置调节。

第三方面，本发明提供一种远场拾音的设备，包括：

信息采集装置、数据处理装置、麦克风调节装置；

所述数据处理装置分别与所述信息采集装置和所述麦克风调节装置电连接，所述数据处理装置用于实现第一方面任意一项的一种远场拾音的方法，所述信息采集装置用于对目标声源的位置信息进行采集，所述麦克风调节装置用于设置麦克风并对麦克风进行位置调节。

第四方面，本发明提供一种远场拾音的存储介质，用于存储第一方面任意一项所述的一种远场拾音的方法。

本发明提供了一种远场拾音的方法，具有以下有益效果：

本发明根据麦克风阵列中各个麦克风的预设运动区域和当前位置信息构建出麦克风阵列的远场拾音预测模型，以判断目标声源是否处于麦克风阵列的最佳拾音区域，并根据目标声源的实际位置推算出该如何调节麦克风阵列中各个麦克风的位置，以使得目标声源处于麦克风阵列的最佳拾音区域，从而确保麦克风阵列的拾音效果，解决了现有技术中麦克风阵列在远场声源位置不断变化的场景中远场拾音效果相对不佳的问题。

附图说明

图1是本发明实施例提供的一种远场拾音的方法的步骤示意图；

图2是本发明实施例提供的一种远场拾音的装置的结构示意图；

图3是本发明实施例提供的一种远场拾音的设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

以下结合具体实施例对本发明的实现进行详细的描述。

参照图1所示，为本发明提供较佳实施例。

第一方面，本发明提供一种远场拾音的方法，包括：

S1：获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，根据所述麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型；所述远场拾音预测模型用于描述所述麦克风阵列中各个麦克风的当前位置信息和所述麦克风阵列的最佳拾音区域之间的对应关系；

S2：获取目标声源的位置信息，并将所述目标声源的位置信息代入至所述远场拾音预测模型中，以判断所述目标声源是否处于所述麦克风阵列的最佳拾音区域；

S3：若判断的结果显示所述目标声源未处于所述麦克风阵列的最佳拾音区域，则将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中，以得到对应所述目标拾音区域的所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息，并根据所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息对所述麦克风阵列的各个麦克风进行位置调节。

具体地，麦克风阵列是一种通过设置多个麦克风进行音声采集的技术，根据麦克风阵列的具体设置方式不同，麦克风阵列对应的最佳拾音区域也不同，一般在实际运用中，会预先确定目标声源的位置信息，再根据目标声源的位置信息进行麦克风阵列的设计与设置，也就是说，通过麦克风阵列可以对固定位置的目标声源进行最佳效果的采集。

可以理解的是，当麦克风阵列中各个麦克风的设置位置固定时，麦克风阵列的最佳拾音区域也随之固定，当目标声源的位置不变化时，麦克风阵列能够保持着最佳的拾音效果，而在目标声源的位置会不断发生变化的场合中，例如舞台表演、教学展示等，麦克风阵列的无法时时保持着最佳的拾音效果。

因此，本发明提供一种远场拾音的方法，在这种方法中，麦克风阵列的各个麦克风的位置并非固定不变的，每个麦克风均安装在麦克风调节装置上，麦克风调节装置可以在一定范围内对麦克风的位置和方向进行调节，从而实现对整个麦克风阵列的最佳拾音区域的调节。

具体地，在本发明提供的方法的步骤S1中，获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，其中，预设运动区域是麦克风调节装置能够驱动麦克风运动的最大范围，当前位置信息是麦克风调节装置当前的驱动麦克风的位置信息。

更具体地，根据麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型，远场拾音预测模型是用于描述麦克风阵列的各个麦克风的当前位置信息与麦克风阵列的最佳拾音区域之间的对应关系。

也就是说，远场拾音预测模型可以根据麦克风阵列中的各个麦克风的当前位置信息推算出当前麦克风阵列的最佳拾音区域，同时也可以返过来预设一个最佳拾音区域，并反推出此时的麦克风阵列中各个麦克风应该处于什么位置，需要注意的是，在这一推算过程中，麦克风不能超出预设运动区域的范围。

在本发明提供的方法的步骤S2中，获取目标声源的位置信息，并将目标声源的位置信息代入至远场拾音预测模型中，以判断目标声源是否处于麦克风阵列的最佳拾音区域，若目标声源停留在最佳拾音区域，则此时麦克风阵列无需进行调节，若判断的结果显示目标声源未处于麦克风阵列的最佳拾音区域，则需要进行下一步骤。

在本发明提供的方法的步骤S3中，将目标声源的位置信息设定为目标拾音区域，并将目标拾音区域代入至远场拾音预测模型中，以得到对应目标拾音区域的麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息，可以理解的是，这一步骤就对应着上述段落中描述的远场拾音预测模型的反推功能，也就是说，以将目标拾音区域化作麦克风阵列的最佳拾音区域为目标，对麦克风阵列中各个麦克风的位置信息进行推算。

更具体地，通过推算得到的各个麦克风的位置信息，即是为了实现目标声源所在的目标拾音区域化作麦克风阵列的最佳拾音区域，麦克风阵列中各个麦克风应当调节至的目标位置信息，因此，根据推算获取的目标位置信息对各个麦克风进行调节，以实现目标拾音区域与最佳拾音区域的一致。

本发明提供了一种远场拾音的方法，具有以下有益效果：

S11：获取所述麦克风阵列的各个麦克风的预设运动区域，根据所述麦克风阵列的各个麦克风的预设运动区域构建各个拾音单元预设区域和对应各个所述拾音单元预设区域的拾音效果区域，并在各个所述拾音单元预设区域中建立用于代表麦克风的拾音单元模型；所述拾音效果区域用于描述所述拾音单元模型在所述拾音单元预设区域中对外部不同位置的拾音效果；

S12：持续对所述麦克风阵列的各个麦克风的当前位置信息进行采集，并根据采集的结果确定各个所述拾音单元模型在对应的所述拾音单元预设区域中的位置；

S13：根据各个所述拾音单元模型在对应的所述拾音单元预设区域中的位置确定对应各个所述拾音单元模型的所述拾音效果区域；

S14：将各个所述拾音效果区域进行叠加处理，得到所述最佳拾音区域，以构建远场拾音预测模型。

具体地，获取麦克风阵列的各个麦克风的预设运动区域，根据麦克风阵列的各个麦克风的预设运动区域构建各个拾音单元预设区域和对应各个拾音单元预设区域的拾音效果区域，并在各个拾音单元预设区域中建立用于代表麦克风的拾音单元模型。

需要说明的是，拾音单元模型用于代表麦克风，拾音单元预设区域用于代表麦克风的预设运动区域，也就是说，拾音单元模型的运动不能超出拾音单元预设区域，每个拾音单元模型均具有自己的拾音效果区域，由于每个拾音单元模型分别处在一个拾音单元预设区域之中，因此各个拾音效果区域分别与拾音单元预设区域一一对应。

更具体地，拾音效果区域用于描述拾音单元模型在拾音单元预设区域中对外部不同位置的拾音效果，因此每个拾音单元预设区域的拾音效果区域并非固定不变的，而是随着拾音单元预设区域中的拾音单元模型的具体位置而不断发生变化。

更具体地，持续对麦克风阵列的各个麦克风的当前位置信息进行采集，并根据采集的结果确定各个拾音单元模型在对应的拾音单元预设区域中的位置，由于拾音效果区域取决于拾音单元预设区域中的拾音单元模型的具体位置，那么根据各个拾音单元模型在对应的拾音单元预设区域中的位置确定对应各个拾音单元模型的拾音效果区域。

需要说明的是，不同型号的麦克风的拾音能力是不同的，也就是说，当不同型号的麦克风处于同样的位置时，它们的拾音效果区域也是存在差异的，因此在根据拾音单元预设区域中的拾音单元模型生成拾音效果区域时，还要考虑到麦克风的型号带来的拾音能力的差异，具体地，在预设的数据库中存储各项型号的麦克风所对应的拾音效果区域，在实际运作时从数据库中调取对应数据即可。

需要说明的是，拾音效果区域的表现形式是，将拾音单元预设区域之外的各个区域划分为若干个区块，不同的区块代表着不同的位置范围，这些区块分别被赋予不同的编号，用于描述该区块所代表的位置范围的声源对该拾音单元预设区域中的麦克风的拾音效果的优劣。

因此，在获得了各个拾音效果区域后，对各个拾音效果区域进行叠加，当某个位置范围能够给麦克风阵列中的各个麦克风带来最优的拾音效果，就可以将该位置范围划定为最佳拾音区域。

需要注意的是，麦克风阵列的各个麦克风的位置是可以调整的，在条件允许的情况下，应当对各个麦克风的位置进行调整，以令每个麦克风的拾音效果区域中的最佳板块叠加在一起，得到最佳拾音区域。

S31：将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中；

S32：以令所述目标拾音区域成为所述最佳拾音区域为目标，对各个所述拾音单元模型的所述拾音效果区域进行调节，获取当所述目标拾音区域为所述最佳拾音区域时，各个所述拾音单元模型在所述拾音单元预设区域中的位置信息，并将所述位置信息作为所述麦克风阵列的各个麦克风在各自预设运动区域的目标位置信息。

具体地，远场拾音预测模型是一种预测模型，可以通过麦克风阵列中的各个拾音单元预设区域中的拾音单元模型的具体位置信息获取麦克风阵列的最佳拾音区域。

需要说明的是，远场拾音预测模型的这一功能可以看做是一种映射关系，即因素A通过映射B得到结果C，当映射B确定时，可以通过因素A计算出结果C，也可以通过结果C推算出因素A，在本发明中，拾音单元预设区域中的拾音单元模型的具体位置信息是因素A，远场拾音预测模型是映射B，最佳拾音区域是结果C。

更具体地，关于映射关系的计算，目前技术中通常采用两种方式，一种是构建计算程序，通过即时演算来处理映射关系，一种是通过卷积神经网络，基于大量的成对的因素A和结果C的数据进行训练，从而用于处理映射关系的人工智能模型。

具体地，在本发明提供的实施例中，将目标声源的位置信息设定为目标拾音区域，并将目标拾音区域代入至远场拾音预测模型中，以令目标拾音区域成为最佳拾音区域为目标，对各个拾音单元模型的拾音效果区域进行调节，获取当目标拾音区域为所述最佳拾音区域时，各个拾音单元模型在拾音单元预设区域中的位置信息，并将位置信息作为麦克风阵列的各个麦克风在各自预设运动区域的目标位置信息。

也就是说，将目标声源的位置信息设定为目标拾音区域，并将目标拾音区域设定为映射关系中的结果C，当映射B和结果C已知时，既可以推算出映射关系中的因素A，也就是各个拾音单元预设区域中的拾音单元模型的位置信息，即各个预设运动区域中麦克风应当运动至的目标位置信息。

优选地，还包括：

S41：将所述目标声源的位置信息代入至所述远场拾音预测模型，计算所述目标声源的预期拾音音量；

S42：获取所述麦克风阵列接收到的实际拾音音量，并将所述实际拾音音量与所述预期拾音音量进行对比分析，获取所述目标声源的实际拾音音量与预期拾音音量的差值，并根据差值对所述远场拾音预测模型中各个所述拾音效果区域进行对应调整。

具体地，目标声源的音量大小会影响麦克风的拾音状况，当麦克风与目标声源之间的相对位置关系不变时，目标声源的音量高低会对麦克风的拾音效果造成影响，例如，当目标声源的音量过低时，麦克风采集到的声音音量会低于预期的音量，此时麦克风的拾音效果较为不佳，应当驱动麦克风向目标声源靠近，以提升拾音效果。

更具体地，麦克风阵列对目标声源的采集到的声音的音量应当控制在一个范围内，为麦克风阵列中的每个麦克风设置预期采集音量的范围，那么将目标声源的位置信息代入至远场拾音预测模型中时，就可以得到该目标声源的预期拾音音量。

更具体地，获取麦克风阵列接收到的实际拾音音量，并将实际拾音音量与预期拾音音量进行对比分析，获取目标声源的实际拾音音量与预期拾音音量的差值，可以理解的是，这个差值代表着目标声源的实际音量与预期音量的差距，也就是说，根据这个差值可以获知麦克风阵列应当更接近目标声源或更远离目标声源。

优选地，拾音效果区域包括水平拾音区域和垂直拾音区域，所述水平拾音区域由所述麦克风在所述预设运动区域的位置决定，所述垂直拾音区域由所述麦克风的朝向角度决定。

具体地，水平拾音区域是水平面上的拾音区域，垂直拾音区域是基于水平拾音区域的垂直方向上的拾音区域，一般情况下，只需考虑水平拾音区域来获得最佳拾音区域即可，垂直拾音区域是一种可根据具体场景选择是否加入的附加技术要素。

需要说明的是，当麦克风与目标声源的朝向角度不同时，麦克风对目标声源的拾音效果也会不同，当目标声源来自于人体时，人体的高度决定了声源位置与麦克风之间的朝向角度，垂直拾音区域的引入可以实现根据目标声源的高度进行麦克风的调节，以实现最佳化的拾音效果。

更具体地，在之前的描述中，可得知对各个拾音效果区域进行叠加处理的方式是先将每个拾音效果区域划分为若干等级的区块，并计算不同位置处同时存在哪些拾音效果区域的区块，以最终确定最佳拾音区域，这一方式即可以使用在水平拾音区域中，还可以使用在垂直拾音区域中。

参阅图2，第二方面，本发明提供一种远场拾音的装置，包括：

本发明提供的一种远场拾音的装置中的各个单元根据第一方面的一种远场拾音的方法进行运行，因此在此不对各单元的作用进行赘述。

参阅图3，第三方面，本发明提供一种远场拾音的设备，包括：

信息采集装置、数据处理装置、麦克风调节装置；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种远场拾音的方法，其特征在于，包括：

2.如权利要求1所述的一种远场拾音的方法，其特征在于，获取麦克风阵列的各个麦克风的预设运动区域和当前位置信息，根据所述麦克风阵列的各个麦克风的预设运动区域和当前位置信息构建远场拾音预测模型的步骤包括：

3.如权利要求2所述的一种远场拾音的方法，其特征在于，将所述目标声源的位置信息设定为目标拾音区域，并将所述目标拾音区域代入至所述远场拾音预测模型中，以得到对应所述目标拾音区域的所述麦克风阵列的各个麦克风在各自预设运动区域内的目标位置信息的步骤包括：

4.如权利要求2所述的一种远场拾音的方法，其特征在于，还包括：

5.如权利要求2所述的一种远场拾音的方法，其特征在于，所述拾音效果区域包括水平拾音区域和垂直拾音区域，所述水平拾音区域由所述麦克风在所述预设运动区域的位置决定，所述垂直拾音区域由所述麦克风的朝向角度决定。

6.一种远场拾音的装置，其特征在于，包括：

7.一种远场拾音的设备，其特征在于，包括：

信息采集装置、数据处理装置、麦克风调节装置；

所述数据处理装置分别与所述信息采集装置和所述麦克风调节装置电连接，所述数据处理装置用于实现权利要求1-5任意一项的一种远场拾音的方法，所述信息采集装置用于对目标声源的位置信息进行采集，所述麦克风调节装置用于设置麦克风并对麦克风进行位置调节。

8.一种远场拾音的存储介质，其特征在于，用于存储权利要求1-5任意一项所述的一种远场拾音的方法。