CN111077496A

CN111077496A - 一种基于麦克风阵列的语音处理方法、装置及终端设备

Info

Publication number: CN111077496A
Application number: CN201911240992.4A
Authority: CN
Inventors: 夏严辉; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-28
Anticipated expiration: 2039-12-06
Also published as: CN111077496B

Abstract

本申请适用于语音处理技术领域，尤其涉及一种基于麦克风阵列的语音处理方法、装置及终端设备。所述语音处理方法包括获取麦克风阵列中各麦克风采集的初始语音数据，并利用初始语音数据进行声源定位，获取声源位置；根据声源位置确定麦克风阵列中的目标麦克风；控制目标麦克风进行目标语音数据的采集，并获取目标麦克风采集的目标语音数据；对目标语音数据进行语音处理，得到语音处理结果，以通过声源定位确定声源位置，并通过声源位置确定麦克风阵列中的目标麦克风，以通过目标麦克风来进行语音数据的采集，减少语音数据的采集量，降低系统资源的占用，并降低语音数据的合成难度和合成时间，提高语音数据的传输速度，提高语音处理的处理效率。

Description

一种基于麦克风阵列的语音处理方法、装置及终端设备

技术领域

本申请属于语音处理技术领域，尤其涉及一种基于麦克风阵列的语音处理方法、装置、计算机可读存储介质及终端设备。

背景技术

现有的终端设备一般是通过麦克风阵列来实现语音交互，即通过四麦的麦克风阵列、六麦的麦克风阵列、八麦的麦克风阵列、十二麦的麦克风阵列等对近距离或远距离中的语音数据进行采集，并将采集的语音数据合成后传输至终端设备中的处理装置，以通过终端设备中的处理装置对所有麦克风采集的语音数据进行降噪、回声消除等语音处理。也就是说，在近距离或者远距离的场景中，现有的语音处理均需要对麦克风阵列中所有麦克风的数据进行采集、合成、传输、拆分、分析等处理，极大地降低了语音处理的处理效率。

发明内容

本申请实施例提供了一种基于麦克风阵列的语音处理方法、装置、计算机可读存储介质及终端设备，可以解决现有的基于麦克风阵列的语音处理的处理效率低的问题。

第一方面，本申请实施例提供了一种基于麦克风阵列的语音处理方法，包括：

获取麦克风阵列中各麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；

根据所述声源位置确定所述麦克风阵列中的目标麦克风；

控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；

对所述目标语音数据进行语音处理，得到语音处理结果。

在第一方面的一种可能的实现方式中，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

获取所述麦克风阵列对应的阵列结构类型；

根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的距离条件；

确定所述麦克风阵列中各麦克风与所述声源位置之间的第一距离，并将所述第一距离满足所述距离条件的麦克风确定为所述目标麦克风。

在第一方面的另一种可能的实现方式中，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

获取所述麦克风阵列对应的阵列结构类型；

根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的声压条件；

获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，并将所述声压满足所述声压条件的麦克风确定为所述目标麦克风。

获取所述麦克风阵列对应的阵列结构类型；

根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的时间条件；

获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间，并将所述采集时间满足所述时间条件的麦克风确定为所述目标麦克风。

获取所述麦克风阵列与所述声源位置之间的第二距离，并根据所述第二距离确定所述目标麦克风对应的第二数量；

获取所述麦克阵列中各麦克风与所述声源位置之间的第三距离，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间；

根据所述第三距离和/或所述声压和/或所述采集时间从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风。

应理解，当根据所述声源位置确定的所述目标麦克风存在多个时，所述获取所述目标麦克风采集的所述目标语音数据，包括：

对各所述目标麦克风采集的各所述目标语音数据进行合成处理，得到合成后的合成语音数据；

相应地，所述对所述目标语音数据进行语音处理，得到语音处理结果，包括：

对所述合成语音数据进行语音处理，得到所述语音处理结果。

第二方面，本申请实施例提供了一种基于麦克风阵列的语音处理装置，包括：

声源定位模块，用于获取麦克风阵列中各麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；

目标麦克风确定模块，用于根据所述声源位置确定所述麦克风阵列中的目标麦克风；

目标语音采集模块，用于控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据

语音处理模块，用于对所述目标语音数据进行语音处理，得到语音处理结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的基于麦克风阵列的语音处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的基于麦克风阵列的语音处理方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的基于麦克风阵列的语音处理方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，首先获取麦克风阵列中所有麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；其次，根据所述声源位置确定所述麦克风阵列中的目标麦克风；然后，控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；最后，对所述目标语音数据进行语音处理，得到语音处理结果。即本申请实施例可通过声源定位确定声源位置，并通过声源位置确定麦克风阵列中的目标麦克风，以仅通过目标麦克风来进行语音数据的采集，减少语音数据的采集量，降低系统资源的占用，并可降低语音数据的合成难度和合成时间，提高语音数据的传输速度，从而极大地提高语音处理的处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请一实施例提供的环形麦克风阵列的结构示意图；

图1b是本申请一实施例提供的线性麦克风阵列的结构示意图；

图2是本申请一实施例提供的基于麦克风阵列的语音处理方法的流程示意图；

图3是本申请一实施例提供的基于麦克风阵列的语音处理方法在一个具体应用场景下确定目标麦克风的流程示意图；

图3a和图3b为本申请一实施例中根据不同声源位置在六麦环形麦克风阵列中确定的目标麦克风的示意图；

图3c和图3d为本申请一实施例中根据不同声源位置在七麦线性麦克风阵列中确定的目标麦克风的示意图；

图4是本申请一实施例提供的基于麦克风阵列的语音处理方法在另一个具体应用场景下确定目标麦克风的流程示意图；

图5是本申请实施例提供的基于麦克风阵列的语音处理装置的结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

具备语音交互或语音控制功能的终端设备(如语音机器人、手机、智能手环等)一般通过麦克风采集语音数据，并通过处理器等处理装置对语音数据进行处理来实现终端设备的语音交互或者语音控制功能。为确保终端设备具有良好的语音交互或语音控制效果，可通过麦克风阵列来进行语音数据的采集，例如可通过四麦、五麦、六麦、七麦、八麦、十二麦等包含多麦克风的麦克风阵列来进行语音数据的采集，其中，所述麦克风阵列可以为如图1a所示的环形麦克风阵列或者可以为如图1b所示的线性麦克风阵列，MIC表示所述麦克风阵列中的各麦克风。

应理解，现有的语音处理中一般首先将所有麦克风采集的多路语音数据合成一路语音数据，然后可将合成的一路语音数据传输至处理器，最后处理器可对接收到的一路语音数据进行拆分还原，并可对还原后的语音数据进行分析处理。即现有的语音处理不管在何种场景中，麦克风阵列的所有麦克风均始终需要进行语音数据的采集，所述终端设备也需对所有语音数据进行合成、传输、拆分和分析等处理，语音数据的采集量较大，不仅需占用较多的系统资源，而且易增加语音数据的合成难度和合成时间，并易降低语音数据的传输速度，从而极大地降低了语音处理的处理效率。

为解决上述技术问题，本申请实施例提供了一种基于麦克风阵列的语音处理方法、装置、计算机可读存储介质及终端设备，可通过声源定位确定声源位置，并通过声源位置确定麦克风阵列中的目标麦克风，以仅通过目标麦克风来进行语音数据的采集，减少语音数据的采集量，降低系统资源的占用，并可降低语音数据的合成难度和合成时间，提高语音数据的传输速度，从而极大地提高语音处理的处理效率。

如图2所示，本申请实施例提供了一种基于麦克风阵列的语音处理方法，所述语音处理方法，包括：

步骤S201、获取麦克风阵列中各麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；

本申请实施例中，所述麦克风阵列可以设置于语音机器人、手机、智能手环等终端设备中。在需要进行语音处理时，所述终端设备可首先控制所述麦克风阵列中的所有麦克风采集一小段的初始语音数据，如采集几秒或者几毫秒的初始语音数据，并可根据所有麦克风采集的初始语音数据来进行声源定位，以确定声源位置。在此，所述终端设备可以通过现有的声源定位方式来进行声源定位，本申请实施例对此不作限定。

步骤S202、根据所述声源位置确定所述麦克风阵列中的目标麦克风；

应理解，所述终端设备在确定出具体的声源位置后，可以根据所述声源位置确定所述麦克风阵列中的目标麦克风，以通过所述目标麦克风来进行后续语音数据的采集，例如，可以通过所述麦克风阵列中各麦克风与所述声源位置之间的距离或者通过各麦克风采集的来自所述声源位置的语音数据的采集时间或者通过各麦克风采集的语音数据对应的声压来确定所述麦克风阵列中的目标麦克风。

如图3所示，在一种可能的实现方式中，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，可以包括：

步骤S301、获取所述麦克风阵列对应的阵列结构类型；

应理解，所述阵列结构类型可以为如图1a所示的环形结构，也可以为如图1b所示的线性结构。本申请实施例中，可以根据所述终端设备的设备信息获取所述麦克风阵列的阵列结构类型，即可事先在所述终端设备的设备信息中标注所述麦克风阵列对应的阵列结构类型，如在设备信息中标注该终端设备对应的麦克风阵列为六麦的环形麦克风阵列，或者标注该终端设备对应的麦克风阵列为七麦的线性麦克风阵列等，因此，所述终端设备即可根据所述设备信息获取所述麦克风阵列的阵列结构类型。

步骤S302、根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的距离条件；

在此，所述终端设备在确定所述麦克风阵列对应的阵列结构类型之后，则可根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的距离条件。其中，所述距离条件可以为所述目标麦克风与所述声源位置之间的最大距离，所述最大距离可通过事先的语音测试确定，即可事先确定该阵列结构类型对应的麦克风阵列中各麦克风与所述声源位置之间的距离，并通过该麦克风阵列中的各麦克风对该声源位置产生的语音数据进行采集，随后可根据距离依次从各麦克风采集的语音数据中选择不同距离的语音数据来进行多次的语音处理，以根据多次的语音处理结果确定最大距离。

例如，第一次可以选择距离A对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果A；第二次可以在第一次选择的语音数据的基础上增加距离B对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果B；第三次可以在第二次选择的语音数据的基础上增加距离C对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果C，……，依次类推，第n次可以在第n-1次选择的语音数据的基础上增加距离N对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果N，其中，距离A<距离B<距离C<……<距离N。随后可分析语音处理结果A、语音处理结果B、语音处理结果C、……以及语音处理结果N，以根据语音处理结果对应的分析结果确定所述最大距离，假定根据分析结果确定语音处理结果C至语音处理结果N与语音处理结果B之间的差别很小(如差别小于预设的阈值)时，则可以认为距离C至距离N对应的麦克风所采集的语音数据对语音处理结果的影响较小，后续在利用该麦克风阵列对该声源位置所产生的语音数据进行语音处理时可控制距离C至距离N对应的麦克风不进行语音数据的采集，此时即可将语音处理结果B对应的距离B确定为所述最大距离。

步骤S303、确定所述麦克风阵列中各麦克风与所述声源位置之间的第一距离，并将所述第一距离满足所述距离条件的麦克风确定为所述目标麦克风。

应理解，所述终端设备在确定所述目标麦克风对应的距离条件后，即在所述目标麦克风对应的最大距离后，可以获取所述麦克风阵列中各麦克风与所述声源位置之间的第一距离，并可以根据所述第一距离来进行所述目标麦克风的确定，即可以将所述所述麦克风阵列中第一距离小于或等于所述最大距离的麦克风确定为所述麦克风阵列中的目标麦克风。例如，在六麦的环形麦克风阵列中可根据声源位置的不同确定出如图3a和图3b所示的目标麦克风，即图3a和图3b中的MIC表示所确定的目标麦克风。又如，在七麦的线性麦克风阵列中可根据声源位置的不同确定出如图3c和图3d所示的目标麦克风，图3c和图3d中的MIC表示所确定的目标麦克风。

在另一种可能的实现方式中，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，可以包括：

步骤a、获取所述麦克风阵列对应的阵列结构类型；

应理解，步骤a与前述步骤S301的内容相似，原理基本相同，在此不再赘述。

步骤b、根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的声压条件；

在此，所述终端设备在确定所述麦克风阵列对应的阵列结构类型之后，则可根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的声压条件。其中，所述声压条件可以为所述目标麦克风采集的语音数据需满足的最小声压，所述最小声压可以通过事先的语音测试确定，即可以事先通过该麦克风阵列中的各麦克风对该声源位置产生的语音数据进行采集，所采集的语音数据中可以包括所对应的声压。随后可以根据声压依次从各麦克风采集的语音数据中选择不同声压的语音数据来进行多次的语音处理，以根据多次的语音处理结果确定最小声压。

例如，第一次可以选择声压A对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果A；第二次可以在第一次选择的语音数据的基础上增加声压B对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果B；第三次可以在第二次选择的语音数据的基础上增加声压C对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果C，……，依次类推，第n次可以在第n-1次选择的语音数据的基础上增加声压N对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果N，其中，声压A>声压B>声压C>……>声压N。随后可分析语音处理结果A、语音处理结果B、语音处理结果C、……以及语音处理结果N，以根据语音处理结果对应的分析结果确定所述最小声压，假定根据分析结果确定语音处理结果D至语音处理结果N与语音处理结果C之间的差别很小(如差别小于预设的阈值)时，则可以认为声压D至声压N对应的麦克风所采集的语音数据对语音处理结果的影响较小，后续在利用该麦克风阵列对该声源位置所产生的语音数据进行语音处理时可控制声压D至声压N对应的麦克风不进行语音数据的采集，此时即可将语音处理结果C对应的声压C确定为所述最小声压。

步骤c、获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，并将所述声压满足所述声压条件的麦克风确定为所述目标麦克风。

应理解，所述终端设备在确定所述目标麦克风对应的声压条件后，即在确定所述目标麦克风对应的最小声压后，可获取所述麦克风阵列中各麦克风采集的所述初始语音数据中所对应的声压，并可根据所述声压来进行所述目标麦克风的确定，即可将所述麦克风阵列中声压大于或等于所述最小声压的初始语音数据所对应的麦克风确定为所述麦克风阵列中的目标麦克风。

步骤d、获取所述麦克风阵列对应的阵列结构类型；

应理解，步骤d与前述步骤S301的内容相似，原理基本相同，在此不再赘述。

步骤e、所述根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的时间条件；

在此，所述终端设备在确定所述麦克风阵列对应的阵列结构类型之后，则可根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的时间条件。其中，所述时间条件可以为所述目标麦克风采集的语音数据需满足的最小时延，所述最小时延可以通过事先的语音测试确定，即可以事先通过该麦克风阵列中的各麦克风对该声源位置产生的语音数据进行采集，并可获取各语音数据所对应的采集时间。随后可以根据采集时间依次从各麦克风采集的语音数据中选择不同采集时间的语音数据来进行多次的语音处理，以根据多次的语音处理结果确定最小时延。

例如，第一次可选择采集时间A对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果A；第二次可在第一次选择的语音数据的基础上增加采集时间B对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果B；第三次可在第二次选择的语音数据的基础上增加采集时间C对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果C，……，依次类推，第n次可以在第n-1次选择的语音数据的基础上增加采集时间N对应的麦克风所采集的语音数据来进行语音处理，得到语音处理结果N，其中，采集时间A<采集时间B<采集时间C<……<采集时间N，即采集时间A早于采集时间B，采集时间B早于采集时间C，等等。随后可分析语音处理结果A、语音处理结果B、语音处理结果C、……以及语音处理结果N，以根据语音处理结果对应的分析结果确定所述最小时延，假定根据分析结果确定语音处理结果C至语音处理结果N与语音处理结果B之间的差别很小(如差别小于预设的阈值)时，则可以认为采集时间C至采集时间N对应的麦克风所采集的语音数据对语音处理结果的影响较小，后续在利用该麦克风阵列对该声源位置所产生的语音数据进行语音处理时可控制采集时间C至采集时间N对应的麦克风不进行语音数据的采集，此时可将语音处理结果C对应的采集时间C与语音处理结果A对应的采集时间A之间的时延确定为所述最小时延，即可将采集时间C与采集时间A之间的时间差确定为所述最小时延。

步骤f、获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间，并将所述采集时间满足所述时间条件的麦克风确定为所述目标麦克风。

应理解，所述终端设备在确定所述目标麦克风对应的时间条件后，即在确定所述目标麦克风对应的最小时延后，可首先获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间，并可从各所述采集时间中确定出最早的采集时间，随后可根据各所述采集时间与该最早的采集时间确定各所述麦克分对应的采集时延，并根据所述采集时延来进行所述目标麦克风的确定，即可将所述麦克风阵列中采集时延小于或等于所述最小时延的语音数据对应的麦克风确定为所述麦克风阵列中的目标麦克风。

如图4所示，在另一种可能的实现方式中，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，可以包括：

步骤S401、获取所述麦克风阵列与所述声源位置之间的第二距离，并根据所述第二距离确定所述目标麦克风对应的第二数量；

在此，所述麦克风阵列与所述声源位置之间的第二距离可以为所述麦克风阵列的中心位置与所述声源位置之间的距离，即所述终端设备可首先确定所述麦克风阵列的中心位置，随后计算所述中心位置与所述声源位置之间的第二距离。

本申请实施例中，可预先设置各距离范围所需的麦克风的最小数量，如可通过实验测试确定各距离范围所需的麦克风的最小数量，所述最小数量即为在该距离范围内达到最佳的语音处理效果所需的麦克风的最少数量。因此，当获取所述麦克风阵列与所述声源位置之间的第二距离后，所述终端设备即可确定所述第二距离所属的距离范围，从而可根据所述第二距离所属的距离范围确定所述目标麦克风对应的最小数量，即上述所述的第二数量。

步骤S402、获取所述麦克阵列中各麦克风与所述声源位置之间的第三距离，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间；

步骤S403、根据所述第三距离和/或所述声压和/或所述采集时间从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风。

对于上述步骤S402和步骤S403，所述终端设备还可获取所述麦克风阵列中各麦克风与所述声源位置之间的第三距离，并可根据所述第三距离从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，如可根据第三距离由小至大的顺序从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，即可从所述麦克风阵列中选取第三距离最小的前N个麦克风来作为目标麦克风，其中，N等于所述第二数量。

可选地，所述终端设备还可获取所述麦克风阵列中各麦克风采集的所述初始语音数据中所对应的声压，并可根据所述声压从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，如可根据声压由大至小的顺序从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，即可从所述麦克风阵列中选取声压最大的前N个麦克风来作为目标麦克风，其中，N等于所述第二数量。

可选地，所述终端设备还可获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间，并可根据所述采集时间从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，如可根据采集时间由近至远的顺序从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风，即可从所述麦克风阵列中选取采集时间距离当前时间最近的前N个麦克风来作为目标麦克风，其中，N等于所述第二数量。

应理解，所述终端设备还可以通过对第三距离、声压和采集时间中的两个或者三个进行综合考虑来确定所述麦克风阵列中的目标麦克风，例如，可分别为第三距离、声压和采集时间设置对应的权重，然后可根据第三距离、声压和采集时间中的两个或者三个以及所对应的权重来确定所述麦克风阵列中的目标麦克风。

步骤S203、控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；

需要说明的是，所述终端设备在确定出所述麦克风阵列中的目标麦克风之后，可控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据，即可关闭所述麦克风阵列中的非目标麦克风的语音采集功能，以仅通过所述目标麦克风来进行目标语音数据的采集与传输，减少语音数据的采集量，从而减少对所述终端设备中系统资源的占用。

步骤S204、对所述目标语音数据进行语音处理，得到语音处理结果。

应理解，所述终端设备在获取到所述目标语音数据后，即可对所述目标语音数据进行语音处理，得到语音处理处理结果，如对所述目标语音数据进行去噪、回声消除以及后续的声源定位等处理，得到经过去噪和/或回声消除后的干净语音数据或者得到声源定位数据等。

可选地，当根据所述声源位置确定多个所述目标麦克风时，所述获取所述目标麦克风采集的所述目标语音数据，包括：

相应地，所述对所述目标语音数据进行语音处理，得到语音处理结果，包括：对所述合成语音数据进行语音处理，得到所述语音处理结果。

需要说明的是，本申请实施例中可通过所述终端设备中的处理器等处理装置对所述目标语音数据进行语音处理，因此，所述终端设备在获取到多个所述目标麦克风所采集的目标语音数据之后，可以对各所述目标语音数据进行合成处理，以将各所述目标语音数据合成一路合成语音数据后传输至所述处理器等处理装置中，所述处理器等处理装置则可对所述合成语音数据进行拆分，并可对拆分后的各目标语音数据进行语音处理，来得到语音处理结果。即本申请实施例中，可以通过减少语音数据的采集量来减少语音数据的合成难度和合成时间，并可加快语音数据的传输时间，从而可极大地提高语音数据的处理效率。

本申请实施例，首先获取麦克风阵列中各麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；其次，根据所述声源位置确定所述麦克风阵列中的目标麦克风；然后，控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；最后，对所述目标语音数据进行语音处理，得到语音处理结果。即本申请实施例可通过声源定位确定声源位置，并通过声源位置确定麦克风阵列中的目标麦克风，以仅通过目标麦克风来进行语音数据的采集，减少语音数据的采集量，降低系统资源的占用，并可降低语音数据的合成难度和合成时间，提高语音数据的传输速度，从而极大地提高语音处理的处理效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的基于麦克风阵列的语音处理方法，图5示出了本申请实施例提供的基于麦克风阵列的语音处理装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，所述语音处理装置，包括：

声源定位模块501，用于获取麦克风阵列中各麦克风采集的初始语音数据，并利用所述初始语音数据进行声源定位，获取声源位置；

目标麦克风确定模块502，用于根据所述声源位置确定所述麦克风阵列中的目标麦克风；

目标语音采集模块503，用于控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；

语音处理模块504，用于对所述目标语音数据进行语音处理，得到语音处理结果。

在一种可能的实现方式中，所述目标麦克风确定模块502，可以包括：

阵列结构获取单元，用于获取所述麦克风阵列对应的阵列结构类型；距离条件确定单元，用于根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的距离条件；

第一距离确定单元，用于确定所述麦克风阵列中各麦克风与所述声源位置之间的第一距离，并将所述第一距离满足所述距离条件的麦克风确定为所述目标麦克风。

在另一种可能的实现方式中，所述目标麦克风确定模块502，可以包括：

阵列结构获取单元，用于获取所述麦克风阵列对应的阵列结构类型；

声压条件确定单元，用于根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的声压条件；

声压获取单元，用于获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，并将所述声压满足所述声压条件的麦克风确定为所述目标麦克风。

时间条件确定单元，用于所述根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的时间条件；

采集时间获取单元，用于获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间，并将所述采集时间满足所述时间条件的麦克风确定为所述目标麦克风。

在一种可能的实现方式中，所述目标麦克风确定模块502，还可以包括：

第二距离获取单元，用于获取所述麦克风阵列与所述声源位置之间的第二距离，并根据所述第二距离确定所述目标麦克风对应的第二数量；

第三距离获取单元，用于获取所述麦克阵列中各麦克风与所述声源位置之间的第三距离，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的声压，和/或获取所述麦克风阵列中各麦克风采集的所述初始语音数据对应的采集时间；

目标麦克风确定单元，用于根据所述第三距离和/或所述声压和/或所述采集时间从所述麦克风阵列中选取所述第二数量的麦克风作为所述目标麦克风。

应理解，当根据所述声源位置确定的所述目标麦克风存在多个时，所述目标语音采集模块503，还用于对各所述目标麦克风采集的各所述目标语音数据进行合成处理，得到合成后的合成语音数据；

相应地，所述语音处理模块504，还用于对所述合成语音数据进行语音处理，得到所述语音处理结果。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图6为本申请一实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个基于麦克风阵列的语音处理方法实施例中的步骤。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所述处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于麦克风阵列的语音处理方法，其特征在于，包括：

根据所述声源位置确定所述麦克风阵列中的目标麦克风；

对所述目标语音数据进行语音处理，得到语音处理结果。

2.如权利要求1所述的语音处理方法，其特征在于，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

获取所述麦克风阵列对应的阵列结构类型；

3.如权利要求1所述的语音处理方法，其特征在于，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

获取所述麦克风阵列对应的阵列结构类型；

4.如权利要求1所述的语音处理方法，其特征在于，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

获取所述麦克风阵列对应的阵列结构类型；

5.如权利要求1所述的语音处理方法，其特征在于，所述根据所述声源位置确定所述麦克风阵列中的目标麦克风，包括：

6.如权利要求1至5中任一项所述的语音处理方法，其特征在于，当根据所述声源位置确定的所述目标麦克风存在多个时，所述获取所述目标麦克风采集的所述目标语音数据，包括：

7.一种基于麦克风阵列的语音处理装置，其特征在于，包括：

目标语音采集模块，用于控制所述目标麦克风进行目标语音数据的采集，并获取所述目标麦克风采集的所述目标语音数据；

8.如权利要求7所述的语音处理装置，其特征在于，所述目标麦克风确定模块，包括：

距离条件确定单元，用于根据所述阵列结构类型和所述声源位置确定所述目标麦克风对应的距离条件；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于麦克风阵列的语音处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于麦克风阵列的语音处理方法。