CN110310642B

CN110310642B - 语音处理方法、系统、客户端、设备和存储介质

Info

Publication number: CN110310642B
Application number: CN201810230885.2A
Authority: CN
Inventors: 邵松松; 薛彬; 都家宇; 李威; 罗杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2023-12-26
Anticipated expiration: 2038-03-20
Also published as: CN110310642A

Abstract

本申请实施例提供了一种语音处理方法、系统、客户端、设备和存储介质，其中的系统具体包括：麦克风阵列和移动设备；其中，所述麦克风阵列与所述移动设备之间耦合；所述移动设备包括：处理器；所述处理器，用于通过所述麦克风阵列接收声源的语音信号，依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。本申请实施例可以便于语音识别结果的区分。

Description

语音处理方法、系统、客户端、设备和存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音处理方法及装置、一种设备和一种存储介质。

背景技术

语音是最自然的交流沟通方式之一。语音识别技术是让机器通过识别和理解过程把语音识别转换为相应的文本或命令的技术。语音识别技术可被应用于语音输入、通话、会议、访谈等场景。

目前，在访谈场景下，访谈者可以通过录音笔采集访谈现场的语音，并在访谈结束后，通过语音识别技术将采集的语音转换为文本，例如，导出录音笔的录音文件，并将录音文件上传到网络以对其进行语音转写，最终得到录音文件对应的访谈内容。

然而，目前通常仅仅能够通过语音识别技术将采集的语音转换为文本，由于得到的语音识别结果中可能包括多个说话人的文本，因此不利于语音识别结果的区分。

发明内容

本申请实施例所要解决的技术问题是提供一种语音处理方法，可以便于语音识别结果的区分。

相应的，本申请实施例还提供了一种语音处理装置、一种语音处理系统、一种客户端、一种设备和一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种语音处理系统，包括：麦克风阵列和移动设备；

其中，所述麦克风阵列与所述移动设备之间耦合；

所述移动设备包括：处理器；

所述处理器，用于通过所述麦克风阵列接收声源的语音信号，依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。

本申请实施例还公开了一种语音处理方法，包括：

通过麦克风阵列接收声源的语音信号；

依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。

本申请实施例还公开了一种客户端，包括：

接收模块，用于通过麦克风阵列接收声源的语音信号；

分离模块，用于依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。

本申请实施例还公开了一种设备，其特征在于，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如本申请实施例中一个或多个所述的语音处理方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如本申请实施例中一个或多个所述的语音处理方法。

本申请实施例包括以下优点：

本申请实施例利用麦克风阵列采集声源的语音信号，并依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；因此可以通过空间信息实现对于语音信号结果的区分，进而可以便于语音识别结果的区分。

并且，本申请实施例可以利用麦克风阵列，实时地获取语音信号对应的语音识别结果，因此可以提高语音信号到语音识别结果的转换效率。

另外，本申请实施例通过移动设备中内置或者外置的麦克风阵列，由于移动设备和麦克风阵列具有便携式的特点，故可以实现便携式的访谈。

附图说明

图1是本申请实施例的一种语音处理系统的结构示意图；

图2是本申请实施例的一种语音处理方法的应用环境的示意；

图3是本申请的一种语音处理方法实施例一的步骤流程图；

图4是本申请实施例的一种麦克风阵列的结构示意；

图5是本申请的一种语音处理方法实施例二的步骤流程图；

图6是本申请的一种语音处理方法实施例三的步骤流程图；

图7是本申请实施例的一种语音处理方法的交互示意；

图8是本申请的一种语音处理方法实施例四的步骤流程图；

图9是本申请的一种语音处理方法实施例五的步骤流程图；

图10是本申请的一种客户端实施例的结构框图；

图11是本申请的一种客户端实施例的结构框图；以及

图12是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例提供了一种语音处理方案，该方案可以通过麦克风阵列接收声源的语音信号；依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。

本申请实施例中，声音是由于物体的振动而产生的，把正在发声的物体叫做声源，如：正在振动的声带、正在振动的音叉、敲响的鼓等都是声源。可以理解，本申请实施例对于具体的声源不加以限制。用户身份是指声源对应用户的身份，声源对应用户可以为人、机器人、动物等。本申请实施例中，用户身份可以与声源相应，用于区分语音信号对应的用户。

可选地，本申请实施例可以依据所述声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；因此可以通过目标用户身份实现对于语音信号的区分，这样，可以判定哪部分语音信号对应哪个目标用户身份；在此基础上，可以输出针对所述目标用户身份的语音识别结果，可以便于语音识别结果的区分。

可选地，本申请实施例的麦克风阵列可以为非线性阵列，这样可以提高拾音角度，通过非线性阵列，可以实现超过180度的拾音角度，也即，本申请实施例达到的拾音角度的范围可以为180度～360。其中，拾音可以指将声音收集的过程，拾音角度可以指声音收集的范围。

另外，本申请实施例可以利用麦克风阵列，实时地确定所述语音信号对应的目标用户身份，以及实时地获取语音信号对应的语音识别结果，故本申请实施例可以实时地输出针对所述目标用户身份的语音识别结果，因此可以提高语音信号到目标用户身份所对应语音识别结果的转换效率。

本申请实施例可以应用于语音输入、通话、会议、访谈等两个用户、或者两个以上用户的对话场景。上述场景下，语音信号可由M(M为大于1的自然数)个声源产生，一个声源可以对应有一个用户身份。

例如，在访谈场景下，用户身份可以包括：访谈者和被访谈者，则本申请实施例可以按照两个用户身份对语音识别结果进行分离，以便于用户对于语音识别结果的区分和整理。可选地，本申请实施例还可以输出针对所述目标用户身份的语音识别结果，可以明确访谈者说了什么内容，被访谈者说了什么内容，由此可以便于访谈内容的区分和整理。

又如，在通话场景下，用户身份可以包括：客服和客户，则本申请实施例可以按照两个用户身份对语音识别结果进行分离，以便于用户对于语音识别结果的区分和整理。可选地，本申请实施例还可以输出针对所述目标用户身份的语音识别结果，可以明确客户说了什么内容，客服说了什么内容，由此可以便于客服质检或者客户潜在需求的挖掘。

再如，在会议场景下，用户身份可以包括：至少两个参会人员，则本申请实施例可以按照至少两个用户身份对语音识别结果进行分离，以便于用户对于语音识别结果的区分和整理。可选地，本申请实施例还可以输出针对所述目标用户身份的语音识别结果，可以明确参会人员说了什么内容，由此可以便于会议纪要的整理。

可以理解，上述语音输入、通话、会议、访谈场景只是作为示例，实际上，本领域技术人员可以根据实际应用需求，将本申请实施例应用于两个用户、或者两个以上用户的对话场景，本申请实施例对于具体的场景不加以限制。

参照图1，示出了本申请实施例的一种语音处理系统的结构示意图，具体可以包括：麦克风阵列101和移动设备102；

其中，麦克风阵列101与移动设备102之间耦合；

麦克风阵列101可以为非线性阵列；

移动设备102具体可以包括：处理器121；

处理器121，用于通过麦克风阵列101接收声源的语音信号，依据所述声源相对于麦克风阵列101的空间信息，分离所述语音信号对应的语音识别结果。

麦克风阵列101与移动设备102之间耦合，具体可以包括：麦克风阵列101与移动设备102之间接触连接、或者非接触连接。接触连接可以包括：数据线连接，例如，麦克风阵列可以通过可插拔的USB(通用串行总线，Universal Serial Bus)连接移动设备。或者，所述麦克风阵列可以为所述移动设备的部件，也即，麦克风阵列可以集成在移动设备内部。非接触连接可以包括：WIFI(无线保真，Wireless Fidelity)连接、蓝牙连接等。可以理解，本申请实施例对于麦克风阵列与移动设备之间的关系不加以限制。

可选地，处理器121还用于向麦克风阵列101发送控制指令，所述控制指令包括：开始指令、或者停止指令。开始指令可用于驱动麦克风阵列101采集语音信号，例如，移动设备102上运行的客户端可以接收用户触发的开始指令。停止指令可用于控制麦克风阵列101停止采集语音信号。

本申请实施例提供的语音处理方法可应用于图2所示的应用环境中，如图2所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

可选地，客户端100可以运行在设备上，例如，客户端100可以为设备上运行的APP(应用程序，Application)，如语音相关APP、或者操作系统自带的APP等，本申请实施例对于客户端所对应的具体APP不加以限制。可选地，上述设备具体可以包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。可以理解，本申请实施例对于具体的设备不加以限制。

在本申请的一种实施例中，客户端100可以通过麦克风阵列接收声源的语音信号，依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果。客户端100可以独立执行本申请实施例的语音处理方法，由于可以节省客户端100与服务器200之间的数据交互，故可以节省客户端100的网络流量。

在本申请的另一种实施例中，客户端100可以通过麦克风阵列接收声源的语音信号，并向服务器200发送该语音信号；服务器200可以依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；而客户端100可以展示分离后的语音识别结果。客户端100可以借助服务器200获得分离后的语音识别结果，由于可以发挥服务器200计算资源丰富的优势，故可以提高目标用户身份、以及语音识别结果的获取效率和准确率。

本申请实施例通过移动设备中内置或者外置的麦克风阵列，由于移动设备和麦克风阵列具有便携式的特点，故可以实现便携式的访谈。

并且，本申请实施例可以实时地分离语音识别结果，上述分离可以区分语音识别结果。例如，在对话场景下，本申请实施例可以依据声源相对于所述麦克风阵列的空间信息，对不同声源对应的语音识别结果进行分离。

可选地，本申请实施例还可以输出针对所述目标用户身份的语音识别结果。例如，在记者访谈场景下，目标用户身份可以包括：记者和嘉宾，则可以按照语音信号的接收顺序，依次输出带有目标用户身份的语音识别结果。

方法实施例一

参照图3，示出了本申请的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤301、通过麦克风阵列接收声源的语音信号；

步骤302、依据所述声源相对于所述麦克风阵列的空间信息，分离针对所述目标用户身份的语音识别结果。

在步骤301中，麦克风阵列是分布在空间中的、按照一定方式排列的多个麦克风阵元，以更好地获取声源的空间信息。所述麦克风阵列中麦克风阵元的数量N可以大于2，即N＞2。所述麦克风阵列中麦克风阵元的排列规则可以有多种，例如，均匀圆阵、均匀多边形阵、非均匀圆阵、非均匀多边形阵等。本发明实施例对麦克风阵列的具体排列规则不加以限制。

根据一种实施例，所述麦克风阵列可以为均匀麦克风阵列，该均匀麦克风阵列中麦克风阵元之间的距离相同。根据一种实施例，所述麦克风阵列可以为非均匀麦克风阵列，该非均匀麦克风阵列中麦克风阵元之间的距离不同。

在本申请的一种可选实施例中，所述麦克风阵列可以包括：N个麦克风阵元，N为大于2的偶数。N为偶数，可以使麦克风阵列具有对称性，进而可以便于语音信号的处理。

在本申请的另一种可选实施例中，所述麦克风阵列包括的N个麦克风阵元位于预设中心点或者预设中心线的四周，这使得N个麦克风阵元排列为封闭图形，如圆形、椭圆形、多边形等。

参照图4，示出了本申请实施例的一种麦克风阵列的结构示意，图3所示麦克风阵列具体包括：麦克风阵元401、麦克风阵元402、麦克风阵元403和麦克风阵元404，麦克风阵元401、麦克风阵元402、麦克风阵元403和麦克风阵元404分布在中心线C的四周，排列为均匀矩形阵，也即，4个麦克风阵元位于矩形的顶点。

可选地，本申请实施例的麦克风阵元可以为指向性麦克风阵元。指向性麦克风阵元对前面传来的声音比后面传来的声音反应敏感得多。

在步骤301中，可以通过麦克风阵列实时接收声源的语音信号。可选地，移动设备上运行的客户端可以接收移动设备内置或外置的麦克风阵列采集的语音信号。

在步骤302中，声源相对于所述麦克风阵列的空间信息，可通过声源测向方法得到。声源相对于所述麦克风阵列的空间信息可通过方位角、俯仰角、距离等空间信息特征来表述。可选地，声源测向方法可以包括：基于TDOA(波达时延差，Time Difference ofArrival)的方法，其实现原理为：利用广义互相关等时延估计算法求出语音信号到麦克风阵列中不同麦克风阵元的时延信息，并利用该时延信息与麦克风阵列的空间分布关系估计声源的空间信息。当然，基于TDOA的方法只是作为示例，实际上，本领域技术人员还可以根据实际应用需求，采用基于最大输出功率的可控波束形成方法等声源测向方法，本申请实施例对于具体的声源测向方法不加以限制。

声源相对于所述麦克风阵列的空间信息可用于实现声源的区分，进而可以实现声源所对应语音识别结果的分离。

在本申请的一种应用示例中，假设语音信号由M个声源产生，则本申请实施例可以通过声源相对于所述麦克风阵列的空间信息，实现M个声源的区分，进而可以按照声源对语音识别结果进行分离。以M＝2为例，则语音识别结果可以分别属于声源1和声源2，由此可以便于语音识别结果的区分。

根据一种实施例，可以首先按照声源相对于所述麦克风阵列的空间信息，对语音信号进行分离，以得到一个声源对应的语音信号，并对一个声源对应的语音信号进行语音识别，以得到一个声源对应的语音识别结果。根据另一种实施例，可以首先对语音信号进行语音识别，然后按照声源相对于所述麦克风阵列的空间信息，对语音识别结果进行分离，以得到一个声源对应的语音识别结果。

在步骤302中，语音信号对应的目标用户身份也即声源对应的目标用户身份，故可以将目标用户身份的确定问题转换为声源与用户身份之间的关联问题。具体地，本申请实施例可以依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，建立声源与用户身份之间的关联，由此可以得到所述语音信号对应的目标用户身份。

本申请实施例可以采用语音识别技术将语音信号转换为文本。如果将语音信号记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

综上，本申请实施例的语音处理方法，利用麦克风阵列采集声源的语音信号，并依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；因此可以通过空间信息实现对于语音信号结果的区分，进而可以便于语音识别结果的区分。

方法实施例二

参照图5，示出了本申请的一种语音处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤501、通过麦克风阵列接收声源的语音信号；

步骤502、依据所述声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；

步骤503、输出针对所述目标用户身份的语音识别结果。

本申请实施例可以依据声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；因此可以通过目标用户身份实现对于语音信号的区分，这样，可以判定哪部分语音信号对应哪个目标用户身份；在此基础上，可以输出针对所述目标用户身份的语音识别结果，可以便于语音识别结果的区分。

本申请实施例可以提供确定所述语音信号对应的目标用户身份的如下技术方案：

技术方案1

技术方案1中，所述步骤502依据所述声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份，具体可以包括：依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份。

用户身份相对于所述麦克风阵列的空间信息可以通过预置得到。具体地，可以按照用户身份的数量P(P为大于1的自然数)，对拾音角度进行划分，由此可以得到一个用户身份对应的拾音角度。一个用户所占用的拾音角度的范围长度可以为：360度/P。

假设用户身份的数量为2，则一个用户所占用的拾音角度的范围长度可以为180度。可选地，两个用户相对于所述麦克风阵列的拾音角度可以分别为：0度～180度、以及180度～360度；或者一个用户相对于所述麦克风阵列的拾音角度可以为：0度～90度、以及270度～360度，另一个用户相对于所述麦克风阵列的拾音角度可以为：90度～270度。

假设用户身份的数量为3，则一个用户所占用的拾音角度的范围长度可以为120度。可选地，3个用户相对于所述麦克风阵列的拾音角度可以分别为：0度～120度、120度～240度、以及240度～360度。

假设用户身份的数量为4，则一个用户所占用的拾音角度的范围长度可以为90度。可选地，4个用户相对于所述麦克风阵列的拾音角度可以分别为：0度～90度、90度～180度、180度～270度、以及270度～360度。

可以理解，本领域技术人员或者用户可以根据实际应用需求，确定用户身份相对于所述麦克风阵列的空间信息。在本申请的一种可选实施例中，麦克风阵列的形状可以为球形、或近球形、或者长方体形、或者圆柱形，则可以对麦克风阵列的需要面向用户的表面进行划分，以得到一个用户身份对应的空间信息。

例如，在两个用户身份的情况下，麦克风阵列对应的表面可以包括：相对的第一表面和第二表面，则在采用麦克风阵列进行拾音的过程中，可以约定第一表面和第二表面分别对应哪个用户身份，例如，第一表面靠近采访者、以及第二表面靠近被采访者等，此种情况下，麦克风阵列可以位于两个用户身份的连线的中间。当然，可以依据用户身份的数量，进行麦克风阵列对应表面的划分，例如，针对P个用户身份，将麦克风阵列对应表面划分为P个表面，其中，一个表面可以对应一个用户身份等，此种情况下，P个用户身份可以位于麦克风阵列的四周。

在本申请的一种可选实施例中，所述依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份的过程，可以包括：对声源相对于所述麦克风阵列的第一空间信息与用户身份相对于所述麦克风阵列的第二空间信息进行匹配，若匹配成功，则将所述用户身份作为所述语音信号对应的目标用户身份。其中，用户身份相对于所述麦克风阵列的第二空间信息可以对应一个预设范围，可以判断第一空间信息是否在预设范围内，若是，则匹配成功。以空间信息为方位角为例，假设声源相对于所述麦克风阵列的第一空间信息为60度，记者相对于所述麦克风阵列的第二空间信息为0度～180度，则可以认为匹配成功，因此可以认为语音信号对应的目标用户身份为：记者。当然，本申请实施例对于具体的匹配过程不加以限制。

技术方案2

技术方案2中，所述步骤502依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份，具体可以包括：依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的第一用户身份；依据所述语音信号对应的声纹特征，确定所述语音信号对应的第二用户身份；对所述第一用户身份和所述第二用户身份进行融合，以得到所述语音信号对应的目标用户身份。

本申请实施例可以对所述第一用户身份和第二用户身份进行融合，以得到所述语音信号对应的目标用户身份，由此可以提高目标用户身份的准确率。

本申请实施例中，声纹(Voiceprint)是携带言语信息的声波频谱，不仅具有特定性，而且有相对稳定性的特点。无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。声纹识别就是通过分析语音信号，根据语音信号的声纹特征识别语音信号所对应的用户身份的过程。

可选地，声纹识别过程可以包括：将语音信号的声纹特征与声纹库中的预置声纹特征进行匹配，以得到语音信号所对应的用户身份。或者，声纹识别过程可以包括：将语音信号的声纹特征输入声纹识别模型，以得到语音信号所对应的用户身份。以得到语音信号所对应的用户身份。

上述声纹特征可以包括但不限于：MFCC(梅尔频率倒谱系数，Mel-FrequencyCepstral Coefficients)、PLP(感知线性预测，perceptual linear prediction)、FBank(梅尔标度滤波器组，Mel-scale Filter Bank)等短时频谱特征。可以理解，本申请实施例对于具体的声纹特征、以及具体的声纹识别过程不加以限制。

本申请实施例中，基于声纹特征得到的第二用户身份的准确率可以高于第一用户身份的准确率。然而，声纹识别对于语音信号的要求比较高，如果语音信号中存在噪声、或者语音信号存在其他质量问题，则容易使得到的声纹特征不符合要求，进而导致声纹识别失败，此种情况下将无法得到第二用户身份。

在本申请的一种可选实施例中，上述对所述第一用户身份和所述第二用户身份进行融合的过程，可以包括：若某个语音段对应的第二用户身份存在，则将第二用户身份作为该语音段对应的目标用户身份；若某个语音段对应的第二用户身份不存在，则将第一用户身份作为该语音段对应的目标用户身份。其中，语音段可以指基于语音信号得到的分段，在实际应用中，可以依据静音间隔确定语音段，或者，可以利用VAD(语音端点检测，voiceactivity detection)技术确定语音段，可以理解，本申请实施例对于语音段的具体确定过程不加以限制。例如，在记者访谈场景下，假设记者首先讲话，则可以将所接收的语音信号的起始时间作为语音段的起始点，以及，可以在静音间隔超过时间阈值的情况下，将静音之前的有效语音作为语音段的结束点。

综上，技术方案2结合声纹特征、以及声源和用户身份分别相对于所述麦克风阵列的空间信息，确定语音信号对应的目标用户身份，因此可以提高目标用户身份的准确率。

在步骤503中，可以输出针对步骤502得到的目标用户身份的语音识别结果。具体地，可以在输出的语音识别结果中，标识语音识别结果对应的目标用户身份，例如，在访谈场景下，可以标识部分语音识别结果属于采访者，以及标识部分语音识别结果属于被采访者等。

本申请实施例可以提供确定所述语音信号对应的语音识别结果的如下确定方案：

确定方案1

确定方案1中，所述语音信号可以包括：多轨语音信号，可以通过如下步骤确定所述语音信号对应的语音识别结果：对所述多轨语音信号进行合成，以得到第一语音信号；对所述第一语音信号进行语音识别，以得到所述第一语音信号对应的第一语音识别结果。

多轨语音信号可以由麦克风阵列包括的N个麦克风阵元采集得到，通常一个麦克风阵元可以采集一个轨道的语音信号。通常N个麦克风阵元均可以采集一个声源的语音信号，但不同麦克风阵元采集的语音信号的强度可以是不同的。例如，对于采访者的语音信号，靠近采访者的麦克风阵元采集的语音信号的强度可以大于远离采访者的麦克风阵元采集的语音信号的强度。当然，本申请实施例对于多轨语音信号的具体强度不加以限制。

本申请实施例可以首先对所述多轨语音信号进行合成，并针对合成得到的第一语音信号进行语音识别，以得到所述第一语音信号对应的第一语音识别结果。本申请实施例对于对所述多轨语音信号进行合成的具体过程不加以限制。

确定方案2

确定方案2中，可以通过如下步骤确定所述语音信号对应的语音识别结果：依据所述语音信号对应的空间信息、或者目标用户身份，对所述语音信号进行分离，以得到所述目标用户身份对应的第二语音信号；对所述第二语音信号进行语音识别，以得到所述第二语音信号对应的第二语音识别结果。

相对于确定方案1对一路第一语音信号进行语音识别，确定方案2可以分别针对目标用户身份或者声源得到对应的第二语音信号，其中第二语音信号的路数可以与用户身份的数量相应，例如，用户身份的数量为2，则第二语音信号的路数为2；并且，可以分别对不同的第二语音信号进行语音识别，以得到对应的第二语音识别结果。

根据一种实施例，可以对多轨语音信号进行分离，以得到目标用户身份对应的第二语音信号。根据另一种实施例，可以首先对多轨语音信号进行合成，以得到第一语言信号；然后依据所述第一语音信号对应的目标用户身份，对所述第一语音信号进行分离，以得到所述目标用户身份对应的第二语音信号。可以理解，本申请实施例对于第二语音信号的具体确定过程不加以限制。

确定方案3

确定方案3中，可以通过如下步骤确定所述语音信号对应的语音识别结果：依据所述声源相对于所述麦克风阵列的空间信息，对所述语音信号进行降噪处理，以得到第三语音信号；对所述第三语音信号进行语音识别，以得到所述第三语音信号对应的第三语音识别结果。

降噪处理可用于削弱语音信号中的噪声。确定方案3依据所述声源相对于所述麦克风阵列的空间信息，对所述语音信号进行降噪处理，可以削弱声源的非主方向的语音信号。可以依据声源相对于所述麦克风阵列的空间信息，确定主方向和非主方向；例如，靠近声源的麦克风阵元也即指向声源的麦克风阵元，其采集的语音信号可以为主方向的语音信号，反之，远离声源的麦克风阵元也即不指向声源的麦克风阵元，其采集的语音信号可以为非主方向的语音信号。

以上通过确定方案1至确定方案3对确定所述语音信号对应的语音识别结果的过程进行了详细介绍，可以理解，本领域技术人员可以根据实际应用需求，采用确定方案1至确定方案3中的任一或者组合，例如，可以采用确定方案1和确定方案3，或者，可以采用确定方案2和确定方案3等，可以理解，本申请实施例对于确定所述语音信号对应的语音识别结果的具体过程不加以限制。

综上，本申请实施例的语音处理方法，利用麦克风阵列采集声源的语音信号，并依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；因此可以通过目标用户身份实现对于语音信号的区分，这样，可以判定哪部分语音信号对应哪个目标用户身份；在此基础上，可以输出针对所述目标用户身份的语音识别结果，可以便于语音识别结果的区分。

并且，本申请实施例的麦克风阵列为非线性阵列，这样可以提高拾音角度，通过非线性阵列，可以实现超过180度的拾音角度，也即，本申请实施例达到的拾音角度的范围可以为180度～360。

方法实施例三

参照图6，示出了本申请的一种语音处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤601、通过麦克风阵列接收声源的语音信号；

步骤602、依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；

相对于图3所示方法实施例一，本实施例的方法还可以包括：

步骤603、建立所述语音信号的时间轴与所述语音识别结果之间的映射关系。

其中，时间轴可用于记录语音信号的出现时间。本申请实施例可以建立时间轴与所述语音识别结果之间的映射关系，也即语音信号的出现时间与语音识别结果之间的映射关系，该映射关系可以表明特定的出现时间对应的特定语音识别结果。

上述映射关系可用于语音识别结果的输出。具体地，可以在输出所述语音信号对应的语音识别结果的同时，根据所述映射关系输出语音识别结果的时间戳信息。在实际应用中，可以在语音信号的接收过程中，输出语音识别结果及其时间戳信息，或者，可以在语音信号的回放过程中，输出语音识别结果及其时间戳信息。上述时间戳信息可以使用户确定语音识别结果的时间信息。

综上，本申请实施例的语音处理方法，建立所述语音信号的时间轴与所述语音识别结果之间的映射关系，该映射关系可用于输出语音识别结果及其时间戳信息，进而可以使用户确定语音识别结果的时间信息。

参照图7，示出了本申请实施例的一种语音处理方法的交互示意，其中，移动设备701可以通过USB接口与麦克风阵列702相连接，移动设备701上可以运行有客户端711，客户端711与服务器703进行数据交互。

本申请实施例可以应用于两个用户或者两个以上用户的对话场景。在两个用户的对话场景下，可以将麦克风阵列702放置于两个用户之间，假设两用户包括：用户A和用户B。

移动设备701可以接收麦克风阵列702采集的语音信号，并通过客户端711对语音信号进行语音处理，客户端711可以按照目标用户身份，输出语音信号对应的语音识别结果。

可以理解，目标用户身份可由客户端711与服务器703中的任一确定，语音识别结果可由客户端711与服务器703中的任一确定，本申请实施例对于目标用户身份或者语音识别结果的具体确定主体不加以限制。

假设用户A产生的语音信号为“周末去哪里玩了”，用户B产生的语音信号为“周末去逛了西湖”，则客户端711可以依次输出语音识别结果如下：

用户A：周末去哪里玩了？

用户B：周末去逛了西湖。

…

方法实施例四

参照图8，示出了本申请的一种语音处理方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤801、通过麦克风阵列接收声源的语音信号；

步骤802、对上述语音信号进行语音处理，以得到第一语音信号和目标用户身份；上述语音处理可以包括：语音定位、语音降噪和语音合成；

上述语音定位用于确定语音信号对应的目标用户身份，上述语音降噪用于削弱语音信号中的噪声，上述语音合成用于对多轨语音信号进行合成。作为一种示例，语音合成得到的第一语音信号可以为PCM(脉冲编码调制，Pulse Code Modulation)信号。

步骤803、对第一语音识别信号进行语音识别，以得到第一语音识别结果；

步骤804、输出针对所述目标用户身份的第一语音识别结果。

方法实施例五

参照图9，示出了本申请的一种语音处理方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤901、通过麦克风阵列接收声源的语音信号；

步骤902、对上述语音信号进行语音处理，以得到第二语音信号和目标用户身份；上述语音处理可以包括：语音定位、语音降噪和语音分离；

上述语音定位用于确定语音信号对应的目标用户身份，上述语音降噪用于削弱语音信号中的噪声，上述语音分离可用于按照目标用户身份，对所述语音信号进行分离，以得到所述目标用户身份对应的第二语音信号。

步骤903、对第二语音识别信号进行语音识别，以得到第二语音识别结果；

步骤904、输出针对所述目标用户身份的第二语音识别结果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

装置实施例

在上述实施例的基础上，本申请实施例还提供了一种客户端，可以用于移动设备中。

参照图10，示出了本申请一种客户端实施例的结构框图，具体可以包括如下模块：

接收模块1001，用于通过麦克风阵列接收声源的语音信号；

分离模块1002，用于依据所述声源相对于所述麦克风阵列的空间信息，分离输出所述语音信号对应的语音识别结果。

可选地，所述麦克风阵列包括：N个麦克风阵元，N为大于2的偶数。

可选地，所述麦克风阵列包括的N个麦克风阵元位于预设中心点或者预设中心线的四周。

可选地，所述装置应用于移动设备；

所述麦克风阵列与所述移动设备之间耦合；或者

所述麦克风阵列为所述移动设备的部件。

可选地，所述麦克风阵列可以为非线性阵列。

可选地，所述语音信号可以包括：多轨语音信号，所述装置还可以包括：

合成模块，用于对所述多轨语音信号进行合成，以得到第一语音信号；

第一语音识别模块，用于对所述第一语音信号进行语音识别，以得到所述第一语音信号对应的第一语音识别结果。

可选地，所述装置还可以包括：

语音分离模块，用于依据所述语音信号对应的空间信息、或者目标用户身份，对所述语音信号进行分离，以得到所述目标用户身份对应的第二语音信号；

第二语音识别模块，用于对所述第二语音信号进行语音识别，以得到所述第二语音信号对应的第一语音识别结果。

可选地，所述装置还可以包括：

降噪模块，用于依据所述声源相对于所述麦克风阵列的空间信息，对所述语音信号进行降噪处理，以得到第三语音信号；

第一语音识别模块，用于对所述第三语音信号进行语音识别，以得到所述第三语音信号对应的第三语音识别结果。

可选地，所述装置还可以包括：

映射建立模块，用于建立所述语音信号的时间轴与所述语音识别结果之间的映射关系。

综上，本申请实施例的客户端，利用麦克风阵列采集声源的语音信号，并依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；因此可以通过空间信息实现对于语音信号结果的区分，进而可以便于语音识别结果的区分。

参照图11，示出了本申请一种客户端实施例的结构框图，具体可以包括如下模块：

接收模块1101，用于通过麦克风阵列接收声源的语音信号；

身份确定模块1002，用于依据所述声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；

输出模块1103，用于输出针对所述目标用户身份的语音识别结果。

可选地，所述身份确定模块1002，可以包括：

身份确定子模块，用于依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份。

可选地，所述身份确定子模块，可以包括：

匹配单元，用于对声源相对于所述麦克风阵列的第一空间信息与用户身份相对于所述麦克风阵列的第二空间信息进行匹配，若匹配成功，则将所述用户身份作为所述语音信号对应的目标用户身份。

可选地，所述身份确定子模块可以包括：

第一确定单元，用于依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的第一用户身份；

第二确定单元，用于依据所述语音信号对应的声纹特征，确定所述语音信号对应的第二用户身份；以及

融合子单元，用于对所述第一用户身份和所述第二用户身份进行融合，以得到所述语音信号对应的目标用户身份。

综上，本申请实施例的客户端，利用麦克风阵列采集声源的语音信号，并依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；因此可以通过目标用户身份实现对于语音信号的区分，这样，可以判定哪部分语音信号对应哪个目标用户身份；在此基础上，可以输出针对所述目标用户身份的语音识别结果，可以便于语音识别结果的区分。

本申请实施例的实施例可被实现为使用任意适当的硬件和/或软件进行想要的配置的系统或装置。图12示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。

对于一个实施例，图12示出了示例性装置1300，该装置1300可以包括：一个或多个处理器1302、与处理器1302中的至少一个耦合的系统控制模块(芯片组)1304、与系统控制模块1304耦合的系统存储器1306、与系统控制模块1304耦合的非易失性存储器(NVM)/存储装置1308、与系统控制模块1304耦合的一个或多个输入/输出设备1310，以及与系统控制模块1306耦合的网络接口1312。该系统存储器1306可以包括：指令1362，该指令1362可被一个或多个处理器1302执行。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用程序处理器、基带处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中所述的服务器、目标设备、无线设备等设备。

在一些实施例中，装置1300可包括具有指令的一个或多个机器可读介质(例如，系统存储器1306或NVM/存储装置1308)以及与该一个或多个机器可读介质相合并被配置为执行指令、以实现前述装置包括的模块、从而执行本申请实施例中所述的动作的一个或多个处理器1302。

一个实施例的系统控制模块1304可包括任何适合的接口控制器，用于提供任何适合的接口给处理器1302中的至少一个和/或与系统控制模块1304通信的任意适合的装置或部件。

一个实施例的系统控制模块1304可包括一个或多个存储器控制器，用于提供接口给系统存储器1306。存储器控制器可以是硬件模块、软件模块和/或固件模块。

一个实施例的系统存储器1306可被用于加载和存储数据和/或指令1362。对于一个实施例，系统存储器1306可包括任何适合的易失性存储器，例如，适合的DRAM(动态随机存取存储器)。在一些实施例中，系统存储器1306可包括：双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

一个实施例的系统控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储装置1308及(一个或多个)输入/输出设备1310提供接口。

一个实施例的NVM/存储装置1308可被用于存储数据和/或指令1382。NVM/存储装置1308可包括任何适合的非易失性存储器(例如闪存等)和/或可包括任何适合的(一个或多个)非易失性存储设备，例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器等。

NVM/存储装置1308可包括在物理上是装置1300被安装在其上的装置的一部分的存储资源，或者其可被该装置访问而不必作为该装置的一部分。例如，NVM/存储装置1308可经由网络接口1312通过网络和/或通过输入/输出设备1310进行访问。

一个实施例的(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。

一个实施例的网络接口1312可为装置1300提供接口以通过一个或多个网络和/或与任何其他适合的装置通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合进行无线通信。

对于一个实施例，处理器1302中的至少一个可与系统控制模块1304的一个或多个控制器(例如，存储器控制器)的逻辑封装在一起。对于一个实施例，处理器1302中的至少一个可与系统控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，处理器1302中的至少一个可与系统控制模块1304的一个或多个控制器的逻辑集成在同一新品上。对于一个实施例，处理器1302中的至少一个可与系统控制模块1304的一个或多个控制器的逻辑集成在同一芯片上以形成片上系统(SoC)。

在各个实施例中，装置1300可以包括但不限于：台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等计算设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300可以包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，如果显示器包括触摸面板，显示屏可以被实现为触屏显示器，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在装置时，可以使得该装置执行本申请实施例中各方法的指令(instructions)。

在一个示例中提供了一种装置，包括：一个或多个处理器；和，其上存储的一个或多个机器可读介质中的指令，由所述一个或多个处理器执行时，导致所述装置执行如本申请实施例中的方法，该方法可以包括：图3或图4或图5或图6或图7或图8或图9或10所示的方法。

在一个示例中还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如本申请实施例中的方法，该方法可以包括：图3或图4或图5或图6或图7或图8或图9或10所示的方法。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理装置的处理器以产生一个机器，使得通过计算机或其他可编程数据处理装置的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理装置上，使得在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程装置上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上对本申请所提供的一种语音处理方法、一种客户端、一种语音处理系统、一种设备、以及一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理系统，其特征在于，包括：麦克风阵列和移动设备；

其中，所述麦克风阵列与所述移动设备之间耦合；

所述移动设备包括：处理器；

所述处理器，用于通过所述麦克风阵列接收声源的语音信号，依据所述声源相对于所述麦克风阵列的空间信息，并分离所述语音信号对应的语音识别结果；

所述处理器，还用于依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的第一用户身份；依据所述语音信号对应的声纹特征，确定所述语音信号对应的第二用户身份；对所述第一用户身份和所述第二用户身份进行融合，以得到所述语音信号对应的目标用户身份；所述目标用户身份用于对所述语音信号对应的语音识别结果进行分离；

其中，所述融合包括：若某个语音段对应的第二用户身份存在，则将第二用户身份作为该语音段对应的目标用户身份；若某个语音段对应的第二用户身份不存在，则将第一用户身份作为该语音段对应的目标用户身份；所述语音段表示语音信号的分段。

2.根据权利要求1所述的系统，其特征在于，所述麦克风阵列包括：N个麦克风阵元，N为大于2的偶数。

3.根据权利要求1所述的系统，其特征在于，所述麦克风阵列包括的N个麦克风阵元位于预设中心点或者预设中心线的四周。

4.根据权利要求1所述的系统，其特征在于，所述麦克风阵列为非线性阵列。

5.根据权利要求1至4中任一所述的系统，其特征在于，所述处理器，还用于输出针对所述目标用户身份的语音识别结果。

6.根据权利要求1至4中任一所述的系统，其特征在于，所述语音信号包括：多轨语音信号，所述处理器还用于对所述多轨语音信号进行合成，以得到第一语音信号；以及对所述第一语音信号进行语音识别，以得到所述第一语音信号对应的第一语音识别结果。

7.根据权利要求1至4中任一所述的系统，其特征在于，所述处理器还用于依据所述语音信号对应的空间信息、或者目标用户身份，对所述语音信号进行分离，以得到所述目标用户身份对应的第二语音信号；以及对所述第二语音信号进行语音识别，以得到所述第二语音信号对应的第二语音识别结果。

8.根据权利要求1至4中任一所述的系统，其特征在于，所述处理器还用于依据所述声源相对于所述麦克风阵列的空间信息，对所述语音信号进行降噪处理，以得到第三语音信号；以及对所述第三语音信号进行语音识别，以得到所述第三语音信号对应的第三语音识别结果。

9.根据权利要求1至4中任一所述的系统，其特征在于，所述处理器还用于建立所述语音信号的时间轴与所述语音识别结果之间的映射关系。

10.一种客户端，其特征在于，包括：

接收模块，用于通过麦克风阵列接收声源的语音信号；以及

分离模块，用于依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；

身份确定模块，用于依据所述声源相对于所述麦克风阵列的空间信息，确定所述语音信号对应的目标用户身份；

所述身份确定模块，包括：

融合子单元，用于对所述第一用户身份和所述第二用户身份进行融合，以得到所述语音信号对应的目标用户身份；所述目标用户身份用于对所述语音信号对应的语音识别结果进行分离；

11.根据权利要求10所述的客户端，其特征在于，所述麦克风阵列包括：N个麦克风阵元，N为大于2的偶数。

12.根据权利要求10所述的客户端，其特征在于，所述麦克风阵列包括的N个麦克风阵元位于预设中心点或者预设中心线的四周。

13.根据权利要求10所述的客户端，其特征在于，所述麦克风阵列为非线性阵列。

14.根据权利要求10至13中任一所述的客户端，其特征在于，所述客户端应用于移动设备；

所述麦克风阵列与所述移动设备之间耦合；或者

所述麦克风阵列为所述移动设备的部件。

15.根据权利要求10至13中任一所述的客户端，其特征在于，所述客户端还包括：

输出模块，用于输出针对所述目标用户身份的语音识别结果。

16.根据权利要求10至13中任一所述的客户端，其特征在于，所述语音信号包括：多轨语音信号，所述客户端还包括：

17.根据权利要求10至13中任一所述的客户端，其特征在于，所述客户端还包括：

第二语音识别模块，用于对所述第二语音信号进行语音识别，以得到所述第二语音信号对应的第二语音识别结果。

18.根据权利要求10至13中任一所述的客户端，其特征在于，所述客户端还包括：

19.根据权利要求10至13中任一所述的客户端，其特征在于，所述客户端还包括：

20.一种语音处理方法，其特征在于，包括：

通过麦克风阵列接收声源的语音信号；

依据所述声源相对于所述麦克风阵列的空间信息，分离所述语音信号对应的语音识别结果；

依据所述声源和用户身份分别相对于所述麦克风阵列的空间信息，确定所述语音信号对应的第一用户身份；

依据所述语音信号对应的声纹特征，确定所述语音信号对应的第二用户身份；

对所述第一用户身份和所述第二用户身份进行融合，以得到所述语音信号对应的目标用户身份；所述目标用户身份用于对所述语音信号对应的语音识别结果进行分离；

21.根据权利要求20所述的方法，其特征在于，所述麦克风阵列包括：N个麦克风阵元，N为大于2的偶数。

22.根据权利要求20所述的方法，其特征在于，所述麦克风阵列包括的N个麦克风阵元位于预设中心点或者预设中心线的四周。

23.根据权利要求20所述的方法，其特征在于，所述麦克风阵列为非线性阵列。

24.根据权利要求20至23中任一所述的方法，其特征在于，所述方法应用于移动设备；

所述麦克风阵列与所述移动设备之间耦合；或者

所述麦克风阵列为所述移动设备的部件。

25.根据权利要求20至23中任一所述的方法，其特征在于，所述方法还包括：

输出针对所述目标用户身份的语音识别结果。

26.根据权利要求20至23中任一所述的方法，其特征在于，所述语音信号包括：多轨语音信号，通过如下步骤确定所述语音信号对应的语音识别结果：

对所述多轨语音信号进行合成，以得到第一语音信号；

对所述第一语音信号进行语音识别，以得到所述第一语音信号对应的第一语音识别结果。

27.根据权利要求20至23中任一所述的方法，其特征在于，通过如下步骤确定所述语音信号对应的语音识别结果：

依据所述语音信号对应的空间信息、或者目标用户身份，对所述语音信号进行分离，以得到所述目标用户身份对应的第二语音信号；

对所述第二语音信号进行语音识别，以得到所述第二语音信号对应的第二语音识别结果。

28.根据权利要求20至23中任一所述的方法，其特征在于，通过如下步骤确定所述语音信号对应的语音识别结果：

依据所述声源相对于所述麦克风阵列的空间信息，对所述语音信号进行降噪处理，以得到第三语音信号；

对所述第三语音信号进行语音识别，以得到所述第三语音信号对应的第三语音识别结果。

29.根据权利要求20至23中任一所述的方法，其特征在于，所述方法还包括：

建立所述语音信号的时间轴与所述语音识别结果之间的映射关系。

30.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如权利要求20-29中任一所述的语音处理方法。

31.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求20-29中任一所述的语音处理方法。