CN111145736A

CN111145736A - 语音识别方法及相关设备

Info

Publication number: CN111145736A
Application number: CN201911253861.XA
Authority: CN
Inventors: 王剑桥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-12
Anticipated expiration: 2039-12-09
Also published as: WO2021115176A1; CN111145736B

Abstract

本发明实施例提供了一种语音识别方法及相关设备，涉及人工智能领域，该方法包括：获取第一短时功率谱和待识别说话方的声纹特征，所述第一短时功率谱为待识别语音信号的短时功率谱；根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵，所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵，所述第二短时功率谱为待识别说话方的语音信号的短时功率谱；根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，所述第一输出结果包括所述第二短时功率谱；根据所述第二短时功率谱识别出所述待识别说话方的语音。采用本发明实施例，能够提高语音识别的准确率。

Description

语音识别方法及相关设备

技术领域

本发明涉及人工智能语音处理技术领域，尤其涉及一种语音识别方法及相关设备。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

语音识别是人工智能领域的一种主流应用。语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。语音助手是语音识别的一种主流的实现和应用方式。移动终端的语音助手在语音识别的过程中常常遇到各种声音的干扰，例如在车载环境下使用语音助手，会遇到通过车载音响播放的广播、有声读物、导航、语音助手本身的声音等的干扰。这些声音和用户的语音混在一起，导致语音助手很难判断出哪些是目标用户的语音，哪些不是，进而导致语音助手识别错误。

因此，如何减少其他声音的干扰，以提高语音识别的准确率是本领域技术人员需要解决的问题。

发明内容

本申请实施例公开了一种语音识别方法及相关设备，能够减少其他声音的干扰，以提高需要识别的语音的识别准确率。

第一方面，本申请实施例公开了一种语音识别方法，该方法包括：

获取第一短时功率谱和待识别说话方的声纹特征，所述第一短时功率谱为待识别语音信号的短时功率谱；

根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵，所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵，所述第二短时功率谱为待识别说话方的语音信号的短时功率谱；

根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，所述第一输出结果包括所述第二短时功率谱；

根据所述第二短时功率谱识别出所述待识别说话方的语音。

本申请实施例利用第一短时功率谱和所述声纹特征来计算得到的语音分离特征拼接矩阵来实现从待识别语音中分离出待识别说话方的语音，提高了待识别说话方的语音的识别准确率。

在其中一种可能的实施方式中，所述获取第一短时功率谱和待识别说话方的声纹特征之后，所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前，还包括：

根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵，所述VAD特征拼接矩阵为用于检测所述待识别语音信号中是否包括所述待识别说话方的语音信号的矩阵；

根据所述VAD特征拼接矩阵计算得到第二输出结果，所述第二输出结果指示所述待识别语音信号包括所述待识别说话方的语音信号。

相比于现有技术中利用对数梅尔谱与待识别说话方的声纹特征计算得到的特征拼接矩阵来检测待识别语音中是否有待识别说话方的语音，本申请实施例利用第一短时功率谱和所述声纹特征来计算得到的VAD特征拼接矩阵来实现，从而提高了检测的准确率。

在其中一种可能的实施方式中，所述根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵，包括：

将所述第一短时功率谱和所述声纹特征输入VAD模型；其中，所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型；

通过所述VAD模型提取所述第一短时功率谱的VAD特征；其中，所述VAD特征为T行F₁列的二维矩阵，所述第一短时功率谱包括所述T个时间帧的短时功率谱，所述VAD特征包括第一特征，所述第一特征为所述T个时间帧的短时功率谱的特征，所述F₁表示所述T个时间帧每个时间帧的短时功率谱的特征是由F₁个元素组成的行向量；所述T和F₁为大于1的整数；

通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵；其中，根据第i个时间帧的短时功率谱的特征与所述声纹特征拼接得到的矩阵为第i特征拼接矩阵，所述i为1到T之间的任意一个整数；所述第i特征拼接矩阵为二维矩阵；

通过所述VAD模型将所述T个特征拼接矩阵拼接得到所述VAD特征拼接矩阵，所述VAD特征拼接矩阵为三维矩阵。

现有技术中对数梅尔谱属于人工设计的特征，而声纹特征使用神经网络提取，属于抽象特征，这两个特征属于不同层面的特征。本申请实施例中的所述第一短时功率谱的VAD特征和声纹特征都是通过训练好的神经网络提取的抽象特征，是同一个层面的特征，因此采用本申请实施例，能够提高检测待识别语音中是否有待识别说话方的语音的检测准确率。

在其中一种可能的实施方式中，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第一特征为所述T个时间帧的短时功率谱的一阶特征；所述通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵，包括：

根据所述声纹特征计算所述声纹的二阶特征，以及根据所述第一特征计算所述T个时间帧中每一个时间帧的短时功率谱的二阶特征；

根据所述声纹特征和所述第一特征计算得到T个二阶联合特征；其中，根据第i个时间帧的短时功率谱的特征与所述声纹特征计算得到的二阶联合特征为第i二阶联合特征；

根据所述声纹特征、所述声纹的二阶特征、所述第一特征、所述T个时间帧中每一个时间帧的短时功率谱的二阶特征以及所述T个二阶联合特征拼接得到所述T个特征拼接矩阵；其中，根据所述声纹特征、所述声纹的二阶特征、所述第i个时间帧的短时功率谱的特征、所述第i个时间帧的短时功率谱的二阶特征以及所述第i二阶联合特征拼接得到的矩阵为所述第i特征拼接矩阵。

本申请实施例是介绍如何进行特征拼接的过程。

在其中一种可能的实施方式中，所述根据所述VAD特征拼接矩阵计算得到第二输出结果，包括：

将所述VAD特征拼接矩阵输入VAD模型包括的VAD识别神经网络；其中，所述VAD识别神经网络为训练好的根据所述VAD特征拼接矩阵识别出所述待识别语音信号中是否包括所述待识别说话方的语音信号的神经网络模型；所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型；

通过所述VAD识别神经网络计算得到所述第二输出结果。

本申请实施例通过VAD识别神经网络根据VAD特征拼接矩阵得到待识别语音信号包括待识别说话方的语音信号的结果，从而进一步提高了待识别说话方的语音识别准确率。

此外，上述三个可能的实施例在进行从待识别语音中分离待识别说话方的语音的步骤之前先判断待识别语音中是否包括待识别说话方的语音，如果包括才继续往下执行，如果不包括则不再继续执行语音分离的步骤，且主要的计算量为语音分离步骤，因此在一定程度上能够减少计算量，减轻处理器的负担。

在其中一种可能的实施方式中，所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵，包括：

将所述第一短时功率谱和所述声纹特征输入语音分离模型，所述语音分离模型包括一个或多个训练好的用于实现第二短时功率谱从所述第一短时功率谱中分离的神经网络模型；

通过所述语音分离模型提取所述第一短时功率谱的语音分离特征；其中，所述语音分离特征为T1行F₂列的二维矩阵，所述第一短时功率谱包括所述T1个时间帧的短时功率谱，所述语音分离特征包括第二特征，所述第二特征为T1个时间帧的短时功率谱的特征，所述F₂表示所述T1个时间帧每个时间帧的短时功率谱的特征是由F₂个元素组成的行向量；所述T1和F₂为大于1的整数；

通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到T1个特征拼接矩阵；其中，根据第j个时间帧的短时功率谱的特征与所述声纹特征拼接得到的矩阵为第j特征拼接矩阵，所述j为1到T1之间的任意一个整数；所述第j特征拼接矩阵为二维矩阵；

通过所述语音分离模型将所述T1个特征拼接矩阵拼接得到所述语音分离特征拼接矩阵，所述语音分离特征拼接矩阵为三维矩阵。

在其中一种可能的实施方式中，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第二特征为所述T1个时间帧的短时功率谱的一阶特征；所述通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到T1个特征拼接矩阵，包括：

根据所述声纹特征计算所述声纹的二阶特征，以及根据所述第二特征计算所述T1个时间帧中每一个时间帧的短时功率谱的二阶特征；

根据所述声纹特征和所述第二特征计算得到T1个二阶联合特征；其中，根据第j个时间帧的短时功率谱的特征与所述声纹特征计算得到的二阶联合特征为第j二阶联合特征；

根据所述声纹特征、所述声纹的二阶特征、所述第二特征、所述T1个时间帧中每一个时间帧的短时功率谱的二阶特征以及所述T1个二阶联合特征拼接得到所述T1个特征拼接矩阵；其中，根据所述声纹特征、所述声纹的二阶特征、所述第j个时间帧的短时功率谱的特征、所述第j个时间帧的短时功率谱的二阶特征以及所述第j二阶联合特征拼接得到的矩阵为所述第j特征拼接矩阵。

在其中一种可能的实施方式中，所述根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，包括：

将所述语音分离特征拼接矩阵输入语音分离模型包括的掩码获取神经网络；

通过所述掩码获取神经网络计算出所述第一短时功率谱的掩码矩阵，所述掩码矩阵包括所述第二短时功率谱在所述第一短时功率谱中的权重信息；

根据所述掩码矩阵和所述第一短时功率谱计算得到所述第一输出结果。

本申请实施例通过掩码获取神经网络根据语音分离特征拼接矩阵得到掩码矩阵，再根据掩码矩阵分离得到待识别说话方的语音信号短时功率谱，从而进一步提高了待识别说话方的语音识别准确率。

第二方面，本申请实施例提供了一种语音识别方法，该方法包括：

根据所述VAD特征拼接矩阵计算得到第四输出结果；

在所述第四输出结果指示所述待识别语音信号不包括所述待识别说话方的语音信号的情况下，终止根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵的步骤；其中，所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵，所述第二短时功率谱为待识别说话方的语音信号的短时功率谱。

在本申请实施例中，在待识别语音信号不包括待识别说话方的语音信号的情况下，不再继续执行后续的语音识别的步骤，从而节约了计算资源，减轻处理器的负担。

第三方面，本申请实施例提供了一种语音识别设备，该设备包括：

获取单元，用于获取第一短时功率谱和待识别说话方的声纹特征，所述第一短时功率谱为待识别语音信号的短时功率谱；

计算单元，用于根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵，所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵，所述第二短时功率谱为待识别说话方的语音信号的短时功率谱；

所述计算单元，还用于根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，所述第一输出结果包括所述第二短时功率谱；

识别单元，用于根据所述第二短时功率谱识别出所述待识别说话方的语音。

在其中一种可能的实施方式中，所述计算单元还用于在所述获取单元获取所述第一短时功率谱和所述待识别说话方的声纹特征之后，在所述计算单元根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前，

以及根据所述VAD特征拼接矩阵计算得到第二输出结果，所述第二输出结果指示所述待识别语音信号包括所述待识别说话方的语音信号。

在其中一种可能的实施方式中，所述计算单元用于根据所述第一短时功率谱和所述声纹特征计算得到所述VAD特征拼接矩阵，具体为：

在其中一种可能的实施方式中，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第一特征为所述T个时间帧的短时功率谱的一阶特征；所述计算单元用于通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到所述T个特征拼接矩阵，具体为：

在其中一种可能的实施方式中，所述计算单元用于根据所述VAD特征拼接矩阵计算得到所述第二输出结果，具体为：

通过所述VAD识别神经网络计算得到所述第二输出结果。

在其中一种可能的实施方式中，所述计算单元用于根据所述第一短时功率谱和所述声纹特征计算得到所述语音分离特征拼接矩阵，具体为：

在其中一种可能的实施方式中，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第二特征为所述T1个时间帧的短时功率谱的一阶特征；所述计算单元用于通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到所述T1个特征拼接矩阵，具体为：

在其中一种可能的实施方式中，所述计算单元用于根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，具体为：

第三方面的有益效果可以参见第一方面中对应的描述，此处不再赘述。

第四方面，本申请实施例提供了一种语音识别设备，该语音识别设备包括处理器、存储器以及通信接口；所述存储器以及所述通信接口与所述处理器耦合，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，所述语音识别设备执行上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面任意一项所述的方法。

第六方面，本申请实施例提供了一种芯片，该芯片包括处理器、存储器和通信接口，其特征在于，所述芯片被配置用于执行上述第一方面任意一项所述的方法。

第七方面，本申请实施例公开了一种计算机程序，当所述计算机程序在计算机上执行时，将会使所述计算机实现上述第一方面任意一项所述的方法。

第八方面，本申请实施例提供一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，上述第一方面任意一项所述的方法将被执行。

综上所述，本申请实施例利用第一短时功率谱和声纹特征计算特征拼接矩阵来实现从待识别语音中识别出待识别说话方的语音，从而提高了待识别说话方的语音的识别准确率。

附图说明

下面将对本申请实施例中所需要使用的附图作介绍。

图1为本方案实施例提供的语音识别方法适用的场景示意图；

图2为本方案实施例提供的语音识别方法的流程示意图；

图3为本方案实施例提供的语音识别方法中的语音分离流程示意图；

图4为本方案实施例提供的一种拼接矩阵示意图；

图5为本方案实施例提供的另一种拼接矩阵示意图；

图6为本方案实施例提供的语音识别方法中的检测流程示意图；

图7为本方案实施例提供的另一种拼接矩阵示意图；

图8为本方案实施例提供的另一种拼接矩阵示意图；

图9为本方案实施例提供的一种神经网络处理器的硬件结构示意图；

图10为本方案实施例提供的一种语音识别设备的逻辑结构示意图；

图11为本方案实施例提供的一种语音识别设备的硬件结构示意图；

图12为本方案实施例提供的一种芯片的硬件结构示意图。

具体实施方式

下面结合附图对本申请实施例中的技术方案进行描述。

为了更好的理解本发明实施例提供的一种语音识别方法，下面先对本发明实施例适用的场景进行示例性地描述。参阅图1，图1是本发明实施例提供的语音识别方法的系统构架示意图。如图1所示，系统构架可以包括一个或多个服务器100以及多个终端(或设备)110，其中：

服务器100可以包括但不限于后台服务器、语音处理服务器等，服务器100可以通过互联网与多个终端110进行通信。服务器100为终端110提供语音识别处理服务。服务器100上需要运行有相应的服务器端程序来提供相应的语音识别处理服务，如语音数据库服务，数据计算、决策执行等等。

终端110可以安装并运行相关的应用(或APP)。应用是为客户提供本地服务的程序。这里，该本地服务可包括但不限于：向服务器100发送信息(例如待识别语音信号等)和接收服务器100发送的信息(例如识别出待识别说话方的语音后，对识别结果所做的响应的信息等)。本方案实施例中的终端110可以包括但不限于任何一种车辆、基于智能操作系统的手持式电子产品等，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互。车辆例如可以是智能驾驶车辆，或者可以是安装了语音处理应用的普通车辆等等。电子产品例如可以是智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如安卓(Android)、iOS_TM、Windows Phone_TM等。

本发明实施例适用的另一种场景可以是本发明实施例提供的语音识别方法应用于上述终端，不需要与服务器交互，由终端来完成需要的计算和结果输出的过程。

需要说明的是，本申请实施例提供的语音识别方法的使用场景不限于上述描述的场景，只要是应用到本申请实施例提供的语音识别方法的都是本申请实施例适用的场景，此处不再赘述。

在介绍本申请实施例提供的语音识别方法之前，先介绍一下该语音识别方法涉及到的概念。

1、语音激活检测

语音激活检测(voice activity detection，VAD)是一种用于检测语音是否存在的技术，广泛应用于语音信号的前处理，将音频信号标注为人声区间段和非人声区间段，方便后续的语音识别、语音编码等处理。

在语音识别的应用程序例如语音助手中，VAD通常用于端点检测，即判断说话人从什么时候开始说话，从什么时候停止说话。只有在有人说话的时候，才进行语音识别。

2、声纹识别

声纹识别是一种生物识别技术，也叫做说话人识别，利用每个人的语音在音质、音色上的差异，区分不同的说话人。声纹识别通常使用一个模型，将输入的一段音频，映射为一个特征向量，在这个向量空间中，同一个说话人的声纹特征距离很近，而不同的说话人之间的声纹特征距离较远，从而实现区分不同说话人的目的。声纹与语音的内容无关，只与说话人有关。

声纹的使用通常需要预先注册，即说话人先在设备中录入一段语音，设备提取声纹特征并保存，以便后续使用。在使用时，通过提取当前说话人的声纹特征，与预先存储的声纹特征进行匹配，来判断是否是同一个人。

结合前面的描述，下面提供一种语音识别方法，参见图2，该方法包括但不限于如下步骤：

步骤201、终端获取待识别语音信号和待识别说话方标识ID。

步骤202、该终端将该待识别语音信号和该待识别说话方ID发送给服务器。

上述待识别说话方可以为需要识别的目标语音的说话人或者发音者。该发音者例如可以是机器人等智能发音设备等。例如假设在车载环境下，该需要识别的目标语音为驾驶人说的话，那么该待识别说话方可以是驾驶人。

上述待识别说话方ID可以是该终端的标识ID，或者可以是预设的标识ID等。该待识别说话方ID为预先在服务器中记录存储，同时也存储在该终端中的标识。

可选的，该终端可以预先获取无干扰的该待识别说话方的一段语音发送给服务器，然后服务器根据该无干扰的该待识别说话方的语音提取该待识别说话方的声纹特征，然后将该声纹特征存储在服务器的声纹数据库中。该声纹数据库存储了多个不同的声纹特征的信息以及关联存储了这些声纹特征对应的标识ID，这些标识ID用于索引查找到对应的声纹特征。

服务器将该待识别说话方的声纹特征存储在服务器的声纹数据库的同时，服务器可以将该终端的标识ID与该声纹特征关联存储，以便于可以通过该终端的标识ID查找到该声纹特征。或者，服务器也可以将自定义的预设的标识ID与该声纹特征关联存储，以便于可以通过该预设的标识ID查找到该声纹特征。在这种情况下，服务器可以将该预设的标识ID发送给终端保存，以便于终端以后需要进行语音识别时使用。

在具体实施例中，终端上可以安装有获取语音信号的传感器以及语音处理的相关应用，该语音处理的相关应用例如可以是语音助手等等。当有检测到有语音时，该传感器获取该语音并进行处理得到上述待识别语音信号。然后，终端可以通过语音处理的相关应用例如语音助手将该待识别语音信号以及上述待识别说话方ID发送给服务器。

步骤203、该服务器接收该待识别语音信号以及待识别说话方ID。

步骤204、该服务器根据该待识别说话方ID查找到该待识别说话方的声纹特征，以及计算该待识别语音信号的短时功率谱(可以称为第一短时功率谱)。

在具体实施例中，该服务器接收到该待识别语音信号以及该待识别说话方ID后，可以根据该待识别说话方ID在上述声纹特征数据库中查找到该待识别说话方的声纹特征。

同时，服务器可以采用现有的语音信号的短时功率谱计算方法计算该待识别语音信号的短时功率谱，为了便于描述，可以称该待识别语音信号的短时功率谱为第一短时功率谱。现有的语音信号的短时功率谱计算方法例如可以是周期图法、Welch法等等，本方案对采用哪种功率谱计算方法来计算该第一短时功率谱不做限制。

可选的，该待识别语音信号被分割为T个时间帧信号，分别计算该T个时间帧信号的短时功率谱得到T个短时功率谱，该T个短时功率谱即为上述第一短时功率谱。

步骤205、该服务器将该待识别说话方的声纹特征和该第一短时功率谱输入语音分离模型。

在具体实施例中，该语音分离模型包括一个或多个训练好的用于实现待识别说话方的语音信号的短时功率谱从所述第一短时功率谱中分离的神经网络模型；为了便于描述，可以称该待识别说话方的语音信号的短时功率谱为第二短时功率谱。

步骤206、该服务器利用该语音分离模型从该第一短时功率谱中分离出待识别说话方的语音信号的短时功率谱。

在具体的实施例中，服务器将该待识别说话方的声纹特征和该第一短时功率谱输入语音分离模型之后，利用该语音分离模型进行特征提取、特征拼接以及矩阵计算等步骤，最终输出第一输出结果，该第一输出结果包括该第二短时功率谱，即从该第一短时功率谱中分离出了第二短时功率谱。

可选的，该语音分离模型可以根据该第一短时功率谱和上述待识别说话方的声纹特征计算得到语音分离特征拼接矩阵，然后根据该语音分离特征拼接矩阵和上述第一短时功率谱实现第二短时功率谱从所述第一短时功率谱中分离。下面会详细介绍语音分离的过程，此处暂不赘述。

步骤207、该服务器根据该待识别说话方的语音信号的短时功率谱识别出待识别说话方的语音。

步骤208、该服务器对该识别出待识别说话方的语音进行响应得到响应结果。

步骤209、该服务器将该响应结果发送给上述终端。

在具体实施例中，服务器从语音分离模型的输出结果中得到上述第二短时功率谱后，根据该第二短时功率谱识别出上述待识别说话方的语音，然后根据识别出的语音做出响应得到响应结果，并将该响应结果发送给上述终端，由终端根据响应结果执行相应的响应操作。

可选的，服务器中安装有语音处理的相关应用例如语音助手，上述语音识别和响应的步骤可以是由语音助手来完成的。

为了便于理解，举例说明。假设上述待识别说话方的语音为“查找最近的加油站”，那么服务器可以通过语音助手识别出该语音，并根据该语音迅速搜索查找的距离终上述端最近的加油站，然后将该最近的加油站的位置信息发送给终端。终端可以通过语音助手接收该信息，然后可以在显示屏显示该最近的加油站的信息，同时也可以语音播报该最近的加油站的相关信息等等。

在其中一种可能的实施方式中，上述步骤205、该服务器将该待识别说话方的声纹特征和该第一短时功率谱输入语音分离模型之后，该语音分离模型的输出结果指示该第一短时功率谱中不包括上述第二短时功率谱，即上述待识别语音信号中不包括待识别说话方的语音信号，那么服务器根据该输出结果不再执行后续的语音识别和响应的步骤。

可选的，服务器可以将该上述待识别语音信号中不包括待识别说话方的语音信号的结果发送给终端。

可选的，上述语音分离模型的输出结果指示该第一短时功率谱中不包括上述第二短时功率谱可以是，该语音分离模型的输出结果为0或者为空等等。

上述实施例利用第一短时功率谱和所述声纹特征来计算得到的语音分离特征拼接矩阵来实现从待识别语音中分离出待识别说话方的语音，提高了待识别说话方的语音的识别准确率。

下面示例性介绍上述“步骤206、该服务器利用该语音分离模型从该第一短时功率谱中分离出待识别说话方的语音信号的短时功率谱。”的具体过程，该具体过程可以包括但不限于如下步骤：

步骤301、提取上述第一短时功率谱的语音分离特征。

在具体实施例中，上述第一短时功率谱可以是一个T行Fp列的二维矩阵。该T表示该第一短时功率谱包括T个时间帧的短时功率谱，该Fp表示该T个时间帧的短时功率谱中每一个短时功率谱是一个长度为Fp的向量。该T和Fp为大于1的整数。

上述语音分离模型可以包括语音分离特征提取神经网络、语音分离特征拼接子网络以及掩码获取神经网络。该语音分离特征提取神经网络为预先训练好的用于提取上述第一短时功率谱的语音分离特征的网络。该语音分离特征拼接子网络为用于进行上述语音分离特征拼接的子网络。该掩码获取神经网络是预先训练好的用于根据语音分离特征拼接网络的输出结果来计算得到第一短时功率谱的掩码矩阵的网络。该掩码矩阵包括上述第二短时功率谱在该第一短时功率谱中的权重信息。

可选的，语音分离特征提取神经网络可以使用resnet神经网络结构实现，也可以使用其它的任何一种神经网络结构实现，本方案对此不做限制。掩码获取神经网络可以使用LSTM神经网络结构实现，也可以使用其它的任何一种神经网络结构实现，本方案对此不做限制。

服务器将第一短时功率谱输入到语音分离模型之后，通过该语音分离特征提取神经网络提取该第一短时功率谱的语音分离特征，该语音分离特征为一个抽象特征，是用于计算的中间量。该语音分离特征可以是一个T1行F₂列的二维矩阵，该T1可以与T相同。该语音分离特征包括第二特征，该第二特征为T1个时间帧的短时功率谱的特征，该F₂表示该T1个时间帧每个时间帧的短时功率谱的特征是由F₂个元素组成的行向量。该T1和F₂为大于1的整数。

步骤302、根据T1个时间帧的短时功率谱的特征与上述声纹特征拼接得到T1个特征拼接矩阵。

步骤303、将上述T1个特征拼接矩阵拼接得到上述语音分离特征拼接矩阵，上述语音分离特征拼接矩阵为三维矩阵。

在具体实施例中，已知上述语音分离特征包括T1个时间帧的短时功率谱的特征，那么利用上述语音分离特征拼接子网络根据该T1个时间帧的短时功率谱的特征与声纹特征进行拼接即可得到上述T1个特征拼接矩阵。可选的，根据第j个时间帧的短时功率谱的特征与该声纹特征拼接得到的矩阵为第j特征拼接矩阵，该j为1到T1之间的任意一个整数；该第j特征拼接矩阵为二维矩阵。然后，该语音分离特征拼接子网络再将该T1个特征拼接矩阵拼接得到上述语音分离特征拼接矩阵。下面会详细介绍步骤302和步骤303的具体实现过程，此处暂不详述。

步骤304、将上述语音分离特征拼接矩阵输入上述掩码获取神经网络，通过该掩码获取神经网络计算出上述第一短时功率谱的掩码矩阵。

步骤305、根据该掩码矩阵和上述第一短时功率谱计算得到上述第一输出结果。

在具体实施例中，上述计算得到的第一短时功率谱的掩码矩阵可以是T行Fp列的二维矩阵，行数和列数分别与第一短时功率谱的行数和列数相同。然后，服务器将该掩码矩阵上的每一个元素与第一短时功率谱中与该每一个元素的行列相同的元素相乘得到T行Fp列的矩阵，该相乘后得到的T行Fp列的矩阵即为上述待识别说话方的语音信号的短时功率谱。

为了便于理解上述“步骤206、该服务器利用该语音分离模型从该第一短时功率谱中分离出待识别说话方的语音信号的短时功率谱。”的具体过程，参见图3。图3示例性给出了该具体过程的一个流程示意图。

在图3中可以看到，第一短时功率谱和待识别说话方的声纹特征输入到语音分离模型中。然后该语音分离模型的语音分离特征提取神经网络先对该第一短时功率谱进行特征提取。然后再通过语音分离特征拼接子网络根据提取的特征和待识别说话方的声纹特征进行特征拼接得到上述语音分离拼接矩阵。然后，再将该语音分离拼接矩阵输入到掩码获取神经网络中计算得到上述掩码矩阵。然后再将该掩码矩阵与第一短时功率谱逐点相乘得到待识别说话方的短时功率谱。具体的实现过程参见上述的描述，此处不再赘述。

本申请实施例中的所述第一短时功率谱的语音分离特征和声纹特征都是通过训练好的神经网络提取的抽象特征，是同一个层面的特征，因此在特征拼接时契合度较高。此外，本申请实施例在拼接的过程中加入了二阶特征，使得拼接后的特征具有更丰富的表示能力。因此，本申请实施例能够提高待识别说话方的语音信号从待识别语音信号中分离的准确率，从而进一步提高待识别说话方的语音识别准确率。

此外，本申请实施例通过掩码获取神经网络根据语音分离特征拼接矩阵得到掩码矩阵，再根据掩码矩阵分离得到待识别说话方的语音信号短时功率谱，根据该功率谱识别出待识别说话方的语音，从而提高了待识别说话方的语音识别准确率。

下面示例性介绍上述“步骤302、根据第二特征与上述声纹特征拼接得到T1个特征拼接矩阵。和步骤303、将上述T1个特征拼接矩阵拼接得到上述语音分离特征拼接矩阵，上述语音分离特征拼接矩阵为三维矩阵。”的具体实现的过程。该具体实现的过程可以包括但不限于如下步骤：

步骤401、根据上述声纹特征计算上述声纹的二阶特征，以及根据上述T1个时间帧的短时功率谱的特征计算该T1个时间帧中每一个时间帧的短时功率谱的二阶特征。

上述声纹特征可以为上述待识别说话方的声纹的一阶特征。上述T1个时间帧的短时功率谱的特征可以为该T1个时间帧的短时功率谱的一阶特征。

在具体实施例中，该声纹特征可以是一个1行F₀列的矩阵，即该声纹特征也可以看成是一个由F₀个元素组成的行向量。该F₀可以是大于或等于1的整数。

可选的，可以将该声纹特征的每个元素取平方得到的1行F₀列的矩阵即为上述声纹的二阶特征。示例性的，假设声纹特征用

表示，则对该声纹特征的每个元素取平方后得到

该

即为上述声纹的二阶特征。

由上述可知上述T1个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的特征是一个由F₂个元素组成的行向量。可选的，可以将该T1个时间帧的短时功率谱的特征中某一个时间帧的短时功率谱的特征的每个元素取平方可以得到由F₂个元素组成的行向量，该由F₂个元素组成的行向量即为该某一个时间帧的短时功率谱的二阶特征。将该T1个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的特征的每个元素都取平方即可得到该T1个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的二阶特征。

示例性地，假设上述T1个时间帧的短时功率谱的特征中的第j个时间帧的短时功率谱的特征用

表示，则对该第j个时间帧的短时功率谱的特征的每个元素取平方后得到

该

即为该第j个时间帧的短时功率谱的二阶特征。当j取遍1到T1之间的所有整数的时候即可得到上述第二特征中每一个时间帧的短时功率谱的二阶特征。

步骤402、根据上述声纹特征和上述T1个时间帧的短时功率谱的特征计算得到T1个二阶联合特征。

在具体实施例中，根据第j个时间帧的短时功率谱的特征与上述声纹特征计算得到的二阶联合特征为第j二阶联合特征；当j取遍1到T1之间的所有整数的时候即可得到上述T1个二阶联合特征。

可选的，可以将上述声纹特征转置后分别与上述T1个时间帧的短时功率谱的特征中每一个特征相乘即可得到上述T1个二阶联合特征。

示例性地，还是假设上述声纹特征用

表示，则将该声纹特征转置后得到

同样的，还是假设第j个时间帧的短时功率谱的特征用

表示。将

与

相乘得到第j二阶联合特征。计算过程如下：

可以看到，该第j二阶联合特征为F₀行F₂列的二维矩阵。当j取遍1到T1之间的所有整数的时候即可得到上述T1个F₀行F₂列的二维矩阵，该T1个F₀行F₂列的二维矩阵即为上述T1个二阶联合特征。

步骤403、根据上述声纹特征、上述声纹的二阶特征、上述T1个时间帧的短时功率谱的特征、上述T1个时间帧中每一个时间帧的短时功率谱的二阶特征以及上述T1个二阶联合特征拼接得到上述T1个特征拼接矩阵。

在具体实施例中，根据上述声纹特征、上述声纹的二阶特征、上述第j个时间帧的短时功率谱的特征、上述第j个时间帧的短时功率谱的二阶特征以及上述第j二阶联合特征拼接得到的矩阵为上述第j特征拼接矩阵。当j取遍1到T1之间的所有整数的时候即可得到上述T1个特征拼接矩阵。

可选的，可以将上述声纹特征和上述声纹的二阶特征均转置。可以在上述第j个时间帧的短时功率谱的特征后面补两个0使其变为由F₂+2个元素组成的行向量，其中第F₂和第F₂+1个元素为0。可以在上述第j个时间帧的短时功率谱的二阶特征后面补两个0使其变为由F₂+2个元素组成的行向量，其中第F₂和第F₂+1个元素为0。

然后将转置后的该声纹的二阶特征、转置后的该声纹特征、补0后的第j个时间帧的短时功率谱的二阶特征和补0后的第j个时间帧的短时功率谱的特征分别拼接到第j二阶联合特征中，从而得到上述第j特征拼接矩阵。当j取遍1到T1之间的所有整数的时候即可得到上述T1个特征拼接矩阵。

示例性地，拼接后，上述转置后的声纹的二阶特征作为上述第j特征拼接矩阵的第F₂列的元素；上述转置后的声纹特征作为上述第j特征拼接矩阵的第F₂+1列的元素；上述补0后的第j个时间帧的短时功率谱的二阶特征作为上述第j特征拼接矩阵的第F₀行的元素；上述补0后的第j个时间帧的短时功率谱的特征作为上述第j特征拼接矩阵的第F₀+1行的元素。具体拼接后得到的第j特征拼接矩阵如下：

由此可以看到，第j特征拼接矩阵为F₀+2行F₂+2列的二维矩阵。当j取遍1到T1之间的所有整数的时候即可得到T1个F₀+2行F₂+2列的二维矩阵，该T1个F₀+2行F₂+2列的二维矩阵即为上述T1个特征拼接矩阵。

为了便于理解，还可以参见图4，图4示例性给出了上述第j特征拼接矩阵的组成示意图。由图4可以清楚地看到，该第j特征拼接矩阵由六部分组成，分别为F₀行F₂列的第j二阶联合特征、F₀行1列的转置后的声纹的二阶特征、F₀行1列的转置后的声纹特征、1行F₂列的第j个时间帧的短时功率谱的二阶特征、1行F₂列的第j个时间帧的短时功率谱的特征以及补0部分。该补0部分使得该第j特征拼接矩阵形成F₀+2行F₂+2列的二维矩阵。

步骤404、将上述T1个特征拼接矩阵按照预设的拼接规则拼接得到上述语音分离特征拼接矩阵，该语音分离特征拼接矩阵为纵深维度为T1的三维矩阵。

在具体实施例中，上述预设的拼接规则可以是按照从1到T1的顺序将上述T1个特征拼接矩阵拼接得到纵深维度为T1的三维矩阵。具体的，该预设的拼接规则根据具体情况决定，本方案对此不做限制。

示例性的，假设上述预设的拼接规则可以是按照从1到T1的顺序将上述T1个特征拼接矩阵拼接得到纵深维度为T1的三维矩阵。那么，上述第j特征拼接矩阵即为第j-1纵深维度上的元素。最后拼接得到的语音分离特征拼接矩阵可以是F₀+2行F₂+2列T1纵深维度的三维矩阵。

在其中一种可能的实施方式中，上述“步骤302、根据第二特征与上述声纹特征拼接得到T1个特征拼接矩阵。和步骤303、将上述T1个特征拼接矩阵拼接得到上述语音分离特征拼接矩阵，上述语音分离特征拼接矩阵为三维矩阵。”的具体实现的过程也可以是如下的实现方式：

在具体实施例中，该步骤的具体实现可以参见上一个实施例中的步骤401的具体描述，此处不再赘述。

可选的，可以将第j个时间帧的短时功率谱的特征转置后与上述声纹特征相乘即可得到上述第j二阶联合特征。当j取遍1到T1之间的所有整数的时候即可得到上述T1个二阶联合特征。

示例性地，还是假设上述声纹特征用

表示。同样的，还是假设第j个时间帧的短时功率谱的特征用

表示，则将该第j个时间帧的短时功率谱的特征转置后得到

将

与

相乘得到第j二阶联合特征。计算过程如下：

可以看到，该第j二阶联合特征为F₂行F₀列的二维矩阵。当j取遍1到T1之间的所有整数的时候即可得到T1个F₂行F₀列的二维矩阵，该T1个F₂行F₀列的二维矩阵即为上述T1个二阶联合特征。

可选的，可以将上述第j个时间帧的短时功率谱的特征和上述第j个时间帧的短时功率谱的二阶特征均转置。可以在上述声纹特征后面补两个0使其变为由F₀+2个元素组成的矩阵，其中第F₀和第F₀+1个元素为0。可以在上述声纹的二阶特征后面补两个0使其变为由F₀+2个元素组成的矩阵，其中第F₀和第F₀+1个元素为0。

然后将转置后的第j个时间帧的短时功率谱的二阶特征、转置后的第j个时间帧的短时功率谱的特征、补0后的声纹的二阶特征和补0后的声纹特征分别拼接到第j二阶联合特征中，从而得到上述第j特征拼接矩阵。当j取遍1到T1之间的所有整数的时候即可得到上述T1个特征拼接矩阵。

示例性地，拼接后，上述转置后的第j个时间帧的短时功率谱的二阶特征作为上述第j特征拼接矩阵的第F₀列的元素；上述转置后的第j个时间帧的短时功率谱的特征作为上述第j特征拼接矩阵的第F₀+1列的元素；上述补0后的声纹的二阶特征作为上述第j特征拼接矩阵的第F₂行的元素；上述补0后的声纹特征作为上述第j特征拼接矩阵的第F₂+1行的元素。具体拼接后得到的第j特征拼接矩阵如下：

由此可以看到，第j特征拼接矩阵为F₂+2行F₀+2列的二维矩阵。当j取遍1到T1之间的所有整数的时候即可得到T1个F₂+2行F₀+2列的二维矩阵，该T1个F₂+2行F₀+2列的二维矩阵即为上述T1个特征拼接矩阵。

为了便于理解，还可以参见图5，图5示例性给出了该第j特征拼接矩阵的组成示意图。由图5可以清楚地看到，该第j特征拼接矩阵由六部分组成，分别为F₂行F₀列的第j二阶联合特征、F₂行1列的第j个时间帧的短时功率谱的二阶特征、F₂行1列的第j个时间帧的短时功率谱的特征、1行F₀列的转置后的声纹的二阶特征、1行F₀列的转置后的声纹特征以及补0部分。该补0部分使得该第j特征拼接矩阵形成F₂+2行F₀+2列的二维矩阵。

示例性的，假设上述预设的拼接规则可以是按照从1到T1的顺序将上述T1个特征拼接矩阵拼接得到纵深维度为T1的三维矩阵。那么，上述第j特征拼接矩阵即为第j-1纵深维度上的元素。最后拼接得到的语音分离特征拼接矩阵可以是F₂+2行F₀+2列T1纵深维度的三维矩阵。

需要说明的是，根据上述声纹特征和上述第一短时功率谱计算得到的语音分离特征拼接矩阵不限于上述实施例给出的语音分离特征拼接矩阵，还可以根据上述声纹特征和上述第一短时功率谱计算得到其它的语音分离特征拼接矩阵，具体可以根据实际情况确定计算的方式，本方案对此不做限制。

此外，需要说明的是，由于得到不同的语音分离特征拼接矩阵其计算方式不尽相同，因此计算得到不同的语音分离特征拼接矩阵的语音分离模型的参数不相同，具体可以根据实际需要训练设置，本方案对此不做限制。

在一些可能的实施方式中，上述步骤204和步骤205之间还包括：

步骤A、该服务器将该待识别说话方的声纹特征和该第一短时功率谱输入VAD模型。

在具体实施例中，该VAD模型包括一个或多个训练好的用于实现上述待识别语音信号中是否包括上述待识别说话方的语音信号的检测的神经网络模型。

步骤B、该服务器利用该VAD模型检测上述待识别语音信号中是否包括上述待识别说话方的语音信号，并输出检测结果。

在具体的实施例中，服务器将该待识别说话方的声纹特征和该第一短时功率谱输入语音分离模型之后，利用该语音分离模型进行特征提取、特征拼接以及矩阵计算等步骤，最终输出上述待识别语音信号中是否包括上述待识别说话方的语音信号的检测结果。

可选的，该VAD模型可以根据上述第一短时功率谱和上述待识别说话方的声纹特征计算得到VAD特征拼接矩阵，并根据该VAD特征拼接矩阵检测该待识别语音信号中是否包括所述待识别说话方的语音信号。下面会详细介绍检测的过程，此处暂不赘述。

步骤C、根据上述检测结果判断是否继续执行步骤205至步骤209的操作。

在具体实施例中，如果检测结果为第二输出结果，该第二输出结果指示上述待识别语音信号中包括上述待识别说话方的语音信号，则继续执行步骤205至步骤209的操作。如果检测结果为第三输出结果，该第三输出结果指示上述待识别语音信号中不包括上述待识别说话方的语音信号，则服务器不再继续执行步骤205至步骤209的操作，即结束整个语音处理的流程。

这是因为现有技术中对数梅尔谱属于人工设计的特征，而声纹特征使用神经网络提取，属于抽象特征，这两个特征属于不同层面的特征。本申请实施例中的所述第一短时功率谱的VAD特征和声纹特征都是通过训练好的神经网络提取的抽象特征，是同一个层面的特征，因此采用本申请实施例，能够提高检测待识别语音中是否有待识别说话方的语音的检测准确率。

下面示例性介绍上述“步骤B、该服务器利用该VAD模型检测上述待识别语音信号中是否包括上述待识别说话方的语音信号，并输出检测结果；和步骤C、根据上述检测结果判断是否继续执行步骤205至步骤209的操作。”的具体过程。该具体过程可以包括但不限于如下步骤：

步骤501、提取该第一短时功率谱的VAD特征。

上述VAD模型可以包括VAD特征提取神经网络、VAD特征拼接子网络以及VAD识别神经网络。该VAD特征提取神经网络为预先训练好的用于提取上述第一短时功率谱的VAD特征网络。该VAD特征拼接子网络为用于进行VAD特征拼接的子网络。该VAD识别神经网络是预先训练好的用于根据VAD特征拼接子网络的输出结果来检测上述待识别语音信号中是否包括上述待识别说话方的语音信号的网络。

可选的，VAD特征提取神经网络可以使用resnet神经网络结构实现，也可以使用其它的任何一种神经网络结构实现，本方案对此不做限制。VAD识别神经网络可以使用wavenet神经网络结构实现，也可以使用其它的任何一种神经网络结构实现，本方案对此不做限制。

服务器将第一短时功率谱输入到VAD模型之后，通过该VAD特征提取神经网络提取该第一短时功率谱的VAD特征，该VAD特征为一个抽象特征，是用于计算的中间量。该VAD特征可以是一个T行F₁列的二维矩阵，该VAD特征包括第一特征，该第一特征为T个时间帧的短时功率谱的特征，该F₁表示该T个时间帧每个时间帧的短时功率谱的特征是由F₁个元素组成的行向量；该T和F1为大于1的整数。

步骤502、根据该第一特征与该声纹特征拼接得到T个特征拼接矩阵。

步骤503、将该T个特征拼接矩阵拼接得到该VAD特征拼接矩阵，该VAD特征拼接矩阵为三维矩阵。

在具体实施例中，上述VAD特征包括T个时间帧的短时功率谱的特征，那么利用上述VAD特征拼接子网络根据该T个时间帧的短时功率谱的特征与声纹特征进行拼接即可得到上述T个特征拼接矩阵。可选的，根据第i个时间帧的短时功率谱的特征与该声纹特征拼接得到的矩阵为第i特征拼接矩阵，该i为1到T之间的任意一个整数；该第i特征拼接矩阵为二维矩阵。然后，该VAD特征拼接子网络再将该T个特征拼接矩阵拼接得到上述VAD特征拼接矩阵。下面会介绍步骤502和步骤503的具体实现过程，此处暂不详述。

步骤504、根据该VAD特征拼接矩阵计算得到上述检测结果。

在具体实施例中，服务器将上述VAD特征拼接子网络输出的VAD特征拼接矩阵输入到上述VAD识别神经网络，该VAD识别神经网络根据该VAD特征拼接矩阵检测上述待识别语音信号中是否包括上述待识别说话方的语音信号。

可选的，该VAD识别神经网络可以是一个三分类网络，可以根据该VAD特征拼接矩阵计算出上述T个时间帧中每个时间帧为待识别说话方的语音、为非待识别说话方的语音、为非人声的概率，并最终将T个时间帧中每个时间帧为待识别说话方的语音的概率作为检测结果输出。为了便于理解，下面举例说明。

假设上述T为5，即待识别语音信号包括5个时间帧，经过上述VAD模型的各个神经网络的计算，最后输出的检测结果为[0.55,0.65,0.75,0.65,0.65]。这表示该5个时间帧信号中第1、2、3、4和5时间帧信号为待识别说话方的语音信号的概率分别为0.55、0.65、0.75、0.65和0.65。

步骤505、根据上述检测结果判断上述待识别语音信号中是否包括上述待识别说话方的语音信号。

在具体实施例中，将上述得到的检测结果与预设阈值比较以确定上述待识别语音信号中是否包括上述待识别说话方的语音信号。该阈值可以是待识别说话方的语音信号的概率连续n帧大于K。该n可以是大于或等于2的整数，该K可以是大于或等于0.5且小于或等于1之间的任意一个值。为了便于理解，下面举例说明。

假设阈值为待识别说话方的语音信号的概率连续3帧大于0.7，那么如果上述输出的检测结果为[0.55,0.65,0.75,0.65,0.65]，没有连续3帧大于0.7的情况，因此服务器可以确定该待识别的语音不包括上述待识别说话方的语音信号。如果上述输出的检测结果为[0.55,0.65,0.75,0.75,0.75]，有连续3帧大于0.7的情况，因此服务器可以确定该待识别的语音包括上述待识别说话方的语音信号。

为了便于理解上述“步骤B、该服务器利用该VAD模型检测上述待识别语音信号中是否包括上述待识别说话方的语音信号，并输出检测结果”的具体过程，参见图6。图6示例性给出了该具体过程的一个流程示意图。

在图6中可以看到，第一短时功率谱和待识别说话方的声纹特征输入到VAD模型中。然后该VAD模型的VAD特征提取神经网络先对该第一短时功率谱进行特征提取。然后再通过VAD特征拼接子网络根据提取的特征和待识别说话方的声纹特征进行特征拼接得到上述VAD特征拼接矩阵。然后，再将该VAD特征拼接矩阵输入到VAD识别神经网络中计算得到上述待识别语音信号包括的T个时间帧中每个时间帧为待识别说话方的语音的概率。具体的实现过程参见上述的描述，此处不再赘述。

下面示例性介绍上述“步骤502、根据该第一特征与该声纹特征拼接得到T个特征拼接矩阵。和步骤503、将该T个特征拼接矩阵拼接得到该VAD特征拼接矩阵，该VAD特征拼接矩阵为三维矩阵。”的具体实现的过程。该具体实现的过程可以包括但不限于如下步骤：

步骤601、根据上述声纹特征计算该声纹的二阶特征，以及根据所述T个时间帧的短时功率谱的特征计算该T个时间帧中每一个时间帧的短时功率谱的二阶特征。

同样的，上述声纹特征可以为上述待识别说话方的声纹的一阶特征。上述T个时间帧的短时功率谱的特征可以为该T个时间帧的短时功率谱的一阶特征。且该声纹特征可以是一个1行F₀列的矩阵，即该声纹特征也可以看成是一个由F₀个元素组成的行向量。该F₀可以是大于或等于1的整数。

表示，则对该声纹特征的每个元素取平方后得到

该

即为上述声纹的二阶特征。

由上述可知上述T个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的特征是一个由F₁个元素组成的行向量。可选的，可以将该T个时间帧的短时功率谱的特征中某一个时间帧的短时功率谱的特征的每个元素取平方可以得到由F₁个元素组成的行向量，该由F₁个元素组成的行向量即为该某一个时间帧的短时功率谱的二阶特征。将该T个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的特征的每个元素都取平方即可得到该T个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的二阶特征。

示例性地，假设上述T个时间帧的短时功率谱的特征包括的T个时间帧的短时功率谱的特征中的第i个时间帧的短时功率谱的特征用

表示，则对该第i个时间帧的短时功率谱的特征的每个元素取平方后得到

该

即为该第i个时间帧的短时功率谱的二阶特征。当i取遍1到T之间的所有整数的时候即可得到上述T个时间帧的短时功率谱的特征中每一个时间帧的短时功率谱的二阶特征。

步骤602、根据上述声纹特征和上述T个时间帧的短时功率谱的特征计算得到T个二阶联合特征。

在具体实施例中，根据第i个时间帧的短时功率谱的特征与上述声纹特征计算得到的二阶联合特征为第i二阶联合特征；当i取遍1到T之间的所有整数的时候即可得到上述T个二阶联合特征。

可选的，可以将上述声纹特征转置后分别与上述T个时间帧的短时功率谱的特征中每一个特征相乘即可得到上述T个二阶联合特征。

示例性地，还是假设上述声纹特征用

表示，则将该声纹特征转置后得到

同样的，还是假设第i个时间帧的短时功率谱的特征用

表示。将

与

相乘得到第i二阶联合特征。计算过程如下：

可以看到，该第i二阶联合特征为F₀行F₁列的二维矩阵。当i取遍1到T之间的所有整数的时候即可得到上述T个F₀行F₁列的二维矩阵，该T个F₀行F₁列的二维矩阵即为上述T个二阶联合特征。

步骤603、根据上述声纹特征、上述声纹的二阶特征、上述T个时间帧的短时功率谱的特征、上述T个时间帧中每一个时间帧的短时功率谱的二阶特征以及上述T个二阶联合特征拼接得到上述T个特征拼接矩阵。

在具体实施例中，根据上述声纹特征、上述声纹的二阶特征、上述第i个时间帧的短时功率谱的特征、上述第i个时间帧的短时功率谱的二阶特征以及上述第i二阶联合特征拼接得到的矩阵为上述第i特征拼接矩阵。当i取遍1到T之间的所有整数的时候即可得到上述T个特征拼接矩阵。

可选的，可以将上述声纹特征和上述声纹的二阶特征均转置。可以在上述第i个时间帧的短时功率谱的特征后面补两个0使其变为由F₁+2个元素组成的行向量，其中第F₁和第F₁+1个元素为0。可以在上述第i个时间帧的短时功率谱的二阶特征后面补两个0使其变为由F₁+2个元素组成的行向量，其中第F₁和第F₁+1个元素为0。

然后将转置后的该声纹的二阶特征、转置后的该声纹特征、补0后的第i个时间帧的短时功率谱的二阶特征和补0后的第i个时间帧的短时功率谱的特征分别拼接到第i二阶联合特征中，从而得到上述第i特征拼接矩阵。当i取遍1到T之间的所有整数的时候即可得到上述T个特征拼接矩阵。

示例性地，拼接后，上述转置后的该声纹的二阶特征作为上述第i特征拼接矩阵的第F₁列的元素；上述转置后的该声纹特征作为上述第i特征拼接矩阵的第F₁+1列的元素；上述补0后的第i个时间帧的短时功率谱的二阶特征作为上述第i特征拼接矩阵的第F₀行的元素；上述补0后的第i个时间帧的短时功率谱的特征作为上述第i特征拼接矩阵的第F₀+1行的元素。具体拼接后得到的第i特征拼接矩阵如下：

由此可以看到，第i特征拼接矩阵为F₀+2行F₁+2列的二维矩阵。当i取遍1到T之间的所有整数的时候即可得到T个F₀+2行F₁+2列的二维矩阵，该T个F₀+2行F₁+2列的二维矩阵即为上述T个特征拼接矩阵。

为了便于理解，还可以参见图7，图7示例性给出了上述第i特征拼接矩阵的组成示意图。由图7可以清楚地看到，该第i特征拼接矩阵由六部分组成，分别为F₀行F₁列的第i二阶联合特征、F₀行1列的转置后的声纹的二阶特征、F₀行1列的转置后的声纹特征、1行F₁列的第i个时间帧的短时功率谱的二阶特征、1行F₁列的第i个时间帧的短时功率谱的特征以及补0部分。该补0部分使得该第i特征拼接矩阵形成F₀+2行F₁+2列的二维矩阵。

步骤604、将上述T个特征拼接矩阵按照预设的拼接规则拼接得到上述VAD特征拼接矩阵，该VAD特征拼接矩阵为纵深维度为T的三维矩阵。

在具体实施例中，上述预设的拼接规则可以是按照从1到T的顺序将上述T个特征拼接矩阵拼接得到纵深维度为T的三维矩阵。具体的，该预设的拼接规则根据具体情况决定，本方案对此不做限制。

示例性的，假设上述预设的拼接规则可以是按照从1到T的顺序将上述T个特征拼接矩阵拼接得到纵深维度为T的三维矩阵。那么，上述第i特征拼接矩阵即为第i-1纵深维度上的元素。最后拼接得到的VAD特征拼接矩阵可以是F₀+2行F₁+2列T纵深维度的三维矩阵。

在其中一种可能的实施方式中，上述“步骤302、根据该T个时间帧的短时功率谱的特征与该声纹特征拼接得到T个特征拼接矩阵。和步骤303、将该T个特征拼接矩阵拼接得到该VAD特征拼接矩阵，该VAD特征拼接矩阵为三维矩阵。”的具体实现的过程也可以是如下的实现方式：

在具体实施例中，该步骤的具体实现可以参见上一个实施例中的步骤601的具体描述，此处不再赘述。

可选的，可以将第i个时间帧的短时功率谱的特征转置后与上述声纹特征相乘即可得到上述第i二阶联合特征。当i取遍1到T之间的所有整数的时候即可得到上述T个二阶联合特征。

示例性地，还是假设上述声纹特征用

表示。同样的，还是假设第i个时间帧的短时功率谱的特征用

表示，则将该第i个时间帧的短时功率谱的特征转置后得到

将

与

相乘得到第i二阶联合特征。计算过程如下：

可以看到，该第i二阶联合特征为F₁行F₀列的二维矩阵。当i取遍1到T之间的所有整数的时候即可得到T个F₁行F₀列的二维矩阵，该T个F₁行F₀列的二维矩阵即为上述T个二阶联合特征。

可选的，可以将上述第i个时间帧的短时功率谱的特征和上述第i个时间帧的短时功率谱的二阶特征均转置。可以在上述声纹特征后面补两个0使其变为由F₀+2个元素组成的矩阵，其中第F₀和第F₀+1个元素为0。可以在上述声纹的二阶特征后面补两个0使其变为由F₀+2个元素组成的矩阵，其中第F₀和第F₀+1个元素为0。

然后将转置后的第i个时间帧的短时功率谱的二阶特征、转置后的第i个时间帧的短时功率谱的特征、补0后的声纹的二阶特征和补0后的声纹特征分别拼接到第i二阶联合特征中，从而得到上述第i特征拼接矩阵。当i取遍1到T之间的所有整数的时候即可得到上述T个特征拼接矩阵。

示例性地，拼接后，上述转置后的第i个时间帧的短时功率谱的二阶特征作为上述第i特征拼接矩阵的第F₀列的元素；上述转置后的第i个时间帧的短时功率谱的特征作为上述第i特征拼接矩阵的第F₀+1列的元素；上述补0后的声纹的二阶特征作为上述第i特征拼接矩阵的第F₁行的元素；上述补0后的声纹特征作为上述第i特征拼接矩阵的第F₁+1行的元素。具体拼接后得到的第i特征拼接矩阵如下：

由此可以看到，第i特征拼接矩阵为F₁+2行F₀+2列的二维矩阵。当i取遍1到T之间的所有整数的时候即可得到T个F₁+2行F₀+2列的二维矩阵，该T个F₁+2行F₀+2列的二维矩阵即为上述T个特征拼接矩阵。

为了便于理解，还可以参见图8，图8示例性给出了该第i特征拼接矩阵的组成示意图。由图8可以清楚地看到，该第i特征拼接矩阵由六部分组成，分别为F₁行F₀列的第i二阶联合特征、F₁行1列的第i个时间帧的短时功率谱的二阶特征、F₁行1列的第i个时间帧的短时功率谱的特征、1行F₀列的转置后的声纹的二阶特征、1行F₀列的转置后的声纹特征以及补0部分。该补0部分使得该第i特征拼接矩阵形成F₁+2行F₀+2列的二维矩阵。

示例性的，假设上述预设的拼接规则可以是按照从1到T的顺序将上述T个特征拼接矩阵拼接得到纵深维度为T的三维矩阵。那么，上述第i特征拼接矩阵即为第i-1纵深维度上的元素。最后拼接得到的VAD特征拼接矩阵可以是F₁+2行F₀+2列T纵深维度的三维矩阵。

需要说明的是，根据上述声纹特征和上述第一短时功率谱计算得到的VAD特征拼接矩阵不限于上述实施例给出的VAD特征拼接矩阵，还可以根据上述声纹特征和上述第一短时功率谱计算得到其它的VAD特征拼接矩阵，具体可以根据实际情况确定计算的方式，本方案对此不做限制。

此外，需要说明的是，由于得到不同的VAD特征拼接矩阵其计算方式不尽相同，因此计算得到不同的VAD特征拼接矩阵的VAD模型的参数不相同，具体可以根据实际需要训练设置，本方案对此不做限制。

在其中一种可能的实施例中，在上述方法实施例中由终端和服务器执行的所有操作都可以由终端来执行，即采集待识别语音信号、特征提取、特征拼接、待识别说话方的语音信号检测和识别等操作都可以在终端上执行，这样可以减少与服务器的交互，减少时延以及降低服务器的处理负担。

本申请实施例提供的语音识别方法涉及到人工智能(artificial intelligence,AI)领域，需要用到多个神经网络来计算和处理相关的数据，因此本申请实施例提供的语音识别方法可以是由神经网络处理器(neural-network processing unit，NPU)协助中央处理器CPU来完成。便于说明NPU如何协助CPU实现本申请实施例提供的语音识别方法，下面示例性给出一种NPU的硬件结构示意图，参见图9。

在图9中，神经网络处理器90作为协处理器挂载到CPU上，由CPU分配任务。神经网络处理器90的核心部分为运算电路903，通过控制器904控制运算电路903提取存储器中的矩阵数据进行运算。

在一些实现中，运算电路903内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路903是二维脉动阵列。运算电路903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路903是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路903从权重存储器902中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器901中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器908中。

例如，在本申请实施例中，掩码矩阵与待识别语音信号的短时功率谱的逐点相乘运算可以由运算电路903来完成。

存储单元访问控制器905主要用于将外部存储器中的输入数据搬运到统一存储器906或将权重数据搬运到权重存储器902中或将输入数据搬运到输入存储器901中。

统一存储器906用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器905被搬运到权重存储器902中。输入数据也通过存储单元访问控制器905被搬运到统一存储器906中。

总线接口单元910，用于先进可扩展接口(advanced extensible interface，AXI)总线与存储单元访问控制器905和取指存储器909的交互。

总线接口单元910，还用于取指存储器909从外部存储器获取指令，还用于存储单元访问控制器905从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

在本申请实施例中，上述需要从外部存储器获取的数据例如可以是上述待识别语音信号的短时功率谱和待识别说话方的声纹特征等数据。

向量计算单元907包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元907将经处理的输出的向量存储到统一存储器906。例如，向量计算单元907可以将非线性函数应用到运算电路903的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元907生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路903的激活输入，例如用于在神经网络中的后续层中的使用。

控制器904连接的取指存储器909，用于存储控制器904使用的指令。

统一存储器906，输入存储器901，权重存储器902以及取指存储器909均为NPU内部存储器。外部存储器私有于该NPU硬件架构。

上述主要从终端和服务器交互的角度对本申请实施例提供的语音识别方法进行了介绍。可以理解的是，各个设备，例如终端和服务器等为了实现上述对应的功能，其包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端和服务器等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图10示出了本申请实施例提供的一种语音识别设备的逻辑结构示意图，该语音识别设备可以是上述方法实施例中的服务器，也可以是能够实现上述方法实施例中终端和服务器所有功能的终端等。该设备1000包括：

获取单元1001，用于获取第一短时功率谱和待识别说话方的声纹特征，上述第一短时功率谱为待识别语音信号的短时功率谱；

计算单元1002，用于根据上述第一短时功率谱和上述声纹特征计算得到语音分离特征拼接矩阵，上述语音分离特征拼接矩阵为用于实现第二短时功率谱从上述第一短时功率谱中分离的矩阵，上述第二短时功率谱为待识别说话方的语音信号的短时功率谱；

计算单元1002，还用于根据上述语音分离特征拼接矩阵计算得到第一输出结果，上述第一输出结果包括上述第二短时功率谱；

识别单元1003，用于根据上述第二短时功率谱识别出上述待识别说话方的语音。

在其中一种可能的实施方式中，计算单元1002还用于在上述获取单元获取上述第一短时功率谱和上述待识别说话方的声纹特征之后，在计算单元1002根据上述第一短时功率谱和上述声纹特征计算得到语音分离特征拼接矩阵之前，

根据上述第一短时功率谱和上述声纹特征计算得到语音激活检测VAD特征拼接矩阵，上述VAD特征拼接矩阵为用于检测上述待识别语音信号中是否包括上述待识别说话方的语音信号的矩阵；

以及根据上述VAD特征拼接矩阵计算得到第二输出结果，上述第二输出结果指示上述待识别语音信号包括上述待识别说话方的语音信号。

在其中一种可能的实施方式中，计算单元1002用于根据上述第一短时功率谱和上述声纹特征计算得到上述VAD特征拼接矩阵，具体为：

将上述第一短时功率谱和上述声纹特征输入VAD模型，上述VAD模型包括一个或多个训练好的用于实现上述待识别语音信号中是否包括上述待识别说话方的语音信号的检测的神经网络模型；

提取上述第一短时功率谱的VAD特征，上述VAD特征为T行F₁列的二维矩阵，上述T表示上述VAD特征包括第一特征，上述第一特征为T个时间帧的短时功率谱的特征，上述F₁表示上述T个时间帧每个时间帧的短时功率谱的特征是由F₁个元素组成的行向量；上述T和F₁为大于1的整数；

根据上述第一特征与上述声纹特征拼接得到T个特征拼接矩阵，根据第i个时间帧的短时功率谱的特征与上述声纹特征拼接得到的矩阵为第i特征拼接矩阵，上述i为1到T之间的任意一个整数；上述第i特征拼接矩阵为二维矩阵；

将上述T个特征拼接矩阵拼接得到上述VAD特征拼接矩阵，上述VAD特征拼接矩阵为三维矩阵。

在其中一种可能的实施方式中，上述声纹特征为上述待识别说话方的声纹的一阶特征；上述第一特征为上述T个时间帧的短时功率谱的一阶特征；计算单元1002用于根据上述第一特征与上述声纹特征拼接得到上述T个特征拼接矩阵，具体为：

根据上述声纹特征计算上述声纹的二阶特征，以及根据上述第一特征计算上述T个时间帧中每一个时间帧的短时功率谱的二阶特征；

根据上述声纹特征和上述第一特征计算得到T个二阶联合特征，根据第i个时间帧的短时功率谱的特征与上述声纹特征计算得到的二阶联合特征为第i二阶联合特征；

根据上述声纹特征、上述声纹的二阶特征、上述第一特征、上述T个时间帧中每一个时间帧的短时功率谱的二阶特征以及上述T个二阶联合特征拼接得到上述T个特征拼接矩阵，根据上述声纹特征、上述声纹的二阶特征、上述第i个时间帧的短时功率谱的特征、上述第i个时间帧的短时功率谱的二阶特征以及上述第i二阶联合特征拼接得到的矩阵为上述第i特征拼接矩阵。

在其中一种可能的实施方式中，计算单元1002用于根据上述VAD特征拼接矩阵计算得到上述第二输出结果，具体为：

将上述VAD特征拼接矩阵输入VAD模型包括的VAD识别神经网络，上述VAD识别神经网络为训练好的根据上述VAD特征拼接矩阵识别出上述待识别语音信号中是否包括上述待识别说话方的语音信号的神经网络模型；上述VAD模型包括一个或多个训练好的用于实现上述待识别语音信号中是否包括上述待识别说话方的语音信号的检测的神经网络模型

通过上述VAD识别神经网络计算得到上述第二输出结果。

在其中一种可能的实施方式中，计算单元1002用于根据上述第一短时功率谱和上述声纹特征计算得到上述语音分离特征拼接矩阵，具体为：

将上述第一短时功率谱和上述声纹特征输入语音分离模型，上述语音分离模型包括一个或多个训练好的用于实现第二短时功率谱从上述第一短时功率谱中分离的神经网络模型；

提取上述第一短时功率谱的语音分离特征，上述语音分离特征为T1行F₂列的二维矩阵，上述T1表示上述语音分离特征包括第二特征，上述第二特征为T1个时间帧的短时功率谱的特征，上述F₂表示上述T1个时间帧每个时间帧的短时功率谱的特征是由F₂个元素组成的行向量；上述T1和F₂为大于1的整数；

根据上述第二特征与上述声纹特征拼接得到T1个特征拼接矩阵，根据第j个时间帧的短时功率谱的特征与上述声纹特征拼接得到的矩阵为第j特征拼接矩阵，上述j为1到T1之间的任意一个整数；上述第j特征拼接矩阵为二维矩阵；

将上述T1个特征拼接矩阵拼接得到上述语音分离特征拼接矩阵，上述语音分离特征拼接矩阵为三维矩阵。

在其中一种可能的实施方式中，上述声纹特征为上述待识别说话方的声纹的一阶特征；上述第二特征为上述T1个时间帧的短时功率谱的一阶特征；计算单元1002用于根据上述第二特征与上述声纹特征拼接得到上述T1个特征拼接矩阵，具体为：

根据上述声纹特征计算上述声纹的二阶特征，以及根据上述第二特征计算上述T1个时间帧中每一个时间帧的短时功率谱的二阶特征；

根据上述声纹特征和上述第二特征计算得到T1个二阶联合特征，根据第j个时间帧的短时功率谱的特征与上述声纹特征计算得到的二阶联合特征为第j二阶联合特征；

根据上述声纹特征、上述声纹的二阶特征、上述第二特征、上述T1个时间帧中每一个时间帧的短时功率谱的二阶特征以及上述T1个二阶联合特征拼接得到上述T1个特征拼接矩阵，根据上述声纹特征、上述声纹的二阶特征、上述第j个时间帧的短时功率谱的特征、上述第j个时间帧的短时功率谱的二阶特征以及上述第j二阶联合特征拼接得到的矩阵为上述第j特征拼接矩阵。

在其中一种可能的实施方式中，计算单元1002用于根据上述语音分离特征拼接矩阵计算得到上述第一输出结果，具体为：

将上述语音分离特征拼接矩阵输入语音分离模型包括的掩码获取神经网络；

通过上述掩码获取神经网络计算出上述第一短时功率谱的掩码矩阵，上述掩码矩阵包括上述第二短时功率谱在上述第一短时功率谱中的权重信息；

根据上述掩码矩阵和上述第一短时功率谱计算得到上述第一输出结果。

上述各个实施例的有益效果可以参照上述方法实施例中对应的描述，此处不再赘述。

图11所示，为本申请实施例提供的本申请实施例提供的一种语音识别设备的硬件结构示意图，该语音识别设备可以是上述方法实施例中的服务器，也可以是能够实现上述方法实施例中终端和服务器所有功能的终端等。设备1100包括：处理器1101、存储器1102和通信接口1103。处理器1101、通信接口1103以及存储器1102可以相互连接或者通过总线1104相互连接。

示例性的，存储器1102用于存储设备1100的计算机程序和数据，存储器1102可以包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-onlymemory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)或便携式只读存储器(compact disc read-only memory，CD-ROM)等。通信接口1103用于支持设备1100进行通信，例如接收或发送数据。

示例性的，处理器1101可以是中央处理单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。处理器1101可以用于读取上述存储器1102中存储的程序，执行上述图2以及可能的实施方式所述方法中服务器所做的操作。

参见图12，图12示出了本申请提供的一种芯片的结构示意图。如图12所示，芯片1200可包括：处理器1201，以及耦合于处理器1201的一个或多个接口1202。其中：

处理器1201可用于读取和执行计算机可读指令。具体实现中，处理器1201可主要包括控制器、运算器和寄存器。其中，控制器主要负责指令译码，并为指令对应的操作发出控制信号。运算器主要负责执行定点或浮点算数运算操作、移位操作以及逻辑操作等，也可以执行地址运算和转换。寄存器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中，处理器1201的硬件架构可以是专用集成电路(applicationspecific integrated circuits，ASIC)架构、无互锁管道阶段架构的微处理器(microprocessor without interlocked piped stages architecture，MIPS)架构、进阶精简指令集机器(advanced RISC machines，ARM)架构或者NP架构等等。处理器1201可以是单核的，也可以是多核的。

接口1202可用于输入待处理的数据至处理器1201，并且可以向外输出处理器1201的处理结果。具体实现中，接口1202可以是通用输入输出(general purpose inputoutput，GPIO)接口，可以和多个外围设备(如显示器(LCD)、射频(radio frequency，RF)模块等等)连接。接口1202可以通过总线1203与处理器1201相连。

本申请中，处理器1201可用于从存储器中调用本申请的一个或多个实施例提供的语音识别方法在第服务器侧或终端侧的实现程序，并执行该程序包含的指令。存储器可以和处理器1201集成在一起，这种情况下，存储器是作为芯片1200的一部分。或者，存储器作为芯片1200外部的元件，处理器1201通过接口1202调用存储器中存储的指令或数据。

接口1202可用于输出处理器1201的执行结果。关于本申请的一个或多个实施例提供的语音识别方法可参考前述各个实施例，这里不再赘述。

在一种可能的实施例中，上述芯片1200可以是系统芯片(System on a Chip，SoC)。

需要说明的，处理器1201、接口1202各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述图2以及可能的实施方式所述方法中服务器所做的操作。

本申请实施例还公开了一种计算机程序，当所述计算机程序在计算机上执行时，将会使所述计算机实现上述图2以及可能的实施方式所述的方法。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，上述图2以及可能的实施方式所述的方法将被执行。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

根据所述第二短时功率谱识别出所述待识别说话方的语音。

2.根据权利要求1所述方法，其特征在于，所述获取第一短时功率谱和待识别说话方的声纹特征之后，所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前，还包括：

3.根据权利要求2所述方法，其特征在于，所述根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵，包括：

4.根据权利要求3所述方法，其特征在于，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第一特征为所述T个时间帧的短时功率谱的一阶特征；所述通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵，包括：

5.根据权利要求2至4任一项所述方法，其特征在于，所述根据所述VAD特征拼接矩阵计算得到第二输出结果，包括：

通过所述VAD识别神经网络计算得到所述第二输出结果。

6.根据权利要求1至5任一项所述方法，其特征在于，所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵，包括：

7.根据权利要求6所述方法，其特征在于，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第二特征为所述T1个时间帧的短时功率谱的一阶特征；所述通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到T1个特征拼接矩阵，包括：

8.根据权利要求1至7任一项所述方法，其特征在于，所述根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，包括：

9.一种语音识别设备，其特征在于，包括：

10.根据权利要求9所述设备，其特征在于，所述计算单元还用于在所述获取单元获取所述第一短时功率谱和所述待识别说话方的声纹特征之后，在所述计算单元根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前，

11.根据权利要求10所述设备，其特征在于，所述计算单元用于根据所述第一短时功率谱和所述声纹特征计算得到所述VAD特征拼接矩阵，具体为：

12.根据权利要求11所述设备，其特征在于，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第一特征为所述T个时间帧的短时功率谱的一阶特征；所述计算单元用于通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到所述T个特征拼接矩阵，具体为：

13.根据权利要求10至12任一项所述设备，其特征在于，所述计算单元用于根据所述VAD特征拼接矩阵计算得到所述第二输出结果，具体为：

通过所述VAD识别神经网络计算得到所述第二输出结果。

14.根据权利要求9至13任一项所述设备，其特征在于，所述计算单元用于根据所述第一短时功率谱和所述声纹特征计算得到所述语音分离特征拼接矩阵，具体为：

15.根据权利要求14所述设备，其特征在于，所述声纹特征为所述待识别说话方的声纹的一阶特征；所述第二特征为所述T1个时间帧的短时功率谱的一阶特征；所述计算单元用于通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到所述T1个特征拼接矩阵，具体为：

16.根据权利要求9至15任一项所述设备，其特征在于，所述计算单元用于根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果，具体为：

17.一种语音识别设备，其特征在于，所述语音识别设备包括处理器、存储器以及通信接口；所述存储器以及所述通信接口与所述处理器耦合，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，所述语音识别设备执行如权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至8任意一项所述的方法。

19.一种芯片，所述芯片包括处理器、存储器和通信接口，其特征在于，所述芯片被配置用于执行权利要求1至8任意一项所述的方法。