CN111341299A

CN111341299A - 一种语音处理方法及装置

Info

Publication number: CN111341299A
Application number: CN201811457674.9A
Authority: CN
Inventors: 张仕良; 雷鸣; 李威; 姚海涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-26
Anticipated expiration: 2038-11-30
Also published as: US11900958B2; WO2020113053A1; CN111341299B; TWI835838B; US20200176014A1; US11538488B2; TW202022855A; US20230245672A1

Abstract

本申请实施例公开了一种语音处理方法及装置。所述方法包括：对语音信号进行分帧处理，生成多个语音帧；分别提取所述多个语音帧对应的声学特征；利用声学模型按照帧移为第一数量的频率处理所述声学特征，以在单次帧移处理后获取第二数量的后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率，所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。利用本申请提供的语音处理方法，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

Description

一种语音处理方法及装置

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音处理方法及装置。

背景技术

近几年随着深度学习技术的使用，基于深度神经网络的语音识别系统性能获得了极大的提升，开始慢慢走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。声学模型是语音识别系统的一个核心模块，也是目前的研究热点。据统计，利用声学模型对语音信号进行解码的过程是整个解码过程中最消耗计算资源的环节，因此，降低声学模型的计算成本是比较重要的技术需求。

对于所述声学模型，输入的是语音信号中每个语音帧提取的声学特征。而每个语音帧的声学特征理论上对应于一个建模单元，所述建模单元例如可以包括音素状态(state)、绑定的音素状态(CD-state)、音素(phone)、绑定的音素(CD-phone)中的一种。在汉字中，所述建模单元例如可以包括声母、韵母等。基于此，所述声学模型的输出是该语音帧的声学特征相对于多个预设建模单元的后验概率分布。这样，输入的多个声学特征可以被转化成多个后验概率分布，然后，可以结合语言模型进行解码，得到所述语音信号的识别结果。对于一个普通的汉字，通常持续的时间为100-200ms，相对应的语音帧就会持续10到20帧。那么，若利用上述方式处理一个汉字对应的语音信号，则需要声学模型进行10-20次的计算，因此，利用现有技术的声学模型处理语音信号，需要消耗很大的计算资源。

因此，现有技术中亟需一种计算成本较低的声学模型。

发明内容

本申请实施例的目的在于提供一种语音处理方法及装置，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

本申请实施例提供的语音处理方法及装置具体是这样实现的：

一种语音处理方法，所述方法包括：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

利用声学模型按照帧移为第一数量的频率处理所述声学特征，以在单次帧移处理后获取第二数量的后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率，所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。

一种语音处理装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现下述步骤：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述语音处理方法的步骤。

本申请各个实施例提供的语音处理方法及装置，可以利用低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到语音识别中声学模型，由于低帧率(LFR)算法和多帧预测(MFP)算法均可以单次处理多个相邻的声学特征，但是这两种算法均由于相邻多个声学特征之间的差异性而难以扩展单次处理声学特征的数量。基于此，可以将低帧率(LFR)算法和多帧预测(MFP)算法相结合，从而实现乘性扩展声学模型的单次处理能力。因此，本申请各个实施例提供的语音处理方法，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的语音处理方法的应用场景示意图；

图2是本申请提供的语音处理方法的一种实施例的方法流程图；

图3是本申请提供的语音处理装置的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

基于降低声学模型计算成本的需求，相关技术中提出一种低帧率(Lower FrameRate，LFR)算法。在低帧率算法中，基于相邻语音帧之间较强的相关性，可以通过将多个相邻语音帧的声学特征输入至声学模型中。所述声学模型可以基于所述多个相邻语音帧的声学特征，计算得到一个针对上述多个声学特征相对于多个预设建模单元的平均后验概率分布。通常情况下，单帧语音帧的持续时间为10ms，目前的低帧率算法可以实现单次输入连续3帧(即30ms)的语音帧，这样，可以将声学模型的计算量降低至原始计算量的三分之一。但是，通过实验发现，若想单次输入更多的语音帧(比如4帧以上)，则声学模型的输出结果准确率较低。这是由于，即使相邻语音帧之间具有相关性，但是不同的语音帧毕竟具有差异性，尤其是作为输入的语音帧数越多，产生的差异性也相应地越大，因此，难以训练所述声学模型，使得所述声学模型单次处理更多的语音帧对应的声学特征，且保证所述声学模型的输出具有较高的准确性。

基于以上技术需求，可以结合低帧率算法和多帧率预测(Multiple FramePrediction，MFP)算法，使得所述声学模型可以单次处理更多的语音帧对应的声学特征，并且可以保证所述声学模型的输出具有较高的准确性。

下面结合图1通过一个具体的应用场景说明本申请实施例提供的语音处理方法。

如图1展示的是利用本申请实施例方法训练声学模型的流程示意图。如图1所示，所述声学模型可以结合低帧率算法和多帧率预测训练完成，在本场景中，低帧率算法和多帧率预测均可以实现单次处理连续3个的声学特征，因此，本申请的声学模型可以单次处理连续9个语音帧对应的声学特征。所述声学模型可以采用深度神经网络训练得到，因此需要在训练样本中标注标签以监督所述声学模型的训练过程。所述标签可以包括图1所示的平均建模概率向量，所述平均建模概率向量可以利用多个声学特征对应的建模概率向量计算得到。例如，图1中，可以将编号为1-9的声学特征按序平均划分成三个声学特征序列，其中声学特征序列1包括编号为1,2,3的声学特征。编号为1,2,3的三个声学特征分别对应的建模单元分别为a，o，e，正好对应于韵母表的前三位，那么，编号为1,2,3的声学特征分别对应的建模概率向量可以表示为[1,0,0,0,…]、[0,1,0,0,…]、[0,0,1,0,…]，将这三个建模概率向量的平均概建模率向量作为声学特征序列1对应的标签1，另外两个声学特征序列的标签的计算方式相同，在此不再赘述。在获取所述标签1、标签2、标签3之后，可以将所述9个声学特征作为声学模型的输入，将所述标签1、标签2、标签3作为监督信息，训练所述声学模型。

那么在实际应用所述声学模型的过程中，可以极大地提高声学模型的计算效率。对于具有900个语音帧的语音信号，若按照传统的低帧算法和多帧预测算法，则需要300次的计算。但是，利用本申请通过的实施例方法，只需要计算100次。

下面结合附图对本申请所述的语音处理方法进行详细的说明。图2是本申请提供的语音处理方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的语音处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

具体的本申请提供的语音处理方法的一种实施例如图2所示，所述方法可以包括：

S201：对语音信号进行分帧处理，生成多个语音帧；

S203：分别提取所述多个语音帧对应的声学特征；

S205：利用声学模型按照帧移为第一数量的频率处理所述声学特征，以在单次帧移处理后获取第二数量的后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率，所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。

本申请实施例中，在对语音信号进行分析之前，可以对所述语音信号进行分帧处理，即将语音信号切分成若干段，每一段称为一个语音帧。分帧处理的操作可以使用移动函数来实现，且帧与帧之间可以具有交叠部分。若每个语音帧的长度为25毫秒，帧移为10毫秒，则每两个语音帧之间具有(25-10＝15)毫秒的交叠。当然，在对所述语音信号进行分帧处理之前，还可以对所述语音信号进行预处理，预处理的过程可以包括静音切除、去除噪声等处理步骤。例如，去除语音信号的收尾端的静音，可以降低对后续步骤造成的干扰。

在对语音信号进行分帧处理之后，语音信号变换成多个小段的语音帧。但是语音信号为声波的形式，因此，需要将波形变换成可以描述的方式。具体地，可以对语音信号进行声学特征提取，典型的声学特征提取方式可以包括梅尔频率倒谱系数(MFCC)。在进行声学特征提取的过程中，可以将每个语音帧的波形变换成一个多维向量，该多维向量可以包含这帧语音信号的内容信息。当然，所述声学特征提取方式不限于MFCC，还可以包含其他多种方式。在一个示例中，在对语音信号进行声学特征提取之后，可以将语音信号变换成M行N列的矩阵，其中，M为声学特征的个数，N为语音信号的总帧数。

在对所述多个语音帧进行特征提取之后，所述多个语音帧变换成由多个声学特征。在一个示例中，一段语音被分帧处理之后，可以生成120个语音帧，对所述120个语音帧进行特征提取之后可以生成由120个声学特征。在利用基于低帧率(帧率为3)的声学模型对所述20个声学特征进行处理时，可以将按照每次3个声学特征的规则将该120个声学特征输入至所述声学模型中，即需要(120/3)＝40次的计算。对应的，所述声学模型可以生成40个后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率。所述建模单元可以包括音素(phone)、绑定的音素(CD-phone)、音素状态(state)、绑定的音素状态(CD-state)中的一种。其中，对于音素而言，单词的发音由音素构成，英语中常用的音素集由卡内基梅隆大学的一套由39个音素构成，汉语中的音素集可以包括23个声母和24个韵母。而音素状态是比音素更加细致的语音单位，通常一个音素可以包含三个音素状态。而语音识别的过程即将语音帧识别成音素状态，将状态组合成音素，并将音素组合成单词。也就是说，如果能够准确地识别出每个语音帧的建模单元，语音识别的结果也就可以获得。当然，所述建模单元还可以包括其他能够表达发音状态的单元，本申请在此不做限制。

在获取语音帧的声学特征对应的建模单元的过程中，可以计算声学特征对应的建模单元的后验概率，后验概率越大，表示该语音帧对应该建模单元的可能性越大。为了简便地表达不同的声学特征对应不同的建模单元的后验概率，可以利用后验概率向量表达。相对于先验概率而言，后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料，因此，后验概率在信息表达上具有更高的准确性。在一个示例中，在汉语中，可以预定义47个预设建模单元，即23个声母和24个韵母，那么对于声学特征而言，属于以上47个预设建模单元的后验概率值均不相同，因此，可以建立具有47个元素的后验概率向量，用于表达声学特征分别属于预设建模单元的后验概率值。在一个示例中，对于一个声学特征，其后验概率向量可以为[0.06,0,0,0.1,…,0.4,0.01.0.02]。

基于此，在本公开的实施例中，可以在低帧率算法的基础上，结合多帧预测算法，使得声学模型可以单次处理更多的语音帧对应的声学特征。在所述多帧预测算法中，声学模型可以同时处理M个语音帧对应的声学特征，并分别获取该M个声学特征对应的后验概率向量，即获取M个后验概率向量。但是，在相关技术中，M的值一般小于等于3，这是由于在基于神经网络的声学模型中，输入的声学特征越多，声学特征之间的差异性越显著，导致声学模型中的网络参数越难调和，因此，基于多帧预测算法的声学模型也难以扩大单次处理的声学特征的数量。在本公开的实施例中，可以将低帧率算法和多帧预测算法相结合，使得输入声学模型的声学特征的数量以乘性扩大。

在一个示例中，对于低帧率算法，声学模型单次可以将3个声学特征转换成1个后验概率向量，对于多帧率预测算法，声学模型单次可以同时对3个声学特征预测出3个后验概率向量。在此，结合低帧率算法，可以将多帧率预测算法中的声学特征替换成声学特征序列，该声学特征序列可以由3个声学特征组成。这样，声学模型单次可以处理3*3＝9个声学特征，并输出3个后验概率向量。相对于低帧率算法和多帧率预测算法，本申请通过的实施例可以将声学模型的计算量降低至原始计算量的三分之一。

基于此，所述声学模型可以被设置为按照下述方式训练得到：

S301：获取多个历史语音信号、所述历史语音信号对应的多个声学特征以及所述声学特征对应的建模单元。

S303：将所述历史语音信号对应的多个声学特征按照帧移为所述第一数量的频率进行划分。

S305：将所述第一数量的声学特征划分成所述第二数量的声学特征序列，所述声学特征序列中包括具有相邻关系的第三数量的声学特征。

S307：根据所述第三数量的声学特征对应的建模单元，分别计算所述第二数量的声学特征序列对应于多个预设建模单元的平均概率向量。

S309：利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型。

在本申请实施例中，可以获取多个历史语音信号作为训练所述声学模型的样本数据。同时，还可以获取所述历史语音信号对应的多个声学特征，以及，所述多个声学特征分别对应的建模单元。然后，可以将所述历史语音信号对应的多个声学特征按照帧移为所述第一数量的频率进行划分，即按照每次所述第一数量的规则进行划分，所述第一数量即为所述声学模型最多可以处理的声学特征的数量，对应于上述示例，所述第一数量即为9。由于低帧率算法和多帧率预测均有各自的处理能力上限，因此，可以将每次处理的第一数量的声学特征进一步划分成第二数量的声学特征序列，所述声学特征序列中包括具有相邻关系的第三数量的声学特征。在上述示例中，可以将9个声学特征按序依次划分成3个声学特征序列，则所述声学特征序列可以包括3个相邻的声学特征。

本申请实施例中，在利用深度学习方式对所述声学模型进行训练的过程中，需要有确定的标签作为监督训练的信息。在本公开实施例中，所述第一数量的声学特征作为所述声学模型的输入，对应的标签可以包括所述第二数量的声学特征序列对应于多个预设建模单元的平均概率向量。下面通过一个具体的示例说明所述平均概率向量，对于单次输入的9个声学特征，按序平均划分成3个声学特征序列，则所述声学特征序列可以包括3个相邻的声学特征。那么，单个声学特征序列对应的标签为所述3个相邻的声学特征对应于多个预设建模单元的平均概率向量。例如，在汉字中，这3个相邻的声学特征分别对应的建模单元分别为a，o，e，正好对应于韵母表的前三位，那么，这个三个相邻的声学特征分别对应的概率向量可以表示为[1,0,0,0,…]、[0,1,0,0,…]、[0,0,1,0,…]，将这三个概率向量的平均概率向量作为单个声学特征序列对应的标签，另外两个声学特征序列的标签的计算方式相同，在此不再赘述。在本示例中，可以将三个平均概率向量作为9个声学特征的标签，利用深度学习的方式训练得到所述声学模型。

本实施例中，在利用深度学习的方式训练所述声学模型的过程中，可以构建基于深度学习的声学模型，所述声学模型中设置有网络参数。所述深度学习的方式可以包括深度学习网络，包括但不限于深层的神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent Neural Networks，RNN)、长短时记忆单元(Long Short Term Memory，LSTM)、前馈序列记忆神经网络(Feedforward Sequential Memory Networks，FSMN)等等。在训练的过程中，可以将所述历史语音信号按照每次输入所述第二数量的声学特征序列(即第一数量的声学特征)的规则输入所述声学模型，并在每次获取所述第二数量的预测概率向量。然后，可以基于所述平均概率向量与所述预测概率向量之间的差异，对所述网络参数进行迭代调整，直至所述差异满足预设要求。需要说明的是，本申请对于声学模型的训练方式不做限制。

在本公开的一个实施例中，如图1所示，所述声学模型中可以包括主神经网络和所述第二数量的相互独立的子神经网络，其中，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端分别与所述第二数量的子神经网络的输入端相耦合，所述第二数量的子神经网络的输出端为所述声学模型的输出端。所述多个子神经网络用于对所述主神经网络的输出进行进一步的特征变换和处理，使得所述声学模型适应于多个具有相互独立关系的输出目标(即所述平均概率向量)的预测。另外，多个声学特征序列的平均概率向量之间存在相似性，但是也存在一定的差异性，因此，所述多个子神经网络可以处理所述差异性，降低所述差异性对所述声学模型的影响，增强所述声学模型的建模能力。由于复杂的主神经网络可以得到所述第一数量的声学特征中具有较强区分性的特征，因此，所述子神经网络可以采用一些简单的结构，比如1-2层的DNN。这样，一方面可以增强所述声学模型的建模能力，另一方面不需要增加很多计算量。

进一步地，在本公开的实施例中，所述声学模型中可以包括主神经网络和具有多层结构的多个子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端与所述多个子神经网络的第一层的输入端相耦合，所述多个子神经网络最后一层的输出端为所述声学模型的输出端。在本实施例中，所述多个子神经网络中可以具有多层结构，使得所述声学模型更加适应于多个具有相互独立关系的输出目标(即所述平均概率向量)的预测，以及，进一步降低多个声学特征序列的平均概率向量之间的差异性对所述声学模型的影响，增强所述声学模型的建模能力。基于此，还可以进一步扩展声学模型单次处理声学特征的个数，例如，设置所述第一数量为12、16、18、20等等。

本申请各个实施例提供的语音处理方法，可以利用低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到语音识别中声学模型，由于低帧率(LFR)算法和多帧预测(MFP)算法均可以单次处理多个相邻的声学特征，但是这两种算法均由于相邻多个声学特征之间的差异性而难以扩展单次处理声学特征的数量。基于此，可以将低帧率(LFR)算法和多帧预测(MFP)算法相结合，从而实现乘性扩展声学模型的单次处理能力。因此，本申请各个实施例提供的语音处理方法，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

本申请另一方面还提供一种语音处理装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现下述步骤：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

可选的，在本申请的一个实施例中，所述声学模型被设置为按照下述方式处理所述声学特征序列：

在单次帧移处理中，将所述第一数量的声学特征划分成所述第二数量的声学特征序列，所述声学特征序列中包括具有相邻关系的多个声学特征；

分别对所述第二数量的声学特征序列进行处理，生成所述第二数量的后验概率向量。

可选的，在本申请的一个实施例中，所述声学模型被设置为按照下述方式训练得到：

获取多个历史语音信号、所述历史语音信号对应的多个声学特征以及所述声学特征对应的建模单元；

将所述历史语音信号对应的多个声学特征按照帧移为所述第一数量的频率进行划分；

将所述第一数量的声学特征划分成所述第二数量的声学特征序列，所述声学特征序列中包括具有相邻关系的第三数量的声学特征；

根据所述第三数量的声学特征对应的建模单元，分别计算所述第二数量的声学特征序列对应于多个预设建模单元的平均概率向量；

利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型。

可选的，在本申请的一个实施例中，所述处理器在实现步骤利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型时包括：

构建基于深度学习的声学模型，所述声学模型中设置有网络参数；

将所述历史语音信号按照每次输入所述第二数量的声学特征序列的规则输入所述声学模型，并在每次获取所述第二数量的预测概率向量；

基于所述平均概率向量与所述预测概率向量之间的差异，对所述网络参数进行迭代调整，直至所述差异满足预设要求。

可选的，在本申请的一个实施例中，所述声学模型中包括主神经网络和所述第二数量的相互独立的子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端分别与所述第二数量的子神经网络的输入端相耦合，所述第二数量的子神经网络的输出端为所述声学模型的输出端。

可选的，在本申请的一个实施例中，所述声学模型中包括主神经网络和具有多层结构的多个子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端与所述多个子神经网络的第一层的输入端相耦合，所述多个子神经网络最后一层的输出端为所述声学模型的输出端。

本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图3示出了一种用于实现语音识别方法的计算机终端(或移动设备)的硬件结构框图。如图3所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的语音识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在本申请各个实施例提供的语音处理方法可以应用于客户端中，客户端可以是具有语音处理功能的电子设备。根据客户端数据处理能力的不同，可以被划分成以下类别。

表1

在本实施方式中，初级网络设备的硬件设备较为简单，可以进行通过麦克风进行录音，生成音频信息。并将生成的音频信息通过网路通信模块发送给服务器。初级网络设备可以包括麦克风、网络通信单元、传感器和扬声器。初级网络设备可以基本上不需要对数据进行加工处理。初级网络设备还可以设置有其它的传感器，用于采集初级网络设备的工作参数。具体的，例如，初级网络设备可以是物联网设备、边缘节点设备等。

在本实施方式中，简单网络设备可以主要包括：麦克风、网络通信单元、处理器、存储器、扬声器等。简单网络设备相较于初级网络设备增强了数据处理的能力。简单网络设备可以具有一个能处理简单逻辑运算的处理器，使得简单网络设备在采集到数据之后，可以对数据进行初步的预处理，比如可以根据音频信息生成特征矩阵。简单网络设备可以具有一个具有简单显示功能的显示模块，可以用于向用户反馈信息。具体的，例如，简单网络设备可以是智能可穿戴设备、POS(point of sale)机等。例如，智能手环、较初级的智能手表、智能眼镜，或是线下购物场所内的结算设备(例如，POS机)、移动式结算设备(例如，手持式POS机、附加在手持设备上的结算模块)等。

在本实施方式中，中级网络设备可以主要包括麦克风、网络通信单元、处理器、存储器显示器、扬声器等。中级网络设备的处理器的主频通常小于2.0GHz，内存容量通常少于2GB，存储器的容量通常少于128GB。中级网络设备可以对录制的音频信息进行一定程度的处理，比如生成特征矩阵，对特征矩阵进行端点检测处理、降噪处理、语音识别等。具体的，例如，中级网络设备可以包括：智能家居中的智能家用电器、智能家庭终端、智能音箱、较高级的智能手表、较为初级的智能手机(比如，价位在1000元左右)、车载智能终端。

在本实施方式中，智能网络设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。智能网络设备可以具有较强的数据处理能力。智能网络设备的处理器的主频通常大于2.0GHz，内存的容量通常小于12GB，存储器的容量通常小于1TB。可以对音频信息生成特征矩阵之后，可以进行端点检测处理、降噪处理、语音识别等。进一步的，智能网络设备还可以根据音频信息生成语音特征向量。在一些情况下，可以将语音特征向量与用户特征向量进行匹配，识别用户的身份。但这种匹配限于有限个数的用户特征向量，比如一个家庭中的各个家庭成员的用户特征向量。具体的，例如，智能网络设备可以包括：性能较好的智能手机、平板电脑、台式电脑、笔记本电脑等。

在本实施方式中，高性能设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。高性能设备可以具有大规模的数据运算处理能力，还可以提供强大的数据存储能力。高性能设备的处理器主频通常在3.0GHz以上，内存的容量通常大于12GB，存储器容量可以在1TB以上。高性能设备可以对音频信息生成特征矩阵、端点检测处理、降噪处理、语音识别、生成语音特征向量，以及将语音特征向量与存储的大量的用户特征向量进行匹配。具体的，例如，高性能设备可以是工作站、配置很高的台式电脑、Kiosk智能电话亭、自助服务机等。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得上述目前数据处理能力较弱的电子设备，也可能具备较强的处理能力。所以下文中实施方式引用上述表1中的内容，也仅作为示例参考，并不构成限定。

值得注意的是，上述表1所示的五种类型的硬件都可以实现上述的数据更新优化方法。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述声学模型被设置为按照下述方式处理所述声学特征：

3.根据权利要求1所述的方法，其特征在于，所述声学模型被设置为按照下述方式训练得到：

4.根据权利要求3所述的方法，其特征在于，所述利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型包括：

5.根据权利要求4所述的方法，其特征在于，所述声学模型中包括主神经网络和所述第二数量的相互独立的子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端分别与所述第二数量的子神经网络的输入端相耦合，所述第二数量的子神经网络的输出端为所述声学模型的输出端。

6.根据权利要求4所述的方法，其特征在于，所述声学模型中包括主神经网络和具有多层结构的多个子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端与所述多个子神经网络的第一层的输入端相耦合，所述多个子神经网络最后一层的输出端为所述声学模型的输出端。

7.一种语音处理装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现下述步骤：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

8.根据权利要求7所述的装置，其特征在于，所述声学模型被设置为按照下述方式处理所述声学特征序列：

9.根据权利要求7所述的装置，其特征在于，所述声学模型被设置为按照下述方式训练得到：

10.根据权利要求9所述的装置，其特征在于，所述处理器在实现步骤利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型时包括：

11.根据权利要求10所述的装置，其特征在于，所述声学模型中包括主神经网络和所述第二数量的相互独立的子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端分别与所述第二数量的子神经网络的输入端相耦合，所述第二数量的子神经网络的输出端为所述声学模型的输出端。

12.根据权利要求10所述的装置，其特征在于，所述声学模型中包括主神经网络和具有多层结构的多个子神经网络，所述主神经网络的输入端为所述声学模型的输入端，所述主神经网络的输出端与所述多个子神经网络的第一层的输入端相耦合，所述多个子神经网络最后一层的输出端为所述声学模型的输出端。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至6中任一项所述方法的步骤。