CN110634474A

CN110634474A - 一种基于人工智能的语音识别方法和装置

Info

Publication number: CN110634474A
Application number: CN201910907251.0A
Authority: CN
Inventors: 苏丹; 贺利强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2019-12-31
Anticipated expiration: 2039-09-24
Also published as: CN114627863A; CN110634474B; CN114627863B

Abstract

本申请实施例公开了一种基于人工智能的语音识别方法和装置，针对待识别语音信号，根据该待识别语音信号的声学特征，确定对应的声学建模描述特征，该声学建模描述特征可以从声学角度清楚的标识待识别语音信号的语音变化程度，相当于去除了原本声学特征中的冗余信息，突出了有效信息的分布状况。根据声学建模描述特征预测语音识别系统中语音识别解码器用于识别该待识别语音信号的解码参数，并采用该解码参数，通过语音识别解码器识别该待识别语音信号。由此，针对不同的待识别语音信号，均可以在线预测适用的解码参数进行识别，相对于固定解码参数，可以具备更好的识别效果。

Description

一种基于人工智能的语音识别方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的语音识别方法和装置。

背景技术

一些智能设备具有语音识别功能，智能设备的语音识别系统可以根据获取的语音信号，识别出该语音信号对应的文本。一般语音识别系统中包括声学模型、语言模型和语音识别解码器，在识别语音信号时，语音识别解码器读入这两种模型，对所有可能的文本空间通过两种模型进行打分搜索，寻找到最优的文本路径及最优的识别结果。

语音识别解码器具有解码参数，该解码参数可以控制不同模型(例如声学模型、语言模型)的权重比例，例如包括语言模型权重，静音比例因子，词插入惩罚因子等参数。故语音识别系统的识别精度、速度等均与该解码参数相关。

在一些相关技术中，语音识别解码器的解码参数是根据一些测试集通过人工调整、设计确定的。之后在通过语音识别系统进行语音识别时，解码参数将固定不变。难以适用于不同类型语音的识别，在一些场景下识别效果并不理想。

发明内容

为了解决上述技术问题，本申请提供了一种语音识别方法和装置，针对不同的待识别语音信号，均可以在线预测适用的解码参数进行识别，具备更好的识别效果。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

获取待识别语音信号的声学特征；

根据所述声学特征确定对应的声学建模描述特征；所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度；

根据所述声学建模描述特征，预测语音识别解码器用于所述待识别语音信号的解码参数；

通过所述语音识别解码器，采用所述解码参数对所述待识别语音信号进行识别。

第二方面，本申请实施例提供了一种语音识别装置，所述装置包括获取单元、确定单元、预测单元和识别单元：

所述获取单元，用于获取待识别语音信号的声学特征；

所述确定单元，用于根据所述声学特征确定对应的声学建模描述特征；所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度；

所述预测单元，用于根据所述声学建模描述特征，预测语音识别解码器用于所述待识别语音信号的解码参数；

所述识别单元，用于通过所述语音识别解码器，采用所述解码参数对所述待识别语音信号进行识别。

第三方面，本申请实施例提供了一种用于语音识别的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中的语音识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面中的语音识别方法。

由上述技术方案可以看出，针对待识别语音信号，根据该待识别语音信号的声学特征，确定对应的声学建模描述特征，该声学建模描述特征可以从声学角度清楚的标识待识别语音信号的语音变化程度，相当于去除了原本声学特征中的冗余信息，突出了有效信息的分布状况。根据声学建模描述特征预测语音识别系统中语音识别解码器用于识别该待识别语音信号的解码参数，并采用该解码参数，通过语音识别解码器识别该待识别语音信号。由此，针对不同的待识别语音信号，均可以在线预测适用的解码参数进行识别，相对于固定解码参数，可以具备更好的识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别系统架构示意图；

图2为本申请实施例提供的一种语音识别方法的方法流程图；

图3为本申请实施例提供的一种声学特征中后验概率的可视化形式示意图；

图4为本申请实施例提供的一种确定声学建模描述特征的场景示意图；

图5a为本申请实施例提供的预测解码参数的场景示意图之一；

图5b为本申请实施例提供的预测解码参数的场景示意图之二；

图6为本申请实施例提供的一种用于训练神经网络模型的环境结构示意图；

图7为本申请实施例提供的一种用于训练神经网络模型的系统示意图；

图8为本申请实施例提供的一种声学建模描述特征的可视化形式示意图；

图9为本申请实施例提供的一种语音识别装置的装置结构图；

图10为本申请实施例提供的一种设备的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

语音识别系统可以实现识别语音所对应文本的功能。然而，一些相关技术中，语音识别系统中的语音识别解码器的解码参数是预先通过人工，依据一些测试集调整、设计好的。之后的使用过程中，该解码参数均为固定值，难以适用于不同类型语音的识别，在一些场景下识别效果实际并不理想。

为此，本申请实施例提供了一种基于人工智能的语音识别方法和装置，实现了对待识别语音在线调整解码参数的机制，根据待识别语音信号预测出的解码参数更适合语音识别解码器来识别该待识别语音信号，提高了识别精度。针对不同的待识别语音信号，语音识别解码器可以使用不同的解码参数进行识别。

本申请实施例可以应用于具有语音识别功能的处理设备中，该处理设备可以通过自身配置的语音识别系统实施本申请的技术方案，从而准确高效的识别待识别语音信号中的文本内容。该处理设备可以是终端设备或者服务器。终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。服务器可以是独立的服务器，也可以是集群中的服务器。

需要强调的是，本申请实施例所提供的语音识别方法可以是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和深度学习等方向。

例如可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

图1为本申请实施例提供的一种语音识别系统架构示意图，在本申请实施例中的语音识别系统中包括语音识别解码器、声学模型、语言模型和代理。其中声学模型可以用于描述从语音信号到发音单元(也可以称为声学建模单元)之间的映射关系。语言模型可以用于描述词与词前后概率的关系，这两种模型是事先利用大量(语音、文本)对应数据进行训练得到的，可以作为语音识别系统中用于识别待识别语音信号的知识源。在语音识别时，语音识别解码器读入两种模型，基于两种模型计算得到的统计概率，在解码空间中进行集束搜索，通过寻找到最优路径对应的文本确定最优的识别结果。

在本申请实施例中，声学模型可以根据待识别语音信号确定出其声学特征对应的声学建模描述特征。

代理是本申请实施例中的核心部分之一，代理可以根据声学模型提供的声学建模描述特征，确定出对应该待识别语音信号的解码参数，并提供给语音识别解码器。

在一些可能的实现方式中，代理可以是通过强化学习方式训练得到的神经网络模型，例如可以是DNN，长短期记忆网络(Long Short-Term Memory，LSTM)模型等。

由于待识别语音信号的声学建模描述特征可以从声学角度清楚的标识待识别语音信号的语音变化程度，相当于去除了原本声学特征中的冗余信息，突出了有效信息的分布状况，使得待识别语音信号的语音特点在时间维度上表示的更为明显。故根据声学建模描述特征确定出的解码参数更适用于让语音识别解码器识别出该待识别语音信号。

故相对于相关技术中语音识别解码器的固定解码参数，本申请实施例中可以根据不同的待识别语音信号确定出不同的解码参数，或者说，确定的解码参数更适用于当前的待识别语音信号，从而通过在线预测解码参数的方式识别不同的待识别语音信号，达到更好的语音识别效果。

图2为本申请实施例提供的一种语音识别方法的方法流程图，该方法包括：

S201：获取待识别语音信号的声学特征。

待识别语音信号经过信号模块的处理得到信号层特征，信号层特征可以体现任一种表示声音特点的特征。例如可以是梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)、滤波器组(Filter BANK，FBANK)特征等。其中，FBANK特征是以类似于人耳对其听到的声音进行处理的方式来提取得到的，具体通过对已分帧的待识别音频进行傅里叶变换、能量谱计算和Mel等操作，获取的能够表征每一帧音频数据的数组(也被称为FBANK特征向量)，该数组即为FBANK特征。

信号模块在处理待识别语音信号时，会对待识别语音信号进行分帧(以帧移10ms为例，每10ms输出一帧特征)处理，计算得到的信号层特征为多个音频帧分别对应的数据，为方便描述，可以标记信号层特征为T个音频帧。

将信号层特征作为声学模型(例如图1所示的)的输入，计算得到每帧信号层特征相对于所有声学建模单元的后验概率，其中后验概率中的任一个元素可以为概率参数，用于标识信号层特征符合该元素所对应声学建模单元的概率。

需要说明的是，一般来说，声学后验概率可以理解为每帧语音信号特征经过声学模型计算后得到的后验概率，所有声学建模单元的概率相加等于1。声学建模单元分数可以通过后验概率+声学统计先验得到声学建模单元分数，此时的声学分数不服从0～1的分布；这个分数，会用于语音识别解码。

为了说明的清晰性，在本申请实施例中，可以以声学后验概率代替声学建模单元分数。

假设声学建模单元的数目为N(例如可以是12485个，1434个等)，信号层特征为T帧，那么待识别语音信号对应的声学特征可以为一个N*T的声学二维后验概率矩阵。需要注意的是，针对同一声学模型，N保持不变，T可以随着不同的待识别语音信号而发生变化。需要强调的是，信号层特征为T帧，得到的声学特征也有可能不一定是T帧，可以为T/2等，本申请对此不做限定。

为了更加直观的理解待识别语音信号的声学特征，例如二维的后验概率，以图3所示的后验概率示意图，进行可视化形式的展示。

为了可视化的效果，图3中的后验概率共计40帧音频帧，声学建模单元的数目限制在1434维，其中横轴是声学建模单元的序号，纵轴是声学后验概率值，不同颜色的线条代表不同音频帧的声学后验概率。

S202：根据所述声学特征确定对应的声学建模描述特征。

所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度，相当于去除了原本声学特征中的冗余声学信息，突出了有效声学信息的分布状况，使得待识别语音信号的语音特点在时间维度上表示的更为明显。

而本申请实施例中的声学特征所携带的信息仅为后验概率，信息繁杂且不能从声学角度表示出待识别语音信号的语音变化程度。

声学建模描述特征可以更为清晰的表征这类有效声学信息，相对于前述声学特征来说，更适用于解码参数的预测，而且具有较好的计算效率。例如图4所示的场景中，通过声学模型可以根据声学特征例如后验概率，通过高阶特征提取，确定出对应的声学建模描述特征。

S203：根据所述声学建模描述特征，预测语音识别解码器用于所述待识别语音信号的解码参数。

S204：通过所述语音识别解码器，采用所述解码参数对所述待识别语音信号进行识别。

由于声学建模描述特征可以更为清晰的表征待识别语音信号中的有效声学信息，故根据声学建模描述特征预测出的解码参数更适用于识别该待识别语音信号。

在进行预测时，本申请可以针对整句(one step)的待识别语音信号进行预测，也可以针对语音分段(multi steps)进行预测，也就是说，待识别语音信号可以为连续语音对应的语音信号，也可以为连续语音对应的语音信号切分得到的语音片段。

当待识别语音信号可以为连续语音对应的语音信号时，可以预测出一组用于识别该语音信号的解码参数。

当为连续语音对应的语音信号切分得到的语音片段，可以针对每一个语音片段都预测出一组解码参数。每个语音片段按顺序重复上述流程，直到整个语音解码完成。

在一种可能的实现方式中，可以将神经网络模型作为前述代理，通过神经网络模型，根据声学建模描述特征预测所述语音识别解码器用于所述待识别语音信号的解码参数。

其中，神经网络模型的类型可以基于待识别语音信号的类型确定。

例如所述待识别语音信号为连续语音对应的语音信号，神经网络模型可以为DNN模型，相应的，由于DNN模型要求定长的输入，故所确定的声学建模描述特征可以为固定长度的。

例如所述待识别语音信号为对所述连续语音对应的语音信号切分得到的语音片段，神经网络模型可以为LSTM模型，由于LSTM模型并不要求定长的输入，故所确定的声学建模描述特征可以为非固定长度的。

例如图5a中，属于前述的整句(one step)预测模式，代理使用深度神经网络，整个语音信号计算得到的声学建模描述特征(即图中基于声学模型后验得分的输入特征)作为输入，预测得到解码参数。解码参数例如可以是图中的Im_weight(一种权重参数)，blank_scale(一种先验概率)等。

例如图5b中，属于前述的分段(multi steps)预测模式，代理使用递归神经网络，整句语音信号切分出的语音片段(trunk)依次计算得到声学建模描述特征(即图中基于trunk声学模型后验得分的输入特征)作为输入，预测得到当前语音片段的解码参数，每个语音片段按顺序重复上述流程，直到整个语音信号解码完成。每一个语音片段(trunk1-trunk T)都会确定出对应的解码参数，例如可以是图中的Im_weight(一种权重参数)，blank_scale(一种先验概率)等。

由此可见，针对待识别语音信号，根据该待识别语音信号的声学特征，确定对应的声学建模描述特征，该声学建模描述特征可以从声学角度清楚的标识待识别语音信号的语音变化程度，相当于去除了原本声学特征中的冗余信息，突出了有效信息的分布状况。根据声学建模描述特征预测语音识别系统中语音识别解码器用于识别该待识别语音信号的解码参数，并采用该解码参数，通过语音识别解码器识别该待识别语音信号。由此，针对不同的待识别语音信号，均可以在线预测适用的解码参数进行识别，相对于固定解码参数，可以具备更好的识别效果。

本申请实施例中的神经网络模型可以基于自动语音识别技术和强化学习技术训练得到。

针对模型训练，在一种可能的实现方式中，可以首先确定用于训练神经网络模型的环境部分(Environment)，该环境部分可以包括语音识别解码器、声学模型和语言模型，例如图6所示的结构。

环境部分中的各个组件可以与训练后的神经网络模型的使用环境相似。也就是说，环境部分所涉及的语音识别解码器、声学模型和语言模型可以是图1所示的语音识别解码器、声学模型和语言模型。

训练神经网络模型需要语音训练样本，一组语音训练样本可以包括样本语音信号和对应的文本内容，语音训练样本中的文本内容是样本语音信号的实际文本内容，可以作为样本语音信号的标注结果。

语音训练样本并不是直接输入神经网络模型进行训练，而可以通过环境部分确定出对应的奖励参数和声学建模描述特征，这两个特征可以分别对应强化学习中的奖励(reward)和状态(observation)。神经网络模型通过环境部分确定出的奖励参数和声学建模描述特征进行多轮的解码参数预测。

所述神经网络模型通过如下方式训练得到：

环境部分在获取样本语音信号后，可以提取信号层特征，并根据信号层特征确定样本语音信号对应的声学特征，例如采用S201所示的方式。

语音识别解码器通过读入两种模型，采用解码参数对样本语音信号进行语音识别。这里需要注意的是，语音识别解码器每一轮所采用的解码参数是神经网络模型预测出的，接下来通过在对神经网络模型的多轮训练中的第i轮训练为例，详细介绍针对神经网络模型的训练过程。

在第i轮训练中，环境部分可以根据所述语音识别解码器在第i-1轮对所述样本语音信号的识别结果，确定第i轮的奖励参数。所述语音识别解码器在第i-1轮中采用所述神经网络模型第i-1轮预测的解码参数。

例如在图6的场景中，环境部分在第i-1轮采用神经网络模型为第i-1轮提供的解码参数，通过对样本语音信号识别得到第i-1轮的识别结果，根据识别结果可以确定出用于第i轮的奖励参数。第i轮的奖励参数用于调整神经网络模型的模型参数，并根据调整后的模型参数预测出第i轮的解码参数。

这里简单描述一下强化学习的训练的交互逻辑：

第i轮，环境(解码器)反馈状态(声学模型描述特征)给代理，代理基于第i轮的状态和第i-1轮的状态预测解码参数给环境，环境基于预测的解码参数反馈奖励给代理，代理基于奖励更新模型。

该奖励参数可以体现正向奖励和负向奖励，具体程度与第i-1轮的识别结果相关。例如在一种可能的实现方式中，

根据第i-1轮的识别结果的准确性和/或得到第i-1轮的识别结果的识别速度，确定第i轮的奖励参数。第i-1轮的识别结果的准确性是根据第i-1轮的识别结果与所述文本内容确定的。

也就是说，当根据第i-1轮的识别结果的准确性确定第i轮的奖励参数时，环境部分可以对比识别文本与标注结果，计算得到对当前样本语音信号的识别错误率/准确率，正向奖励定义为更小的识别错误率，或者更高的识别准确率。

当根据第i-1轮的识别结果的识别速度确定第i轮的奖励参数时，正向奖励定义为识别速度的提升。

在确定第i轮的奖励参数后，该奖励参数会输入神经网络模型，根据所述样本语音信号对应的声学建模描述特征、第i-1轮所预测的解码参数和第i轮的奖励参数，通过所述神经网络模型预测第i轮的解码参数。

例如，神经网络模型根据第i轮的奖励参数调整模型参数，并在调整后根据样本语音信号对应的声学建模描述特征和第i-1轮所预测的解码参数预测第i轮的解码参数。

需要说明的是，针对同一个样本语音信号的多轮训练中，每一轮的声学建模描述特征可以是相同的。即第i轮时神经网络模型所采用的声学建模描述特征和第i-1轮时神经网络模型所采用的声学建模描述特征可以相同。

参见图7，其为通过语音训练样本对神经网络模型进行训练的一个系统示意图，环境部分根据样本语音信号，确定声学建模描述特征(确定声学建模描述特征的动作不需要每一轮都进行，只要确定出后，可以每轮直接使用)，并代理(在本图中为一种神经网络模型)预测的第i-1轮的解码参数对样本语音信号进行识别，根据识别结果确定第i轮的奖励参数。代理根据第i轮的奖励参数、声学建模描述特征和第i-1轮的解码参数，确定出第i轮的解码参数。代理将第i轮的解码参数发给环境部分，由环境部分根据该参数进行第i轮语音识别。

在明确了本申请中解码参数的预测方案，以及对神经网络模型的训练过程后，接下来主要说明本申请实施例中确定高阶特征，即声学建模描述特征的技术方案。

针对前述S202，本申请实施例不限定其中根据声学特征确定声学建模描述特征的方式。并且，在一种可能的实现方式中，针对一种声学建模描述特征的具体方式进行介绍。

在本方式中，S202具体包括：

S2021：根据所述声学特征中的后验概率，确定概率参数满足预设条件的目标声学建模单元。

所述后验概率中的概率参数用于标识音频帧属于不同声学建模单元的概率。也就是说，若声学建模单元包括N个，那么后验概率中包括N个概率参数，任一个概率参数用于标识音频帧属于该概率参数所对应声学建模单元的概率。，单纯从矩阵的概率参数中，是看不出任何有效声学信息的，故需要通过预设条件来确定出目标声学建模单元。

需要注意的是，一个音频帧可以确定出至少一个目标声学建模单元。

S2022：根据所述目标声学建模单元的概率参数，确定所述声学建模描述特征。

该预设条件的目的是滤除声学特征中的冗余声学信息，并突出有效声学信息，以实现确定声学建模描述特征的作用。

故满足该预设条件的目标声学建模单元在该后验概率中的概率参数相对较大，属于有效声学信息。通过声学特征中各个音频帧的目标声学建模单元的概率参数，可以确定出声学建模描述特征。

由于有些音频帧中携带的多为冗余声学信息，即使概率参数较高的声学建模单元也并非该音频帧的有效声学信息。

故此，在一种可能的实现方式中，以声学模型训练采用连接时序分类算法(Connectionist Temporal Classification,CTC)为例。连接时序分类算法以尖峰(声学建模单元在后验概率中的概率参数明显高于其他声学建模单元的概率参数)对齐到文本的标签(人工标注的文本)。

预先设置评估声学建模单元，在声学特征的音频帧中，任一音频帧的后验概率中所述评估声学建模单元的概率参数为目标值。也就是说，评估声学建模单元可以属于额外引入的声学建模单元Blank，用于吸收非尖峰之外的语音帧，从而起到吸收声学建模单元内部的混淆性，更加突出提供有效声学信息的声学建模单元与其他声学建模单元之间的差异性。

在本实现方式中，可以将预设条件设置为取概率参数的最大值，那么，对于S2021，针对所述待识别语音信号中的任意一个音频帧：目标音频帧，可以将所述目标音频帧的后验概率中的概率参数最大的声学建模单元作为所述目标声学建模单元。

也就是说，确定出的目标声学建模单元可以是前述引入的评估声学建模单元或者是概率参数高于评估声学建模单元的一个声学建模单元。

基于上述算法训练得到的声学模型，语音识别解码器在进行集束搜索(BeamSearch)时，若正常声学建模单元在后验概率中的概率参数均小于Blank的概率参数时，只有非常小的概率会出现在最终竞争胜出的路径中，即，上述情景中Blank在后验概率中的概率参数表征了目标音频帧中绝大多数的声学信息。

反之，若某个声学建模单元在后验概率中的概率参数明显大于其他声学建模单元(包括Blank)的概率参数时，有非常大的概率会出现在最终竞争胜出的路径中，即，上述情景中该声学建模单元在后验概率中的概率参数表征了目标音频帧中绝大多数的声学信息。

不论是上述哪一种情况，确定出的目标声学建模单元都可以体现所在音频帧的主要声学信息。

可以采用如下公式确定目标声学建模单元：

其中，Prob为概率参数，t为目标音频帧，n为全部声学建模单元(包括评估声学建模单元)的数量，blank为评估声学建模单元，n！＝blank表示全部声学建模单元中除了评估声学建模单元之外的其他声学建模单元。

相应的，在S2022中：

若所述目标声学建模单元为所述评估声学建模单元，确定所述目标音频帧为冗余信息，即该目标音频帧的主要声学信息冗余，不属于待识别语音信号的有效声学信息，对预测解码参数没有帮助，可以去除。

若所述目标声学建模单元不是所述评估声学建模单元，将所述目标声学建模单元的概率参数保留在所述声学建模描述特征中，即该目标音频帧的主要声学信息属于待识别语音信号的有效声学信息，有助于预测解码参数，需要保留。

在本实现方式中，二维声学后验概率矩阵直接降阶到一维特征的声学建模描述特征(blank和非blank的最大概率参数)，声学建模描述特征中的连续通过blank的概率参数所标识的音频帧，根据专家知识除了持续的时长信息，本身的概率参数值对于有效声学信息的补充很少。基于以上，通过生成固定的统计量信息描述图8所示的声学建模单元的尖峰分布情况，得到声学建模描述特征。

作为一维特征的声学建模描述特征，可以从语音解码(集束搜索)的角度，以blank的概率参数(例如图8中20所标识的线)去除了大量的冗余声学信息，同时以尖峰(例如图8中10所标识的线)屏蔽了目标音频帧的其他较小尖峰。从而确定出的声学建模描述特征以更加显著的特征，表现了声学建模单元所对应的label(人工标注文本)位置信息(什么地方有尖峰)以及分布信息(什么地方blank占据优势)。在图8中，横坐标对应时间，单位为帧，纵坐标为后验概率值，即概率参数的大小。

需要注意的是，以上基于图3到图8的转换过程只是一个简单样例算法的说明，并不限定每一帧只能通过一个目标声学建模单元进行表示。例如还可以基于上述理论生成更多的次尖峰(非最大后验概率的尖峰)来丰富声学建模描述特征的语音描述；

除了前述实现方式中举例的连接时序分类算法，针对其他的声学模型建模方法，也可以采用类似的理论进行降维处理，比如交叉熵训练中，blank单元替换为静音声学单元。

基于专家知识理论来进行特征降维的方法，也可以通过神经网络进行特征自动提取的方法，比如直接将声学二维后验概率矩阵输入到LSTM模型中，由机器自动学习语音的高阶特征。

本申请实施例还提供了一种语音识别装置，如图9所示，所述语音识别装置900包括获取单元901、确定单元902、预测单元903和识别单元904：

所述获取单元901，用于获取待识别语音信号的声学特征；

所述确定单元902，用于根据所述声学特征确定对应的声学建模描述特征；所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度；

所述预测单元903，用于根据所述声学建模描述特征，预测语音识别解码器用于所述待识别语音信号的解码参数；

所述识别单元904，用于通过所述语音识别解码器，采用所述解码参数对所述待识别语音信号进行识别。

可选的，所述装置还包括训练单元：

所述预测单元还用于根据声学建模描述特征，通过神经网络模型预测所述语音识别解码器用于所述待识别语音信号的解码参数；

所述训练单元，用于通过如下方式训练得到所述神经网络模型：

获取语音训练样本，所述语音训练样本包括样本语音信号和对应的文本内容；

对所述神经网络模型进行多轮训练；

其中，针对第i轮训练，根据所述语音识别解码器在第i-1轮对所述样本语音信号的识别结果，确定第i轮的奖励参数；所述语音识别解码器在第i-1轮中采用所述神经网络模型第i-1轮预测的解码参数；

根据所述样本语音信号对应的声学建模描述特征、第i-1轮所预测的解码参数和第i轮的奖励参数，通过所述神经网络模型预测第i轮的解码参数。

可选的，所述训练单元还用于根据第i-1轮的识别结果的准确性和/或得到第i-1轮的识别结果的识别速度，确定第i轮的奖励参数；第i-1轮的识别结果的准确性是根据第i-1轮的识别结果与所述文本内容确定的。

可选的，所述待识别语音信号为连续语音对应的语音信号，所述声学建模描述特征为固定长度的；或者，

所述待识别语音信号为对所述连续语音对应的语音信号切分得到的语音片段，所述声学建模描述特征为非固定长度的。

可选的，所述确定单元还包括第一确定子单元和第二确定子单元：

所述第一确定子单元，用于根据所述声学特征中的后验概率，确定概率参数满足预设条件的目标声学建模单元，所述后验概率中的概率参数用于标识音频帧属于不同声学建模单元的概率；

所述第二确定子单元，用于根据所述目标声学建模单元的概率参数，确定所述声学建模描述特征。

可选的，所述预设条件为最大值；目标音频帧为所述待识别语音信号中的一帧，所述装置还包括设置单元：

所述设置单元，用于设置评估声学建模单元，任一音频帧的后验概率中所述评估声学建模单元的概率参数为目标值；

所述第一确定子单元还用于将所述目标音频帧的后验概率中的概率参数最大的声学建模单元作为所述目标声学建模单元；

所述第二确定子单元还用于若所述目标声学建模单元为所述评估声学建模单元，确定所述目标音频帧为冗余信息；若所述目标声学建模单元不是所述评估声学建模单元，将所述目标声学建模单元的概率参数保留在所述声学建模描述特征中。

本申请实施例还提供了一种设备，该设备可以识别语音。下面结合附图对该设备进行介绍。请参见图10所示，本申请实施例提供了一种的设备1300，该设备1300还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity，简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图10中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1380还具有以下功能：

获取待识别语音信号的声学特征；

本申请实施例还提供服务器，请参见图11所示，图11为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的语音识别方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的语音识别方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音信号的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述声学建模描述特征，预测语音识别解码器用于所述待识别语音信号的解码参数，包括：

根据声学建模描述特征，通过神经网络模型预测所述语音识别解码器用于所述待识别语音信号的解码参数；

所述神经网络模型通过如下方式训练得到：

对所述神经网络模型进行多轮训练；

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音识别解码器在第i-1轮对所述样本语音信号的识别结果，确定第i轮的奖励参数，包括：

根据第i-1轮的识别结果的准确性和/或得到第i-1轮的识别结果的识别速度，确定第i轮的奖励参数；第i-1轮的识别结果的准确性是根据第i-1轮的识别结果与所述文本内容确定的。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述待识别语音信号为连续语音对应的语音信号，所述声学建模描述特征为固定长度的；或者，

5.根据权利要求1所述的方法，其特征在于，所述根据所述声学特征确定对应的声学建模描述特征，包括：

根据所述声学特征中的后验概率，确定概率参数满足预设条件的目标声学建模单元，所述后验概率中的概率参数用于标识音频帧属于不同声学建模单元的概率；

根据所述目标声学建模单元的概率参数，确定所述声学建模描述特征。

6.根据权利要求5所述的方法，其特征在于，设置评估声学建模单元，任一音频帧的后验概率中所述评估声学建模单元的概率参数为目标值；所述预设条件为最大值；针对所述待识别语音信号中的目标音频帧，所述根据所述声学特征中的后验概率，确定概率参数高于预设条件的目标声学建模单元，包括：

将所述目标音频帧的后验概率中的概率参数最大的声学建模单元作为所述目标声学建模单元；

所述根据所述目标声学建模单元的概率参数，确定所述声学建模描述特征，包括：

若所述目标声学建模单元为所述评估声学建模单元，确定所述目标音频帧为冗余信息；

若所述目标声学建模单元不是所述评估声学建模单元，将所述目标声学建模单元的概率参数保留在所述声学建模描述特征中。

7.一种语音识别装置，其特征在于，所述装置包括获取单元、确定单元、预测单元和识别单元：

所述获取单元，用于获取待识别语音信号的声学特征；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括训练单元：

对所述神经网络模型进行多轮训练；

9.根据权利要求8所述的装置，其特征在于，所述训练单元还用于根据第i-1轮的识别结果的准确性和/或得到第i-1轮的识别结果的识别速度，确定第i轮的奖励参数；第i-1轮的识别结果的准确性是根据第i-1轮的识别结果与所述文本内容确定的。

10.根据权利要求7-9任意一项所述的装置，其特征在于，所述待识别语音信号为连续语音对应的语音信号，所述声学建模描述特征为固定长度的；或者，

11.根据权利要求7所述的装置，其特征在于，所述确定单元还包括第一确定子单元和第二确定子单元：

12.根据权利要求11所述的装置，其特征在于，所述预设条件为最大值；目标音频帧为所述待识别语音信号中的一帧，所述装置还包括设置单元：

13.一种用于语音识别的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的语音识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任意一项所述的语音识别方法。