CN108932941A

CN108932941A - 语音识别方法、装置及计算机设备、存储介质及程序产品

Info

Publication number: CN108932941A
Application number: CN201710955065.5A
Authority: CN
Inventors: 白锦峰
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2018-12-04
Anticipated expiration: 2037-10-13
Also published as: CN108932941B

Abstract

本发明提出一种语音识别方法及其装置，该方法包括：对待识别的音频进行特征提取，得到音频的特征序列，对特征序列进行过切分处理，得到音频的多个候选切分边界和多个子特征序列；根据候选切分边界和子特征序列构建识别图；其中，识别图中的每条识别路径包括至少一个候选声学单元；每个候选声学单元是由至少一个子特征序列连续拼接形成的；利用声学模型识别所述识别图中的候选声学单元，并结合语言模型对识别图进行解码，获取识别图中符合识别策略的识别路径对应的识别结果作为音频的目标识别文本。由过切分将特征序列切分成一个相对大粒度真实有意义发音单元，在构建识别图的过程中动态地组合子特征序列来消除误切分点，提高音频的识别准确率。

Description

语音识别方法、装置及计算机设备、存储介质及程序产品

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置及计算机设备、存储介质及程序产品。

背景技术

目前可以通过语音识别将一段语音转化成文本，语音识别被大量应用在语音拨号、数据录入、语音导航、室内设备控制以及语音文档检索等场景中，而且语音识别可以与自然语言处理、前端音频信号处理、语音合成等技术结合，可以构建出更加复杂的应用场景，例如家庭智能音箱、机器人交互等。随着应用场景的多样性和复杂化，语音识别的准确率影响着应用场景被用户的接受程度。

在语音识别过程中主要涉及声学模型、语言模型以及解码策略等，语音识别的准确率在很大程度上依赖声学模型的构建。目前，常用语音识别技术中主要采用混合(Hybrid)建模和序列建模两种方式。

混合建模大多基于隐马尔科夫模型(Hidden Markov Model，HMM)的，采用一个HMM表示一个音素(phone)，利用音素作为一个建模单元。然后通过HMM的单向自跳和向前跳实现有意义声学单元描述。由于音素的时长相对较短，内部变化并不丰富，通常用三状态近似表示，意味着任意一个音素，都可以被量化成三段，每一段内部的帧间时序依赖被忽略，且无论该音素持续时间长短，有无明显的三段区分性，均统一用一个从左到右定向的跳转的HMM表示。通过多个状态的定向跳转来表达比较复杂的变化丰富的单元其精度相对较差，非常容易受到背景噪声、信道、场景、说话人等因素的干扰。

序列建模抛弃了HMM的状态内片段平稳假设和通过状态的定向跳转表征时序变化，直接对上下文相关的音素进行建模，形成建模单元。上下文相关的音素建模其建模单元时长较短，非常容易受到各种因素的干扰。而且音素是一个概念式的存在，真实的发音过程是音节为单位的，发音的音节之间具有明显的分界线，而不同音素之间的分界线非常模糊，相邻音素之间的过渡地带非常模糊，导致建模性能差。

通过上述建模方式构建出的建模单元，容易受到背景噪声、信道、场景等因素的干扰，存在建模性能差的问题，基于这种建模单元进行语音识别时存在识别率低的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别方法，通过过切分算法对音频特征进行切分，基于切分后的结果来构建孤立的声学单元，然后对孤立的声学单元进行识别，降低了声学单元之前的耦合性，可以提高语音识别的准确性，解决现有技术中通过混合建模和序列建模两种方式构建的建模单元，存在容易受干扰、建模性能差的问题。

本发明的第二个目的在于提出一种语音识别装置。

本发明的第三个目的在于提出另一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种语音识别方法，包括：

对待识别的音频进行特征提取，得到所述音频的特征序列；

对所述特征序列进行过切分处理，得到所述音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分；

根据所述候选切分边界和所述子特征序列构建识别图；其中，所述识别图中的每条识别路径包括至少一个候选声学单元；所述候选声学单元是由至少一个所述子特征序列连续拼接形成的；

利用声学模型识别所述识别图中每条识别路径上的所述候选声学单元，并结合语言模型对所述识别图中的每条识别路径进行解码，获取所述识别图中符合识别策略的目标识别路径；

将所述目标识别路径对应的识别结果作为所述音频的目标识别文本。

作为本发明第一方面实施例的另一种可能的实现方式，所述对所述特征序列进行过切分处理，得到所述音频的多个候选切分边界和多个子特征序列，包括：

将所述音频的特征序列输入到切分模型中进行过切分处理，得到多个候选切分边界，所述切分边界将所述音频的特征序列切分为多个子特征序列。

作为本发明第一方面实施例的另一种可能的实现方式，所述对所述特征序列进行过切分处理，得到所述音频的切分结果之前，还包括：

从训练数据中获取样本音频的子特征序列的标注切分边界；其中，所述训练数据中包括所述样本音频的特征序列和所述样本音频的标注数据；

筛选包含所述标注切分边界的定长的所述样本音频的子特征序列作为正样本，以及识别非正样本的定长的所述样本音频的子特征序列作为负样本；

以所述正样本作为建模单元，基于所述训练数据中的所述样本音频的特征序列和所述标注数据对构建的深度神经网络进行训练，得到过切分模型。

作为本发明第一方面实施例的另一种可能的实现方式，所述根据所述候选切分边界和子特征序列构建识别图，包括：

按照所述音频的特征序列的时序，以每个候选切分边界为顶点，将任意两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元；

利用所述候选声学单元构建所述识别图。

作为本发明第一方面实施例的另一种可能的实现方式，所述将任两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元，包括：

如果所述任意两个顶点之间的多个子特征序列连续拼接后的持续时长未超过预设的阈值，且所述任意两个顶点之间不存在静音子特征序列，则判定所述任意两个顶点之间的多个子特征序列符合所述约束条件；

将所述任意两个顶点之间的多个子特征序列连续拼接形成候选声学单元。

作为本发明第一方面实施例的另一种可能的实现方式，所述结合语言模型对所述识别图中的每条识别路径进行解码，获取所述识别图中符合识别策略的目标识别路径，包括：

在语言模型中使用动态规划算法对所述识别图中的每条识别路径进行解码；

根据预设路径评价函数对每条识别路径进行打分并排序；

将所述打分最高的识别路径作为所述目标识别路径。

作为本发明第一方面实施例的另一种可能的实现方式，所述根据预设路径评价函数对所述识别图中的每条识别路径进行打分，包括：

获取每条识别路径在整个识别过程中的各类概率得分；其中，各类概率得分包括：所述识别路径上的子特征序列在过切分过程中的第一概率得分、所述识别路径上的候选声学单元在识别图构建过程中的第二概率得分、所述识别路径在所述声学模型中的第三概率得分以及所述识别路径在所述语言模型中的第四概率得分；

针对每条识别路径，根据每类概率得分与各自对应的系数，得到所述识别路径的打分。

作为本发明第一方面实施例的另一种可能的实现方式，所述方法还包括：

将所述识别路径的打分作为对应的所述识别结果的置信度。

本发明实施例的语音识别方法，通过对待识别的音频进行特征提取，得到音频的特征序列，对特征序列进行过切分处理，得到音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分；根据候选切分边界和子特征序列构建识别图；其中，识别图中的每条识别路径包括至少一个候选声学单元；每个候选声学单元是由至少一个子特征序列连续拼接形成的；利用声学模型识别所述识别图中每条识别路径上的候选声学单元，并结合语言模型对识别图进行解码，获取识别图中符合识别策略的目标识别路径，将目标识别路径对应的识别结果作为音频的目标识别文本。本实施例中，通过对音频的特征序列进行过切分处理，使得切分后的子特征序列对应一个相对大粒度真实有意义发音单元，如汉语中的音节以及英文中的单词，然后利用子特征序列构建识别图，在构建识别图的过程中动态地组合切分后的子特征序列来消除误切分点，然后对识别图中每条识别路径进行识别，可以获取到整体最优的识别结果，提高了音频的识别准确率。

为达上述目的，本发明第二方面实施例提出了一种语音识别装置，包括：

特征提取模块，用于对待识别的音频进行特征提取，得到所述音频的特征序列；

过切分模块，用于对所述特征序列进行过切分处理，得到所述音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分；

识别图构建模块，用于根据所述候选切分边界和所述子特征序列构建识别图；其中，所述识别图中的每条识别路径包括至少一个候选声学单元；所述候选声学单元是由至少一个所述子特征序列连续拼接形成的；

解码模块，用于利用声学模型识别所述识别图中每条识别路径上的所述候选声学单元，并结合语言模型对所述识别图中的每条识别路径进行解码，获取所述识别图中符合识别策略的目标识别路径；

确定模块，用于将所述目标识别路径对应的识别结果作为所述音频的目标识别文本。

作为本发明第二方面实施例的另一种可能的实现方式，所述过切分模块，具体用于将所述音频的特征序列输入到切分模型中进行过切分处理，得到多个候选切分边界，所述切分边界将所述音频的特征序列切分为多个子特征序列。

作为本发明第二方面实施例的另一种可能的实现方式，所述装置还包括：

模型训练模块，用于在对所述特征序列进行过切分处理，得到所述音频的切分结果之前，从训练数据中获取样本音频的子特征序列的标注切分边界；其中，所述训练数据中包括所述样本音频的特征序列和所述样本音频的标注数据，筛选包含所述标注切分边界的定长的所述样本音频的子特征序列作为正样本，以及识别非正样本的定长的所述样本音频的子特征序列作为负样本，以及以所述正样本作为建模单元，基于所述训练数据中的所述样本音频的特征序列和所述标注数据对构建的深度神经网络进行训练，得到过切分模型。

作为本发明第二方面实施例的另一种可能的实现方式，所述识别图构建模块，具体用于按照所述音频的特征序列的时序，以每个候选切分边界为顶点，将任意两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元，利用所述候选声学单元构建所述识别图。

作为本发明第二方面实施例的另一种可能的实现方式，所述识别图构建模块，具体用于如果所述任意两个顶点之间的多个子特征序列连续拼接后的持续时长未超过预设的阈值，且所述任意两个顶点之间不存在静音子特征序列，则判定所述任意两个顶点之间的多个子特征序列符合所述约束条件，以及将所述任意两个顶点之间的多个子特征序列连续拼接形成候选声学单元。

作为本发明第二方面实施例的另一种可能的实现方式，所述解码模块，具体用于在语言模型中使用动态规划算法对所述识别图中的每条识别路径进行解码，根据预设路径评价函数对每条识别路径进行打分并排序，以及将所述打分最高的识别路径作为所述目标识别路径。

作为本发明第二方面实施例的另一种可能的实现方式，所述解码模块，具体用于获取每条识别路径在整个识别过程中的各类概率得分，以及针对每条识别路径，根据每类概率得分与各自对应的系数，得到所述识别路径的打分；

其中，各类概率得分包括：所述识别路径上的子特征序列在过切分过程中的第一概率得分、所述识别路径上的候选声学单元在识别图构建过程中的第二概率得分、所述识别路径在所述声学模型中的第三概率得分以及所述识别路径在所述语言模型中的第四概率得分。

作为本发明第二方面实施例的另一种可能的实现方式，所述解码模块，还用于将所述识别路径的打分作为对应的所述识别结果的置信度。

本发明实施例的语音识别装置，

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行本发明第一方面实施例所述的语音识别方法。

为达上述目的，本发明第三方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面实施例所述的语音识别方法。

为达上述目的，本发明第三方面实施例提出了一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，以用于实现本发明第一方面实施例所述的语音识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种语音识别方法的流程示意图；

图2为本发明实施例所提供的一种过切分模型训练的流程示意图；

图3为本发明实施例提供的一种深度神经网络的结构示意图；

图4为本发明实施例提供的一种识别图构建的流程示意图；

图5为本发明实施例提供的另一种语音识别方法的流程示意图；

图6本发明实施例提供的语音识别方法的应用示意图之一；

图7本发明实施例提供的语音识别方法的应用示意图之二；

图8本发明实施例提供的语音识别方法的应用示意图之三；

图9本发明实施例提供的语音识别方法的应用示意图之四；

图10本发明实施例提供的一种语音识别装置的结构示意图；

图11本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别方法、装置及计算机设备、存储介质及程序产品。

图1为本发明实施例所提供的一种语音识别方法的流程示意图。如图1所示，该语音识别方法包括以下步骤：

S101、对待识别的音频进行特征提取，得到音频的特征序列。

本实施例中，采集待识别的音频，在获取到音频后，可以对音频进行特征提取，可以获取到音频的特征序列。可选地，提取的特征中可以包括短时能量、短时平均幅度、短时门限过零率等多个维度的特征，利用提取的多个维度的特征，可以构成音频的特征序列。

S102，对特征序列进行过切分处理，得到音频的多个候选切分边界和多个子特征序列。

其中，每个子特征序列代表一个声学单元或者一个声学单元的一部分。

为了能够实现大粒度真实用意义的声学单元直接作为建模单元，本实施例中，可以在获取到音频的特征序列后，对特征序列对进行过切分处理，特征序列经过过切分处理可以将特征序列切分成多个子特征序列，在过切分处理的过程中，可以确定出多个候选切分边界，然后在候选切分边界对音频的特征序列进行切分。其中，两个相邻额子特征序列之间存在一个候选切分边界。

本实施例中，由于对音频的特征序列进行了过切分，使得切分后的子特征序列可以代表一个有意义的声学单元或者一个声学单元的一部分。其中，一个声学单元可以为一个音节。

作为一种示例，可以预先训练一个过切分模型，利用该过切分模型对待识别的音频的特征序列进行过切分处理，得到该音频的多个子特征序列以及多个候选切分边界。过于过切分模型的过程可参见后续实施例的相关记载，此处不再赘述。

S103，根据候选切分边界和子特征序列构建识别图。

其中，识别图中的每条识别路径包括至少一个候选声学单元；每个候选声学单元是由至少一个所述子特征序列连续拼接形成的。

本实施例中，在对音频的特征序列进行过切分，得到候选切分边界和子特征序列之后，可以根据候选切分边界和子特征序列，构建一个识别图。具体地，将相邻子特征序列进行连续组合，可以形成多个候选声学单元。每个候选声学单元中是由至少一个子特征序列连续拼接形成的。每个候选声学单元代表一个声学单元或者一个声学单元的一部分。

进一步地，候选声学单元之间可以按照时序组合成多个识别路径。在确定出了多个识别路径后，可以利用识别路径构成识别图。本实施例中，将每个子特征序列作为一个节点，在连续组合的过程中可以标记出子特征序列之间的对应关系。

S104，利用声学模型识别所述识别图中每条识别路径上的候选声学单元，并结合语言模型对识别图进行解码，获取识别图中符合识别策略的目标识别路径。

S105，将目标识别路径对应的识别结果作为音频的目标识别文本。

在获取识别图之后，可以将识别图中每个识别路径输入到声学模型中，通过声学模型对识别图中每条识别路径上的候选声学单元进行识别，可以获到每个候选声学单元对应的识别结果。进一步地，结合语言模型对识别图中的每条识别路径进行解码，可以为每条识别路径解码出对应的识别文本，本实施例中，每条识别路径的识别文本即为该识别路径的识别结果。

为了使得识别结果更接近于音频本身的实际含义，可以预先设置一个识别策略通过该识别策略从所有的识别路径中，筛选中最佳的识别路径，将符合识别策略的最佳的识别路径作为目标识别路径，将目标识别路径对应的识别结果作为音频的目标识别文本。

此处需要说明的是，预先设置的识别策略可以根据识别需求，由用户灵活设置，此处不对识别策略进行限定。

本实施例提供的语音识别方法，通过对待识别的音频进行特征提取，得到音频的特征序列，对特征序列进行过切分处理，得到音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分；根据候选切分边界和子特征序列构建识别图；其中，识别图中的每条识别路径包括至少一个候选声学单元；每个候选声学单元是由至少一个子特征序列连续拼接形成的；利用声学模型识别所述识别图中每条识别路径上的候选声学单元，并结合语言模型对识别图进行解码，获取识别图中符合识别策略的目标识别路径，将目标识别路径对应的识别结果作为音频的目标识别文本。本实施例中，通过对音频的特征序列进行过切分处理，使得切分后的子特征序列对应一个相对大粒度真实有意义发音单元，如汉语中的音节以及英文中的单词，然后利用子特征序列构建识别图，在构建识别图的过程中动态地组合切分后的子特征序列来消除误切分点，然后对识别图中每条识别路径进行识别，可以获取到整体最优的识别结果，提高了音频的识别准确率。

为了更加清楚地说明过切分处理的过程，图2为本发明实施例提供的一种过切分模型训练的流程示意图。对过切分模型的训练过程具体包括以下步骤：

S201，从训练数据中获取样本音频的特征序列的标注切分边界；其中，所述训练数据中包括样本音频的特征序列和样本音频的标注数据。

本实施例中，首先需要获取训练数据，具体地，可以采集大量的样本音频，以及每个样本音频的原始文本。样本音频的来源可以为朗读口语形成的音频，也可以为自然口语形成的音频。

然后，基于语音识别中的对齐算法，对样本音频和原始文本进行对齐训练，可以获取到训练数据。本实施例中，训练数据包括样本音频的特征序列和样本音频的标注数据。进一步地，从训练数据中，根据样本音频的标注数据，可以获取到样本音频的特征序列的标注切分边界。本实施例中，通过标注数据可以标注出样板音频中的切分边界，为了与待识别音频的切分边界进行区分，此处将样本音频的切分边界称为标注切分边界。

S202，筛选包含标注切分边界的定长的样本音频的子特征序列作为正样本以及将非正样本的定长的样本音频的子特征序列为负样本。

本实施例中，在获取到样本音频的标注切分边界后，可以通过标注切分边界，将样本音频的特征序列切分成多个子特征序列。进一步地，根据对样本音频的子特征序列进行筛选，将包括标注切分边界的定长的样本音频的子特征序列筛选为正样本。可选地，筛选出的正样本中的样本音频的子特征序列的标注切分边界处于正中心，或者处于子特征序列的边界处。相应地，将非正样本的定长的样本音频的子特征序列作为负样本。

S203，以正样本作为建模单元，基于训练数据中的样本音频的特征序列和标注数据对构建的深度神经网络进行训练，得到过切分模型。

在获取到正样本后，以正样本作为建模单元，将从训练数据中筛选出的样本音频的特征序列和标注数据，输入到构建的深度神经网络中，利用训练数据对该深度神经网络进行训练直到训练后的深度神经网络收敛，将收敛后的深度神经网络作为过切分模型。本实施例中，通过正负样本对深度神经网络进行训练，基于有监督的机器学习，可以提高深度神经网络训练的准确性。

在获取到训练好的过切分模型后，可以将待识别的音频的特征序列输入到过切分模型中，然后可以得到音频的多个候选切分边界和多个子特征序列。其中，每一个子特征序列表示一个孤立的声学单元或者声学单元的一部分。声学单元可以为一个中文音节或者中文音节的一个部分。

本实施例中，可以构建一个深度卷积神经网络(Convolution Neutral Network，简称CNN)，也可以构建一个混合的长短时记忆循环神经网络(Long short-term Memory，简称LSTM)。如图3所示，为本发明实施例提供的一种深度神经网络的结构示意图。如图3所示，深度神经网络可以包括：特征序列输入层、CNN层、LSTM层和全连接输出层。其中，CNN层和LSTM层的层数可以为多个。

为了更加清楚地说明识别图构建的过程，图4为本发明实施例提供的一种识别图构建的流程示意图。在上述实施例的基础之上，S103包括以下步骤：

S401，按照音频的特征序列的时序，以每一候选切分边界为顶点，将任意两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成候选声学单元。

如果过切分算法对真实切分点的召回率100％，通过相邻子特征序列组合生成的全部识别路径中一定包含最优的识别路径。但是，实际上过切分算法很难保证对真实切分点的召回率100％。故而，由音频的子特征序列经过组合得到的识别路径只是全部识别路径的一个子集。因此，由过切分得到的子特征序列进行连续拼接，以生成不同的识别路径的时候，需要考虑一定的几何约束以避免不必要的识别路径的生成。

具体地，以每个候选切分边界作为顶点，两个顶点之间存在至少一个子特征序列。本实施例中，按照音频的特征序列的时序，可以将任意两个顶点之间的多个子特征序列在约束条件的约束下进行连续拼接，形成一个候选声学单元。

本实施例中，以每个候选切分边界作为顶点，增加的约束条件如下：

条件一：任意的顶点i可以连向任意的顶点j(j>i)，只有当由顶点i和顶点j之间的多个子特征序列连续拼接形成候选声学单元的持续时长，要小于一定的时长。

条件二：任意的顶点i不可以连向任意的顶点j(j>i)，当顶点i和顶点j之间存在一个静音子特征序列。换句话说，一个音节内部之间的存在空白并不予以考虑。

也就是说，如果所述任意两个顶点之间的多个子特征序列连续拼接后的持续时长未超过预设的阈值，且所述任意两个顶点之间不存在静音子特征序列，则判定所述任意两个顶点之间的多个子特征序列符合所述约束条件，然后将所述任意两个顶点之间的多个子特征序列连续拼接形成一个候选声学单元。

S402，利用候选声学单元构建识别图。

在获取到候选声学单元后，可以利用所有的候选声学单元，形成一个识别图。识别图中包括多个由候选声学单元形成的多个识别路径。

本实施例中，利用候选切分边界和子特征序列，在预设的约束条件的约束下形成候选声学单元，再基于候选声学单元构建出包括识别路径的识别图。由于受到约束条件的约束，可以降低组合出的识别路径的数量，可以提高后学解码的速度，提高识别的效率。

为了更加清楚地说明音频的目标识别文本的获取过程，图5为本发明实施例提供的另一种语音识别方法的流程示意图。在上述实施例的基础之上，所述结合语言模型对所述识别路径进行解码，获取所述识别图中符合识别策略的所述识别路径对应的识别结果作为所述音频的目标识别文本，包括以下步骤：

S501，在语言模型中使用动态规划算法对所述识别图中的每条识别路径进行解码。

具体地，预先构建语言模型，在构建的语言模型中采用动态规划算法作为解码算法，利用动态规划算法对识别图中的每条识别路径进行解码。本实施例中，动态规划算法可以为CYK(Cocke-Younger-Kasami)算法。CYK算法基于上下文文无无关文文法，采用广度优先的搜索策略，在形式上采用自底向上的搜索机制。CYK算法在解码识别过程中不需要回溯，因此可以减少解码时的冗余操作，提高系统解码的效率。

S502，根据预设路径评价函数对每条识别路径进行打分并排序。

本实施例中，预先设置一个路径评价函数。基于预设的路径评价函数对每条识别路径进行评价，通过评价结果选取出最优的识别路径。具体地，在解码过程中可以根据预设的路径评价函数，对每条识别路径进行打分，并按照打出的分值对每条识别路径进行排序。

具体地，获取每条识别路径在整个识别过程中的各类概率得分；其中，各类概率得分包括：所述识别路径上的所述子特征序列在过切分过程中的第一概率得分、所述识别路径上的所述候选声学单元在识别图构建过程中的第二概率得分、所述识别路径在所述声学模型中的第三概率得分以及所述识别路径在所述语言模型中的第四概率得分。进一步地，针对每条识别路径，根据每类概率得分与各自对应的系数，得到识别路径的打分。

在获取到每条识别路径的打分之后，可以对每条识别路径的打分进行排序，例如，可以按照从大到小的顺序排序，也可以按照从小到大的顺序排序。

作为一种示例，本实施例中，预设的路径评价函数的公式如下：

其中，J(K)表示第K个识别路径的打分；L表示音频的子特征序列的个数，表示第一概率得分，λ₁为第一概率得分对应的系数；表示第二概率得分，λ₂为第二概率得分对应的系数；表示第三概率得分，σ_j表示第三概率得分的系数，为第K个识别路上j个候选声学单元的标准差；表示第四概率得分，λ₃为第四概率得分对应的系数。

本实施例中，预先在开发集合上测试得到每个系数的取值。例如，可以固定λ₂和λ₃其中两个系数，然后在开发集合上测试λ₁，进而得到该λ₁差值系数的最优结果。

S503，将打分最高的识别路径对应的识别结果为音频的目标识别文本。

在获取到每条识别路径的打分排序后，可以从中识别出打分最高的识别路径，打分越高说明该识别路径的识别结果越接近音频的实际携带的语义。因此，本实施例中，可以将打分最高的识别路径对应的识别结果，作为音频的目标识别文本。进一步地，在获取到每条识别路径的打分后，可以将该打分作为该识别路径的识别结果的置信度。

本实施例中，在解码过程中基于动态规划算法进行解码，可以提高解码效率，较快地获取到识别文本，进一步地，利用路径评价函数来获取每个识别路径的置信度，从根本上改进目前语音识别技术中无法给出置信度的问题。

图6本发明实施例对一段待识别的音频进行过切分处理后的结果，在图6中，音频以语音频谱图的形式进行表示。在图6中，语音频谱图中的竖线为候选切分边界，形成了9个候选切分边界，分别标记为候选切分边界1～候选切分边界9，除第一个候选边界1和最后一个候选切分边界9，相邻的两个候选切分边界之间存在一个子特征序列。由图6可知，候选切分边界1之前的语音频谱图部分为一个sil最后一个候选切分边界9后面的语音频谱图部分为一噪音。

进一步地，利用切分后的子特征序列在约束条件的约束下进行连续拼接，能够形成多个候选声学单元。如图7所示，以每个候选切分边界为顶点，然后按照时序，在约束条件的约束下两个顶点之间的子特征序列进行连续拼接。如图7所示，候选切分边界1与候选切分边界2之间的子特征序列，形成一个候选声学单元；候选切分边界1与候选切分边界3之间的子特征序列进行连续拼接，形成一个候选声学单元；候选切分边界1与候选切分边界4之间的子特征序列进行连续拼接，形成一个候选声学单元；由于候选切分边界1与候选切分边界5之间的多个子特征序列，无法继续满足约束条件则停止后续拼接。对于候选切分边界2与候选切分边界1类似，候选切分边界2与候选切分边界3之间的子特征序列，形成一个候选声学单元；候选切分边界2与候选切分边界4之间的子特征序列进行连续拼接，形成一个候选声学单元；由于候选切分边界2与候选切分边界5之间的多个子特征序列，无法继续满足约束条件则停止后续拼接。对于候选切分边界3与候选切分边界1和2类似，候选切分边界3与候选切分边界4之间的子特征序列，形成一个候选声学单元；候选切分边界3与候选切分边界5之间的子特征序列进行连续拼接，形成一个候选声学单元；候选切分边界3与候选切分边界6之间的子特征序列进行连续拼接，形成一个候选声学单元；由于候选切分边界3与候选切分边界7之间的多个子特征序列，无法继续满足约束条件则停止后续拼接。以此类推，对于候选切分边界8与候选切分边界9之间的子特征序列，形成一个候选声学单元。

在形成了多个候选声学单元后，可以利用候选声学单元构建识别图，如图8所示。图8中包括多条识别路径，例如，1-2-3-4-5-6-7-8-9；1-2-3-5-6-7-8-9；1-2-3-6-7-8-9；1-2-3-5-7-8-9；1-2-3-5-8-9；1-2-4-5-6-7-8-9；1-2-4-5-7-8-9；1-2-4-5-8-9；1-2-4-6-7-8-9；1-2-4-6-8-9；1-3-4-5-6-7-8-9；1-3-4-6-7-8-9；1-3-4-7-8-9；1-3-5-6-7-8-9；1-3-6-7-8-9等。

进一步地，在获取到识别图之后，利用声学模型识别上述识别图中每条识别路径上的候选声学单元，并结合语言模型对识别图中的每条识别路径进行解码，获取识别图中符合识别策略的目标识别路径，即经过路径评价函数对每条识别路径进行打分，可以将打分最高的识别路径作为目标识别路径，然后将目标识别路径对应的识别结果作为所述音频的目标识别文本。如图9所示，目标识别路径为：1-3-4-6-8-9，目标识别文本为：问到西山头。

图10为本发明实施例提供的一种语音识别装置的结构示意图。如图10所示，该语音识别装置包括：特征提取模块11、过切分模块12、识别图构建模块13、解码模块14和确定模块15。

特征提取模块11，用于对待识别的音频进行特征提取，得到所述音频的特征序列。

过切分模块12，用于对所述特征序列进行过切分处理，得到所述音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分。

识别图构建模块13，用于根据所述候选切分边界和所述子特征序列构建识别图；其中，所述识别图中的每条识别路径包括至少一个候选声学单元；所述候选声学单元是由至少一个所述子特征序列连续拼接形成的。

解码模块14，用于利用声学模型识别所述识别图中每条识别路径上的所述候选声学单元，并结合语言模型对所述识别图中的每条识别路径进行解码，获取所述识别图中符合识别策略的目标识别路径。

确定模块15，用于将所述目标识别路径对应的识别结果作为所述音频的目标识别文本。

进一步地，过切分模块12，具体用于将所述音频的特征序列输入到切分模型中进行过切分处理，得到多个候选切分边界，所述切分边界将所述音频的特征序列切分为多个子特征序列。

进一步地，语音识别装置还包括：模型训练模块16。

模型训练模块16，用于在对所述特征序列进行过切分处理，得到所述音频的切分结果之前，从训练数据中获取样本音频的子特征序列的标注切分边界；其中，所述训练数据中包括所述样本音频的特征序列和所述样本音频的标注数据，筛选包含所述标注切分边界的定长的所述样本音频的子特征序列作为正样本，以及识别非正样本的定长的所述样本音频的子特征序列作为负样本，以及以所述正样本作为建模单元，基于所述训练数据中的所述样本音频的特征序列和所述标注数据对构建的深度神经网络进行训练，得到过切分模型。

进一步地，识别图构建模块13，具体用于按照所述音频的特征序列的时序，以每个候选切分边界为顶点，将任意两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元，利用所述候选声学单元构建所述识别图。

进一步地，识别图构建模块13，具体用于如果所述任意两个顶点之间的多个子特征序列连续拼接后的持续时长未超过预设的阈值，且所述任意两个顶点之间不存在静音子特征序列，则判定所述任意两个顶点之间的多个子特征序列符合所述约束条件，以及将所述任意两个顶点之间的多个子特征序列连续拼接形成候选声学单元。

进一步地，解码模块14，具体用于在语言模型中使用动态规划算法对所述识别图中的每条识别路径进行解码，根据预设路径评价函数对每条识别路径进行打分并排序，以及将所述打分最高的识别路径作为所述目标识别路径。

进一步地，解码模块14，具体用于获取每条识别路径在整个识别过程中的各类概率得分，以及针对每条识别路径，根据每类概率得分与各自对应的系数，得到所述识别路径的打分；

进一步地，解码模块14，还用于将所述识别路径的打分作为对应的所述识别结果的置信度。

本实施例提供的语音识别装置，通过对待识别的音频进行特征提取，得到音频的特征序列，对特征序列进行过切分处理，得到音频的多个候选切分边界和多个子特征序列，其中每个子特征序列代表一个声学单元或者一个声学单元的一部分；根据候选切分边界和子特征序列构建识别图；其中，识别图中的每条识别路径包括至少一个候选声学单元；每个候选声学单元是由至少一个子特征序列连续拼接形成的；利用声学模型识别所述识别图中每条识别路径上的候选声学单元，并结合语言模型对识别图进行解码，获取识别图中符合识别策略的目标识别路径，将目标识别路径对应的识别结果作为音频的目标识别文本。本实施例中，通过对音频的特征序列进行过切分处理，使得切分后的子特征序列对应一个相对大粒度真实有意义发音单元，如汉语中的音节以及英文中的单词，然后利用子特征序列构建识别图，在构建识别图的过程中动态地组合切分后的子特征序列来消除误切分点，然后对识别图中每条识别路径进行识别，可以获取到整体最优的识别结果，提高了音频的识别准确率。

进一步地，在解码过程中基于动态规划算法进行解码，可以提高解码效率，较快地获取到识别文本，进一步地，利用路径评价函数来获取每个识别路径的置信度，从根本上改进目前语音识别技术中无法给出置信度的问题。

图11为本发明实施例提供的一种计算机设备的结构示意图，可以实现本发明图1-5所示实施例的流程。如图11所示，该计算机设备可以包括：壳体21、处理器22、存储器23、电路板24和电源电路25，其中，电路板24安置在壳体21围成的空间内部，处理器22和存储器23设置在电路板24上；电源电路25，用于为上述计算机设备的各个电路或器件供电；存储器23用于存储可执行程序代码；处理器22通过读取存储器23中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实施例的语音识别方法。

处理器22对上述步骤的具体执行过程以及处理器22通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1-5所示实施例的描述，在此不再赘述。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行如前述实施例的语音识别方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时能够实现如前述实施例的语音识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

对待识别的音频进行特征提取，得到所述音频的特征序列；

2.根据权利要求1所述的方法，其特征在于，所述对所述特征序列进行过切分处理，得到所述音频的多个候选切分边界和多个子特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述特征序列进行过切分处理，得到所述音频的切分结果之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述候选切分边界和子特征序列构建识别图，包括：

利用所述候选声学单元构建所述识别图。

5.根据权利要求4所述的方法，其特征在于，所述将任两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述结合语言模型对所述识别图中的每条识别路径进行解码，获取所述识别图中符合识别策略的目标识别路径，包括：

根据预设路径评价函数对每条识别路径进行打分并排序；

将所述打分最高的识别路径作为所述目标识别路径。

7.根据权利要求6所述的方法，其特征在于，所述根据预设路径评价函数对所述识别图中的每条识别路径进行打分，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8中任一所述的语音识别方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，以用于实现如权利要求1-8中任一所述的语音识别方法。