CN111415654B

CN111415654B - 一种音频识别方法和装置、以及声学模型训练方法和装置

Info

Publication number: CN111415654B
Application number: CN201910013485.0A
Authority: CN
Inventors: 邓耀; 王飞
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2023-12-08
Anticipated expiration: 2039-01-07
Also published as: CN111415654A

Abstract

本申请提供了一种音频识别方法和装置、以及声学模型训练方法和装置，涉及音频处理技术领域；其中，上述音频识别方法包括：获取用户输入的待识别音频数据；提取所述待识别音频数据中的音频特征；将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。本申请中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

Description

一种音频识别方法和装置、以及声学模型训练方法和装置

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种音频识别方法和装置、以及声学模型训练方法和装置。

背景技术

随着互联网的发展，语音识别技术的应用也越来越广泛。语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将语音中的词汇内容转换为计算机可读的输入。例如，在共享出行领域，可以对行程中的录音进行识别，确认打车过程中是否出现了安全事故。

目前，语音识别过程多数是在云端上实现的，将语音识别过程转移至移动终端进行，可以大幅度减少云端中服务器的数量。其中，在云端上进行语音识别所使用的声学模型都是基于cd-phone的三音素的建模方式得到的，而该建模方式中节点数量庞大，整个模型被压缩后占用的资源空间也很大。由于移动终端的资源空间有限，基于上述方式得到的声学模型在移动终端上进行语音识别时会严重影响移动终端的计算速度。因此，亟需一种资源空间占用量较小的语音识别方法，实现在移动终端进行语音识别。

发明内容

有鉴于此，本申请实施例的目的在于提供一种音频识别方法和装置、以及声学模型训练方法和装置，基于以音节信息作为建模单元得到的声学模型进行音频识别，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

第一方面，本申请实施例提供了一种音频识别方法，应用于移动终端，包括：

获取用户输入的待识别音频数据；

提取所述待识别音频数据中的音频特征；

将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果之后，所述方法还包括：

确定所述音频识别结果对应的至少一个文本信息以及每个所述文本信息的命中概率；

从所述至少一个文本信息中，选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息之后，所述方法还包括：

检测选取的所述目标文本信息中是否存在预设分词；

若所述目标文本信息中存在所述预设分词，则将所述预设分词以及所述预设分词对应的目标文本信息和待识别音频数据均发送给服务器，以使所述服务器基于所述预设分词、所述目标文本信息和所述待识别音频数据进行异常检测。

第二方面，本申请实施例还提供了一种声学模型训练方法，所述方法包括：

获取样本音频数据；其中，所述样本音频数据对应有标注的音节信息，所述音节信息包括单个文字的声母和韵母；

提取所述样本音频数据中每一个所述音节信息对应的音频特征；

以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述提取所述样本音频数据中每一个所述音节信息对应的音频特征，包括：

提取每一帧样本音频数据中的音频特征；

基于所述样本音频数据标注的音节信息，确定每一个所述音节信息对应的至少一帧样本音频数据；

针对每一个音节信息，确定该音节信息对应的至少一帧样本音频数据的音频特征，为该音节信息对应的音频特征。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，通过以下方法确定所述初始声学模型的模型层数：

基于所述样本音频数据中音节信息的个数，确定所述建模单元的个数；

基于所述建模单元的个数，确定所述初始声学模型的模型层数。

结合第二方面的第三种可能的实施方式，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

结合第二方面、第二方面的第一种可能的实施方式至第二方面的第四种可能的实施方式中任一种可能的实施方式，本申请实施例提供了第二方面的第五种可能的实施方式，其中，所述获取样本音频数据，包括：

从预设的语料库中选取包括预设分词的目标文本信息；其中，所述语料库中包括标注有文本信息的多个音频文件；

选取所述目标文本信息对应的目标音频文件，作为所述样本音频数据。

第三方面，本申请实施例还提供了一种音频识别装置，所述装置包括：第一获取模块、第一提取模块和第一处理模块；

所述第一获取模块，用于获取用户输入的待识别音频数据；

所述第一提取模块，用于提取所述待识别音频数据中的音频特征；

所述第一处理模块，用于将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

结合第三方面，本申请实施例提供了第三方面的第一种可能的实施方式，其中，所述的音频识别装置还包括第一确定模块和选取模块；

所述第一确定模块，用于确定所述音频识别结果对应的至少一个文本信息以及每个所述文本信息的命中概率；

所述选取模块，用于从所述至少一个文本信息中，选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息。

结合第三方面的第一种可能的实施方式，本申请实施例提供了第三方面的第二种可能的实施方式，其中，所述装置还包括：检测模块和发送模块；

所述检测模块，用于检测选取的所述目标文本信息中是否存在预设分词；

所述发送模块，用于在所述目标文本信息中存在所述预设分词时，将所述预设分词以及所述预设分词对应的目标文本信息和待识别音频数据均发送给服务器，以使所述服务器基于所述预设分词、所述目标文本信息和所述待识别音频数据进行异常检测。

第四方面，本申请实施例还提供了一种声学模型训练装置，所述装置包括：第二获取模块、第二提取模块和模型训练模块：

所述第二获取模块，用于获取样本音频数据；其中，所述样本音频数据对应有标注的音节信息，所述音节信息包括单个文字的声母和韵母；

所述第二提取模块，用于提取所述样本音频数据中每一个所述音节信息对应的音频特征；

所述模型训练模块，用于以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型。

结合第四方面，本申请实施例提供了第四方面的第一种可能的实施方式，其中，所述第二提取模块，具体用于：

提取每一帧样本音频数据中的音频特征；

结合第四方面的第一种可能的实施方式，本申请实施例提供了第四方面的第二种可能的实施方式，其中，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

结合第四方面，本申请实施例提供了第四方面的第三种可能的实施方式，其中，所述装置还包括第二确定模块；

所述第二确定模块，用于基于所述样本音频数据中音节信息的个数，确定所述建模单元的个数；基于所述建模单元的个数，确定所述初始声学模型的模型层数。

结合第四方面的第三种可能的实施方式，本申请实施例提供了第四方面的第四种可能的实施方式，其中，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

结合第四方面、第四方面的第一种可能的实施方式至第四方面的第四种可能的实施方式中任一种可能的实施方式，本申请实施例提供了第四方面的第五种可能的实施方式，其中，所述第二获取模块，具体用于：

第五方面，本申请实施例还提供了一种移动终端，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当移动终端运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面任一项所述的音频识别方法的步骤。

第六方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一项所述的音频识别方法的步骤。

第七方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第二方面任一项所述的声学模型训练方法的步骤。

第八方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第二方面任一项所述的声学模型训练方法的步骤。

本申请实施例提供的一种音频识别方法和装置，移动终端基于预先训练好的声学模型对待识别音频数据中的音频特征进行识别处理，得到音频识别结果。本申请实施例中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

本申请实施例提供的一种声学模型训练方法和装置，将获取样本音频数据作为训练数据对声学模型进行训练，首先确定声学模型的输入特征和输出特征，并在对声学模型进行训练的过程中，基于训练数据中输入特征和输出特征的具体特征值，对声学模型进行训练。在本申请实施例中，建模单元对应的音频特征作为初始声学模型的输入特征，音节信息的跳转概率作为初始声学模型的输出特征。本申请实施例中以音节信息作为建模单元训练好的声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种音频识别方法的流程图。

图2示出了本申请实施例所提供的另一种音频识别方法的流程图。

图3示出了本申请实施例所提供的另一种音频识别方法的流程图。

图4示出了本申请实施例所提供的一种声学模型训练方法的流程图。

图5示出了本申请实施例所提供的另一种声学模型训练方法的流程图。

图6示出了本申请实施例所提供的另一种声学模型训练方法的流程图。

图7示出了本申请实施例所提供的另一种声学模型训练方法的流程图。

图8示出了本申请实施例所提供的一种音频识别装置的结构示意图。

图9示出了本申请实施例所提供的一种声学模型训练装置的结构示意图。

图10示出了本申请实施例所提供的一种移动终端的结构示意图。

图11示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，语音识别过程多数都是在云端上实现的，将语音识别过程转移至移动终端上进行，可以大幅度减少云端中服务器的数量。其中，在云端上进行语音识别所使用的声学模型均是基于cd-phone的三音素建模方式训练得到的，而该建模方式中节点数量大，整个模型被压缩后占用的资源空间也很大。

比如，以“我要上班”的音频数据为例，在以cd-phone的三音素作为建模单元对声学模型的训练过程中，将“我”拆分为w和o，将“要”拆分成y和ao，将“上”拆分成sh和ang，将“班”拆分成b和an。其中，w加上前置位的静音silence和后置位的o组成sil-w+o三音素建模单元，代表w的建模单元；o加上前置位w和后置位y组成w-o+y三音素建模单元，代表o的建模单元；y加上前置位o和后置位ao组成o-y+ao三音素建模单元，代表y的建模单元；ao加上前置位y和后置位sh组成y-ao+sh三音素建模单元，代表ao的建模单元；sh加上前置位ao和后置位ang组成ao-sh+ang三音素建模单元，代表sh的建模单元；ang加上前置位sh和后置位b组成sh-ang+b三音素建模单元，代表ang的建模单元；b加上前置位ang和后置位an组成ang-b+an三音素建模单元，代表b的建模单元；an加上前置位b和后置位的静音silence组成b-an+sil三音素建模单元，代表an的建模单元。

基于上述cd-phone的三音素建模方式，“我要上班”的音频数据对应的节点数为24个。当样本音频数据较大时，比如使用8万小时的样本音频数据时，基于cd-phone的三音素作为建模单元的建模方式中节点数达12000以上，整个模型压缩后大小有20M左右，由于移动终端的资源空间有限，基于上述方式得到的声学模型在移动终端上进行语音识别时会严重影响移动终端的计算速度。

基于上述问题，本申请实施例提供了一种音频识别方法，移动终端基于预先训练好的声学模型对待识别音频数据进行识别处理，得到音频识别结果。本申请实施例中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

作为一种应用场景，上述音频识别方法可以应用于网约车领域。在网约车领域中，上述移动终端可以指司机使用的移动终端(以下简称司机端)，也可以指乘客使用的移动终端(以下简称乘客端)。

具体应用过程如下：乘客在使用网约车的出行行程中，为了保证司机和乘客的安全，司机端会对乘客和司机的对话进行录音，同时，司机端对记录的音频数据对进行音频识别处理，并在得到异常识别结果后，将该异常识别结果上报给服务器，以使服务器进一步确认是否当前出行行程中是否存在安全事故。

或者，乘客在使用网约车的出行行程中，为了保证司机和乘客的安全，乘客端会对乘客和司机的对话进行录音，同时，乘客端对记录的音频数据对进行音频识别处理，并在得到异常识别结果后，将该异常识别结果上报给服务器，以使服务器进一步确认是否当前出行行程中是否存在安全事故。

下面结合网约车领域的应用场景，对本申请实施例提供的音频识别方法进行具体说明。

如图1所示，为本申请实施例提供的一种音频识别方法，所述方法应用于移动终端，这里，以移动终端为司机端为例进行说明；所述方法可以包括以下步骤：

S101、获取用户输入的待识别音频数据。

本申请实施例中，乘客在使用网约车的出行行程中，司机端会对乘客和司机的对话进行录音，上述待识别音频数据即为乘客和司机的对话音频数据。其中，司机端会采集乘客和司机对话过程中的连续的音频信号。

S102、提取所述待识别音频数据中的音频特征。

本申请实施例中，采集的音频信号可能包括空白段，而空白段中没有音频信号。因此，司机端在采集了音频信号后，首先去除音频信号中的空白段，提取音频信号部分。

在提取了音频信号部分后，司机端还需要对音频信号进行预处理。具体预处理过程如下：由于音频信号具有短时平稳的特性，即在一个段时间范围内(比如10ms～30ms)音频信号的特性相对稳定。因此，司机端通过该音频信号进行加窗分帧预处理，将音频信号分为互相有重叠的一帧一帧的信号，便于音频信号更好的参与后续的音频识别处理。

针对连续的音频信号中的每一帧音频信号，提取每一帧音频信号的音频特征，得到连续的音频信号对应的音频特征序列；其中，提取的音频特征包括以下一种或多种音频特征：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

S103、将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

本申请实施例中，预先训练音频识别使用的声学模型。这里，可以由司机端训练上述声学模型，也可以由服务器端训练上述声学模型，并将训练好的声学模型下发给司机端。

其中，训练上述声学模型的过程如下：首先获取样本音频数据。其中，上述样本音频数据对应有标注的音节信息，该音节信息包括单个文字的声母和韵母；然后，提取上述样本音频数据中每一个音节信息对应的音频特征；以上述音节信息作为建模单元，以建模单元对应的音频特征作为初始声学模型的输入特征，以音节信息的跳转概率作为初始声学模型的输出特征，构建声学模型。

基于训练得到的声学模型，司机端将提取的连续的音频信号对应的音频特征序列输入到上述预先训练好的声学模型中，得到与待识别音频数据对应的音频识别结果。

本申请实施例中，声学模型的输出结果为音节信息的跳转概率。比如，“我今天加班”的待识别音频数据，此时，待识别音频数据对应的音频识别结果为：

wo–jin–tian–jia–ban，wo到jin的跳转概率为0.8，jin到tian的跳转概率为0.9，tian到jia的跳转概率为0.8，jia到ban的跳转概率为0.8；该路径的概率分值＝0.8×0.9×0.8×0.8＝0.4608；

wo–jia–li–you–shi，wo到jia的跳转概率0.4，jia到li的跳转概率为0.3，li到you的跳转概率为0.2，you到shi的跳转概率为0.2；该路径的概率分值＝0.4×0.3×0.2×0.2＝0.4608＝0.0048。

本申请实施例中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，使用该声学模型，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

进一步的，如图2所示，本申请实施例提供的音频识别方法中，在将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果之后，所述方法还包括：

S201、确定所述音频识别结果对应的至少一个文本信息以及每个所述文本信息的命中概率。

本申请实施例中，声学模型的输出结果通常包括多条音节信息跳转概率路径。本申请实施例中，司机端可以选取概率分值最高的目标跳转概率路径，并确定该目标跳转概率路径对应的至少一个文本信息以及每个文本信息的命中概率。或者，司机端选取概率分值大于预设阈值的多个跳转概率路径，确定多个跳转概率路径中每个跳转概率路径对应的至少一个文本信息以及每个文本信息的命中概率。

S202、从所述至少一个文本信息中，选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息。

本申请实施例中，司机端将每个文本信息的命中概率进行比较，并根据比较结果选取取值最大的命中概率，将命中概率最大的目标文本信息作为匹配上述待识别音频数据的文本信息。

比如，司机端选取的概率分值最高的目标跳转概率路径为“wo–jin–tian–jia–ban”。针对该目标跳转概率路径，“我今天加班”的命中概率为0.9，“我今天假扮”的命中概率为0.5。因此，司机端选取命中概率为0.9对应的“我今天加班”作为匹配待识别音频数据的文本信息。

再比如，司机端选取概率分值大于预设阈值的两个跳转概率路径“wo–jin–tian–jia–ban”和wo–jia–li–you–shi。针对上述两个跳转概率路径，“我今天加班”的命中概率为0.9，“我今天假扮”的命中概率为0.5，我家里有事的命中概率为0.6。因此，司机端选取命中概率为0.9对应的“我今天加班”作为匹配待识别音频数据的文本信息。

作为一种可选的实施方式，司机端中包括预先训练好的语言模型，司机端将声学模型的输出结果输入到预先训练好的语言模型中，语言模型基于结合步骤201至步骤202的方法进行处理，输出上述待识别音频数据对应的文本信息。

比如，“我今天加班”对应的待识别音频数据，音频识别结果为：wo–jin–tian–jia–ban，wo到jin的跳转概率为0.8，jin到tian的跳转概率为0.9，tian到jia的跳转概率为0.8，jia到ban的跳转概率为0.8；该路径的概率分值＝0.8×0.9×0.8×0.8＝0.4608；和，wo–jia–li–you–shi，wo到jia的跳转概率0.4，jia到li的跳转概率为0.3，li到you的跳转概率为0.2，you到shi的跳转概率为0.2；该路径的概率分值＝0.4×0.3×0.2×0.2＝0.4608＝0.0048。司机端将上述音频识别结果输入到预先训练好的语言模型中，语言模型基于结合步骤201至步骤202的方法进行处理，输出文本信息“我今天加班”。

进一步的，如图3所示，在选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息之后，所述方法还包括：

S301、检测选取的所述目标文本信息中是否存在预设分词。

本申请实施例中，上述预设分词为行车过程的安全事故对应的敏感词，比如，“抢劫”、“不许动”、“刀”等。司机端在确定了匹配待识别音频数据的目标文本信息后，进一步检测到该目标文本信息中是否存在上述预设分词。

S302、若所述目标文本信息中存在所述预设分词，则将所述预设分词以及所述预设分词对应的目标文本信息和待识别音频数据均发送给服务器，以使所述服务器基于所述预设分词、所述目标文本信息和所述待识别音频数据进行异常检测。

作为一种实施方式，司机端在确定待识别音频数据对应的目标文本信息中存在上述“抢劫”、“不许动”、“刀”等的预设分词，则将预设分词及该预设分词对应的目标文本信息发送给服务器，以便服务器基于该预设分词及该预设分词对应的目标文本信息检测当前行程中是否存在安全事故。

作为另一种实施方式，司机端在确定待识别音频数据的目标文本信息中存在上述“抢劫”、“不许动”、“刀”等的预设分词后，将所述预设分词以及所述预设分词对应的目标文本信息和待识别音频数据发送给服务器，以使服务器基于所述预设分词、所述目标文本信息和所述待识别音频数据检测当前行程中是否存在安全事故。司机端将预设分词、预设分词对应的目标文本信息、以及预设分词对应的待识别音频数据均发送给服务器，能够保证服务器更准确的确定检测当前行程中是否存在安全事故。

本申请实施例提供的一种音频识别方法，移动终端基于预先训练好的声学模型对待识别音频数据中的音频特征进行识别处理，得到音频识别结果。本申请实施例中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

如图4所示，为本申请实施例提供的一种声学模型训练方法，所述方法可以应用于移动终端，也可以应用于服务器，所述方法包括：

S401、获取样本音频数据；其中，所述样本音频数据对应有标注的音节信息，所述音节信息包括单个文字的声母和韵母。

本申请实施例中，样本音频数据即被标注的数据。具体的，在音频上标注了音频中对应文字的拼音。单个文字拼音为一个音节信息。其中，上述标注采用人工标注方式。

比如，“我要上班”的样本音频数据，前3帧音频数据标注为wo，第3帧～6帧音频数据标注为yao；第7帧～9帧音频数据标注为shang；第10帧～13帧音频数据标注为ban。

S402、提取所述样本音频数据中每一个所述音节信息对应的音频特征。

本申请实施例中，提取的音频特征至少包括以下特征中的多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

S403、以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型。

本申请实施例中，初始声学模型的模型结构使用长短期记忆网络(Long Short-Term Memory，LSTM)、深度神经网络(Deep Neural Network，DNN)和深度学习(deeplearning)DNN和联结主义时态分类(Connectionist temporal classification，CTC)的组合模型结构。

本申请实施例中，以所述音节信息作为建模单元，以“我要上班”的音频数据为例，在以音节信息作为建模单元对声学模型的训练过程中，将“我”拆分为w和o，将“要”拆分成y和ao，将“上”拆分成sh和ang，将“班”拆分成b和an。将w和o两个声韵母组成一个建模单元，将y和ao两个声韵母组成一个建模单元，将sh和ang两个声韵母组成一个建模单元，将b和an两个声韵母组成一个建模单元。基于上述建模方式，“我要上班”的音频数据对应的节点数为8个。当样本音频数据较大时，比如使用8万小时的样本音频数据，以音节信息作为建模单元的建模方式中节点数约1300多以上，最终模型压缩之后大小约2M。

上述基于音节信息作为建模单元的建模方式，相比于基于cd-phone的三音素的建模方式，构图时可以缩减中间节点数目，最终模型压缩之后大小约2M。因此，本申请实施例中得到的声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

以每个建模单元对应的音节信息的音频特征作为初始声学模型的输入特征，以音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型，声学模型的初始模型参数为λ；并基于样本音频数据中每一个所述音节信息对应的音频特征(即特征序列o＝(o1、o2、o3…ot))对构建的声学模型进行训练，该训练的过程即训练初始声学模型的模型参数λ，直到模型参数λ满足使声学模型产生音节信息的跳转概率(即观测序列o)的概率P(o/λ)最大，得到训练完成的声学模型。其中，上述o为样本音频数据每一个音节信息对应的音频特征所组成的特征序列；t标识音节信息的个数，o1表示第一音节对应的音频特征，o2表示第二个音节对应的音频特征，o3表示第三个音节对应的音频特征，ot表示第t个音节对应的音频特征。

其中，以音节信息作为建模单元得到的声学模型的模型参数λ与现有技术中基于cd-phone的三音素建模单元得到的声学模型的模型参数不同。

本申请实施例中，以音节信息作为建模单元训练得到的模型的节点相比基于cd-phone的三音素数大量较少，构图时可以缩减中间节点数目，最终模型压缩之后大小约2M。因此，本申请实施例中得到的声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

当使用服务器训练上述声学模型后，服务器需要将训练好的上述声学模型发送给移动终端，或者移动终端主动从服务器中获取训练好的上述声学模型，以便移动终端基于训练好的声学模型进行音频识别。

进一步的，如图5所示，本申请实施例提供的声学模型训练方法中，提取所述样本音频数据中每一个所述音节信息对应的音频特征，包括：

S501、提取每一帧样本音频数据中的音频特征。

本申请实施例中，提取每一帧样本音频数据的音频特征，该音频特征至少包括以下特征中的多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

S502、基于所述样本音频数据标注的音节信息，确定每一个所述音节信息对应的至少一帧样本音频数据。

比如，基于“我要上班”的样本音频数据的标注信息，司机端前3帧样本音频数据对应音节信息wo，第3帧～6帧样本音频数据对应音节信息yao；第7帧～9帧帧样本音频数据对应音节信息shang；第10帧～13帧样本音频数据对应音节信音ban。

S503、针对每一个音节信息，确定该音节信息对应的至少一帧样本音频数据的音频特征，为该音节信息对应的音频特征。

本申请实施例中，司机端前3帧样本音频数据的音频特征作为音节信息wo的音频特征，将第3帧～6帧样本音频数据的音频特征作为音节信息yao的音频特征；将第7帧～9帧样本音频数据的音频特征作为音节信息shang的音频特征；将第10帧～13帧样本音频数据的音频特征作为音节信音ban的音频特征。

上述音频特征至少包括以下特征中的多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

进一步的，如图6所示，本申请实施例提供的声学模型训练方法中，通过以下方法确定所述初始声学模型的模型层数：

S601、基于所述样本音频数据中音节信息的个数，确定所述建模单元的个数。

本申请实施例中，每一个声韵母组成的一个音节信息为一个建模单元。因此，首先获取样本音频数据中的音节信息的个数，音节信息的个数即建模单元的个数(也即节点个数)。

S602、基于所述建模单元的个数，确定所述初始声学模型的模型层数。

本申请实施例中，以使用8万小时的样本音频数据为例，训练得到的声学模型的建模单元约1300多，对应的，使用的LSTM的模型层数为2-3层；这里，LSTM的模型层指的是LSTM的隐含层。同理，也能确定DNN和CTC的相应模型层数。

由于基于音节信息作为建模单元训练得到的声学模的节点个数少于cd-phone的三音素建模单元得到的声学模型的节点个数，因此，本申请实施例中训练得到的声学模型的模型层数小于基于cd-phone训练得到的声学模型。

本申请实施例中，服务器或者移动终端上存储有语料库，所述语料库中包括标注有文本信息的多个音频文件。进一步的，如图7所示，本申请实施例提供的声学模型训练方法中，获取样本音频数据，包括：

S701、从预设的语料库中选取包括预设分词的目标文本信息；其中，所述语料库中包括标注有文本信息的多个音频文件。

S702、选取所述目标文本信息对应的目标音频文件，作为所述样本音频数据。

结合步骤701至步骤702，本申请实施例中，上述预设分词为行车过程安全事故对应的敏感词，比如，“抢劫”、“不许动”、“刀”等。本申请实施例中，从预设语料库的标注信息中选取带有上述“抢劫”、“不许动”、“刀”等敏感词的目标文本信息，然后，选取上述目标文本信息对应的目标音频文件，作为样本音频数据。

通过选取上述样本音频数据训练得到的声学模型，能够进行识别包括上述预设分词的音频数据，进而便于服务器对行车过程中安全事故的检测。

本申请实施例中，以音节信息作为建模单元训练得到的声学模型，该声学模型的节点数较少，使声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

如图8所示，为本申请第三实施例提供的一种音频识别装置，所述装置包括：第一获取模块801、第一提取模块802和第一处理模块803；

第一获取模块801，用于获取用户输入的待识别音频数据；

第一提取模块802，用于提取所述待识别音频数据中的音频特征；

第一处理模块803，用于将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

进一步的，本申请实施例提供的音频识别装置，还包括第一确定模块和选取模块；

进一步的，本申请实施例提供的音频识别装置还包括：检测模块和发送模块；

本申请实施例提供的一种音频识别装置，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，使用该声学模型，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

如图9所示，为本申请实施例提供的一种声学模型训练装置，所述声学模型训练装置用于执行上述声学模型训练方法，所述装置包括：第二获取模块901、第二提取模块902和模型训练模块903；

第二获取模块901，用于获取样本音频数据；其中，所述样本音频数据对应有标注的音节信息，所述音节信息包括单个文字的声母和韵母；

第二提取模块902，用于提取所述样本音频数据中每一个所述音节信息对应的音频特征；

模型训练模块903，用于以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型。

进一步的，本申请实施例提供的声学模型训练装置中，第二提取模块902，具体用于：

提取每一帧样本音频数据中的音频特征；

进一步的，本申请实施例提供的声学模型训练装置中，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

进一步的，本申请实施例提供的声学模型训练装置中，所述装置还包括第二确定模块；

进一步的，本申请实施例提供的声学模型训练装置中，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

进一步的，本申请实施例提供的声学模型训练装置中，第二获取模块901，具体用于：

本申请实施例提供的声学模型训练装置，以音节信息作为建模单元训练得到的模型的节点相比基于cd-phone的三音素数大量较少，构图时可以缩减中间节点数目，最终模型压缩之后大小约2M。因此，本申请实施例中得到的声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

如图10所示，为本申请实施例提供的一种移动终端100，包括：处理器1001、存储器1002和总线，所述存储器1002存储有所述处理器1001可执行的机器可读指令，当移动终端运行时，所述处理器1001与所述存储器1002之间通过总线通信，所述机器可读指令被所述处理器1001执行时执行上述音频识别方法的步骤。

具体地，上述存储器1002和处理器1001能够为通用的存储器和处理器，这里不做具体限定，当处理器1001运行存储器1002存储的计算机程序时，能够执行上述音频识别方法。

对应于上述音频识别方法，本申请实施例提供的一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述音频识别方法。

如图11所示，为本申请实施例提供的一种电子设备110，包括：处理器1101、存储器1102和总线，所述存储器1102存储有所述处理器1101可执行的机器可读指令，当电子设备运行时，所述处理器1101与所述存储器1102之间通过总线通信，所述机器可读指令被所述处理器1101执行时执行上述声学模型训练方法的步骤。

具体地，上述存储器1102和处理器1101能够为通用的存储器和处理器，这里不做具体限定，当处理器1101运行存储器1102存储的计算机程序时，能够执行上述声学模型训练方法。

对应于上述声学模型训练方法，本申请实施例提供的一种计算机存储器，所述计算机存储器存储有计算机可执行指令，该计算机可执行指令可执行上述声学模型训练方法。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频识别方法，其特征在于，应用于移动终端，包括：

获取用户输入的待识别音频数据；

提取所述待识别音频数据中的音频特征；

将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元对初始声学模型训练得到的，所述初始声学模型的模型层数是基于样本音频数据中音节信息的个数确定的；所述音节信息包括单个文字的声母和韵母；所述音频识别结果为多条音节信息跳转概率路径；每条音节信息跳转概率路径中包括多个音节，以及位置靠前到相邻音节之间的跳转概率。

2.根据权利要求1所述的音频识别方法，其特征在于，所述将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果之后，所述方法还包括：

3.根据权利要求2所述的音频识别方法，其特征在于，所述选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息之后，所述方法还包括：

检测选取的所述目标文本信息中是否存在预设分词；

4.一种声学模型训练方法，其特征在于，包括：

以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，训练所述初始声学模型的模型参数，直到模型参数满足使声学模型产生音节信息的跳转概率的概率最大，构建声学模型；所述模型参数与基于三音素建模单元得到的声学模型的模型参数不同；所述初始声学模型的模型层数是基于所述样本音频数据中音节信息的个数确定的。

5.根据权利要求4所述的声学模型训练方法，其特征在于，所述提取所述样本音频数据中每一个所述音节信息对应的音频特征，包括：

提取每一帧样本音频数据中的音频特征；

6.根据权利要求5所述的声学模型训练方法，其特征在于，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

7.根据权利要求4所述的声学模型训练方法，其特征在于，通过以下方法确定所述初始声学模型的模型层数：

8.根据权利要求7所述的声学模型训练方法，其特征在于，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

9.根据权利要求4～8任一项所述的声学模型训练方法，其特征在于，所述获取样本音频数据，包括：

10.一种音频识别装置，其特征在于，所述装置包括：第一获取模块、第一提取模块和第一处理模块；

所述第一获取模块，用于获取用户输入的待识别音频数据；

所述第一处理模块，用于将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元对初始声学模型训练得到的，所述初始声学模型的模型层数是基于样本音频数据中音节信息的个数确定的；所述音节信息包括单个文字的声母和韵母；所述音频识别结果为多条音节信息跳转概率路径；每条音节信息跳转概率路径中包括多个音节，以及位置靠前到相邻音节之间的跳转概率。

11.根据权利要求10所述的音频识别装置，其特征在于，所述装置还包括第一确定模块和选取模块；

12.根据权利要求11所述的音频识别装置，其特征在于，所述装置还包括：检测模块和发送模块；

13.一种声学模型训练装置，其特征在于，所述装置包括：第二获取模块、第二提取模块和模型训练模块；

所述模型训练模块，用于以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，训练所述初始声学模型的模型参数，直到模型参数满足使声学模型产生音节信息的跳转概率的概率最大，构建声学模型；所述模型参数与基于三音素建模单元得到的声学模型的模型参数不同；所述初始声学模型的模型层数是基于所述样本音频数据中音节信息的个数确定的。

14.根据权利要求13所述的声学模型训练装置，其特征在于，所述第二提取模块，具体用于：

提取每一帧样本音频数据中的音频特征；

15.根据权利要求14所述的声学模型训练装置，其特征在于，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

16.根据权利要求13所述的声学模型训练装置，其特征在于，所述装置还包括第二确定模块；

17.根据权利要求16所述的声学模型训练装置，其特征在于，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

18.根据权利要求13～17任一项所述的声学模型训练装置，其特征在于，所述第二获取模块，具体用于：

19.一种移动终端，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当移动终端运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至3任一项所述的音频识别方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至3任一项所述的音频识别方法的步骤。

21.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求4至9任一项所述的声学模型训练方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求4至9任一项所述的声学模型训练方法的步骤。