CN108389575B

CN108389575B - 音频数据识别方法及系统

Info

Publication number: CN108389575B
Application number: CN201810025834.6A
Authority: CN
Inventors: 俞凯; 钱彦旻; 陈哲怀; 游永彬
Original assignee: AI Speech Ltd; Shanghai Jiao Tong University
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2020-06-26
Anticipated expiration: 2038-01-11
Also published as: CN108389575A

Abstract

本发明实施例提供一种音频数据识别方法。该方法包括：将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段；基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；根据各帧音频数据帧的预测概率集合，确定各帧音频数据帧的类型；通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合；基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别音频数据。本发明实施例还提供一种音频数据识别系统。本发明实施例的音频数据识别方法可用于任意声学模型，并且进一步提升了识别速度。

Description

音频数据识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种音频数据识别方法及系统。

背景技术

随着语音识别技术的发展，通过识别语音数据，将识别出的文字代替手写输入更加快捷方便，使得语音识别在生活中逐渐得到了普遍的使用。例如，现有的搜索引擎、输入法、导航等软件等都加入了接收用户发出的语音，通过识别接收到的音频数据中的文字信息来代替用户手写输入功能。

语音识别是一种让机器通过对语音信号进行识别和理解，将相应的语音信号转变为文本或命令的人工智能技术。其语音识别技术可以由声学模型、FSD(Frame SynchronousDecoding，逐帧同步解码)和WFST(Weighted Finite State Transducer，加权有限状态机)方法进行构建，其中，通过HMM(hidden markov model，隐马尔科夫模型)进行建模，通过逐帧同步解码与其他知识源(即词典，、语言模型等)组合，以找到与输入特征最佳匹配的标签序列，通过加权有限状态机进行计算，从而识别的音频数据。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

现有的隐马尔科夫模型的建模效果存在缺陷，使得语音识别声学模型一般都使用连接时序声学模型；逐帧同步解码是一个等间隔搜索算法，并且在处理特征序列中的变长时效率低下，计算量庞大且冗余，使得效率较差。

发明内容

为了至少解决现有技术中现有的语音识别声学模型都为连接时序模型，逐帧同步解码算法在处理特征序列中效率低下的问题。申请人意外的发现，使用后处理来消除声学模型中的空白输出，并获得每个输出标签的近似概率。进而提出LSD(label synchronousdecoding，标签同步解码)。所提出的框架可以统一应用于基于隐马尔科夫模型和CTC(connectionist temporal classification，连接时序模型)的声学模型。并基于所使用的声学模型带有跳帧能力，同时处理多帧，从而提高多倍的速度。并对逐帧同步解码提供了一种新的剪枝方案，使得速度进一步提升来解决上述问题。

第一方面，本发明实施例提供一种音频数据识别方法，包括：

将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；

基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；

根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；

当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，

当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时，将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合；

基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。

第二方面，本发明实施例提供一种音频数据识别系统，包括：

音频数据片段划分程序模块，用于将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；

预测概率集合确定程序模块，用于基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；

音频数据帧类型确定程序模块，用于根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；

最终预测概率集合确定程序模块，用于当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，

音频数据识别程序模块，用于基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频数据识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的音频数据识别方法的步骤。

本发明实施例的有益效果在于：通过将音频数据划分成音频数据片段，确定音频数据片段中每个音频数据帧之间的关联，将非空白音频数据帧的预测概率集合结合关联的空白帧的预测概率集合，从而在音频数据识别时消除对空白帧的识别，同时保证了只识别非空白音频数据帧的精准度。同时由于减少了所需要识别的音频数据帧，从而提高了识别音频数据的效率，从而其可以适用于任意的声学模型。在此基础上，新的剪枝方案进一步提高了识别音频数据的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种音频数据识别方法的流程图；

图2是本发明另一实施例提供的一种音频数据识别方法的流程图；

图3是本发明一实施例提供的一种音频数据识别方法的状态拓扑示意图；

图4是本发明一实施例提供的一种音频数据识别方法的DSM中LSD与FSD的比较的列表数据图；

图5是本发明另一实施例提供的一种音频数据识别方法的LSD与帧率改变方法之间的比较的列表数据图；

图6是本发明又一实施例提供的一种音频数据识别方法的GSM中标签同步与帧同步比较的hub5e-swb结果的列表数据图；

图7是本发明再一实施例提供的一种音频数据识别方法的GSM中的空白粒度的列表数据图；

图8是本发明再一实施例提供的一种音频数据识别方法的GSM中的空白拓扑的列表数据图；

图9是本发明一实施例提供的一种音频数据识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种音频数据识别方法的流程图，包括如下步骤：

S11：将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；

S12：基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；

S13：根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；

S14：当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，

S15：基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。

在本实施方式中，本方法应用的范围包括但不限于：输入法的语音文字转换、或者导航软件的语音输入、或者机器人的聊天对话功能中。也可以作为单独的语音转换文字软件进行使用。无论应用在何种领域，其都需要音频数据进行识别。在音频数据识别中，需要接收待识别音频，其音频可以为：用户在使用导航软件中提问的问题语音、用户在输入法中对文字转换播放的录音。例如，以语音对话机器人为例，其语音对话机器人中有足够大的空间去配置大参数类型的语音识别模型，并且具有足够的计算能力以及内存供语音对话机器人去识别音频数据。

在语音机器人接收到使用者出的音频数据。一般情况，语音机器人会先对收到的音频数据进行数据预处理，现有技术中，音频预处理的方法有很多，再此，不再赘述。

对于步骤S11，将接收到的整条待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，例如，接收到了一条60帧的音频数据。对这条60帧的音频按照时间戳的顺序进行划分，例如，第一帧、第二帧为一个音频数据片段，第三帧、第四帧、第五帧为一个音频数据片段、第六帧、第七帧为一个音频数据片段，第八帧…、…进行划分，其中保证每一个音频数据片段至少存在一帧音频数据即可，假设，划分了30个音频数据片段，其中，每个音频数据片段由1帧、2帧、3帧构成。

对于步骤S12，基于待识别的音频数据的声学特征，其中，所述声学特征中包含这些音频数据帧的预测概率集合等信息。例如，某一音频数据帧的预测概率集合为{zh：40％，z：25％，ch：20，空白帧：15％}。

对于步骤S13，根据在步骤S12确定的各音频数据帧预测概率集合，来确定各音频数据帧的类型。通过对各音频数据帧进行空白帧、与非空白音频数据帧的划分，可以确定出哪些音频数据帧是空白帧，其空白帧在音素同步解码中是不被识别的，减少了识别的音频数据帧，从而减轻了运算量。

例如，在音频数据帧的预测概率集合中，设定当空白帧的预测概率达到50％时，就认定该音频数据帧为空白帧。例如步骤S12中的某一音频数据帧的预测概率集合为{zh：40％，z：25％，ch：20，空白帧：15％}，其确定为非空白音频数据帧，例如某一音频数据帧预测概率集合为{空白帧：70％，p：15％，b：10，m：5％}，将其确定为空白帧。

对于步骤S14，基于在步骤S13中确定的各非空白音频数据帧与空白帧。步骤S11中的30个音频数据片段会呈现以下几种情况：{空白帧}、{非空白音频数据帧}、{空白帧、非空白音频数据帧}、{非空白音频数据帧、空白帧}、{空白帧、空白帧、空白帧}、{空白帧、非空白音频数据帧、空白帧}、{空白帧、非空白音频数据帧、非空白音频数据帧}、{非空白音频数据帧、空白帧}…依次类推，不再赘述。当在每个各音频数据片段中的非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，其可以按照一定权重进行结合，也可以按照其他方法进行结合。在每个音频数据片段中，如果当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧均不为空白帧时，将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合，因为没有可参考的空白帧进行参考。

对于步骤S15，基于每个音频数据片段中的各非空白音频数据帧的最终预测集合，通过音速同步解码方法对各音频数据片段进行识别，之后在通过每个音频数据片段识别后的信息数据片段，合成识别音频数据的信息。

通过该实施方法可以看出，通过将音频数据划分成音频数据片段，确定音频数据片段中每个音频数据帧之间的关联，将非空白音频数据帧的预测概率集合结合关联的空白帧的预测概率集合，从而在音频数据识别时消除对空白帧的识别，同时保证了只识别非空白音频数据帧的精准度。同时由于减少了所需要识别的音频数据帧，从而提高了识别音频数据的效率。

作为一种实施方式，在本实施例中，所述将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段之前包括：通过使用生成性序列模型提取待识别的音频数据的声学特征。

在本实施方式中，音频数据的声学特征通常由声学模型提取，但是在建模时，一般使用鉴别性序列模型，其原因为，生成性序列模型中，以隐马尔可夫模型为例，其建模的效果在识别音频数据中存在缺陷。在此，通过上述实施例，并且将逐帧同步解码，改为音素同步解码，缓解了其缺陷的问题。

通过该实施方法可以看出，本实方式可以使用任意的声学模型，不再限于连接时序类型的声学模型。

作为一种实施方式，在本实施例中，所述根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型包括：

当至少一个音频数据帧的预测概率集合中的所述空白帧的预测概率与所述非空白音频数据帧的预测概率的差值大于预设阈值时，将所述至少一个音频数据帧的类型确定为空白帧，

当至少一个音频数据帧的预测概率集合中的所述预测空白帧的概率与所述非空白音频数据帧的预测概率的差值小于等于预设阈值时，将所述至少一个音频数据帧的类型确定为非空白音频数据帧。

在本实施方式中，当某一音频数据帧的预测概率集合为{空白帧：50％，p：25％，b：10，m：15％}，确定预测概率集合中空白帧与非空白音频数据帧的差值，其中50％-25％-10％-15％＝0，例如设定阈值为10％时，所计算的差值没有达到阈值，将该音频数据帧确定为非空白音频数据帧。

当某一音频数据帧的预测概率集合为{空白帧：70％，p：15％，b：10，m：5％}，确定预测概率集合中空白帧与非空白音频数据帧的差值，其中70％-15％-10％-5％＝20，例如设定的阈值为10％时，所计算的差值达到且超过了阈值，将该音频数据帧确定为空白帧。

通过该实施方法可以看出，通过这种方法确定各音频数据帧的类型，可以符合任意声学模型的特征，同时，通过这种方法，可以保留空白帧所占较高，但还是存在一些其他语音信息的音频数据帧，保留更多的信息。

作为一种实施方式，在本实施例中，所述每个音频数据片段为一帧或多帧音频数据帧。

在本实施方式中，当每个音频数据片段都为一帧时，在识别时，就需要对每一帧进行识别。通过将空白帧舍弃，仅识别非空白音频数据帧，在提升识别效率的同时保证识别精确度。当每个音频数据片段都为多帧时，例如都为两帧时，通过将空白帧舍弃，仅识别非空白音频数据帧，而在识别阶段是以音频数据片段为单位，进一步提升了识别的效率。而保证识别的准确度不会有损失。

通过该实施方法可以看出，通过调整音频数据片段中的帧数，来调整音频识别的速度，且当每个音频数据片段中的音频数据帧越多，其识别的速度就会越快。而每个音频数据片段中的音频数据越少，越能保证识别的精确度。

如图2所示为本发明另一实施例提供的一种音频数据识别方法的流程图，包括如下步骤：

S21：根据所述各非空白音频数据帧的最终预测概率集合，确定各非空白音频数据帧的熵；

S22：将所述待识别的音频数据中所有空白帧的数量与所有音频数据帧的数量的比值确定为正比例因子；

S23：通过各非空白音频数据帧的最终预测概率集合、各非空白音频数据帧的熵以及正比例因子，确定各非空白音频数据帧的剪枝因子；

S24：根据所述各非空白音频数据帧的剪枝因子，在音素同步解码中对各非空白音频数据帧的最终预测概率集合中的预测概率进行剪枝。

在本实施方式中，在音频数据的识别过程中，由于每个音频数据帧的最终预测概率集合中存在大量的预测分支。如果对其每一种分支都进行深入的识别，势必会消耗大量的时间。因此，针对于这种情况通常采用剪枝策略，将一些小概率的分支进行修剪。一般的剪枝方法有束剪枝：通过计算每一音频数据帧的最终预测概率集合中的各预测概率的概率路径的分数，从而将小于一定分数的预测概率删除，从而加快识别速度；直方图剪枝，对每一音频数据帧的最终预测概率集合中的各预测概率进行排序，保留概率最高的前一定数量的预测路径。而这些方法不能完全针对所述的音频识别方法。进而通过识别过程中获取的一些信息，提出一种新的剪枝策略。

对于步骤S21，根据所述各非空白音频数据帧的最终预测概率集合，通过每一非空白音频数据帧的最终预测概率集合来确定出所述各非空白音频数据帧相对应的每一帧的熵。

对于步骤S22，将待识别的音频数据中所有的空白帧的数量与所有音频数据帧的数量的比值确定为正比例因子。其中，空白帧的数量越大，其比值就越大，所述比值与空白帧的数量呈正相关。

对于步骤S23，通过各非空白音频数据帧的最终预测概率集合、步骤S21确定的各非空白音频数据帧的熵以及步骤S22确定的正比例因子，来确定各非空白音频数据帧的剪枝因子。

对于步骤S24，根据步骤S23确定出的各非空白音频数据帧的剪枝因子，在音素同步解码中来对各非空白音频数据帧的每一预测路径进行剪枝。从而提高了音频数据识别的速度。

通过该实施方法可以看出，所设定的剪枝因子与各非空白音频数据帧的最终预测概率集合、各非空白音频数据帧的熵以及正比例因子相关。在识别中可以针对于不同的环境，确定出不同的剪枝方案。其中，正比例因子也可以由人工调整，针对于不同的需求，调整不同的数值。

下面对所述方案进行整体说明：本实施例使用的LSD，是在声学模型之后处理。因而可以使用任意声学模型，在此对DSM(discriminative sequence model，鉴别性序列模型)和GSM(generative sequence model，生成性序列模型)通过公式化进行以及实现。并列举出一些方案，以实现解码速度的提高。

公式化：

在测试阶段，ASR(automatic speech recognition，自动语音识别)解码由等式为：

其中，w是一个单词序列，w*是最好的单词序列。lw表示与w对应的标签序列。下面分别为DSM和GSM推导标签同步解码。

(1)DSM的标签同步解码：

在音素CTC中，公式w*可以导出为:

由于CTC输出标签之间的条件独立性假设，可以得到P(l|x)如下公式：

因此，使用维特比束(Viterbi beam)搜索算法在标签级上进行如下：

在P(l|x)的计算中，对神经网络输出进行后处理。这里，这组普通的空白帧定义如下：

其中y_blank ^u是框架u处空白单元的概率。用CTC模型中的softmax层，如果空白声学得分足够大并且接近常数1，则可以认为所有竞争路径共享空白帧的相同跨度。因此，忽略帧的得分不会影响解码中的声学得分级别。

正如

上述公式可导出为：

(2)GSM的标签同步解码：

相邻HMM之间的输出标签也是条件独立的：

类似的，维特比束(Viterbi beam)搜索算法在标签级上进行的公式如下：

在标签内，P(x|l)的计算如下：

在本实施例中，这些模型的输出分布并不像CTC那样高峰，但是在DSM中提出的等式可以扩展到GSM。对神经网络输出P(πt|x)进行后处理，其中πt是第t帧的推断模型单元。由于这些模型中的空白状态是模拟的，所以没有必要将所有标签输出假设的帧包括在上述维特比束搜索算法在标签级上进行的公式中。因此，给定某个帧的模型推断分布，是否从维特比束搜索中排除该帧是如下决定的。从而推断出以下公式：

其中

是第u帧标签输出单元的神经网络输出，

是空白单元的相应输出。无论是否在第u帧，标签输出都是由所有标签输出单元与所有空白单元相比的概率之和决定的。T是开发集合中获得的阈值。因此P(x|l)的计算可以根据是否有π∈U分为两部分。

第一组是标签输出单元的一部分。在这种情况下，每个标签输出都在WFST中通过束修剪转移。另一组是空白部分。在这种情况下，假定没有标签输出。但是不像CTC那样，不同的标签输出会保留自己的版本。即使它是一个空白帧，假设包含不同的空白单元。因此

的不能被丢弃。在下面会提出了一个有效的算法来计算这个项。

所提出的后处理可被看作标签输出内的概率P(π|x)的近似值。因此维特比束搜索可以在标签级别进行。

(3)FSD和LSD的比较

其中，LSD的解码速度复杂度如下：

FSD的解码速度复杂度如下：

上述公式中，其中|U|总是接近于T。比较FSD与LSD的复杂度，FSD大大加快了。

下面总结FSD和LSD的主要区别：

不同的信息率。在FSD中，声学和语言信息都在每帧处理，强制两个信息率与声学特征的帧率相同。相比之下，在LSD中，声学信息是通过声学特征的帧率来处理的，而语言信息是通过声学模型推断的音速来处理的。声学和语言信息处理的不同率消除了巨大的搜索冗余。

可调整搜索间隔。在FSD中，WFST网络以固定的等间隔。相比之下，在LSD中，搜索间隔是自我调整的(智能且没有性能恶化)，以消除由于空白帧引起的搜索冗余，这在解码上带来显著的效率提高。

实现：

(1)模型：本实施例在GSM中应用了集中改进的HMM拓扑，如图3中(b-c)所示，具体来说，图3中(a)的空白状态最初是为每三个音素保留的，称为三音素空白。为了减少模型单元的数量并进一步加快算法的速度，空白状态被绑定在每个中央音素(称为音素空白)和音素之间(称为全局空空白)。此外，在来自标签延迟的性能改善方面，图3(b)中提出的HMM-BP与HMM-PB相比延迟了标签输出。即模型在确定标签输出之前推断混淆输出空白。作为对CTC的完整模拟。图3(c)中提出了HMM-BPB，其允许在标签输出之前和之后存在空白。在具体实施中，发现这两种类型的空白显示出不同的功能。因此，它们没有绑在一起。输出标签单元之后的所有空白都绑在一起，以减少所需的模型单元数量。

(2)修剪：除了维特比束搜索中使用的传统束修剪和直方图修剪外，还提出了神经网络内部的假设修剪，称为假设修剪训练。在LSD中，空白帧对总帧数的百分比与加速率成正比。

根据上述公式

和公式

确定空白帧。阈值T被应用为束修剪的变体。当T是固定的，推断分布的峰值性质决定了加速率。峰值性质显示了神经网络在输出分布中的置信度。有信心的输出分布是通过鼓励探索和防止过拟合来惩罚神经网络的性能。受此启发，控制输出分布的熵被用作LSD框架中的假设修剪法。即在模型训练中，在参数θ的负对数似然值L(θ)中加入一个相似的熵项。

其中H(·)是输出分布pθ(π|x)的熵，β是正比例因子。即假设修剪训练是最小化输出分布的模型标准和熵。对训练好的模型进行假设修剪训练，对参数进行微调。训练结束后，LSD框架加速，性能下降较温和。

为了证明该方法的效果，对所提出的方法进行试验，实验是在300小时的英语交换机任务上进行的。将NIST 2000Hub5e集(称为hub5e-swb)的交换机子集和RichTranscription 2003集的交换机子集(称为rt03s-swb)用作测试集。使用25毫秒的分析窗口，每10毫秒提取40维对数滤波器组特征。

其中，DSM实验是在一个具有1.2M参数的小型CTC上进行的，适用于类似于语音和信号处理的嵌入式应用。模型单元是46个单音。声学模型有3层LSTM(long short termmemory，长短期记忆)，每一层具有400个节点和128个节点投影层。训练程序类似于，并在EESEN(End-to-end speech recognition using deep rnn models and wfst-baseddecoding，端到端的语音识别使用深RNN模型和基于WFST解码)上进行。

其中，GSM实验是在一系列由KALDI(卡迪语音识别工具包)收据训练的基于HMM的大型模型上进行的，该模型适用于服务器应用。所有的声学模型都是基于三个状态从左到右的三音模型，并且有6000-7000个绑定状态(音素)。输出帧率采样3倍以提高性能。TDNN(time delay neural network，时延神经网络)有7层，每层有625个节点。BLSTM(bidirectional long short term memory，双向长期短期记忆)具有3层，每层在前向层和后向层都有1024个节点。投影层有256个节点。

在评估阶段，所有实验中使用的解码器是一个内部优化的WFST解码器，无网格生成和语言模型重打分。在第一轮解码中使用在交换机转录和Fisher转录上训练的内插四元语言模型。在DSM中，默认使用修剪过的三元LM(language model，语言模型)，为了与GSM中的基于无网格MMI(Maximum Mutual Information，最大互信息)的纯序列训练神经网络相媲美，默认使用四元LM。通过使用WER(Word error rate，字错误率)来评估不同解码框架下的模型性能。SRTF(search real time factor，实时搜索因素)的RTF(real time factor，搜索因子)和每个帧(#AT)中的有效令牌的平均数目被用于评估搜索速度。#AT相对于在降低帧率声学模型中的子采样之前的帧数。SRTF是解码时间相对于音频时间的百分比。值得注意的是，这里的解码时间不包括神经网络传播的时间。所提出的框架主要加速搜索过程而不是神经网络传播。因此，使用SRTF而不是RTF来使其更清楚。由于维特比束搜索中的搜索迭代关于有效令牌的数量。AT总是与SRTF成比例并被用作搜索速度的另一个指示符。本实施例还提供了上述指示符的相对变化率(Δ)，使比较结果更清晰。

在DSM上的实验

(1)加速：如图4显示了CTC中LSD系统与FSD系统的加速。

在hub5e-swb语料库中，相对WER恶化小于0.5％，LSD框架相对于FSD框架实现SRTF(或3.4倍加速率)相对减少70％以上。加速来自解码过程中较少的搜索迭代，也由有效令牌的数量表示。rt03s-swb语料库的实验显示了一致的加速。

(2)速度稳健性：以前的实验是一个中等规模的语言模型上进行的(三元，3.1M，n元)、为了测试从FSD到LSD的加速的稳健性，LM的大小从0.2M改变到4.7m、n元，并且从二元到四元。每个帧(#AT)中的有效令牌的平均数量用于测量解码的速度。其中，#AT正在明显加快。并且FSD的#AT总是远远大于LSD的#AT。也就是说，LSD实现的加速对LM搜索空间的增加是有力的。此外，GSM的实验也有类似的结论。

(3)结合帧率改变方法：本实施例将LSD与FSD框架内的其他帧率改变方法进行比较，表明它们可以合并在一起。值得一提的是，在后面的GSM实验中，LSD也可以应用在降低帧率的声学模型中。

LSTM-CTC的FS(frame skipping，二倍跳帧)类似于简化快速训练和解码的短期短时记忆声学模型，但是没有后验复制的程序，所以FS也可以加速解码过程。与FSD相比，应用于CTC模型的FS可以在不降低性能的情况下将解码过程加速近2倍。这符合简化快速训练和解码的短期短时记忆声学模型中的观察结果，与DNN-HMM和LSTMHMM中的结果相似。LSD可以进一步与FS结合，获得更好的效果，如图5所示，在搜索过程中进一步减少57％(累计78％)的时间。

(4)剪枝：分别比较了束剪枝、直方图剪枝以及熵剪枝。得出通过熵修剪，效率最好，其原因在于神经网络内部的修剪更好地利用了分布信息，导致其有着更好的精度和效率。

在GSM上的实验

(1)不同的模型和标准：LSD应用于不同的神经网络和标准的GSM。如图6显示了在hub5e-swb中的结果，并且在rt03s-swb中的结果是相似的。总体而言，表格中的加速比较显著，但与DSM中的如图4相比较少。这是因为FSD基线的帧率已经减少了3倍。帧率变化技术可以与所提出的LSD框架相结合。而且，与如图5相比，加速率也有点小。这源于这些GSM推断分布不如CTC那样高峰。如何在GSM中获得更多的峰值分布将在下面介绍。

具体来说，通过低帧率神经网络声学模型提取的LFR(lower frame rate model，低帧率模型)是第一行。基于无网格MMI的纯序列训练神经网络提取的位于第二行，相对于LFR，搜索速度更快，从FSD到LSD的加速率更快。与交叉熵训练模型相比，它们都源于序列判别式训练模型的更高峰输出分布。基于单词LM的sMBR(state minimum Bayes risk，最小化状态的错误)训练应用于LF-MMI模型，记为+sMBR。将提升后的MMI变体和无网格判别训练的sMBR变体分别表示为LF-bMMI和LF-sMBR。所提出的LSD框架在所有这些框架上一致实现了显著的加速。本实施例中也在BLSTM上进行实验，结果是相似的。

(2)剪枝：比较束剪枝、直方图剪枝以及熵剪枝，得到通过熵剪枝的效果仍然最好。

(3)进一步的设计：如图7显示了不同的空白粒度，即三音素、音素、和全局空白。与三音素相比，音素显示类似的性能，同时实现显著更快的搜索。它来自较少的模型单元，即从6K到3K个状态。而且，与全局相比，它显示出更好的性能。至少在300小时的交换机语料库中，空白建模是瓶颈之一。全局空白需要足够的数据来模拟不同相邻音素之间的所有上下文。依赖于三音素的空白状态缓解了这个问题，但导致搜索速度变慢。在每个中心音素内绑定三个音素相关的空白状态(导致0.1K状态)足以改善空白建模效果，同时加快搜索过程。因此，音素空白是性能和搜索速度之间的最佳折衷。同时，较少的模型单元一致导致搜索过程时间从LSD减少43％→47％→49％。因此音素空白也是LSD的最佳选择。

如图8比较了上述中提到的几种改进的HMM拓扑结构。BP拓扑与基线PB拓扑相比，性能略有提高，LSD的加速率更快。更好的LSD改进的原因还可以来自于标签延迟，这使得该模型更可靠和更少混淆地推断标签输出状态。因此导致更多的高峰分布。BPB拓扑显示LSD加速率进一步略微提高。一些例子的解码路径表明，拓扑结构鼓励为每个三音素HMM推断更多的空白状态。最终搜索时间缩减比例为49％，与如图5中CTC的情况非常相似，为57％。

如图9所示为本发明一实施例提供的一种音频数据识别系统的结构示意图，本实施例的技术方案可适用于对设备的音频数据识别方法，该系统可执行上述任意实施例所述的音频数据识别方法，并配置在终端中。

本实施例提供的一种音频数据识别系统包括：音频数据片段划分程序模块11，预测概率集合确定程序模块12，音频数据帧类型确定程序模块13，最终预测概率集合确定程序模块14和音频数据识别程序模块15。

其中，音频数据片段划分程序模块11用于将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；预测概率集合确定程序模块12用于基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；音频数据帧类型确定程序模块13用于根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；最终预测概率集合确定程序模块14用于当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时，将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合；音频数据识别程序模块15用于基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。

进一步地，所述音频数据识别程序模块用于：

根据所述各非空白音频数据帧的最终预测概率集合，确定各非空白音频数据帧的熵；

将所述待识别的音频数据中所有空白帧的数量与所有音频数据帧的数量的比值确定为正比例因子；

通过各非空白音频数据帧的最终预测概率集合、各非空白音频数据帧的熵以及正比例因子，确定各非空白音频数据帧的剪枝因子；

根据所述各非空白音频数据帧的剪枝因子，在音素同步解码中对各非空白音频数据帧的最终预测概率集合中的预测概率进行剪枝。

进一步地，所述音频数据识别系统还包括：

声学特征确定程序模块，用于通过使用生成性序列模型提取待识别的音频数据的声学特征。

进一步地，所述音频数据帧类型确定程序模块包括：

进一步地，所述每个音频数据片段为一帧或多帧音频数据帧。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频数据识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的音频数据识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频数据识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频数据识别方法，包括：

2.根据权利要求1所述的方法，其中，所述基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据包括：

3.根据权利要求1所述的方法，其中，所述将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段之前包括：通过使用生成性序列模型提取待识别的音频数据的声学特征。

4.根据权利要求1所述的方法，其中，所述根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型包括：

5.根据权利要求1所述的方法，其中，所述每个音频数据片段为一帧或多帧音频数据帧。

6.一种音频数据识别系统，包括：

7.根据权利要求6所述的系统，其中，所述音频数据识别程序模块用于：

8.根据权利要求6所述的系统，其中，所述音频数据识别系统还包括：

9.根据权利要求6所述的系统，其中，所述音频数据帧类型确定程序模块包括：

10.根据权利要求6所述的系统，其中，所述每个音频数据片段为一帧或多帧音频数据帧。