CN114171009A

CN114171009A - 用于目标设备的语音识别方法、装置、设备及存储介质

Info

Publication number: CN114171009A
Application number: CN202111534483.XA
Authority: CN
Inventors: 徐文娜; 孙磊; 申凯
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-11

Abstract

本发明提供一种用于目标设备的语音识别方法、装置、设备及存储介质，所述方法包括：获取音频信号，得到所述音频信号的声学特征，将所述声学特征输入第一声学模型，得到音素级特征与该音素级特征相关联的音素级概率向量；若所述目标设备的当前工作模式为唤醒模式，则将音素级概率向量输入预设的解码器以识别唤醒词，并在识别出唤醒词的情况下将目标设备的工作模式转换为命令词模式；若目标设备的当前工作模式为命令词模式，则将音素级特征输入第二声学模型，以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。本发明可解决目前不同长度的命令词在通过解码网络时因为不等长比较而导致的串扰问题，有效地提升了命令词识别的正确性。

Description

用于目标设备的语音识别方法、装置、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于目标设备的语音识别方法、装置、设备及存储介质。

背景技术

现有的语音唤醒与命令词方法一般包括声学模型和解码网络两部分，提取语音数据的声学特征后，输入预先构建的声学模型得到后验概率，后验概率再输入解码网络得到网络中各条唤醒词、命令词路径以及吸收路径的声学得分，最后对各条路径的声学得分进行比较，得分高的路径即为识别结果。但这种方式，会使得不同长度的命令词在通过解码网络时存在不等长比较的问题，导致不同命令词之间相互串扰严重且难以解决。

发明内容

本发明提供一种用于目标设备的语音识别方法、装置、设备及存储介质，用以解决现有技术中因不同长度的命令词在通过解码网络时存在不等长比较而导致不同命令词之间相互串扰严重且难以解决的问题。

第一方面，本发明提供一种用于目标设备的语音识别方法，所述方法包括：

获取音频信号，得到所述音频信号的声学特征；

将所述声学特征输入已训练的第一声学模型，以得到音素级特征及与该音素级特征相关联的音素级概率向量；

若所述目标设备的当前工作模式为唤醒模式，则将所述音素级概率向量输入预设的解码器以识别唤醒词，并在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式；

若所述目标设备的当前工作模式为所述命令词模式，则将所述音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词，以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。

在本发明的一实施例中，所述将所述与每一帧信号对应的音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词包括:

基于卷积神经网络，所述第二声学模型根据所述音素级特征得到针对所述语音信号的音节级特征及与所述音节级特征相关联的音节级概率向量；

基于全局平均池化方式，所述第二声学模型根据所述音节级特征得到针对所述语音信号的整词级特征及与所述整词级特征相关联的整词级概率向量；

将所述整词级概率向量中概率值最大的元素对应的命令词作为最终识别出的命令词。

在本发明的一实施例中，所述获取音频信号，得到所述音频信号的声学特征包括：

对所述音频信号进行降噪及基于音频能量的滑动窗筛选处理，以得到语音段的音频信号作为所述语音信号并过滤掉非语音段的音频信号；

基于能量谱特征对所述语音信号进行声学特征提取，得到所述每一帧信号的声学特征。

在本发明的一实施例中，所述将所述声学特征输入已训练的第一声学模型，以得到音素级特征及与该音素级特征相关联的音素级概率向量包括：

针对每一帧信号的声学特征，所述第一声学模型基于预设的三音素规则将该声学特征转换为三音素模式的音素级特征并得到与该音素级特征相关联的音素级概率向量；

其中，所述音素级概率向量指示所述音素级特征中每一类三音素单元的概率值。

在本发明的一实施例中，所述将所述音素级概率向量输入预设的解码器以识别唤醒词包括：

将比较初始位置设定为0，依序对每一帧信号对应的音素级概率向量执行如下操作：

基于该帧信号对应的音素级概率向量，从所述比较初始位置开始，将所述解码器中的唤醒词路径中的音素单元对应的概率值依序与所述解码器中的吸收路径中的所有音素单元的最大概率值进行比较；

若所述唤醒词路径中当前比较的音素单元的概率值大于所述最大概率值，则继续依序将所述唤醒词路径中后续的音素单元对应的概率值与所述最大概率值进行比较；

若发现所述唤醒词路径中当前比较的音素单元的概率值不大于所述最大概率值，则结束该帧信号的比较并将所述比较初始位置更新为所述当前比较的音素单元在概率向量中的序列号，以及继续对下一帧信号对应的音素级概率向量执行上述比较操作，直至所述唤醒词路径中的所有音素单元对应的概率值均大于所述最大概率值，或者所有帧信号比较结束；

其中，所述唤醒词路径由所有音素单元中构成唤醒词的全部音素单元串联而成，所述吸收路径由所有音素单元中除构成唤醒词的全部音素单元以外的音素单元组成，并且每一个除构成唤醒词的全部音素单元以外的音素单元构成一条吸收路径。

在本发明的一实施例中，所述将所述音素级概率向量输入预设的解码器以识别唤醒词还包括：

若所述唤醒词路径中的所有音素单元对应的概率值均大于所述最大概率值，则表示从所述语音信号识别出唤醒词。

在本发明的一实施例中，所述方法包括：

基于如下方式训练所述第一声学模型：

使用第一预设语音数据对所述预设声学模型进行训练以对所述除唤醒词以外的语音数据进行区分；

并使用第二预设语音数据对所述预设声学模型进行强化训练以对唤醒词的相关音素单元进行区分；

对输出的音素单元进行聚类，得到N个音素单元的分类，并将所述N个音素单元的分类作为所述预设声学模型的N个输出节点；

其中，所述第一预设语音数据为不包含唤醒词的通用语料数据，所述第二预设语音数据为包含唤醒词的语料数据。

在本发明的一实施例中，所述方法还包括：

基于如下方式训练所述第二声学模型：

将所述第一声学模型输出的音素级特征输入所述第二声学模型的卷积层和池化层，得到音节级特征；

将所述音节级特征输入至所述第二声学模型的全连接层得到对应的音节级概率向量；

将所述音节级特征输入至所述第二声学模型全局平均池化层，得到对应的整词级特征；

将所述整词级特征输入至所述第二声学模型的全连接层得到对应的整词级概率向量；

将所述音节级概率向量与预设音节级标签按照预设规则进行计算，得到音节级损失函数，以及将所述整词级概率向量与预设整词级标签向量按照预设规则进行计算，得到整词级损失函数；

将所述第一声学模型得到的音素级概率向量与预设的音素级标签向量按照预设规则进行计算，得到音素级损失函数；

以最小化所述音节级损失函数、所述整词级损失函数以及所述音素级损失函数为优化目标，对所述第一声学模型和所述第二声学模型进行联合训练，直至满足收敛条件，得到已训练的所述第一声学模型和所述第二声学模型。

第二方面，本发明提供一种用于目标设备的语音识别装置，所述装置包括：

预处理模块，所述预处理模块用于获取音频信号，得到所述音频信号的声学特征；

识别模块，所述识别模块用于：

在本发明的一实施例中，所述识别模块，还用于：

在本发明的一实施例中，所述预处理模块，还用于：

在本发明的一实施例中，所述识别模块，还用于：

所述针对每一帧信号的声学特征，所述第一声学模型基于预设的三音素规则将该声学特征转换为三音素模式的音素级特征并得到与该音素级特征相关联的音素级概率向量；

在本发明的一实施例中，所述识别模块，还用于：

在本发明的一实施例中，所述装置还包括第一训练模块，所述第一训练模块基于如下方式训练所述第一声学模型：

在本发明的一实施例中，所述装置还包括第二训练模块，所述第二训练模块基于如下方式训练所述第二声学模型：

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于目标设备的语音识别方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于目标设备的语音识别方法的步骤。

本发明提供的用于目标设备的语音识别方法、装置、设备及存储介质，通过构建第一声学模型和第二声学模型，使得所述第一声学模型和第二声学模型具有更强大的特征学习能力，并能更好的学习到不同命令词之间的差异，减少命令词识别的串扰率。

并且，在命令词模式下，本发明不需要通过解码网络，而是通过第二声学模型直接识别出语音段所属命令词类别，解决了目前不同长度的命令词在通过解码网络时因为不等长比较而导致的串扰问题，有效地提升了命令词识别的正确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1是本发明实施例提供的用于目标设备的语音识别方法的流程示意图；

图2是本发明实施例训练第一声学模型的流程示意图；

图3是本发明实施例提供的解码网络的示意图；

图4是本发明实施例提供的解码过程的示意图；

图5(a)是本发明实施例训练第二声学模型的流程示意图；

图5(b)是本发明实施例训练第一声学模型和第二声学模型的示意图；

图6是本发明实施例提供的用于目标设备的语音识别方法的流程示意图；

图7是本发明实施例提供的用于目标设备的语音识别装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

随着人工智能相关技术的日益成熟，越来越多的智能设备进入用户的生活中，人与机器的交互日渐平常；语音被认为是人与人最自然的交流方式之一，口语具有独特的性质，它作为人类发展中自然而然被学习的部分，在任何交互场景中，具有较低门槛的学习成本，因此被作为人机交互的未来趋势。现在许多的智能语音设备(例如空调)在具备语音唤醒功能的同时，还提供命令词识别服务，使得智能语音设备不仅能够听懂自己的名字，还能根据用户所说的命令词(例如请将温度调至26℃)执行相应的指令，让用户不再需要去按各种功能按钮，大大提升了用户体验。

下面结合图1-图8描述本发明的用于目标设备的语音识别方法、装置、设备及存储介质。

请参阅图1，图1是本发明实施例提供的用于目标设备的语音识别方法的流程示意图。本发明提供的一种用于目标设备的语音识别方法，所述方法包括：

步骤101，获取音频信号，得到所述音频信号的声学特征。

示例性地，对所述音频信号进行过滤以得到语音信号，以及对所述语音信号进行分帧和特征提取处理，得到每一帧信号的声学特征。

步骤102，将所述声学特征输入已训练的第一声学模型，以得到音素级特征及与该音素级特征相关联的音素级概率向量。

步骤103，若所述目标设备的当前工作模式为唤醒模式，则将所述音素级概率向量输入预设的解码器以识别唤醒词，并在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式。

步骤104，若所述目标设备的当前工作模式为所述命令词模式，则将所述音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词，以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。

本发明所述用于目标设备的语音识别方法具有语音唤醒和命令词识别两种模式。目标设备在待机状态下，处于唤醒模式，当目标设备接收到包含唤醒词的语音数据后，目标设备唤醒成功，并切换到命令词模式以识别该语音数据中的命令词，并执行相应的指令。

进一步的，由于本发明所述第一声学模型和第二声学模型采用的是逐级多尺度建模方式，即第一声学模型采用音素级建模方式，第二声学模型采用音节级和整词级建模方式，能够更好的学习到不同命令词之间的差异，有效提升命令词识别正确率。

以下对上述步骤101～步骤104进行具体描述。

上述步骤101中，获取音频信号，得到所述音频信号的声学特征。具体包括：

步骤1011，对所述音频信号进行降噪及基于音频能量的滑动窗筛选处理，以得到语音段的音频信号作为所述语音信号并过滤掉非语音段的音频信号。

示例性地，音频信号可通过麦克风拾音获取到，拾音设备可以是平板电脑、智能音响、电视或空调等。

示例性地，通过麦克风拾音降噪后的音频，经过一个滑窗计算窗内的音频能量，以区分语音段和非语音段，只有语音段才可以送入下一级以提取语音信号的声学特征。

示例性地，VAD模型采用基于能量和模型的方法检测，从获取的音频信号中判断是否存在语音段的音频信号，并从所述音频信号中将语音段的音频信号提取出来。例如，VAD模型对获取的音频信号逐帧计算语音和噪声的似然比，并根据似然比判断是否是语音段的音频信号。如果是静音或者是环境噪音等非语音段的音频信号则将其过滤掉，如果是语音段的音频信号，则将语音段的音频信号作为所述语音信号。

步骤1012，基于能量谱特征对所述语音信号进行声学特征提取，得到所述每一帧信号的声学特征。

示例性地，所述声学特征用于唤醒词识别，可以是语音信号的频谱特征，如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征或感知线性预测(Perceptual Linear Predictive，PLP)特征等。

具体提取时，可以先对语音信号进行分帧处理；随后对分帧后的语音信号进行预加重，而后做FFT(Fast Fourier Transform，快速傅里叶变换)变换为频域，再去平方和对数得到能量谱特征。如果输入的音频信号为经过麦克风阵列的多麦语音，还可以通过波束成形，将多麦语音降噪合并为增强后的单麦语音，再经过上述的特征提取过程，得到每一帧语音信号的频谱特征。

上述步骤102中，将所述声学特征输入已训练的第一声学模型，以得到音素级特征及与该音素级特征相关联的音素级概率向量。具体包括：

步骤1021，针对每一帧信号的声学特征，所述第一声学模型基于预设的三音素规则将该声学特征转换为三音素模式的音素级特征并得到与该音素级特征相关联的音素级概率向量。

示例性地，所述第一声学模型通常采用GMM-HMM模型来表征，即使用隐马尔可夫模型(Hidden Markov Model，HMM)表征语音单元之间的状态转移情况，使用高斯混合模型(GMM)表征语音单元的状态输出概率。在初始时，目标设备处于唤醒模式，所述第一声学模型由于多使用在低功耗场景，所以本发明实施例也可采用参数两较少的shuffle-net结构，shuffle-net是一种计算高效的CNN(卷积神经网络模型)，ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度，这需要很好地在速度和精度之间做平衡，能够在保持精度的同时大大降低了模型的计算量。

示例性地，所述第一声学模型进行音素级分类，建模单元为音素，具体建模时，本发明实施例采用三音素单元进行建模。所述三音素单元表示每个音素单元的上下文相关音素单元。

示例性地，所述第一声学模型的输入为每一帧信号的声学特征。而在训练所述第一声学模型时，所采用的训练数据第一预设语音数据和第二预设语音数据。

示例性地，如图2所示，图2是本发明实施例训练第一声学模型的流程示意图。本发明实施例基于如下方式训练所述第一声学模型：

步骤201，使用第一预设语音数据对所述预设声学模型进行训练以对所述除唤醒词以外的语音数据进行区分。

步骤202，并使用第二预设语音数据对所述预设声学模型进行强化训练以对唤醒词的相关音素单元进行区分。

步骤203，对输出的音素单元进行聚类，得到N个音素单元的分类，并将所述N个音素单元的分类作为所述预设声学模型的N个输出节点。

例如，假设唤醒词为“科大讯飞”，其音素单元为“k”、“e”、“d”、“a”、“x”、“un”、“f”、“ei”，那么三音素单元则可表示为“k-e-d”、“e-d-a”，“d-a-x”、“a-x-un”、“x-un-f”、“un-f-ei”。采用所述三音素模型可以得到上下文相关的信息。由于所有中文的三音素单元规模很大，所以本发明实施例在使用时会进行聚类处理，即得到的聚类数N为3004，表示声学模型的输出节点N为3004个，每个节点表示一类三音素单元。

因此，N帧语音信号的声学特征经过所述第一声学模型后，会得到每一帧信号被分为每一类三音素单元的概率值，组成一个N*3004维的概率向量，这个概率向量会输入后续解码网络，得到所述语音信号是否包含唤醒词的识别结果。

上述步骤103中，若所述目标设备的当前工作模式为唤醒模式，则将所述音素级概率向量输入预设的解码器以识别唤醒词，并在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式。具体包括：

步骤1031，基于该帧信号对应的音素级概率向量，从所述比较初始位置开始，将所述解码器中的唤醒词路径中的音素单元对应的概率值依序与所述解码器中的吸收路径中的所有音素单元的最大概率值进行比较。

步骤1032，若所述唤醒词路径中当前比较的音素单元的概率值大于所述最大概率值，则继续依序将所述唤醒词路径中后续的音素单元对应的概率值与所述最大概率值进行比较。

步骤1033，若发现所述唤醒词路径中当前比较的音素单元的概率值不大于所述最大概率值，则结束该帧信号的比较并将所述比较初始位置更新为所述当前比较的音素单元在概率向量中的序列号，以及继续对下一帧信号对应的音素级概率向量执行上述比较操作，直至所述唤醒词路径中的所有音素单元对应的概率值均大于所述最大概率值，或者所有帧信号比较结束。

例如，唤醒词路径由3004类三音素单元中唤醒词的所有三音素单元串联而成。而吸收路径由除唤醒词三音素单元之外的其它三音素单元组成，每一类三音素单元为一条吸收路径。

步骤1034，若所述唤醒词路径中的所有音素单元对应的概率值均大于所述最大概率值，则表示从所述语音信号识别出唤醒词。

针对上述步骤1031～1034关于唤醒词的解码过程如图3、图4所示，图3是本发明实施例提供的解码网络的示意图，图4是本发明实施例提供的解码过程的示意图。

如图3所示，解码网络(即解码器)采用keyword(唤醒词路径)+filler(吸收路径)的网络。其中，上面虚线框中为唤醒词路径，下面虚线框中为吸收路径。将每一帧语音信号对应的每一个音素单元的概率共N*3004(N表示共N帧语音信号)维概率向量输入至所述解码网络进行解码。解码网络采用的是动态规划算法计算每一个音素单元的声学特征在每条路径上的声学得分，将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径，则识别结果为该路径上的唤醒词；如果识别结果为吸收路径，则识别结果为非唤醒词。

示例性地，如图4所示，假设唤醒词是“科大讯飞”，那么其三音素单元为“k-e-d”、“e-d-a”，“d-a-x”、“a-x-un”、“x-un-f”、“un-f-ei”，对应的概率值为K0～K5。

将上述步骤102得到的N*3004维的概率向量输入解码网络后，从获取到N帧语音信号中的第一帧开始，将唤醒词路径中第一个三音素单元的概率值K0与所有吸收路径中最大的概率值F比较，若F>＝K0，则认为唤醒词还没开始出现，继续比较下一帧的K0与F，若F<K0，则比较唤醒词路径中下一个三音素单元的概率值K1与F，依此类推，直到唤醒词路径中最后一个三音素单元的概率值K5大于F，则认为语音信号中存在唤醒词，唤醒成功。

上述步骤104中，所述若所述目标设备的当前工作模式为所述命令词模式，则将所述音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词，以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。具体包括：

步骤1041，基于卷积神经网络，所述第二声学模型根据所述音素级特征得到针对所述语音信号的音节级特征及与所述音节级特征相关联的音节级概率向量。

步骤1042，基于全局平均池化方式，所述第二声学模型根据所述音节级特征得到针对所述语音信号的整词级特征及与所述整词级特征相关联的整词级概率向量。

步骤1043，将所述整词级概率向量中概率值最大的元素对应的命令词作为最终识别出的命令词。

因此，经过上述步骤1031～1034的解码网络后，若识别出唤醒词，则进入命令词模式，通过所述第二声学模型输出命令词识别结果。对于所述第二声学模型，所述第二声学模型的输入为所述第一声学模型缓存下来的音素级隐层特征，训练目标是进行音节级分类和整词级分类，和第一声学模型的音素级分类组合成逐级多尺度建模模型，以使得由第一声学模型和第二声学模型组成的逐级多尺度建模模型具有更强大的特征学习能力，能更好的学习到不同命令词之间的差异，减少命令词识别的串扰率。

示例性地，第二声学模型的音节级分类采用音节建模，是字级的，例如，命令词为“打开空调”，则音节建模单元表示为“打”、“开”、“空”，“调”。在本发明实施例中，所有中文的音节建模单元的总数为1326个，但本发明并不限于1326个。第二声学模型的整词级分类采用整词建模，一个命令词不论字数多少即为一个建模单元，建模单元的个数即为命令词个数。

示例性地，图5(a)是本发明实施例训练第二声学模型的流程示意图，图5(b)是本发明实施例训练第一声学模型和第二声学模型的示意图，如图5(a)、图5(b)所示。本发明实施例训练第二声学模型的流程示意图。本发明实施例基于如下方式训练所述第二声学模型：

步骤501，将所述第一声学模型输出的音素级特征输入所述第二声学模型的卷积层和池化层，得到音节级特征。

例如，将第一声学模型输出的音素级特征(大小为N*64，N表示语音信号的帧数)输入第二声学模型后，先经过一个预设层数(例如三层)的卷积神经网络(如图6所示的CNN+Pooling，其中卷积层CNN的卷积核大小为3，池化层Pooling的步长为2)，得到(N/8)*64大小的音节级特征。

步骤502，将所述音节级特征输入至所述第二声学模型的全连接层得到对应的音节级概率向量。

例如，从步骤501输出的(N/8)*64大小的音节级特征，一方面通过一个大小为64*1326(假设音节建模单元的总数为1326个)的全连接层(Fully connect)，得到大小为(N/8)*1326的音节级概率向量。

步骤503，将所述音节级特征输入至所述第二声学模型全局平均池化层，得到对应的整词级特征。

例如，从步骤501输出的(N/8)*64大小的音节级特征，另一方面通过全局平均池化层(AvgPooling)后得到1*64的整词级特征。

步骤504，将所述整词级特征输入至所述第二声学模型的全连接层得到对应的整词级概率向量。

例如，从步骤503得到的整词级特征再通过一个大小为64*W的全连接层(Fullyconnect)后，得到大小为1*W的整词级概率向量。其中，W表示命令词个数。

步骤505，将所述音节级概率向量与预设音节级标签按照预设规则进行计算，得到音节级损失函数，以及将所述整词级概率向量与预设整词级标签向量按照预设规则进行计算，得到整词级损失函数。

步骤506，将所述第一声学模型得到的音素级概率向量与预设的音素级标签向量按照预设规则进行计算，得到音素级损失函数。

步骤507，以最小化所述音节级损失函数、所述整词级损失函数以及所述音素级损失函数为优化目标，对所述第一声学模型和所述第二声学模型进行联合训练，直至满足收敛条件，得到已训练的所述第一声学模型和所述第二声学模型。

因此，训练时，优化目标即为最小化第二声学模型的音节级损失函数(loss)+第二声学模型的整词级损失函数(loss)+第一声学模型的音素级损失函数(loss)。测试时，不再需要经过解码网络，直接利用命令词多级建模模型的整词建模模块得到的1*W的整词级概率向量(W为命令词个数)，所述整词级概率向量中概率值最大的一维对应的命令词即为命令词识别结果，本发明可避免现有技术中因不同长度的命令词在通过解码网络时因为不等长比较而导致的串扰问题，有效地提升了命令词识别的正确性。

以下通过一示例对本发明所述用于目标设备的语音识别方法进行描述。

图6是本发明实施例提供的用于目标设备的语音识别方法的流程示意图，如图6所示。

步骤601，获取音频信号，并对音频信号进行预处理。

示例性地，通过平板电脑、智能音响、电视或空调等拾音设备的麦克风获取音频信号。然后对音频信号进行降噪、滑窗等预处理后得到语音段的音频信号，所述语音段的音频信号为语音信号。

步骤602，对经过预处理的语音信号进行分帧和特征提取处理，得到每一帧信号的声学特征。

步骤603，将所述每一帧信号的声学特征输入已训练的第一声学模型，得到与每一帧信号对应的音素级特征及与该音素级特征相关联的音素级概率向量。

步骤604，若所述目标设备的当前工作模式为唤醒模式，则将所述与每一帧信号对应的音素级特征及与音素级特征该相关联的音素级概率向量输入预设的解码网络。

步骤605，解码网络对所述每一帧信号对应的音素级特征及与音素级特征该相关联的音素级概率向量进行解码以识别唤醒词。

步骤606，解码网络采用的是动态规划算法计算每一个音素单元的声学特征在每条路径上的声学得分，将声学得分最高的路径作为最优路径。

步骤607，判断所述语音信号是否包含唤醒词。如果包括，则执行步骤608，否则返回步骤604。

步骤608，在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式。

步骤609，若所述目标设备的当前工作模式为所述命令词模式，则将第一声学模型输出的与每一帧信号对应的音素级特征输入第二声学模型。

步骤610，第二声学模型基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词。

步骤611，第二声学模型输出命令词识别结果。

在第二声学模型识别出命令词时触发所述目标设备执行所述命令词对应的动作。

下面对本发明提供的用于目标设备的语音识别装置进行描述，下文描述的用于目标设备的语音识别装置与上文描述的用于目标设备的语音识别方法可相互对应参照。

图7是本发明实施例提供的用于目标设备的语音识别装置的结构示意图，如图7所示。本发明实施例提供一种用于目标设备的语音识别装置，所述装置700包括预处理模块710和识别模块720。

预处理模块710，用于获取音频信号，得到所述音频信号的声学特征。

识别模块720，所述识别模块720用于：

示例性地，所述识别模块720，还用于：

示例性地，所述预处理模块710，还用于：

示例性地，所述识别模块720，还用于：

示例性地，所述装置700还包括第一训练模块730，所述第一训练模块730基于如下方式训练所述第一声学模型：

示例性地，所述装置700还包括第二训练模块740，所述第二训练模块740基于如下方式训练所述第二声学模型：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(Processor)810、通信接口(Communications Interface)820、存储器(Memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行所述用于目标设备的语音识别方法，所述方法包括：

获取音频信号，并对所述音频信号进行过滤以得到语音信号，以及对所述语音信号进行分帧和特征提取处理，得到每一帧信号的声学特征；

将所述每一帧信号的声学特征输入已训练的第一声学模型，以得到与每一帧信号对应的音素级特征及与该音素级特征相关联的音素级概率向量；

若所述目标设备的当前工作模式为唤醒模式，则将所述与每一帧信号对应的音素级特征及与音素级特征该相关联的音素级概率向量输入预设的解码器以识别唤醒词，并在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式；

若所述目标设备的当前工作模式为所述命令词模式，则将所述与每一帧信号对应的音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词，以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的所述用于目标设备的语音识别方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的所述用于目标设备的语音识别方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于目标设备的语音识别方法，其特征在于，所述方法包括：

获取音频信号，得到所述音频信号的声学特征；

2.根据权利要求1所述的用于目标设备的语音识别方法，其特征在于，所述将所述音素级特征输入第二声学模型，以基于所述音素级特征得到整词级概率向量，并基于所述整词级概率向量识别命令词包括:

3.根据权利要求1所述的用于目标设备的语音识别方法，其特征在于，所述获取音频信号，得到所述音频信号的声学特征包括：

4.根据权利要求3所述的用于目标设备的语音识别方法，其特征在于，所述将所述声学特征输入已训练的第一声学模型，以得到音素级特征及与该音素级特征相关联的音素级概率向量包括：

5.根据权利要求4所述的用于目标设备的语音识别方法，其特征在于，所述将所述音素级概率向量输入预设的解码器以识别唤醒词包括：

6.根据权利要求5所述的用于目标设备的语音识别方法，其特征在于，所述将所述音素级概率向量输入预设的解码器以识别唤醒词还包括：

7.根据权利要求1所述的用于目标设备的语音识别方法，其特征在于，所述方法包括：

基于如下方式训练所述第一声学模型：

8.根据权利要求1所述的用于目标设备的语音识别方法，其特征在于，所述方法还包括：

基于如下方式训练所述第二声学模型：

9.一种用于目标设备的语音识别装置，其特征在于，所述装置包括：

识别模块，所述识别模块用于：

10.根据权利要求9所述的用于目标设备的语音识别装置，其特征在于，所述识别模块，还用于：

11.根据权利要求10所述的用于目标设备的语音识别装置，其特征在于，所述预处理模块，还用于：

12.根据权利要求11所述的用于目标设备的语音识别装置，其特征在于，所述识别模块，还用于：

13.根据权利要求12所述的用于目标设备的语音识别装置，其特征在于，所述识别模块，还用于：

14.根据权利要求9所述的用于目标设备的语音识别装置，其特征在于，所述装置还包括第一训练模块，所述第一训练模块基于如下方式训练所述第一声学模型：

15.根据权利要求9所述的用于目标设备的语音识别装置，其特征在于，所述装置还包括第二训练模块，所述第二训练模块基于如下方式训练所述第二声学模型：

16.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的终端唤醒与命令词识别方法的步骤。

17.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的终端唤醒与命令词识别方法的步骤。