CN114420101A

CN114420101A - 一种未知语言端侧命令词小数据学习识别方法

Info

Publication number: CN114420101A
Application number: CN202210329124.9A
Authority: CN
Inventors: 何云鹏; 许兵; 温登峰; 何松霖
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-04-29
Anticipated expiration: 2042-03-31
Also published as: CN114420101B

Abstract

一种未知语言端侧命令词小数据学习识别方法，包括如下步骤：S1.用户说出待学习命令词音频，系统进行语音采集和端点检测,通过端点检测的语音进入步骤S2；S2.先对语音信号进行预处理得到命令词的语音声学特征向量集合；S3.将语音声学特征向量集合送入深度神经网络进行深度神经网络计算，得到DNN输出向量集合；S4.对DNN输出向量集合进行音素分类删减。本发明将说话人语音特征通过深度神经网络进一步转化为深度声学特征，学习时，将该特征记录为模板，识别时提取的将深度声学特征与该模板采用DTW技术进行累积距离计算，从而进行识别。

Description

一种未知语言端侧命令词小数据学习识别方法

技术领域

本发明属于人工智能领域，涉及到人工智能领域语音识别技术，具体涉及一种未知语言端侧命令词小数据学习识别方法。

背景技术

目前设备端侧语音识别应用越来越普遍，随着以深度神经网络为核心的深度学习技术的应用，语音识别性能也得到大幅提升。使用带语音识别交互功能的用户越来越多。但由于语言的复杂性，世界各地方言发音不同，说法用词也不一定相同。例如在中国，普通话是一种官方语言，但存在着四大方言区和更多的方言语系；要想在设备端侧实现对全部方言的支持，从成本上和技术难度上都不太现实。而事实上还存在着一部分用户不会讲普通话或不常讲普通话，阻碍了设备端侧语音识别交互进一步的普及。

解决这个困难的一种方法，是采取在设备端按照用户的语言语音习惯的端侧命令词学习和识别技术。这种学习不同于基于大数据标注的学习，而是一种小数据的学习方法。语音设备采集用户命令词发音，同一个待学习的命令词发音通常1次到数次，设备学习到这个发音并记录下来，同时将这个发音映射到一个已知的语义ID上。在识别时，当设备匹配到这个发音，就识别到，然后调用对应的语义ID完成设备操作或相应的功能。

传统端侧命令词自学习过程是，设备记录到用户待学习的命令词发音后，提取并记录该发音的声学特征，典型的声学特征包含但不限于MFCC（梅尔频率倒谱系数），mel-FB（梅尔滤波器组），LPC（线性预测编码），GFCC（gammatone频率倒谱系数）等。识别时，将接收到的语音转化为上述声学特征与所记录的声学特征进行匹配。匹配时按照每帧语音特征与记录的每帧声学特征进行距离计算。

传统方法在的问题在于过分依赖于学习时说话人的声学特征矢量以及环境。如果识别时，环境发生变化，比如存在其他背景噪声或者嘈杂人声，则通常难以识别；此外如果换一个说话人，即使说相同的语言，也难以识别到。因此传统的方法很难达到实用阶段。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种未知语言端侧命令词小数据学习及识别方法。

本发明所述未知语言端侧命令词小数据学习识别方法，包括如下步骤：

S1.用户说出待学习命令词音频，系统进行语音采集和端点检测,通过端点检测的语音进入步骤S2；

S2.先对语音信号进行预处理得到命令词的语音声学特征向量集合Xf；

Xf={ Xf^t},t=1,2…N 公式1；

其中，Xf^t为第t帧的语音声学特征向量,上标t表示帧编号, t是1到N之间的任意值，N为帧数；

S3.将语音声学特征向量集合Xf送入深度神经网络进行深度神经网络计算，得到DNN输出向量集合O^t；

DNN输出向量集合

公式2

集合元素中下标id为DNN输出层音素分类编号，上标t是帧编号；M代表输出层音素分类总数；

为第t帧DNN输出层音素分类编号为id，概率分值为

的输出向量，

为M维向量 (0,0..

...0)，其中

=

公式3，表示其数值等于向量

的模；

用向量坐标表示为：

公式4

将公式4用一个二维数组表示，得到公式5：

公式5

S4.对DNN输出向量集合O^t进行音素分类删减，具体为：

从全部输出层音素分类中选择出K个音素分类，将选择出的K个音素分类按照概率得分从高到低排列，得到筛选出K个最大得分的音素分类后的深度声学向量；

令s_id(0,t) > s_id(1,t) >…s_id(k,t) > …>s_id(K-1,t)

以公式6表示筛选音素分类后的深度声学向量

，

公式6

其中id（k,t）表示第t帧的第k个音素分类，s_id(k,t)表示该音素分类id（k,t）对应的概率分数；

将K个音素分类的概率求和：

公式7

sum_score^t为K个音素分类的概率总和；

对集合中每个元素的概率得分进行归一化，对第k个音素分类，归一化后的概率得分：

s_nor_id(k,t) = s_id(k,t)/ sum_score^t 公式8

则公式6演变为归一化概率分数后的深度声学向量

公式9

其中s_nor_id(k,t)表示s_id(k,t)归一化之后的概率分数；

t为语音帧编号，t=1,2,3...N ,N是音频的总帧数；k为深度学习特征维度，k=1,2,3…K，K为筛选后的音素分类总数；id(k,t)表示第t帧第k个音素分类，其中k = 0,1,...K-1；

S5.将

保存为该待学习命令词的声学特征模板X_i（t），完成一个待学习命令词的学习，下标i表示不同命令词；

S6.对全部待学习命令词，重复步骤S1-S5，得到全部待学习命令词的声学特征模板；

完成全部待学习命令词的声学特征模板后，利用这些声学特征模板进行语音识别，语音识别的具体步骤为：

S7.持续进行语音端点检测，检测到语音端点则执行步骤S8，否则一直进行语音端点检测；

S8.按照S2-S4步骤描述的提取深度学习声学特征

的方式，提取用户语音深度学习特征X_b(t_m)，其中t_m 表示用户语音中的帧数；

S9. 计算用户语音深度学习特征X_b(t_m)与所有声学特征模板X_i（t）之间的距离D_i(t)，所述距离为几何距离或欧氏距离；

遍历全部帧计算各帧对应的距离，求取总距离D=DTW(D_i(t))；其中DTW表示动态时间弯曲的距离计算方法；

S10.对任意一个声学特征模板，如果有总距离 D < th，th为该声学特征模板对应的注册命令词阈值，即认为匹配该声学特征模板对应的命令词并识别，否则识别失败。

优选的，所述S2步骤中，所述预处理包括依次分帧、加窗、快速傅里叶变换后，然后提取语音的梅尔滤波 fbank特征。

优选的，对同一命令词，重复S1-S4步骤多次，所述S5步骤中，将多次得到的深度学习声学特征

进行平均值计算，以平均值作为该待学习命令词的声学特征模板X_i（t）。

优选的，所述S8步骤中，计算出用户语音深度学习特征X_b(t_m)后，继续对其进行更新，具体方法为：

设第t_m帧用户语音深度学习特征X_b（t_m）为

id(k,t_m)表示第t_m帧第k个音素分类，其中k = 0,1,...K-1；s_nor_id(k,t_m)表示id(k,t_m)音素分类对应的概率分数；

第t帧声学特征模板X_i（t）为

，

id(k,t)表示第t帧第k个音素分类，其中k = 0,1,...K-1；s_nor_id(k,t)表示id(k,t)音素分类对应的概率分数；

遍历所有用户语音深度学习特征的音素分类即id（k,t_m）是否在声学特征模板的音素分类即id（k,t）中；

如果id（k,t_m）在集合{id(0,t),…id(k,t)…id(K-1,t)}中，

则对应概率得分s_nor_id(k,t_m)保持不变；否则s_nor_id(k,t_m)的值采用初始值0代替；则最终得到一个更新后的第t帧用户语音深度学习特征：

更新后的用户语音深度学习特征X_new(t_m) 作为后续步骤S9中的用户语音深度学习特征X_b(t_m),其中

表示音素分类id（k,t_m）更新后的概率得分。

优选的，步骤S4中，在公式9基础上，将第t帧声学特征模板缩减为一维数组:

X_i（t）=[id(0,t), id(1,t)…id(i,t)…id(K-1,t)]

id(i,t)表示声学特征模板的第t帧第i个音素分类，其中i = 0,1,...K-1；

对应的，步骤S8按照相同方法提取用户语音深度学习特征X_b(t_m)时，将第t_m帧待识别的用户语音深度学习特征缩减为一维数组:

X_b（t_m）=[id(0,t_m), id(1,t_m)…id(j,t_m)…id(K-1,t_m)]

id(j,t_m)表示用户语音深度学习特征的第t_m帧第j个音素分类，其中j= 0,1,...K-1；

设置一维数组 d_null={d_null(k)},k = 0,1,...K-1；d_null(k)的初始值全部为大于0的一组经验正数值，并使

d_null(0) ≥d_null(1) ≥...d_null(K-1)；

设置一维数组α=(α₁…α_k…α_K-1)，α₁…α_k…α_K-1为按从大到小顺序排列的值；

在上述设置基础上，所述步骤S9中计算用户语音深度学习特征X_b(t_m)与所有声学特征模板X_i（t）之间的距离D_i(t)具体为：

如果待识别的用户语音深度学习特征音素分类在声学特征模板的音素分类中，即id(j,t_m) ∈[id(0,t), id(1,t)…id(i,t)…id(K-1,t)]

则用户语音深度学习特征音素分类和对应的声学特征模板音素分类的距离为

α*│i-j│，

如果待识别用户语音深度学习特征音素分类不在声学特征模板的音素分类中，则距离为d_null(k)，k=j；

遍历待识别用户语音深度学习特征的音素分类j，j = 0,1,...K-1，求和即可求得距离D_i(t)。

优选的，d_null(k) 中全部元素为1 ，α中全部元素为0。

优选的，所述步骤S9中，几何距离的计算方式具体为：

第t_m帧用户语音深度学习特征X_b(t_m)和识别时的第t帧声学特征模板X_i（t）间几何距离D1(t, t_m)由公式10计算：

公式10

其中，X_i（t,k）表示第t帧模板特征中k维深度声学特征的概率得分，其值为

；X_b（t_m,k）表示第t_m 帧模板特征k维深度声学特征的概率得分，其值为

，K为筛选后的音素分类总数。

优选的，所述步骤S9中，欧氏距离的计算方式具体为：

第t_m帧用户语音深度学习特征X_b(t_m)和识别时的第t帧声学特征模板X_i（t）间欧氏距离D2(t, t_m)由公式11计算：

公式11

sqrt表示开方,k为深度学习特征维度；K为筛选后的音素分类总数

本发明将说话人语音特征通过深度神经网络进一步转化为深度声学特征，学习时，将该特征记录为模板，识别时提取的将深度声学特征与该模板采用DTW技术进行累积距离计算，从而进行识别。

本发明已应用于申请人自行设计的人工智能语音芯片上，获得良好的效果，其具体优势有： 1.对环境有更广泛的适应性，包括在较安静环境学习后，可以在有音乐嘈杂声和一定房间混响及其他环境噪声下良好识别。在近距离学习后，可以在更远距离进行识别。2.不依赖于特定人作为训练者，一个家庭成员训练该设备后，其他成员使用同样的语言可以使用；3.能使用同一神经网络模型，进行一次计算，做到既可以识别原本预存的命令词如普通话，英语等语言的识别，也能做到同时进行用户自定义的命令词语言的识别。

附图说明

图1为本发明一个具体实施方式的流程示意图。

具体实施方式

目前端侧自动语音识别（auto speech recognition:简写ASR）技术，主要采用DNN（深度神经网络）-HMM（隐马尔科夫模型）技术，将语音声学特征转化为音素概率，再结合命令词语言模型网络（LM），采用维特比搜索解码，从而识别到命令词。

DNN模型主流包含FCN（前向全连接），TDNN（时延神经网络），RNN（递归神经网络，LSTM（长短时神经网络），CNN（卷积神经网络）等。其主要特点包括以声学特征矢量作为输入的输入层，多层隐含层和输出层。

其中输出层采用单音素，双音素或三音素甚至更多音素进行聚类后的分类节点，一般包含数百个到数千个分类节点。每个节点赋予一个节点ID，代表一个音素分类。识别时，每个节点的值代表该音素分类的概率分数。

神经网络模型参数通过已经标注音素标签的语料大数据训练得到。这种标注了音素标签的语料通常为采集到的一种或多种已知语言的发音语料。这种语料可以采集自不同环境，含有不同环境的噪声或混响；也可以在安静环境下采集得到，通过添加不同环境的噪声或混响进行语料扩展。目前采用深度神经网络的深度学习方法，用户在使用与训练时对同样语言的语音识别性能很好，具有良好的环境自适应能力。

当用户自定义的命令词语言和用于ASR的DNN模型训练语料的语言相同时，通常总能有一个输出节点的音素与发音相同或接近，因此概率得分较高。但当用户自定义的命令词语言和训练用语料语言不同时，则不一定能找到一个节点音素相同或相近。为进一步简化计算，本发明基于已有定理进行假设。

在空间坐标系中存在以下定理：

在n维空间坐标系中，任意一组n维向量都可以由n维单位向量组线性表示，假设ε₁=（1，0…0）…,ε_n=（0…0,1）为n维单位向量组，则任意一个n维向量可以由其线性表示：

α=α₁*ε₁+α₂*ε₂…+α_n*ε_n

则(α₁,α₂…α_n)为向量

在该坐标系的坐标表示。

基于这一定义，类似的，本发明假设输出向量集合可以用已知音素分类集合中的元素单位向量及其概率分值的乘积加权求和来表示。

下面结合附图对本发明的具体实施方式作进一步的详细说明，如图1所示给出本发明的一个具体实施流程。

S1.用户说出待学习命令词，系统进行语音采集和端点检测,通过端点检测的语音进入步骤S2；

S2.先对语音信号进行分帧、加窗、FFT处理，然后提取语音的梅尔滤波 fbank特征，得到命令词的语音声学特征向量集合Xf；

Xf={ Xf^t},t=1,2…N 公式1；

DNN输出向量集合

公式2

为第t帧DNN输出层音素分类编号为id，概率分值为

的输出向量，

为M维向量 (0,0..

...0)

将M维向量

每个元素归一化，即可以得到空间坐标系方向为id的单位向量：

表示向量

的模，其数值等于

，

假设前述得到的输出向量集合O^t可以用已知音素的id分类集合

中的元素单位向量

及其概率分值的乘积加权求和来表示，即令：

用坐标表示为：

公式4

M为输出层音素分类总数，id为DNN输出层音素分类编号，上标t是帧编号

公式4是本发明的理论假设基础。

4式成立的前提是：空间的任何一个向量都可以由坐标系的单位向量组合而成，而未知声音可以由有限已知音素组合而成，因此可以把已知音素集成的单位量看成坐标系的单位向量，进而表示任意的未知声音；

4式代表的是未知的一个声音可以使用已知音素集合的单位向量线性组合而成

采用4式假设，未知音素可用已知音素集合线性组合来表达，可以兼容更多没训练过的语种，不需要再针对性重新训练，极大节省开发周期，应用更广泛便捷。

基于上述理论及假设，可以使用一维数组来表示向量

，前述

为第t帧DNN输出层音素分类编号为id，概率分值为

的输出向量，

由前述的M维向量 (0,0..

...0)简化为一维数组：

其中,

表示DNN输出类别为id时的概率分值，id为对应的输出类别，在一维数组中，

可以看做向量

的模，分类id为对应的单位向量；

因此，公式4可以用一个二维数组表示，即得到公式5：

公式5

则对应的深度声学特征集合D_f可以表示如下

,t=1,2…N；N为帧数

是第t帧的深度声学向量,其等效于O^t。

S4.对每一音频，按照步骤S1至S3计算DNN输出向量集合O^t；

DNN的输出分类M一般是数百到数千的整数，如果不降低维度，则深度声学特征向量的空间维度太大，导致在嵌入式设备计算上需要消耗较大算力和存储空间。所以本发明进一步提出降低深度声学特征向量维度的方法。

公式5描述了第t帧的未知语音音素可以用已知语言大数据训练分类的音素组合来表示；

由于组合中贡献大的音素分类主要是得分较大的音素分类，可依次选取K个最大得分的音素分类来拟合；

为简化后续计算，可设置选择的音素分类数K远小于输出层音素分类总数M。将选择出的K个音素分类按照概率得分从高到低排列，得到筛选出K个最大得分的音素分类后的深度声学向量，

令

，以公式6表示筛选音素分类后的深度声学向量

，

公式6

由于K小于输出层音素分类总数M，K个音素分类的概率求和不为1，需要重新归一化。

将K个音素分类的概率求和：

公式7

sum_score^t为K个音素分类的概率总和；

s_nor_id(k,t)=s_id(k,t)/sum_score^t公式8

由于每帧的前K个分类编号将不再固定，所以分类编号将与帧编号t关联，所以分类编号记为：s_id(k,t)表示第t帧，深度特征矩阵中的第k个音素编号。

则公式6演变为归一化概率分数后的深度声学向量

公式9

其中s_nor_id(k,t)表示s_id(k,t)归一化之后的概率分数。

最终，设置最大深度学习特征维度为K, K远小于M；得到自学习的深度学习声学特征

, t为语音帧编号，t=1,2,3...N ,N是音频的总帧数；k为深度学习特征维度，k=1,2,3…K；

S5.重复S4步骤多次，将多次得到的深度学习声学特征深度学习声学特征

进行平均值计算，并保存为该语音的声学特征模板X_i(t)，完成一个待学习命令词的学习；下标i表示不同命令词；

S6.对全部待学习命令词重复步骤S5，得到全部待学习命令词的声学特征模板。

完成全部待学习命令词的声学特征模板后，可利用这些声学特征模板进行语音识别，语音识别的具体步骤为：

S8.按照S2-S4步骤描述的提取深度学习声学特征

S9. 计算用户语音深度学习特征X_b(t_m)与所有声学特征模板X_i（t）之间的欧氏距离D_i(t)：

详细计算步骤如下：

当使用完整的DNN分类个数来表述深度声学特征向量，即K=M时，深度声学特征向量如公式5。

设语音设备在学习用户自定义命令时，按帧计算通过DNN 得到第t帧的深度声学特征模板

，

识别时，用户发出的待识别语音通过DNN计算得到第t_m帧的用户语音深度学习特征

。

由于人说话语音长短不稳定，学习和识别时的帧数不会严格相同，所以t 不一定等于t_m。

第t_m帧用户语音深度学习特征X_b(t_m)和识别时的第t帧声学特征模板X_i（t）间几何距离D(t, t_m)可以用公式10进行绝对值距离计算：

公式10

；K为筛选后的音素分类总数。

也可以用公式11进行欧氏距离计算：

公式11

sqrt表示开方,M为最大深度学习特征维度，k为深度学习特征维度，K为筛选后的音素分类总数；

当使用前K个最大得分的音素分类来拟合深度声学特征向量时，即音素分类数K远小于输出层音素分类总数M（K<M）,深度声学特征向量如公式9:

由于K<M , 存在用户训练时，设备学习记录的深度声学特征向量中的音素分类和识别时计算得到的深度声学向量中的音素分类在矩阵单元的序号不同，甚至没有。所以在进行距离计算时，需要先找到相同的音素分类编号对应的分值，再求距离。

第t_m帧用户语音深度学习特征为X_b（t_m）,第t帧声学特征模板为X_i（t），如果待识别特征的音素分类在声学特征模板的音素分类中，则采用待识别特征的音素分类对应的概率得分；否则采用初始值0作为得分；

根据公式9，

可设第t_m帧用户语音深度学习特征X_b（t_m）为

第t帧声学特征模板X_i（t）为

，

遍历所有用户语音深度学习特征的音素分类即id（k,t_m）是否在模板特征的音素分类即id（k,t）中；

如果id（k,t_m）

在集合

中，则对应概率得分s_nor_id(k,t_m)保持不变；否则s_nor_id(k,t_m)的值采用初始值0代替；则最终得到一个更新的第t帧用户语音深度学习特征：

其中

表示音素分类id（k,t_m）更新后的概率得分

如前所述，更新的第t帧用户语音深度学习特征中，第二行的部分概率分数可能为零。

然后将更新后得到的用户语音深度学习特征X_new（t_m）和第t帧声学特征模板X_i（t）进行几何距离和欧氏距离等的求取，可以使用公式10、11进行计算。

为了再次简化距离的计算，本发明进一步设计了一种不用概率得分，而通过声学特征模板和待识别的用户语音深度学习特征中音素分类的排序来求特征距离的方法。

具体实现思路如下：

在步骤S4的基础上，第t帧声学特征模板缩减为:

X_i（t）=[id(0,t), id(1,t)…id(i,t)…id(K-1,t)]

类似的，第t_m帧待识别的用户语音深度学习特征缩减为:

X_b（t_m）=[id(0,t_m), id(1,t_m)…id(j,t_m)…id(K-1,t_m)]

id(j,t_m)表示用户语音深度学习特征的第t_m帧第j个音素分类，其中j= 0,1,...K-1，

并设置一维数组 d_null={d_null(k)},k = 0,1,...K-1, K表示使用的分类个数，即筛选后的音素分类总数；

配置一维数组d_null的元素d_null(k)的初始值全部为大于0的一组经验正数值，并使

d_null(0) >= d_null(1) >=...d_null(K-1)。

设置d_null(k)含义为用户语音深度学习特征X_b（t_m）中某一维对应的音素分类不在声学特征模板X_i（t）中时,该音素分类对应体现的声学特征模板和用户语音深度学习特征之间的距离。

如果待识别特征的用户语音深度学习特征音素分类在声学特征模板的音素分类中，即

id(j,t_m) ∈[id(0,t), id(1,t)…id(i,t)…id(K-1,t)]

则待识别特征音素分类和对应的声学特征模板音素分类的距离为

α*│i-j│，

i为声学特征模板音素分类对应的数组序号,j为用户语音深度学习特征音素分类对应的数组序号, │i-j│表示两者对应的数组序号之间差值的绝对值，其中α=(α₁…α_k…α_K-1)是一组按从大到小顺序排列的经验值，由于S4步骤中设置音素分类按照概率得分从高到低排列，α=(α₁…α_k…α_K-1)中的元素从大到小排序表示靠前的音素分类对整个距离的计算贡献更多，对应一个更高的概率。

如果待识别特征的用户语音深度学习特征音素分类不在声学特征模板的音素分类中则采用初始值d_null(k)作为距离。

从待识别特征的第一个音素id(0, t_m )按照上述规则进行遍历，即可求得距离D。

例如，一个较简单的典型设置中，设d_null(k) 中全部元素为1 ，α中全部元素为0，即只要待识别特征的音素分类在声学特征模板的音素分类中，就认为两者距离为0；则上述距离求解过程就变成求X_b（t_m）和X_i（t）中音素分类编号相同的交集了。如果交集越多，则距离值就越小，如果待识别的用户语音深度学习特征的音素分类都不在声学特征模板的音素分类，则距离为K（即1*K=K），否则都小于K。

例如：假设K=5，

X_b（t_m）=[10、5、30、40、50]，X_i（t）=[50、7、20、10、30]

待识别特征的音素分类为10,5，30,40,50，我们依次判断其是否在X_i（t）对应的分类（50,7,20，10,30）中；

对于X_b（t_m）的第一个(i=0)音素id（0，t_m ）=10,其在X_i（t）中能找到相同的音素序号id（3，t ）=10，

因此其对应的距离为

α₁*│i-j│=α₁*│0-3│=3α₁

对于X_b（t_m）的第二个（i=1）音素id（1，t_m ）=5,其在X_i（t）中找不到相同的音素序号，因此其距离为d_null(1)；遍历X_b（t_m）中所有的音素，既可以求得两个向量之间的距离D（t,t_m），相应的设立合理的阈值，对低于阈值的判定为识别成功。

进一步假设d_null(k) 中全部元素为1 ，α中全部元素为0，则可以得到上面两个特征的距离D（i）=0+1+0+1+0=2。

这种方法的好处是大幅降低了运算复杂度，由于设置了按照分数从高到低排列，使得概率分数较高的音素分类在最终结果中的权重提升，减少算力的同时仍然可以维持识别正确率，从而可以减少芯片的存储内存。

在使用时，原Ｓ９步骤中使用的方法需要存储对应的模板特征，其是由一组二维数组构成（包括音素分类序号和对应的概率得分），而本方法只需要存储一个一维数组即音素分类序号；从而大大降低了芯片的存储。

得到各个帧的距离后，算出整个语音段的累积距离，并按帧数平均如下：

其中DTW表示动态时间弯曲的距离计算方法，为本领域现有技术，在此不再赘述，N为帧数，D_tolal为平均距离。

S10：根据过往经验设置注册命令词阈值th，定义平均距离D_tolal符合D_tolal<th 时，可以判定该语音为在学习过程中记录的用户自定义注册的命令词，设备输出相应的语义，否则就判定未注册命令词，不予响应。

具体实施例1：

学习阶段：

①使用启英泰伦带有深度神经网络 DNN 的芯片，通过语音识别控制进入到学习。

②模式用户说出期望的学习命令词，系统持续进行语音采集，同时进行端点检测。

③通过端点检测后，提取语音的梅尔滤波 fbank特征，滤波器设置为60个，即得到60维向量表示的自定义命令词语音声学特征

Xf={ Xf^t},t=1,2…240

其中，上标t表示帧编号, t是1到240之间的任意值，帧长为240

④将Xf送入深度神经网络DNN，进行深度神经网络计算，深度神经网络输入层维度660，隐含层神经元512，隐含层数4层，输出维度3632,得到DNN的输出向量集合O^t

，集合元素中下标id为DNN输出层音素分类编号，上标t是与输入向量帧对应的帧编号；输出维度3632即代表一共有M=3632个分类；

为第t帧DNN输出层音素分类编号为id，概率分值为

的输出向量。

⑤对输出向量集合中的每个元素归一化，则有

其中，

为归一化概率得分，其中

并可以使用一组二维数组来简单表示：

按上述步骤②-⑤计算得到输出向量集合O^t,

⑥为了防止突发噪声对用户语音的干扰，提升学习的准确性。重复 ②-⑤步骤两次，分别提取对应输出向量集合并保存。

将三次得到的输出向量集合进行平均值计算，并保存为该命令词的声学特征模板X_i（t），完成一个期望命令词的注册。

X_i（t）中的t表示帧数， t=1,2,3,...,N， N是音频的总帧数；X_i（t）的维度是K，一般为10到50；

重复 ②-⑥步骤,得到其他命令词的声学特征模板，直到所有学习命令词语音完成学习，退出学习模式进入识别模式。

识别匹配步骤：

⑦系统处于语音采集状态下持续进行语音端点检测，如果检测到语音端点则执行步骤⑨，否则一直进行语音端点检测。

⑧提取用户语音深度学习特征为待识别特征X_b（t），提取方式与学习步骤中的③-⑤相同。

⑨计算待识别特征X_b（t）与学习步骤中得到的每一声学特征模板 X_i（t），按照公式11计算欧氏距离，

⑩遍历全部帧计算各帧对应的欧氏距离D_i(t)，求取总距离D=DTW(D_i(t)),t=1,2,3,...,N；

对任意一个声学特征模板，如果有 D < th，th为注册命令词阈值，即认为匹配该声学特征模板对应的命令词并识别，否则识别失败。注册命令词阈值th可根据实测经验值确定。

具体实施例2

本实施例与具体实施例1的区别在于，在④步骤中设置音素分类数K=200，即筛选出概率分值最大的前200个音素分类组合作为本次自学习的深度学习声学特征X₁（t）；

因此，具体实施例1步骤⑤的输出向量计算公式变为：

将K=200个音素分类的概率求和：

公式7

sum_score^t为K个音素分类的概率总和；

s_nor_id(k,t)=s_id(k,t)/sum_score^t公式8

则公式6演变为归一化概率分数后的深度声学向量

公式9

其中s_nor_id(k,t)表示s_id(k,t)归一化之后的概率分数。

具体实施例3

本实施例与具体实施例2的区别在于，

步骤S4中，在公式9基础上，将第t帧声学特征模板缩减为一维数组:

X_i（t）=[id(0,t), id(1,t)…id(i,t)…id(K-1,t)]

id(i,t)表示声学特征模板的第t帧第i个音素分类，其中j = 0,1,...K-1；

X_b（t_m）=[id(0,t_m), id(1,t_m)…id(j,t_m)…id(K-1,t_m)]

设置一维数组 d_null={d_null(k)},k = 0,1,...K-1；d_null(k)初始值全部为1,设置一维数组α=(α₁…α_k…α_K-1)，α₁…α_k…α_K-1全部为零；

所述步骤S9中计算用户语音深度学习特征X_b(t_m)与所有声学特征模板X_i（t）之间的距离D_i(t)具体为：

则用户语音深度学习特征音素分类和对应的声学特征模板音素分类的距离为0；如果待识别用户语音深度学习特征音素分类不在声学特征模板的音素分类中，则距离为1；

遍历待识别用户语音深度学习特征的音素分类j，j = 0,1,...K-1，求和即可求得距离作为欧氏距离。

本发明的优势主要是减少芯片的内存存储，下表是具体的内存存储（对于该实施例来说，本表使用小乐管家命令词为例（即以小乐管家为模板命令词），在安静、噪音环境（音乐、风噪）等环境下测试识别效果（测试样本数为20，即同样的命令词测试20次），其中测试距离为1m,信噪比为15dB）：

	具体实施例1	具体实施例2	具体实施例3
				内存（kB）	3446	187	93
安静环境	100%	100%	100%
				音乐环境	95%	90%	85%
风噪环境	100%	95%	90%

从上表可以看出，虽然本发明采用简化的距离计算方法，但由于具体实施例2中筛选了概率最大部分的音素分类，识别率并没有明显下降，但计算量大幅降低，具体实施例3进一步简化了距离计算方法，识别率在安静环境下也没有降低，同时显著降低了内存占用，使得本发明所述方法可以应用在自有内存很小的语音识别芯片上。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。