CN110534098A

CN110534098A - 一种年龄增强的语音识别增强方法和装置

Info

Publication number: CN110534098A
Application number: CN201910955160.4A
Authority: CN
Inventors: 刘旭生; 马永波; 张晓慧; 李子乾; 张才俊; 申蕾; 王笑一; 王秀春; 何学东; 朱龙珠; 杨华; 安业腾
Original assignee: State Grid Co Ltd Customer Service Center
Current assignee: State Grid Co Ltd Customer Service Center
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2019-12-03

Abstract

本发明公开了一种语音识别方法和装置，特别公开了一种年龄增强的语音识别增强方法和装置。该一种年龄增强的语音识别增强方法和装置，本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成；本装置需预设对训练数据分帧进行发音类别标记，标记对应的年龄段，然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去，获取语音识别引擎；在语音识别系统训练模块获取了年龄向量后，即可进行语音识别引擎训练。其益效果是：通过多任务协同学习的方法，将年龄作为一个向量加入到语音识别模型训练中去，既能共享大数据中语音基础信息，又能对不同年龄段的人群进行针对性优化，从而提高语音识别引擎整体的识别率。

Description

一种年龄增强的语音识别增强方法和装置

技术领域

本发明公开了一种语音识别方法和装置，特别公开了一种年龄增强的语音识别增强方法和装置。

背景技术

现有技术中，随着大规模连续语音识别技术的发展，语音识别被应用在越来越多的应用场景上。伴随着应用场景的增多，覆盖人群的年龄段越来越广，语音识别对不同年龄段的识别率要求越来越高，因此，语音识别对不同年龄段的覆盖显的尤为重要。

目前常用的识别方法有两种，一是收集覆盖所有年龄段的语音数据，进行大规模语音识别模型训练，但是这种方法收集的年龄段语音数据一般是不均匀的，在训练的时候往往会把一些年龄段的数据淹没掉；二是把人群分为老人、成人和儿童，分别训练不同人群的模型，但是这种模型无法共享大规模数据的通用信息，导致一些人群的数据量有限，识别率无法提高。

发明内容

本发明的目的在于提供一种年龄增强的语音识别增强方法和装置，本发明采用的技术方案是：

本发明一种年龄增强的语音识别增强方法和装置，其特征在于：本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成；本装置需预设对训练数据分帧进行发音类别标记，标记对应的年龄段，然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去，获取语音识别引擎；在语音识别系统训练模块获取了年龄向量后，即可进行语音识别引擎训练，具体流程如下：

输入向量：输入向量分为语音特征向量和年龄向量；语音特征向量为40维的Fbank特征，考虑到上下文相关，使用11帧的对称窗口，并做LDA降维至200维，年龄向量即为年龄段编码向量模块中获取的向量；

网络结构：4层隐含层，每层1200个结点，输出层对应GMM的个数，为7552个结点；

模型训练：交叉熵作为训练的评判标准，训练中采用随机梯度下降法。

具体的，所述语音分帧模块主要将整段的语音进行切分一帧帧语音，现成一个序列，用s表示s＝{s1,s2,….,sN}，其中s表示一段语音，s1表示一帧语音，N为总帧数。

具体的，所述类别标记模块主要将上一模块的切分的语音帧进行标记，现成待标记的语音片段，用l表示，l_s表示对语音端s进行标记，l_s＝{l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段，举例，如年龄段为3-7岁，8-12岁，14-18岁，19-30岁等，则l_s_n的值为其中一个。

具体的，所述年龄段编码向量模块主要是将年龄段进行编码，从而形成年龄向量方便神经网络输入，具体编码流程如下：

年龄段编码映射，将年龄段分为M端，则形成一个M维的向量来表示年龄向量，即：E1＝{1,0,0,0….},E2＝{0,1,0,0,..},E_M＝{0,0,…,0,1},采取0-1编码的方式；

获取语音帧年龄向量，将年龄段编码向量模块中的语音年龄段标注与年龄向量映射，即可获取每个语音帧对应的向量。

本发明具有的有益效果是：本申请提出通过多任务协同学习的方法，将年龄作为一个向量加入到语音识别模型训练中去，既能共享大数据中语音基础信息，又能对不同年龄段的人群进行针对性优化，从而提高语音识别引擎整体的识别率。

附图说明

图1为本发明的流程示意图；

图2为本发明的语音识别引擎训练网络结构图；

图中,101语音分帧模块，102类别标记模块，103年龄段编码向量模块，104语音识别系统训练模块。

具体实施方式

下面将结合附图和实施例对本发明作进一步的说明。

本发明的一种年龄增强的语音识别增强方法和装置，其特征在于：本装置主要由语音分帧模块101、类别标记模块102、年龄段编码向量模块103和语音识别系统训练模块104构成；本装置需预设对训练数据分帧进行发音类别标记，标记对应的年龄段，然后将获取的年龄端编码为向量加入到语音识别系统训练模块104中去，获取语音识别引擎；在语音识别系统训练模块104获取了年龄向量后，即可进行语音识别引擎训练，具体流程如下：

具体的，所述语音分帧模块101主要将整段的语音进行切分一帧帧语音，现成一个序列，用s表示s＝{s1,s2,….,sN}，其中s表示一段语音，s1表示一帧语音，N为总帧数。

具体的，所述类别标记模块102主要将上一模块的切分的语音帧进行标记，现成待标记的语音片段，用l表示，l_s表示对语音端s进行标记，l_s＝{l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段，举例，如年龄段为3-7岁，8-12岁，14-18岁，19-30岁等，则l_s_n的值为其中一个。

具体的，所述年龄段编码向量模块103主要是将年龄段进行编码，从而形成年龄向量方便神经网络输入，具体编码流程如下：

本发明不局限于上述实施方式，任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种年龄增强的语音识别增强方法和装置，其特征在于：本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成；本装置需预设对训练数据分帧进行发音类别标记，标记对应的年龄段，然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去，获取语音识别引擎；在语音识别系统训练模块获取了年龄向量后，即可进行语音识别引擎训练，具体流程如下：

2.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置，其特征是：所述语音分帧模块主要将整段的语音进行切分一帧帧语音，现成一个序列，用s表示s＝{s1,s2,….,sN}，其中s表示一段语音，s1表示一帧语音，N为总帧数。

3.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置，其特征是：所述类别标记模块主要将上一模块的切分的语音帧进行标记，现成待标记的语音片段，用l表示，l_s表示对语音端s进行标记，l_s＝{l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段，举例，如年龄段为3-7岁，8-12岁，14-18岁，19-30岁等，则l_s_n的值为其中一个。

4.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置，其特征是：所述年龄段编码向量模块主要是将年龄段进行编码，从而形成年龄向量方便神经网络输入，具体编码流程如下：

年龄段编码映射，将年龄段分为M端，则形成一个M维的向量来表示年龄向量，即：

E1＝{1,0,0,0….},E2＝{0,1,0,0,..},E_M＝{0,0,…,0,1},采取0-1编码的方式；