CN105702250B

CN105702250B - 语音识别方法和装置

Info

Publication number: CN105702250B
Application number: CN201610008069.8A
Authority: CN
Inventors: 范思楠; 齐昕; 关胤; 王维兰; 吴拥民; 陈宏展; 刘德建
Original assignee: Fujian TQ Digital Co Ltd
Current assignee: Fujian TQ Digital Co Ltd
Priority date: 2016-01-06
Filing date: 2016-01-06
Publication date: 2020-05-19
Anticipated expiration: 2036-01-06
Also published as: CN105702250A

Abstract

为提供更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术，发明人提出了一种语音识别方法，包括下步骤：以预设采样参数以及预设格式存储儿童语音信息；从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；以gmm‑hmm模型为基础初始化一深度信念网络；以经训练的混合高斯模型‑隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn‑hmm模型；利用所述基于深度信念网络的dnn‑hmm模型进行语音识别。发明人同时提供了实现上述语音识别方法的语音识别装置。

Description

语音识别方法和装置

技术领域

本发明涉及语音信息处理和软件领域，特别涉及一种语音识别方法和装置。

背景技术

随着语音交互技术不断的发展，语音识别技术已经较为成熟完善。但受限于用户群体和语料的采集难度，儿童语音识别效率一直没有很好的提升手段。

在现有技术中，一种针对儿童的语音识别方法在提取语料声学特征的过程中加入声道长度归一化技术，以此来提升儿童语音的识别效率，并通过叠加多个模型的方式来训练声学模型。然而，现有主流的语音识别交互技术中，受限于语料的采集渠道和采集成本，目前成熟的语料库都只针对于成人的语音识别，鲜有儿童语料。同成年人的发音相比，儿童的发音发声速度变化迅速，咬字不准导致发音不清晰等问题，导致现有的语音识别徐婷对儿童的语音识别准确率极低。并且现有的声学模型构建多是采用高斯混合模型与隐马尔科夫模型相结合的方式，依据现有的特征提取方式，提取出的特征维度较少，不能很好的描述语音本身。

发明内容

基于此，需要提供一种能更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术。

为实现上述目的，发明人提供了一种语音识别方法，包括如下步骤：

以预设采样参数以及预设格式存储儿童语音信息；

从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；

训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；

以gmm-hmm模型为基础初始化一深度信念网络；

以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；

利用所述基于深度信念网络的dnn-hmm模型进行语音识别。

进一步地，所述的语音识别方法中，步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括：

提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型；

训练所述输入信息的第一层受限玻尔兹曼机；

以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机；

对顶层受限玻尔兹曼机，结合带分类标签的训练数据进行训练，并得到初始化的深度信念网络

进一步地，所述的语音识别方法中，所述“每帧音频及其前后若干帧音频”具体包括：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

进一步地，所述的语音识别方法中，步骤“训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机”具体包括：

使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。

进一步地，所述的语音识别方法中，所述“预设采样参数以及预设格式”具体包括：

采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。

进一步地，所述的语音识别方法中，所述“预设采样参数以及预设格式”具体为：

采样率为16000Hz、采样位数为16位、单声道的wav格式。

进一步地，所述的语音识别方法中，步骤“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括：

训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率。

进一步地，所述的语音识别方法中，所述步骤“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型”具体包括：

经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐，改变原gmm-hmm模型的状态输出概率，得到基于深度信念网络的dnn-hmm模型。

发明人同时还提供了一种语音识别装置，包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元；

所述存储单元用于以预设采样参数以及预设格式存储儿童语音信息；

所述参数提取单元用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；

所述第一建模单元用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；

所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络，并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；

所述识别单元用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。

进一步地，所述的语音识别装置中，第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括：

训练所述输入信息的第一层受限玻尔兹曼机；

进一步地，所述的语音识别装置中，所述“每帧音频及其前后若干帧音频”具体包括：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

进一步地，所述的语音识别装置中，第二建模单元训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机具体包括：

进一步地，所述的语音识别装置中，所述“预设采样参数以及预设格式”具体包括：

采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。

进一步地，所述的语音识别装置中，所述“预设采样参数以及预设格式”具体为：

采样率为16000Hz、采样位数为16位、单声道的wav格式。

进一步地，所述的语音识别装置中，第一建模单元训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型具体包括：

进一步地，所述的语音识别装置中，第二建模单元以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型具体包括：

区别于现有技术，上述技术方案通过采集儿童发音语料，利用深度学习的方法提取儿童语料中的特征参数，利用特征参数对现有的hmm声学模型进行修改，以适应儿童的发音；构建深度神经网络提取音频特征，相比普通的特征提取方式，以更丰富的帧数据作为输入，大大丰富了语音特征的参数个数，提取的特征更能全面、具体的刻画每帧音频，并且利用深度神经网络提升现有的gmm-hmm模型，形成dnn-hmm模型，而不是将多个声学模型进行简单的叠加，由此可大大拓展对儿童的语音识别能力。

附图说明

图1为本发明一实施方式所述的语音识别方法的流程图；

图2为本发明一实施方式所述的语音识别装置的结构示意图。

附图标记说明：

1-存储单元

2-参数提取单元

3-第一建模单元

4-第二建模单元

5-识别单元

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施方式所述的语音识别方法的流程图；所述方法包括如下步骤：

S1、以预设采样参数以及预设格式存储儿童语音信息；

S2、从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；

S3、训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；

S4、以gmm-hmm模型为基础初始化一深度信念网络；

S5、以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；

S6、利用所述基于深度信念网络的dnn-hmm模型进行语音识别。

在某些实施方式中，步骤S1中所述的“预设采样参数以及预设格式”具体包括：采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。、

在某些实施方式中，步骤S3所述的“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括：训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率。本发明涉及的技术方案中，每个音素由若干个状态构成，各状态又由若干帧构成，以状态为基础构造隐马尔科夫模型。

在一些更为优化的实施方式中，所述“预设采样参数以及预设格式”具体为：采样率为16000Hz、采样位数为16位、单声道的wav格式。

对于采样参数和存储格式的优化主要鉴于如下考虑：首先，采样率过高可能导致运算量加大，而过低又会导致语音的高频信息丢失严重，因此需要确定一个折中和可以同时兼顾运算量和信息真实度的方案。采样位数方面，数值越大解析度越高，因此需要确定一个可以同时兼顾分辨率和数据量的方案。声道方面，由于立体声主要用于烘托空间感，对于语音识别意义不大，并且要增加两倍的运算量，因此本发明大部分实施方式采取单声道存储。

在某些实施方式中，步骤S4所述的“以gmm-hmm模型为基础初始化一深度信念网络”又具体包括如下分步骤：

S41、提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型；

S42、训练所述输入信息的第一层受限玻尔兹曼机；

S43、以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机；

S44、对顶层受限玻尔兹曼机，结合带分类标签的训练数据进行训练，并得到初始化的深度信念网络

针对不同的语言和不同的模型，输入音频帧数及其模式的使用效果是可能有差别的，经发明人研究发现，在某些更优化的实施方式中，步骤S41所述的“每帧音频及其前后若干帧音频”具体可以包括如下模式：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

如此一来会有和本发明的语言和模型所适配的较优的效果。

在另外一些优化的实施方式中，步骤S43所述的“训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机”具体做法：使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。

进一步地，某些实施方式中，步骤S5所述的“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型”具体包括：

请参阅图2，为本发明一实施方式所述的语音识别装置的结构示意图；所述装置包括存储单元1、参数提取单元2、第一建模单元3、第二建模单元4和识别单元5；

所述存储单元1用于以预设采样参数以及预设格式存储儿童语音信息；

所述参数提取单元2用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；

所述第一建模单元3用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；

所述第二建模单元4用于以gmm-hmm模型为基础初始化一深度信念网络，并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；

所述识别单元5用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。

在某些实施方式中，存储单元1在存储中所采取的“预设采样参数以及预设格式”具体包括：采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。、

在某些实施方式中，第一建模单元3“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括：训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率。本发明涉及的技术方案中，每个音素由若干个状态构成，各状态又由若干帧构成，以状态为基础构造隐马尔科夫模型。

在某些实施方式中，第二建模单元4“以gmm-hmm模型为基础初始化一深度信念网络”的做法具体包括如下分步骤：

S42、训练所述输入信息的第一层受限玻尔兹曼机；

针对不同的语言和不同的模型，输入音频帧数及其模式的使用效果是可能有差别的，经发明人研究发现，在某些更优化的实施方式中，所述的“每帧音频及其前后若干帧音频”具体可以包括如下模式：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

如此一来会有和本发明的语言和模型所适配的较优的效果。

在另外一些优化的实施方式中，第二建模单元4“训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机”具体做法：使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。

进一步地，某些实施方式中，第二建模单元4“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型”具体包括：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括如下步骤：

以预设采样参数以及预设格式存储儿童语音信息；

训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型，具体包括，训练各状态的高斯混合模型，每一状态由若干帧构成，以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率；

以gmm-hmm模型为基础初始化一深度信念网络，提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型；

以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐，改变原gmm-hmm模型的状态输出概率，得到基于深度信念网络的dnn-hmm模型；

利用所述基于深度信念网络的dnn-hmm模型进行语音识别。

2.如权利要求1所述的语音识别方法，其特征在于，步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括：

训练所述输入信息的第一层受限玻尔兹曼机；

3.如权利要求2所述的语音识别方法，其特征在于，所述“每帧音频及其前后若干帧音频”具体包括：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

4.如权利要求2所述的语音识别方法，其特征在于，步骤“训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机”具体包括：

5.如权利要求1或2所述的语音识别方法，其特征在于，所述“预设采样参数以及预设格式”具体包括：

采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。

6.如权利要求5所述的语音识别方法，其特征在于，所述“预设采样参数以及预设格式”具体为：

采样率为16000Hz、采样位数为16位、单声道的wav格式。

7.一种语音识别装置，其特征在于，包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元；

所述第一建模单元用于训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率；

所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络，并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐，改变原gmm-hmm模型的状态输出概率，得到基于深度信念网络的dnn-hmm模型；

8.如权利要求7所述的语音识别装置，其特征在于，第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括：

训练所述输入信息的第一层受限玻尔兹曼机；

对顶层受限玻尔兹曼机，结合带分类标签的训练数据进行训练，并得到初始化的深度信念网络。

9.如权利要求8所述的语音识别装置，其特征在于，所述“每帧音频及其前后若干帧音频”具体包括：

每帧音频及其前4帧和后4帧音频；

每帧音频及其前5帧和后5帧音频；

每帧音频及其前4帧和后5帧音频；或

每帧音频及其前5帧和后4帧音频。

10.如权利要求8所述的语音识别装置，其特征在于，第二建模单元训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机具体包括：

11.如权利要求7或8所述的语音识别装置，其特征在于，所述“预设采样参数以及预设格式”具体包括：

采样率为8000、16000或22050Hz；

采样位数为8位、16位或24位；

单声道的wav格式或mp3格式。

12.如权利要求11所述的语音识别装置，其特征在于，所述“预设采样参数以及预设格式”具体为：

采样率为16000Hz、采样位数为16位、单声道的wav格式。