CN109065032B

CN109065032B - 一种基于深度卷积神经网络的外部语料库语音识别方法

Info

Publication number: CN109065032B
Application number: CN201810777097.5A
Authority: CN
Inventors: 傅啸; 张桂军
Original assignee: Hangzhou Dianzi University
Current assignee: Beijing Hehong Yingke Technology Co.,Ltd.
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2020-09-22
Anticipated expiration: 2038-07-16
Also published as: CN109065032A

Abstract

本发明公开了一种基于深度卷积神经网络的外部语料库语音识别方法。本发明具体实现如下：步骤1、获取语音标注数据和互联网语料库；步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗；步骤3、对语音标注数据进行特征抽取和标准化；步骤4、构建神经网络模型步骤5、将待测试的语音数据输入构建的神经网络模型，完成识别后输出识别文本数据。本发明能够根据语音信号数据，构建深度卷积、条件随机场模型，与一般的深度学习模型相比，需要更少的标记语音数据，同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率，提升句子识别精度。同时本发明将两个过程融为一体，实现了端到端的语音识别方法。

Description

一种基于深度卷积神经网络的外部语料库语音识别方法

技术领域

本发明涉及语音信号处理领域，特别是涉及一种基于深度卷积神经网络的外部语料库语音识别方法。

背景技术

目前语音识别的方法主要有两大类：端到端的语音识别、基于声学模型和语言模型的两段式识别模型。其中，端到端的语音识别是根据大规模的语音标注数据进行训练，输入为语音信号，输出为语音对应的文本。该方法的优点为端到端的识别系统，不需要人工专家设计业务规则，充分利用大规模的数据优势和深度模型的特征学习能力。但是，缺点是需要庞大的训练数据支持，此类方法中经常需要上万小时的语音数据，并且在不同的业务场景需要不同的数据集进行重新训练。

在基于声学模型和语言模型的识别系统中声学模型的任务是计算给定文字后发出语音的概率，通过声学模型把语音转化成音素序列。语言模型的任务是根据发音找到最合理的文字序列，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。该方法的优点是利用了语音信号和音素、语素、文字之间的规则，从而可以利用更少的数据训练声学模型。然后基于大量的无标注文本数据集训练语言模型，减少了标注成本，同时也通过人工经验保证模型的正确性。但是，缺点是基于声学模型和语言模型的两段式识别模型是串联的两阶段分离训练，使得语言模型并没有使用到原始语音信号特征，不能得到最优解。

发明内容

本发明旨在解决上述技术问题。

本发明的目的在于针对现有语音识别系统的不足，提出一种基于深度卷积神经网络的外部语料库语音识别方法，该方法结合已标注的语音数据集和无标注的特定场景语料库能够准确的识别语音信号对应的文字。并且，根据不同的场景，搭配不同的语料库，在语料库相适应的场景中具有识别精度高，需求标记数据少的优点。

本发明的另一个优点在于提出一种基于深度卷积神经网络的端到端的语音识别系统。

为了实现上述目的，本发明的一方面实例公开了基于深度卷积神经网络和外部语料库的端到端语音识别方法，包括以下步骤：

步骤1、获取语音标注数据和互联网语料库

1-1.所述的语音标注数据为一段话的录音数据，通过人工提取的方式对语音标注数据进行解析，获取该语音标注数据对应的汉字序列、拼音序列和音素序列；

1-2.每个汉字都有拼音，而一个拼音可能对应多个汉字；具体的:将一个拼音拆分成声母和韵母；同理的，再将声韵母拆分成音素，多个音素对应一个声韵母；

1-3.获取该语音标注数据时，必须符合如下约束：

首先，根据语音信号数据，标注对应的汉字序列数据；

然后，对汉字序列进行逐字注音；

最后，将每个拼音拆分成音素；

其中，语音信号数据为输入数据，汉字序列，拼音序列、音素序列为输出数据；

所述的互联网语料库为现有的公开的数据库,例如wiki中文语料库；

步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗；

步骤3、对语音标注数据进行特征抽取和标准化；

步骤4、构建神经网络模型

步骤5、将待测试的语音数据输入构建的神经网络模型，完成识别后输出识别文本数据。

步骤2所述的利用语音信号数据的平均能量对该语音信号数据进行清洗，具体实现如下：

2-1.计算语音标注数据的平均能量，语音标注数据的平均能量的计算公式；

其中，x为语音信号数据，x(m)为语音信号数据的第m个采样点，实验中采样率n使用16000；N为窗大小，实验中取值为320；

2-2.清洗语音标注数据信号中的静音部分。

步骤3所述的对语音标注数据进行特征抽取和标准化，具体实现如下：

3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作，计算梅尔频率倒谱系数特征；对当前帧中M个点的mfcc特征进行描述并整合，将整合后的描述集合作为为当前帧的mfcc特征集；

3-2.再将当前帧的前三帧和后三帧的mfcc特征集进行组合，组合生成当前帧的基本特征；

3-3.由于mfcc特征的数值差异大，因此需要对训练集中的每一个基本特征计算其均值和方差，并对每一个基本特征进行标准化，具体实现如下：

其中，f_t,i表示第i个基本特征在t时刻的取值；

为第i个基本特征在所有时刻上的均值；σ_i表示第i个基本特征在所有时刻上的方差；

为第i个基本特征标准化后在t时刻的取值。

步骤3所述的M为40。

步骤4所述的构建神经网络模型，具体实现如下：

所需构建的神经网络模型：维数为40*7的输入块，由特征数为27，54，108构成的3层卷积块、步长为2的最大值池化，特征数为108，216的2层卷积块；

所述卷积块为1*3,3*1,1*5,5*1，1*1等二维卷积构成；由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块；由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块；

将构建的神经网络模型采用leaky relu激活函数，静态特征提取块和时序特征提取块中的各层均有res连接，加速训练速度。

本发明在构建模型的时候采用基于条件随机场和概率统计的算法，根据所述的模型输入训练集和所述的深度卷积神经网络模型及互联网语料库，根据所述模型的识别结果，进一步的包括：

基于大规模的互联语料库，统计词频、计算每一个词的上下文，和深度卷积神经网络提取的特征构建条件随机场模型，完成句子级别的识别。

本发明有益效果如下：

本发明能够根据语音信号数据，构建深度卷积、条件随机场模型，与一般的深度学习模型相比，需要更少的标记语音数据，同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率，提升句子识别精度。相比通过声学模型和语言模型的经典语音识别方法，本发明将两个过程融为一体，实现了端到端的语音识别方法，并且相比于两个分离的系统，端到端的语音识别系统取得了更高的识别精度。

附图说明

图1是本发明端到端的语音识别的流程图；

图2是发明特征提取块的卷积层结构示意图；

图3是本发明端到端的语音识别的框架图。

具体实施方法

下面结合附图对本发明作进一步说明。

如图1-3所示，一种基于深度卷积神经网络的外部语料库语音识别方法，其具体实现包括如下步骤：

步骤1、获取语音标注数据和互联网语料库

1-1所述的语音标注数据为一段话的录音数据，通过人工提取的方式对语音标注数据进行解析，获取该语音标注数据对应的汉字序列、拼音序列和音素序列。

1-2每个汉字都有拼音，而一个拼音可能对应多个汉字。具体的:将一个拼音拆分成声母和韵母。同理的，再将声韵母拆分成音素，多个音素对应一个声韵母。

1-3获取该语音标注数据时，必须符合如下约束：

首先，根据语音信号数据，标注对应的汉字序列数据；

然后，对汉字序列进行逐字注音；

最后，将每个拼音拆分成音素。

其中语音信号数据为输入数据，汉字序列，拼音序列、音素序列为输出数据。

所述的互联网语料库为现有的公开的数据库,例如wiki中文语料库。

步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗。

2-1计算语音标注数据的平均能量，语音标注数据的平均能量的计算公式；

其中，x为语音信号数据，x(m)为语音信号数据的第m个采样点，实验中采样率n使用16000；N为窗大小，实验中取值为320。

2-2.清洗语音标注数据信号中的静音部分。

步骤3、对语音标注数据进行特征抽取和标准化；

3-1.对清洗后的语音标注数据进行预加重、分帧、加窗等操作，计算梅尔频率倒谱系数特征(mfcc)，对当前帧中M个点的mfcc特征进行描述并整合，将整合后的描述集合作为为当前帧的mfcc特征集；所述的M优选为40；

3-2.再将当前帧的前三帧和后三帧的mfcc特征集进行组合，组合生成当前帧的基本特征。

3-3.由于mfcc特征的数值差异较大，因此需要对训练集中的每一个基本特征，计算其均值和方差，并对每一个基本特征进行标准化，具体实现如下：

其中，f_t，i表示第i个基本特征在t时刻的取值。

为第i个基本特征在所有时刻上的均值。σ_i表示第i个基本特征在所有时刻上的方差。

为第i个基本特征标准化后在t时刻的取值。

步骤4、构建神经网络模型

所需构建的神经网络模型：维数为40*7的输入块，由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化，特征数为108,216的2层卷积块。

所述卷积块为1*3,3*1,1*5,5*1，1*1等二维卷积构成，组成方式如图2所示。由特征数为512,512,256，256，256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块，由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块。

Claims

1.一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于包括如下步骤：

步骤1、获取语音标注数据和互联网语料库

1-3.获取该语音标注数据时，必须符合如下约束：

首先，根据语音信号数据，标注对应的汉字序列数据；

然后，对汉字序列进行逐字注音；

最后，将每个拼音拆分成音素；

其中，语音标注数据为输入数据，汉字序列、拼音序列、音素序列为输出数据；

所述的互联网语料库为现有的公开的数据库；

步骤2、利用语音标注数据的平均能量对该语音标注数据进行清洗；

步骤3、对语音标注数据进行特征抽取和标准化；

步骤4、构建神经网络模型；

步骤5、将待测试的语音数据输入构建的神经网络模型，完成识别后输出识别文本数据；

步骤2所述的利用语音标注数据的平均能量对该语音标注数据进行清洗，具体实现如下：

其中，x为语音信号数据，x(m)为语音信号数据的第m个采样点，采样率n使用16000；N为窗大小，取值为320；

2-2.清洗语音标注数据信号中的静音部分；

3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作，计算梅尔频率倒谱系数特征；对当前帧中M个点的梅尔频率倒谱特征进行描述并整合，将整合后的描述集合作为当前帧的梅尔频率倒谱特征集；

3-2.再将当前帧的前三帧和后三帧的梅尔频率倒谱特征集进行组合，组合生成当前帧的基本特征；

3-3.由于梅尔频率倒谱特征的数值差异大，因此需要对训练集中的每一个基本特征计算其均值和方差，并对每一个基本特征进行标准化，具体实现如下：

其中，f_t，i表示第i个基本特征在t时刻的取值；

为第i个基本特征标准化后在t时刻的取值；

步骤4所述的构建神经网络模型，具体实现如下：

所需构建的神经网络模型：维数为40*7的输入块，由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化，特征数为108,216的2层卷积块；

所述卷积块为1*3,3*1,1*5,5*1，1*1二维卷积构成；由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块；由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块；

将构建的神经网络模型采用leaky relu激活函数，静态特征提取块和时序特征提取块中的各层均有resnet残差学习连接，加速训练速度。

2.根据权利要求1所述的一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于步骤3所述的M为40。