CN109065021B

CN109065021B - 基于条件深度卷积生成对抗网络的端到端方言辨识方法

Info

Publication number: CN109065021B
Application number: CN201811212731.7A
Authority: CN
Inventors: 张秋显; 顾明亮; 马勇; 申影利
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2023-04-18
Anticipated expiration: 2038-10-18
Also published as: CN109065021A

Abstract

本发明公开了一种基于条件深度卷积生成对抗网络的端到端方言辨识方法，包括：分别获取多种方言的语音数据以生成训练集和测试集；将训练集和测试集转化为样本语谱图；建立条件深度卷积生成对抗网络，其中，条件深度卷积生成对抗网络包括生成器和判别器；对样本语谱图加以扩展条件，并将包含扩展条件的样本语谱图和噪声输入生成器，利用生成器中的卷积层进行特征提取加上条件辅助训练；将训练好的条件深度卷积生成对抗网络中的判别器抽取出来，输入样本语谱图和生成器生成的样本，利用该判别器中的卷积层提取深层次非线性特征，从而进行语谱图的相似性判断，并输出判断结果；将判断结果输入最终分类器，以得到测试集中的方言类别。

Description

基于条件深度卷积生成对抗网络的端到端方言辨识方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于条件深度卷积生成对抗网络(CDCGAN，Conditional Deep convolutional Generative Adversarial Networks)的端到端方言辨识方法。

背景技术

随着科技的不断进步，人类社会加速步入“智能化时代”。语音识别也是智能信息处理的主要技术之一。语音识别被视为人机交互的入口，也是我们生活中接触最多的语音技术。语音识别的进步代表着机器的听力发展，是人工智能的重要一步。然而，中国是一个多民族、多语言的国家，方言则是语音识别中面临的一个巨大的挑战。汉语方言包括吴、粤、闽、湘、赣、客家及官话(北方)共七大方言区。由于千百次的战乱迁徙、文化渗透等原因，各地方言发音规律不尽相同，每个方言大区内，可再分出若干片区(称次方言)。方言辨识开始于20世纪70年代，它是一种使用计算机自动识别说话者声音的方言类别属性，并返回区域信息的语音处理技术，是多语言智能语音系统不可或缺的关键部分之一。同时，构建汉语方言辨识系统在公共安全、国防军事、信息服务、语言工程等诸多领域均有重要的应用价值。

发明内容

本发明旨在至少在一定程度上解决如何方便准确地辨识方言的技术问题。为此，本发明的目的在于提出一种基于条件深度卷积生成对抗网络的端到端方言辨识方法，能够提高方言识别的准确率。

为达到上述目的，本发明提出了一种基于条件深度卷积生成对抗网络的端到端方言辨识方法，包括：分别获取多种方言的语音数据以生成训练集和测试集；将所述训练集和测试集转化为样本语谱图；建立条件深度卷积生成对抗网络，其中，所述条件深度卷积生成对抗网络包括生成器和判别器；对所述样本语谱图加以扩展条件，并将包含所述扩展条件的样本语谱图和噪声输入所述生成器，利用所述生成器中的卷积层进行特征提取加上条件辅助训练；将训练好的条件深度卷积生成对抗网络中的判别器抽取出来，输入所述样本语谱图和所述生成器生成的样本，利用该判别器中的卷积层提取深层次非线性特征，从而进行语谱图的相似性判断，并输出判断结果；将所述判断结果输入最终分类器，以得到所述测试集中的方言类别。

根据本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法，通过分别获取多种方言的语音数据以生成训练集和测试集，将训练集和测试集转化为样本语谱图，并建立条件深度卷积生成对抗网络，以及将包含扩展条件的样本语谱图和噪声输入条件深度卷积生成对抗网络的生成器，再将训练好的条件深度卷积生成对抗网络中的判别器抽取出来，输入样本语谱图和生成器生成的样本，然后将该判别器输出的判决结果输入最终分类器，实现方言类别的辨识，由此，通过条件深度卷积生成对抗网络，基于其条件扩展，可加入类别信息，基于其卷积神经网络可提取非线性的方言信息，基于其生成对抗网络可进行数据扩充，即生成与原方言分布类似的数据，增加训练数据，能够更充分地提取特征，从而能够提高方言识别的准确率。

另外，根据本发明上述实施例提出的基于条件深度卷积生成对抗网络的端到端方言辨识方法还可以具有如下附加的技术特征：

所述训练集和所述测试集中的语音数据以16000Hz采样得到，以16比特量化的PCM(Pulse Code Modulation，脉冲编码调制)格式存储。

将所述训练集和测试集转化为样本语谱图，具体包括：将所述训练集和所述测试集中的语音数据统一转化为.wav形式的音频文件存储；使用python，采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图，去除空白边缘，将图片大小设置为227×227，以得到所述样本语谱图。

所述条件深度卷积生成对抗网络中的参数遵循以下函数：

其中，D(x)表示的是x通过判别器D之后判别来自真实数据的概率；p_data(x)是真实数据x的分布；p_z(z)是随机噪声分布；D(G(z|c))是随机噪声联合条件c输入生成器G产生的生成样本，通过判别器D判断其为真实数据的概率。

所述条件深度卷积生成对抗网络还具有如下特点：在所述判别器中，所有的池化层使用步幅卷积，在所述生成器中使用微步幅卷积；在所述生成器和所述判别器中使用批量标准归一化；对于深层次的网络去掉全连接隐藏层；所述生成器中所有层都使用ReLU激活函数，输出层使用Tanh激活函数；所述判别器中所有层使用LeakyReLU激活函数。

所述扩展条件包括类别标签。

所述最终分类器为softmax分类器。

附图说明

图1为根据本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法的流程图；

图2为根据本发明一个实施例的条件深度卷积生成对抗网络的结构及方言辨识流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面结合附图来描述本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法。

如图1所示，本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法，包括以下步骤：

S1，分别获取多种方言的语音数据以生成训练集和测试集。

在本发明的一个具体实施例中，语音数据可来源于汉语方言区的6种方言，具体为长沙话、河北话、南昌话、上海话、闽南话和客家话。每种方言平均包含6小时的朗读风格语音数据，覆盖40个说话人。语音数据由各个型号的智能手机采集，录制环境包含安静环境和噪声环境。训练集和测试集中的语音数据以16000Hz采样得到，以16比特量化的PCM格式存储。其中，训练集中每种方言有6000句语音，包含30个说话人，其中15名男性和15名女性，每个说话人200句语音；测试集中每种方言包含5个说话人，其中3名女性和2名男性。

S2，将训练集和测试集转化为样本语谱图。

具体地，可将训练集和测试集中的语音数据统一转化为.wav形式的音频文件存储，然后使用python，采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图，去除空白边缘，将图片大小设置为227×227，以得到样本语谱图。

S3，建立条件深度卷积生成对抗网络，其中，条件深度卷积生成对抗网络包括生成器和判别器。

其中，生成器G用于捕获数据分布，判别器D用于估计样本来自训练集而非生成器G的概率。G和D都可以是非线性映射函数，例如多层感知器。

在本发明的一个实施例中，条件深度卷积生成对抗网络中的参数遵循以下函数：

并且，条件深度卷积生成对抗网络还具有如下特点：在判别器中，所有的池化层使用步幅卷积，在生成器中使用微步幅卷积；在生成器和判别器中使用批量标准归一化；对于深层次的网络去掉全连接隐藏层；生成器中所有层都使用ReLU激活函数，输出层使用Tanh激活函数；判别器中所有层使用LeakyReLU激活函数。

在本发明的其他实施例中，步骤S3可在步骤S1之前执行。

S4，对样本语谱图加以扩展条件，并将包含扩展条件的样本语谱图和噪声输入生成器，利用生成器中的卷积层进行特征提取加上条件辅助训练。

在本发明的一个实施例中，扩展条件包括类别标签。如图2所示，将包含扩展条件的样本语谱图c(Xrea_l)和噪声z(noise)输入条件深度卷积生成对抗网络的生成器G，利用卷积层进行特征提取，通过生成器G生成样本Xfake。

S5，将训练好的条件深度卷积生成对抗网络中的判别器抽取出来，输入样本语谱图和生成器生成的样本，利用该判别器中的卷积层提取深层次非线性特征，从而进行语谱图的相似性判断，并输出判断结果。

如图2所示，可进一步将通过步骤S2得到的真实的样本语谱图Xreal和生成器G生成的样本Xfake输入训练好的条件深度卷积生成对抗网络的判别器D，利用其卷积层提取深层次非线性特征，从而判断进行特征提取后的语谱图是否接近于真实样本。其中，生成器G中可采用反卷积，判别器D中可采用卷积。

S6，将判断结果输入最终分类器，以得到测试集中的方言类别。

在本发明的一个实施例中，如图2所示，最终分类器可为softmax分类器。

其中，softmax分类器输出的Real/Fake分别表示的是通过该分类器辨别是真实数据还是通过条件深度卷积生成对抗网络生成的假数据。除了Real/Fake输出之外，softmax分类器输出的对应于类标签的k类标签{k1，k2，...}可用于分类优化。

上述步骤S5中输入判别器的语谱图不再加上类别标签，从而可避免在分类器进行分类时因类别标签而影响识别结果。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，包括：

分别获取多种方言的语音数据以生成训练集和测试集；

将所述训练集和测试集转化为样本语谱图；

建立条件深度卷积生成对抗网络，其中，所述条件深度卷积生成对抗网络包括生成器和判别器；

对所述样本语谱图加以扩展条件，并将包含所述扩展条件的样本语谱图和噪声输入所述生成器，利用所述生成器中的卷积层进行特征提取加上扩展条件辅助训练；

将训练好的条件深度卷积生成对抗网络中的判别器抽取出来，输入所述样本语谱图和所述生成器生成的样本，利用该判别器中的卷积层提取深层次非线性特征，从而进行语谱图的相似性判断，并输出判断结果；

将所述判断结果输入最终分类器，以得到所述测试集中的方言类别。

2.根据权利要求1所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，所述训练集和所述测试集中的语音数据以16000Hz采样得到，以16比特量化的PCM格式存储。

3.根据权利要求2所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，将所述训练集和测试集转化为样本语谱图，具体包括：

将所述训练集和所述测试集中的语音数据统一转化为.wav形式的音频文件存储；

使用python，采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图，去除空白边缘，将图片大小设置为227×227，以得到所述样本语谱图。

4.根据权利要求3所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，所述条件深度卷积生成对抗网络中的参数遵循以下函数：

5.根据权利要求4所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，所述条件深度卷积生成对抗网络还具有如下特点：

在所述判别器中，所有的池化层使用步幅卷积，在所述生成器中使用微步幅卷积；

在所述生成器和所述判别器中使用批量标准归一化；

对于深层次的网络去掉全连接隐藏层；

所述生成器中所有层都使用ReLU激活函数，输出层使用Tanh激活函数；

所述判别器中所有层使用LeakyReLU激活函数。

6.根据权利要求5所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，所述扩展条件包括类别标签。

7.根据权利要求6所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法，其特征在于，所述最终分类器为softmax分类器。