CN109065021B - 基于条件深度卷积生成对抗网络的端到端方言辨识方法 - Google Patents

基于条件深度卷积生成对抗网络的端到端方言辨识方法 Download PDF

Info

Publication number
CN109065021B
CN109065021B CN201811212731.7A CN201811212731A CN109065021B CN 109065021 B CN109065021 B CN 109065021B CN 201811212731 A CN201811212731 A CN 201811212731A CN 109065021 B CN109065021 B CN 109065021B
Authority
CN
China
Prior art keywords
countermeasure network
generator
conditional
discriminator
deep convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811212731.7A
Other languages
English (en)
Other versions
CN109065021A (zh
Inventor
张秋显
顾明亮
马勇
申影利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN201811212731.7A priority Critical patent/CN109065021B/zh
Publication of CN109065021A publication Critical patent/CN109065021A/zh
Application granted granted Critical
Publication of CN109065021B publication Critical patent/CN109065021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于条件深度卷积生成对抗网络的端到端方言辨识方法,包括:分别获取多种方言的语音数据以生成训练集和测试集;将训练集和测试集转化为样本语谱图;建立条件深度卷积生成对抗网络,其中,条件深度卷积生成对抗网络包括生成器和判别器;对样本语谱图加以扩展条件,并将包含扩展条件的样本语谱图和噪声输入生成器,利用生成器中的卷积层进行特征提取加上条件辅助训练;将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入样本语谱图和生成器生成的样本,利用该判别器中的卷积层提取深层次非线性特征,从而进行语谱图的相似性判断,并输出判断结果;将判断结果输入最终分类器,以得到测试集中的方言类别。

Description

基于条件深度卷积生成对抗网络的端到端方言辨识方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于条件深度卷积生成对抗网络(CDCGAN,Conditional Deep convolutional Generative Adversarial Networks)的端到端方言辨识方法。
背景技术
随着科技的不断进步,人类社会加速步入“智能化时代”。语音识别也是智能信息处理的主要技术之一。语音识别被视为人机交互的入口,也是我们生活中接触最多的语音技术。语音识别的进步代表着机器的听力发展,是人工智能的重要一步。然而,中国是一个多民族、多语言的国家,方言则是语音识别中面临的一个巨大的挑战。汉语方言包括吴、粤、闽、湘、赣、客家及官话(北方)共七大方言区。由于千百次的战乱迁徙、文化渗透等原因,各地方言发音规律不尽相同,每个方言大区内,可再分出若干片区(称次方言)。方言辨识开始于20世纪70年代,它是一种使用计算机自动识别说话者声音的方言类别属性,并返回区域信息的语音处理技术,是多语言智能语音系统不可或缺的关键部分之一。同时,构建汉语方言辨识系统在公共安全、国防军事、信息服务、语言工程等诸多领域均有重要的应用价值。
发明内容
本发明旨在至少在一定程度上解决如何方便准确地辨识方言的技术问题。为此,本发明的目的在于提出一种基于条件深度卷积生成对抗网络的端到端方言辨识方法,能够提高方言识别的准确率。
为达到上述目的,本发明提出了一种基于条件深度卷积生成对抗网络的端到端方言辨识方法,包括:分别获取多种方言的语音数据以生成训练集和测试集;将所述训练集和测试集转化为样本语谱图;建立条件深度卷积生成对抗网络,其中,所述条件深度卷积生成对抗网络包括生成器和判别器;对所述样本语谱图加以扩展条件,并将包含所述扩展条件的样本语谱图和噪声输入所述生成器,利用所述生成器中的卷积层进行特征提取加上条件辅助训练;将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入所述样本语谱图和所述生成器生成的样本,利用该判别器中的卷积层提取深层次非线性特征,从而进行语谱图的相似性判断,并输出判断结果;将所述判断结果输入最终分类器,以得到所述测试集中的方言类别。
根据本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法,通过分别获取多种方言的语音数据以生成训练集和测试集,将训练集和测试集转化为样本语谱图,并建立条件深度卷积生成对抗网络,以及将包含扩展条件的样本语谱图和噪声输入条件深度卷积生成对抗网络的生成器,再将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入样本语谱图和生成器生成的样本,然后将该判别器输出的判决结果输入最终分类器,实现方言类别的辨识,由此,通过条件深度卷积生成对抗网络,基于其条件扩展,可加入类别信息,基于其卷积神经网络可提取非线性的方言信息,基于其生成对抗网络可进行数据扩充,即生成与原方言分布类似的数据,增加训练数据,能够更充分地提取特征,从而能够提高方言识别的准确率。
另外,根据本发明上述实施例提出的基于条件深度卷积生成对抗网络的端到端方言辨识方法还可以具有如下附加的技术特征:
所述训练集和所述测试集中的语音数据以16000Hz采样得到,以16比特量化的PCM(Pulse Code Modulation,脉冲编码调制)格式存储。
将所述训练集和测试集转化为样本语谱图,具体包括:将所述训练集和所述测试集中的语音数据统一转化为.wav形式的音频文件存储;使用python,采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图,去除空白边缘,将图片大小设置为227×227,以得到所述样本语谱图。
所述条件深度卷积生成对抗网络中的参数遵循以下函数:
Figure BDA0001832793460000031
其中,D(x)表示的是x通过判别器D之后判别来自真实数据的概率;pdata(x)是真实数据x的分布;pz(z)是随机噪声分布;D(G(z|c))是随机噪声联合条件c输入生成器G产生的生成样本,通过判别器D判断其为真实数据的概率。
所述条件深度卷积生成对抗网络还具有如下特点:在所述判别器中,所有的池化层使用步幅卷积,在所述生成器中使用微步幅卷积;在所述生成器和所述判别器中使用批量标准归一化;对于深层次的网络去掉全连接隐藏层;所述生成器中所有层都使用ReLU激活函数,输出层使用Tanh激活函数;所述判别器中所有层使用LeakyReLU激活函数。
所述扩展条件包括类别标签。
所述最终分类器为softmax分类器。
附图说明
图1为根据本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法的流程图;
图2为根据本发明一个实施例的条件深度卷积生成对抗网络的结构及方言辨识流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面结合附图来描述本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法。
如图1所示,本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法,包括以下步骤:
S1,分别获取多种方言的语音数据以生成训练集和测试集。
在本发明的一个具体实施例中,语音数据可来源于汉语方言区的6种方言,具体为长沙话、河北话、南昌话、上海话、闽南话和客家话。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。语音数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。训练集和测试集中的语音数据以16000Hz采样得到,以16比特量化的PCM格式存储。其中,训练集中每种方言有6000句语音,包含30个说话人,其中15名男性和15名女性,每个说话人200句语音;测试集中每种方言包含5个说话人,其中3名女性和2名男性。
S2,将训练集和测试集转化为样本语谱图。
具体地,可将训练集和测试集中的语音数据统一转化为.wav形式的音频文件存储,然后使用python,采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图,去除空白边缘,将图片大小设置为227×227,以得到样本语谱图。
S3,建立条件深度卷积生成对抗网络,其中,条件深度卷积生成对抗网络包括生成器和判别器。
其中,生成器G用于捕获数据分布,判别器D用于估计样本来自训练集而非生成器G的概率。G和D都可以是非线性映射函数,例如多层感知器。
在本发明的一个实施例中,条件深度卷积生成对抗网络中的参数遵循以下函数:
Figure BDA0001832793460000051
其中,D(x)表示的是x通过判别器D之后判别来自真实数据的概率;pdata(x)是真实数据x的分布;pz(z)是随机噪声分布;D(G(z|c))是随机噪声联合条件c输入生成器G产生的生成样本,通过判别器D判断其为真实数据的概率。
并且,条件深度卷积生成对抗网络还具有如下特点:在判别器中,所有的池化层使用步幅卷积,在生成器中使用微步幅卷积;在生成器和判别器中使用批量标准归一化;对于深层次的网络去掉全连接隐藏层;生成器中所有层都使用ReLU激活函数,输出层使用Tanh激活函数;判别器中所有层使用LeakyReLU激活函数。
在本发明的其他实施例中,步骤S3可在步骤S1之前执行。
S4,对样本语谱图加以扩展条件,并将包含扩展条件的样本语谱图和噪声输入生成器,利用生成器中的卷积层进行特征提取加上条件辅助训练。
在本发明的一个实施例中,扩展条件包括类别标签。如图2所示,将包含扩展条件的样本语谱图c(Xreal)和噪声z(noise)输入条件深度卷积生成对抗网络的生成器G,利用卷积层进行特征提取,通过生成器G生成样本Xfake。
S5,将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入样本语谱图和生成器生成的样本,利用该判别器中的卷积层提取深层次非线性特征,从而进行语谱图的相似性判断,并输出判断结果。
如图2所示,可进一步将通过步骤S2得到的真实的样本语谱图Xreal和生成器G生成的样本Xfake输入训练好的条件深度卷积生成对抗网络的判别器D,利用其卷积层提取深层次非线性特征,从而判断进行特征提取后的语谱图是否接近于真实样本。其中,生成器G中可采用反卷积,判别器D中可采用卷积。
S6,将判断结果输入最终分类器,以得到测试集中的方言类别。
在本发明的一个实施例中,如图2所示,最终分类器可为softmax分类器。
其中,softmax分类器输出的Real/Fake分别表示的是通过该分类器辨别是真实数据还是通过条件深度卷积生成对抗网络生成的假数据。除了Real/Fake输出之外,softmax分类器输出的对应于类标签的k类标签{k1,k2,...}可用于分类优化。
上述步骤S5中输入判别器的语谱图不再加上类别标签,从而可避免在分类器进行分类时因类别标签而影响识别结果。
根据本发明实施例的基于条件深度卷积生成对抗网络的端到端方言辨识方法,通过分别获取多种方言的语音数据以生成训练集和测试集,将训练集和测试集转化为样本语谱图,并建立条件深度卷积生成对抗网络,以及将包含扩展条件的样本语谱图和噪声输入条件深度卷积生成对抗网络的生成器,再将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入样本语谱图和生成器生成的样本,然后将该判别器输出的判决结果输入最终分类器,实现方言类别的辨识,由此,通过条件深度卷积生成对抗网络,基于其条件扩展,可加入类别信息,基于其卷积神经网络可提取非线性的方言信息,基于其生成对抗网络可进行数据扩充,即生成与原方言分布类似的数据,增加训练数据,能够更充分地提取特征,从而能够提高方言识别的准确率。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,包括:
分别获取多种方言的语音数据以生成训练集和测试集;
将所述训练集和测试集转化为样本语谱图;
建立条件深度卷积生成对抗网络,其中,所述条件深度卷积生成对抗网络包括生成器和判别器;
对所述样本语谱图加以扩展条件,并将包含所述扩展条件的样本语谱图和噪声输入所述生成器,利用所述生成器中的卷积层进行特征提取加上扩展条件辅助训练;
将训练好的条件深度卷积生成对抗网络中的判别器抽取出来,输入所述样本语谱图和所述生成器生成的样本,利用该判别器中的卷积层提取深层次非线性特征,从而进行语谱图的相似性判断,并输出判断结果;
将所述判断结果输入最终分类器,以得到所述测试集中的方言类别。
2.根据权利要求1所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,所述训练集和所述测试集中的语音数据以16000Hz采样得到,以16比特量化的PCM格式存储。
3.根据权利要求2所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,将所述训练集和测试集转化为样本语谱图,具体包括:
将所述训练集和所述测试集中的语音数据统一转化为.wav形式的音频文件存储;
使用python,采用自动短时傅里叶变换specgram函数直接绘制音频文件的彩色语谱图,去除空白边缘,将图片大小设置为227×227,以得到所述样本语谱图。
4.根据权利要求3所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,所述条件深度卷积生成对抗网络中的参数遵循以下函数:
Figure FDA0004048357310000021
其中,D(x)表示的是x通过判别器D之后判别来自真实数据的概率;pdata(x)是真实数据x的分布;pz(z)是随机噪声分布;D(G(z|c))是随机噪声联合条件c输入生成器G产生的生成样本,通过判别器D判断其为真实数据的概率。
5.根据权利要求4所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,所述条件深度卷积生成对抗网络还具有如下特点:
在所述判别器中,所有的池化层使用步幅卷积,在所述生成器中使用微步幅卷积;
在所述生成器和所述判别器中使用批量标准归一化;
对于深层次的网络去掉全连接隐藏层;
所述生成器中所有层都使用ReLU激活函数,输出层使用Tanh激活函数;
所述判别器中所有层使用LeakyReLU激活函数。
6.根据权利要求5所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,所述扩展条件包括类别标签。
7.根据权利要求6所述的基于条件深度卷积生成对抗网络的端到端方言辨识方法,其特征在于,所述最终分类器为softmax分类器。
CN201811212731.7A 2018-10-18 2018-10-18 基于条件深度卷积生成对抗网络的端到端方言辨识方法 Active CN109065021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811212731.7A CN109065021B (zh) 2018-10-18 2018-10-18 基于条件深度卷积生成对抗网络的端到端方言辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811212731.7A CN109065021B (zh) 2018-10-18 2018-10-18 基于条件深度卷积生成对抗网络的端到端方言辨识方法

Publications (2)

Publication Number Publication Date
CN109065021A CN109065021A (zh) 2018-12-21
CN109065021B true CN109065021B (zh) 2023-04-18

Family

ID=64765041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811212731.7A Active CN109065021B (zh) 2018-10-18 2018-10-18 基于条件深度卷积生成对抗网络的端到端方言辨识方法

Country Status (1)

Country Link
CN (1) CN109065021B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
CN110085203A (zh) * 2019-04-18 2019-08-02 东华大学 一种基于对偶生成对抗网络的音乐风格融合方法
CN110136731B (zh) * 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110619885B (zh) * 2019-08-15 2022-02-11 西北工业大学 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110675881B (zh) * 2019-09-05 2021-02-19 北京捷通华声科技股份有限公司 一种语音校验方法和装置
CN110718232B (zh) * 2019-09-23 2020-08-18 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN110808057A (zh) * 2019-10-31 2020-02-18 南昌航空大学 一种基于约束朴素生成对抗网络的语音增强方法
CN111369498B (zh) * 2020-02-19 2022-06-28 浙江大学城市学院 基于改进生成对抗网络的种苗生长势评估的数据增强方法
CN111477247B (zh) * 2020-04-01 2023-08-11 宁波大学 基于gan的语音对抗样本生成方法
CN111724770B (zh) * 2020-05-19 2022-04-01 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112331232B (zh) * 2020-11-06 2022-08-12 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112951213B (zh) * 2021-02-09 2022-05-24 中国科学院自动化研究所 端到端的在线语音检测与识别方法、系统及设备
CN113643695B (zh) * 2021-09-08 2024-03-08 浙江力石科技股份有限公司 方言口音普通话的语音识别优化方法及系统
CN113724700B (zh) * 2021-10-20 2022-08-12 合肥讯飞数码科技有限公司 语种识别、语种识别模型训练方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514879A (zh) * 2013-09-18 2014-01-15 广东欧珀移动通信有限公司 一种基于bp神经网络的本地语音识别方法
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
CN104464724A (zh) * 2014-12-08 2015-03-25 南京邮电大学 一种针对刻意伪装语音的说话人识别方法
CN108170735A (zh) * 2017-12-15 2018-06-15 东南大学 一种适用于卷积神经网络的方言数据库建立方法
CN108304890B (zh) * 2018-03-16 2021-06-08 科大讯飞股份有限公司 一种分类模型的生成方法及装置

Also Published As

Publication number Publication date
CN109065021A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109065021B (zh) 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN109213856A (zh) 一种语义识别方法及系统
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN113128284A (zh) 一种多模态情感识别方法和装置
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN111680120B (zh) 新闻类别检测方法及系统
CN117078942A (zh) 上下文感知的指称图像分割方法、系统、设备及存储介质
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
CN116010545A (zh) 一种数据处理方法、装置及设备
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN112071304B (zh) 一种语意分析方法及装置
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant