CN107293289A - 一种基于深度卷积生成对抗网络的语音生成方法 - Google Patents

一种基于深度卷积生成对抗网络的语音生成方法 Download PDF

Info

Publication number
CN107293289A
CN107293289A CN201710442945.2A CN201710442945A CN107293289A CN 107293289 A CN107293289 A CN 107293289A CN 201710442945 A CN201710442945 A CN 201710442945A CN 107293289 A CN107293289 A CN 107293289A
Authority
CN
China
Prior art keywords
mrow
network
msub
generation
msup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710442945.2A
Other languages
English (en)
Other versions
CN107293289B (zh
Inventor
王伟
王翰林
胡克
魏天远
张璐瑶
高珊
符凡
刘政
朱纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Nanjing Medical University
Original Assignee
Nanjing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Medical University filed Critical Nanjing Medical University
Priority to CN201710442945.2A priority Critical patent/CN107293289B/zh
Publication of CN107293289A publication Critical patent/CN107293289A/zh
Application granted granted Critical
Publication of CN107293289B publication Critical patent/CN107293289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于深度卷积生成对抗网络的语音生成方法,其步骤为:(1)采集语音信号样本;(2)对语音信号样本进行预处理;(3)将语音信号样本输入深度卷积生成对抗网络;(4)对输入的语音信号进行训练;(5)生成接近真实语音内容的语音信号。本发明使用tensorflow作为学习框架,利用深度卷积生成对抗网络算法对大量语音信号进行训练,借助深度卷积生成对抗网络里判别网络D与生成网络G的动态博弈过程,最终生成接近原始学习内容的自然语音信号。本发明基于深度卷积生成对抗网络下生成的语音,可以解决在人机面对面交流过程中智能设备过度依赖固定的语音库来发声,模式单调缺乏变化且不够自然的问题。

Description

一种基于深度卷积生成对抗网络的语音生成方法
技术领域
本发明属于语音生成技术领域,尤其涉及一种基于深度卷积生成对抗网络的语音生成方法。
背景技术
人机交互技术的研究是计算机技术研究领域的重要组成部分。使智能设备具有“说话”的功能,这在真正的“面对面人机交流”中扮演着很重要的角色。借助于语音生成系统,智能设备已经可以清晰、自然地说话,普通用户很容易听懂并接受。语音模仿作为人机语音交流的重要环节,一方面,需要在前期建立大量的语音库,另一方面,需要对大量语音信号的特征提取及训练最终生成接近原始学习内容的自然语音信号。
生成式对抗网络,是一种近年来大热的深度学习模型,其主要就是可以用tensorflow作为学习框架,训练一个生成器G,从随机噪声或者潜在变量中生成逼真的的样本,同时训练一个鉴别器D来鉴别真实数据和生成数据,两者同时训练,利用G和D构成动态“博弈过程”,直到达到一个纳什均衡,生成器生成的数据与真实样本无差别,鉴别器也无法正确的区分生成数据和真实数据。通过基于生成式对抗网络形成的语音信号,从而可以克服目前智能设备在人机对话时只能根据固定的语音库来发声及模式单调缺乏变化,不够自然等缺点。
发明内容
本发明提出了一种基于深度卷积生成对抗网络的语音生成方法,目的在于克服目前智能设备在人机对话时只能根据固定的语音库来发声及模式单调缺乏变化的不足。
本发明实现的具体步骤如下:
步骤1,采集语音信号样本:随机采集M个(M一般取1000)具有相同内容的语音信号,作为语音训练样本和真实语音样本;
步骤2,语音信号的预处理:对步骤1中采集到的M个语音信号进行预处理;
步骤3,将语音数据样本输入深度卷积生成对抗网络:将步骤2中预处理后的M个语音训练样本数据和M个真实语音样本数据输入到深度卷积生成对抗网络;
步骤4,对输入的语音数据进行训练:采用深度卷积生成对抗网络对输入的M个语音训练样本数据和M个真实语音样本数据进行训练;
步骤5,生成接近真实语音内容的语音信号:利用深度卷积对抗生成网络对自回归生成模型得到的波形进行训练,最终生成全新的且接近真实语音样本的语音信号。
步骤1中所述随机采集M个具有相同内容的语音信号,其存储格式为wav格式。
步骤2包括如下步骤:
步骤2-1,对采集的语音信号样本做除杂的处理;
步骤2-2,对采集的语音信号样本进行滤波处理。
步骤2-1包括:利用Audacity软件对采集的语音信号样本进行剪辑,过滤掉原始采集的波形中超出软件编辑范围的语音部分以及非语音信号的部分。
步骤2-2包括如下步骤:
步骤2-2-1,计算n时刻的误差信号ε(n):
其中,d(n)表示n时刻主信道输入的带噪语音信号,即为自适应滤波器的期望信号,主信道表示语音输入的通道,W(n)表示n时刻对应的权重系数矢量,X(n)表示在n时刻的语音矢量,H表示共轭转置;
步骤2-2-2,计算在n时刻的相关系数γ(n):
步骤2-2-3,计算n时刻的语音差异矢量U(n):
U(n)=X(n)-γ(n)X(n-1);
步骤2-2-4,通过如下公式计算迭代后每个时刻对应的权重系数矢量:
其中,μ表示自适应常数,δ>0,δ表示实数;
步骤2-2-5,计算最小方差
其中,n0表示主信道输入的语音信号,v表示主信道输入的噪声,y表示自适应滤波器的输出,ε表示误差信号,w表示某特定时刻自适应滤波器的权重矢量,使得方差最小;
步骤2-2-6,将步骤2-2-4中得到的每个时刻的对应的权重系数矢量分别带入步骤2-2-5的公式中,计算最小方差若该时刻求得的不是最小方差,则通过自适应滤波器调整其下一时刻权重矢量w进行滤波处理,求出最小方差,得到滤波后的语音信号。
步骤4包括如下步骤:
步骤4-1,深度卷积生成对抗网络包括两个网络,一个是生成网络G,用于接收一个随机的噪声;一个是判别网络D,用于判别生成的数据是不是真实的;
步骤4-2,计算生成网络的损失函数:
(1-b)log(1-D(G(z))),
其中,z表示生成网络G接收的一个随机的噪声,b表示在真实语音样本数据输入参数c下得到的输出参数,G(z)表示生成网络G的输出,log表示以10为底对的对数操作,D(G(z))表示判别网络D判断生成网络G生成的语音数据为真实的概率;
步骤4-3,计算判别网络的损失函数:
-((1-b)log(1-D(G(z)))+blogD(c)),
其中,c表示真实语音样本数据作为输入参数,D(c)表示判别网络D的输出,即输入真实语音样本数据参数c为真实的概率;
步骤4-4,计算优化函数min max V(D,G):
其中,pz(z)表示随机噪声的概率密度,x表示真实语音样本数据,pdata(x)表示参数数据的概率密度;
步骤4-5,当判别网络D无法判定生成网络G所生成的语音数据是否真实时,D(G(z))=0.5,得到训练好的语音信号数据,否则,执行步骤4-6;
步骤4-6,利用随机梯度下降法计算判别网络D的梯度函数和生成网络G的梯度函数:
其中,θd表示在判别网络D方向上的梯度变化量,θg表示在生成网络G方向上的梯度变化量,i∈[1,m],m表示生成网络G接收随机噪声的个数,∈表示属于符号,将训练好的判别网络D和生成网络G带入步骤4-4中。
步骤5包括如下步骤:
步骤5-1,计算自回归生成模型:
其中,h表示步骤4中得到训练好的语音样本数据作为输入的参数,p(s|h)表示最有可行的波形输出向量,s(t)表示在时间点t的输出,t∈[1,T],T表示总时间,∈表示属于符号;
步骤5-2,采用步骤4中深度卷积生成对抗网络,对步骤5-1中生成波形进行学习,再经过自回归生成模型不断的反馈及输出,使得每一步当前输出的结果,只与之前的输出结果相关,当满足步骤4-5中D(G(z))=0.5时,最终生成全新的且接近真实语音样本的语音信号。
有益效果:与现有技术相比本发明具有以下优点:
第一,本发明主要优势在于智能设备不需要借助一个死板的语音库来实现人机交流,而是可以通过机器训练,让智能设备可以自主生成全新的语音,从而使智能设备可以清晰、自然地说话,普通用户也很容易听懂并接受。
第二,本发明是基于深度卷积生成对抗网络的语音生成技术,利用判别网络和生成网络所构成的动态“博弈过程”,最终得到语音训练数据,再利用自回归生成模型,将生成的语音波形转化为音频信号,从而生成接近真实语音内容的自然语音信号。本发明可用于根据样本训练后生成的语音完成人与智能设备之间的自然语音交流。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明流程图。
图2是自适应噪声滤波流程图。
图3是实施例生成(“你好”)语音波形图
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
参照图1,对本发明做进一步的详细描述:
步骤1,语音信号样本采集:
随机采集M个具有相同内容的语音信号分别作为语音训练样本和真实语音样本;
步骤2,语音信号的预处理:
(2a)将采集的语音信号做除杂的处理,保留完整的语音信号;
利用Audacity软件对语音信号进行剪辑,过滤掉原始采集的波形中超出软件编辑范围的语音部分以及非语音信号的部分;
(2b)对完整的语音信号进行滤波处理,组成语音训练样本库和真实语音样本库,参照图2,具体步骤如下:
第1步,计算n时刻的误差信号ε(n):
其中,d(n)表示n时刻主信道输入的带噪语音信号,即为自适应滤波器的期望信号,主信道表示语音输入的通道,表示n时刻对应的权重系数矢量,X(n)表示在n时刻的语音矢量,H表示共轭转置;
第2步,计算在n时刻的相关系数γ(n):
第3步,计算n时刻的语音差异矢量U(n):
U(n)=X(n)-γ(n)X(n-1);
第4步,计算迭代后每个时刻的W(n):
其中,μ表示自适应常数,δ>0,δ表示实数,W(n)表示权重系数矢量;
第5步,计算最小方差
其中,n0表示主信道输入的语音信号,v表示主信道输入的噪声,y表示自适应滤波器的输出,ε表示误差信号,w表示某时刻自适应滤波器的权重矢量,使得方差E{ε2}最小;
第6步,将第4步中得到的每个时刻的W(n)分别带入第5步中,计算最小方差若该时刻求得的不是最小方差,则通过自适应滤波器调整其下一时刻权重矢量w进行滤波处理,求出最小方差,得到滤波后的语音信号;
步骤3,将语音数据样本输入深度卷积生成对抗网络;
将步骤2中预处理所得的M个语音训练样本数据和M个真实语音样本数据输入到深度卷积生成对抗网络;
步骤4,对输入的语音数据进行训练;
采用深度卷积生成对抗网络对输入的M个语音训练样本数据和M个真实语音样本数据进行训练,具体步骤如下:
第1步,深度卷积生成对抗网络包括两个网络,一个是生成网络G,用于接收一个随机的噪声;一个是判别网络D,用于判别生成的数据是不是真实的;
第2步,计算生成网络的损失函数:
(1-b)log(1-D(G(z)))
其中,z表示生成网络G接收的一个随机的噪声,b表示第3步中在真实语音样本数据输入参数c下得到的输出参数,G(z)表示生成网络G的输出,log表示以10为底对的对数操作,D(G(z))表示判别网络D判断生成网络G生成的语音数据为真实的概率;
第3步,计算判别网络的损失函数:
-((1-b)log(1-D(G(z)))+blogD(c))
其中,c表示真实语音样本数据作为输入参数,D(c)表示判别网络D的输出,即输入真实语音样本数据参数c为真实的概率;
第4步,计算优化函数min max V(D,G):
其中,pz(z)表示随机噪声的概率密度,x表示真实语音样本数据,pdata(x)表示参数数据的概率密度;
第5步,当判别网络D无法判定生成网络G所生成的语音数据是否真实时,D(G(z))=0.5,得到训练好的语音数据,否则,执行第6步;
第6步,利用随机梯度下降法计算D和G网络的梯度函数:
其中,θd表示在判别网络D方向上的梯度变化量,θg表示在生成网络G方向上的梯度变化量,i∈[1,m],m表示生成网络G接收随机噪声的个数,∈表示属于符号,将训练好的D和G带入第4步中;
步骤5,生成接近真实语音内容的语音信号;
利用深度卷积对抗生成网络对自回归生成模型得到的波形进行训练,最终生成全新的且接近真实语音样本的语音信号,具体步骤如下:
第1步,计算自回归生成模型:
其中,h表示步骤4第5步中得到训练好的语音数据作为输入的参数,p(x|h)表示最有可行的波形输出向量,s(t)表示在时间点t的输出,t∈[1,T],T表示总时间,∈表示属于符号;
第2步,采用步骤4中深度卷积生成对抗网络,对第一步中生成的波形进行学习,再经过自回归生成模型不断的反馈及输出,使得每一步当前输出的结果,只与之前的输出结果相关,当满足步骤4第5步中D(G(z))=0.5时,最终生成全新的且接近真实语音样本的语音信号。
实施例
一种基于深度卷积生成对抗网络的语音生成方法,其主要方法的流程图如图1所示,具体包括以下步骤:
(1)采集语音信号样本:随机采集1000个具有相同内容(“你好”)语音信号分别作为语音训练样本和真实语音样本;
(2)语音信号的预处理:对步骤1中采集到的1000个(“你好”)语音信号进行预处理。首先,利用Audacity软件对1000个(“你好”)语音信号进行剪辑,过滤掉原始采集的波形中超出软件编辑范围的语音部分以及非语音信号的部分;其次,进行语音滤波处理:通过滤波算法计算n个时刻的误差信号、相关系数、语音差异矢量,由迭代方法计算出每个时刻的权重系数矢量,通过自适应滤波器调整其下一时刻权重矢量求出最小方差,从而进行滤波处理,便可得到滤波后的语音信号;
(3)将语音数据样本输入深度卷积生成对抗网络:将(2)中预处理都所得的1000个(“你好”)语音训练样本数据和真实语音样本数据输入到深度卷积生成对抗网络;
(4)对输入的语音数据进行训练:采用深度卷积生成对抗网络对输入的1000个(“你好”)语音训练样本数据和真实语音样本数据进行训练,在该网络下,分别计算生成网络G和判别网络D损失函数,再利用随机梯度下降算法来训练D和G,最终求得最优函数,得到训练好的(“你好”)语音数据;
(5)生成接近真实语音内容的语音信号:将训练好的(“你好”)语音数据带入自回归生成模型得到波形,再利用深度卷积对抗生成网络对自回归生成模型得到的波形进行训练,得到训练后的语音波形图,如图3所示,最终可生成全新的且接近真实(“你好”)语音样本的语音信号。
本发明提供了一种基于深度卷积生成对抗网络的语音生成方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种基于深度卷积生成对抗网络的语音生成方法,其特征在于,包括如下步骤:
步骤1,采集语音信号样本:随机采集M个具有相同内容的语音信号,作为语音训练样本和真实语音样本;
步骤2,对步骤1中采集到的M个语音信号进行预处理;
步骤3,将预处理后的M个语音训练样本数据和M个真实语音样本数据输入到深度卷积生成对抗网络;
步骤4,采用深度卷积生成对抗网络对输入的M个语音训练样本数据和M个真实语音样本数据进行训练;
步骤5,生成接近真实语音内容的语音信号:利用深度卷积对抗生成网络对自回归生成模型得到的波形进行训练,最终生成全新的且接近真实语音样本的语音信号。
2.根据权利要求1所述的方法,其特征在于:步骤1中所述随机采集M个具有相同内容的语音信号,其存储格式为wav格式。
3.根据权利要求1所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,对采集的语音信号样本做除杂的处理;
步骤2-2,对采集的语音信号样本进行滤波处理。
4.根据权利要求3所述的方法,其特征在于:步骤2-1包括:利用Audacity软件对采集的语音信号样本进行剪辑,过滤掉采集的语音信号样本中超出软件编辑范围的语音部分以及非语音信号的部分。
5.根据权利要求4所述的方法,其特征在于,步骤2-2包括如下步骤:
步骤2-2-1,计算n时刻的误差信号ε(n):
<mrow> <mi>&amp;epsiv;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>d</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mover> <msup> <mi>W</mi> <mi>H</mi> </msup> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,d(n)表示n时刻主信道输入的带噪语音信号,即为自适应滤波器的期望信号,主信道表示语音输入的通道,W(n)表示n时刻对应的权重系数矢量,X(n)表示在n时刻的语音矢量,H表示共轭转置;
步骤2-2-2,计算在n时刻的相关系数γ(n):
<mrow> <mi>&amp;gamma;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>X</mi> <mi>H</mi> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>X</mi> <mi>H</mi> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
步骤2-2-3,计算n时刻的语音差异矢量U(n):
U(n)=X(n)-γ(n)X(n-1);
步骤2-2-4,通过如下公式计算迭代后每个时刻对应的权重系数矢量:
<mrow> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mi>W</mi> <mo>^</mo> </mover> <mo>(</mo> <mi>n</mi> <mo>)</mo> <mo>+</mo> <mfrac> <mi>&amp;mu;</mi> <mrow> <mo>|</mo> <mo>|</mo> <mi>U</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;delta;</mi> </mrow> </mfrac> <mi>U</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>&amp;epsiv;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,μ表示自适应常数,δ>0,δ表示实数;
步骤2-2-5,计算最小方差
<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mi>E</mi> <mi>w</mi> </munder> <mo>{</mo> <msup> <mi>&amp;epsiv;</mi> <mn>2</mn> </msup> <mo>}</mo> <mo>=</mo> <mi>E</mi> <mo>{</mo> <msup> <mi>v</mi> <mn>2</mn> </msup> <mo>}</mo> <mo>+</mo> <mi>min</mi> <munder> <mi>E</mi> <mi>w</mi> </munder> <mo>{</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mn>0</mn> </msub> <mo>-</mo> <mi>y</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>}</mo> <mo>,</mo> </mrow> 1
其中,n0表示主信道输入的语音信号,v表示主信道输入的噪声,y表示自适应滤波器的输出,ε表示误差信号,w表示特定时刻自适应滤波器的权重矢量,使得方差最小;
步骤2-2-6,将步骤2-2-4中得到的每个时刻的对应的权重系数矢量分别带入步骤2-2-5的公式中,计算最小方差若该时刻求得的不是最小方差,则通过自适应滤波器调整其下一时刻权重矢量w进行滤波处理,求出最小方差,得到滤波后的语音信号。
6.根据权利要求5所述的方法,其特征在于,步骤4包括如下步骤:
步骤4-1,深度卷积生成对抗网络包括两个网络,一个是生成网络G,用于接收一个随机的噪声;一个是判别网络D,用于判别生成的数据是不是真实的;
步骤4-2,计算生成网络的损失函数:
(1-b)log(1-D(G(z))),
其中,z表示生成网络G接收的一个随机的噪声,b表示在真实语音样本数据输入参数c下得到的输出参数,G(z)表示生成网络G的输出,log表示以10为底对的对数操作,D(G(z))表示判别网络D判断生成网络G生成的语音数据为真实的概率;
步骤4-3,计算判别网络的损失函数:
-((1-b)log(1-D(G(z)))+blogD(c)),
其中,c表示真实语音样本数据作为输入参数,D(c)表示判别网络D的输出,即输入真实语音样本数据参数c为真实的概率;
步骤4-4,计算优化函数min maxV(D,G):
<mrow> <mi>min</mi> <mi> </mi> <mi>max</mi> <mi> </mi> <mi>V</mi> <mrow> <mo>(</mo> <mrow> <mi>D</mi> <mo>,</mo> <mi>G</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>E</mi> <mrow> <mi>x</mi> <mo>~</mo> <msub> <mi>p</mi> <mrow> <mi>d</mi> <mi>a</mi> <mi>t</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mo>+</mo> <msub> <mi>E</mi> <mrow> <mi>z</mi> <mo>~</mo> <msub> <mi>p</mi> <mi>z</mi> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mrow> <mo>(</mo> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mo>,</mo> </mrow>
其中,pz(z)表示随机噪声的概率密度,x表示真实语音样本数据,pdata(x)表示参数数据的概率密度;
步骤4-5,当判别网络D无法判定生成网络G所生成的语音数据是否真实时,D(G(z))=0.5,得到训练好的语音信号数据,否则,执行步骤4-6;
步骤4-6,利用随机梯度下降法计算判别网络D的梯度函数和生成网络G的梯度函数:
<mrow> <msub> <mo>&amp;dtri;</mo> <msub> <mi>&amp;theta;</mi> <mi>d</mi> </msub> </msub> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&amp;lsqb;</mo> <mi>log</mi> <mi> </mi> <mi>D</mi> <mrow> <mo>(</mo> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>,</mo> </mrow>
<mrow> <msub> <mo>&amp;dtri;</mo> <msub> <mi>&amp;theta;</mi> <mi>g</mi> </msub> </msub> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,θd表示在判别网络D方向上的梯度变化量,θg表示在生成网络G方向上的梯度变化量,i∈[1,m],m表示生成网络G接收随机噪声的个数,∈表示属于符号,将训练好的判别网络D和生成网络G带入步骤4-4中。
7.根据权利要求6所述的方法,其特征在于,步骤5包括如下步骤:
步骤5-1,计算自回归生成模型:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Pi;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,h表示步骤4中得到训练好的语音样本数据作为输入的参数,p(s|h)表示最有可行的波形输出向量,s(t)表示在时间点t的输出,t∈[1,T],T表示总时间;
步骤5-2,采用步骤4中深度卷积生成对抗网络,对步骤5-1中生成的波形进行学习,再经过自回归生成模型不断的反馈及输出,使得每一步当前输出的结果,只与之前的输出结果相关,当满足步骤4-5中D(G(z))=0.5时,最终生成全新的且接近真实语音样本的语音信号。
CN201710442945.2A 2017-06-13 2017-06-13 一种基于深度卷积生成对抗网络的语音生成方法 Active CN107293289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710442945.2A CN107293289B (zh) 2017-06-13 2017-06-13 一种基于深度卷积生成对抗网络的语音生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710442945.2A CN107293289B (zh) 2017-06-13 2017-06-13 一种基于深度卷积生成对抗网络的语音生成方法

Publications (2)

Publication Number Publication Date
CN107293289A true CN107293289A (zh) 2017-10-24
CN107293289B CN107293289B (zh) 2020-05-29

Family

ID=60096925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710442945.2A Active CN107293289B (zh) 2017-06-13 2017-06-13 一种基于深度卷积生成对抗网络的语音生成方法

Country Status (1)

Country Link
CN (1) CN107293289B (zh)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871142A (zh) * 2017-11-14 2018-04-03 华南理工大学 一种基于深度卷积对抗网络模型的空洞卷积方法
CN107943751A (zh) * 2017-11-14 2018-04-20 华南理工大学 一种基于深度卷积对抗网络模型的独立通道卷积方法
CN108009058A (zh) * 2017-11-17 2018-05-08 阿里巴巴集团控股有限公司 异常设备识别方法及装置和电子设备
CN108053454A (zh) * 2017-12-04 2018-05-18 华中科技大学 一种基于深度卷积生成对抗网络的图结构数据生成方法
CN108205659A (zh) * 2017-11-30 2018-06-26 深圳市深网视界科技有限公司 人脸遮挡物去除及其模型构建的方法、设备及介质
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108647786A (zh) * 2018-07-10 2018-10-12 电子科技大学 基于深度卷积对抗神经网络的旋转机械在线故障监测方法
CN108696331A (zh) * 2018-03-19 2018-10-23 西安电子科技大学 一种基于生成对抗网络的信号重构方法
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原系统
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN109165735A (zh) * 2018-07-12 2019-01-08 杭州电子科技大学 基于生成对抗网络与自适应比例生成新样本的方法
CN109308903A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 语音模仿方法、终端设备及计算机可读存储介质
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109346043A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN109447263A (zh) * 2018-11-07 2019-03-08 任元 一种基于生成对抗网络的航天异常事件检测方法
CN109461458A (zh) * 2018-10-26 2019-03-12 合肥工业大学 一种基于生成对抗网络的音频异常检测方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN109674471A (zh) * 2018-12-18 2019-04-26 中国科学技术大学 一种基于生成对抗网络的电阻抗成像方法及系统
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算系统
CN109887494A (zh) * 2017-12-01 2019-06-14 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN109998500A (zh) * 2019-04-30 2019-07-12 陕西师范大学 一种基于生成式对抗网络的脉搏信号生成方法及系统
CN110085203A (zh) * 2019-04-18 2019-08-02 东华大学 一种基于对偶生成对抗网络的音乐风格融合方法
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN110176245A (zh) * 2019-05-29 2019-08-27 贾一焜 一种语音降噪系统
CN110289927A (zh) * 2019-07-01 2019-09-27 上海大学 基于条件生成对抗网络的信道模拟实现方法
CN110619886A (zh) * 2019-10-11 2019-12-27 北京工商大学 一种针对低资源土家语的端到端语音增强方法
WO2020043110A1 (zh) * 2018-08-28 2020-03-05 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
WO2020088154A1 (zh) * 2018-10-30 2020-05-07 Oppo广东移动通信有限公司 语音降噪方法、存储介质和移动终端
CN111143873A (zh) * 2019-12-13 2020-05-12 支付宝(杭州)信息技术有限公司 隐私数据处理方法、装置和终端设备
WO2020098086A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 一种音乐自动生成方法、装置及计算机可读存储介质
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
US10891949B2 (en) 2018-09-10 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN112287323A (zh) * 2020-10-27 2021-01-29 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112397057A (zh) * 2020-12-01 2021-02-23 平安科技(深圳)有限公司 基于生成对抗网络的语音处理方法、装置、设备及介质
CN112528553A (zh) * 2020-11-06 2021-03-19 南京航空航天大学 基于深度卷积生成对抗网络的发动机喘振信号模拟方法
WO2021056843A1 (zh) * 2019-09-27 2021-04-01 北京市商汤科技开发有限公司 神经网络训练方法及装置和图像生成方法及装置
CN112837676A (zh) * 2019-11-04 2021-05-25 深圳市优必选科技股份有限公司 一种语句生成方法、语句生成装置及智能设备
WO2021098501A1 (zh) * 2019-11-19 2021-05-27 上海大学 基于生成对抗网络的无线信道建模实现方法
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113080992A (zh) * 2021-03-30 2021-07-09 北京芯动卫士科技有限公司 一种基于dcgan和深度神经网络方法的房颤识别方法
TWI766690B (zh) * 2021-05-18 2022-06-01 詮隼科技股份有限公司 封包產生方法及封包產生系統之設定方法
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547192A (zh) * 2003-11-28 2004-11-17 北京中星微电子有限公司 一种声音合成方法
US20060246899A1 (en) * 2005-04-28 2006-11-02 Research In Motion Limited System and method for providing network advertisement information via a network advertisement broker (NAB)
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN103632671A (zh) * 2013-06-28 2014-03-12 华为软件技术有限公司 数据编解码方法、装置及数据通信系统
CN106780498A (zh) * 2016-11-30 2017-05-31 南京信息工程大学 基于逐像素点深度卷积网络上皮和基质组织自动分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547192A (zh) * 2003-11-28 2004-11-17 北京中星微电子有限公司 一种声音合成方法
US20060246899A1 (en) * 2005-04-28 2006-11-02 Research In Motion Limited System and method for providing network advertisement information via a network advertisement broker (NAB)
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN103632671A (zh) * 2013-06-28 2014-03-12 华为软件技术有限公司 数据编解码方法、装置及数据通信系统
CN106780498A (zh) * 2016-11-30 2017-05-31 南京信息工程大学 基于逐像素点深度卷积网络上皮和基质组织自动分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"王坤峰": ""生成式对抗网络GAN的研究进展与展望"", 《自动化学报》 *
JONATHAN CHANG ; STEFAN SCHERER: ""Learning representations of emotional speech with deep convolutional generative adversarial networks"", 《 2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
郭丽丽: ""深度学习的研究进展"", 《计算机科学》 *

Cited By (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10622002B2 (en) 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US11017788B2 (en) 2017-05-24 2021-05-25 Modulate, Inc. System and method for creating timbres
US11854563B2 (en) 2017-05-24 2023-12-26 Modulate, Inc. System and method for creating timbres
US10861476B2 (en) 2017-05-24 2020-12-08 Modulate, Inc. System and method for building a voice database
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
CN109741736B (zh) * 2017-10-27 2022-11-25 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
US11710300B2 (en) 2017-11-06 2023-07-25 Google Llc Computing systems with modularized infrastructure for training generative adversarial networks
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算系统
CN107943751A (zh) * 2017-11-14 2018-04-20 华南理工大学 一种基于深度卷积对抗网络模型的独立通道卷积方法
CN107871142A (zh) * 2017-11-14 2018-04-03 华南理工大学 一种基于深度卷积对抗网络模型的空洞卷积方法
CN108009058A (zh) * 2017-11-17 2018-05-08 阿里巴巴集团控股有限公司 异常设备识别方法及装置和电子设备
CN108205659A (zh) * 2017-11-30 2018-06-26 深圳市深网视界科技有限公司 人脸遮挡物去除及其模型构建的方法、设备及介质
US11482237B2 (en) 2017-12-01 2022-10-25 Tencent Technology (Shenzhen) Company Limited Method and terminal for reconstructing speech signal, and computer storage medium
CN109887494A (zh) * 2017-12-01 2019-06-14 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
CN108053454B (zh) * 2017-12-04 2020-05-19 华中科技大学 一种基于深度卷积生成对抗网络的图结构数据生成方法
CN108053454A (zh) * 2017-12-04 2018-05-18 华中科技大学 一种基于深度卷积生成对抗网络的图结构数据生成方法
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110085215B (zh) * 2018-01-23 2021-06-08 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN108696331A (zh) * 2018-03-19 2018-10-23 西安电子科技大学 一种基于生成对抗网络的信号重构方法
CN108734276B (zh) * 2018-04-28 2021-12-31 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108597496B (zh) * 2018-05-07 2020-08-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108877832B (zh) * 2018-05-29 2022-12-23 东华大学 一种基于gan的音频音质还原系统
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原系统
CN108647786A (zh) * 2018-07-10 2018-10-12 电子科技大学 基于深度卷积对抗神经网络的旋转机械在线故障监测方法
CN109165735A (zh) * 2018-07-12 2019-01-08 杭州电子科技大学 基于生成对抗网络与自适应比例生成新样本的方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109308903A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 语音模仿方法、终端设备及计算机可读存储介质
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
WO2020043110A1 (zh) * 2018-08-28 2020-03-05 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
US11551707B2 (en) 2018-08-28 2023-01-10 Relajet Tech (Taiwan) Co., Ltd. Speech processing method, information device, and computer program product
US10891949B2 (en) 2018-09-10 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109346087B (zh) * 2018-09-17 2023-11-10 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN109461458B (zh) * 2018-10-26 2022-09-13 合肥工业大学 一种基于生成对抗网络的音频异常检测方法
CN109346043B (zh) * 2018-10-26 2023-09-19 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN109346043A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN109461458A (zh) * 2018-10-26 2019-03-12 合肥工业大学 一种基于生成对抗网络的音频异常检测方法
WO2020088154A1 (zh) * 2018-10-30 2020-05-07 Oppo广东移动通信有限公司 语音降噪方法、存储介质和移动终端
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
WO2020088153A1 (zh) * 2018-10-30 2020-05-07 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质和电子设备
CN109447263A (zh) * 2018-11-07 2019-03-08 任元 一种基于生成对抗网络的航天异常事件检测方法
WO2020098086A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 一种音乐自动生成方法、装置及计算机可读存储介质
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN109674471A (zh) * 2018-12-18 2019-04-26 中国科学技术大学 一种基于生成对抗网络的电阻抗成像方法及系统
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109473091B (zh) * 2018-12-25 2021-08-10 四川虹微技术有限公司 一种语音样本生成方法及装置
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
CN109887489B (zh) * 2019-02-23 2021-10-26 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110085203A (zh) * 2019-04-18 2019-08-02 东华大学 一种基于对偶生成对抗网络的音乐风格融合方法
CN109998500A (zh) * 2019-04-30 2019-07-12 陕西师范大学 一种基于生成式对抗网络的脉搏信号生成方法及系统
CN110176245A (zh) * 2019-05-29 2019-08-27 贾一焜 一种语音降噪系统
CN110289927A (zh) * 2019-07-01 2019-09-27 上海大学 基于条件生成对抗网络的信道模拟实现方法
CN110289927B (zh) * 2019-07-01 2021-06-15 上海大学 基于条件生成对抗网络的信道模拟实现方法
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
WO2021056843A1 (zh) * 2019-09-27 2021-04-01 北京市商汤科技开发有限公司 神经网络训练方法及装置和图像生成方法及装置
CN110619886A (zh) * 2019-10-11 2019-12-27 北京工商大学 一种针对低资源土家语的端到端语音增强方法
CN110619886B (zh) * 2019-10-11 2022-03-22 北京工商大学 一种针对低资源土家语的端到端语音增强方法
CN112837676B (zh) * 2019-11-04 2023-12-01 深圳市优必选科技股份有限公司 一种语句生成方法、语句生成装置及智能设备
CN112837676A (zh) * 2019-11-04 2021-05-25 深圳市优必选科技股份有限公司 一种语句生成方法、语句生成装置及智能设备
WO2021098501A1 (zh) * 2019-11-19 2021-05-27 上海大学 基于生成对抗网络的无线信道建模实现方法
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN111143873A (zh) * 2019-12-13 2020-05-12 支付宝(杭州)信息技术有限公司 隐私数据处理方法、装置和终端设备
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111477247B (zh) * 2020-04-01 2023-08-11 宁波大学 基于gan的语音对抗样本生成方法
CN111724770B (zh) * 2020-05-19 2022-04-01 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112185417B (zh) * 2020-10-21 2024-05-10 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112287323A (zh) * 2020-10-27 2021-01-29 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112287323B (zh) * 2020-10-27 2022-10-21 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112528553A (zh) * 2020-11-06 2021-03-19 南京航空航天大学 基于深度卷积生成对抗网络的发动机喘振信号模拟方法
CN112397057A (zh) * 2020-12-01 2021-02-23 平安科技(深圳)有限公司 基于生成对抗网络的语音处理方法、装置、设备及介质
WO2022142115A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113080992A (zh) * 2021-03-30 2021-07-09 北京芯动卫士科技有限公司 一种基于dcgan和深度神经网络方法的房颤识别方法
TWI766690B (zh) * 2021-05-18 2022-06-01 詮隼科技股份有限公司 封包產生方法及封包產生系統之設定方法

Also Published As

Publication number Publication date
CN107293289B (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN107293289A (zh) 一种基于深度卷积生成对抗网络的语音生成方法
CN109036465B (zh) 语音情感识别方法
CN110390950A (zh) 一种基于生成对抗网络的端到端语音增强方法
CN105118498B (zh) 语音合成模型的训练方法及装置
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN105590625A (zh) 声学模型自适应方法及系统
CN106782602A (zh) 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN109767769A (zh) 一种语音识别方法、装置、存储介质及空调
CN105761720A (zh) 一种基于语音属性分类的交互系统及其方法
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN106847309A (zh) 一种语音情感识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN112562698B (zh) 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法
CN108172218A (zh) 一种语音建模方法及装置
CN111261147A (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN113724712B (zh) 一种基于多特征融合和组合模型的鸟声识别方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN105575383A (zh) 利用用户的语音特征的对象信息语音输出控制装置及方法
CN102779510A (zh) 基于特征空间自适应投影的语音情感识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN108986788A (zh) 一种基于后验知识监督的噪声鲁棒声学建模方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN106504772A (zh) 基于重要性权重支持向量机分类器的语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant