CN113053354A - 一种提高语音合成效果的方法和设备 - Google Patents
一种提高语音合成效果的方法和设备 Download PDFInfo
- Publication number
- CN113053354A CN113053354A CN202110268228.9A CN202110268228A CN113053354A CN 113053354 A CN113053354 A CN 113053354A CN 202110268228 A CN202110268228 A CN 202110268228A CN 113053354 A CN113053354 A CN 113053354A
- Authority
- CN
- China
- Prior art keywords
- loss
- signal
- generator
- layer
- wavelet transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 32
- 230000000694 effects Effects 0.000 title claims abstract description 32
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种提高语音合成效果的方法和设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:获取所述Parallel WaveGAN中生成器的语音信号;获取原始语音信号;对所述生成器的语音信号与所述原始语音信号进行小波变换处理;对进行小波变换处理后的信号进行损失计算;将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。本方案中利用小波变换,对生成器的信号和原始信号做多层分解,计算每一层的系数进行损失计算,本方案不需要像原来的STFT的做法,多次设置尺度,加大运算量,本方案中将小波变换结果的Loss,作为生成器的Loss的一部分,让生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
Description
技术领域
本发明涉及机器翻译技术领域,具体涉及一种提高语音合成效果的方法和设备。
背景技术
当前神经网络合成器中,Parallel WaveGAN是实时率比较高的一种合成器。为了获取语音信号的时频分布和提高合成效果,如图1所示,训练过程中生成器的Loss(损失)加入了多分辨率的STFT(短时傅里叶变换)的Loss。
对于STFT的尺度是固定,在训练过程中,单次运算无法实现可变尺度问题。并且,对短时平稳的语音信号,进行分帧,再做STFT,而且还有overlap(重叠),运算量较大,并且每一个尺度的运算量都重新计算,训练速度较慢。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供一种提高语音合成效果的方法和设备,能够解决现有技术中训练速度不佳的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种提高语音合成效果的方法,应用于Parallel WaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:
获取所述Parallel WaveGAN中生成器的语音信号;
获取原始语音信号;
对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
对进行小波变换处理后的信号进行损失计算;
将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
在一个具体的实施例中,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
在一个具体的实施例中,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
在一个具体的实施例中,所述小波变换处理包括:离散小波变换处理。
在一个具体的实施例中,所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”,包括:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
本发明实施例还提出了一种提高语音合成效果的设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该设备包括:
第一获取模块,用于获取所述Parallel WaveGAN中生成器的语音信号;
第二获取模块,用于获取原始语音信号;
小波变换处理模块,用于对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
损失计算模块,用于对进行小波变换处理后的信号进行损失计算;
提升模块,用于将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
在一个具体的实施例中,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述提升模块“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
在一个具体的实施例中,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
在一个具体的实施例中,所述小波变换处理包括:离散小波变换处理。
在一个具体的实施例中,所述小波变换处理模块,用于:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
本发明的有益效果是:
本发明实施例提出了一种提高语音合成效果的方法和设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:获取所述Parallel WaveGAN中生成器的语音信号;获取原始语音信号;对所述生成器的语音信号与所述原始语音信号进行小波变换处理;对进行小波变换处理后的信号进行损失计算;将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。本方案中利用小波变换,对生成器的信号和原始信号做多层分解,计算每一层的系数进行损失计算,本方案不需要像原来的STFT的做法,多次设置尺度,加大运算量,本方案中将小波变换结果的Loss,作为生成器的Loss的一部分,让生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
附图说明
图1为现有技术中的一种Parallel WaveGAN的原理图示意图;
图2为本发明实施例提供的一种Parallel WaveGAN的原理图示意图;
图3为本发明实施例提供的一种提高语音合成效果的方法的流程示意图示意图;
图4为本发明实施例提供的一种提高语音合成效果的方法中小波变换处理的示意图;
图5为本发明实施例提供的一种提高语音合成效果的设备的框架结构程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
具体的,ParallelWaveGAN的训练原理为:ParallelWaveGAN训练分为生成器和判别器。其中,生成器的工作原理:生成器的输入是80维的谱参数和随机噪音,生成器根据输入,得到语音信号。判别器的工作原理:判别器的输入是原始语音和生成器的输出语音,然后判断生成的输出语音为Fake(伪),但是原始语音被判断成Real(真),当判别器无法判断生成器为Fake时,即Loss收敛时,判别器稳定。
其中,如图1所示的ParallelWaveGAN,STFT的输入有两个语音信号,一个是生成器的输出,一个是原始信号。首先计算生成器的输出语音的短时傅里叶谱,再计算原始语音的短时傅里叶谱,这两个谱进行相减,可以得到整个时频域的一个Loss。该Loss作为生成器的损失函数的一部分,用于更新生成器的参数,能更好的捕捉语音信号的时频分布,同时可以提高合成效果。
STFT(短时傅里叶)的工作原理:针对语音信号不是稳态信号,因此需要对语音信号进行分帧处理,一般将语音分成20-30ms帧长,10-15ms的帧移进行处理,对当前帧进行傅立叶分析,得到每一帧的幅度。假设1s时长的语音,采样率是48000,帧长是20ms,帧移是10ms,那么对1S的时长语音做STFT时,需要处理100次的傅立叶分析,每次处理960个点,总共要处理96000次。而且每一个窗口之间都是相互独立的,在某个分辨率下,没有考虑全局对幅度谱的影响。
实施例1
本发明实施例1提出了一种提高语音合成效果的方法,应用于如图2所示的Parallel WaveGAN,所述Parallel WaveGAN中包括生成器;如图3所示,该方法包括以下步骤:
步骤101、获取所述Parallel WaveGAN中生成器的语音信号;具体的,例如如图2所示,获取生成器基于随机噪音与辅助特征所生成的语音信号
步骤102、获取原始语音信号;
具体的,步骤101与步骤102之间不分先后顺序。
步骤103、对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
步骤104、对进行小波变换处理后的信号进行损失计算;
具体的,在一个具体的实施例中,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;如图3所示,本方案中利用小波变换,对生成器的信号和原始信号做多层分解,计算每一层的系数进行Loss的计算,如图3中Ldn表示第n层细节系数,Lan是第n层的近似系数。本方案不需要像原来的做法,不需要多次设置尺度,不会加大运算量。
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
步骤105、将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
具体的,本方案中采用了小波变换的方式,具体的可以为离散小波变换,而离散小波变换的工作原理:离散小波变换是一种时频分析技术,在每次处理时都能同时观察到时间信息和频率信息。如图4所示:原始信号(如图4中的S)经过高通和低通滤波器(小波基)将信号分成细节信号(如图4中的cD1)和近似信号(如图4中的cA1),再往下一层是对近似信号(如图4中的cA1)进行再次处理,又得到某一频段的细节信号(如图4中的cD2)和近似信号(如图4中的cA2)。以此类推,可以得到不同尺度下的信号。假设处理同样时长为1s的语音.采样率48000,由于逐层减半的计算,最后计算次数不会超过96000次。而且FFT的运算复杂度比滤波要更大。并且每次计算都是在整个全局上进行处理的,因此每一个频段信息都有全局采样点的影响。在生成器中,只需要将生成器的语音和原始语音进行小波处理,然后计算不同尺度下的Loss,即可替换STFT的Loss,从而加快训练速度和提高合成效果
在一个具体的实施例中,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
在一个具体的实施例中,所述小波变换处理包括:离散小波变换处理。
在一个具体的实施例中,所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”,包括:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
具体的,目前针对语音的短时平稳信号,大多基于短时傅里叶变换(STFT),计算每一帧的特征信息,再加之overlap,1s时长音频处理时间较长,针对上述合成器,训练过程中,针对不同分辨率时,均需要反复计算,而利用小波变换,只需要计算一次,从而加快训练速度;
现有技术中在生成器中加入STFT Loss,是为了捕捉语音信号在时频域的分布,单次计算短时傅里叶变换,其尺度是无法伸缩,而小波变换在计算过程中,利用尺度可伸缩性,能更好的捕捉语音信号的时频分布,从而提高合成效果。
实施例2
本发明实施例还提出了一种提高语音合成效果的设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;如图5所示,该设备包括:
第一获取模块201,用于获取所述Parallel WaveGAN中生成器的语音信号;
第二获取模块202,用于获取原始语音信号;
小波变换处理模块203,用于对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
损失计算模块204,用于对进行小波变换处理后的信号进行损失计算;
提升模块205,用于将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
在一个具体的实施例中,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述提升模块“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
在一个具体的实施例中,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
在一个具体的实施例中,所述小波变换处理包括:离散小波变换处理。
在一个具体的实施例中,所述小波变换处理模块,用于:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
本发明实施例提出了一种提高语音合成效果的方法和设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:获取所述Parallel WaveGAN中生成器的语音信号;获取原始语音信号;对所述生成器的语音信号与所述原始语音信号进行小波变换处理;对进行小波变换处理后的信号进行损失计算;将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。本方案中利用小波变换,对生成器的信号和原始信号做多层分解,计算每一层的系数进行损失计算,本方案不需要像原来的STFT的做法,多次设置尺度,加大运算量,本方案中将小波变换结果的Loss,作为生成器的Loss的一部分,让生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种提高语音合成效果的方法,其特征在于,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:
获取所述Parallel WaveGAN中生成器的语音信号;
获取原始语音信号;
对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
对进行小波变换处理后的信号进行损失计算;
将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
2.如权利要求1所述的方法,其特征在于,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
3.如权利要求2所述的方法,其特征在于,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
4.如权利要求1所述的方法,其特征在于,所述小波变换处理包括:离散小波变换处理。
5.如权利要求1或4所述的方法,其特征在于,所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”,包括:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
6.一种提高语音合成效果的设备,其特征在于,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该设备包括:
第一获取模块,用于获取所述Parallel WaveGAN中生成器的语音信号;
第二获取模块,用于获取原始语音信号;
小波变换处理模块,用于对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
损失计算模块,用于对进行小波变换处理后的信号进行损失计算;
提升模块,用于将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
7.如权利要求6所述的设备,其特征在于,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述提升模块“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
8.如权利要求7所述的设备,其特征在于,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
9.如权利要求6所述的设备,其特征在于,所述小波变换处理包括:离散小波变换处理。
10.如权利要求6或9所述的设备,其特征在于,所述小波变换处理模块,用于:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
重复执行”对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号“得到多层处理后的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268228.9A CN113053354B (zh) | 2021-03-12 | 2021-03-12 | 一种提高语音合成效果的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268228.9A CN113053354B (zh) | 2021-03-12 | 2021-03-12 | 一种提高语音合成效果的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053354A true CN113053354A (zh) | 2021-06-29 |
CN113053354B CN113053354B (zh) | 2022-08-26 |
Family
ID=76511758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110268228.9A Active CN113053354B (zh) | 2021-03-12 | 2021-03-12 | 一种提高语音合成效果的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053354B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707122A (zh) * | 2021-08-11 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置 |
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004258422A (ja) * | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
CN108492832A (zh) * | 2018-03-21 | 2018-09-04 | 北京理工大学 | 基于小波变换的高质量声音变换方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110930983A (zh) * | 2019-11-08 | 2020-03-27 | 广州大学 | 用于语音信号的小波特征提取方法、系统和存储介质 |
CN111429893A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于Transitive STARGAN的多对多说话人转换方法 |
CN111477247A (zh) * | 2020-04-01 | 2020-07-31 | 宁波大学 | 基于gan的语音对抗样本生成方法 |
US20210005180A1 (en) * | 2018-03-22 | 2021-01-07 | Samsung Electronics Co., Ltd. | Electronic device for modulating user voice using artificial intelligence model and control method thereof |
-
2021
- 2021-03-12 CN CN202110268228.9A patent/CN113053354B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004258422A (ja) * | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
CN108492832A (zh) * | 2018-03-21 | 2018-09-04 | 北京理工大学 | 基于小波变换的高质量声音变换方法 |
US20210005180A1 (en) * | 2018-03-22 | 2021-01-07 | Samsung Electronics Co., Ltd. | Electronic device for modulating user voice using artificial intelligence model and control method thereof |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110930983A (zh) * | 2019-11-08 | 2020-03-27 | 广州大学 | 用于语音信号的小波特征提取方法、系统和存储介质 |
CN111429893A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于Transitive STARGAN的多对多说话人转换方法 |
CN111477247A (zh) * | 2020-04-01 | 2020-07-31 | 宁波大学 | 基于gan的语音对抗样本生成方法 |
Non-Patent Citations (2)
Title |
---|
YANG GAO: "Voice Impersonation using generative adversarial networks", 《HTTPS://ARXIV.ORG/ABS/1802.06840》 * |
ZHAOJIE LUO 等: "Emotional Voice Conversion Using Dual Supervised Adversarial Networks With Continuous Wavelet Transform F0 Features", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707122A (zh) * | 2021-08-11 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置 |
CN113707122B (zh) * | 2021-08-11 | 2024-04-05 | 北京搜狗科技发展有限公司 | 一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置 |
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113744714B (zh) * | 2021-09-27 | 2024-04-05 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113053354B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113053354B (zh) | 一种提高语音合成效果的方法和设备 | |
EP3998557A1 (en) | Audio signal processing method, model training method, and related apparatus | |
CN105788603A (zh) | 一种基于经验模态分解的音频识别方法及系统 | |
JP2000105146A (ja) | 複合音信号中での音特定方法及び装置 | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
US20080052067A1 (en) | Noise suppressor for removing irregular noise | |
CN113160852A (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
Hou et al. | Multi-task learning for end-to-end noise-robust bandwidth extension | |
Chen et al. | Time domain speech enhancement with attentive multi-scale approach | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN113268924B (zh) | 基于时频特征的变压器有载分接开关故障识别方法 | |
Shifas et al. | A non-causal FFTNet architecture for speech enhancement | |
CN112786057B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
Kulkarni et al. | A review of speech signal enhancement techniques | |
Kazanferovich et al. | Improvement of the efficiency of voice control based on the complementary ensemble empirical mode decomposition | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
CN114598353B (zh) | 一种基于完美子带分割的干扰抑制方法及装置 | |
Xiang et al. | Speech enhancement via generative adversarial LSTM networks | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
Alimuradov | Research of frequency-selective properties of empirical mode decomposition methods for speech signals' pitch frequency estimation | |
CN113343887A (zh) | 基于边缘计算与机器学习的多传感器混合故障信号盲分离方法 | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
JP2863214B2 (ja) | 雑音除去装置及び該装置を用いた音声認識装置 | |
JPH07234132A (ja) | 信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |