CN113299267A - 一种基于变分自编码器的语音刺激连续统合成方法及装置 - Google Patents

一种基于变分自编码器的语音刺激连续统合成方法及装置 Download PDF

Info

Publication number
CN113299267A
CN113299267A CN202110841392.4A CN202110841392A CN113299267A CN 113299267 A CN113299267 A CN 113299267A CN 202110841392 A CN202110841392 A CN 202110841392A CN 113299267 A CN113299267 A CN 113299267A
Authority
CN
China
Prior art keywords
key acoustic
voice
clues
key
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110841392.4A
Other languages
English (en)
Other versions
CN113299267B (zh
Inventor
解焱陆
李�柱
张劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocdop Ltd
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202110841392.4A priority Critical patent/CN113299267B/zh
Publication of CN113299267A publication Critical patent/CN113299267A/zh
Application granted granted Critical
Publication of CN113299267B publication Critical patent/CN113299267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于变分自编码器的语音刺激连续统合成方法及装置,所述方法包括:从原始语音信号中提取关键声学线索;基于变分自编码器进行关键声学线索建模,并进行训练;利用训练好的关键声学线索模型合成语音连续统。所述装置包括:提取模块,用于从原始语音信号中提取关键声学线索;模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;合成模块,用于利用训练好的关键声学线索模型合成语音连续统。本发明通过深度学习模型来合成感知实验中所需要的语音刺激连续统,能够解决现有技术中手动修改造成的信息损失和不自然的问题。

Description

一种基于变分自编码器的语音刺激连续统合成方法及装置
技术领域
本发明涉及语音合成技术领域,特别涉及一种基于变分自编码器的语音刺激连续统合成方法及装置。
背景技术
在语音感知研究中,合成的语音连续统的质量对实验结果有重要的影响。常见的合成方法是手动修改自然语音的关键声学参数,即:首先从口语中提取相关的声学参数;之后根据数学公式在相关声学参数之间进行插值操作;最后使用声码器将插值得到的参数序列转换回语音信号。这一传统方法直接修改关键的声学线索,较难实现两个语音范畴之间全局和平滑的过渡,生成的语音听起来可能不自然。
例如,在现有语音感知研究中,通常使用手动修改种子音节声学参数的方法合成两个语音范畴间的连续统,来探究语音的范畴感知机制。这一方法有几个关键的局限性。首先,当两个语音范畴在多个声学维度上不同时(例如,英语中 /r/ 和 /l/ 在第一、第二和第三共振峰都不同),合成的语音连续统有可能听起来不自然。其次,由于声学参数是连续变化的物理量,直接对关键的声学特征进行手工插值可能会掩盖细微但重要的动态变化特征,而这些动态变化可能是听众辨别两个语音范畴的重要线索,由于合成的连续统质量上的缺陷,这些线索都不会出现在随后的感知实验中。
发明内容
本发明的目的在于提供一种基于变分自编码器的语音刺激连续统合成方法及装置,通过深度学习模型来合成感知实验中所需要的语音刺激连续统,解决手动修改可能造成的信息损失和不自然的问题。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于变分自编码器的语音刺激连续统合成方法,包括以下步骤:
S1、从原始语音信号中提取关键声学线索;
S2、基于变分自编码器进行关键声学线索建模,并进行训练;
S3、利用训练好的关键声学线索模型合成语音连续统。
优选地,所述步骤S1中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。
优选地,所述步骤S2中,变分自编码器的编码和解码都采用带有门控结构的全卷积神经网络对所述关键声学线索进行建模。
优选地,所述步骤S3包括:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
一方面,提供了一种基于变分自编码器的语音刺激连续统合成装置,包括:
提取模块,用于从原始语音信号中提取关键声学线索;
模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;
合成模块,用于利用训练好的关键声学线索模型合成语音连续统。
优选地,所述提取模块中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。
优选地,所述模型建立模块中,变分自编码器的编码和解码都采用带有门控结构的全卷积神经网络对所述关键声学线索进行建模。
优选地,所述合成模块具体用于:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
本发明实施例提供的技术方案带来的有益效果至少包括:
(1)给语音感知实验提供了新的技术路线,可以采用当前比较流行且合成质量比较高的深度学习技术来产生连续统刺激。
(2)简化了语音感知实验的流程。一般的语音感知实验所需的实验刺激,需要繁琐的手工操作,而本发明提出的方法可以让模型自动生成所需要的实验刺激。
(3)解决了现有技术中手动修改可能造成的信息损失和不自然的问题,提高了合成的连续统质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于变分自编码器的语音刺激连续统合成方法的流程图;
图2是本发明实施例提供的基于VAE的关键声学线索建模(以基频为例)示意图;
图3是本发明实施例提供的VAE示意图;
图4是本发明实施例提供的GLU示意图;
图5是本发明实施例提供的基于VAE的语音刺激连续统合成(以基频为例)示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例提供了一种基于变分自编码器的语音刺激连续统合成方法,如图1所示,所述方法包括以下步骤:
S1、从原始语音信号中提取关键声学线索。
本步骤中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。其中,关键声学线索又称关键声学参数或关键声学特征。
S2、基于变分自编码器(VAE)进行关键声学线索建模,并进行训练。
本步骤中,变分自编码器的编码(Encoder)和解码(Decoder)都采用带有门控结构GLU(Gated Linear Unit)的全卷积神经网络对所述关键声学线索进行建模。
具体地,原始语音信号的关键声学线索提取和建模如图2所示,其中VAE结构如图3所示,GLU结构如图4所示。使用WORLD声码器从原始语音信号riginal tone中提取关键声学线索,然后送入VAE模型进行训练。
S3、利用训练好的关键声学线索模型合成语音连续统。
本步骤具体包括:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
具体地,语音刺激连续统的合成如图5所示。将两个语音刺激范畴tone A、tone B的关键声学线索送进训练好的VAE模型中,通过在两个隐空间中重采样得到两个关键声学线索之间逐渐过渡的样本,最后通过WORLD声码器还原回波形信号。
本发明的上述实施例中,使用基于变分自编码器 (VAE) 的方法对原始语音信号关键声学线索的生成过程进行建模,而不是手动修改自然语音的关键声学参数。VAE是生成模型,它是基于标准自编码器(AE,一种无监督的建模方法)的正则化版本。VAE将数据(原始空间)压缩成低维变量(隐空间),同时保留尽可能多的信息;并且在隐空间中相邻的样本点对应的原始空间越相似,这就为连续统刺激的生成奠定了理论基础。
在语音刺激连续统合成中,给定一组关键声学线索(如基频),就可以在隐空间中得到动态声学线索(基频变化)的关键信息。此外,VAE对隐空间进行了约束,使得原始数据不是由单点编码,而是编码为隐空间的标准正态分布。这样一来,训练的模型能够在学习到的分布中重新采样,从而产生原始数据中不存在的新样本。这一数据驱动的方法不直接对关键声学线索进行操作,而是在学习了关键声学线索的分布后进行重新取样,从而避免了人工插值可能造成的信息损失和不自然的问题。
相应地,本发明的实施例还提供了一种基于变分自编码器的语音刺激连续统合成装置,所述装置包括:
提取模块,用于从原始语音信号中提取关键声学线索;
模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;
合成模块,用于利用训练好的关键声学线索模型合成语音连续统。
进一步地,所述提取模块中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。
进一步地,所述模型建立模块中,变分自编码器的编码和解码都采用带有门控结构的全卷积神经网络对所述关键声学线索进行建模。
进一步地,所述合成模块具体用于:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明针对语音感知实验,使用数据驱动的方式通过在隐空间中重采样合成所需要的连续统刺激,建模部分具有通用性,适用于语音信号中的各种声学线索。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于变分自编码器的语音刺激连续统合成方法,其特征在于,包括以下步骤:
S1、从原始语音信号中提取关键声学线索;
S2、基于变分自编码器进行关键声学线索建模,并进行训练;
S3、利用训练好的关键声学线索模型合成语音连续统。
2.根据权利要求1所述的基于变分自编码器的语音刺激连续统合成方法,其特征在于,所述步骤S1中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。
3.根据权利要求1所述的基于变分自编码器的语音刺激连续统合成方法,其特征在于,所述步骤S2中,变分自编码器的编码和解码都采用带有门控结构的全卷积神经网络对所述关键声学线索进行建模。
4.根据权利要求1所述的基于变分自编码器的语音刺激连续统合成方法,其特征在于,所述步骤S3包括:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
5.一种基于变分自编码器的语音刺激连续统合成装置,其特征在于,包括:
提取模块,用于从原始语音信号中提取关键声学线索;
模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;
合成模块,用于利用训练好的关键声学线索模型合成语音连续统。
6.根据权利要求5所述的基于变分自编码器的语音刺激连续统合成装置,其特征在于,所述提取模块中,使用WORLD 声码器提取基频作为关键声学线索,并对提取的基频包络进行归一化预处理。
7.根据权利要求5所述的基于变分自编码器的语音刺激连续统合成装置,其特征在于,所述模型建立模块中,变分自编码器的编码和解码都采用带有门控结构的全卷积神经网络对所述关键声学线索进行建模。
8.根据权利要求5所述的基于变分自编码器的语音刺激连续统合成装置,其特征在于,所述合成模块具体用于:
给定两个语音刺激范畴,提取两个语音刺激范畴的关键声学线索;
将提取的两个关键声学线索送入训练好的关键声学线索模型,通过所述关键声学线索模型学习两个关键声学线索对应的隐空间分布;
在两个隐空间分布之间进行连续重采样,得到两个关键声学线索之间逐渐过渡的语音刺激样本;
通过WORLD声码器将所述语音刺激样本还原回波形信号。
CN202110841392.4A 2021-07-26 2021-07-26 一种基于变分自编码器的语音刺激连续统合成方法及装置 Active CN113299267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841392.4A CN113299267B (zh) 2021-07-26 2021-07-26 一种基于变分自编码器的语音刺激连续统合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841392.4A CN113299267B (zh) 2021-07-26 2021-07-26 一种基于变分自编码器的语音刺激连续统合成方法及装置

Publications (2)

Publication Number Publication Date
CN113299267A true CN113299267A (zh) 2021-08-24
CN113299267B CN113299267B (zh) 2021-10-15

Family

ID=77330980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841392.4A Active CN113299267B (zh) 2021-07-26 2021-07-26 一种基于变分自编码器的语音刺激连续统合成方法及装置

Country Status (1)

Country Link
CN (1) CN113299267B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN109584893A (zh) * 2018-12-26 2019-04-05 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN112331183A (zh) * 2020-10-27 2021-02-05 中科极限元(杭州)智能科技股份有限公司 基于自回归网络的非平行语料语音转换方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN109584893A (zh) * 2018-12-26 2019-04-05 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN112331183A (zh) * 2020-10-27 2021-02-05 中科极限元(杭州)智能科技股份有限公司 基于自回归网络的非平行语料语音转换方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟昕孜等: "基于自编码器的语音情感识别方法研究", 《电子设计工程》 *

Also Published As

Publication number Publication date
CN113299267B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
Morrison et al. Context-aware prosody correction for text-based speech editing
CN110675853A (zh) 一种基于深度学习的情感语音合成方法及装置
JPH02234285A (ja) 画像合成方法及びその装置
CN109616131B (zh) 一种数字实时语音变音方法
CN113436606B (zh) 一种原声语音翻译方法
CN113035228A (zh) 声学特征提取方法、装置、设备及存储介质
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN117975933B (zh) 音色混合方法和装置、音频处理方法和装置、电子设备、存储介质
CN118135990A (zh) 一种结合自回归的端到端的文本合成语音方法及系统
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
CN113299267B (zh) 一种基于变分自编码器的语音刺激连续统合成方法及装置
CN117831574A (zh) 一种基于文本情感的中文情感语音合成方法、系统、设备及介质
Chu et al. CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation
Zheng et al. Incorporating ultrasound tongue images for audio-visual speech enhancement through knowledge distillation
CN117095669A (zh) 基于变分自动编码的情感语音合成方法、系统、设备及介质
CN113299270B (zh) 语音合成系统的生成方法、装置、设备及存储介质
CN116469369A (zh) 虚拟声音合成方法、装置及相关设备
CN114283784B (zh) 一种基于视觉驱动的文本转语音的方法
CN114446278A (zh) 语音合成方法及装置、设备以及存储介质
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
CN118015162B (zh) 一种基于语音韵律学分解的三维数字人头部动画生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221110

Address after: 518000 room 602, 6 / F, Langfeng building, No. 2 Kefa Road, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Ocdop Ltd.

Address before: 100083 No. 15, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIJING LANGUAGE AND CULTURE University

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210824

Assignee: Shenzhen Weiou Technology Co.,Ltd.

Assignor: Ocdop Ltd.

Contract record no.: X2023980048770

Denomination of invention: A method and device for continuous synthesis of speech stimuli based on variational autoencoder

Granted publication date: 20211015

License type: Common License

Record date: 20231128

EE01 Entry into force of recordation of patent licensing contract