CN116913301A - 一种语音克隆方法、系统及电子设备 - Google Patents
一种语音克隆方法、系统及电子设备 Download PDFInfo
- Publication number
- CN116913301A CN116913301A CN202310346015.2A CN202310346015A CN116913301A CN 116913301 A CN116913301 A CN 116913301A CN 202310346015 A CN202310346015 A CN 202310346015A CN 116913301 A CN116913301 A CN 116913301A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- cloning
- source
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010367 cloning Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000009467 reduction Effects 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本说明书公开了一种语音克隆方法、系统及电子设备,能够在低资源情况下实现高保真的语音克隆与音色复刻。所述方法包括获取源音频数据与目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;对所述录制音频进行差异化降噪处理,以生成去噪音频;分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。所述系统包括:数据获取单元、源音频降噪单元、特征提取单元、克隆模型训练单元、语音克隆单元。所述电子设备中的处理器用于执行所述语音克隆方法。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种语音克隆方法、系统及电子设备。
背景技术
随着人工智能技术的发展,标准的语音合成技术(TTS)日渐成熟。然而用户的需求是多种多样的,目前市面上标准的语音合成技术难以满足用户的个性化需求。其原因在于:1)标准TTS需要在录音棚录制的大量的高品质音频进行模型的训练,这代价是极其昂贵的,需要专业的声优精心录制以及标注人员后期仔细校对;2)标准TTS无法完成用户音色的复刻,许多场景下用户需要定制自己的音色以实现差异化的产品输出,比如短视频配音,用户希望字幕上的文本通过自己的声音合成出来,而不是使用标准TTS合成一些限定音色的配音。
语音克隆旨在摆脱标准TTS上述的诸多限制,让用户以极小的代价定制自己的音色。用户不需要进入苛刻的录音环境(录音棚)利用高品质的麦克风进行录音,只需在稍微安静的场所使用便携式的拾音设备录制少量的音频即可。这也为语音克隆带来极大的挑战,录制音频不可避免地掺杂环境噪声,毕竟理想的录制场所在生活场景中难以满足;其次,少量的录制音频也为语音克隆模型的学习提升不少难度,需要模型在低资源下保证合成音频发音的稳定性以及音色的高相似性。因此,目前业界的语音克隆技术难以达到低资源下噪声鲁棒的高保真的音色复刻。
发明内容
有鉴于此,本说明书实施例提供了一种语音克隆方法、系统及电子设备,能够在低资源情况下实现高保真的语音克隆与音色复刻。
根据第一方面,本说明书实施例提供了一种语音克隆方法,所述方法包括:
获取用户的源音频数据以及待克隆的目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;
对所述录制音频进行差异化降噪处理,以生成去噪音频;
分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;
基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;
利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
可选的,所述方法在对所述源音频数据进行差异化降噪处理前,还包括对所述源音频数据进行字准检测;
对所述源音频数据进行字准检测,包括:
将所述源文本与所述录制音频的内容进行对比,以确定所述源文本与所述录制音频的一致性系数;
响应于所述一致性系数低于预设系数阈值,剔除所述录制音频。
可选的,对所述录制音频进行差异化降噪处理,以生成去噪音频,包括:
针对所述录制音频进行静音检测,以将所述录制音频划分为人声音频与非人声音频;
针对所述非人声音频进行第一降噪处理,生成强降噪音频;
针对所述人声音频进行第二降噪处理,生成弱降噪音频;
将所述强降噪音频与所述弱降噪音频组合生成所述去噪音频。
可选的,分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据,包括:
针对所述源文本,计算相应的音素序列作为所述音素特征数据;
针对所述去噪音频,提取相应的梅尔频谱以及音高、时长作为所述声学特征数据。
可选的,基于所述音素特征数据与所述声学特征数据对克隆模型进行训练,包括:
以所述音素特征数据作为所述克隆模型的输入数据,将所述音素特征数据转化为音素嵌入;
根据所述音素嵌入结合所述源音频数据对应的用户身份信息,依次预测生成句子级预测韵律、音素级预测韵律、预测音高与预测时长;
汇总所述句子级预测韵律、所述音素级预测韵律、所述预测音高与所述预测时长,生成预测梅尔频谱;
将所述预测梅尔频谱与所述声学特征数据进行对比,根据对比结果对所述克隆模型进行优化训练。
可选的,所述方法在对所述克隆模型进行训练前,还包括利用公共音色数据对所述克隆模型进行预训练。
可选的,利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频,包括:
将所述目标文本数据转换为目标音素序列;
利用训练好的所述克隆模型对所述目标音素序列进行处理,生成对应的预测梅尔频谱;
利用声码器将所述预测梅尔频谱映射生成所述目标音频。
可选的,将所述目标文本数据转换为目标音素序列时,还包括对所述目标文本进行文本规范化、韵律预测与多音字消歧处理。
在第二方面,本说明书实施例还提供了一种语音克隆系统,所述系统包括:
数据获取单元,用于获取用户的源音频数据以及待克隆的目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;
源音频降噪单元,用于对所述录制音频进行差异化降噪处理,以生成去噪音频;
特征提取单元,用于分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;
克隆模型训练单元,用于基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;以及
语音克隆单元,用于利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
在第三方面,本说明书实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的语音克隆方法。
从上面可以看出,本说明书实施例所提供的一种语音克隆方法、系统及电子设备,具有如下有益的技术效果:
对所述源音频数据中录制音频的人声部分与非人声部分进行差异化降噪处理,减少环境噪声影响的同时保证人声数据的高保真性。针对所述源文本及所述去噪音频进行特征提取,从音素与声学两方面获取所述源音频数据中的特征信息,基于特征信息对克隆模型进行学习训练,使所述克隆模型能够对用户的语音音色特征进行准确复刻。最终,利用训练好的克隆模型针对所述目标文本数据进行处理,所生成的目标音频具有高相似度的音色以及高保真的音质。这样的方式,基于低资源的音频数据进行去噪即特征提取,即可以实现高相似度高保真的语音克隆及音色复刻。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本说明书一个或多个可选实施例所提供的一种语音克隆方法示意图;
图2示出了本说明书一个或多个可选实施例所提供的一种语音克隆方法中生成去噪音频的方法示意图;
图3示出了本说明书一个或多个可选实施例所提供的一种语音克隆方法中克隆模型结构示意图;
图4示出了本说明书一个或多个可选实施例所提供的一种语音克隆方法中生成目标音频的方法示意图;
图5示出了本说明书一个或多个可选实施例所提供的一种语音克隆系统结构示意图;
图6示出了本说明书一个或多个可选实施例所提供的一种语音克隆电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着人工智能技术的发展,标准的语音合成技术(TTS)日渐成熟。然而用户的需求是多种多样的,目前市面上标准的语音合成技术难以满足用户的个性化需求。其原因在于:1)标准TTS需要在录音棚录制的大量的高品质音频进行模型的训练,这代价是极其昂贵的,需要专业的声优精心录制以及标注人员后期仔细校对;2)标准TTS无法完成用户音色的复刻,许多场景下用户需要定制自己的音色以实现差异化的产品输出,比如短视频配音,用户希望字幕上的文本通过自己的声音合成出来,而不是使用标准TTS合成一些限定音色的配音。
语音克隆旨在摆脱标准TTS上述的诸多限制,让用户以极小的代价定制自己的音色。用户不需要进入苛刻的录音环境(录音棚)利用高品质的麦克风进行录音,只需在稍微安静的场所使用便携式的拾音设备录制少量的音频即可。这也为语音克隆带来极大的挑战,录制音频不可避免地掺杂环境噪声,毕竟理想的录制场所在生活场景中难以满足;其次,少量的录制音频也为语音克隆模型的学习提升不少难度,需要模型在低资源下保证合成音频发音的稳定性以及音色的高相似性。因此,目前业界的语音克隆技术难以达到低资源下噪声鲁棒的高保真的音色复刻。
针对上述问题,本说明书实施例目的在于提出一种低资源高保真的语音克隆方法,从低资源的源音频中提取信息丰富的特征数据对克隆模型进行训练,实现高保真强鲁棒性地语音克隆。
基于上述目的,在一方面本说明书实施例提供了一种语音克隆方法。
如图1所示,本说明书一个或多个可选实施例所提供的一种语音克隆方法中,包括:
S1:获取用户的源音频数据以及待克隆的目标文本数据。所述源音频数据包括源文本以及与所述源文本相应的录制音频。
用户在需要进行语音克隆时,可以先在稍微安静的场所录制一段音频作为所述源音频数据中的所述录制音频。在录制时,可以按照预先给定的上述源文本进行语音录制,或者录制完成之后与所述录制音频对应的文本数据作为所述源文本。
S2:对所述录制音频进行差异化降噪处理,以生成去噪音频。
所述录制音频可能因用户自身活动或者录制环境等因素影响存在非人声数据干扰,可以利用去噪模型针对所述录制音频进行差异化的降噪处理,生成去噪音频。
S3:分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据。
对于去噪后的数据,从中提取有效的特征以供模型训练。作为具体实施方式,针对所述源文本,计算相应的音素序列作为所述音素特征数据。针对所述去噪音频,提取相应的梅尔频谱以及音高、时长作为所述声学特征数据。
S4:基于所述音素特征数据与所述声学特征数据对克隆模型进行训练。
利用从所述源文本与所述去噪音频中提取出的特征数据,对所述克隆模型进行训练,使所述克隆模型能够对用户的语音音色特征进行准确复刻。
S5:利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
可以针对所述目标文本数据确定对应的音素序列,并利用训练好的上述克隆模型将其转化为梅尔频谱,并对转化得到的梅尔频谱进行映射从而生成与所述目标文本数据相对应的所述目标音频。
所述语音克隆方法,对所述源音频数据中录制音频的人声部分与非人声部分进行差异化降噪处理,减少环境噪声影响的同时保证人声数据的高保真性。针对所述源文本及所述去噪音频进行特征提取,从音素与声学两方面获取所述源音频数据中的特征信息,基于特征信息对克隆模型进行学习训练,使所述克隆模型能够对用户的语音音色特征进行准确复刻。最终,利用训练好的克隆模型针对所述目标文本数据进行处理,所生成的目标音频具有高相似度的音色以及高保真的音质。这样的方式,基于低资源的音频数据进行去噪即特征提取,即可以实现高相似度高保真的语音克隆及音色复刻。
本说明书一个或多个可选实施例所提供的一种语音克隆方法,在对所述源音频数据进行差异化降噪处理前,还包括对所述源音频数据进行字准检测。对所述源音频数据进行字准检测,包括:
将所述源文本与所述录制音频的内容进行对比,以确定所述源文本与所述录制音频的一致性系数;
响应于所述一致性系数低于预设系数阈值,剔除所述录制音频。
对所述源文本与对应的所述录制音频的内容进行一致性检测,若录制音频的内容与源文本的内容出入过大,所获取的所述源音频数据不合格。需要提出所述录制音频,并生成提示信息,以提醒用户重新录制。
如图2所示,在本说明书一个或多个可选实施例所提供的一种语音克隆方法中,对所述录制音频进行差异化降噪处理,以生成去噪音频,包括:
S201:针对所述录制音频进行静音检测,以将所述录制音频划分为人声音频与非人声音频。
S202:针对所述非人声音频进行第一降噪处理,生成强降噪音频。
即使用户所处的环境非常安静,在音频录制的过程中用户也可能因自身活动产生一些非说话声音掺杂到所述录制音频中,这会带来较大影响。特别的,尤其是音频开始处会经常出现较大的其他声音(比如用户吞口水声,设备的咔吱声等)。可以首先对所述录制音频中的非人声部分进行第一降噪处理,以剔除所述非人声音频中比较强烈的噪声。其中进行第一降噪处理时可以选用强降噪模型。这样能够有效剔除所述非人声音频中的环境噪音或其他人为操作噪音。
S203:针对所述人声音频进行第二降噪处理,生成弱降噪音频。
音频去噪是以音频失真的代价进行噪音的消除的,越强的去噪模型去噪效果越好,但是音频的失真程度越大,针对人声部分需要避免其内容失真。因此对于所述人声音频进行第二降噪处理,生成所述弱降噪音频。进行第二降噪处理时可以选用弱降噪模型。
S204:将所述强降噪音频与所述弱降噪音频组合生成所述去噪音频。
在所述语音克隆方法中,针对人声和非人声部分的差异化去噪对语音克隆的噪声鲁棒性和高保真性具有非常积极的作用。可以理解的是,所述强降噪模型的降噪dB值大于所述弱降噪模型的降噪dB值,实际应用过程中,二者降噪程度参数可以根据具体场景情况进行灵活调整。
在本说明书一个或多个可选实施例所提供的一种语音克隆方法中,基于所述音素特征数据与所述声学特征数据对克隆模型进行训练,包括:
以所述音素特征数据作为所述克隆模型的输入数据,将所述音素特征数据转化为音素嵌入。
根据所述音素嵌入结合所述源音频数据对应的用户身份信息,依次预测生成句子级预测韵律、音素级预测韵律、预测音高与预测时长。
汇总所述句子级预测韵律、所述音素级预测韵律、所述预测音高与所述预测时长,生成预测梅尔频谱。
将所述预测梅尔频谱与所述声学特征数据进行对比,根据对比结果对所述克隆模型进行优化训练。
如图3所示,为所述克隆模型的模型结构示意图。所述克隆模型包括编码单元Encoder与解码单元Decoder。在编码单元Encoder中,所述音素特征数据为输入Input,将所述音素特征数据转化为所述音素嵌入(phoneme embedding),结合所述用户身份信息(Speaker id),所述编码单元Encoder中,句子级韵律预测器(sentence levelprosodypredictor),音素级韵律预测器(phoneme level prosodypredictor)、音高预测器(pitchpredictor)以及时长预测器(durationpredictor)依次层级地进行预测,生成句子级预测韵律、音素级预测韵律、预测音高与预测时长。在解码单元Decoder中,汇总所述句子级预测韵律、所述音素级预测韵律、所述预测音高与所述预测时长,生成预测梅尔频谱(Melspectrum)。
所述克隆模型通过提取句子级韵律和音素级韵律信息,Decoder接收到更多丰富的细节信息,能更完美的重建梅尔频谱。因此,在少样本情况下所述克隆模型由于更细粒度的韵律建模,也能保证高保真的音频合成,同时更具用户说话的风格。
一些可选实施例中,在对所述克隆模型进行训练前,还包括利用公共音色数据对所述克隆模型进行预训练。在预训练后,再基于所述音素特征数据与所述声学特征数据进行训练,能够实现细粒度的音声微调克隆。
如图4所示,在本说明书一个或多个可选实施例所提供的一种语音克隆方法中,利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频,包括:
S401:将所述目标文本数据转换为目标音素序列。
可以将所述目标文本数据转换为目标音素序列,并在所述目标音素序列的适当位置添加韵律标签。一些可选实施例中,将所述目标文本数据转换为目标音素序列时,还包括对所述目标文本进行文本规范化、韵律预测与多音字消歧处理。其中文本规范化希望将文本中的简写或者数字等进行读音的规范,韵律预测则是为了在句子该有停顿的地方打上对应的标签,多音字消岐旨在对文本中的多音字进行读音的唯一性确认。
S402:利用训练好的所述克隆模型对所述目标音素序列进行处理,生成对应的预测梅尔频谱。
S403:利用声码器将所述预测梅尔频谱映射生成所述目标音频。
所述声码器可以选用HIFI-GAN模型将所述预测梅尔频谱映射转换为所述目标音频。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书实施例还提供了一种语音克隆系统。
参考图5,所述语音克隆系统,包括:
数据获取单元,用于获取用户的源音频数据以及待克隆的目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;
源音频降噪单元,用于对所述录制音频进行差异化降噪处理,以生成去噪音频;
特征提取单元,用于分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;
克隆模型训练单元,用于基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;以及
语音克隆单元,用于利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
本说明书一个或多个可选实施例所提供的一种语音克隆系统,还包括字准检测单元。所述字准检测单元,用于在对所述源音频数据进行差异化降噪处理前对所述源音频数据进行字准检测。所述字准检测单元,还用于将所述源文本与所述录制音频的内容进行对比,以确定所述源文本与所述录制音频的一致性系数;在所述一致性系数低于预设系数阈值时,剔除所述录制音频。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述源音频降噪单元,还用于针对所述录制音频进行静音检测,以将所述录制音频划分为人声音频与非人声音频;针对所述非人声音频进行第一降噪处理,生成强降噪音频;针对所述人声音频进行第二降噪处理,生成弱降噪音频;将所述强降噪音频与所述弱降噪音频组合生成所述去噪音频。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述特征提取单元,还用于针对所述源文本,计算相应的音素序列作为所述音素特征数据;针对所述去噪音频,提取相应的梅尔频谱以及音高、时长作为所述声学特征数据。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述克隆模型训练单元,还用于以所述音素特征数据作为所述克隆模型的输入数据,将所述音素特征数据转化为音素嵌入;根据所述音素嵌入结合所述源音频数据对应的用户身份信息,依次预测生成句子级预测韵律、音素级预测韵律、预测音高与预测时长;汇总所述句子级预测韵律、所述音素级预测韵律、所述预测音高与所述预测时长,生成预测梅尔频谱;将所述预测梅尔频谱与所述声学特征数据进行对比,根据对比结果对所述克隆模型进行优化训练。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述克隆模型训练单元在对所述克隆模型进行训练前,还用于利用公共音色数据对所述克隆模型进行预训练。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述语音克隆单元,还用于将所述目标文本数据转换为目标音素序列;利用训练好的所述克隆模型对所述目标音素序列进行处理,生成对应的预测梅尔频谱;利用声码器将所述预测梅尔频谱映射生成所述目标音频。
在本说明书一个或多个可选实施例所提供的一种语音克隆系统中,所述语音克隆单元,还用于对所述目标文本进行文本规范化、韵律预测与多音字消歧处理。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的语音克隆方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语音克隆方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种语音克隆方法,其特征在于,所述方法包括:
获取用户的源音频数据以及待克隆的目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;
对所述录制音频进行差异化降噪处理,以生成去噪音频;
分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;
基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;
利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
2.根据权利要求1所述的方法,其特征在于,在对所述源音频数据进行差异化降噪处理前,还包括对所述源音频数据进行字准检测;
对所述源音频数据进行字准检测,包括:
将所述源文本与所述录制音频的内容进行对比,以确定所述源文本与所述录制音频的一致性系数;
响应于所述一致性系数低于预设系数阈值,剔除所述录制音频。
3.根据权利要求1所述的方法,其特征在于,对所述录制音频进行差异化降噪处理,以生成去噪音频,包括:
针对所述录制音频进行静音检测,以将所述录制音频划分为人声音频与非人声音频;
针对所述非人声音频进行第一降噪处理,生成强降噪音频;
针对所述人声音频进行第二降噪处理,生成弱降噪音频;
将所述强降噪音频与所述弱降噪音频组合生成所述去噪音频。
4.根据权利要求1所述的方法,其特征在于,分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据,包括:
针对所述源文本,计算相应的音素序列作为所述音素特征数据;
针对所述去噪音频,提取相应的梅尔频谱以及音高、时长作为所述声学特征数据。
5.根据权利要求4所述的方法,且特征在于,基于所述音素特征数据与所述声学特征数据对克隆模型进行训练,包括:
以所述音素特征数据作为所述克隆模型的输入数据,将所述音素特征数据转化为音素嵌入;
根据所述音素嵌入结合所述源音频数据对应的用户身份信息,依次预测生成句子级预测韵律、音素级预测韵律、预测音高与预测时长;
汇总所述句子级预测韵律、所述音素级预测韵律、所述预测音高与所述预测时长,生成预测梅尔频谱;
将所述预测梅尔频谱与所述声学特征数据进行对比,根据对比结果对所述克隆模型进行优化训练。
6.根据权利要求5所述的方法,其特征在于,在对所述克隆模型进行训练前,还包括利用公共音色数据对所述克隆模型进行预训练。
7.根据权利要求1所述的方法,其特征在于,利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频,包括:
将所述目标文本数据转换为目标音素序列;
利用训练好的所述克隆模型对所述目标音素序列进行处理,生成对应的预测梅尔频谱;
利用声码器将所述预测梅尔频谱映射生成所述目标音频。
8.根据权利要求7所述的方法,其特征在于,将所述目标文本数据转换为目标音素序列时,还包括对所述目标文本进行文本规范化、韵律预测与多音字消歧处理。
9.一种语音克隆系统,其特征在于,所述系统包括:
数据获取单元,用于获取用户的源音频数据以及待克隆的目标文本数据,所述源音频数据包括源文本以及与所述源文本相应的录制音频;
源音频降噪单元,用于对所述录制音频进行差异化降噪处理,以生成去噪音频;
特征提取单元,用于分别从所述源文本与所述去噪音频中提取音素特征数据与声学特征数据;
克隆模型训练单元,用于基于所述音素特征数据与所述声学特征数据对克隆模型进行训练;以及
语音克隆单元,用于利用训练好的所述克隆模型对所述目标文本数据进行处理,以生成与所述目标文本数据对应的目标音频。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310346015.2A CN116913301A (zh) | 2023-03-31 | 2023-03-31 | 一种语音克隆方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310346015.2A CN116913301A (zh) | 2023-03-31 | 2023-03-31 | 一种语音克隆方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116913301A true CN116913301A (zh) | 2023-10-20 |
Family
ID=88365554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310346015.2A Pending CN116913301A (zh) | 2023-03-31 | 2023-03-31 | 一种语音克隆方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913301A (zh) |
-
2023
- 2023-03-31 CN CN202310346015.2A patent/CN116913301A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP7244665B2 (ja) | エンドツーエンドの音声変換 | |
US8447592B2 (en) | Methods and apparatus for formant-based voice systems | |
CN111369971B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN111899719A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN110599998B (zh) | 一种语音数据生成方法及装置 | |
US11120785B2 (en) | Voice synthesis device | |
CN110992926B (zh) | 语音合成方法、装置、系统和存储介质 | |
CN112927674B (zh) | 语音风格的迁移方法、装置、可读介质和电子设备 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN111369968A (zh) | 声音复制方法、装置、可读介质及电子设备 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN116129856A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN113421571B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
CN116913301A (zh) | 一种语音克隆方法、系统及电子设备 | |
CN114842828A (zh) | 一种合成语音的音量控制方法及装置 | |
CN111916095B (zh) | 语音增强方法、装置、存储介质及电子设备 | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 | |
KR102457822B1 (ko) | 자동 통역 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |