CN118053415A - 语音合成方法及装置、电子设备及存储介质 - Google Patents
语音合成方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118053415A CN118053415A CN202410202651.2A CN202410202651A CN118053415A CN 118053415 A CN118053415 A CN 118053415A CN 202410202651 A CN202410202651 A CN 202410202651A CN 118053415 A CN118053415 A CN 118053415A
- Authority
- CN
- China
- Prior art keywords
- target
- audio
- accent
- tone
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000001308 synthesis method Methods 0.000 title abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 21
- 238000003786 synthesis reaction Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明的实施方式提供了一种语音合成方法及装置、电子设备及存储介质。其中,方法包括:获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,目标口音标签用于指示对应的目标语种以及用于呈现语种的目标口音;对目标音频进行语音识别,得到目标音频对应的目标文本;根据目标文本以及目标口音标签,得到用于通过目标语种以及目标口音呈现目标文本的处理后音频;在目标音频中提取得到目标对象对应的目标音色特征,其中,目标音色特征用于指示目标对象的目标音色;按照目标音色特征对处理后音频中的原始音色进行转换,得到目标音色的口音转换音频。通过本公开降低了合成的语音质量差的技术问题。
Description
技术领域
本发明的实施方式涉及音频处理技术领域,更具体地,本发明的实施方式涉及语音合成方法及装置、电子设备及存储介质。
背景技术
目前,人们对学习外语(例如,英语)的需求越来越多。学习外语通常涉及到听说读写。在学习外语的听力部分,人们不再满足于只听传统的“播音腔”外语,而更希望聆听地道的、生活化的甚至带有口音的外语。然而地道的、生活化的,带有口音的外语音频并不容易获得,通常是想听的口音没有想听的内容,或者想听的内容没有相同的口音。如果直接与真人沟通,这种机会不多也不容易得到。如果聘请老师,则需要高昂的价格。所以如果有一个AI模型,它能够生成出任意地道的、生活化的,带有口音的外语,则可以帮助人们更容易的练习外语听力。
在现有技术中,已经出现一些以神经网络为基础的语音合成系统,语音合成系统能够合成出发音清晰,语调自然,音质好的语音,同时还能保证较低的延迟。在语音合成中,输入除了语言信息之外,通常还需提供像说话人,口音,语言,情感等其他信息来达到更好的合成效果。尽管现有技术能够在指定某个出现在训练集中的说话人上合成出像真人一样的语音,但是在零样本的场景下,合成语音会出现机械感,音色不像,发音错误,音质差等问题。
由此可见,现有技术中的语音合成在零样本的场景下,存在合成语音质量差的技术问题。
发明内容
但是,出于零样本的场景下的合成的语音存在机械感,音色不像,发音错误,音质差等问题的原因,现有技术存在语音质量差的技术问题。
因此在现有技术中语音合成在零样本的场景下,存在合成语音质量差的技术问题,这是非常令人烦恼的过程。
为此,非常需要一种改进的零样本场景下的语音合成方法,以使合成带有口音的外语语音。
在本上下文中,本发明的实施方式期望提供一种语音合成方法及装置、电子设备及存储介质。
在本发明实施方式的第一方面中,提供了一种语音合成方法,包括:
获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;
对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;
根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;
在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;
按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频。
可选地,如前述的方法,所述根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频,包括:
确定出与所述目标文本对应的语义特征;确定出所述目标口音标签对应的目标口音特征;
对所述语义特征以及所述目标口音特征进行融合,得到第一融合后特征;
基于所述融合后特征得到所述处理后音频。
可选地,如前述的方法,所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频,包括:
在所述处理后音频中提取得到语义特征;在所述处理后音频中提取得到音调特征;
对所述语义特征、所述音调特征以及所述目标音色特征进行融合,得到第二融合后特征;
基于所述第二融合后特征生成所述口音转换音频。
可选地,如前述的方法,所述按照所述目标音色特征对所述处理后音频中的原始音色进行处理,得到所述目标音色的合成音频,包括:
确定出所述目标音频的当前音频时长;
按照所述当前音频时长确定出目标音频时长;
按照所述目标音色特征以及所述目标音频时长,对所述处理后音频中的原始音色进行处理,得到时长为所述目标音频时长且音色为所述目标音色的所述合成音频。
可选地,如前述的方法,所述获取目标对象的目标音频,包括:
获取原始音频;
对所述原始音频进行人声分离,得到人声音频以及背景音频;
通过判断所述人声音频中每个音频片段对应的候选对象,对所述人声音频进行切割,得到与每个候选对象对应的候选音频;
在所述候选音频中确定出所述目标音频。
可选地,如前述的方法,在所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频之后,所述方法还包括:
将所述背景音频与所述口音转换音频进行合成,得到合成口音音频。
可选地,如前述的方法,所述获取目标对象对应的目标口音标签,包括:
将所有候选口音标签中被选择所述候选口音标签确定为所述目标口音标签;或者,
获取与目标对象对应的目标口音音频;对所述目标口音音频的语种以及口音进行识别,得到所述目标口音标签。
在本发明实施方式的第二方面中,提供了一种语音合成装置,包括:
获取模块,用于获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;
识别模块,用于对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;
处理模块,用于根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;
音色提取模块,用于在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;
音色转换模块,用于按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频。
在本发明实施方式的第三方面中,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行前述任一项实施例所述的方法。
在本发明实施方式的第四方面中,提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行前述任一项实施例中所述的方法。
根据本发明实施方式的语音合成方法及装置、电子设备及存储介质。方法,包括:获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频;从而可以实现在无样本的情况下,同时实现口音语音合成以及口音语音转换,并得到与目标对象的目标音色一致的口音转换音频;且通过目标口音标签可以使口音转换音频能够语调更为自然,从而显著地降低了合成的语音质量差的技术问题,可以得到语调自然,音质好的语音,为用户带来了更好的体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的语音合成方法的流程示意图;
图2示意性地示出了根据本发明一应用例的语音合成方法的流程示意图;
图3示意性地示出了根据本发明一个实施例的语音合成装置的框图;
图4示意性地示出了根据本发明示例性实施方式的电子设备。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
发明概述
本发明人发现,在现有技术中,已经出现一些以神经网络为基础的语音合成系统,语音合成系统能够合成出发音清晰,语调自然,音质好的语音,同时还能保证较低的延迟。在语音合成中,输入除了语言信息之外,通常还需提供像说话人,口音,语言,情感等其他信息来达到更好的合成效果。尽管现有技术能够在指定某个出现在训练集中的说话人上合成出像真人一样的语音,但是在零样本(即,未使用说话人语音对应的样本进行模型训练)的场景下,合成语音会出现机械感,音色不像,发音错误,音质差等问题。
本发明提供一种语音合成方法,包括:获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频。以使合成带有口音的外语语音。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
在本实施例中,上述语音合成方法可以应用于将用户上传的目标音频转换为用户指定的语种以及口音,且保留有用户自身音色的音频的场景。
示例性方法
下面结合图1的方法流程示意图,来描述根据本发明示例性实施方式的语音合成方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图1所示,在本发明实施方式的第一方面中,提供了语音合成方法,包括如下所述步骤:
步骤S101,获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,目标口音标签用于指示对应的目标语种以及用于呈现语种的目标口音。
具体的,目标对象的目标音频可以是需要进行转换的音频。
可选地,目标音频可以是由目标对象通过预设接口上传的、预先录制得到的音频,也可以是目标对象通过实时语音信息采集得到的音频。
作为一种可选的实施例,获取目标对象的目标音频,可以通过如下所述步骤实现:
获取原始音频;对原始音频进行人声分离,得到人声音频以及背景音频;通过判断人声音频中每个音频片段对应的候选对象,对人声音频进行切割,得到与每个候选对象对应的候选音频;在候选音频中确定出目标音频。例如,可以通过语音分离技术得到每个说话人的日志,然后按照每个说话人的日志对人声音频进行切割,以将混合的人声音频中的不同说话者(即,不同的候选对象)的语音分离开来。这样一来,就可以确定每个音频片段对应于哪个候选对象的说话内容,进而可以得到与每个候选对象对应的候选音频。
作为一种可选的实施例,如前述的方法,获取目标对象对应的目标口音标签,包括:
将所有候选口音标签中被选择候选口音标签确定为目标口音标签;或者,
获取与目标对象对应的目标口音音频;对目标口音音频的语种以及口音进行识别,得到目标口音标签。
目标口音标签可包括:目标语种信息以及目标口音信息;其中,目标语种信息可以是用于表征所要将目标音频转换至的语种,例如,当目标音频是普通话音频的情况下,目标语种可以是英语、日语等等;在目标语种是英语的情况下,目标口音可以是英国口音、美国口音、印度口音等等口音类型,进一步的,目标口音信息除了包括口音类型之外,还可以包括:口音轻重程度。例如,当口音类型为英国口音时,口音轻重程度还可以包括:英国口音轻、英国口音中等、英国口音重等等,来表征出英国口音的各种轻重程度。
步骤S102,对目标音频进行语音识别,得到目标音频对应的目标文本。
具体的,为了实现音频的转换,在本实施例中,需要对目标音频进行语音识别,从而得到目标音频对应的语义信息,进而得到目标音频对应的目标文本。
可选地,可以通过语音识别系统对该目标音频进行识别,以得到对应的目标文本。例如,可以通过将目标音频作为输入提供给语音识别模型,然后由语音识别模型(例如,HMM-GMM模型、DNN-HMM模型、CTC模型、Transformer模型、End-to-End模型等等)来对音频进行识别,语音识别模型通常是基于深度学习的端到端模型,能够将音频信号映射到文本输出;最终,语音识别模型会输出识别出的文本内容,即目标文本。
步骤S103,根据目标文本以及目标口音标签,得到用于通过目标语种以及目标口音呈现目标文本的处理后音频。
具体的,在确定出目标文本以及目标口音标签之后,可以按照目标口音标签中的相关信息,将该目标文本转换为目标语种,且为目标口音的处理后音频。
步骤S104,在目标音频中提取得到目标对象对应的目标音色特征,其中,目标音色特征用于指示目标对象的目标音色。
具体的,在得到处理后音频之后,由于需要令最终生成的音频还能保留目标音频中原始音色,因此,需要在目标音频中进行音色的提取,提取得到目标音色特征。
目标音色特征可以是用于指示目标对象的目标音色的特征信息,例如向量信息。
例如,可以通过使用五个Conv1d(即,卷积层)为基础的音色编码器(即,SpeakerEncoder)或者ECAPA TDNN(Emphasized Channel Attention,Propagation andAggregation-Time Delay Neural Network)模型来提取目标音色特征。
步骤S105,按照目标音色特征对处理后音频中的原始音色进行转换,得到目标音色的口音转换音频。
具体的,由前述步骤已经合成得到了通过目标语种以及目标口音呈现目标文本的处理后音频,为了使最终生成的音频可以保留目标对象本人的音色,可以根据提取得到的该目标对象的目标音色特征对处理后音频进行处理,并使最终得到的音频可以保留目标音频中目标对象的目标音色,从而既能实现语种以及口音的转换,还能够保留目标对象本人的音色特点。
通过本实施例的方法,由于可以通过目标口音标签得到用于指示对应的目标语种以及用于呈现语种的目标口音,并合成得到通过目标语种以及目标口音呈现目标文本的处理后音频,最后直接基于目标音频中提取得到目标对象对应的目标音色特征得到目标音色的口音转换音频,从而即使没有目标对象的训练样本的(即,零样本)的情况下,也能够同时实现口音语音合成以及口音语音转换,并得到与目标对象的目标音色一致的口音转换音频。
作为一种可选的实施例,如前述的方法,所述步骤S103根据目标文本以及目标口音标签,得到用于通过目标语种以及目标口音呈现目标文本的处理后音频,包括如下所述步骤:
步骤201,确定出与目标文本对应的语义特征。
具体的,可以通过预设的语义模型(例如,词向量模型、句向量模型、预训练语言模型、主题模型、知识图谱、语义匹配模型等等),对目标文本进行语义提取,得到该语义特征。
步骤202,确定出目标口音标签对应的目标音调特征。
具体的,可以通过预设口音标签对应的音调特征之间的对应关系,然后基于目标口音标签,查询得到对应的目标音调特征。也就是说,本实施例中,可以在服务器中预先存储有不同的音调特征,并预先设置预设口音标签与音调特征之间的对应关系,然后由用户在所有预设口音标签中选择出目标口音标签,进而确定出对应的目标音调特征。
进一步的,目标口音标签可以包括口音轻重程度ID以及口音ID,进而可以得到口音轻重程度子特征以及口音类型子特征,也即,目标口音特征包括该口音轻重程度子特征以及口音类型子特征。
此外,目标口音标签还可以基于音频信息提取得到,可以预先训练得到能够用于进行分类的分类模型(例如,可以将训练用的音频信息输入的语音特征提取模型(如Mel频谱图)或直接使用原始音频数据,提取表示音频特征的向量,然后将提取得到的特征向量输入到初始分类模型中,以对其进行训练),因此,在确定出音频信息之后,可以将该音频信息输入预设的口音特征分类模型中,然后通过该口音特征分类模型提取得到对应的目标口音标签。与前述示例相似的,目标口音特征也可包括口音轻重程度子特征以及口音类别子特征。步骤203,对语义特征以及目标口音特征进行融合,得到第一融合后特征。
具体的,可以通过将语义特征和目标口音特征进行拼接或者相加的方式,以达到对语义特征以及目标口音特征进行融合的目的。例如,目标口音特征在时间维度为1,因此可以与语义特征输出进行融合,可选地,可以通过一层Linear(即,全连接层),并且无需加入非线性的方式对语义特征以及目标口音特征进行融合,得到第一融合后特征。
步骤204,基于融合后特征得到处理后音频。
具体的,在得到融合后特征之后,可以通过对融合后特征依次通过decoder(即,解码器)以及vocoder(即,声码器)进行处理,以得到处理后音频。
进一步的,为了提升语音合成的自然度,还可以同时考虑到语音时长与说话人,口音,语义,阴阳顿挫等相关信息。可选地,可以采用JETS(一种基于FastSpeech2和HiFi-GAN的E2E-TTS模型)提升语音合成的自然度。
在声码器(vocoder)的选择上,可以选择HiFi-Gan。通常使用真实梅尔频谱(melspectrogram)训练完声码器后,会使用训练好的声学模型生成的梅尔频谱(melspectrogram)作为声码器的输入进行微调。而本实施例中,将声学模型(即,用于执行步骤201至203的模型)的输出直接作为声码器的输入,从而组成一个新的模型,新的模型中的声学模型以及声码器的权重分别通过之前训练好的声学模型的权重以及声码器的权重进行初始化,并可在初始化之后对新的模型中的权重进行进一步微调。该微调将极大程度上优化语音合成模型的合成。
作为一种可选的实施例,如前述的方法,按照目标音色特征对处理后音频中的原始音色进行转换,得到目标音色的口音转换音频,包括如下所述步骤:
步骤301,在处理后音频中提取得到语义特征。
具体的,可以通过语义特征提取模型,对处理后音频进行语义特征的提取,以得到语义特征。
例如,可以使用预训练好的语音识别模型,取其中间特征phoneticposteriorgram(ppg),来得到语义特征。
步骤302,在处理后音频中提取得到音调特征。
可选的,可以通过原音频中提取帧级别音高(即,pitch)并通过一层卷积层来得到音调特征。
步骤303,对语义特征、音调特征以及目标音色特征进行融合,得到第二融合后特征。
在得到语义特征、音调特征以及目标音色特征之后,可以通过解码器(即,decoder)对语义特征、音调特征以及目标音色特征进行融合,从而得到第二融合后特征,通过该第二融合后特征可以同时表征出语义、音调以及音色。
步骤304,基于第二融合后特征生成口音转换音频。
在确定出第二融合后特征之后,还可以通过目标音色特征以及第二融合后特征通过声码器(即,vocoder)进行处理,以将第二融合后特征以及目标音色特征转换为音频,并得到口音转换音频,并且,采用在通过声码器处理过程中再次输入目标音色特征,可以使生成的口音转换音频与目标对象的音色更为贴合。
作为一种可选的实施例,如前述的方法,所述步骤S105按照目标音色特征对处理后音频中的原始音色进行处理,得到目标音色的合成音频,包括如下所述步骤:
确定出目标音频的当前音频时长;按照当前音频时长确定出目标音频时长;按照目标音色特征以及目标音频时长,对处理后音频中的原始音色进行处理,得到时长为目标音频时长且音色为目标音色的合成音频。
具体的,在得到目标音频之后,可以确定出其对应的当前音频时长,此外,可以基于当前音频时长,以及目标口音标签,确定出目标音频时长。
可选地,在确定出当前音频时长之后,以及当前音频中涉及的字数,可以分析得到目标对象说话的语速信息(可以包括但不限于:每个音的持续时长(即,duration)、不同字之间的间隔时长、不同词之间的间隔时长);进而可以基于语速信息分析得到合成音频所需对应的目标音频时长。
在确定出目标音色特征以及目标音频时长之后,可以按照目标音色特征对原始音色进行处理,以及根据目标音频时长对音频的时长进行处理,例如,在对音频的时长进行处理时,可以通过采用Non-Attentive Tacotron中的Gaussian Upsampling进行扩帧或者缩帧,该扩缩帧方法会通过时长计算出和为1的权重,然后基于这个权重进行扩缩帧,从而可以得到时长为目标音频时长且音色为目标音色的合成音频。
作为一种可选的实施例,如前述的方法,在所述步骤S105按照目标音色特征对处理后音频中的原始音色进行转换,得到目标音色的口音转换音频之后,方法还包括:
将背景音频与口音转换音频进行合成,得到合成口音音频。
也就是说,在得到口音转换音频之后,为了实现只对语种以及呈现语种的目标口音进行修改的目的,并且保留原始音频中的其他信息,因此,可以将背景音频与口音转换音频进行合成,得到合成口音音频。
进一步的,当口音转换音频与目标音频时长相同时,可以直接按照背景音频与目标音频之间的时间关系,将背景音频与口音转换音频采用叠加的方式进行合成,得到合成口音音频。当口音转换音频与目标音频时长不相同时,可以直接按照口音转换音频与目标音频之间的比值对背景音频的时长进行调整,并得到调整后背景音频,将调整后背景音频与口音转换音频再进行叠加,得到合成口音音频。例如,可以通过采用Adobe Audition、Audacity等方式实现背景音频与口音转换音频之间的叠加。
如图2所示,提供一种应用前述任一实施例的语音合成的应用例:
1,获取用户上传的原始的音频。
2,对音频进行人声分离,得到人声音频以及背景音频(即,背景声/音效);可选的,可以采用UVR(Ultimate Vocal Remover,一种用于进行人声与背景音进行分离的音频处理软件)实现人声分离。
3,通过判断人声音频中每个音频片段对应的候选对象,得到每个说话人的日志,然后按照每个说话人的日志对人声音频进行切割,得到与每个候选对象对应的候选音频;在候选音频中确定出目标音频。
4,通过语音识别系统得到目标音频对应的字幕(也即,目标文本)。
5,然后按照如下所述的口音语音合成方式得到处理后音频。
通过对字幕采用文本编码器(即,encoder)进行处理,确定出与字幕对应的语义特征;确定出所述目标口音标签对应的目标音调特征;对所述语义特征以及所述目标音调特征进行融合,得到第一融合后特征。
通过对融合后特征依次采用解码器以及声码器处理,得到处理后音频。
6,在得到处理后音频之后,按照如下所述的口音音色转换方式,得到口音转换音频:
对处理后音频采用预训练好的语音识别模型,取其中间特征phoneticposteriorgram(ppg),来得到语义特征;
从处理后音频中提取帧级别p音高并通过一层卷积层来得到音调特征;
对语义特征、音调特征以及目标音色特征进行融合,得到第二融合后特征;
基于第二融合后特征生成口音转换音频。
7,对口音转换音频以及背景音频进行合成,得到合成口音音频。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的一种语音合成装置,包括:
获取模块1,用于获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,目标口音标签用于指示对应的目标语种以及用于呈现语种的目标口音;
识别模块2,用于对目标音频进行语音识别,得到目标音频对应的目标文本;
处理模块3,用于根据目标文本以及目标口音标签,得到用于通过目标语种以及目标口音呈现目标文本的处理后音频;
音色提取模块4,用于在目标音频中提取得到目标对象对应的目标音色特征,其中,目标音色特征用于指示目标对象的目标音色;
音色转换模块5,用于按照目标音色特征对处理后音频中的原始音色进行转换,得到目标音色的口音转换音频。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图4所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的方法步骤。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
应当注意,尽管在上文详细描述中提及了视图检查装置的若干模块或子模块或单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;
对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;
根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;
在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;
按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频,包括:
确定出与所述目标文本对应的语义特征;确定出所述目标口音标签对应的目标口音特征;
对所述语义特征以及所述目标口音特征进行融合,得到第一融合后特征;
基于所述融合后特征得到所述处理后音频。
3.根据权利要求1所述的方法,其特征在于,所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频,包括:
在所述处理后音频中提取得到语义特征;在所述处理后音频中提取得到音调特征;
对所述语义特征、所述音调特征以及所述目标音色特征进行融合,得到第二融合后特征;
基于所述第二融合后特征生成所述口音转换音频。
4.根据权利要求1所述的方法,其特征在于,所述按照所述目标音色特征对所述处理后音频中的原始音色进行处理,得到所述目标音色的合成音频,包括:
确定出所述目标音频的当前音频时长;
按照所述当前音频时长确定出目标音频时长;
按照所述目标音色特征以及所述目标音频时长,对所述处理后音频中的原始音色进行处理,得到时长为所述目标音频时长且音色为所述目标音色的所述合成音频。
5.根据权利要求1所述的方法,其特征在于,所述获取目标对象的目标音频,包括:
获取原始音频;
对所述原始音频进行人声分离,得到人声音频以及背景音频;
通过判断所述人声音频中每个音频片段对应的候选对象,对所述人声音频进行切割,得到与每个候选对象对应的候选音频;
在所述候选音频中确定出所述目标音频。
6.根据权利要求5项所述的方法,其特征在于,在所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频之后,所述方法还包括:
将所述背景音频与所述口音转换音频进行合成,得到合成口音音频。
7.根据权利要求1所述的方法,其特征在于,所述获取目标对象对应的目标口音标签,包括:
将所有候选口音标签中被选择所述候选口音标签确定为所述目标口音标签;或者,
获取与目标对象对应的目标口音音频;对所述目标口音音频的语种以及口音进行识别,得到所述目标口音标签。
8.一种语音合成装置,其特征在于,包括:
获取模块,用于获取目标对象的目标音频以及目标对象对应的目标口音标签,其中,所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音;
识别模块,用于对所述目标音频进行语音识别,得到所述目标音频对应的目标文本;
处理模块,用于根据所述目标文本以及所述目标口音标签,得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频;
音色提取模块,用于在所述目标音频中提取得到所述目标对象对应的目标音色特征,其中,所述目标音色特征用于指示所述目标对象的目标音色;
音色转换模块,用于按照所述目标音色特征对所述处理后音频中的原始音色进行转换,得到所述目标音色的口音转换音频。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410202651.2A CN118053415A (zh) | 2024-02-23 | 2024-02-23 | 语音合成方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410202651.2A CN118053415A (zh) | 2024-02-23 | 2024-02-23 | 语音合成方法及装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118053415A true CN118053415A (zh) | 2024-05-17 |
Family
ID=91049790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410202651.2A Pending CN118053415A (zh) | 2024-02-23 | 2024-02-23 | 语音合成方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118053415A (zh) |
-
2024
- 2024-02-23 CN CN202410202651.2A patent/CN118053415A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3895159B1 (en) | Multi-speaker neural text-to-speech synthesis | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
TWI721268B (zh) | 用於語音合成的系統和方法 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
CN113053357A (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CA3160315C (en) | Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
US20230206899A1 (en) | Spontaneous text to speech (tts) synthesis | |
Choi et al. | Learning to maximize speech quality directly using MOS prediction for neural text-to-speech | |
WO2021231050A1 (en) | Automatic audio content generation | |
Zhang et al. | Towards zero-shot multi-speaker multi-accent text-to-speech synthesis | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
CN113763924B (zh) | 声学深度学习模型训练方法、语音生成方法及设备 | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
CN118053415A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 | |
Yoon et al. | Enhancing Multilingual TTS with Voice Conversion Based Data Augmentation and Posterior Embedding | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Houidhek et al. | Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic | |
Bollinger et al. | Text-to-Speech Pipeline for Swiss German--A comparison | |
Ilyes et al. | Statistical parametric speech synthesis for Arabic language using ANN | |
CN112349274B (zh) | 一种训练韵律预测模型方法、装置、设备及存储介质 | |
Karabetsos et al. | HMM-based speech synthesis for the Greek language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |