CN113823300B - 语音处理方法及装置、存储介质、电子设备 - Google Patents
语音处理方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN113823300B CN113823300B CN202111098086.2A CN202111098086A CN113823300B CN 113823300 B CN113823300 B CN 113823300B CN 202111098086 A CN202111098086 A CN 202111098086A CN 113823300 B CN113823300 B CN 113823300B
- Authority
- CN
- China
- Prior art keywords
- voice
- tone
- speech
- model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000010367 cloning Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 80
- 230000005236 sound signal Effects 0.000 claims description 47
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 abstract 1
- 125000004122 cyclic group Chemical group 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000013136 deep learning model Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 102100037410 Gigaxonin Human genes 0.000 description 3
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本公开属于语音克隆技术领域,涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括:对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;提取第一语音的第一语音特征,并将第一语音特征和音频轨道中的第二语音输入音色转换模型,以将音频轨道中第二语音的音色从第二音色转换至第一音色;其中,第一音色与第一语音对应,第二音色与第二语音对应;将音色转换后的音频轨道与视频轨道合并,以得到具有被模仿者音色的目标视频。在本公开中,通过识别第二语音的音素,实现了任意第二语音的音色的转换。
Description
技术领域
本公开涉及语音克隆技术领域,尤其涉及一种语音处理方法与语音处理装置、计算机可读存储介质及电子设备。
背景技术
随着语音克隆技术的发展及普及,可以将视频中演员的音色或视频中配音的音色转换为观看视频的观众的音色。
在相关技术中,为了将视频中的语音的音色转换为观众的音色,需要大量获取视频中的语音以及观众的语音,并以此作为深度学习模型的训练数据,并且当观众为某种特定人群时,需要对该特定人群训练单独的深度学习模型,进而无法在未经训练的情况下,实现将视频中语音的音色转换为任意观众的音色,增加了音色转换的复杂度,缩小了音色转换的应用场景。
鉴于此,本领域亟需开发一种新的语音处理方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术导致的无法将视频中语音的音色转换为任意观众的音色的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明实施例的第一个方面,提供了一种语音处理方法,所述方法包括:对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应;将音色转换后的所述音频轨道与所述视频轨道合并,以得到具有所述被模仿者音色的所述目标视频。
在本发明的一种示例性实施例中,所述第一语音特征包括说话人特征嵌入向量;所述提取所述第一语音的第一语音特征,包括:从所述第一语音中提取所述被模仿者的所述说话人特征嵌入向量。
在本发明的一种示例性实施例中,所述音色转换模型中还包括语音合成模型以及音素识别模型;将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道的第二语音的音色从第二音色转换至第一音色,包括:通过所述音色转换模型中的所述音素识别模型,提取所述音频轨道中的第二语音的第二语音特征;其中,所述第二语音特征包括音素和梅尔频谱图;将所述说话人特征嵌入向量、与所述第二语音对应的所述音素以及所述梅尔频谱图输入所述语音合成模型,以合成与第一音色对应的第一目标梅尔频谱图;将所述第一目标梅尔频谱图转换为第一语音音频信号,并将所述第二语音的原始语音音频信号替换为所述第一语音音频信号,以将所述第二语音的音色从第二音色转换至第一音色;其中,所述原始语音音频信号与所述第二音色对应。
在本发明的一种示例性实施例中,所述将所述第二语音的音色从所述第二音色转换至第一音色之后,所述方法还包括:将所述第一语音的内容替换为所述第二语音,并将所述第二语音的内容替换为所述第一语音;将与替换后的所述第一语音对应的所述说话人特征嵌入向量、与替换后的所述第二语音对应的所述音素以及与替换后的所述第二语音对应的所述梅尔频谱图输入所述语音合成模型,合成具有第二音色的第二目标梅尔频谱图;其中,所述第二音色与替换前的所述第二语音对应;将所述第二目标梅尔频谱图转换为第二语音音频信号,并将所述第一语音音频信号替换为所述第二语音音频信号,以构建循环语音克隆模型;确定与所述循环语音克隆模型对应的目标损失函数,以根据所述目标损失函数对所述语音合成模型进行训练。
在本发明的一种示例性实施例中,所述建立与所述循环语音克隆模型对应的目标损失函数,包括:基于提取的与所述第二语音的音色对应的所述梅尔频谱图、所述第一目标梅尔频谱图、与替换后的所述第二语音对应的所述梅尔频谱图以及所述第二目标梅尔频谱图,建立第一损失函数;基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,并对所述第一损失函数以及所述第二损失函数进行计算得到目标损失函数。
在本发明的一种示例性实施例中,所述基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,包括:将所述第一目标梅尔频谱图输入判别器模型,得到第一判别结果,并将所述第二目标梅尔频谱图输入所述判别器模型,得到第二判别结果;其中,所述判别器模型用于判别输入的梅尔频谱图的真实性;将提取的与所述第二语音的音色对应的所述梅尔频谱图输入至所述判别器模型得到第三判别结果,并将替换后的所述第二语音对应的所述梅尔频谱图输入所述判别器模型得到第四判别结果;根据所述第一判别结果、所述第二判别结果、所述第三判别结果以及所述四判别结果,建立第二损失函数。
在本发明的一种示例性实施例中,所述方法还包括:根据所述第一判别结果、所述第二判别结果、所述第三判别结果以及所述第四判别结果,得到判别器损失函数,以根据所述判别器损失函数对所述判别器模型进行训练。
在本发明的一种示例性实施例中,所述根据所述判别器损失函数对所述判别器模型进行训练之后,所述方法还包括:获取待判别语音,并将所述待判别语音输入至所述判别器模型中,以得到针对于所述待判别语音的语音判别结果;若所述语音判别结果为第一结果,则发送提示所述待判别语音为合成语音的警告信息;若所述语音判别结果为第二结果,则发送提示所述待判别语音为真实语音的提示信息。
根据本发明实施例的第二个方面,提供一种语音处理装置,所述装置包括:分离模块,被配置为对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;转换模块,被配置为提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应;合并模块,被配置为将音色转换后的所述音频轨道与所述视频轨道合并,以得到具有所述被模仿者音色的所述目标视频。
根据本发明实施例的第三个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的语音处理方法。
根据本发明实施例的第四个方面,提供一种非瞬态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的语音处理方法。
由上述技术方案可知,本发明示例性实施例中的语音处理方法、语音处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,根据第二语音特征以及第一语音特征可以直接将第二语音的音色转换为与被模仿者对应的第一音色,进而在转换第二语音音色的过程中,避免了现有技术中,必须大量获取第一语音和第二语音,并利用第一语音和第二语音训练深度学习模型的过程,降低了将第二语音的音色从第二音色转换为第一音色的复杂度,进而扩大了将第二语音音色从第二音色转换为第一音色的应用场景。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开实施例中语音处理方法的流程示意图;
图2示意性示出本公开实施例中将第二语音的音色从第二音色转换至第一音色的流程示意图;
图3示意性示出本公开实施例中将第二语音音色从第二音色转换至第一音色之后的流程示意图;
图4示意性示出本公开实施例中循环语音克隆模型的结构示意图;
图5示意性示出本公开实施例中建立与循环语音克隆模型对应的目标损失函数的流程示意图;
图6示意性示出本公开实施例中建立第二损失函数的流程示意图;
图7示意性示出本公开实施例中判别器模型的结构示意图;
图8示意性示出本公开实施例中根据判别器损失函数对判别器模型进行训练之后的流程示意图;
图9示意性示出本公开实施例中将判别语音输入判别器模型的结构示意图;
图10示意性示出本公开实施例中得到具有被模仿者音色的目标视频的流程示意图;
图11示意性示出本公开实施例中音色转换模型的结构示意图;
图12示意性示出本公开实施例中一种语音处理装置的结构示意图;
图13示意性示出本公开实施例中一种用于语音处理方法的电子设备;
图14示意性示出本公开实施例中一种用于语音处理方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
针对相关技术中存在的问题,本公开提出了一种语音处理方法。图1示出了语音处理方法的流程示意图,如图1所示,语音处理方法至少包括以下步骤:
步骤S110.对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音。
步骤S120.提取第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应。
步骤S130.将音色转换后的音频轨道与视频轨道合并,以得到具有被模仿者音色的目标视频。
在本公开的示例性实施例提供的方法及装置中,根据第二语音特征以及第一语音特征可以直接将第二语音的音色转换为与被模仿者对应的第一音色,进而在转换第二语音音色的过程中,避免了现有技术中,必须大量获取第一语音和第二语音,并利用第一语音和第二语音训练深度学习模型的过程,降低了将第二语音的音色从第二音色转换为第一音色的复杂度,进而扩大了将第二语音音色从第二音色转换为第一音色的应用场景。
下面对语音处理方法的各个步骤进行详细说明。
在步骤S110中,对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音。
在本公开的示例性实施例中,通过采集第一语音,即被模仿者的语音,可以对目标视频中的配音的音色进行修改,还可以对目标视频中演员声音的音色进行修改,并且修改为第一语音的音色。
目标视频指的是需要播放的视频,例如可以是在多媒体互动展示屏中进行播放的视频,此时第一语音可以是靠近多媒体互动展示屏的观众的语音,第一语音还可以是多媒体互动展示屏可以采集到的任意一种语音,本示例性实施例对此不做特殊限定。
目标视频可以被分离为两个轨道,其中,一个轨道是音频轨道,用于按照时间记录目标视频中的语音,具体地,音频轨道中可以包括目标视频中说话人的语音,还可以包括目标视频中配音的语音,还可以包括目标视频中出现的一切语音,视频轨道用于按照时间记录目标视频中的视频画面。
举例而言,将播放在多媒体互动展示屏中的目标视频进行分离,得到音频轨道和视频轨道,并且,此时观众A靠近多媒体互动展示屏,并且观众A发出了声音,此时对观众A发出的声音进行采集,采集到的观众A发出的声音即为第一语音。
在本示例性实施例中,通过对目标视频进行分离,可以提取到目标视频中的语音,有助于后续对音频轨道中语音音色的修改。
在步骤S120中,提取第一语音的第一语音特征,并将第一语音特征和音频轨道中的第二语音输入音色转换模型,以将音频轨道中第二语音的音色从第二音色转换至第一音色;其中,第一音色与所述第一语音对应,第二音色与所述第二语音对应。
在本公开的示例性实施例中,第二语音指的是音频轨道中记录的语音,具体地,第二语音可以是音频轨道中记录的目标视频中的配音,第二语音也可以是音频轨道中记录的目标视频中的演员发出的语音,第二语音还可以是音频轨道中记录的目标视频中任何一种声音,本示例性实施例对此不做特殊限定。
第一语音特征指的是与第一语音对应的,可以表示第一语音的语音特征的信息,例如可以包括第一语音的说话人特征嵌入向量,对应地,第二语音特征指的是与第二语音对应的,可以表示第二语音的语音特征的信息,例如可以包括第二语音的音素,还可以包括第二语音的梅尔频谱图。
音色转换模型指的是后续将音频轨道中第二语音的音色转化的模型。第二音色指的第二语音的音色,第一音色指的是第一语音的音色。音色转换模型中包括音素识别模型,并且,音素识别模型是用于识别第二语音的音素的。
举例而言,将第一语音特征、音频轨道中的第二语音输入音色转换模型中,可以将音频轨道中的第二语音的音色由第二音色转换至与第一音色一致的音频,即将第二语音的音色由第二音色转换至与第一音色一致的音频。
在可选的实施例中,第一语音特征包括说话人特征嵌入向量;提取第一语音的第一语音特征,包括:从第一语音中提取被模仿者的说话人特征嵌入向量。
其中,每一个声音都具有独特的声音特征,说话人特征嵌入向量指的是用于区分被模仿者的声音特征的向量,具体地,提取说话人特征嵌入向量的过程如下,首先将第一语音输入至说话人编码器,然后说话人编码器将第一语音的音频转化为具有固定维度的说话人特征嵌入向量。
说话人编码器通常应用于声纹识别领域的说话人验证任务中,具体地,说话人编码器可以是利用的损失函数TE2E(Tuple-based end-to-end,基于元祖的端到端)所形成的编码器,还可以是利用损失函数GE2E(Generalized end-to-end,广义端到端)所形成的编码器,本示例性实施例对此不做特殊限定。
举例而言,将观众A的第一语音A1输入至说话人编码器,说话人编码器对第一语音A1进行转化得到说话人特征嵌入向量V2。
在可选的实施例中,图2示出了语音处理方法中将第二语音的音色从第二音色转换至第一音色的流程示意图,音色转换模型中还包括语音合成模型以及音素识别模型,如图2所示,该方法至少包括以下步骤:在步骤S210中,通过音色转换模型中的音素识别模型,提取音频轨道中的第二语音的第二语音特征;其中,第二语音特征包括音素和梅尔频谱图;
其中,梅尔频谱图指的是一种描述第二语音声音信号的频率分布随时变化的图形,根据梅尔频谱图中第二语音声音信号的频率分布,可以获取第二语音的音色。
音色转换模型中包括音色识别模型,利用音素识别模型对第二语音进行音素识别,可以得到与第二语音对应的音素,第二语音的音素指的是第二语音的最小语音单位,假如第二语音为中文语音,则第二语音的音素可以是中文发音中的拼音,假如第二语音为英文,则第二语音的音素可以是英文发音中的音标,本示例性实施例对此不做特殊限定。
举例而言,利用音色转换模型中的音素识别模型,对第二语音B进行音素识别,以得到第二语音的语音最小单位,假设第二语音为中文,则通过音素识别模型识别出的第二语音的音素为拼音。
在步骤S220中,将说话人特征嵌入向量、与第二语音对应的音素以及梅尔频谱图输入语音合成模型,以合成与第一音色对应的第一目标梅尔频谱图。
其中,音色转换模型中还包括语音合成模型,通过将第一语音的说话人特征嵌入向量、第二语音的音素以及第二语音的梅尔频谱图输入至语音合成模型,可以合成具有第一语音音色的第一目标梅尔频谱图,具体地,语音合成模型可以是Tacotron(端到端语音合成系统),也可以是Tacotron2(第二版本端到端语音合成系统),还可以是任何一种语音合成系统,本示例性实施例对此不做特殊限定。
举例而言,将第一语音的说话人特征嵌入向量、第二语音的音素以及第二语音的梅尔频谱图发送至语音合成模型,以使语音合成模型合成第一目标梅尔频谱图,其中第一目标梅尔频谱图与第一音色对应。
在步骤S230中,将第一目标梅尔频谱图转换为第一语音音频信号,并将第二语音的原始语音音频信号替换为第一语音音频信号,以将第二语音的音色从第二音色转换至第一音色;其中,原始语音音频信号与第二音色对应。
其中,第一语音音频信号指的是具有第一音色的音频信号,原始语音音频信号指的是具有第二音色的音频信号,假设第二语音为音频轨道中的配音,则原始音频信号指的是与配音对应的音频信号,将原始语音音频信号替换为第一语音音频信号之后,就实现了第二语音,即目标视频音频轨道中的语音的音色转换,并且将目标视频音频轨道中语音的音色由第二音色转换为了第一音色。
将第一目标梅尔频谱图转换为第一语音音频信号可以是利用声码器实现的,声码器是将包含语音信息的第一目标梅尔频谱图转换为语音音频的波形的算法模块,具体地,声码器可以是被应用于语音建模的一维卷积神经网络WaveRNN,还可以是一种无蒸馏的对抗生成网络Paralle WaveGAN,还可以是其他任何一种可以将梅尔频谱图转换成语音音频波形的模型,本示例性实施例对此不做特殊限定。
举例而言,将第一目标梅尔频谱图输入至WaveRNN卷积神经网络,以得到第一语音音频信号,利用第一语音音频信号将原始音频信号替换,以将目标视频音频轨道中的第二语音的音色从第二音色转换至第一音色。
在本示例性实施例中,一方面,将第一语音的说话人特征嵌入向量、第二语音的音素以及第二语音的梅尔频谱图输入语音合成模型,可以实现对第二语音音色的转换,并且是从第二音色转换为第一音色,即将第二语音的音色转换为了被模仿者的音色,进而随着被模仿者的改变,第二语音音色也会对应改变,避免了现有技术中,必须将大量被模仿者的语音作为训练数据,以创建出转换第二语音音色的训练模型的情况发生,降低了转换第二语音音色的复杂度;另一方面,通过利用音素识别模型,对第二语音进行音素识别,可以提取到任何一种第二语音的音素,避免了现有技术中,必须将第二语音转换为文字后才可以得到第二语音的音素的情况发生,增加了提取第二语音音素的灵活度,扩大了第二语音音色转换所应用的场景。
在可选的实施例中,图3示出了语音处理方法中将第二语音音色从第二音色转换至第一音色之后的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,将第一语音的内容替换为第二语音,并将第二语音的内容替换为第一语音。
其中,利用语音合成模型将第二语音的音色从第二音色转换为第一音色,相当于将语音的音色从音频轨道中的音色T1转换为了被模仿者的音色T2,此时建立了音频轨道中的音色T1至被模仿者的音色T2之间的映射关系,然而,此时若只建立这一种映射关系,可能所有音频轨道中的音色都被转换成了同一个被模仿者的音色,为了避免这种情况的发生,需要将第一语音和第二语音互换,以将音频轨道中的第二语音的音色从第一音色还原至第二音色,进而不仅建立起音频轨道中的音色T1至被模仿者的音色T2之间的映射关系,还建立起被模仿者的音色T2至音频轨道中的音色T1之间的映射关系,进而避免了所有音频轨道中的音色都被转换成了同一个被模仿者的音色的情况发生。
举例而言,在将第二语音音色从第一音色转换为第二音色之后,将第一语音和第二语音互换,则此时被模仿者的第一语音为目标视频音频轨道中配音的语音,第二语音为观众A的语音。
在步骤S320中,将与替换后的第一语音对应的说话人特征嵌入向量、与替换后的第二语音对应的音素以及与替换后的第二语音对应的梅尔频谱图输入语音合成模型,合成具有第二音色的第二目标梅尔频谱图;其中,第二音色与替换前的第二语音对应。
其中,替换后的第一语音,即目标视频音频轨道中的语音,替换后的第二语音,即被模仿者的语音,此时提取目标视频音频轨道中的语音的说话人特征嵌入向量,并提取被模仿者语音的音素以及被模仿者语音的梅尔频谱图,并将说话人特征嵌入向量、被模仿者语音的音素以及被模仿者语音的梅尔频谱图输入至语音合成器中,进而合成具有目标视频音频轨道中的语音音色的第二目标梅尔频谱图。
值得说明的是,此时的语音合成器与将第一语音和第二语音互换之前的语音合成器中的参数一致。
举例而言,替换后的第一语音为目标视频d音频轨道中的语音,替换后的第二语音为观众I的语音,此时获取与目标视频d音频轨道中的语音对应的说话人特征嵌入向量V2,并提取观众I的语音的音素B1以及观众I的语音的梅尔频谱图B2,将说话人特征嵌入向量V2、音素B1以及梅尔频谱图B2输入至语音合成器,以合成具有目标视频d音频轨道中的语音音色的第二目标梅尔频谱图。
在步骤S330中,将第二目标梅尔频谱图转换为第二语音音频信号,并将第一语音音频信号替换为第二语音音频信号,以构建循环语音克隆模型。
其中,将第二目标梅尔频谱图转换为第二语音音频信号的过程与将第一目标梅尔频谱图转换为第一语音音频信号的过程类似,并且此时将第一语音信号替换为第二语音音频信号后,目标视频音频轨道中语音的音色恢复为了原音色,此时建立了具有两个映射关系的循环语音克隆模型,其中,通过第一个映射关系,将目标视频音频轨道中的音色从原音色转换为了被模仿者的音色,经过第二个映射关系,将目标视频音频轨道中的音色从被模仿者的音色恢复至原音色。
举例而言,将第二目标梅尔频谱图转换为第二语音音频信号,并将第一语音音频信号替换为第二语音音频信号,以将目标视频语音轨道中的语音音色恢复至原音色,以此建立起循环语音克隆模型。
图4示出了循环语音克隆模型的结构示意图,如图4所示,其中,语音410为第一语音,即被模仿者的语音,语音420为第二语音,即目标视频音频轨道中的语音,模型430为语音合成模型,语音440为合成的具有第一音色的音频轨道中的语音,语音450为合成的具有第二语音音色的音频轨道中的语音。
在步骤S340中,确定与循环语音克隆模型对应的目标损失函数,以根据目标损失函数对语音合成模型进行训练。
其中,根据目标损失函数对语音合成模型进行训练,即在语音合成模型的模型参数空间中找到使得目标损失函数最小的目标参数,以得到合成结果更为精确的语音合成模型。
举例而言,根据循环语音克隆模型,建立目标损失函数,以根据目标损失函数对语音合成模型进行训练。
在本示例性实施例中,构建循环语音克隆模型,不仅可以避免所有目标视频语音轨道中的语音音色都转换为同一个被模仿者的语音音色的情况发生,还可以根据循环语音克隆模型建立目标损失函数,以根据目标损失函数对语音合成模型进行训练,提高语音合成模型的合成效果。
在可选的实施例中,图5示出了语音处理方法中建立与循环语音克隆模型对应的目标损失函数的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,基于提取的与第二语音的音色对应的梅尔频谱图、第一目标梅尔频谱图、与替换后的第二语音对应的梅尔频谱图以及第二目标梅尔频谱图,建立第一损失函数。
其中,第一损失函数指的是基于循环语音克隆模型建立起的损失函数,在循环语音克隆模型中,存在两个映射关系,在第一个映射关系中,将目标视频音频轨道中的音色从原音色转换为了被模仿者的音色,即将与第二语音对应的梅尔频谱图转换为了第一目标梅尔频谱图,在第二个映射关系中,将目标视频音频轨道中的音色从被模仿者的音色恢复至原音色,即将与替换后的所述第二语音对应的所述梅尔频谱图转换为了第二目标梅尔频谱图,基于这两个映射关系,可以建立起第一损失函数。
举例而言,公式(1)示出了第一损失函数。
其中,LCycle为第一损失函数,MA为与第二语音的音色对应的梅尔频谱图,为第一目标梅尔频谱图,MB为与替换后的第二语音对应的梅尔频谱图,/>为第二目标梅尔频谱图。
在步骤S520中,基于第一目标梅尔频谱图以及第二目标梅尔频谱图,建立第二损失函数,并对第一损失函数以及第二损失函数进行计算得到目标损失函数。
其中,第二损失函数指的是只针对于循环语音克隆模型中的一个映射关系建立起的损失函数。
举例而言,公式(2)示出了针对于循环语音克隆模型中的第一个映射建立的第二损失函数,公式(3)示出了针对于语音克隆模型中的第二个映射建立的第二损失函数。
其中,LGAN1为针对循环语音克隆模型中第一个映射关系,建立的第二损失函数,LGAN2为针对循环语音克隆模型中第二个映射关系,建立的第二损失函数,MA为与第二语音的音色对应的梅尔频谱图,为第一目标梅尔频谱图,MB为与替换后的第二语音对应的梅尔频谱图,/>为第二目标梅尔频谱图,D为判别器,判别器用于判别输入的语音是合成的语音,还是由真人发出的语音。
基于此,对公式(1)、公式(2)以及公式(3)进行计算得到如公式(4)所示的目标损失函数。
L=LGAN1+LGAN2+LCycle (4)
其中,L为目标损失函数,LGAN1为针对循环语音克隆模型中第一个映射关系,建立的第二损失函数,LGAN2为针对循环语音克隆模型中第二个映射关系,建立的第二损失函数,LCycle为第一损失函数。
在本示例性实施例中,根据循环语音克隆模型建立目标损失函数,以根据目标损失函数对语音合成模型进行训练,提高语音合成模型的合成效果。
在可选的实施例中,图6示出了语音处理方法中建立第二损失函数的流程示意图,如图6所示,该方法至少包括以下步骤:在步骤S610中,将第一目标梅尔频谱图输入判别器模型,得到第一判别结果,并将第二目标梅尔频谱图输入判别器模型,得到第二判别结果;其中,判别器模型用于判别输入的梅尔频谱图的真实性。
其中,在循环语音克隆模型中,在语音合成模型合成一个目标梅尔频谱图之后,需要将这个目标梅尔频谱图输入判别器模型,以得到判别结果。
判别器模型的作用是判别输入的梅尔频谱图是合成的还是真人产生的,基于此,第一判别结果为判别与第一目标梅尔频谱图对应的语音是合成语音还是由真人发出的语音的判别结果,对应的,第二判别结果为判别与第二目标梅尔频谱图对应的语音是合成语音还是由真人发出的语音的判别结果。
举例而言,将第一目标梅尔频谱图输入判别器模型D中,得到第一判别结果/>将第二目标梅尔频谱图MBsynth输入判别器模型D中,得到第二判别结果
在步骤S620中,将提取的与第二语音的音色对应的梅尔频谱图输入至判别器得到第三判别结果,并将与替换后的第二语音对应的梅尔频谱图输入判别器得到第四判别结果。
其中,将提取的与第二语音的音色对应的梅尔频谱图输入至判别器可以得到第三判别结果,将与替换后的第二语音对应的梅尔频谱图输入至判别器模型得到第四判别结果。
举例而言,图7示出了判别器模型的结构示意图,如图7所示,其中,将第一目标梅尔频谱图输入判别器模型D中,得到第一判别结果/>将第二目标梅尔频谱图/>输入判别器模型D中,得到第二判别结果/>将提取的与第二语音的音色对应的梅尔频谱图MA输入至判别器模型可以得到第三判别结果D(MA),并将与替换后的第二语音对应的梅尔频谱图MB输入判别器模型D中,得到第四判别结果D(MB)。
在步骤S630中,根据第一判别结果、第二判别结果、第三判别结果以及第四判别结果,建立第二损失函数。
其中,基于第一判别结果、第二判别结果、第三判别结果以及第四判别结果,可以建立第二损失函数。
举例而言,基于第一判别结果、第二判别结果、第三判别结果以及第四判别结果,可以建立如公式(3)以及公式(4)所示的第二损失函数。
在本示例性实施例中,引入了判别器模型,进而建立了一种可以判别语音真实性的模型,这使得循环语音克隆模型不仅可以用于转换语音的音色,还可以对语音的真实行做出判断,进而扩大了语音转换模型可以应用的场景。
在可选的实施例中,方法还包括:根据第一判别结果、第二判别结果、第三判别结果以及第四判别结果,得到判别器损失函数,以根据判别器损失函数对判别器模型进行训练。
其中,判别器损失函数指的是判别器模型中的损失函数。
举例而言,判别器损失函数如公式(5)所示。
其中,LD为判别器损失函数,D(MA)为第三判别结果,D(MB)为第四判别结果,D(MA_synth)为第一判别结果,D(MB_synth)为第二判别结果。
在本示例性实施例中,判别器损失函数是根据第一判别结果、第二判别结果、第三判别结果以及第四判别结果得到的,完善了影响判别器损失函数的因素,进而提高了判别器模型的判别准确度。
在可选的实施例中,图8示出了语音处理方法中根据判别器损失函数对判别器模型进行训练之后的流程示意图,如图8所示,该方法至少包括以下步骤:在步骤S810中,获取待判别语音,并将待判别语音输入至判别器模型中,以得到针对于待判别语音的语音判别结果。
其中,待判别语音为任意一种需要判别真实性的语音,例如,待判别语音可以是采集的诈骗电话中的语音,通过将待判别语音输入至判别器模型,可以得到语音判别结果,通过语音判别结果可以确定出待判别语音是由真人发出的语音,还是合成的语音。
举例而言,待判别语音为采集到的有可能是诈骗电话的电话语音,将该电话语音输入至判别器模型中,得到针对于该电话语音的语音判别结果。
在步骤S820中,若语音判别结果为第一结果,则发送提示待判别语音为合成语音的警告信息。
其中,第一结果为待判别语音为合成语音的结果,警告信息为提示待判别语音为合成语音的信息。
举例而言,图9示出了将判别语音输入判别器模型的结构示意图,如图9所示,其中,语音910为待判别语音,具体可以是采集到的有可能是诈骗电话的电话语音,模型920为判别器模型,结果930为语音判别结果。当语音判别结果为第一结果时,发送提示待判别语音为合成语音的警告信息,具体地,警告信息内容可以是“该语音为合成语音,请小心”。
在步骤S830中,若语音判别结果为第二结果,则发送提示待判别语音为真实语音的提示信息。
其中,第二结果为待判别语音为真实的人发出的真实语音的结果,提示信息为提示待判别语音为真实语音的信息。
举例而言,如图9所示,当语音判别结果为第二结果时,发送提示待判别语音为真实语音的提示信息,具体地,提示信息内容可以是“该语音为真实语音”。
在本示例性实施例中,利用判别器模型对待判别语音进行判别,不仅提高了判别的精准度,还对用户提供了判断待判别语音真实性的依据。
在步骤S130中,将音色转换后的音频轨道与视频轨道合并,以得到具有被模仿者音色的目标视频。
在本公开的示例性实施例中,将音色转换后的音频轨道与视频轨道合并,此时得到的目标视频中的声音的音色与被模仿者的音色一致。
举例而言,图10示出了得到具有被模仿者音色的目标视频的流程示意图,如图10所示,其中,文件1010为目标视频,对目标视频进行分离后得到轨道1020视频轨道和轨道1030音频轨道,然后将音频轨道输入至模型1040音色转换模型中,除此之外,还需要将语音1011第一语音,即被模仿者的语音输入至音色转换模型1040中。轨道1050为合成的具有被模仿者音色的音频轨道,将具有被模仿者音色的音频轨道1050与视频轨道1020合并,即得到了文件1060,此时文件1060为具有被模仿者音色的目标视频。
图11示出了音色转换模型的结构示意图,如图11所示,其中,语音1110为第一语音,即图10中的被模仿者的语音,语音1120为第二语音,即图10中音频轨道中的第二语音,编码器1111为说话人编码器,向量1112为说话人特征嵌入向量,即第一语音特征,模型1121为音素识别模型,音素1122为第二语音的音素,图1123为第二语音的梅尔频谱图,音素1122和图1123组成了第二语音特征。
将第一语音特征和第二语音特征输入模型1130语音合成模型中,可以得到第一目标梅尔频谱图1140,然后将第一目标梅尔频谱图1140输入至模块1150声码器中,即得到了信号1160第一语音音频信号,即图10中合成的具有被模仿者音色的音频轨道。
在本示例性实施例中,将音色转换后的音频轨道与视频轨道合并,实现了目标视频中语音的音色转换,并且音色转换为了与被模仿者音色一致的音色。
在本公开的示例性实施例提供的方法及装置中,根据第二语音特征以及第一语音特征可以直接将第二语音的音色转换为与被模仿者对应的第一音色,进而在转换第二语音音色的过程中,避免了现有技术中,必须大量获取第一语音和第二语音,并利用第一语音和第二语音训练深度学习模型的过程,降低了将第二语音的音色从第二音色转换为第一音色的复杂度,进而扩大了将第二语音音色从第二音色转换为第一音色的应用场景。
下面结合一应用场景对本公开实施例中语音处理方法做出详细说明。
获取播放在多媒体互动展示屏中的目标视频d,并且目标视频A中具有配音d0,将目标视频d分离得到音频轨道A2和视频轨道A3,此时配音即为音频轨道A2中的第二语音,并且,观众I此时正在观看多媒体显示屏中播放的目标视频d,此时采集到的观众I的语音为I1第一语音。
将第一语音输入至说话人编码器中得到第一语音I1的说话人嵌入向量,并将第二语音输入至音素识别模型中得到第二语音的音素,除此之外,提取与第二语音对应的梅尔频谱图。
基于此,将说话人特征嵌入向量、第二语音的音素以及与第二语音对应的梅尔频谱图输入至语音合成模型中,以得到语音合成模型的输出结果,该输出结果为具有观众I语音音色的第一目标梅尔频谱图,将第一目标梅尔频谱图输入至声码器中,可以得到音色从配音音色转换成观众I音色的音频轨道,将音色转换后的音频轨道与视频轨道合并,就可以得到音色转换后的目标视频。此时,观众I听到的目标视频中的音色与自己的音色一致。
在本应用场景中,根据第二语音特征以及第一语音特征可以直接将第二语音的音色转换为与被模仿者对应的第一音色,进而在转换第二语音音色的过程中,避免了现有技术中,必须大量获取第一语音和第二语音,并利用第一语音和第二语音训练深度学习模型的过程,降低了将第二语音的音色从第二音色转换为第一音色的复杂度,进而扩大了将第二语音音色从第二音色转换为第一音色的应用场景。
此外,在本公开的示例性实施例中,还提供一种语音处理装置。图12示出了语音处理装置的结构示意图,如图12所示,语音处理装置1200可以包括:分离模块1210、转换模块1220和合并模块1230。
其中:
分离模块1210,被配置为对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;转换模块1220,被配置为
提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应;合并模块1230,被配置为将音色转换后的音频轨道与视频轨道合并,以得到具有被模仿者音色的目标视频。
上述语音处理装置1200的具体细节已经在对应的语音处理方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及语音处理装置1200的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图13来描述根据本发明的这种实施例的电子设备1300。图13显示的电子设备1300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1321和/或高速缓存存储单元1322,还可以进一步包括只读存储单元(ROM)1323。
存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/使用工具1324,这样的程序模块1325包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包含网络环境的现实。
总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1300也可以与一个或多个外部设备1370(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图14所示,描述了根据本发明的实施例的用于实现上述方法的程序产品1400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;
提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应,所述音色转换模型中还包括语音合成模型;
将音色转换后的所述音频轨道与所述视频轨道合并,以得到具有被模仿者音色的所述目标视频
所述将所述音频轨道中的所述第二语音的音色从第二音色转换至第一音色之后,所述方法还包括:
将所述第一语音的内容替换为所述第二语音,并将所述第二语音的内容替换为所述第一语音;
将与替换后的所述第一语音对应的说话人特征嵌入向量、与替换后的所述第二语音对应的音素以及与替换后的所述第二语音对应的梅尔频谱图输入所述语音合成模型,合成具有第二音色的第二目标梅尔频谱图;其中,所述第二音色与替换前的所述第二语音对应;
将所述第二目标梅尔频谱图转换为第二语音音频信号,并将第一语音音频信号替换为所述第二语音音频信号,以构建循环语音克隆模型;其中,转换第一目标梅尔频谱图得到所述第一语音音频信号,所述第一目标梅尔频谱图与所述第一音色对应;
确定与所述循环语音克隆模型对应的目标损失函数,以根据所述目标损失函数对所述语音合成模型进行训练。
2.根据权利要求1所述的语音处理方法,其特征在于,所述第一语音特征包括说话人特征嵌入向量;所述提取所述第一语音的第一语音特征,包括:
从所述第一语音中提取所述被模仿者的所述说话人特征嵌入向量。
3.根据权利要求2所述的语音处理方法,其特征在于,所述音色转换模型中还包括语音合成模型以及音素识别模型;
将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道的第二语音的音色从第二音色转换至第一音色,包括:
通过所述音色转换模型中的所述音素识别模型,提取所述音频轨道中的第二语音的第二语音特征;其中,所述第二语音特征包括音素和梅尔频谱图;
将所述说话人特征嵌入向量、与所述第二语音对应的所述音素以及所述梅尔频谱图输入所述语音合成模型,以合成与第一音色对应的第一目标梅尔频谱图;
将所述第一目标梅尔频谱图转换为第一语音音频信号,并将所述第二语音的原始语音音频信号替换为所述第一语音音频信号,以将所述第二语音的音色从第二音色转换至第一音色;其中,所述原始语音音频信号与所述第二音色对应。
4.根据权利要求1所述的语音处理方法,其特征在于,所述确定与所述循环语音克隆模型对应的目标损失函数,包括:
基于提取的与所述第二语音的音色对应的所述梅尔频谱图、所述第一目标梅尔频谱图、与替换后的所述第二语音对应的所述梅尔频谱图以及所述第二目标梅尔频谱图,建立第一损失函数;
基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,并对所述第一损失函数以及所述第二损失函数进行计算得到目标损失函数;其中,所述第二损失函数包括针对所述循环语音克隆模型中的第一个映射关系建立起的以及针对所述循环语音克隆模型中的第二个映射关系建立起的。
5.根据权利要求4所述的语音处理方法,其特征在于,所述基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,包括:
将所述第一目标梅尔频谱图输入判别器模型,得到第一判别结果,并将所述第二目标梅尔频谱图输入所述判别器模型,得到第二判别结果;其中,所述判别器模型用于判别输入的梅尔频谱图的真实性;
将提取的与所述第二语音的音色对应的所述梅尔频谱图输入至所述判别器模型得到第三判别结果,并将与替换后的所述第二语音对应的所述梅尔频谱图输入所述判别器模型得到第四判别结果;
根据所述第一判别结果、所述第二判别结果、所述第三判别结果以及所述第四判别结果,建立第二损失函数。
6.根据权利要求5所述的语音处理方法,其特征在于,所述方法还包括:
根据所述第一判别结果、所述第二判别结果、所述第三判别结果以及所述第四判别结果,得到判别器损失函数,以根据所述判别器损失函数对所述判别器模型进行训练。
7.根据权利要求6所述的语音处理方法,其特征在于,所述根据所述判别器损失函数对所述判别器模型进行训练之后,所述方法还包括:
获取待判别语音,并将所述待判别语音输入至所述判别器模型中,以得到针对于所述待判别语音的语音判别结果;
若所述语音判别结果为第一结果,则发送提示所述待判别语音为合成语音的警告信息;
若所述语音判别结果为第二结果,则发送提示所述待判别语音为真实语音的提示信息。
8.一种语音处理装置,其特征在于,包括:
分离模块,被配置为对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;
转换模块,被配置为提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应,所述音色转换模型中还包括语音合成模型;
合并模块,被配置为将音色转换后的所述音频轨道与所述视频轨道合并,以得到具有被模仿者音色的所述目标视频;所述将所述音频轨道中的所述第二语音的音色从第二音色转换至第一音色之后,所述装置还包括:将所述第一语音的内容替换为所述第二语音,并将所述第二语音的内容替换为所述第一语音;将与替换后的所述第一语音对应的说话人特征嵌入向量、与替换后的所述第二语音对应的音素以及与替换后的所述第二语音对应的梅尔频谱图输入所述语音合成模型,合成具有第二音色的第二目标梅尔频谱图;其中,所述第二音色与替换前的所述第二语音对应;将所述第二目标梅尔频谱图转换为第二语音音频信号,并将第一语音音频信号替换为所述第二语音音频信号,以构建循环语音克隆模型;其中,转换第一梅尔频谱图得到所述第一语音音频信号,所述第一梅尔频谱图与所述第一音色对应;确定与所述循环语音克隆模型对应的目标损失函数,以根据所述目标损失函数对所述语音合成模型进行训练。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中的任意一项所述的语音处理方法。
10.一种非瞬态计算机可读存储介质,其上存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中的任意一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098086.2A CN113823300B (zh) | 2021-09-18 | 2021-09-18 | 语音处理方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098086.2A CN113823300B (zh) | 2021-09-18 | 2021-09-18 | 语音处理方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113823300A CN113823300A (zh) | 2021-12-21 |
CN113823300B true CN113823300B (zh) | 2024-03-22 |
Family
ID=78914853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098086.2A Active CN113823300B (zh) | 2021-09-18 | 2021-09-18 | 语音处理方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113823300B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979345A (zh) * | 2022-05-14 | 2022-08-30 | 云知声智能科技股份有限公司 | 一种防止诈骗的方法、装置、设备和介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
WO2019086044A1 (zh) * | 2017-11-06 | 2019-05-09 | 腾讯科技(深圳)有限公司 | 音频文件处理方法、电子设备及存储介质 |
CN110085244A (zh) * | 2019-05-05 | 2019-08-02 | 广州虎牙信息科技有限公司 | 直播互动方法、装置、电子设备及可读存储介质 |
CN110933330A (zh) * | 2019-12-09 | 2020-03-27 | 广州酷狗计算机科技有限公司 | 视频配音方法、装置、计算机设备及计算机可读存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
KR20200065248A (ko) * | 2018-11-30 | 2020-06-09 | 한국과학기술원 | 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112634920A (zh) * | 2020-12-18 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
CN113223542A (zh) * | 2021-04-26 | 2021-08-06 | 北京搜狗科技发展有限公司 | 音频的转换方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259072B (zh) * | 2020-09-25 | 2024-07-26 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
-
2021
- 2021-09-18 CN CN202111098086.2A patent/CN113823300B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
WO2019086044A1 (zh) * | 2017-11-06 | 2019-05-09 | 腾讯科技(深圳)有限公司 | 音频文件处理方法、电子设备及存储介质 |
KR20200065248A (ko) * | 2018-11-30 | 2020-06-09 | 한국과학기술원 | 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법 |
CN110085244A (zh) * | 2019-05-05 | 2019-08-02 | 广州虎牙信息科技有限公司 | 直播互动方法、装置、电子设备及可读存储介质 |
CN110933330A (zh) * | 2019-12-09 | 2020-03-27 | 广州酷狗计算机科技有限公司 | 视频配音方法、装置、计算机设备及计算机可读存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112634920A (zh) * | 2020-12-18 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
CN113223542A (zh) * | 2021-04-26 | 2021-08-06 | 北京搜狗科技发展有限公司 | 音频的转换方法、装置、存储介质及电子设备 |
Non-Patent Citations (5)
Title |
---|
F. Fang et,al..《High-Quality Nonparallel Voice Conversion Based on Cycle-Consistent Adversarial Network,》.《2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》.2018,5279-5283. * |
F. Villavicencio, et,al..《Applying improved spectral modeling for High Quality voice conversion》.《2009 IEEE International Conference on Acoustics, Speech and Signal Processing,》.2009,4285-4288. * |
Ming, Huaiping et,el..《"Exemplar-based sparse representation of timbre and prosody for voice conversion》.《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》.2016,5175-5179. * |
Xu, XX et,al..《Two-Pathway Style Embedding for Arbitrary Voice Conversion》.《Interspeech Conference》.2021,1364-1368. * |
基于Style-CycleGAN-VC的非平行语料下的语音转换;高俊峰, 陈俊国;《计算机应用与软件》;第38卷(第09期);133-139+159 * |
Also Published As
Publication number | Publication date |
---|---|
CN113823300A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021083071A1 (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
CN110706690A (zh) | 语音识别方法及其装置 | |
US20070061145A1 (en) | Methods and apparatus for formant-based voice systems | |
JP2020034895A (ja) | 応答方法及び装置 | |
CN111161695B (zh) | 歌曲生成方法和装置 | |
Fu et al. | Audio/visual mapping with cross-modal hidden Markov models | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
CN111710326A (zh) | 英文语音的合成方法及系统、电子设备及存储介质 | |
KR20200027331A (ko) | 음성 합성 장치 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN114627856A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN113053357A (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN114999441A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN111916054A (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN114329041A (zh) | 一种多媒体数据处理方法、装置以及可读存储介质 | |
CN114255737B (zh) | 语音生成方法、装置、电子设备 | |
CN114999443A (zh) | 语音生成方法及装置、存储介质、电子设备 | |
CN115376498A (zh) | 语音识别方法、模型训练方法、装置、介质、电子设备 | |
CN113823300B (zh) | 语音处理方法及装置、存储介质、电子设备 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
US20240119922A1 (en) | Text to speech synthesis without using parallel text-audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |