CN113870833A - 语音合成相关系统、方法、装置及设备 - Google Patents
语音合成相关系统、方法、装置及设备 Download PDFInfo
- Publication number
- CN113870833A CN113870833A CN202010617107.6A CN202010617107A CN113870833A CN 113870833 A CN113870833 A CN 113870833A CN 202010617107 A CN202010617107 A CN 202010617107A CN 113870833 A CN113870833 A CN 113870833A
- Authority
- CN
- China
- Prior art keywords
- speech
- language
- user
- data set
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 171
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 149
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 148
- 238000006243 chemical reaction Methods 0.000 claims abstract description 114
- 238000001308 synthesis method Methods 0.000 claims abstract description 18
- 230000004044 response Effects 0.000 claims description 70
- 238000012549 training Methods 0.000 claims description 55
- 230000003993 interaction Effects 0.000 claims description 40
- 238000010276 construction Methods 0.000 claims description 24
- 239000012634 fragment Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 40
- 230000000694 effects Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了语音交互相关系统、方法、装置及设备。其中,语音合成方法通过第一用户的跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。采用这种处理方式,可以有效提升多语种文本的语音合成质量,从而提升用户体验。
Description
技术领域
本申请涉及语音合成技术领域,具体涉及语音合成方法和装置,在线文本语音合成系统、方法和装置,语音交互系统、方法和装置,新闻播报系统、方法和装置,以及电子设备。
背景技术
随着语音合成技术的快速发展和应用的日益普及,语音合成业务正快速扩大并越来越多地被用户接受和使用。随着用户的教育程度提高,越来越多的应用场景涉及到多语种内容,尤其以中英混读较为普遍。因此产生了多语种语音合成业务的需求,并带动了相关技术的发展。
一种典型的多语种语音合成系统采用如下处理方式:首先,分别基于不同语言,使用不同说话人数据建模的方式,建立多套语音合成器;然后,根据文本中的不同语言文字,进行对应合成器的切换使用,来完成合成任务。另一种典型的多语种语音合成系统所采用的方案是,直接将非母语音标映射到母语音标体系中,然后使用母语语音合成器合成语音。目前比较流行的解决方案是,采集目标发音人多语言数据进行建模的处理方式。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:1)上述第一种方式通常造成合成音色和韵律不统一的问题,以至于影响语音合成的自然度和用户体验;2)上述第二种方式中,由于音标的映射关系仅仅是基于简单的发音相似性,因此合成的非母语语音会出现明显的发音不准确甚至错误,从而带来整体效果不自然;3)上述第三种方式中,大多数发音人除母语外的语言并不地道,带有较重的口音,采用这样的数据训练的模型在合成非说话人母语的语音上,发音均不够标准,降低用户体验;而聘请专业的多语发音人,数据采集成本又较高。此外,某些受欢迎的说话人未必精通双语或多语,这使得目前获得特定目标说话人的高质量多语言语音合成器变得非常困难。
综上所述,如何提升多语种语音合成的质量,以将多种语言文本合成自然的、准确的、音色统一的多语种语音,仍是亟待解决的问题。
发明内容
本申请提供语音合成方法,以解决现有技术存在的多语种文本的语音合成质量较低的问题。本申请另外提供语音合成装置,在线文本语音合成系统、方法和装置,语音交互系统、方法和装置,新闻播报系统、方法和装置,以及电子设备。
本申请提供一种语音交互系统,包括:
智能音箱,用于采集用户语音数据,向服务端发送用户语音数据;以及,播放服务端回送的应答语音数据;
服务端,用于通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
本申请还提供一种在线文本语音合成系统,包括:
终端设备,用于向服务端发送针对目标多语言混合文本的第一用户语音合成请求;
服务端,用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
本申请还提供一种新闻播报系统,包括:
终端设备,用于向服务端发送用多语种播报文本的请求;播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;
服务端,用于通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
本申请还提供一种语音合成方法,包括:
通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;
根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;
通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
可选的,所述通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据,包括:
通过所述语音合成器包括的文本输入模块,确定所述第一多语言混合文本的发音单元序列,其中不同语言的文本片段的发音单元为相应语言的发音单元;
通过所述语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;
通过所述语音合成器包括的声码器,根据声学特征序列,生成所述语音合成数据。
可选的,中文发音单元包括:汉语拼音的声母和韵母,以及声调;
英文发音单元包括:英文音素和轻重音;
可选的,所述英文发音单元序列采用如下方式确定:
在发音单元之间插入空格,并根据单词间语音停顿长度,插入标点符号。
可选的,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器,包括:
根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的混合语言的第四语音数据集;
根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器。
可选的,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的混合语言的第四语音数据集,包括:
根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的语音合成器;
确定第二多语言混合文本集;
针对各个第二多语言混合文本,通过第一用户的语音合成器包括的文本输入模块,确定所述第二多语言混合文本的发音单元序列,其中不同语言的文本片段的发音单元为相应语言的发音单元;
通过第一用户的语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;
通过第一用户的语音合成器包括的声码器,根据声学特征序列,生成与所述第二多语言混合文本对应的第一用户的语音合成数据;
根据与所述第二多语言混合文本对应的第一用户的语音合成数据,确定所述第四语音数据集。
可选的,所述第一用户的语音合成器包括:基于Transformer模型的语音合成器;
所述根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器,包括:
生成所述声学特征合成网络;
所述生成所述声学特征合成网络,包括:
根据所述第四语音数据集,优化基于Transformer模型的声学特征合成网络。
可选的,所述根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器,包括:
生成所述声学特征合成网络;
所述生成所述声学特征合成网络,包括:
根据所述第二语音数据集、第三语音数据集和所述第四语音数据集,生成基于Tacotron2模型或者FastSpeech模型的声学特征合成网络。
可选的,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器,包括:
根据所述第三语音数据集,生成所述声码器。
可选的,所述跨语言语音转换算法包括:基于语音后验概率图谱PPG的跨语言语音转换算法。
本申请还提供一种语音交互方法,包括:
通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;
根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
针对客户端发送的用户语音数据,确定与用户语音数据对应的相同语言的应答文本;
通过所述语音合成器,生成与应答文本对应的应答语音数据。
本申请还提供一种语音交互方法,包括:
采集用户语音数据,向服务端发送用户语音数据;
播放服务端回送的应答语音数据;所述应答语音数据采用如下方式确定:服务端通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
本申请还提供一种在线文本语音合成方法,包括:
向服务端发送针对目标多语言混合文本的第一用户语音合成请求,以使得服务端通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
本申请还提供一种新闻播报方法,包括:
通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;
根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
针对客户端发送的用多语种播报文本的请求,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
本申请还提供一种新闻播报方法,包括:
向服务端发送用多语种播报文本的请求;
播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;所述多语种语音数据采用如下方式生成:服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
本申请还提供一种语音合成器构建方法,包括:
通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
本申请还提供一种跨语言语音生成方法,包括:
确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求;
播放服务端回送的第一用户朗读所述文本的语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言。
本申请还提供一种跨方言语音生成系统,包括:
终端设备,用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;以及,播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据;
服务端,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;以及,针对所述请求,通过所述语音合成器,生成第一语音数据。
本申请还提供一种跨方言语音生成方法,包括:
确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;
播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据。
本申请还提供一种跨方言语音生成方法,包括:
通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;
针对客户端发送的由第一用户用第一方言朗读所述文本的语音生成请求,通过所述语音合成器,生成第一语音数据。
本申请还提供一种语音合成器构建方法,包括:
通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
本申请还提供一种语音合成装置,包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;
语音合成单元,用于通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现语音合成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
本申请还提供一种语音合成器构建装置,包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
本申请还提供一种语音合成器构建装置,包括:
训练数据生成单元,用于通过跨方言语音转换算法,根据第二用户的第二方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
语音合成器训练单元,用于根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨方言语音转换算法,根据第二用户的第二方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的语音合成方法,通过第一用户的跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据;这种处理方式,使得采用跨语言语音转换技术,生成高质量的具有目标发音人音色的非母语和混合语言数据,与其原本的母语录音数据合并,一同作为训练数据,得到了一个具有双语/多语/混合语言能力的目标说话人音色的语音合成器,避免跨语言及混合语言语音合成中,使用不同语言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多语种文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语录音,就可以把音色扩展到其它语言,对其它语言的任何文本进行语音合成处理。同时,这种处理方式还无需使用音标映射之类的方法来进行语言跨越,避免了音标映射带来的发音不准确甚至错误的问题。此外,这种处理方式还使得仅仅使用不同说话人的单语数据库即可进行系统建设,节省了聘请专业多语发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语表现的基础上,外语部分的合成效果可以达到逼近外语母语者的发音水平,同时合成的不同语言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单语)音色优秀的多语能力。
本申请提供的跨方言语音生成系统,通过终端设备用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;以及,播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据;服务端,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;以及,针对所述请求,通过所述语音合成器,生成第一语音数据;这种处理方式,使得采用跨方言语音转换技术,生成高质量的具有目标发音人音色的某种方言或多种方言混合的语言数据,与其原本的母语方言录音数据合并,一同作为训练数据,得到了一个具有双方言/多方言/混合方言语言能力的目标说话人音色的语音合成器,避免跨方言及混合方言语音合成中,使用不同方言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多方言文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语方言限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语方言录音,就可以把音色扩展到其它方言,对其它方言的任何文本进行语音合成处理。此外,这种处理方式还使得仅仅使用不同说话人的单方言数据库即可进行系统建设,节省了聘请专业多方言发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语方言表现的基础上,其他方言部分的合成效果可以达到逼近方言母语者的发音水平,同时合成的不同方言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单方言)音色优秀的多方言能力。
附图说明
图1本申请提供的一种语音交互系统的实施例的结构示意图;
图2本申请提供的一种语音交互系统的实施例的场景示意图;
图3本申请提供的一种语音交互系统的实施例的设备交互示意图;
图4本申请提供的一种语音合成方法的实施例的流程示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了语音合成方法和装置,在线文本语音合成系统、方法和装置,语音交互系统、方法和装置,新闻播报系统、方法和装置,智能音箱,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请的语音交互系统的实施例的示意图。本实施例提供的语音交互系统包括:服务器1和智能音箱2。
服务器1,可以是部署在云端服务器上的服务端,也可以是专用于实现语音交互系统的服务器,可部署在数据中心。
智能音箱2,可以是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
请参考图2,其为本申请的语音交互系统的场景示意图。服务端1和智能音箱2间可通过网络连接,如智能音箱2可通过WI FI等方式联网,等等。用户与智能音箱之间通过语音方式进行交互。智能音箱带有对话系统,会面对来自不同地方或者国家的用户,在对话时可以支持用户的语言,如果用户说中文,智能音箱可以用中文对话,如果用户说英文,智能音箱可以用英文对话。用户向智能音箱2下达语音指令数据,服务端可确定与用户语音数据对应的相同语言的应答文本,并通过智能音箱的具有多语言能力的语音合成器,生成与应答文本对应的应答语音数据,该应答语音与音箱用户具有相同的语言。
请参考图3,其为本申请的语音交互系统的设备示意图。在本实施例中,智能音箱,用于采集用户语音数据,向服务端发送用户语音数据;以及,播放服务端回送的应答语音数据;服务端,用于通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
例如,智能音箱系统的服务端可先根据目标用户的中文语音数据,生成具有中文语音合成能力的语音合成器,使得该服务端具有中文应答能力,可以用中文与音箱端的用户A进行语音交互;此后,另一个音箱的用户B使用英文与音箱进行语音交互,为了使得服务端具有英文应答能力,可通过跨语言语音转换算法,根据其他用户的英文语音数据(第一语音数据集),生成具有目标用户音色的英文语音数据(第二语音数据集);根据所述第二语音数据集、和目标用户的中文语音数据(第三语音数据集),生成目标用户的具有中英文两种语音合成能力的语音合成器;并在确定与用户B的英文语音数据对应的英文应答文本之后,通过所述语音合成器,生成与英文应答文本对应的英文应答语音数据;此后,又一个音箱的用户C使用法文与音箱进行语音交互,为了使得服务端具有法文应答能力,可通过跨语言语音转换算法,根据其他用户的法文语音数据(第一语音数据集),生成具有目标用户音色的法文语音数据(第二语音数据集);根据目标用户的法文语音数据集、英文语音数据集、和中文语音数据,生成目标用户的具有中、英、法文三种语音合成能力的语音合成器;并在确定与用户C的法文语音数据对应的法文应答文本之后,通过所述语音合成器,生成与法文应答文本对应的法文应答语音数据。
服务端具体处理过程详见第二实施例的说明,此处不再赘述。
从上述实施例可见,本申请实施例提供的语音交互系统,通过智能音箱采集用户语音数据,向服务端发送用户语音数据;以及,播放服务端回送的应答语音数据;服务端通过跨语言语音转换算法,根据第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据;这种处理方式,使得采用跨语言语音转换技术,生成高质量的具有目标发音人音色的非母语和混合语言数据,与其原本的母语录音数据合并,一同作为训练数据,得到了一个具有双语/多语/混合语言能力的目标说话人音色的语音合成器,避免跨语言及混合语言语音合成中,使用不同语言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多语种文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语录音,就可以把音色扩展到其它语言,对其它语言的任何文本进行语音合成处理。同时,这种处理方式还无需使用音标映射之类的方法来进行语言跨越,避免了音标映射带来的发音问题。此外,这种处理方式还使得仅仅使用不同说话人的单语数据库即可进行系统建设,节省了聘请专业多语发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语表现的基础上,外语部分的合成效果可以达到逼近外语母语者的发音水平,同时合成的不同语言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单语)音色优秀的多语能力。
第二实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种语音合成方法,该方法的执行主体可以是服务器等设备。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
请参考图4,其为本申请的语音合成方法的实施例的流程示意图。在本实施例中,所述方法包括如下步骤:
步骤S101:通过第一用户的跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集。
所述第二用户,可以是第一用户以外的其他多个第二用户,即:第一语音数据集可包括多个第二用户的第一语音数据。
所述方法采用跨语言语音转换技术,生成具有目标发音人音色的非母语、混合语言数据,与该用户原本的母语录音数据合并,一同作为训练数据,得到一个具有双语或多语、及混合语言能力的目标说话人音色的语音合成器。
在本实施例中,使用两个不同母语的说话人(以一个中文母语者和一个英文母语者为例)的单语言录音,建设每个说话人的中英双语和混合语言的语音合成系统,这样就可以针对上述两个说话人中的任一说话人进行中英双语和混合语言的语音合成任务,也就是可以输入含有中文和英文的文本来合成同一个说话人的对应语音。
所述跨语言语音转换算法,包括但不限于:基于语音后验概率图谱PPG的跨语言语音转换算法。具体实施时,也可以采用其它传统的跨语言语音转换算法,如先将源说话人的语音信号转化为相应的文字信息,然后将文字信息结合目标说话人的语音特征信息进行合成,生成具有目标说话人音色的语音信号。由于所述跨语言语音转换算法属于较为成熟的现有技术,因此此处不再赘述。
在本实施例中,采用基于PPG的跨语言语音转换算法,可以生成高质量的具有目标发音人音色的非母语和混合语言数据。该算法可包括如下步骤:1)构建语音后验概率图谱PPG特征提取器、和第一用户的语音合成模型;2)通过所述PPG特征提取器,根据所述第一语音数据的第一声学特征数据,确定第一语音数据的PPG特征数据;所述第一声学特征数据包括第二用户声纹信息和语音内容信息;3)通过第一用户的语音合成模型,根据所述PPG特征数据、和第一语音数据的第二声学特征数据,生成与第一语音数据对应的第一用户的第一语言的第二语音数据;所述第二声学特征数据包括韵律信息。
具体实施时,可以分别使用中英文录音数据,训练出中文说话人和英文说话人各自的跨语言语音转换系统;然后使用中文说话人的跨语言语音转换系统,将英文录音转换获得中文说话人的英文语音;同时,使用英文说话人的跨语言语音转换系统,将中文录音转换获得英文说话人的中文语音。
通过步骤S101使用跨语言语音转换技术,生成目标说话人(第一用户)母语以外其它语言的TTS训练语料,即第二语音数据集。
步骤S103:根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
本申请实施例提供的所述方法包括训练和语音合成两个阶段,步骤S103为训练阶段,步骤S101为训练数据准备阶段。在训练阶段,可进行中英跨语言语音转换系统(跨语言语音转换算法)的模型训练、和中英双语和混合语言的语音合成系统(语音合成器)中的声学特征合成模块和声码器的训练。
在本实施例中,使用中文说话人(第一用户)的中文录音(第三语音数据集),以及通过步骤S101转换获得的其英文语音(第二语音数据集),进行中文说话人的中英双语和混合语言的语音合成器的建设。
具体实施时,该语音合成器可包括三个主要模块:文本输入模块(I nputrepresentat ion),声学特征合成网络(Synthes i s network),声码器。下面分别对这三个模块进行说明。
所述文本输入模块,用于将普通文本转换成以发音单元为单位的序列,如中文发音单元为汉语拼音的声母和韵母,以及声调。英文发音单元为英文音素和轻重音,每个单元以空格分开。另外,可根据单词间语音停顿的长度加入特殊符号表示。模型训练时,文本输入可以是以句子形式进行。
所述声码器,用于将声学特征合成模块合成的LPCNet声学特征序列合成waveform形式的语音。声码器,可以是LPCNet声码器,也可以是其它网络的声码器。具体实施时,可根据所述第三语音数据集,生成所述声码器。也就是说,声码器的训练使用目标说话人的原始录音集(母语录音集)即可。
所述声学特征合成网络,用于将文本输入模块处理后的发音序列合成LPCNet声学特征序列,该模块可以基于已有的语音合成模型结构,也可以使用其它模型结构设计,如Tacotron2、Transformer和FastSpeech等语音合成模型结构。
在一个示例中,根据不包含中英混合文本的训练数据,也即根据第二语音数据集和第三语音数据集,生成第一用户的具有多语言能力的语音合成器。然而,经过实验发现,仅使用不包含中英混合文本的训练数据,以上三种语音合成模型结构都无法达到非常理想的效果。
在另一个示例中,步骤S103可包括如下子步骤:
步骤S1031:根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的混合语言的第四语音数据集。
所述第四语音数据可包括多种语言的语音,所述第二语音数据和第三语音数据包括单种语言的语音。
具体实施时,步骤S1031可包括如下子步骤:
步骤S10311:根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的语音合成器。
所述语音合成器,可以是基于Transformer模型的语音合成器,即:通过Transformer系统合成中英混合语音。具体实施时,也可以是基于Tacotron2模型或者FastSpeech模型的语音合成器。
步骤S10313:确定第二多语言混合文本集;
步骤S10315:针对各个第二多语言混合文本,通过第一用户的语音合成器包括的文本输入模块,确定所述第二多语言混合文本的发音单元序列,其中不同语言的文本片段的发音单元为相应语言的发音单元;
步骤S10317:通过第一用户的语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;
步骤S10319:通过第一用户的语音合成器包括的声码器,根据声学特征序列,生成与所述第二多语言混合文本对应的第一用户的语音合成数据;
步骤S10310:根据与所述第二多语言混合文本对应的第一用户的语音合成数据,确定所述第四语音数据集。
在本实施例中,基于中文说话人的中文录音和通过转换获得的英文语音,以及基于Transformer模型的语音合成系统(语音合成器),对训练数据进行了扩充。首先,使用中文说话人的中文录音和通过转换获得的英文语音的训练集,训练了基于Transformer模型的语音合成系统;然后,准备了1万句以上的中英混合文本(第二多语言混合文本集),使用上述过程和基于Transformer模型的语音合成系统,把中英混合文本合成中英混合语音;然后,从合成的中英混合语音通过人工筛检,选出准确的语音结果(第四语音数据集)作为新的训练集,把筛检出的新的中英混合训练集加入到中文说话人的中文录音和通过转换获得的英文语音的训练集。
通过步骤S1031生成第四语音数据集后,就可以进入步骤S1033,使用该扩充后的训练集训练语音合成器。
步骤S1033:根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器。
采用这种处理方式,声学特征合成网络的训练需要三部分的数据集:1)目标说话人的原始录音(第三语音数据集);2)通过跨语言语音转换获得的语音(第二语音数据集);3)中英混合语音(第四语音数据集)。
具体实施时,步骤S1033可包括如下子步骤:生成所述声学特征合成网络;所述生成所述声学特征合成网络,可采用如下方式实现:根据所述第二语音数据集、第三语音数据集和所述第四语音数据集,生成基于Transformer模型、Tacotron2模型或者FastSpeech等模型的声学特征合成网络。
在本实施例中,步骤S1033中所述生成所述声学特征合成网络,包括:根据所述第四语音数据集,优化步骤S1031中训练得到的基于Transformer模型的声学特征合成网络。采用这种Transformer系统,可首先基于第一二部分的训练集(所述第二语音数据集和第三语音数据集)进行第一遍训练,然后加入第三部分的训练集(所述第四语音数据集)进行优化训练,因此可以有效提升语音合成器的构建效率。
具体实施时,诸如Tacotron2和FastSpeech系统可使用第一二三部分的训练集一次性进行训练。在本实施例中,分别使用了基于Tacotron2,Transformer和FastSpeech三种语音合成模型结构,都取得了理想的效果。
在本实施例中,还可使用英文说话人的英文录音、及通过转换获得的其中文语音,进行英文说话人的中英双语和混合语言的语音合成系统建设,该过程和上述进行中文说话人的中英双语和混合语言的语音合成系统建设所述的过程相同,因此不再赘述。
通过步骤S103完成训练阶段后,该系统可以被用来进行第二阶段的合成任务。
步骤S105:通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
在一个示例中,步骤S105可包括如下子步骤:通过所述语音合成器包括的文本输入模块,确定所述第一多语言混合文本的发音单元序列,其中不同语言的文本片段(如“我很happy”包括一个中文片段“我很”和一个英文片段“happy”)的发音单元为相应语言的发音单元;通过所述语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;通过所述语音合成器包括的声码器,根据声学特征序列,生成所述语音合成数据。其中,所述语音合成器中各模块的处理方式详见步骤S103,此处不再赘述。
例如,给定一段纯中文,纯英文或者中英混文本,输入到文本输入模块,生成声学特征合成网络的输入序列,然后声学特征合成网络生成LPCNet声学特征序列,LPCNet声码器将LPCNet声学特征序列合成Waveform语音(所述语音合成数据)进行播放。
所述中文发音单元,包括但不限于:汉语拼音的声母和韵母,以及声调;所述英文发音单元,包括但不限于:英文音素和轻重音。其中,英文发音单元序列可采用如下方式确定:在发音单元之间插入空格,并根据单词间语音停顿长度,插入标点符号。
需要说明的是,所述方法中的三个模块:文本输入模块,声学特征合成网络,LPCNet声码器均可以使用其他解决方案。文本输入模块可以选用输出其他的发音序列,如使用Byte序列或者I PA序列,声学特征合成网络可以使用其它模型结构,LPCNet的替代方案包括WaveNet、WaveRNN等。
从上述实施例可见,本申请实施例提供的语音合成方法,通过第一用户的跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据;这种处理方式,使得采用跨语言语音转换技术,生成高质量的具有目标发音人音色的非母语和混合语言数据,与其原本的母语录音数据合并,一同作为训练数据,得到了一个具有双语/多语/混合语言能力的目标说话人音色的语音合成器,避免跨语言及混合语言语音合成中,使用不同语言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多语种文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语录音,就可以把音色扩展到其它语言,对其它语言的任何文本进行语音合成处理。同时,这种处理方式还无需使用音标映射之类的方法来进行语言跨越,避免了音标映射带来的发音问题。此外,这种处理方式还使得仅仅使用不同说话人的单语数据库即可进行系统建设,节省了聘请专业多语发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语表现的基础上,外语部分的合成效果可以达到逼近外语母语者的发音水平,同时合成的不同语言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单语)音色优秀的多语能力。
第三实施例
在上述的实施例中,提供了一种语音合成方法,与之相对应的,本申请还提供一种语音合成装置。该装置是与上述方法的实施例相对应。本实施例与第二实施例内容相同的部分不再赘述,请参见实施例二中的相应部分。
本申请提供的一种语音合成装置包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;
语音合成单元,用于通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
第四实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现语音合成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
所述电子设备,可以是智能音箱,点餐机,售卖机,售票机,聊天机器人,等等。
第五实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种语音交互方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互方法,可包括如下步骤:
步骤1:通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;
步骤2:根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
步骤3:针对客户端发送的用户语音数据,确定与用户语音数据对应的相同语言的应答文本;
步骤4:通过所述语音合成器,生成与应答文本对应的应答语音数据。
第六实施例
在上述的实施例中,提供了一种语音交互方法,与之相对应的,本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互装置包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
应答文本确定单元,用于针对客户端发送的用户语音数据,确定与用户语音数据对应的相同语言的应答文本;
语音合成单元,用于通过所述语音合成器,生成与应答文本对应的应答语音数据。
第七实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;
根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
针对客户端发送的用户语音数据,确定与用户语音数据对应的相同语言的应答文本;
通过所述语音合成器,生成与应答文本对应的应答语音数据。
第八实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种语音交互方法,该方法的执行主体可以是终端设备等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互方法,可包括如下步骤:
步骤1:采集用户语音数据,向服务端发送用户语音数据;
步骤2:播放服务端回送的应答语音数据;所述应答语音数据采用如下方式确定:服务端通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
第九实施例
在上述的实施例中,提供了一种语音交互方法,与之相对应的,本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互装置包括:
语音采集单元,用于采集用户语音数据,向服务端发送用户语音数据;
语音播放单元,用于播放服务端回送的应答语音数据;所述应答语音数据采用如下方式确定:服务端通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
第十实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据,向服务端发送用户语音数据;播放服务端回送的应答语音数据;所述应答语音数据采用如下方式确定:服务端通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
所述电子设备,包括但不限于:智能音箱,智能手机,自动售货机,自动点餐机,等等。
第十一实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种在线文本语音合成交互系统。该交互系统是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种在线文本语音合成交互系统,包括:终端设备和服务端。
其中,终端设备用于向服务端发送针对目标多语言混合文本的第一用户语音合成请求;服务端用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
例如,第一用户的母语为中文,该用户并不会说英语,因此无法直接获得该用户的英语语音数据集,也就无法直接生成该用户的具有中英文双语语音合成能力的语音合成器;而采用本申请实施例提供的所述系统,可根据第二用户的英语语音数据集,通过跨语言语音转换算法,自动生成第一用户的英语语音数据集,并根据中、英文语音数据集,生成第一用户的具有中英文混合语音合成能力的语音合成器;然后,针对终端设备的对多语种混合文本进行语音合成的需求,可通过该语音合成器,生成对应的中英文混合语音数据。
从上述实施例可见,本申请提供的在线文本语音合成交互系统,通过终端设备向服务端发送针对目标多语言混合文本的第一用户语音合成请求;服务端用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据;这种处理方式,使得采用跨语言语音转换技术,生成高质量的具有目标发音人音色的非母语和混合语言数据,与其原本的母语录音数据合并,一同作为训练数据,得到了一个具有双语/多语/混合语言能力的目标说话人音色的语音合成器,避免跨语言及混合语言语音合成中,使用不同语言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多语种文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语录音,就可以把音色扩展到其它语言,对其它语言的任何文本进行语音合成处理。同时,这种处理方式还无需使用音标映射之类的方法来进行语言跨越,避免了音标映射带来的发音不准确甚至错误的问题。此外,这种处理方式还使得仅仅使用不同说话人的单语数据库即可进行系统建设,节省了聘请专业多语发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语表现的基础上,外语部分的合成效果可以达到逼近外语母语者的发音水平,同时合成的不同语言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单语)音色优秀的多语能力。
第十二实施例
在上述的实施例中,提供了一种在线文本语音合成交互系统,与之相对应的,本申请还提供一种在线文本语音合成交互方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种在线文本语音合成交互方法,可包括如下步骤:向服务端发送针对目标多语言混合文本的第一用户语音合成请求,以使得服务端通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
第十三实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现在线文本语音合成交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:向服务端发送针对目标多语言混合文本的第一用户语音合成请求,以使得服务端通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
第十四实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种新闻播报系统。该交互系统是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种新闻播报系统,包括:终端设备和服务端。
其中,终端设备用于向服务端发送用多语种播报文本的请求;播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;服务端,用于通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
所述待播报文本,可以是多个语种混合的文本,即一段文本内包括多个语言的文字,如“我很happy”;相应的,多语种语音数据为混合语种的语音数据。所述待播报文本,也可以是一个文本的多个语种版本,如英文版、法文本等,如“我很高兴”、“I’m very happy”;相应的,多语种语音数据为多个语种的语音数据。
例如,某个主持人要播报一条新闻的多个语言版本,包括中文、英文、德文、越南语等,但该主持人只会说中文和英文,现有技术仅根据该主持人自身的中、英文语音数据,训练生成中文语音合成器和英文语音合成器,却无法生成一个中、英、德、越南语多语种混合的语音合成器;而通过本申请实施例提供的所述系统,可搜集其他用户的其它各语种的语音数据,通过跨语言语音转换算法,根据其他用户的中、英文以外其它各语种的语音数据集,生成具有该主持人音色的其它各语种的语音数据集;根据该主持人音色的其它各语种的语音数据集、和该主持人的中文语音数据集和英文语音数据集,生成该主持人的具有多语言能力的语音合成器,这是一个不同语种通用的语音合成器,通过该语音合成器,可生成由该主持人播报的与待播报新闻对应的多语种语音数据,如生成该新闻的中文语音、英文语音、德语音文、越南语音等。
再例如,某个主持人要播报一条包括中文、英文、德文三种文字的新闻,但该主持人只会说中文和英文,不会读或读不好其中的德文,现有技术仅根据该主持人自身的中、英文语音数据,训练生成中文语音合成器和英文语音合成器,却无法生成一个中、英、德多语种混合的语音合成器;而通过本申请实施例提供的所述系统,可搜集其他用户的德语语音数据,通过跨语言语音转换算法,根据其他用户的德语语音数据集,生成具有该主持人音色的德语语音数据集;根据该主持人音色的德语语音数据集、和该主持人的中文语音数据集和英文语音数据集,生成该主持人的具有中、英、德混合语言能力的语音合成器,该语音合成器即可以合成中文语音数据,也可以合成英文语音数据,还可以合成德文语音数据,又可以合成这三种语言混合的语音数据;通过该语音合成器,可生成由该主持人播报的与该条包括中文、英文、德文三种文字的新闻对应的混合语言的语音数据。
从上述实施例可见,本申请提供的新闻播报系统,通过终端设备向服务端发送用多语种播报文本的请求;播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据;这种处理方式,使得采用跨语言语音转换技术,生成高质量的具有目标发音人音色的非母语和混合语言数据,与其原本的母语录音数据合并,一同作为训练数据,得到了一个具有双语/多语/混合语言能力的目标说话人音色的语音合成器,避免跨语言及混合语言语音合成中,使用不同语言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多语种文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语录音,就可以把音色扩展到其它语言,对其它语言的任何文本进行语音合成处理。同时,这种处理方式还无需使用音标映射之类的方法来进行语言跨越,避免了音标映射带来的发音不准确甚至错误的问题。此外,这种处理方式还使得仅仅使用不同说话人的单语数据库即可进行系统建设,节省了聘请专业多语发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语表现的基础上,外语部分的合成效果可以达到逼近外语母语者的发音水平,同时合成的不同语言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单语)音色优秀的多语能力。
第十五实施例
在上述的实施例中,提供了一种新闻播报系统,与之相对应的,本申请还提供一种新闻播报方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种新闻播报方法,可包括如下步骤:
步骤1:通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;
步骤2:根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
步骤3:针对客户端发送的用多语种播报文本的请求,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第十六实施例
在上述的实施例中,提供了一种新闻播报方法,与之相对应的,本申请还提供一种新闻播报装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种新闻播报装置包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
语音合成单元,用于针对客户端发送的用多语种播报文本的请求,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第十七实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现新闻播报方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;针对客户端发送的用多语种播报文本的请求,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第十八实施例
在上述的实施例中,提供了一种新闻播报系统,与之相对应的,本申请还提供一种新闻播报方法,该方法的执行主体可以终端设备等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种新闻播报方法,可包括如下步骤:
步骤1:向服务端发送用多语种播报文本的请求;
步骤2:播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;所述多语种语音数据采用如下方式生成:服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第十九实施例
在上述的实施例中,提供了一种新闻播报方法,与之相对应的,本申请还提供一种新闻播报装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种新闻播报装置包括:
请求发送单元,用于向服务端发送用多语种播报文本的请求;
语音播放单元,用于播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;所述多语种语音数据采用如下方式生成:服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第二十实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现新闻播报方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:向服务端发送用多语种播报文本的请求;播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;所述多语种语音数据采用如下方式生成:服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
第二十一实施例
在上述的实施例中,提供了一种语音合成方法,与之相对应的,本申请还提供一种语音合成器构建方法,该方法的执行主体可以终端设备等等。该方法是与上述系统的实施例相对应。本实施例与第二实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音合成器构建方法,可包括如下步骤:
步骤1:通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
步骤2:根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
第二十二实施例
在上述的实施例中,提供了一种语音合成器构建方法,与之相对应的,本申请还提供一种语音合成器构建装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音合成器构建装置包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
第二十三实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
第二十四实施例
在上述的实施例中,提供了一种语音合成方法,与之相对应的,本申请还提供一种跨语言语音生成方法,该方法的执行主体可以终端设备等等。该方法是与上述系统的实施例相对应。本实施例与第二实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨语言语音生成方法,可包括如下步骤:
步骤1:确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求。
步骤2:播放服务端回送的第一用户朗读所述文本的第一语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言。
例如,第一用户要读一段英文文本,但该用户是一个不会说英语或英语说的不好的中国人,为了达到该第一用户流利说英文的效果,第一用户可通过终端设备确定待朗读的英文文本,向服务端发送由第一用户朗读该英文文本的语音生成请求;服务端可通过上述实施例二提供的语音合成方法,生成第一用户朗读该英文文本的语音数据,好像该第一用户具有较好的英语水平。
从上述实施例可见,本申请实施例提供的跨语言语音生成方法,通过终端设备确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求;播放服务端回送的第一用户朗读所述文本的语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言;这种处理方式,使得即使第一用户不具有某语种的文本阅读能力,也能够生成第一用户朗读该语种文本的语音数据,实现跨语言的文本朗读。
第二十五实施例
在上述的实施例中,提供了一种跨语言语音生成方法,与之相对应的,本申请还提供一种跨语言语音生成装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨语言语音生成装置包括:
文本确定单元,用于确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求;
语音播放单元,用于播放服务端回送的第一用户朗读所述文本的语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言。
第二十六实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现跨语言语音生成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求;播放服务端回送的第一用户朗读所述文本的语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言。
第二十七实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种跨方言语音生成系统。该交互系统是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨方言语音生成系统,包括:终端设备和服务端。
其中,终端设备用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;以及,播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据;服务端,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;以及,针对所述请求,通过所述语音合成器,生成第一语音数据。
例如,一个说普通话的第一用户要用粤语(第一方言)说一段话,但该用户不会说粤语或粤语说的不好,为了达到该第一用户流利说粤语的效果,服务端可先通过跨方言语音转换算法,根据其他说粤语的第二用户的粤语语音数据(第二语音数据集),生成具有第一用户音色的粤语语音数据(第三语音数据集);根据所述第三语音数据集、和第一用户的普通话(第二方言)的第四语音数据集,生成第一用户的具有普通话和粤语能力的语音合成器;针对第一用户通过终端设备确定的待朗读文本,通过所述语音合成器,生成由第一用户用粤语朗读该文本的语音数据(第一语音数据),好像该第一用户具有较好的英语水平。
所述跨方言语音转换算法,可以生成高质量的具有目标发音人音色的某种方言或多种方言混合的语言数据。该算法可包括如下步骤:1)构建语音后验概率图谱PPG特征提取器、和第一用户的语音合成模型;2)通过所述PPG特征提取器,根据第二用户的第一方言的第二语音数据的第一声学特征数据,确定第二语音数据的PPG特征数据;所述第一声学特征数据包括第二用户声纹信息和语音内容信息;3)通过第一用户的语音合成模型,根据所述PPG特征数据、和第二语音数据的第二声学特征数据,生成与第二语音数据对应的第一用户的第一方言的第三语音数据;所述第二声学特征数据包括韵律信息。由于所述跨方言语音转换算法与上述跨语言语音转换算法的处理过程相似,因此此处不再赘述。
从上述实施例可见,本申请提供的跨方言语音生成系统,通过终端设备用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;以及,播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据;服务端,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;以及,针对所述请求,通过所述语音合成器,生成第一语音数据;这种处理方式,使得采用跨方言语音转换技术,生成高质量的具有目标发音人音色的某种方言或多种方言混合的语言数据,与其原本的母语方言录音数据合并,一同作为训练数据,得到了一个具有双方言/多方言/混合方言语言能力的目标说话人音色的语音合成器,避免跨方言及混合方言语音合成中,使用不同方言各自的合成器时相互切换造成的音色不一致,效果不自然的问题;因此,可以有效提升多方言文本的语音合成质量,从而提升用户体验。此外,该系统使得不再局限于发音人的母语方言限制,而只关注发音人的音色,只要选定发音人的音色和录制发音人母语方言录音,就可以把音色扩展到其它方言,对其它方言的任何文本进行语音合成处理。此外,这种处理方式还使得仅仅使用不同说话人的单方言数据库即可进行系统建设,节省了聘请专业多方言发音人带来的高额成本。再者,这种处理方式还使得在不影响本身母语方言表现的基础上,其他方言部分的合成效果可以达到逼近方言母语者的发音水平,同时合成的不同方言的语音都很好的保持了目标说话人的音色,因此可以是赋予任何(单方言)音色优秀的多方言能力。
第二十八实施例
在上述的实施例中,提供了一种跨方言语音生成系统,与之相对应的,本申请还提供一种跨方言语音生成方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨方言语音生成方法,可包括如下步骤:
步骤1:通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
步骤2:根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;
步骤3:针对客户端发送的由第一用户用第一方言朗读所述文本的语音生成请求,通过所述语音合成器,生成第一语音数据。
第二十九实施例
在上述的实施例中,提供了一种跨方言语音生成方法,与之相对应的,本申请还提供一种跨方言语音生成装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨方言语音生成装置包括:
训练数据生成单元,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
语音合成器训练单元,用于根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;
语音合成单元,用于针对客户端发送的由第一用户用第一方言朗读所述文本的语音生成请求,通过所述语音合成器,生成第一语音数据。
第三十实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现跨方言语音生成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;针对客户端发送的由第一用户用第一方言朗读所述文本的语音生成请求,通过所述语音合成器,生成第一语音数据。
第三十一实施例
在上述的实施例中,提供了一种跨方言语音生成系统,与之相对应的,本申请还提供一种跨方言语音生成方法,该方法的执行主体可以终端设备等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨方言语音生成方法,可包括如下步骤:
步骤1:确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;
步骤2:播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据。
第三十二实施例
在上述的实施例中,提供了一种跨方言语音生成方法,与之相对应的,本申请还提供一种跨方言语音生成装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种跨方言语音生成装置包括:
请求发送单元,用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;
语音播放单元,用于播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据。
第三十三实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现跨方言语音生成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据。
第三十四实施例
在上述的实施例中,提供了一种跨方言语音生成方法,与之相对应的,本申请还提供一种语音合成器构建方法,该方法的执行主体可以服务端等等。该方法是与上述系统的实施例相对应。本实施例与第二实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音合成器构建方法,可包括如下步骤:
步骤1:通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
步骤2:根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
第三十五实施例
在上述的实施例中,提供了一种语音合成器构建方法,与之相对应的,本申请还提供一种语音合成器构建装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音合成器构建装置包括:
训练数据生成单元,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
语音合成器训练单元,用于根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
第三十六实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(trans itory med i a),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (30)
1.一种语音交互系统,其特征在于,包括:
智能音箱,用于采集用户语音数据,向服务端发送用户语音数据;以及,播放服务端回送的应答语音数据;
服务端,用于通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
2.一种在线文本语音合成系统,其特征在于,包括:
终端设备,用于向服务端发送针对目标多语言混合文本的第一用户语音合成请求;
服务端,用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
3.一种新闻播报系统,其特征在于,包括:
终端设备,用于向服务端发送用多语种播报文本的请求;播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;
服务端,用于通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
4.一种语音合成方法,其特征在于,包括:
通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;
根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;
通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
5.根据权利要求4所述的方法,其特征在于,所述通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据,包括:
通过所述语音合成器包括的文本输入模块,确定所述第一多语言混合文本的发音单元序列,其中不同语言的文本片段的发音单元为相应语言的发音单元;
通过所述语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;
通过所述语音合成器包括的声码器,根据声学特征序列,生成所述语音合成数据。
6.根据权利要求5所述的方法,其特征在于,
中文发音单元包括:汉语拼音的声母和韵母,以及声调;
英文发音单元包括:英文音素和轻重音。
7.根据权利要求6所述的方法,其特征在于,
所述英文发音单元序列采用如下方式确定:
在发音单元之间插入空格,并根据单词间语音停顿长度,插入标点符号。
8.根据权利要求4所述的方法,其特征在于,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器,包括:
根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的混合语言的第四语音数据集;
根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的混合语言的第四语音数据集,包括:
根据所述第二语音数据集、和所述第三语音数据集,生成第一用户的语音合成器;
确定第二多语言混合文本集;
针对各个第二多语言混合文本,通过第一用户的语音合成器包括的文本输入模块,确定所述第二多语言混合文本的发音单元序列,其中不同语言的文本片段的发音单元为相应语言的发音单元;
通过第一用户的语音合成器包括的声学特征合成网络,根据所述发音单元序列,确定具有第一用户音色的声学特征序列;
通过第一用户的语音合成器包括的声码器,根据声学特征序列,生成与所述第二多语言混合文本对应的第一用户的语音合成数据;
根据与所述第二多语言混合文本对应的第一用户的语音合成数据,确定所述第四语音数据集。
10.根据权利要求9所述的方法,其特征在于,
所述第一用户的语音合成器包括:基于Transformer模型的语音合成器;
所述根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器,包括:
生成所述声学特征合成网络;
所述生成所述声学特征合成网络,包括:
根据所述第四语音数据集,优化基于Transformer模型的声学特征合成网络。
11.根据权利要求8所述的方法,其特征在于,所述根据所述第二语音数据集、所述第三语音数据集和所述第四语音数据集,生成所述语音合成器,包括:
生成所述声学特征合成网络;
所述生成所述声学特征合成网络,包括:
根据所述第二语音数据集、第三语音数据集和所述第四语音数据集,生成基于Tacotron2模型或者FastSpeech模型的声学特征合成网络。
12.根据权利要求5所述的方法,其特征在于,所述根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器,包括:
根据所述第三语音数据集,生成所述声码器。
13.根据权利要求4所述的方法,其特征在于,
所述跨语言语音转换算法包括:基于语音后验概率图谱PPG的跨语言语音转换算法。
14.一种语音交互方法,其特征在于,包括:
通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;
根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
针对客户端发送的用户语音数据,确定与用户语音数据对应的相同语言的应答文本;
通过所述语音合成器,生成与应答文本对应的应答语音数据。
15.一种语音交互方法,其特征在于,包括:
采集用户语音数据,向服务端发送用户语音数据;
播放服务端回送的应答语音数据;所述应答语音数据采用如下方式确定:服务端通过跨语言语音转换算法,根据至少一种第一语言的第一语音数据集,生成具有目标用户音色的目标用户的第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,确定与用户语音数据对应的相同语言的应答文本;通过所述语音合成器,生成与应答文本对应的应答语音数据。
16.一种在线文本语音合成方法,其特征在于,包括:
向服务端发送针对目标多语言混合文本的第一用户语音合成请求,以使得服务端通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成与所述混合文本对应的语音合成数据。
17.一种新闻播报方法,其特征在于,包括:
通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;
根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;
针对客户端发送的用多语种播报文本的请求,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
18.一种新闻播报方法,其特征在于,包括:
向服务端发送用多语种播报文本的请求;
播放服务端回送的由目标用户播报的与待播报文本对应的多语种语音数据;所述多语种语音数据采用如下方式生成:服务端通过跨语言语音转换算法,根据至少一个第一语言的第一语音数据集,生成具有目标用户音色的至少一个第一语言的第二语音数据集;根据所述第二语音数据集、和目标用户的第二语言的第三语音数据集,生成目标用户的具有多语言能力的语音合成器;以及,通过所述语音合成器,生成由目标用户播报的与待播报文本对应的多语种语音数据。
19.一种语音合成器构建方法,其特征在于,包括:
通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
20.一种跨语言语音生成方法,其特征在于,包括:
确定待处理文本,向服务端发送由第一用户朗读所述文本的语音生成请求;
播放服务端回送的第一用户朗读所述文本的语音数据;所述待处理文本包括第一语言的文本、或者第一语言和第二语言混合的文本,所述第一用户的母语为第二语言。
21.一种跨方言语音生成系统,其特征在于,包括:
终端设备,用于确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;以及,播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据;
服务端,用于通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;以及,针对所述请求,通过所述语音合成器,生成第一语音数据。
22.一种跨方言语音生成方法,其特征在于,包括:
确定待处理文本,向服务端发送由第一用户用第一方言朗读所述文本的语音生成请求;
播放服务端回送的第一用户用第一方言朗读所述文本的第一语音数据。
23.一种跨方言语音生成方法,其特征在于,包括:
通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器;
针对客户端发送的由第一用户用第一方言朗读所述文本的语音生成请求,通过所述语音合成器,生成第一语音数据。
24.一种语音合成器构建方法,其特征在于,包括:
通过跨方言语音转换算法,根据第二用户的第一方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
25.一种语音合成装置,其特征在于,包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;
语音合成单元,用于通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
26.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音合成方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据第二用户的第一语言的第一语音数据集,生成具有第一用户音色的第一用户的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器;通过所述语音合成器,生成与第一多语言混合文本对应的第一用户的语音合成数据。
27.一种语音合成器构建装置,其特征在于,包括:
训练数据生成单元,用于通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;
语音合成器训练单元,用于根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
28.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨语言语音转换算法,根据至少一个第二用户的至少一种第一语言的第一语音数据集,生成具有第一用户音色的第一语言的第二语音数据集;根据所述第二语音数据集、和第一用户的第二语言的第三语音数据集,生成第一用户的具有多语言能力的语音合成器。
29.一种语音合成器构建装置,其特征在于,包括:
训练数据生成单元,用于通过跨方言语音转换算法,根据第二用户的第二方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;
语音合成器训练单元,用于根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
30.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音合成器构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:通过跨方言语音转换算法,根据第二用户的第二方言的第二语音数据集,生成具有第一用户音色的第一方言的第三语音数据集;根据所述第三语音数据集、和第一用户的第二方言的第四语音数据集,生成第一用户的具有多方言能力的语音合成器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617107.6A CN113870833A (zh) | 2020-06-30 | 2020-06-30 | 语音合成相关系统、方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617107.6A CN113870833A (zh) | 2020-06-30 | 2020-06-30 | 语音合成相关系统、方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113870833A true CN113870833A (zh) | 2021-12-31 |
Family
ID=78981576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617107.6A Pending CN113870833A (zh) | 2020-06-30 | 2020-06-30 | 语音合成相关系统、方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870833A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496953A (zh) * | 2023-12-29 | 2024-02-02 | 山东贝宁电子科技开发有限公司 | 一种基于语音增强技术的蛙人语音处理方法 |
WO2024120027A1 (zh) * | 2022-12-08 | 2024-06-13 | 抖音视界有限公司 | 语音处理方法、装置及电子设备 |
-
2020
- 2020-06-30 CN CN202010617107.6A patent/CN113870833A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024120027A1 (zh) * | 2022-12-08 | 2024-06-13 | 抖音视界有限公司 | 语音处理方法、装置及电子设备 |
CN117496953A (zh) * | 2023-12-29 | 2024-02-02 | 山东贝宁电子科技开发有限公司 | 一种基于语音增强技术的蛙人语音处理方法 |
CN117496953B (zh) * | 2023-12-29 | 2024-03-12 | 山东贝宁电子科技开发有限公司 | 一种基于语音增强技术的蛙人语音处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12087273B2 (en) | Multilingual speech synthesis and cross-language voice cloning | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
WO2021083071A1 (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
US6556972B1 (en) | Method and apparatus for time-synchronized translation and synthesis of natural-language speech | |
US6859778B1 (en) | Method and apparatus for translating natural-language speech using multiple output phrases | |
CN110797006A (zh) | 端到端的语音合成方法、装置及存储介质 | |
CN111489752B (zh) | 语音输出方法、装置、电子设备和计算机可读存储介质 | |
CN110599998A (zh) | 一种语音数据生成方法及装置 | |
CN113870833A (zh) | 语音合成相关系统、方法、装置及设备 | |
CN110808028B (zh) | 嵌入式语音合成方法、装置以及控制器和介质 | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
CN113851140A (zh) | 语音转换相关方法、系统及装置 | |
Hanumante et al. | English text to multilingual speech translator using android | |
TWI725608B (zh) | 語音合成系統、方法及非暫態電腦可讀取媒體 | |
CN112233661B (zh) | 基于语音识别的影视内容字幕生成方法、系统及设备 | |
CN113724684A (zh) | 一种空中交通管制指令的语音合成方法及系统 | |
CN112530399A (zh) | 一种语音数据的扩充方法、系统、电子设备及存储介质 | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 | |
Yoon et al. | Enhancing Multilingual TTS with Voice Conversion Based Data Augmentation and Posterior Embedding | |
TW202305644A (zh) | 一種產生客製化語音服務之方法 | |
Chen et al. | VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka | |
CN117831500A (zh) | 语音合成的处理方法、装置、电子设备和计算机存储介质 | |
CN117597728A (zh) | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |