CN108877765A - 语音拼接合成的处理方法及装置、计算机设备及可读介质 - Google Patents

语音拼接合成的处理方法及装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN108877765A
CN108877765A CN201810552365.3A CN201810552365A CN108877765A CN 108877765 A CN108877765 A CN 108877765A CN 201810552365 A CN201810552365 A CN 201810552365A CN 108877765 A CN108877765 A CN 108877765A
Authority
CN
China
Prior art keywords
synthesis
sound library
text
model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810552365.3A
Other languages
English (en)
Inventor
孙晓辉
顾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810552365.3A priority Critical patent/CN108877765A/zh
Publication of CN108877765A publication Critical patent/CN108877765A/zh
Priority to US16/226,321 priority patent/US10803851B2/en
Priority to JP2018239323A priority patent/JP6786751B2/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明提供一种语音拼接合成的处理方法及装置、计算机设备及可读介质。其方法包括:根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;利用扩充后的音库进行语音拼接合成处理。本发明的技术方案,通过对音库进行扩充,使得音库中包括足够的语料,这样在根据扩充后的音库进行语音拼接处理时,可以选择的语音片段较多,从而可以提高语音合成的效果的连贯性和自然度,使得语音合成的效果非常连贯,自然度很好,能够满足用户的正常使用。

Description

语音拼接合成的处理方法及装置、计算机设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种语音拼接合成的处理方法及装置、计算机设备及可读介质。
【背景技术】
语音合成是人机交互的一个重要组成部分,常用的合成技术有基于统计建模的参数合成和基于单元挑选的拼接合成两大类。由于采用自然语音片段,拼接合成技术音质较好,因此现有商业合成系统主要采用拼接合成方法。一般常用的商业拼接合成系统往往需要录制上万句语音,数据达到十小时以上的规模,并且需要大量人力进行数据的检查和标注,才可以保证对于任意文本都能达到一个可接受的合成效果。
对于明星音合成,个性化合成场景,往往无法采集到大量语音数据。因为明星录音成本比较高,让其录制大规模的语料库是不切实际的;个性化场景不可能让每个用户录制上万句语音之后才能使用产品。然而这些场景具有极大的商业价值,明星音合成可以有效提高产品关注度和传播度,个性化合成可以使用用户亲人或自己的声音,提高用户的参与感与新鲜感,有效提升用户体验。而在现有的明星音合成以及个性化合成的场景中,音库中仅能够采集到小数据量的语料,语音拼接时,由于音库中可以选择的语音片段太少了,语音合成的效果非常不连贯,自然度很差,拼接的语音基本无法正常使用。
【发明内容】
本发明提供了一种语音拼接合成的处理方法及装置、计算机设备及可读介质,用于提高语音合成的效果的连贯性和自然度。
本发明提供一种语音拼接合成的处理方法,所述方法包括:
根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的所述音库中包括人工采集的原始语料;
利用扩充后的所述音库进行语音拼接合成处理。
进一步可选地,如上所述的方法中,根据预先训练的语音合成模型和获取到的合成文本,扩充音库,具体包括:
利用所述语音合成模型和获取到的所述合成文本,合成所述合成文本对应的合成语音;
将所述合成文本和对应的所述合成语音作为合成语料,更新至所述音库中。
进一步可选地,如上所述的方法中,根据预先训练的语音合成模型和获取到的合成文本,扩充音库之前,所述方法包括:
根据扩充前的所述音库中人工采集的所述原始语料,训练所述语音合成模型。
进一步可选地,如上所述的方法中,所述原始语料中包括原始文本以及对应的原始语音;
根据音库中人工采集的原始语料,训练语音合成模型,具体包括:
根据所述原始文本以及对应的所述原始语音,训练所述语音合成模型。
进一步可选地,如上所述的方法中,根据预先训练的语音合成模型和获取到的合成文本,扩充音库之前,所述方法包括:
从网络中抓取所述合成文本。
进一步可选地,如上所述的方法中,所述语音合成模型采用WaveNet模型。
本发明提供一种语音拼接合成的处理装置,所述装置包括:
扩充模块,用于根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的所述音库中包括人工采集的原始语料;
处理模块,用于利用扩充后的所述音库进行语音拼接合成处理。
进一步可选地,如上所述的装置中,所述扩充模块,具体用于:
利用所述语音合成模型和获取到的所述合成文本,合成所述合成文本对应的合成语音;
将所述合成文本和对应的所述合成语音作为合成语料,更新至所述音库中。
进一步可选地,如上所述的装置中,还包括:
训练模块,用于根据扩充前的所述音库中人工采集的所述原始语料,训练所述语音合成模型。
进一步可选地,如上所述的装置中,所述原始语料中包括原始文本以及对应的原始语音;
所述训练模块,具体用于根据所述原始文本以及对应的所述原始语音,训练所述语音合成模型。
进一步可选地,如上所述的装置中,还包括:
抓取模块,用于从网络中抓取所述合成文本。
进一步可选地,如上所述的装置中,所述语音合成模型采用WaveNet模型。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的语音拼接合成的处理方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音拼接合成的处理方法。
本发明的语音拼接合成的处理方法及装置、计算机设备及可读介质,通过根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;利用扩充后的音库进行语音拼接合成处理。本发明的技术方案,通过对音库进行扩充,使得音库中包括足够的语料,这样在根据扩充后的音库进行语音拼接处理时,可以选择的语音片段较多,从而可以提高语音合成的效果的连贯性和自然度,使得语音合成的效果非常连贯,自然度很好,能够满足用户的正常使用。
【附图说明】
图1为本发明的语音拼接合成的处理方法实施例一的流程图。
图2为本发明的语音拼接合成的处理方法实施例二的流程图。
图3为本发明的语音拼接合成的处理装置实施例一的结构图。
图4为本发明的语音拼接合成的处理装置实施例二的结构图。
图5为本发明的计算机设备实施例的结构图。
图6为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的语音拼接合成的处理方法实施例一的流程图。如图1所示,本实施例的语音拼接合成的处理方法,具体可以包括如下步骤:
100、根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;
101、利用扩充后的音库进行语音拼接合成处理。
本实施例的语音拼接合成的处理方法的执行主体可以为语音拼接合成的处理装置,该装置可以对语音拼接合成时所需要的音库进行扩充处理,使得音库中包括足量的语料,以满足语音拼接技术的需求,从而利用扩充后的所述音库进行语音拼接合成处理。
本实施例中,根据预先训练的语音合成模型和获取到的合成文本,扩充音库,可以使得扩充后的音库中,不仅包括人工采集的原始语料,还可以包括根据语音合成模型和获取到的合成文本,所合成的合成语料。这样,扩充后的音库包括的语料内容可以足够地丰富,后续可以利用扩充后的音库进行语音拼接合成处理。由于扩充后的音库中的语料足够多,可以保证利用扩充后的音库进行语音拼接合成处理时,语音合成的效果非常连贯,自然度很好,足够满足正常使用。
本实施例的语音拼接合成的处理方法,通过根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;利用扩充后的音库进行语音拼接合成处理。本实施例的技术方案,通过对音库进行扩充,使得音库中包括足够的语料,这样在根据扩充后的音库进行语音拼接处理时,可以选择的语音片段较多,从而可以提高语音合成的效果的连贯性和自然度,使得语音合成的效果非常连贯,自然度很好,能够满足用户的正常使用。
图2为本发明的语音拼接合成的处理方法实施例二的流程图。如图2所示,本实施例的语音拼接合成的处理方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的语音拼接合成的处理方法,具体可以包括如下步骤:
200、根据扩充前的音库中人工采集的原始语料,训练语音合成模型;
201、从网络中抓取合成文本;
202、利用语音合成模型和获取的合成文本,合成该合成文本对应的合成语音;
203、将合成文本和对应的合成语音作为合成语料,更新至音库中;
该步骤202和步骤203为上述图1所示实施例的步骤100的一种具体实现方式。
204、利用扩充后的音库进行语音拼接合成处理。
具体地,本实施例中,首先可以人工采集部分原始语料,例如,原始语料可以包括原始文本以及对应的原始语音。本实施例的原始语料是由工作人员人工采集的。例如,在明星音合成的场景中,该原始语料中的原始语音为明星根据提供的该原始文本录制的语音。在个性化合成的场景中,该原始语料为用户自身或者亲朋好友根据提供的该原始文本录制的语音。尤其是明星录制原始语音过程中的人工成本较高,且费时费力,所以本实施例在采集原始语料时可以仅包括较少的数据量即可,例如可以仅采集1个小时的原始语音即可。该原始语料中的原始语音已经包含对应的语音发音人的音色等特征。本实施例中,根据音库中人工采集的原始语料,训练语音合成模型,使得该语音合成模型合成出的语音与原始语料的语音具有相同的音色等特征,这样可以使得原始语音与该语音合成模型合成的合成语音听起来是同一个用户发出的。
例如,本实施例的语音合成模型可以采用WaveNet模型。该WaveNet模型为DeepMind团队2016年提出的具有波形建模能力的模型,该WaveNet模型自提出以来,受到工业界和学术界的广泛关注。
本实施例中,根据音库中人工采集的原始语料,训练语音合成模型,具体可以为根据原始文本以及对应的原始语音,训练语音合成模型。例如,可以先从原始语料中提取多条训练数据,每一条训练数据包括原始语音中的一段语音片段和原始文本中对应的一段文本片段。训练之前为该WaveNet模型的参数设定初始值。训练时,将各训练数据的文本片段输入至该WaveNet模型,WaveNet模型根据输入的文本片段输出合成后的语音片段;然后计算该语音片段与训练数据的语音片段的交叉熵;接着采用梯度下降方法调整WaveNet模型的参数,使得该交叉熵达到一个极小值,即表示WaveNet模型合成的语音片段与训练数据的语音片段足够接近。按照上述方式,采用多条训练数据不断地对WaveNet模型进行训练,确定WaveNet模型的参数,从而确定WaveNet模型,WaveNet模型的训练完毕。
根据上述实施例的方式,获取到基于WaveNet模型的语音合成模型后,接下来,可以基于该语音合成模型,生成合成语料,扩充音库。具体地,可以先获取合成文本。具体可以结合使用领域来获取合成文本,例如该语音拼接合成用在航空领域,可以从网络中获取航空领域中的大量的文本作为合成文本。如该语音拼接用在人工智能领域,可以从网络中获取人工智能领域中的大量的文本作为合成文本。如该语音拼接用在教育领域,可以从网络中获取教育领域中的大量的文本作为合成文本,等等。对于每种领域,均可以从网络中获取相关主题的文本作为合成文本。然后将获取的合成文本输入至训练好的语音合成模型中,该语音合成模型可以合成对应的合成语音。该合成语音与原始语料中的原始语音具有相同的音色等特征,听起来为同一发音人的语音。最后,可以将合成文本和对应的合成语音作为合成语料,更新至音库中。本实施例的合成文本可以为一篇整体的文本,也可以为多篇。且本实施例中,合成的合成语音的量可以远远大于原始语音的量,例如,若原始语音为1小时的量,合成的合成语音可以达到20小时的语音量,甚至更多小时的语音量,这样,利用更新后的音库进行语音拼接合成处理,可以满足更多的语音拼接合成的需求,使得语音拼接的合成结果会比较连贯、且自然度也较好,能够满足更多的实际应用的需求。
基于以上所述,可以知道,本实施例的语音拼接合成的处理方法,是基于WaveNet模型的语音合成模型的离线合成能力,首先利用小数据量(例如1个小时的录音数据)构建一个基于WaveNet模型的语音合成模型,然后使用该语音合成模型合成20小时规模、文本覆盖率高的大规模语料。特别地,本实施例中,还可以针对合成声音应用的具体场景,针对地加入该领域高频出现的语料。最后就可以使用基于WaveNet模型的语音合成模型合成的这20小时规模的语料,构建拼接合成系统,由于基于WaveNet模型的语音合成模型合成的语音音质较高,可以达到与人工采集的语音同样的音质,而且由于将音库规模扩充到了20小时量级,可以保证语音拼接合成时有足够的单元用于挑选,从而可以保证语音拼接的合成结果会比较连贯,自然度也很好。
本实施例的语音拼接合成的处理方法,与传统的仅采集到少量语料的音库相比,可以在少量数据的情况下,明显提高合成结果的音质和流畅度。在制作明星音音库时,可以减少明星录音数据量,降低成本;在制作个性化音库是,使用用户提供的少量数据,就可以合成出高保真的声音,改善用户体验。
本实施例的语音拼接合成的处理方法,可以快速更新现有商业合成系统(例如各公司的语音合成系统)在小数据量下的合成效果。未来随着计算能力的提升和WaveNet模型的优化,在某个时间点该WaveNet模型也可以直接部署到线上。
本实施例的语音拼接合成的处理方法,能够充分利用WaveNet的建模能力,又能有效规避WaveNet直接使用时计算成本高、高时延、实时率差的问题,可以在小数据量情况下显著提升线上合成效果。
图3为本发明的语音拼接合成的处理装置实施例一的结构图。如图3所示,本实施例的语音拼接合成的处理装置,具体可以包括:
扩充模块10用于根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;
处理模块11用于利用扩充模块10扩充后的音库进行语音拼接合成处理。
本实施例的语音拼接合成的处理装置,通过采用上述模块实现语音拼接合成处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的语音拼接合成的处理装置实施例二的结构图。如图4所示,本实施例的语音拼接合成的处理装置,在上述图3所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的语音拼接合成的处理装置中,扩充模块10具体用于:
利用语音合成模型和获取到的合成文本,合成该合成文本对应的合成语音;
将合成文本和对应的合成语音作为合成语料,更新至音库中。
进一步可选地,如图4所示,本实施例的语音拼接合成的处理装置中,还包括:
训练模块12用于根据扩充前的音库中人工采集的原始语料,训练语音合成模型。
进一步可选地,该原始语料中可以包括原始文本以及对应的原始语音;
训练模块12具体用于根据原始文本以及对应的原始语音,训练语音合成模型。
对应地,扩充模块10用于根据训练模块12预先训练的语音合成模型和获取到的合成文本,扩充音库。
进一步可选地,如图4所示,本实施例的语音拼接合成的处理装置中,还包括:
抓取模块13用于从网络中抓取合成文本。
对应地,扩充模块10用于根据训练模块12预先训练的语音合成模型和抓取模块13获取到的合成文本,扩充音库。
进一步可选地,本实施例的语音拼接合成的处理装置中,语音合成模型采用WaveNet模型。
本实施例的语音拼接合成的处理装置,通过采用上述模块实现语音拼接合成处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的计算机设备实施例的结构图。如图5所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图2所示实施例的语音拼接合成的处理方法。图5所示实施例中以包括多个处理器30为例。
例如,图6为本发明提供的一种计算机设备的示例图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图6显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图4各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图4各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的语音拼接合成的处理方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的语音拼接合成的处理方法。
本实施例的计算机可读介质可以包括上述图6所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种语音拼接合成的处理方法,其特征在于,所述方法包括:
根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的所述音库中包括人工采集的原始语料;
利用扩充后的所述音库进行语音拼接合成处理。
2.根据权利要求1所述的方法,其特征在于,根据预先训练的语音合成模型和获取到的合成文本,扩充音库,具体包括:
利用所述语音合成模型和获取到的所述合成文本,合成所述合成文本对应的合成语音;
将所述合成文本和对应的所述合成语音作为合成语料,更新至所述音库中。
3.根据权利要求1所述的方法,其特征在于,根据预先训练的语音合成模型和获取到的合成文本,扩充音库之前,所述方法包括:
根据扩充前的所述音库中人工采集的所述原始语料,训练所述语音合成模型。
4.根据权利要求3所述的方法,其特征在于,所述原始语料中包括原始文本以及对应的原始语音;
根据音库中人工采集的原始语料,训练语音合成模型,具体包括:
根据所述原始文本以及对应的所述原始语音,训练所述语音合成模型。
5.根据权利要求1所述的方法,其特征在于,根据预先训练的语音合成模型和获取到的合成文本,扩充音库之前,所述方法包括:
从网络中抓取所述合成文本。
6.根据权利要求1-5任一所述的方法,其特征在于,所述语音合成模型采用WaveNet模型。
7.一种语音拼接合成的处理装置,其特征在于,所述装置包括:
扩充模块,用于根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的所述音库中包括人工采集的原始语料;
处理模块,用于利用扩充后的所述音库进行语音拼接合成处理。
8.根据权利要求7所述的装置,其特征在于,所述扩充模块,具体用于:
利用所述语音合成模型和获取到的所述合成文本,合成所述合成文本对应的合成语音;
将所述合成文本和对应的所述合成语音作为合成语料,更新至所述音库中。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于根据扩充前的所述音库中人工采集的所述原始语料,训练所述语音合成模型。
10.根据权利要求9所述的装置,其特征在于,所述原始语料中包括原始文本以及对应的原始语音;
所述训练模块,具体用于根据所述原始文本以及对应的所述原始语音,训练所述语音合成模型。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
抓取模块,用于从网络中抓取所述合成文本。
12.根据权利要求7-11任一所述的装置,其特征在于,所述语音合成模型采用WaveNet模型。
13.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810552365.3A 2018-05-31 2018-05-31 语音拼接合成的处理方法及装置、计算机设备及可读介质 Pending CN108877765A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810552365.3A CN108877765A (zh) 2018-05-31 2018-05-31 语音拼接合成的处理方法及装置、计算机设备及可读介质
US16/226,321 US10803851B2 (en) 2018-05-31 2018-12-19 Method and apparatus for processing speech splicing and synthesis, computer device and readable medium
JP2018239323A JP6786751B2 (ja) 2018-05-31 2018-12-21 音声接続合成の処理方法及び装置、コンピュータ設備及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810552365.3A CN108877765A (zh) 2018-05-31 2018-05-31 语音拼接合成的处理方法及装置、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN108877765A true CN108877765A (zh) 2018-11-23

Family

ID=64335626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810552365.3A Pending CN108877765A (zh) 2018-05-31 2018-05-31 语音拼接合成的处理方法及装置、计算机设备及可读介质

Country Status (3)

Country Link
US (1) US10803851B2 (zh)
JP (1) JP6786751B2 (zh)
CN (1) CN108877765A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN110162176A (zh) * 2019-05-20 2019-08-23 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110390928A (zh) * 2019-08-07 2019-10-29 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
CN111369966A (zh) * 2018-12-06 2020-07-03 阿里巴巴集团控股有限公司 一种用于个性化语音合成的方法和装置
CN112242134A (zh) * 2019-07-01 2021-01-19 北京邮电大学 语音合成方法及装置
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
US20210110273A1 (en) * 2019-10-10 2021-04-15 Samsung Electronics Co., Ltd. Apparatus and method with model training

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
US11295725B2 (en) 2020-07-09 2022-04-05 Google Llc Self-training WaveNet for text-to-speech
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430503B1 (en) * 2004-08-24 2008-09-30 The United States Of America As Represented By The Director, National Security Agency Method of combining corpora to achieve consistency in phonetic labeling
CN101350195A (zh) * 2007-07-19 2009-01-21 财团法人工业技术研究院 语音合成器产生系统与方法
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082396B1 (en) * 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP2003058181A (ja) * 2001-08-14 2003-02-28 Oki Electric Ind Co Ltd 音声合成装置
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
JP4034751B2 (ja) 2004-03-31 2008-01-16 株式会社東芝 音声合成装置、音声合成方法および音声合成プログラム
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
EP1872361A4 (en) 2005-03-28 2009-07-22 Lessac Technologies Inc HYBRID SPEECH SYNTHESIZER, METHOD AND USE
CN1889170B (zh) * 2005-06-28 2010-06-09 纽昂斯通讯公司 基于录制的语音模板生成合成语音的方法和系统
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
JP5457706B2 (ja) 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US20110046957A1 (en) * 2009-08-24 2011-02-24 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
WO2011118207A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP5758713B2 (ja) * 2011-06-22 2015-08-05 株式会社日立製作所 音声合成装置、ナビゲーション装置および音声合成方法
JP6170384B2 (ja) 2013-09-09 2017-07-26 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9679554B1 (en) * 2014-06-23 2017-06-13 Amazon Technologies, Inc. Text-to-speech corpus development system
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
US10147416B2 (en) * 2015-12-09 2018-12-04 Amazon Technologies, Inc. Text-to-speech processing systems and methods
US9934775B2 (en) * 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10319365B1 (en) * 2016-06-27 2019-06-11 Amazon Technologies, Inc. Text-to-speech processing with emphasized output audio
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
US10448115B1 (en) * 2016-09-28 2019-10-15 Amazon Technologies, Inc. Speech recognition for localized content
WO2018058425A1 (zh) * 2016-09-29 2018-04-05 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
US11069335B2 (en) * 2016-10-04 2021-07-20 Cerence Operating Company Speech synthesis using one or more recurrent neural networks
US10565989B1 (en) * 2016-12-16 2020-02-18 Amazon Technogies Inc. Ingesting device specific content
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10325599B1 (en) * 2016-12-28 2019-06-18 Amazon Technologies, Inc. Message response routing
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US20180330713A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Text-to-Speech Synthesis with Dynamically-Created Virtual Voices
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10332517B1 (en) * 2017-06-02 2019-06-25 Amazon Technologies, Inc. Privacy mode based on speaker identifier
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
CN107393556B (zh) 2017-07-17 2021-03-12 京东方科技集团股份有限公司 一种实现音频处理的方法及装置
US10672416B2 (en) * 2017-10-20 2020-06-02 Board Of Trustees Of The University Of Illinois Causing microphones to detect inaudible sounds and defense against inaudible attacks
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10770063B2 (en) * 2018-04-13 2020-09-08 Adobe Inc. Real-time speaker-dependent neural vocoder
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN108550363B (zh) * 2018-06-04 2019-08-27 百度在线网络技术(北京)有限公司 语音合成方法及装置、计算机设备及可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430503B1 (en) * 2004-08-24 2008-09-30 The United States Of America As Represented By The Director, National Security Agency Method of combining corpora to achieve consistency in phonetic labeling
CN101350195A (zh) * 2007-07-19 2009-01-21 财团法人工业技术研究院 语音合成器产生系统与方法
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369966A (zh) * 2018-12-06 2020-07-03 阿里巴巴集团控股有限公司 一种用于个性化语音合成的方法和装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN110162176A (zh) * 2019-05-20 2019-08-23 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110162176B (zh) * 2019-05-20 2022-04-26 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN112242134A (zh) * 2019-07-01 2021-01-19 北京邮电大学 语音合成方法及装置
CN110390928A (zh) * 2019-08-07 2019-10-29 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
CN110390928B (zh) * 2019-08-07 2022-01-11 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
US20210110273A1 (en) * 2019-10-10 2021-04-15 Samsung Electronics Co., Ltd. Apparatus and method with model training
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
CN112634860B (zh) * 2020-12-29 2022-05-03 思必驰科技股份有限公司 儿童语音识别模型训练语料筛选方法

Also Published As

Publication number Publication date
JP6786751B2 (ja) 2020-11-18
US10803851B2 (en) 2020-10-13
US20190371291A1 (en) 2019-12-05
JP2019211747A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
CN108877765A (zh) 语音拼接合成的处理方法及装置、计算机设备及可读介质
JP6019108B2 (ja) 文字に基づく映像生成
CN105185372B (zh) 个性化多声学模型的训练方法、语音合成方法及装置
JP2014519082A5 (zh)
US20130257871A1 (en) Content Customization
US20130262127A1 (en) Content Customization
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
WO2013148724A1 (en) Content customization
CN108573694A (zh) 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN105096934B (zh) 构建语音特征库的方法、语音合成方法、装置及设备
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
CN110047121B (zh) 端到端的动画生成方法、装置及电子设备
US11968433B2 (en) Systems and methods for generating synthetic videos based on audio contents
WO2021039561A1 (ja) 動画生成方法、動画生成装置及び記憶媒体
CN115691544A (zh) 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备
CN110214343A (zh) 信息处理装置、信息处理方法及其程序
CN109599090A (zh) 一种语音合成的方法、装置及设备
KR20180012166A (ko) 3d 아바타 기반 화자 변경형 스토리텔링 시스템
CN112383721A (zh) 用于生成视频的方法和装置
CN112750184B (zh) 数据处理、动作驱动与人机交互方法及设备
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
CN112383722B (zh) 用于生成视频的方法和装置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
WO2023090419A1 (ja) コンテンツ生成装置、コンテンツ生成方法、及びプログラム
WO2024001307A1 (zh) 一种语音克隆方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication