CN109285537B - 声学模型建立、语音合成方法、装置、设备及存储介质 - Google Patents

声学模型建立、语音合成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109285537B
CN109285537B CN201811408961.0A CN201811408961A CN109285537B CN 109285537 B CN109285537 B CN 109285537B CN 201811408961 A CN201811408961 A CN 201811408961A CN 109285537 B CN109285537 B CN 109285537B
Authority
CN
China
Prior art keywords
phoneme
acoustic model
duration
acoustic
phoneme sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811408961.0A
Other languages
English (en)
Other versions
CN109285537A (zh
Inventor
张冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Original Assignee
Beijing Yufanzhi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yufanzhi Information Technology Co ltd filed Critical Beijing Yufanzhi Information Technology Co ltd
Priority to CN201811408961.0A priority Critical patent/CN109285537B/zh
Publication of CN109285537A publication Critical patent/CN109285537A/zh
Application granted granted Critical
Publication of CN109285537B publication Critical patent/CN109285537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Abstract

本发明实施例公开了一种声学模型建立、语音合成方法、装置、设备及存储介质,其中声学模型建立方法包括:从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;从所述训练样本中提取声学特征;以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型,可以使儿化音的建模性能较好,可以更好地实现儿化音的合成,可以合成语料库中未出现的儿化音,同时可以降低语料库中语料的录制成本。

Description

声学模型建立、语音合成方法、装置、设备及存储介质
技术领域
本发明实施例涉及信息语音合成领域,特别是涉及一种声学模型建立、语音合成方法、装置、设备及存储介质。
背景技术
随着多媒体通信技术的不断发展,作为人机交互重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的或者外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。语音合成的目的是将文本转换为语音播放给用户,目标是达到真人文本播报的效果。
语音合成技术已经获得了广泛的应用,例如语音合成技术已经用于信息流、地图导航、阅读、翻译、智能家电等。其中,儿化是汉语普通话口语中颇具特色的一种音变现象,主要是由词尾“儿”变化而来。词尾“儿“本是一个独立音节,长期与其前面音节流利地连读而发生音变,“儿”失去独立性,“化”到前一个音节上,只保持一个卷舌动作,且使其前面音节里的韵母或多或少地发生变化,如“老头儿”、“鲜花儿”。儿化也是汉语普通话中一种非常重要的语言现象,经常在书面上出现,能起到区别词性和意义,表达不同感情色彩的作用。
现有技术中,在语音合成中,一般语料库中只录制少量的儿化音并进行标注。发明人在具体实施过程中,发现现有技术中存在如下问题:如果覆盖常见的应用场景,需要录制较多的语料才能建立对儿化音合成效果较佳的声学模型,但是语料录制成本较高;若儿化音录制较少,容易造成声学模型中儿化音建模较差的问题;也无法借用语料库中已有的韵母音素,对儿化音建模,并且无法合成语音合成库中没有出现的儿化音。
发明内容
本发明实施例提供了一种声学模型建立、语音合成方法、装置、设备及存储介质,可以使声学模型中儿化音的建模性能较好,可以更好地实现儿化音的合成,可以合成语料库中未出现的儿化音,可以降低语料库中语料的录制成本。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种声学模型建立方法,包括:
从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;
从所述训练样本中提取声学特征;
以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型
第二方面,本发明实施例还提供了一种语音合成方法,包括:
获取模块,用于从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;
提取模块,用于从所述训练样本中提取声学特征;
训练模块,用于以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
第三方面,本发明实施例提供了一种电子设备,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行本发明实施例提供的声学模型建立方法,或者执行本发明实施例提供的语音合成方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明实施例提供的声学模型建立方法,或者执行本发明实施例提供的语音合成方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的技术方案,将训练样本中儿化音音素拆分成两个音素,以训练样本的音素序列样本、音素序列样本中每个音素的上下文特征和时长为输入,以训练样本的声学特征为输出对声学模型进行训练,得到预先训练的声学模型,该声学模型中儿化音的建模性能较好,可以更好地实现儿化音的合成,可以合成语料库中未出现的儿化音,同时可以降低语料库中语料的录制成本。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种声学模型建立方法流程图;
图2是本发明实施例提供的一种声学模型建立方法流程图;
图3是本发明实施例提供的一种语音合成方法流程图;
图4是本发明实施例提供的一种声学模型建立装置结构框图;
图5是本发明实施例提供的一种语音合成装置结构框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种声学模型建立方法流程图,所述方法由声学模型建立装置来执行,所述装置由软件和/或硬件来执行。所述装置可以配置在终端、计算机等设备中。所述方法可以应用在声学模型建模的场景中。
如图1所示,本发明实施例提供的技术方案包括:
S110:从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素。
在本发明实施例中,训练样本可以包括文本样本和语音样本。每个训练样本中的文本样本均对应音素序列样本。文本中的每个文字或者词语与音素均有对应关系。例如,“大”对应的音素是“d”和a4”。若文本样本中存在多个文字或者词语,则每个文字或者词语对应的音素组成音素序列样本。其中,数字表示声调。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位,音素可以是一个声母或者一个韵母,其中,韵母可以是单韵母或者复合韵母。
其中,当训练样本的文本样本中存在儿化音时,训练样本的音素序列样本中儿化音音素拆分成两个音素,具体的,可以是儿化音音素的非儿化部分和儿化部分分别拆分,得到两个音素,即非儿化部分的音素和儿化部分的音素。例如,“uar4”是儿化音的音素,该音素的非儿化部分是“ua4”,儿化部分是“r4”,可以将儿化部分进行区别,可以写成“xr4”。因此,儿化音的音素“uar4”,可以拆分成“ua4”和“xr4”,其中,数字表示声调。
在本发明实施例中,每个音素的上下文特征包括每个音素在音素序列样本中的位置,以及在每个音素之前的音素或者在每个音素之后的音素,或者还可以包括其他特征。每个音素的发音与音素的上下文特征相关,需要确定每个音素的上下文特征。
在本发明实施例中,训练样本的音素序列样本中每个音素的时长可以根据需要、说话场景、普通人的语速等进行设置。
S120:从所述训练样本中提取声学特征。
在本发明实施例中,可以从训练样本中语音样本中提取声学特征。其中,声学特征可以包括与声音相关的各种参数,如基频,频谱等。
其中,具体可以是确定构成训练样本中的语音样本的语音波形单元,从构成的语音样本的语音波形单元中提取声学特征。
S130:以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
在本发明实施例中,声学模型可以隐马可夫模型,或者也可以是卷积神经网络模型,或者也可以是其他具有机器学习能力的模型。
在现有技术中,语料库中只录制少量的儿化音,并进行标注。音素标注的方法是将儿化音与前一个拼音标注在一起。例如,若语料库中文本样本是“大褂儿是一个字”,该文本样本的音素是:d a4 g uar4 sh i4 y i2 g e5 z i4。由此可见,将“uar”作为一个整体进行切分,作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注。当从语料库中获取训练样本对声学模型进行训练时,由于声学模型训练过程中,儿化音的音素作为一个整体,因此存在如下的技术缺陷:一、音素覆盖率比较低,建模精度较差。其中,中文韵母有39个,理论上每一个韵母都会有儿话发音现象,常见的6种声调(1-4声同拼音,5轻声,6三三变调),因此共有200多种组合。如果覆盖常见的应用场景,可能需要专门录制5000句左右的文本才能对儿话音建模。但语料录制成本很高,对于10000句左右的语料库,针对儿化音录制的语料一般500句左右。因此,造成了儿化音建模较差的问题。二、无法借用语料库中已有的大量韵母音素,帮助儿化音建模。以上述标注方法为例,声学模型的建模是以音素为单位的,音素覆盖度越高,建模精度越高。例如,“uar4”发音的前半部分,其实与“ua4”是基本一致的,将“uar4”单独标注作为一个音素,“uar4”的建模无法借助到“ua4”的信息。三、无法合成原始语料库中没有出现过的儿话音。例如,这天儿怎么这么凉,其中,儿化音“天儿”中的儿化音的音素是“ianr2”,若原始语料库中没有“ianr2”,无法合成儿化音。
本发明实施例采用的技术方案,例如训练样本中的文本样本是“大褂儿是一个字”,该文本样本的音素序列样本是“d a4 g ua4 xr4 sh i4 y i2 g e5 z i4”。其中,该音素序列样本中的儿化音的音素“uar4”拆分成了两个音素“ua4”和“xr4”。可以获取多个带有儿化音的训练样本,从而得到音素序列样本,并将音素序列样本、音素序列样本中每个音素的上下文特征和时长为声学模型的输入,以从该文本样本对应的语音样本中提取的声学特征作为声学模型的输出,对声学模型进行训练,可以得到预先训练的声学模型。其中,该声学模型在训练的过程中由于将儿化音音素拆分成了两个音素,可以解决上述现有技术中存在的问题,对于儿化音建模性能较好,可以更好地实现儿化音的合成,可以合成语料库中未出现的儿化音,可以减小语料中语料的录制数量,从而降低语料库中语料的录制成本。
图2是本发明实施例提供的一种声学模型建立方法,如图2所示,本发明实施例提供的技术方案包括:
S210:从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素的非儿化部分和儿化部分分别拆分,得到两个音素。
其中,拆分得到的两个音素分别是非儿化部分音素和儿化部分音素。例如,“uar4”是儿化音的音素,该音素的非儿化部分是“ua4”,儿化部分是“r4”,可以将儿化部分进行区别,可以写成“xr4”,其中,“x”是一种标识,并不实际意义。因此,儿化音的音素“uar4”,可以拆分成“ua4”和“xr4”。
其中,可选的,儿化音的音素拆分成的两个音素的时长之和,等于儿化音的音素在拆分之前的时长。例如,“uar4”的时长是0.3s,则拆分成的“ua4”和“xr4”的时长之和可以是0.3s。通过将儿化音的音素拆分成的两个音素的时长之和,设置等于儿化音的音素在拆分之前的时长,当对时长模型进行训练时,可以得到精确度高的时长模型,当对声学模型进行训练时,得到精确度高的声学模型。
S220:从所述训练样本中提取声学特征。
S230:以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
S240:将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征为时长模型的输入,以所述音素序列样本中每个音素的时长为所述时长模型的输出,对所述时长模型进行训练,得到预先训练的时长模型。
在本发明实施例中,时长模型可以是卷积的神经网络,或者也可以是其他具有机器学习能力的模型,通过对时长模型的训练,可以使时长模型在应用时输出精确的时长。
在现有技术中,语料库中只录制少量的儿化音,并进行标注。音素标注的方法是将儿化音与前一个拼音标注在一起。例如,若语料库中文本样本是“大褂儿是一个字”,该文本样本的音素是:d a4 g uar4 sh i4 y i2 g e5 z i4。由此可见,将“uar”作为一个整体进行切分,作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注,同时每个音素的起始,结束时间如下表1所示。
表1
Figure BDA0001878043070000071
Figure BDA0001878043070000081
由此可见,将“uar”作为一个整体进行切分,作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注。当从语料库中获取训练样本对声学模型进行训练时,由于声学模型训练过程中,儿化音的音素作为一个整体,因此存在如下的技术缺陷:一、音素覆盖率比较低,建模精度较差。其中,中文韵母有39个,理论上每一个韵母都会有儿话发音现象,常见的6种声调(1-4声同拼音,5轻声,6三三变调),因此共有200多种组合。如果覆盖常见的应用场景,可能需要专门录制5000句左右的文本才能对儿话音建模。但语料录制成本很高,对于10000句左右的语料库,针对儿化音录制的语料一般500句左右。因此,造成了儿化音建模较差的问题。二、无法借用语料库中已有的大量韵母音素,帮助儿化音建模。以上述标注方法为例,声学模型的建模是以音素为单位的,音素覆盖度越高,建模精度越高。例如,“uar4”发音的前半部分,其实与“ua4”是基本一致的,将“uar4”单独标注作为一个音素,“uar4”的建模无法借助到“ua4”的信息。三、无法合成原始语料库中没有出现过的儿话音。例如,这天儿怎么这么凉,其中,儿化音“天儿”中的儿化音的音素是“ianr2”,若原始语料库中没有“ianr2”,无法合成儿化音。
本发明实施例采用的技术方案,例如,训练样本中的文本样本是“大褂儿是一个字”,该文本样本的音素序列样本是“d a4 g ua4 xr4 sh i4 y i2 g e5 z i4”。其中,该音素序列样本中的儿化音的音素“uar4”拆分成了两个音素“ua4”和“xr4”。其中,每个音素的起始,结束时间如下表2所示。
表2
起始时间 结束时间
“d” 0.36392369358690463 0.4163752222296098
“a4” 0.4163752222296098 0.5711396092124067
“g” 0.5711396092124067 0.6436651796813324
"ua4" 0.6436651796813324 0.8025
“xr4” 0.8025 0.9825
“sp” 0.9825 1.2128084509542134
“sh” 1.2128084509542134 1.3785811834546151
“i4” 1.3785811834546151 1.4491111577536322
“y” 1.4491111577536322 1.5093332832322936
“i2” 1.5093332832322936 1.6161789897266932
“g” 1.6161789897266932 1.6686305183693984
“e5” 1.6686305183693984 1.7489266856742802
“z” 1.7489266856742802 1.838288549287778
“i4” 1.838288549287778 2.0901324497591087
其中,可以获取多个带有儿化音的训练样本,从而得到音素序列样本,并将音素序列样本、音素序列样本中每个音素的上下文特征和时长为声学模型的输入,以从该文本样本对应的语音样本中提取的声学特征作为声学模型的输出,对声学模型进行训练,可以得到预先训练的声学模型。其中,该声学模型在训练的过程中由于将儿化音音素拆分成了两个音素,可以解决上述现有技术中存在的问题,对于儿化音建模性能较好,可以更好地实现儿化音的合成,可以合成语料库中未出现的儿化音,可以减小语料中语料的录制数量,从而降低语料库中语料的录制成本。
图3是本发明实施例提供的一种语音合成方法流程图,所述方法由语音合成装置来执行,所述装置由软件和/或硬件来执行。所述装置可以配置在智能手机、平板电脑、计算机等设备中。
如图3所示,本发明实施例提供的技术方案包括:
S310:获取待合成文本。
其中,待合成文本可以是儿化音文本,或者可以是儿化音词典等。
S320:确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素拆分成两个音素。
其中,待合成文本中的每个文字或者词语与音素均有对应关系,若待合成文本中存在多个文字或者词语,则各文字或者词语对应的音素组成音素序列。其中,待合成文本中若存在儿化音,待合成文本的儿化音的音素拆分成两个音素。
在本发明实施例中,可选的,所述待合成文本中的儿化音的音素拆分成两个音素,可以是待合成文本中的儿化音音素的非儿化部分和儿化部分分别拆分,得到两个音素。即,非儿化部分对应的音素和儿化部分对应的音素。例如,待合成文本中的儿化音的音素是“zher4”,拆分成“zhe4”和“xr4”两个音素。
S330:确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长。
在本发明实施例中,每个音素的上下文特征包括每个音素在待合成文本中的位置,以及在每个音素之前的音素或者在每个音素之后的音素,或者还可以包括其他特征。每个音素的发音与音素的上下文特征相关,需要确定每个音素的上下文特征。
在本发明实施例中,基于预先训练的时长模型确定每个音素的时长,可以包括:将待合成文本对应的音素序列,以及音素序列中每个音素的上下文特征输入到预先训练的时长模型中,得到每个音素的时长。其中,时长模型的训练方法可以参考上述实施例的介绍的方法,不再累述。
S340:以所述音素序列,所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征。
在本发明实施例中,其中,声学特征可以包括与声音相关的各种参数,如基频,频谱等。声学模型可以是声学模型可以隐马可夫模型,或者也可以是卷积神经网络模型,或者也可以是其他具有机器学习能力的模型。声学模型的训练方法可以参考上述实施例介绍的方法,不再累述。
S350:基于所述声学特征,合成所述待合成文本的语音。
在本发明实施例中,通过声学特征即可以合成待合成文本的语音。例如,可以将声学特征输入到声码器中,合成语音信号,完成语音合成过程,本实施例对于具体的合成方法不作限制。
本发明实施例提供的一种语音合成的方法,在语音合成过程中,将待合成文本的儿化音音素的拆分成两个音素,可以更好实现儿化音的合成。
图4是本发明实施例提供的一种声学模型建立装置结构框图,如图4所示,本发明实施例提供的装置可以包括:获取模块410、提取模块420和训练模块430。
获取模块410,用于从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;
提取模块420,用于从所述训练样本中提取声学特征;
训练模块430,用于以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
可选的,所述训练模块430,还用于
将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征为时长模型的输入,以所述音素序列样本中每个音素的时长为所述时长模型的输出,对所述时长模型进行训练,得到预先训练的时长模型。
可选的,所述音素序列样本中儿化音音素拆分成两个音素,包括:
儿化音音素的非儿化部分和儿化部分拆分,得到两个音素。
可选的,所述儿化音的音素拆分成的两个音素的时长之和,等于所述儿化音的音素在拆分之前的时长。
可选的,所述上下文特征包括每个音素在所述音素序列样本中的位置,在每个音素之前的音素以及在每个音素之后的音素。
由于本实施例所介绍的声学模型建立装置为可以执行本发明实施例中的声学模型建立方法的装置,故而基于本发明实施例中所介绍的声学模型建立方法,本领域所属技术人员能够了解本实施例的声学模型建立装置的具体实施方式以及其各种变化形式,所以在此对于该声学模型建立装置如何实现本发明实施例中的声学模型建立方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中声学模型建立方法所采用的装置,都属于本申请所欲保护的范围。
图5是本发明实施例提供的一种语音合成装置结构框图,如图5所示,所述装置包括:获取模块510、第一确定模块520、第二确定模块530、声学特征确定模块540和合成模块550。
获取模块510,用于获取待合成文本;
第一确定模块520,用于确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素拆分成两个音素;
第二确定模块530,用于确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;
声学特征确定模块540,用于以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;
合成模块550,用于基于所述声学特征,合成所述待合成文本的语音。
由于本实施例所介绍的语音合成装置为可以执行本发明实施例中的语音合成方法的装置,故而基于本发明实施例中所介绍的语音合成方法,本领域所属技术人员能够了解本实施例的语音合成装置的具体实施方式以及其各种变化形式,所以在此对于该语音合成装置如何实现本发明实施例中的语音合成方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音合成方法所采用的装置,都属于本申请所欲保护的范围。
本发明实施例提供了一种电子设备,如图6所示,包括:至少一个处理器(processor)41;以及与所述处理器41连接的至少一个存储器(memory)42、总线43;其中,
所述处理器41、存储器42通过所述总线43完成相互间的通信;
所述处理器41用于调用所述存储器42中的程序指令,以执行上述方法实施例中的步骤:
从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;
从所述训练样本中提取声学特征;
以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
或者:
获取待合成文本;
确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素拆分成两个音素;
确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;
以所述音素序列,所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;
基于所述声学特征,合成所述待合成文本的语音。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,即:
从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;
从所述训练样本中提取声学特征;
以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
或者:
获取待合成文本;
确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素拆分成两个音素;
确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;
以所述音素序列,所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;
基于所述声学特征,合成所述待合成文本的语音。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种声学模型建立方法,其特征在于:包括:
从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素的非儿化部分和儿化部分拆分,得到两个音素,所述儿化部分的音素带有标识;
从所述训练样本中提取声学特征;
以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征作为时长模型的输入,以所述音素序列样本中每个音素的时长作为所述时长模型的输出,对所述时长模型进行训练,得到预先训练的时长模型。
3.根据权利要求1所述的方法,其特征在于,所述儿化音的音素拆分成的两个音素的时长之和,等于所述儿化音的音素在拆分之前的时长。
4.根据权利要求1所述的方法,其特征在于,所述上下文特征包括每个音素在所述音素序列样本中的位置,在每个音素之前的音素以及在每个音素之后的音素。
5.一种语音合成方法,其特征在于,包括:
获取待合成文本;
确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素的非儿化部分和儿化部分拆分,得到两个音素,所述儿化部分的音素带有标识;
确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;
以所述音素序列,所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;
基于所述声学特征,合成所述待合成文本的语音。
6.一种声学模型建立装置,其特征在于:包括:
获取模块,用于从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素的非儿化部分和儿化部分拆分,得到两个音素,所述儿化部分的音素带有标识;
提取模块,用于从所述训练样本中提取声学特征;
训练模块,用于以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
7.一种语音合成装置,其特征在于,包括:
获取模块,用于获取待合成文本;
第一确定模块,用于确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素的非儿化部分和儿化部分拆分,得到两个音素,所述儿化部分的音素带有标识;
第二确定模块,用于确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;
声学特征确定模块,用于以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;
合成模块,用于基于所述声学特征,合成所述待合成文本的语音。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-4任一项所述声学模型建立方法,或者执行权利要求5所述的一种语音合成方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1-4任一项所述的声学模型建立方法,或者执行权利要求5所述的一种语音合成方法。
CN201811408961.0A 2018-11-23 2018-11-23 声学模型建立、语音合成方法、装置、设备及存储介质 Active CN109285537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811408961.0A CN109285537B (zh) 2018-11-23 2018-11-23 声学模型建立、语音合成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811408961.0A CN109285537B (zh) 2018-11-23 2018-11-23 声学模型建立、语音合成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109285537A CN109285537A (zh) 2019-01-29
CN109285537B true CN109285537B (zh) 2021-04-13

Family

ID=65172953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811408961.0A Active CN109285537B (zh) 2018-11-23 2018-11-23 声学模型建立、语音合成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109285537B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767753A (zh) * 2019-03-29 2019-05-17 北京赢和博雅文化发展有限公司 明星机器人互动方法及系统
CN111785248B (zh) * 2020-03-12 2023-06-23 北京汇钧科技有限公司 文本信息处理方法及装置
CN111402891B (zh) * 2020-03-23 2023-08-11 抖音视界有限公司 语音识别方法、装置、设备和存储介质
CN111477210A (zh) * 2020-04-02 2020-07-31 北京字节跳动网络技术有限公司 语音合成方法和装置
CN111653266B (zh) * 2020-04-26 2023-09-05 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111785245A (zh) * 2020-06-30 2020-10-16 北京来也网络科技有限公司 拼音处理方法及装置
CN111968618B (zh) * 2020-08-27 2023-11-14 腾讯科技(深圳)有限公司 语音合成方法、装置
CN112420016B (zh) * 2020-11-20 2022-06-03 四川长虹电器股份有限公司 一种合成语音与文本对齐的方法、装置及计算机储存介质
CN112634860B (zh) * 2020-12-29 2022-05-03 思必驰科技股份有限公司 儿童语音识别模型训练语料筛选方法
CN114613353B (zh) * 2022-03-25 2023-08-08 马上消费金融股份有限公司 语音合成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275635B1 (en) * 2012-03-08 2016-03-01 Google Inc. Recognizing different versions of a language
CN106971709A (zh) * 2017-04-19 2017-07-21 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
CN103177733B (zh) * 2013-03-11 2015-09-09 哈尔滨师范大学 汉语普通话儿化音发音质量评测方法与系统
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275635B1 (en) * 2012-03-08 2016-03-01 Google Inc. Recognizing different versions of a language
CN106971709A (zh) * 2017-04-19 2017-07-21 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN109285537A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109285537B (zh) 声学模型建立、语音合成方法、装置、设备及存储介质
US10891928B2 (en) Automatic song generation
US10475438B1 (en) Contextual text-to-speech processing
CN111566656A (zh) 利用多种语言文本语音合成模型的语音翻译方法及系统
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
CN112365878B (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN109599090B (zh) 一种语音合成的方法、装置及设备
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
Wisniewski et al. Phonemic transcription of low-resource languages: To what extent can preprocessing be automated?
CN113593522B (zh) 一种语音数据标注方法和装置
CN114842826A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
CN112908308A (zh) 一种音频处理方法、装置、设备及介质
Pakoci et al. Language model optimization for a deep neural network based speech recognition system for Serbian
Lee et al. Analysis of auto-aligned and auto-segmented oral discourse by speakers with aphasia: A preliminary study on the acoustic parameter of duration
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
CN114242032A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN114708848A (zh) 音视频文件大小的获取方法和装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN115346421A (zh) 一种口语流利度评分方法、计算设备及存储介质
CN111429878A (zh) 一种自适应语音合成方法及装置
Heba et al. Lexical emphasis detection in spoken French using F-Banks and neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211117

Address after: 210034 floor 8, building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: New Technology Co.,Ltd.

Patentee after: Volkswagen (China) Investment Co., Ltd

Address before: 100080 Room 501, 5th floor, NO.67, North Fourth Ring Road West, Haidian District, Beijing

Patentee before: Beijing Yufanzhi Information Technology Co.,Ltd.