CN109754778B - 文本的语音合成方法、装置和计算机设备 - Google Patents

文本的语音合成方法、装置和计算机设备 Download PDF

Info

Publication number
CN109754778B
CN109754778B CN201910042827.1A CN201910042827A CN109754778B CN 109754778 B CN109754778 B CN 109754778B CN 201910042827 A CN201910042827 A CN 201910042827A CN 109754778 B CN109754778 B CN 109754778B
Authority
CN
China
Prior art keywords
character
frequency spectrum
trained
conversion model
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910042827.1A
Other languages
English (en)
Other versions
CN109754778A (zh
Inventor
陈闽川
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910042827.1A priority Critical patent/CN109754778B/zh
Publication of CN109754778A publication Critical patent/CN109754778A/zh
Priority to SG11202100900QA priority patent/SG11202100900QA/en
Priority to PCT/CN2019/117775 priority patent/WO2020147404A1/zh
Priority to US17/178,823 priority patent/US11620980B2/en
Application granted granted Critical
Publication of CN109754778B publication Critical patent/CN109754778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供一种文本的语音合成方法、装置和计算机设备,其中,上述文本的语音合成方法包括首先获取待识别的目标文本;然后将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量;其次将所述特征向量输入预先训练的频谱转换模型,获取上述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;最后再将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音。这样,本申请在进行语音合成的时候,无需对文本中的每个字符进行拼音标注,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案,在人工智能领域中具有更广泛的应用范围。

Description

文本的语音合成方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本的语音合成方法、装置和计算机设备。
背景技术
由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器像人一样说话,使一些以其他方式表示或存储的信息能转换为语音,从而人们可以通过听觉方便地获得这些信息。
现有相关技术中,为解决语音合成技术中的多音字发音问题,大多采用基于规则的方法或者基于统计机器学习的方法,但是,基于规则的方法需要人工设定大量的规则,基于统计机器学习的方法容易受到样本不均匀分布的限制。不仅如此,上述基于规则的方法和基于统计机器学习的方法均需要对训练文本进行大量的语音标注,这无疑大大增加了工作量。
发明内容
本申请实施例提供一种文本的语音合成方法、装置和计算机设备,通过预先训练的频谱转换模型,可以获取待识别文本中每个字符对应的梅尔频谱,并将梅尔频谱转换为语音,据此可以获得目标文本对应的语音,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案。
第一方面,本申请实施例提供了一种文本的语音合成方法,包括:
获取待识别的目标文本;
将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量;
将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;
将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音。
其中在一种可能的实现方式中,所述将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前,还包括:
获取预设数量的训练文本和所述训练文本对应的配对语音;
对所述训练文本进行离散型特征处理,以获得所述训练文本中的每个字符对应的特征向量;
将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱;以及,
当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型。
其中在一种可能的实现方式中,所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱包括:
通过所述待训练的频谱转换模型,对所述训练文本进行编码,获得与所述训练文本对应的隐藏状态序列,所述隐藏状态序列包括至少两个隐节点;
根据每个字符对应的隐节点的权值,分别对所述隐节点进行加权计算,获得所述训练样本中的每个字符对应的语义向量;
对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
其中在一种可能的实现方式中,所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱之后,还包括:
当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差大于所述预设阈值时,对每个隐节点的权值进行更新;
分别对更新权值后的所述隐节点进行加权计算,以获得所述训练样本中的每个字符对应的语义向量;
对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱;以及,当所述每个字符对应的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,停止对每个隐节点的权值的更新过程,并获得训练好的频谱转换模型。
其中在一种可能的实现方式中,所述将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音包括:
通过声码器对所述梅尔频谱进行傅里叶逆变换,以将所述梅尔频谱转换为时域的语音波形信号,获得所述语音。
第二方面,本申请实施例还提供了一种文本的语音合成装置,包括:
获取模块,用于获取待识别的目标文本,并用于获取通过处理模块进行离散化特征处理之后的所述目标文本中的每个字符对应的特征向量,以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型,以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;
转换模块,用于将所述获取模块获取的梅尔频谱转换为语音,以获得所述目标文本对应的语音。
其中在一种可能的实现方式中,所述的装置还包括:
所述获取模块,还用于在将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前,获取预设数量的训练文本和所述训练文本对应的配对语音,对所述训练文本进行离散型特征处理,以获得所述训练文本中的每个字符对应的特征向量;将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱;以及,当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型。
其中在一种可能的实现方式中,所述获取模块,具体用于通过待训练的频谱转换模型,对所述训练文本进行编码,获得与所述训练文本对应的隐藏状态序列,所述隐藏状态序列包括至少两个隐节点,并根据每个字符对应的隐节点的权值,分别对所述隐节点进行加权计算,获得所述训练样本中的每个字符对应的语义向量,以及对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述文本的语音合成方法。
第四方面,本申请实施例还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述文本的语音合成方法。
以上技术方案中,获取待识别的目标文本之后,将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量,并将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱,以及将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音,这样在进行语音合成的时候,便无需对文本中的每个字符进行拼音标注,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请文本的语音合成方法一个实施例的流程图;
图2为本申请文本的语音合成方法另一个实施例的流程图;
图3为本申请文本的语音合成装置一个实施例的连接结构示意图;
图4为本申请计算机设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1为本申请文本的语音合成方法一个实施例的流程图,如图1所示,上述方法可以包括:
步骤101:获取待识别的目标文本。
具体来说,可通过获取模块获取上述待识别的文本,上述获取模块可以是任意具有书面语言表现功能的输入法,其中,上述目标文本指的是任意具有书面语言表现形式的一段文字。
步骤102:将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量。
进一步而言,离散型特征处理主要用于将连续的数值属性转化为离散的数值属性。本申请采取独热(One-Hot)编码的方式进行目标文本的离散型特征处理。
具体地,以下将对本申请如何使用One-Hot编码得到上述目标文本中每个字符对应的特征向量进行说明:
首先,假设本申请具有如下预设关键词,且每个关键词的编号如下所示:
1老师;2喜欢;3学识;4上课;5很;6幽默;7我;8渊博。
其次,当本申请中的目标文本为“老师学识很渊博”时,首先对该目标文本进行分离以与上述预设关键词相匹配,即分离成“老师”、“学识”、“很”以及“渊博”。
紧接着,将上述“老师”、“学识”、“很”以及“渊博”与上述预设关键词的编号一一对应,即得到:
1老师 2喜欢 3学识 4上课 5很 6幽默 7我 8渊博
1 0 1 0 1 0 0 1
因此,对于目标文本“老师学识很渊博”,最终可得到该目标文本中每个字符对应的特征向量为10101001。
其中,上述预设关键词以及预设关键词的编号可以在具体实现时,根据实现需求进行自行设定,本实施例对上述预设关键词以及预设关键词对应的编号不作限定,以上预设关键词以及预设关键词的编号为一示例以便理解。
步骤103:将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱。
在具体实现时,上述频谱转换模型可以为序列转换模型(Sequence to Sequence;以下简称:seq2seq)。进一步来说,本申请通过seq2seq模型输出与目标文本中的每个字符对应的梅尔频谱,由于seq2seq模型是目前自然语言处理技术中非常重要而且非常流行的一个模型,因此有着良好的表现。其中,本申请采取梅尔频谱作为声音特征的表现形式,可以使得人耳可以更容易感知到声音频率的变化。
具体而言,声音频率的单位是赫兹,人耳能听到的频率范围是20至20000Hz,但人耳对赫兹这种标度单位并不是线性感知关系。例如我们适应了1000Hz的音调,如果把音调频率提高到2000Hz,我们的耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。而通过梅尔频谱的表现方式,则人耳对频率的感知度就成了线性关系。也就是说,如果两端语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。
步骤104:将上述梅尔频谱转换为语音,以获得所述目标文本对应的语音。
进一步而言,可通过在频谱转换模型的外部接一声码器,以将上述梅尔频谱转换为语音实现输出。
在实际应用中,上述声码器可通过傅里叶逆变换将上述梅尔频谱转换为时域的语音波形信号,由于时域是真实世界,是唯一实际存在的域,故本申请可更为形象与直观的获取上述语音。上述语音合成方法中,获取待识别的目标文本之后,将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量,并将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱,以及将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音,这样在进行语音合成的时候,便无需对文本中的每个字符进行拼音标注,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案。
图2为本申请文本的语音合成方法另一个实施例的流程图,如图2所示,本申请图1所示实施例中,步骤103之前,还可以包括:
步骤201:获取预设数量的训练文本和上述训练文本对应的配对语音。
具体来说,和目标文本的概念类似,本实施例中的训练文本也指任意具有书面语言表现形式的一段文字。
其中,上述预设数量可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预设数量的大小不作限定,举例来说,上述预设数量可以是1000个。
步骤202:对上述训练文本进行离散型特征处理,以获得上述训练文本中的每个字符对应的特征向量。
同样,在本实施例中,可以采用One-Hot编码的方式进行训练文本的离散型特征处理。具体实现过程可参考步骤102中的相关描述,在此不再赘述。
步骤203:将上述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得上述待训练的频谱转换模型输出的梅尔频谱。
进一步来说,上述步骤203可以包括:
步骤(1)通过上述待训练的频谱转换模型,对上述训练文本进行编码,获得与上述训练文本对应的隐藏状态序列,上述隐藏状态序列包括至少两个隐节点。
其中,上述隐藏状态序列的获得为将上述训练文本中每个字符的特征向量一一进行映射,其中上述训练文本中的字符的个数与隐节点的个数一一对应。
步骤(2)根据每个字符对应的隐节点的权值,分别对上述隐节点进行加权计算,获得上述训练样本中的每个字符对应的语义向量。
具体来说,可通过采取注意力机制的公式(1)来获得对应的语义向量:
Figure BDA0001948137960000081
其中,Ci表示第i个语义向量,N表示隐节点的个数,hj表示编码时的第j个字符的隐节点,上述注意力机制指的是:由于aij表示在编码时的第j阶段和解码时的第i阶段的相关性,故对于每个语义向量均会选取与当前所要输出最合适的上下文信息。
步骤(3)对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
步骤204:当上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型。
进一步地,当上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差大于预设阈值时,还包括:
对每个隐节点的权值进行反向传播误差信息以进行更新,不断迭代,直至通过上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值。
具体来说,在将上述隐节点的权值进行更新之后,首先需要对更新权值后的隐节点进行加权计算,以获得训练样本中的每个字符对应的语义向量,然后对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱,最后当所述每个字符对应的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,停止上述每个隐节点的更新过程,并获得训练好的频谱转换模型。
其中,上述预设阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预设阈值的大小不作限定,举例来说,上述预设阈值可以为80%。
图3为本申请文本的语音合成装置一个实施例的连接结构示意图,如图3所示,上述装置包括获取模块31和转换模块32:
获取模块31,用于获取待识别的目标文本,并用于获取通过处理模块33进行离散化特征处理之后的所述目标文本中的每个字符对应的特征向量,以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型,以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱。
具体来说,可通过任意具有书面语言表现功能的输入法获取待识别的目标文本,其中,上述目标文本指的是任意具有书面语言表现形式的一段文字。
在具体实现时,上述频谱转换模型可以为序列转换模型(Sequence to Sequence;以下简称:seq2seq)。进一步来说,本申请通过seq2seq模型输出与目标文本中的每个字符对应的梅尔频谱,由于seq2seq模型是目前自然语言处理技术中非常重要而且非常流行的一个模型,因此有着良好的表现。其中,本申请采取梅尔频谱作为声音特征的表现形式,可以使得人耳可以更容易感知到声音频率的变化。
具体而言,声音频率的单位是赫兹,人耳能听到的频率范围是20至20000Hz,但人耳对赫兹这种标度单位并不是线性感知关系。例如我们适应了1000Hz的音调,如果把音调频率提高到2000Hz,我们的耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。而通过梅尔频谱的表现方式,则人耳对频率的感知度就成了线性关系。也就是说,如果两端语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。
进一步而言,本申请采取独热(One-Hot)编码的方式进行目标文本的离散型特征处理。然后再将上述特征向量输入至预先训练的频谱转换模型,最终获取上述频谱转换模型输出的目标文本中每个字符对应的梅尔频谱。
进一步,以下将对本申请如何使用One-Hot编码得到上述目标文本中每个字符对应的特征向量进行说明:
首先,假设本申请具有如下预设关键词,且每个关键词的编号如下所示:
1老师;2喜欢;3学识;4上课;5很;6幽默;7我;8渊博。
其次,当本申请中的目标文本为“老师学识很渊博”时,首先对该目标文本进行分离以与上述预设关键词相匹配,即分离成“老师”、“学识”、“很”以及“渊博”。
紧接着,将上述“老师”、“学识”、“很”以及“渊博”与上述预设关键词的编号一一对应,即得到:
1老师 2喜欢 3学识 4上课 5很 6幽默 7我 8渊博
1 0 1 0 1 0 0 1
因此,对于目标文本“老师学识很渊博”,最终可得到该目标文本中每个字符对应的特征向量为10101001。
其中,上述预设关键词以及预设关键词的编号可以在具体实现时,根据实现需求进行自行设定,本实施例对上述预设关键词以及预设关键词对应的编号不作限定,以上预设关键词以及预设关键词的编号为一示例以便理解。
转换模块32,用于将上述获取模块31获取的梅尔频谱转换为语音,以获得上述目标文本对应的语音。
进一步而言,上述转换模块32可以是一声码器,上述声码器在进行转换处理时,可通过傅里叶逆变换将上述梅尔频谱转换为时域的语音波形信号,由于时域是真实世界,是唯一实际存在的域,故本申请可更为形象与直观的获取上述语音。
上述语音合成装置中,获取模块31获取待识别的目标文本之后,通过处理模块33将上述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量,并将上述特征向量输入预先训练的频谱转换模型,获取上述频谱转换模型输出的上述目标文本中每个字符对应的梅尔频谱,以及通过转换模块32将上述梅尔频谱转换为语音,以获得上述目标文本对应的语音,这样在进行语音合成的时候,便无需对文本中的每个字符进行拼音标注,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案。
再请参阅图3所示,在另一实施例中,:
所述获取模块31还用于在将上述特征向量输入预先训练的频谱转换模型,获取上述频谱转换模型输出的上述目标文本中每个字符对应的梅尔频谱之前,获取预设数量的训练文本和上述训练文本对应的配对语音,并用于获取通过所述处理模块33对所述训练文本进行离散型特征处理之后的所述训练文本中的每个字符对应的特征向量,且将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模块输出的梅尔频谱;以及,当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型。
具体来说,和目标文本的概念类似,本实施例中的训练文本也指任意具有书面语言表现形式的一段文字。
其中,上述预设数量可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预设数量的大小不作限定,举例来说,上述预设数量可以是1000个。
同样,在本实施例中,通过处理模块33对上述训练文本进行离散型特征处理,以获得上述训练文本中的每个字符对应的特征向量,在具体实现时,可以采用One-Hot编码的的方式进行训练文本的离散型特征处理。具体实现过程可参考图3所示实施例的相关描述,在此不再赘述。
进一步来说,上述获取模块31获取的上述预设数量的配对语音对应的梅尔频谱可以包括:
步骤(1)通过上述待训练的频谱转换模型,对上述训练文本进行编码,获得与上述训练文本对应的隐藏状态序列,上述隐藏状态序列包括至少两个隐节点。
其中,上述隐藏状态序列的获得为将上述训练文本中每个字符的特征向量一一进行映射,其中上述训练文本中的字符的个数与隐节点的个数一一对应。
步骤(2)根据每个字符对应的隐节点的权值,分别对上述隐节点进行加权计算,获得上述训练样本中的每个字符对应的语义向量。
具体来说,可通过采取注意力机制的公式(1)来获得对应的语义向量:
Figure BDA0001948137960000131
其中,Ci表示第i个语义向量,N表示隐节点的个数,hj表示编码时的第j个字符的隐节点,上述注意力机制指的是:由于aij表示在编码时的第j阶段和解码时的第i阶段的相关性,故对于每个语义向量均会选取与当前所要输出最合适的上下文信息。
步骤(3)对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
上述获取模块31具体用于通过待训练的频谱转换模型,对上述训练文本进行编码,获得与上述训练文本对应的隐藏状态序列,上述隐藏状态序列包括至少两个隐节点,并根据每个字符对应的隐节点的权值,分别对上述隐节点进行加权计算,获得上述训练样本中的每个字符对应的语义向量,以及对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
进一步地,当上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差大于预设阈值时,还包括:
对每个隐节点的权值进行反向传播误差信息以进行更新,不断迭代,直至通过上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值。
具体来说,在将上述隐节点的权值进行更新之后,首先需要对更新权值后的隐节点进行加权计算,以获得训练样本中的每个字符对应的语义向量,然后对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱,最后当所述每个字符对应的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,停止上述每个隐节点的更新过程,并获得训练好的频谱转换模型。
其中,上述预设阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预设阈值的大小不作限定,举例来说,上述预设阈值可以为80%。
图4为本申请计算机设备一个实施例的结构示意图,上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时,可以实现本申请实施例提供的文本的语音合成方法。
其中,上述计算机设备可以为服务器,例如:云服务器,或者上述计算机设备也可以为电子设备,例如:智能手机、智能手表、个人计算机(Personal Computer;以下简称:PC)、笔记本电脑或平板电脑等智能设备,本实施例对上述计算机设备的具体形态不作限定。
图4示出了适于用来实现本申请实施方式的示例性计算机设备52的框图。图4显示的计算机设备52仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备52以通用计算设备的形式表现。计算机设备52的组件可以包括但不限于:一个或者多个处理器或者处理单元56,系统存储器78,连接不同系统组件(包括系统存储器78和处理单元56)的总线58。
总线58表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备52典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备52访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器78可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)70和/或高速缓存存储器72。计算机设备52可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统74可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线58相连。存储器78可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块82的程序/实用工具80,可以存储在例如存储器78中,这样的程序模块82包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块82通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备52也可以与一个或多个外部设备54(例如键盘、指向设备、显示器64等)通信,还可与一个或者多个使得用户能与该计算机设备52交互的设备通信,和/或与使得该计算机设备52能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口62进行。并且,计算机设备52还可以通过网络适配器60与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器60通过总线58与计算机设备52的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备52使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元56通过运行存储在系统存储器78中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的文本的语音合成方法。
本申请实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时可以实现本申请实施例提供的文本的语音合成方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (6)

1.一种文本的语音合成方法,其特征在于,所述的方法包括:
获取待识别的目标文本;
将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量;
将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;
将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音;
所述将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前,还包括:
获取预设数量的训练文本和与所述训练文本对应的配对语音;
对所述训练文本进行离散型特征处理,以获得所述训练文本中的每个字符对应的特征向量;
将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱;以及,
当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型;
所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱包括:
通过所述待训练的频谱转换模型,对所述训练文本进行编码,获得与所述训练文本对应的隐藏状态序列,所述隐藏状态序列包括至少两个隐节点;
根据每个字符对应的隐节点的权值,分别对所述隐节点进行加权计算,获得所述训练文本中的每个字符对应的语义向量;
对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱之后,还包括:
当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差大于所述预设阈值时,对每个隐节点的权值进行更新;
分别对更新权值后的隐节点进行加权计算,以获得所述训练文本中的每个字符对应的语义向量;
对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱;以及,当所述每个字符对应的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,停止对每个隐节点的权值的更新过程,并获得训练好的频谱转换模型。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音包括:
通过声码器对所述梅尔频谱进行傅里叶逆变换,以将所述梅尔频谱转换为时域的语音波形信号,获得所述语音。
4.一种文本的语音合成装置,其特征在于,所述的装置包括:
获取模块,用于获取待识别的目标文本,并用于获取通过处理模块进行离散型特征处理之后的所述目标文本中的每个字符对应的特征向量,以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型,以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;
转换模块,用于将所述获取模块获取的梅尔频谱转换为语音,以获得所述目标文本对应的语音;
所述获取模块,还用于在将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前,获取预设数量的训练文本和与所述训练文本对应的配对语音;获取通过所述处理模块对所述训练文本进行离散型特征处理之后所获得的所述训练文本中每个字符对应的特征向量;将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱;以及,当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型;
所述获取模块将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱,具体用于通过待训练的频谱转换模型,对所述训练文本进行编码,获得与所述训练文本对应的隐藏状态序列,所述隐藏状态序列包括至少两个隐节点,并根据每个字符对应的隐节点的权值,分别对所述隐节点进行加权计算,获得所述训练文本中的每个字符对应的语义向量,以及对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
5.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1~3中任一所述的方法。
6.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~3中任一所述的方法。
CN201910042827.1A 2019-01-17 2019-01-17 文本的语音合成方法、装置和计算机设备 Active CN109754778B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910042827.1A CN109754778B (zh) 2019-01-17 2019-01-17 文本的语音合成方法、装置和计算机设备
SG11202100900QA SG11202100900QA (en) 2019-01-17 2019-11-13 Text-based speech synthesis method and device, computer device, and non-transitory computer-readable storage medium
PCT/CN2019/117775 WO2020147404A1 (zh) 2019-01-17 2019-11-13 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质
US17/178,823 US11620980B2 (en) 2019-01-17 2021-02-18 Text-based speech synthesis method, computer device, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042827.1A CN109754778B (zh) 2019-01-17 2019-01-17 文本的语音合成方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109754778A CN109754778A (zh) 2019-05-14
CN109754778B true CN109754778B (zh) 2023-05-30

Family

ID=66405768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042827.1A Active CN109754778B (zh) 2019-01-17 2019-01-17 文本的语音合成方法、装置和计算机设备

Country Status (4)

Country Link
US (1) US11620980B2 (zh)
CN (1) CN109754778B (zh)
SG (1) SG11202100900QA (zh)
WO (1) WO2020147404A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
CN110310619A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN110379409B (zh) * 2019-06-14 2024-04-16 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN110335587B (zh) * 2019-06-14 2023-11-10 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN112447165B (zh) * 2019-08-15 2024-08-02 阿里巴巴集团控股有限公司 信息处理、模型训练和构建方法、电子设备、智能音箱
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN112562637B (zh) * 2019-09-25 2024-02-06 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN110808027B (zh) * 2019-11-05 2020-12-08 腾讯科技(深圳)有限公司 语音合成方法、装置以及新闻播报方法、系统
CN112786000B (zh) * 2019-11-11 2022-06-03 亿度慧达教育科技(北京)有限公司 语音合成方法、系统、设备及存储介质
CN113066472B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
WO2021127811A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 一种语音合成方法、装置、智能终端及可读介质
WO2021127978A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和存储介质
CN111312210B (zh) * 2020-03-05 2023-03-21 云知声智能科技股份有限公司 一种融合图文的语音合成方法及装置
CN113450756A (zh) * 2020-03-13 2021-09-28 Tcl科技集团股份有限公司 一种语音合成模型的训练方法及一种语音合成方法
CN111369968B (zh) * 2020-03-19 2023-10-13 北京字节跳动网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN111524500B (zh) * 2020-04-17 2023-03-31 浙江同花顺智能科技有限公司 语音合成方法、装置、设备和存储介质
CN111653261A (zh) * 2020-06-29 2020-09-11 北京字节跳动网络技术有限公司 语音合成方法、装置、可读存储介质及电子设备
CN113971947A (zh) * 2020-07-24 2022-01-25 北京有限元科技有限公司 语音合成的方法、装置以及存储介质
CN112002305B (zh) * 2020-07-29 2024-06-18 北京大米科技有限公司 语音合成方法、装置、存储介质及电子设备
CN111986646B (zh) * 2020-08-17 2023-12-15 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112289299B (zh) * 2020-10-21 2024-05-14 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112712789B (zh) * 2020-12-21 2024-05-03 深圳市优必选科技股份有限公司 跨语言音频转换方法、装置、计算机设备和存储介质
CN112885328B (zh) * 2021-01-22 2024-06-28 华为技术有限公司 一种文本数据处理方法及装置
CN112908293B (zh) * 2021-03-11 2022-08-02 浙江工业大学 一种基于语义注意力机制的多音字发音纠错方法及装置
CN113380231B (zh) * 2021-06-15 2023-01-24 北京一起教育科技有限责任公司 一种语音转换的方法、装置及电子设备
CN113838448B (zh) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 一种语音合成方法、装置、设备及计算机可读存储介质
US20220405524A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Optical character recognition training with semantic constraints
CN113539239B (zh) * 2021-07-12 2024-05-28 网易(杭州)网络有限公司 语音转换方法、装置、存储介质及电子设备
CN113409761B (zh) * 2021-07-12 2022-11-01 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备以及计算机可读存储介质
CN114203151A (zh) * 2021-10-29 2022-03-18 广州虎牙科技有限公司 语音合成模型的训练的相关方法以及相关装置、设备
CN114783407B (zh) * 2022-06-21 2022-10-21 平安科技(深圳)有限公司 语音合成模型训练方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1575030A1 (en) * 2004-03-10 2005-09-14 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
CN105654939A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于音向量文本特征的语音合成方法
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US9934775B2 (en) * 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CA3179080A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10395654B2 (en) * 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US11587541B2 (en) * 2017-06-21 2023-02-21 Microsoft Technology Licensing, Llc Providing personalized songs in automated chatting
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
KR102535411B1 (ko) * 2017-11-16 2023-05-23 삼성전자주식회사 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
KR102401512B1 (ko) * 2018-01-11 2022-05-25 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1575030A1 (en) * 2004-03-10 2005-09-14 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
CN105654939A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于音向量文本特征的语音合成方法
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备

Also Published As

Publication number Publication date
US20210174781A1 (en) 2021-06-10
US11620980B2 (en) 2023-04-04
CN109754778A (zh) 2019-05-14
WO2020147404A1 (zh) 2020-07-23
SG11202100900QA (en) 2021-03-30

Similar Documents

Publication Publication Date Title
CN109754778B (zh) 文本的语音合成方法、装置和计算机设备
US10388284B2 (en) Speech recognition apparatus and method
CN111192568B (zh) 一种语音合成方法及语音合成装置
CN112289299B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111627418A (zh) 语音合成模型的训练方法、合成方法、系统、设备和介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN110197655B (zh) 用于合成语音的方法和装置
CN112331177B (zh) 基于韵律的语音合成方法、模型训练方法及相关设备
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN111489735B (zh) 语音识别模型训练方法及装置
CN111681661B (zh) 语音识别的方法、装置、电子设备和计算机可读介质
KR20220064940A (ko) 음성 생성 방법, 장치, 전자기기 및 저장매체
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
WO2021051564A1 (zh) 语音识别方法、装置、计算设备和存储介质
JP2022133408A (ja) 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム
CN114495956A (zh) 语音处理方法、装置、设备及存储介质
CN112634858A (zh) 语音合成方法、装置、计算机设备及存储介质
CN114613351A (zh) 韵律预测方法、装置、可读介质及电子设备
CN114758649A (zh) 一种语音识别方法、装置、设备和介质
CN109036379B (zh) 语音识别方法、设备及存储介质
CN114937104B (zh) 虚拟对象面部信息生成方法、装置和电子设备
CN114282552B (zh) 非自回归翻译模型的训练方法及其装置
CN113327577B (zh) 语音合成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant