CN113851108A - 文本转语音方法、装置、计算机设备及存储介质 - Google Patents

文本转语音方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113851108A
CN113851108A CN202111130534.2A CN202111130534A CN113851108A CN 113851108 A CN113851108 A CN 113851108A CN 202111130534 A CN202111130534 A CN 202111130534A CN 113851108 A CN113851108 A CN 113851108A
Authority
CN
China
Prior art keywords
information
tone
composite
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111130534.2A
Other languages
English (en)
Inventor
张旭龙
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111130534.2A priority Critical patent/CN113851108A/zh
Publication of CN113851108A publication Critical patent/CN113851108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音合成领域,尤其涉及一种文本转语音方法、装置、计算机设备及存储介质。其方法包括:从音色数据库中获取音色信息,并从客户端获取目标文本,对目标文本和音色信息进行预处理,得到第一复合信息;将第一复合信息输入注意力层,通过注意力层中的注意力网络模型对第一复合信息的复合特征进行提取,得到注意力层输出的第二复合信息;将第二复合信息输入音色分类器,通过音色分类器对第二复合信息进行音色识别,判断第二复合信息是否为目标音;若第二复合信息为目标音,则通过语音生成器对第二复合信息进行解码,生成与目标文本对应的语音信息。本发明可以使生成的语音信息更加接近目标音,可提高语音合成的准确性。

Description

文本转语音方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音合成领域,尤其涉及一种文本转语音方法、装置、计算机设备及存储介质。
背景技术
随着互联网的快速发展,手机、笔记本等电子产品已经成为日常生活和工作中必不可少的一部分。长时间盯着手机屏幕或电脑屏幕容易引发眼睛疲劳和颈椎病等不良状况。
将文字转换为语音,可以减少盯着手机屏幕或电脑屏幕的时间,进而减少眼睛疲劳和颈椎病等不良状况。现有将文字转换为语音的技术中,通过分布式训练得到的神经网络,容易将文本信息的编码错误会带入音频编码中,导致文字转语音的准确率不高。其次,现有技术中,由于文本编码和音频编码同时训练,导致合成目标声音存在一定的困难。
发明内容
基于此,有必要针对上述技术问题,提供一种文本转语音方法、装置、计算机设备及存储介质,以解决现有语音合成技术中,文字转语音的准确率不高,且很难合成目标声音的问题。
一种文本转语音方法,包括:
从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
一种文本转语音装置,包括:
第一复合信息模块,用于从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
第二复合信息模块,用于将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
音色分类器模块,用于将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
语音信息生成模块,用于若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述文本转语音方法。
一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述文本转语音方法。
上述文本转语音方法、装置、计算机设备及存储介质,通过从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息,本发明可以使生成的语音信息更加接近目标音,可提高语音合成的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本转语音方法的一应用环境示意图;
图2是本发明一实施例中文本转语音方法的一流程示意图;
图3是本发明一实施例中文本转语音装置的一结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的文本转语音方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文本转语音方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息。
可理解的,目标文本为用户指定的需要转换为语音的文本。目标文本包括但不限于用户键入的文字文本和用户在某页面选取的文字文本。音色信息为音色数据库中的任意一种音色数据。其中,一种音色数据即为一个人的有关音色的信息。音色数据库包含若干音色的数据,即音色数据库包含多个人的音色数据。
具体的,从音色数据库中获取任意一种音色数据,并获取用户指定的目标文本信息。对音色数据和目标文本信息进行预处理,即通过编码器将音色数据和目标文本信息分别转换为语音矩阵和文本矩阵,进而将语音矩阵和文本矩阵进行相加融合,得到一个复合矩阵,将该复合矩阵作为第一复合信息。其中,编码器包括文本编码器和音色编码器。文本编码器用于将目标文本信息转换为文本矩阵。音色编码器用于将音色信息转化为音色矩阵。文本编码器包含一个字符嵌入层(Character Embedding),一个3层卷积和一个双向LSTM层。音色编码器可以是预先设定的深度网络模型,例如,DNN。
S20、将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息。
可理解的,第一复合信息包含目标文本信息和音色信息。注意力层包括注意力网络模型。优选的,注意力网络模型可以是基于混合注意力机制的网络模型。该注意力网络模型用于对第一复合信息的隐藏信息进行学习。即通过注意力层可学习目标文本信息和音色信息之间的隐藏信息。
具体的,将第一复合信息输入注意力层的注意力网络模型中,通过注意力网络模型对第一复合信息中的隐藏信息进行学习。优选的,将第一复合信息(复合矩阵)中每一个行向量与其临近的行向量的信息进行结合,使第一复合信息的每一个行向量都含有其它行向量的信息,生成一个新的复合矩阵,将该新的复合矩阵作为第二复合信息从注意力层输出。第二复合信息融合了目标文本信息、音色信息以及目标文本信息与音色信息之间的隐藏信息。
S30、将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音。
可理解的,音色分类器是经过预训练得到的分类器,该音色分类器用于对第二复合信息进行音色识别,判断第二复合信息是否为目标音。其中,目标音为与目标人物匹配的音色。例如,用户自行录入的某个人的音色或在智能客户端用户选择的某个人的音色。优选的,音色分类器的预训练可以为:获取若干历史第二复合信息,选取一个历史第二复合信息作为目标音,并将该历史第二复合信息标注为正样本(如,标注为1),将不是目标音的历史第二复合信息标注为负样本(如,标注为0),将有标注的若干历史第二复合信息作为样本集,并将样本集中的历史第二复合信息随机输入初始分类器中进行训练。在训练过程中,若初始分类器的输出的分类结果错误,则给初始分类器负反馈,直至初始分类器的分类结果不再变化或趋于稳定时,将不再变化或趋于稳定时的初始分类器作为音色分类器。
具体的,将第二复合信息输入音色分类器,通过音色分类器对第二复合信息进行识别,判断第二复合信息是否为目标音。当第二复合信息为目标音时,将该第二复合信息输入语音生成器中,生成与目标文本信息对应的语音信息。若第二复合信息不是目标音时,则根据该第二复合信息生成反馈信息,将反馈信息发送至语音生成器,语音生成器对该第二复合信息进行负反馈,以使语音生成器在接收音色分类器的反馈信息之后,逐渐减少对该第二复合信息的处理,使生成的语音信息更加接近目标音,可提高语音合成的准确性。
S40、若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
可理解的,声音信号本是一维的时域信号。通过短时傅里叶变换(STFT)对短时的声音信号做傅里叶变化。把一段长信号分帧、加窗,再对每一帧做傅里叶变换(FFT),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式,即声谱图。声谱图往往是很大的一张图,为了得到合适大小的声音特征,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱,即梅尔谱图。
可理解的,目标音为与目标人物匹配的音色。例如,目标音为李三的音色。语音生成器是经过预训练得到的解码器。该语音生成器用于对第二复合信息进行解码,将第二复合信息解码为与目标文本对应的梅尔谱图,通过预设变换规则,对梅尔谱图进行逆处理,生成与目标文本对应的语音信息。其中,语音信息即为目标文本的语音表达。例如,目标文本为“我是中国人”,则语音信息即为“我是中国人”的语音,且该语音信息的音色为目标音。
优选的,语音生成器的预训练为:获取若干语音数据作为训练样本,其中,语音数据包括文本样本、音色信息样本、梅尔谱图样本。将文本样本和音色信息样本经过预处理,得到第二复合信息样本。将训练样本输入初始语音生成器中,通过初始语音生成器对第二复合信息样本进行解码,将样本第二复合信息解码为梅尔谱图。其中,初始语音生成器包括初始参数。在训练过程中,将解码得到的梅尔谱图与梅尔谱图样本进行对比,在解码得到的梅尔谱图与梅尔谱图样本之间存在差别时,将该差别作为负反馈反馈至初始语音生成器,以使初始语音生成器调整初始参数,直至解码得到的梅尔谱图与梅尔谱图样本之间的差别小于预设阈值,将与小于预设阈值的差别对应的初始语音生成器作为语音生成器。
在步骤S10-S40中,通过从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息,本发明可以使生成的语音信息更加接近目标音,可提高语音合成的准确性。
可选的,在步骤S10中,所述对所述目标文本和所述音色信息进行预处理,得到第一复合信息,包括:
S101、将所述目标文本输入文本编码器,通过所述文本编码器将所述目标文本转换为文本矩阵;
S102、将所述音色信息输入预设深度网络模型,通过所述预设深度网络模型将所述音色信息转换为音色矩阵;
S103、将所述音色矩阵嵌入所述文本矩阵,得到第一复合信息。
可理解的,文本编码器用于将目标文本信息转换为文本矩阵。文本编码器包含一个字符嵌入层(Character Embedding),一个3层卷积和一个双向LSTM层。将输入的目标文本编码成512维的字符向量,然后穿过一个三层卷积,每层卷积包含512个5×1的卷积核,即每个卷积核横跨5个字符,卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams),卷积层后进行批归一化(batch normalization),并使用ReLu(激活函数)进行激活;将最后一个卷积层的输出传送到一个双向的LSTM(long short term memory,长短期记忆)层,以生成编码特征,得到文本矩阵。
其中,将目标文本编码为512维的字符向量的过程,包括利用音素对应表将目标文本分解为对应的音素,根据音素查询表将音素转换为数字,再将数字转换为512维的字符向量。其中,音素为最小的语音单位。如“发”音fā,是一个音节,可分解成f和a两个音素。音素查询表为包含所有音素对应的数字的表。例如,在音素查询表中,f对应的数字为10。
可理解的,音色编码器用于将音色信息转化为音色矩阵。音色编码器可以是预先设定的深度网络模型,例如,DNN(深度神经网络)。通过深度网络模型对将音色信息进行处理,得到音色矩阵。
具体的,在得到与目标文本对应的文本矩阵和与音色信息对应的音色矩阵之后,将音色矩阵嵌入文本矩阵中,得到一个复合矩阵,该复合矩阵包含目标文本和音色信息的特征,将该复合矩阵确定为第一复合信息。
S101-S103中,将目标文本和音色信息分别转换为文本矩阵和音色矩阵,再将音色矩阵嵌入目标矩阵,实现为目标文本嵌入音色信息,可提高文字转语音的准确率。
可选的,在步骤S10中,所述对所述目标文本和所述音色信息进行预处理,还包括:
S104、接收目标语言设置指令;
S105、根据所述目标语言设置指令对语言种类进行设置,得到目标语言,将所述目标语言存储在存储器中;
S106、将原始文本转换为与所述目标语言对应的所述目标文本。
可理解的,目标语言设置指令为设置目标语言的指令。该目标语言设置指令为用户在智能客户端上,选择某种语言作为目标语言的操作之后生成的指令。例如,智能客户端上用户可选择的语种有汉语、英语、法语以及意大利语,在用户选择汉语作为目标语言的操作之后,生成目标语言设置指令,根据目标语言设置指令,对语言种类进行设置,将语言种类设置为汉语,即汉语为目标语言,将汉语作为目标语言存储在存储器中,作为默认语言语种,用户不需要每次都对目标语言进行选择,可提高用户体验。在确定目标语言之后,将原始文本中的字符转换为与目标语言对应的字符。例如,当输入的原始文本的为英语,目标语言为汉语时,将原始文本翻译为中文文本,得到目标文本。本发明可对针多种语言的文本生成语音信息,适用性较强,可提高用户体验。
可选的,在步骤S20中,即所述将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息,包括:
S201、将所述第一复合信息输入注意力层;
S202、通过所述注意力网络模型对所述第一复合信息中上下文语义信息进行融合,提取所述第一复合信息的复合特征,得到所述注意力层输出的第二复合信息。
可理解的,注意力层包括注意力网络模型。优选的,注意力网络模型可以是基于混合注意力机制的网络模型。该注意力网络模型用于对第一复合信息的复合特征进行学习并提取。其中,复合特征包括上下文语义信息。即通过注意力层可学习第一复合信息的上下文语义信息。
具体的,将第一复合信息输入注意力层的注意力网络模型中,通过注意力网络模型对第一复合信息中的上下文语义信息进行学习。优选的,将第一复合信息(复合矩阵)中每一个行向量与其临近的行向量的信息进行结合,使第一复合信息的每一个行向量都含有其他行向量的信息,生成一个新的复合矩阵,将该新的复合矩阵作为第二复合信息从注意力层输出。第二复合信息融合了第一复合文本的上下文语义信息,可提高文字转语音的准确性。
可选的,在步骤S40中,即所述若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息,包括:
S401、在所述为第二复合信息为目标音时,通过基于神经网络的声码器将所述第二复合信息进行解码为梅尔谱图;
S402、通过预设变换规则,对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
可理解的,声音信号本是一维的时域信号。通过短时傅里叶变换(STFT)对短时的声音信号做傅里叶变化。把一段长信号分帧、加窗,再对每一帧做傅里叶变换(FFT),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式,即声谱图。声谱图往往是很大的一张图,为了得到合适大小的声音特征,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱,即梅尔谱图。语音生成器包括基于神经网络的声码器。其中,声码器可以为基于wavenet(序列生成模型)、wavernn(单层循环神经网络)和lpcnet(Linear Prediction,线性预测神经网络)等神经网络的语音合成器。
可理解的,目标音为用户指定的一种声音的音色。声码器是经过预训练得到的解码器。通过声码器对第二复合信息进行解码,将第二复合信息解码为与目标文本对应的梅尔谱图。进而,通过预设变换规则,对梅尔谱图进行逆处理,生成与目标文本对应的语音信息。
其中,预设变换规则为预先设置的变换规则。变换规则包括但不限于逆傅里叶变换(IFFT)和逆离散余弦变换。优选的,变换规则可以为逆傅里叶变换(IFFT)。通过IFFT将一帧一帧的FFT信号变换成一小段一小段的时域信号,再将它们拼接起来,得到声音信号,即语音信息。逆处理是指将梅尔谱图转换为声音信号的处理过程。具体的,通过梅尔标度滤波器组将梅尔谱图变换为声谱图,再通过逆傅里叶变换(IFFT)将声谱图的FFT信号变换成一小段一小段的时域信号,再将它们拼接起来,得到声音信号,即语音信息。
可选的,在步骤S30之后,即所述通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音之后,包括:
S301、若所述第二复合信息不是目标音,根据所述第二复合信息生成反馈信息;
S302、将所述反馈信息发送至所述语音生成器,以使所述语音生成器减少对所述第二复合信息的处理。
可理解的,目标音为与目标匹配的音色。反馈信息用于指示第二复合信息不是目标音。
具体的,若第二复合信息不是目标音时,则根据该第二复合信息生成反馈信息,将反馈信息发送至语音生成器,语音生成器在接收到反馈信息后,对该第二复合信息进行负反馈,以使语音生成器在接收音色分类器的反馈信息之后,逐渐减少对该第二复合信息的处理,使生成的语音信息更加接近目标音,可提高语音合成的准确性。
可选的,在步骤S30之后,即所述通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音之后,还包括:
S303、若所述第二复合信息不是目标音,则获取新的音色信息,对所述目标文本和所述新的音色信息进行预处理,得到新的第一复合信息。
可理解的,若第二复合信息不是目标音,则对与第二复合信息对应的音色信息进行剔除,并重新从音色数据库中随机获取一种新的音色数据,将该新的音色数据作为新的音色信息。该新的音色信息是除与第二复合信息对应的音色信息之外的任意音色信息。
具体的,从音色数据库中随机获取一种新的音色信息,对音色数据和目标文本信息进行预处理,得到一个复合矩阵,将该复合矩阵作为新的第一复合信息。
S304、将所述新的第一复合信息输入注意力层,得到所述注意力层输出的新的第二复合信息。
可理解的,第一复合信息包含目标文本信息和新的音色信息。该注意力网络模型用于对新的第一复合信息的隐藏信息进行学习。即通过注意力层可学习目标文本信息和新的音色信息之间的隐藏信息。
具体的,将新的第一复合信息输入注意力层的注意力网络模型中,通过注意力网络模型对新的第一复合信息中的隐藏信息进行学习。优选的,将新的第一复合信息(复合矩阵)中每一个行向量与其临近的行向量的信息进行结合,使新的第一复合信息的每一个行向量都含有其它行向量的信息,生成一个新的复合矩阵,将该新的复合矩阵作为新的第二复合信息从注意力层输出。新的第二复合信息融合了目标文本信息、新的音色信息以及目标文本信息与新的音色信息之间的隐藏信息。
S305、将所述新的第二复合信息输入音色分类器,通过所述音色分类器判断所述新的第二复合信息是否为目标音。
具体的,将新的第二复合信息输入音色分类器,通过音色分类器对新的第二复合信息进行识别,判断新的第二复合信息是否为目标音。当新的第二复合信息为目标音时,将该新的第二复合信息输入语音生成器中,生成与目标文本信息对应的语音信息。若新的第二复合信息不是目标音时,则根据该新的第二复合信息生成反馈信息。
S306、若所述新的第二复合信息为目标音,则通过语音生成器处理所述新的第二复合信息,生成与所述目标文本对应的语音信息。
具体的,若新的第二复合信息为目标音,则通过语音生成器对该新的第二复合信息进行解码,将新的第二复合信息解码为与目标文本对应的梅尔谱图,通过预设变换规则,对梅尔谱图进行逆处理,生成与目标文本对应的语音信息。若新的第二复合信息不是目标音,则根据该新的第二复合信息生成反馈信息,将反馈信息发送至语音生成器,语音生成器在接收到反馈信息后,对新的第二复合信息进行负反馈,以使语音生成器在接收音色分类器的反馈信息之后,逐渐减少对该新的第二复合信息的处理,使生成的语音信息更加接近目标音,可提高语音合成的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本转语音装置,该文本转语音装置与上述实施例中文本转语音方法一一对应。如图3所示,该文本转语音装置包括第一复合信息模块10、第二复合信息模块20、音色分类器模块30和语音信息生成模块40。各功能模块详细说明如下:
第一复合信息模块10,用于从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
第二复合信息模块20,用于将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
音色分类器模块30,用于将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
语音信息生成模块40,用于若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
可选的,第一复合信息模块10,包括:
文本矩阵单元,用于将所述目标文本输入文本编码器,通过所述文本编码器将所述目标文本转换为文本矩阵;
音色矩阵单元,用于将所述音色信息输入预设深度网络模型,通过所述预设深度网络模型将所述音色信息转换为音色矩阵;
第一复合信息单元,用于将所述音色矩阵嵌入所述文本矩阵,得到第一复合信息。
可选的,第一复合信息模块10,还包括:
指令接收单元,用于接收目标语言设置指令;
目标语言单元,用于根据所述目标语言设置指令对语言种类进行设置,得到目标语言,将所述目标语言存储在存储器中;
目标语言文本单元,用于将原始文本转换为与所述目标语言对应的所述目标文本。
可选的,第二复合信息模块20,包括:
复合信息输入单元,用于将所述第一复合信息输入注意力层;
复合信息生成单元,用于通过所述注意力网络模型对所述第一复合信息中上下文语义信息进行融合,提取所述第一复合信息的复合特征,得到所述注意力层输出的第二复合信息。
可选的,语音信息生成模块40,包括:
梅尔谱图单元,用于在所述为第二复合信息为目标音时,通过基于神经网络的声码器将所述第二复合信息进行解码为梅尔谱图;
语音信息生成单元,用于通过预设变换规则,对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
可选的,第一音色分类器模块30之后,包括:
反馈信息生成单元,用于若所述第二复合信息不是目标音,根据所述第二复合信息生成反馈信息;
反馈信息发送单元,用于将所述反馈信息发送至所述语音生成器,以使所述语音生成器减少对所述第二复合信息的处理。
可选的,
第一复合信息模块,还用于若所述第二复合信息不是目标音,则获取新的音色信息,对所述目标文本和所述新的音色信息进行预处理,得到新的第一复合信息;
第二复合信息模块,还用于将所述新的第一复合信息输入注意力层,得到所述注意力层输出的新的第二复合信息;
音色分类器模块,用于将所述新的第二复合信息输入音色分类器,通过所述音色分类器判断所述新的第二复合信息是否为目标音;
语音信息生成模块,用于若所述新的第二复合信息为目标音,则通过语音生成器处理所述新的第二复合信息,生成与所述目标文本对应的语音信息。
关于文本转语音装置的具体限定可以参见上文中对于文本转语音方法的限定,在此不再赘述。上述文本转语音装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文本转语音方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本转语音方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本转语音方法,其特征在于,包括:
从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
2.如权利要求1所述的文本转语音方法,其特征在于,所述对所述目标文本和所述音色信息进行预处理,得到第一复合信息,包括:
将所述目标文本输入文本编码器,通过所述文本编码器将所述目标文本转换为文本矩阵;
将所述音色信息输入预设深度网络模型,通过所述预设深度网络模型将所述音色信息转换为音色矩阵;
将所述音色矩阵嵌入所述文本矩阵,得到第一复合信息。
3.如权利要求1所述的文本转语音方法,其特征在于,所述对所述目标文本和所述音色信息进行预处理,还包括:
接收目标语言设置指令;
根据所述目标语言设置指令对语言种类进行设置,得到目标语言,将所述目标语言存储在存储器中;
将原始文本转换为与所述目标语言对应的所述目标文本。
4.如权利要求1所述的文本转语音方法,其特征在于,所述将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息,包括:
将所述第一复合信息输入注意力层;
通过所述注意力网络模型对所述第一复合信息中上下文语义信息进行融合,提取所述第一复合信息的复合特征,得到所述注意力层输出的第二复合信息。
5.如权利要求1所述的文本转语音方法,其特征在于,所述若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息,包括:
在所述为第二复合信息为目标音时,通过基于神经网络的声码器将所述第二复合信息进行解码为梅尔谱图;
通过预设变换规则,对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
6.如权利要求1所述的文本转语音方法,其特征在于,所述通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音之后,包括:
若所述第二复合信息不是目标音,根据所述第二复合信息生成反馈信息;
将所述反馈信息发送至所述语音生成器,以使所述语音生成器减少对所述第二复合信息的处理。
7.如权利要求1所述的文本转语音方法,其特征在于,所述通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音之后,还包括:
若所述第二复合信息不是目标音,则获取新的音色信息,对所述目标文本和所述新的音色信息进行预处理,得到新的第一复合信息;
将所述新的第一复合信息输入注意力层,得到所述注意力层输出的新的第二复合信息;
将所述新的第二复合信息输入音色分类器,通过所述音色分类器判断所述新的第二复合信息是否为目标音;
若所述新的第二复合信息为目标音,则通过语音生成器处理所述新的第二复合信息,生成与所述目标文本对应的语音信息。
8.一种文本转语音装置,其特征在于,包括:
第一复合信息模块,用于从音色数据库中获取音色信息,并从客户端获取用户输入的目标文本,对所述目标文本和所述音色信息进行预处理,得到第一复合信息;
第二复合信息模块,用于将所述第一复合信息输入注意力层,通过所述注意力层中的注意力网络模型对所述第一复合信息的复合特征进行提取,得到所述注意力层输出的第二复合信息;
音色分类器模块,用于将所述第二复合信息输入音色分类器,通过所述音色分类器对所述第二复合信息进行音色识别,判断所述第二复合信息是否为目标音;
语音信息生成模块,用于若所述第二复合信息为目标音,则通过语音生成器对所述第二复合信息进行解码,得到与所述二复合信息对应的梅尔谱图,并对所述梅尔谱图进行逆处理,生成与所述目标文本对应的语音信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述文本转语音方法。
10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述文本转语音方法。
CN202111130534.2A 2021-09-26 2021-09-26 文本转语音方法、装置、计算机设备及存储介质 Pending CN113851108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111130534.2A CN113851108A (zh) 2021-09-26 2021-09-26 文本转语音方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111130534.2A CN113851108A (zh) 2021-09-26 2021-09-26 文本转语音方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113851108A true CN113851108A (zh) 2021-12-28

Family

ID=78979823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111130534.2A Pending CN113851108A (zh) 2021-09-26 2021-09-26 文本转语音方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113851108A (zh)

Similar Documents

Publication Publication Date Title
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
US20180114522A1 (en) Sequence to sequence transformations for speech synthesis via recurrent neural networks
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN111164674B (zh) 语音合成方法、装置、终端及存储介质
CN114360493A (zh) 语音合成方法、装置、介质、计算机设备和程序产品
CN112786018A (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Orken et al. Identifying the influence of transfer learning method in developing an end-to-end automatic speech recognition system with a low data level
CN113178188B (zh) 语音合成方法、装置、设备及存储介质
CN111370001A (zh) 一种发音的纠正方法、智能终端及存储介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
CN112712789B (zh) 跨语言音频转换方法、装置、计算机设备和存储介质
CN113903326A (zh) 语音合成方法、装置、设备及存储介质
CN116312463A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN114783407B (zh) 语音合成模型训练方法、装置、计算机设备及存储介质
Zangar et al. Duration modelling and evaluation for Arabic statistical parametric speech synthesis
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN113327578B (zh) 一种声学模型训练方法、装置、终端设备及存储介质
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
CN113851108A (zh) 文本转语音方法、装置、计算机设备及存储介质
CN115206281A (zh) 一种语音合成模型训练方法、装置、电子设备及介质
Houidhek et al. Dnn-based speech synthesis for arabic: modelling and evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination