CN113539236B - 一种语音合成方法和装置 - Google Patents

一种语音合成方法和装置 Download PDF

Info

Publication number
CN113539236B
CN113539236B CN202110789447.1A CN202110789447A CN113539236B CN 113539236 B CN113539236 B CN 113539236B CN 202110789447 A CN202110789447 A CN 202110789447A CN 113539236 B CN113539236 B CN 113539236B
Authority
CN
China
Prior art keywords
style
voice
representation
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110789447.1A
Other languages
English (en)
Other versions
CN113539236A (zh
Inventor
詹皓粤
林悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110789447.1A priority Critical patent/CN113539236B/zh
Publication of CN113539236A publication Critical patent/CN113539236A/zh
Application granted granted Critical
Publication of CN113539236B publication Critical patent/CN113539236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种语音合成方法和装置,所述方法包括:获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到;根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。通过自定义情感特征表示的提取及预处理方式实现自定义风格的情感语音合成,在支持合成语音风格自定的基础上实现合成语音的风格适用于语料库中的所有音色,达到半监督的可自定义风格的情感语音合成的目的。

Description

一种语音合成方法和装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种语音合成方法和一种语音合成装置。
背景技术
近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式,不仅带来了崭新的用户体验,也扩大了各个产品设计思路及应用场景。语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素。
现有的情感语音合成方式,可以通过录制并制作统一风格的语料库实现统一风格的情感语音合成,可以通过录制并制作多种固定风格的语料库实现多种固定风格的情感语音合成,还可以录制并制作多种固定风格的小型语料库,对其他单一风格的语料库进行语音风格转换或者语音情感转换实现,但无论是通过固定风格语料库的情感语音合成,还是经由固定风格的语音转换,均会受到语料库中所存在风格的限制。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。
本发明实施例公开了一种语音合成方法,所述方法包括:
获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;
获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到;
根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
可选地,所述根据所述输入文本和所述风格生成模块得到风格特征表示,包括:
获取风格标记,所述风格标记用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置;
通过所述风格生成模块基于所述风格标记与所述输入文本,生成风格特征表示。
可选地,所述目标语音合成模型通过如下方式生成:
获取用于语音训练的数据集;所述数据集包括用于训练的原始输入文本、原始语音和音色标记集;
获取用于提取相关时长表示的时长提取模型,以及用于提取风格特征表示的风格特征模块;
根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型。
可选地,所述根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型,包括:
采用所述原始输入文本、原始语音输入所述时长提取模型提取相关时长表示,以及采用原始语音输入所述风格特征模块得到风格特征表示;
将所提取的相关时长表示、所提取的风格特征表示以及音色标记作为第一输入项;
将所述第一输入项输入所述原始语音合成模型得到输出语音,将所输出的语音作为第二输入项;
采用所述第一输入项和第二输入项训练所述原始语音合成模型,得到目标语音合成模型。
可选地,所述采用原始语音输入所述风格特征模块得到风格特征表示,包括:
通过所述风格特征模块提取所述原始语音中的风格信息,并将所提取的风格信息转换为预设固定长度的特征向量表示,得到风格特征表示。
可选地,所述时长提取模型通过如下方式生成:
获取用于训练的语料库以及特征提取模块;所述语料库包括原始语音和原始输入文本;
根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示;
采用所述语音音频特征及对应的文本表示对预设神经网络模型进行训练得到时长提取模型。
可选地,所述根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示,包括:
获取文本处理模块,通过所述文本处理模块将所述原始输入文本中单一语言文本映射成对应语言的音素;
通过所述特征提取模块对所述原始语音提取适用于不同语种的输入特征,得到语音音频特征;
基于所映射成的对应语言的音素与所述不同语种的输入特征,得到与所述原始语音的语音音频特征对应的文本表示。
本发明实施例还公开了一种语音合成装置,所述装置包括:
风格特征表示获取模块,用于获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;
目标语音合成模型获取模块,用于获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到;
情感语音合成模块,用于根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
可选地,所述风格特征表示获取模块包括:
风格标记获取子模块,用于获取风格标记,所述风格标记用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置;
风格特征表示生成子模块,用于通过所述风格生成模块基于所述风格标记与所述输入文本,生成风格特征表示。
可选地,所述装置还包括:
目标语音合成模型生成模块,用于基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块,训练得到目标语音合成模型;
可选地,所述目标语音合成模型生成模块包括:
数据集获取子模块,用于获取用于语音训练的数据集;所述数据集包括用于训练的原始输入文本、原始语音和音色标记集;
时长提取模型获取子模块,用于获取用于提取相关时长表示的时长提取模型,以及用于提取风格特征表示的风格特征模块;
目标语音合成模型生成子模块,用于根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型。
可选地,所述目标语音合成模型生成子模块包括:
相关时长表示提取单元,用于采用所述原始输入文本、原始语音输入所述时长提取模型提取相关时长表示;
风格特征表示提取单元,用于采用原始语音输入所述风格特征模块得到风格特征表示;
第一输入项生成单元,用于将所提取的相关时长表示、所提取的风格特征表示以及音色标记作为第一输入项;
第二输入项生成单元,用于将所述第一输入项输入所述原始语音合成模型得到输出语音,将所输出的语音作为第二输入项;
目标语音合成模型生成单元,用于采用所述第一输入项和第二输入项训练所述原始语音合成模型,得到目标语音合成模型。
可选地,所述风格特征表示提取单元包括:
风格特征表示提取子单元,用于通过所述风格特征模块提取所述原始语音中的风格信息,并将所提取的风格信息转换为预设固定长度的特征向量表示,得到风格特征表示。
可选地,所述目标语音合成模型生成模块还包括:
时长提取模型生成子模块,用于将特征提取模块提取的语音音频特征及对应的文本输入到预设神经网络模型训练得到时长提取模型;
可选地,所述时长提取模型生成子模块包括:
特征提取模块获取单元,用于获取用于训练的语料库以及特征提取模块;所述语料库包括原始语音和原始输入文本;
特征提取单元,用于根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示;
时长提取模型生成单元,用于采用所述语音音频特征及对应的文本表示对预设神经网络模型进行训练得到时长提取模型。
可选地,所述特征提取单元包括:
语言音素映射子单元,用于获取文本处理模块,通过所述文本处理模块将所述原始输入文本中单一语言文本映射成对应语言的音素;
语音音频特征提取子单元,用于通过所述特征提取模块对所述原始语音提取适用于不同语种的输入特征,得到语音音频特征;
特征提取子单元,用于基于所映射成的对应语言的音素与所述不同语种的输入特征,得到与所述原始语音的语音音频特征对应的文本表示。
本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现任一项所述语音合成方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现任一项所述语音合成方法的步骤。
本发明实施例包括以下优点:
在本发明实施例中,可以根据输入文本和风格生成模块得到风格特征表示,然后将输入文本、所得到的风格特征表示、所输入的音色标记输入至目标语音合成模型,以得到具有相应风格及相应音色的情感语音,其中,目标语音合成模型基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到。通过将输入文本、及文本使用风格生成模块得到的风格特征表示、音色标记输入到已训练好的模型中即可得到相应风格及音色的情感语音,即通过自定义情感特征表示的提取及预处理方式实现自定义风格的情感语音合成,在支持合成语音风格自定的基础上实现合成语音的风格适用于语料库中的所有音色,达到半监督的可自定义风格的情感语音合成的目的;以及给用户提供语音交互体验,扩大了各个产品设计思路及应用场景,为打造语音交互闭环系统打下良好的基础。
附图说明
图1是本发明的一种语音合成方法实施例的步骤流程图;
图2是本发明实施例中情感语音合成的过程示意图;
图3是本发明的另一种语音合成方法实施例的步骤流程图;
图4是本发明实施例中语音合成模型的训练过程示意图;
图5是本发明实施例中时长提取模型的训练过程示意图;
图6是本发明的一种语音合成装置实施例的结构框图;
图7是本发明实施例的一种计算机可读存储介质的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素。
现有的情感语音合成包括三种方式:
第一种方式,主要是录制并制作统一风格的语料库实现,然而在这种方式下,受到语料库具有统一风格的限制,所合成的语音的风格单一且不具备普适性,同时工作量大,成本高,耗时长,难以推广到其他风格上。
第二种方式,主要是录制并制作多种固定风格的语料库实现,然而这种方式下所合成语音的风格同样受限,风格受限于语料库中存在的几种风格,且合成效果严格与说话人音色绑定,其他音色无法实现类似的情感语音合成效果。
第三种方式,主要是录制并制作多种固定风格的小型语料库,对其他单一风格的语料库进行语音风格转换或者语音情感转换实现,但在这种方式下由于不同语料库的音色及风格差异的影响,转换后语音情感不一定与目标风格保持一致即可控性不强,且由于数据量不足容易出现转换失败的情况。
本发明实施例的核心思想之一在于提出半监督的可自定义风格的情感语音合成方法,主要是采用标签数据集的全部音频特征训练一个基于GMM(Gaussian Mixed Model,混合高斯模型,用高斯概率密度函数(正态分布曲线)对一个概率分布进行量化,将分布分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型)的ASR(Automatic SpeechRecognition,语音识别系统,是一套自动将语音转换成计算机可理解的字符,文字形式的系统)系统,其在构建该系统时不需要有对应的情感的标注,只需要有对应语音的文本即可;且应用已训练的模型时可以通过所输入的风格标记和风格生成模块实现语音风格的自定义,以及在语音合成过程中可通过音色标记得到同一风格下不同音色的合成,使得合成语音的风格能够适用于语料库中的所有音色,即所提出的语音合成方法并不受限于风格以及音色的限制,具有情感语音合成的普用性。
参照图1,示出了本发明的一种语音合成方法实施例的步骤流程图,侧重于情感语音的合成过程,即针对语音合成模型的应用过程,具体可以包括如下步骤:
步骤101,获取输入文本和风格生成模块,根据输入文本和风格生成模块得到风格特征表示;
在本发明的一种实施例中,在对目标语音合成模型进行训练之后,可以对已训练的目标语音合成模型进行应用,以便合成具有风格特征的情感语音。
具体的,所训练的目标语音合成模型可以是不受限于风格,且能够实现所合成语音风格自定义的模型,为了实现合成语音的风格自定义,需要获取所要合成的风格特征表示。
首先可以获取用于合成情感语音的输入文本和风格生成模块,以便根据输入文本和风格生成模块得到风格特征表示,其中,所获取的输入文本可以是包含有字段或至少一个句子的具有语义内容的文本,所获取的风格生成模块可以基于给定的风格标记生成相关风格特征表示。
在实际应用中,可以获取风格标记,然后通过风格生成模块基于所述风格标记与输入文本生成风格特征表示,即风格生成模块可以基于给定的风格标记及输入文本生成对应的风格特征表示,风格生成模块的存在使得TTS(TextTo Speech,指的是语音合成系统,为一套自动将计算机可理解的文字、字符等文本表示转换成语音的系统)模型具有自定义风格能力。
其中,所获取的风格标记可以是用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置。具体的,风格生成模块的目的在于根据输入文本得到风格特征表示,其可以存在多种实现方式,例如使用基于自定义规则及映射字典的方式,或者是基于神经网络的文本风格分类模型得到风格特征表示。
在具体实现中,自定义规则可以指的是不同风格的规则定义,例如包括颤音、上扬音、下扬音等根据风格会有所不同,且其能量变化的迁移也会有所不同,同样风格跟音调的处理也会针对不同风格相应地进行不同的规则;映射字典可以指的是调节的幅度会根据语调、风格进行调整,其主要是对参数的调整,并不是对于文本的调整,不同风格在某些参数会存在区别,例如在对风格A和风格B的某个参数进行调整的过程中,其所调节的幅度将会存在区别,对于自定义规则及映射字典的具体实现方式,本发明实施例不加以限制。
步骤102,获取音色标记以及目标语音合成模型;
在本发明的一种实施例中,在对目标语音合成模型进行训练之后,为了实现合成语音的风格自定义,需要获取所要合成的风格特征表示,那么在获取所要合成的风格特征表示之后,可以基于风格特征表示对目标语音合成模型进行应用,实现具有风格特征的情感语音的合成。
其中,预先训练的目标语音合成模型可以是基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到,此目标语音合成模型可以用于合成具有相应风格及相应音色的情感语音。
步骤103,根据输入文本与风格特征表示,以及音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
通过目标语音合成模型合成具有相应风格及相应音色的情感语音,此时在将输入文本输入目标语音合成模型时,可以通过风格特征表示实现语音风格的自定义,以及可以通过通过音色标记得到同一风格下不同音色的合成,使得合成语音的风格能够适用于语料库中的所有音色,不受限于风格以及音色的限制。
具体的,参照图2,示出了本发明实施例中情感语音合成的过程示意图,在模型的应用环节,可以基于给定的风格标记使用风格生成模块生成相关风格特征表示,加上文本及音色标记输入到TTS模型生成得到相应的情感语音。
在本发明实施例中,可以根据输入文本和风格生成模块得到风格特征表示,然后将输入文本、所得到的风格特征表示、所输入的音色标记输入至目标语音合成模型,以得到具有相应风格及相应音色的情感语音,其中,目标语音合成模型基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到。通过将输入文本、及文本使用风格生成模块得到的风格特征表示、音色标记输入到已训练好的模型中即可得到相应风格及音色的情感语音,即通过自定义情感特征表示的提取及预处理方式实现自定义风格的情感语音合成,在支持合成语音风格自定的基础上实现合成语音的风格适用于语料库中的所有音色,达到半监督的可自定义风格的情感语音合成的目的。
参照图3,示出了本发明的另一种语音合成方法实施例的步骤流程图,主要是针对语音合成模型的合成和/或训练过程,具体可以包括如下步骤:
步骤301,获取用于语音训练的数据集;
在本发明实施例中,所提出的半监督方式可自定义语音风格的情感语音合成系统,能够在通过收集多个说话人构造语料库训练ASR系统,从而构建可自定义语音风格的TTS系统,该方法的创新型在于系统不需要标准情感语音和对应的朗读文本,同时可以自行定义合成语音的风格。
在对情感语音合成系统的训练过程中,可以获取用于语音训练的数据集对原始语音合成模型进行训练,其中,用于语音训练的数据集包括原始输入文本、原始语音和音色标记集。
步骤302,获取用于提取相关时长表示的时长提取模型,以及用于提取风格特征表示的风格特征模块;
在本发明的一种实施例中,在语音合成模型的训练环节,主要是使用已经训练好的时长提取模型提取相关时长表示,以及使用风格特征模块提取输入语音的风格特征表示,将这两种特征表示加上音色标记及输出语音输入到TTS模型进行训练,此时可以获取用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块。
其中,用于提取相关时长表示的时长提取模型,其目的在于根据输入语音得到对应语音音素的时长表示,主要是将特征提取模块提取的语音音频特征及相应的文本输入到已训练好的模型中即可得到相应的时长表示;用于提取风格特征表示的风格特征模块,其目的在于根据输入语音得到风格特征表示,可以存在有多种实现方式,例如使用常用的语音特征:基频及其各项统计指标、能量及其各项统计指标等,还可以使用基于神经网络的语音风格分类模型得到风格特征表示,这里基于语音风格分类模型中可以采用带标签的数据集实现分类,也可以采用不带有标签的数据集实现分类,带标签的数据集一般是开源的数据集,在此阶段并非是特定需要的。
步骤303,根据原始输入文本、原始语音和音色标记集,以及时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型。
语音合成模型目的在于根据给定的输入文本、风格标记和音色标记生成对应音色及语义内容和风格的情感语音,该模块分为训练阶段和应用阶段,训练阶段将时长提取模型提取的时长表示、风格特征理模块得到的风格特征表示、音色标记及对应的输出语音输入到神经网络模型中进行训练。
具体的,参照图4,示出了本发明实施例中语音合成模型的训练过程示意图,首先可以采用原始输入文本、原始语音输入时长提取模型提取相关时长表示,以及采用原始语音输入所述风格特征模块得到风格特征表示;然后可以将所提取的相关时长表示、所提取的风格特征表示以及音色标记作为第一输入项;并将所述第一输入项输入所述原始语音合成模型得到输出语音,将所输出的语音作为第二输入项;最后可以采用第一输入项和第二输入项训练原始语音合成模型,得到目标语音合成模型。
其中,在采用原始语音输入所述风格特征模块得到风格特征表示的过程中,主要是通过风格特征模块提取原始语音中的风格信息,并将所提取的风格信息转换为预设固定长度的特征向量表示,得到风格特征表示实现。
用于提取相关时长表示的时长提取模型,其目的在于根据输入语音得到对应语音音素的时长表示,该模型可以分为训练阶段和应用阶段,在时长提取模型的训练环节,主要用于对已有的语料库进行文本处理、特征处理及相关模型训练,并保存所需模型,以便用于后续提取语音的时长表示。
具体的,参照图5,示出了本发明实施例中时长提取模型的训练过程示意图,在模型训练阶段,主要是将特征提取模块提取的语音音频特征及对应的文本表示输入到神经网络模型中进行训练,用于提取语音的时长表示,表示了各个音节具体的发音时长。
需要说明的是,时长提取模型的训练阶段与ASR系统训练目标基本一致,可以通过抽取出模型中文本与语音对齐部分作为时长提取模型。
如图5所示,在时长提取模型的训练过程中,可能涉及到文本处理模块和特征提取模块,主要是通过语料库中用于训练的数据集,并结合文本处理模块和特征提取模块训练得到时长提取模型。
在实际应用中,对于时长提取模型的生成,首先可以获取用于训练的语料库以及特征提取模块,所获取的语料库可以包括原始语音和原始输入文本,此时可以根据所获取的特征提取模块提取原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示,并采用语音音频特征及对应的文本表示对预设神经网络模型进行训练得到时长提取模型。
需要通过抽取出模型中文本与语音对齐部分作为时长提取模型,即需要对所输入的文本进行处理,此时可以获取文本处理模块。其中,文本处理模块主要对不同语言文本中的数字等特殊字符进行处理,并将不同语言的文本转换为统一的字符表示,其可以通过多种实现方式实现,在本发明实施例中主要采用将单一语言的文本基于字典等方式映射成对应语言的音素,进而转化为对应的数字序列表示实现。
在具体实现中,在根据特征提取模块提取原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示的过程中,可以通过所获取的文本处理模块将原始输入文本中单一语言文本映射成对应语言的音素,然后通过特征提取模块对原始语音提取适用于不同语种的输入特征,得到语音音频特征,并基于所映射成的对应语言的音素与不同语种的输入特征,得到与原始语音的语音音频特征对应的文本表示。
其中,特征提取模块主要是对音频中的关键特征进行提取,以用于特征匹配模块,提取的特征需要满足:可区分性,指的是对于相同发音的音频,特征在空间上的距离应该尽可能近,而对于不同发音的音频,特征在空间上的距离应该尽可能远;强鲁棒性,指的是说话人可能处于多种多样复杂的环境下,对于相同内容的发音,此时需要要求所提取的特征具有抗环境干扰的能力;可分离性,当语音是人声时,说话人验证为可选项,因此要求特征中说话人信息与语音内容信息之间具有可分离性,若不需要进行说话人验证,可屏蔽说话人相关的特征。该模块主要是用于提取得到适用于不同语种的输入特征,所提取的特征能否达到完全与说话人的区域语言语种无关同时保留语音的语义内容,其可以有多种实现方式,除了常用的语音音频特征提取(例如:MFCC(Mel-scale FrequencyCepstralCoefficients,梅尔倒谱系数),FBank(是一种频域特征,可以用于提高语音识别的性能),Spectrogram(为一种一个MATLAB函数,使用短时傅里叶变换得到信号的频谱图)等),还有无监督神经网络、预训练网络模型等方式提取特征。
需要说明的是,在对模型进行训练的过程中,常用的模型可以为常用的可以是LSTM(Long short-term memory,长短期记忆网络模型,一种为了解决一般循环神经网络存在的长期依赖问题而专门设计出来的,常用于解决序列到序列问题)、GMM,CNN(Convolutional NeuralNetwork,卷积神经网络,一种包含卷积计算且具有深度结构的前馈神经网络,可通过卷积核将上下层进行连接)模型,对此,本发明实施例不加以限制。
在本发明实施例中,通过将输入文本、及文本使用风格生成模块得到的风格特征表示、音色标记输入到已训练好的模型中即可得到相应风格及音色的情感语音,即通过自定义情感特征表示的提取及预处理方式实现自定义风格的情感语音合成,在支持合成语音风格自定的基础上实现合成语音的风格适用于语料库中的所有音色,达到半监督的可自定义风格的情感语音合成的目的。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明的一种语音合成装置实施例的结构框图,具体可以包括如下模块:
风格特征表示获取模块601,用于获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;
目标语音合成模型获取模块602,用于获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到;
情感语音合成模块603,用于根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
在本发明的一种实施例中,风格特征表示获取模块601可以包括如下子模块:
风格标记获取子模块,用于获取风格标记,所述风格标记用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置;
风格特征表示生成子模块,用于通过所述风格生成模块基于所述风格标记与所述输入文本,生成风格特征表示。
在本发明的一种实施例中,所述装置还可以包括如下模块:
目标语音合成模型生成模块,用于基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块,训练得到目标语音合成模型;
在本发明的一种实施例中,目标语音合成模型生成模块可以包括如下子模块:
数据集获取子模块,用于获取用于语音训练的数据集;所述数据集包括用于训练的原始输入文本、原始语音和音色标记集;
时长提取模型获取子模块,用于获取用于提取相关时长表示的时长提取模型,以及用于提取风格特征表示的风格特征模块;
目标语音合成模型生成子模块,用于根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型。
在本发明的一种实施例中,目标语音合成模型生成子模块可以包括如下单元:
相关时长表示提取单元,用于采用所述原始输入文本、原始语音输入所述时长提取模型提取相关时长表示;
风格特征表示提取单元,用于采用原始语音输入所述风格特征模块得到风格特征表示;
第一输入项生成单元,用于将所提取的相关时长表示、所提取的风格特征表示以及音色标记作为第一输入项;
第二输入项生成单元,用于将所述第一输入项输入所述原始语音合成模型得到输出语音,将所输出的语音作为第二输入项;
目标语音合成模型生成单元,用于采用所述第一输入项和第二输入项训练所述原始语音合成模型,得到目标语音合成模型。
在本发明的一种实施例中,风格特征表示提取单元可以包括如下子单元:
风格特征表示提取子单元,用于通过所述风格特征模块提取所述原始语音中的风格信息,并将所提取的风格信息转换为预设固定长度的特征向量表示,得到风格特征表示。
在本发明的一种实施例中,目标语音合成模型生成模块还可以包括如下子模块:
时长提取模型生成子模块,用于将特征提取模块提取的语音音频特征及对应的文本输入到预设神经网络模型训练得到时长提取模型;
在本发明的一种实施例中,时长提取模型生成子模块可以包括如下单元:
特征提取模块获取单元,用于获取用于训练的语料库以及特征提取模块;所述语料库包括原始语音和原始输入文本;
特征提取单元,用于根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示;
时长提取模型生成单元,用于采用所述语音音频特征及对应的文本表示对预设神经网络模型进行训练得到时长提取模型。
在本发明的一种实施例中,特征提取单元可以包括如下子单元:
语言音素映射子单元,用于获取文本处理模块,通过所述文本处理模块将所述原始输入文本中单一语言文本映射成对应语言的音素;
语音音频特征提取子单元,用于通过所述特征提取模块对所述原始语音提取适用于不同语种的输入特征,得到语音音频特征;
特征提取子单元,用于基于所映射成的对应语言的音素与所述不同语种的输入特征,得到与所述原始语音的语音音频特征对应的文本表示。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
参照图7,示出了本发明实施例的一种计算机可读存储介质的结构框图,该计算机可读存储介质701上可以存储计算机程序,其中,计算机程序可以被处理器执行时实现上述游戏翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音合成方法和一种语音合成装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;所述风格特征表示基于风格标记与所述输入文本得到,所述风格标记用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置;
获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到,所述时长提取模型用于根据输入语音得到对应语音音素的时长表示;
根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输入文本和所述风格生成模块得到风格特征表示,包括:
通过所述风格生成模块基于所述风格标记与所述输入文本,生成风格特征表示。
3.根据权利要求1所述的方法,其特征在于,所述目标语音合成模型通过如下方式生成:
获取用于语音训练的数据集;所述数据集包括用于训练的原始输入文本、原始语音和音色标记集;
获取用于提取相关时长表示的时长提取模型,以及用于提取风格特征表示的风格特征模块;
根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述原始输入文本、原始语音和音色标记集,以及所述时长提取模型与风格特征模块对原始语音合成模型进行训练,得到目标语音合成模型,包括:
采用所述原始输入文本、原始语音输入所述时长提取模型提取相关时长表示,以及采用原始语音输入所述风格特征模块得到风格特征表示;
将所提取的相关时长表示、所提取的风格特征表示以及音色标记作为第一输入项;
将所述第一输入项输入所述原始语音合成模型得到输出语音,将所输出的语音作为第二输入项;
采用所述第一输入项和第二输入项训练所述原始语音合成模型,得到目标语音合成模型。
5.根据权利要求4所述的方法,其特征在于,所述采用原始语音输入所述风格特征模块得到风格特征表示,包括:
通过所述风格特征模块提取所述原始语音中的风格信息,并将所提取的风格信息转换为预设固定长度的特征向量表示,得到风格特征表示。
6.根据权利要求3或4所述的方法,其特征在于,所述时长提取模型通过如下方式生成:
获取用于训练的语料库以及特征提取模块;所述语料库包括原始语音和原始输入文本;
根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示;
采用所述语音音频特征及对应的文本表示对预设神经网络模型进行训练得到时长提取模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述特征提取模块提取所述原始语音的语音音频特征及与所提取的语音音频特征对应的文本表示,包括:
获取文本处理模块,通过所述文本处理模块将所述原始输入文本中单一语言文本映射成对应语言的音素;
通过所述特征提取模块对所述原始语音提取适用于不同语种的输入特征,得到语音音频特征;
基于所映射成的对应语言的音素与所述不同语种的输入特征,得到与所述原始语音的语音音频特征对应的文本表示。
8.一种语音合成装置,其特征在于,所述装置包括:
风格特征表示获取模块,用于获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;所述风格特征表示基于风格标记与所述输入文本得到,所述风格标记用于自定义设置文本的风格与语调,以及对不同风格不同语调的参数幅度调节设置;
目标语音合成模型获取模块,用于获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到,所述时长提取模型用于根据输入语音得到对应语音音素的时长表示;
情感语音合成模块,用于根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述语音合成方法的步骤。
CN202110789447.1A 2021-07-13 2021-07-13 一种语音合成方法和装置 Active CN113539236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110789447.1A CN113539236B (zh) 2021-07-13 2021-07-13 一种语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110789447.1A CN113539236B (zh) 2021-07-13 2021-07-13 一种语音合成方法和装置

Publications (2)

Publication Number Publication Date
CN113539236A CN113539236A (zh) 2021-10-22
CN113539236B true CN113539236B (zh) 2024-03-15

Family

ID=78127670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110789447.1A Active CN113539236B (zh) 2021-07-13 2021-07-13 一种语音合成方法和装置

Country Status (1)

Country Link
CN (1) CN113539236B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092474B (zh) * 2023-04-07 2023-06-30 北京边锋信息技术有限公司 一种语音合成方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN110599998A (zh) * 2018-05-25 2019-12-20 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
WO2020209647A1 (ko) * 2019-04-09 2020-10-15 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365879A (zh) * 2020-11-04 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112908292A (zh) * 2019-11-19 2021-06-04 北京字节跳动网络技术有限公司 文本的语音合成方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102320975B1 (ko) * 2019-07-25 2021-11-04 엘지전자 주식회사 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN110599998A (zh) * 2018-05-25 2019-12-20 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
WO2020209647A1 (ko) * 2019-04-09 2020-10-15 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN112908292A (zh) * 2019-11-19 2021-06-04 北京字节跳动网络技术有限公司 文本的语音合成方法、装置、电子设备及存储介质
CN112365879A (zh) * 2020-11-04 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113539236A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
US11605371B2 (en) Method and system for parametric speech synthesis
US10163436B1 (en) Training a speech processing system using spoken utterances
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
JP2023535230A (ja) 2レベル音声韻律転写
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN115485766A (zh) 使用bert模型的语音合成韵律
CN111862954A (zh) 一种语音识别模型的获取方法及装置
Li et al. Analysis and modeling of F0 contours for Cantonese text-to-speech
CN113539236B (zh) 一种语音合成方法和装置
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
O'Shaughnessy Modern methods of speech synthesis
Stan et al. Generating the Voice of the Interactive Virtual Assistant
Guo et al. A DNN-based Mandarin-Tibetan cross-lingual speech synthesis
CN113539239A (zh) 语音转换方法、装置、存储介质及电子设备
CN113628609A (zh) 自动音频内容生成
Li et al. A lyrics to singing voice synthesis system with variable timbre
Sulír et al. Development of the Slovak HMM-based tts system and evaluation of voices in respect to the used vocoding techniques
Phung et al. Exploring a web-based application to convert Tamil and Vietnamese speech to text without the effect of code-switching and code-mixing
Johar et al. Where speech recognition is going: conclusion and future scope
US12020687B2 (en) Method and system for a parametric speech synthesis
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
Ajayi et al. Indigenuous Vocabulary Reformulation for Continuousyorùbá Speech Recognition In M-Commerce Using Acoustic Nudging-Based Gaussian Mixture Model
Phan et al. Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis
Lu et al. Unlocking the Potential: an evaluation of Text-to-Speech Models for the Bahnar Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant