CN102201233A

CN102201233A - 一种混搭语音合成方法和系统

Info

Publication number: CN102201233A
Application number: CN2011101327680A
Authority: CN
Inventors: 李健; 刘畅; 武卫东; 郑晓明
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date: 2011-05-20
Filing date: 2011-05-20
Publication date: 2011-09-28

Abstract

本发明提供的一种混搭语音合成方法，包括：接收用户输入的文本；对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息；针对所获得的音韵结构信息，结合混搭定制语音库合成与所述文本对应的混搭语音数据。本发明还提供一种实现前述方法的混搭语音合成系统。本发明的混搭语音合成方法和系统通过事先定制完成的一个混搭定制语音库，用户可以依据个人爱好，通过该技术针对用户所输入的文本选择随机或者设置选定混搭定制语音库中的不同音色、不同口音、不同语气等多种风格的语音片段，最终得到风格多样化的混搭合成语音。

Description

一种混搭语音合成方法和系统

技术领域

本发明涉及语音合成技术领域，特别是涉及一种混搭语音合成方法与系统。

背景技术

语音合成技术，又称文语转换(TTS，Text To Speech)技术，其能将任意文字信息转化为标准流畅的语音表达出来。

现有的通用语音合成技术主要是只预先录制一个单音色语音库，然后基于该语音库制作一个语音合成系统，此方法的合成语音取决于语音库，即合成的声音像是录音人在说话。此过程仅仅将用户输入的文本转换成单一音色的语音，这种语音的音色、语气等属性也非常单一化。

发明内容

有鉴于此，本发明提供一种混搭语音合成方法和系统，用于对一次输入的文本产生不同音色、不同口音、不同语气等的混搭合成语音效果。

为了解决上述问题，本发明公开了一种混搭语音合成方法，其步骤包括：

步骤101，接收用户输入的文本；

步骤102，对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息；

步骤103，针对所获得的音韵结构信息，结合混搭定制语音库合成与所述文本对应的混搭语音数据。

进一步的，所述步骤103具体包括：

步骤201，针对所获得的音韵结构信息，与混搭定制语音库中的定制文本进行匹配；如果匹配，转入步骤202，如果未匹配，转入步骤203；

步骤202，通过被匹配定制文本调用混搭定制语音库的定制语音数据合成定制语音数据；

步骤203，将未匹配音韵结构信息采用通用语音技术合成通用语音数据；

步骤204，将所述的定制语音数据和通用语音数据调整合成与所述文本对应的混搭语音数据。

进一步的，所述步骤202包括：

由被匹配定制文本调用混搭定制语音库中储存的语音片段，然后将所得到的语音片段进行解码得到定制语音数据。

进一步的，所述的调用为随机调用或者选定调用，所述的随机调用为由定位单元随机选择混搭定制语音库中的定制语音，所述的选定调用是用户通过定位单元自己选用混搭定制语音库中的定制语音。

进一步的，所述的混搭定制语音库中的每一条定制文本对应多个与定制文本语义相同的语音片段，所述语音片段的风格互不相同。

进一步的，所述的风格包括音色，和/或方言，和/或语气。

进一步的，所述的匹配是以音韵结构信息中最小的韵律短语为单位与混搭定制语音库中的定制文本进行最长匹配。

本发明还公开了一种混搭语音合成系统，包括：

接口模块，用于接收用户输入的文本；

自然语言处理模块，用于获得与用户输入的文本对应的音韵结构信息；

混搭语音合成模块，用于将所获得的音韵结构信息何处为混搭语音数据。

进一步的，所述的混搭语音合成模块包括：文本匹配子模块，定制语音合成子模块，通用语音合成子模块，语音调整合成子模块；

所述文本匹配子模块，用于将所述的音韵结构信息与混搭定制语音库中的定制文本进行匹配，得到已匹配定制文本的音韵结构信息和未与定制文本匹配的音韵结构信息；

所述定制语音合成子模块，用于合成已匹配定制文本的音韵结构信息的定制语音数据；

所述通用语音合成子模块，用于合成未与定制文本匹配的音韵结构信息的通用语音数据；

所述语音调整合成子模块，用于将所述的定制语音数据和所述的通用语音数据按用户输入文本的处理顺序合成混搭语音数据。

进一步的，所述混搭定制语音合成子模块包括定位单元，混搭定制语音库，和解码器；定位单元按照被音韵结构信息匹配的定制文本从混搭定制语音库的索引中随机或者设置调用一种风格的语音片段压缩数据，然后由解码器对所述的语音片段压缩数据进行解码合成匹配语音数据。

与现有技术相比，本发明具有以下优点：

本发明的混搭语音合成方法和系统增加了混搭语音合成技术，通过事先定制完成了一个混搭定制语音库，混搭定制语音库中的同一定制文本对应了许多语义相同但风格不同的语音片段，用户可以依据个人爱好，通过该技术针对用户所输入的文本选择随机或者设置选定混搭定制语音库中的不同音色、不同口音、不同语气等多种风格的语音片段，最终合成风格多样化的混搭合成语音。

附图说明

图1是本发明实施例的一种混搭语音合成方法流程图；

图2是本发明优选的一种混搭语音合成方法实施例流程图；

图3是本发明优选的一种混搭语音合成系统实施例结构图；

图4是本发明进一步优选的一种混搭语音合成系统实施例结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在具体合成语音之前，本发明需建立一个混搭定制语音库。

混搭定制语音库包含两部分内容：定制文本和定制语音片段，其中每条定制文本对应多个定制语音片段，每个定制语音片段均可选用不同音色、不同方言、不同语气等多种风格。

参照图1，示出了本发明一种混搭语音合成方法实施例，包括以下步骤：

步骤101，接收用户输入文本。

所述用户输入文本可以包括文字和数字符号，其中，所述的文字可以是汉字、英文、日文、韩文等，或者，上述多种文字中的一种或者几种，如汉英组合等，本发明对具体文本不加以限制，以下主要以汉字为例。

步骤102，对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息。

此步骤包括语法分词(词性标注、拼音标注)、数字符号处理、多音字处理、韵律边界预测、变调处理等步骤。

自然语言处理的最终结果是以字为单位的储存的音韵结构信息，它包含了拼音、音调、韵律短语、韵律边界、重音等信息。

步骤103，将获得的音韵结构信息，结合混搭定制语音库合成与所述文本对应的混搭语音数据。

将所得到的音韵结构信息，比如拼音、音调、韵律短语、韵律边界、重音等信息，随机或者按照用户喜好设定调用混搭定制语音库事先定制好的具有相同语义的多种语音片段中的一种，然后合成混搭定制语音数据。

在实际中，由于成本等原因，混搭定制语音库定制范围可能制作的不足够大，需要结合通用语音库对未定制到的语言部分进行补充。

在实际中混搭定制语音库中存储有大量定制文本和定制语音片段，其中每个语音片段的索引由其对应的定制文本及一个附属编号确定；每一段定制语音都先由真人按照定制文本录音，然后将这些录音采用G729或G723等编码方法进行压缩。

以汉字为例，定制文本“天气真好”可以对应四川方言、广东方言、东北方言、湖南方言、成年男声、成年女生、小男孩声、小女孩声等不同风格，通过录音得到对应的具有相同语义而风格不同的定制语音片段。

然后将所述录音得到的语音片段用G729或G723等编码方法进行压缩储存在混搭定制语音库中。

优选的，参照图2，示出了本发明优选的一种混搭语音合成方法实施例流程图，具体可以包括：

步骤201，接收用户输入文本。

步骤202，对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息。

自然语言处理的最终结果是以字为单位的储存的音韵结构信息，它包含了拼音、音调、韵律短语等信息。

例如，当输入“2009年中华人民共和国建国60周年。”，本步骤对本句话进行处理后得到“二零零九年/中华人民共和国/建国60周年。”，其中包含了三个韵律短语，当然还包含了相应的拼音、音调等信息，此时系统先按顺序处理这三个韵律短语。当输入文本较短，比如输入“中间”，那么韵律边界智能划分到“间”后，为“中间/”，系统也会将其按照一个韵律短语处理。

步骤203，针对所获得的音韵结构信息，按处理顺序与混搭定制语音库中的定制文本进行匹配；如果音韵结构信息与定制文本匹配，转入步骤204，反之，则转入步骤205。

此步骤中，首先将所获得的音韵结构信息中的韵律短语，与混搭定制语音库中事先定制好的定制文本进行匹配，匹配时以最小韵律短语为单位与定制文本进行最长匹配。

例如，在定制库中的定制文本有“中华人民”和“中华人民共和国”，但不含“二零零九年”和“建国60周年”。当由步骤102得到“二零零九年/中华人民共和国/建国60周年。”其中系统按文本处理先后顺序处理其中的韵律短语，处理顺序为“二零零九年”，“中华人民共和国”，“建国60周年”。

此时，系统会首先依次序进行字符串对比匹配。

首先对“二零零九年”进行第一轮匹配，发现“二零零九年”无法匹配定制文本，转入步骤204，将其合成通用语音；

然后对“中华人民共和国”进行第一轮匹配，匹配到中华人民，其匹配长度为4，再进行第二轮匹配，匹配到“中华人民共和国”，匹配长度为7，再进行第三轮匹配，没有即停止，最终的匹配结果为“中华人民共和国”，转入步骤205，将其合成定制语音；

最后对“建国60周年”进行第一轮匹配，发现无法匹配，转入步骤104，将其合成通用语音。

实际中，每条定制文本的长度至少为一个语法词，定制文本按照编码顺序排序，定制文本在定制库中按照编码顺序排序。

步骤204，由被匹配定制文本结合混搭定制语音库合成与定制文本对应的定制语音数据。

此步骤将由步骤203得到的被匹配定制文本，合成结合混搭定制语音库合成定制语音。

例如，步骤203中得到的被匹配文本“中华人民共和国”，调用混搭定制语音库中的的定制语音片段合成语音数据。

步骤205将未匹配的音韵结构信息按照通用语音合成流程合成通用语音数据。

例如，将步骤203中得到的“二零零九年”，“建国60周年”，采用现有的通用语音合成技术合成通用语音数据。其中通用语音合成数据可以为现有技术中的任何一种语音合成方法。

步骤206，针对所述的定制语音数据和通用语音数据，按照用户输入文本的处理顺序合成混搭语音数据。

此步骤按前述步骤的文本处理顺序接收以合成的定制语音数据和通用语音数据，并按此顺序调整合作完整的混搭语音数据。

例如，首先，步骤206接收步骤203按文本处理顺序对“二零零九年”进行匹配判断后转入步骤205合成的通用语音数据；

然后，步骤206接收步骤203按文本处理顺序对“中华人民共和国”进行匹配判断后转入步骤204合成的定制语音数据，并将“中华人民共和国”的语音数据与前面接收的“二零零九年”语音数据进行衔接整合；

然后，步骤206接收步骤203按文本处理顺序对“中华人民共和国”进行匹配判断后转入步骤204合成的定制语音数据，并将“建国60周年”语音数据与前面接收的“2009年中华人民共和国”语音数据进行衔接整合；

最终，输出完整的“2009年中华人民共和国建国60周年。”语音数据，其中“中华人民共和国”的风格为随机选择或者按照用户爱好选择的某种风格的语音数据。当然，混搭定制语音库中的定制文本的范围可以定制很宽，比如将上述“2009年”等也可以设为定制文本并录取不同风格的定制语音片段，从而可以匹配更多用户输入的文本，使风格更加鲜明多彩。

在图2所述的一种混搭语音合成方法流程图步骤中

优选的，步骤204包含以下步骤：

步骤A1，针对由步骤203得到的被匹配定制文本，由定位单元在混搭定制语音库的索引中随机定位或者设置定位与定制文本对应的各语音片段的带有附属编号的定制文本。

所述的随机定位是指由定位单元产生一个随机数，然后与被匹配定制文本结合确定某条语音片段压缩数据的索引。

所述的设置定位是指由用户根据自己的喜好选择相应的风格的语音片段压缩数据的索引。

例如，首先，索引可以由如下方法编制：

带有编号的定制文本和语音片段是一一对应的，每条带有编号的定制文本对应一段定制语音；如上述定制文本“中华人民共和国”可对应四川方言、广东方言、东北方言、湖南方言、成年男声、成年女生、小男孩声、小女孩声8种风格的语音片段，将每个语音片段的索引编为“中华人民共和国10001”、“中华人民共和国10002”、......、“中华人民共和国10007”、“中华人民共和国10008”，那么定位单元将结合被匹配定制文本在此8个风格语音片段的对应的索引中随机选定或者设置选定一个索引。

如果用户选择随机定位，那么由定位单元在定制文本“中华人民共和国”相关的编号范围中随机产生一个数，接下来由此随机数和定制文本结合调用混搭定制语音库中对应的语音片段压缩数据。

如果用户选择设置定位，那么由用户直接选定喜欢风格的索引编号即可调用混搭定制语音库中的对应的语音片段压缩数据。

步骤A2，根据步骤A1选定的索引，调用混搭定制语音库中的对应的语音片段压缩数据。

步骤A3，根据步骤A2调用的语音片段压缩数据，对其进行解码，得到匹配音韵结构信息的定制语音数据。

在实际中，语音片段的压缩方法可以为G729或G723等编码算法进行压缩，语音片段压缩数据最终解码格式一般默认为16KHz 16Bit PCM格式音频数据。

在图2所述的一种混搭语音合成方法流程图步骤中，在步骤205中，优选的现有的通用语音技术可以为如下步骤：

步骤B1，针对未匹配上定制文本的音韵结构信息，结合原用户输入的文本上下文进行音素信息预测与规划，得到未匹配上定制文本的音韵结构信息的语音参数；

即通过音素信息预测与规划得到的音节信息、音节位置、重音位置等信息。

步骤B2，根据步骤B1得到的音节信息、音节位置、重音位置等信息，结合通用语音库规划出语音参数，所述的语音参数包括时长、基频、谱等等参数。

步骤B3，根据步骤B2得到语音参数利用合成器合成通用语音数据。

另外，此步骤中也可以采用其它通用语音合成步骤合成通用语音数据。

参照图3，示出了本发明优选的的一种混搭语音合成系统结构图。

接口模块301，用于接收用户输入文本。

自然语言处理模块302，用于对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息。

文本匹配子模块303，用于将所述的音韵结构信息与混搭定制语音库中的定制文本进行匹配，得到已匹配定制文本的音韵结构信息和未与定制文本匹配的音韵结构信息。如果音韵结构信息与定制文本匹配，则将被音韵结构信息匹配的定制文本信息输入定制语音合成子模块304，反之，则将未匹配定制文本的音韵结构信息输入通用语音合成子模块305；

定制语音合成子模块304，用于将被音韵结构信息匹配的定制文本结合定制语音库合成定制语音数据。

通用语音合成子模块305，用于合成未与定制文本匹配的音韵结构信息的通用语音数据。

语音调整合成子模块306，用于将所述的定制语音数据和所述的通用语音数据按用户输入文本的处理顺序合成混搭语音数据。

优选的，所述定制语音合成模快304包括：

定位单元401，混搭定制语音库402，和解码器403。

所述的定位单元401将被匹配定制文本从混搭定制语音库402的索引中随机定位或者设置定位从混搭定制语音库402中调用被匹配定制文本的某一种风格的语音片段压缩数据，然后由解码器403将语音片段压缩数据进行解码合成定制语音数据。

在实际中，所述的通用语音合成子模块305可以包括以下几个模块：

音素信息预测与规划单元501，通用语音库502和合成器503。

所述的音素信息预测与规划单元501对未匹配上定制文本的音韵结构信息，结合原用户输入的文本的上下文进行音素信息预测与规划，得到音节信息、音节位置、重音位置等信息，然后将从音素信息预测与规划单元501得到的信息结合通用语音库502得到未匹配上定制文本的音韵结构信息的时长、基频、谱等语音参数，最后通过合成器503把语音参数合成通用语音数据。

参照图4，示出了本发明采用进一步优选方案时的混搭语音合成系统结构图。其中定制语音合成子模块和通用语音合成子模块如上所述，此处不再详述。

以上对本发明所提供的一种混搭语音合成方法和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种混搭语音合成方法，其特征在于：

步骤101，接收用户输入的文本；

2.按照权利要求1所述的混搭语音合成方法其特征在于：所述步骤103具体包括：

3.按照权利要求2所述的混搭语音合成方法，其特征在于：所述步骤202包括：

4.按照权利要求3所述的混搭语音合成方法，其特征在于：

所述的调用为随机调用或者选定调用，所述的随机调用为由定位单元随机选择混搭定制语音库中的定制语音，所述的选定调用是用户通过定位单元自己选用混搭定制语音库中的定制语音。

5.按照权利要求1或2所述的混搭语音合成方法，其特征在于：

所述的混搭定制语音库中的每一条定制文本对应多个与定制文本语义相同的语音片段，所述语音片段的风格互不相同。

6.按照权利要求5所述的混搭语音合成方法，其特征在于：

所述的风格包括音色，和/或方言，和/或语气。

7.按照权利要求1所述的混搭语音合成方法，其特征在于：

所述的匹配是以音韵结构信息中最小的韵律短语为单位与混搭定制语音库中的定制文本进行最长匹配。

8.一种混搭语音合成系统，其特征在于，包括：

接口模块，用于接收用户输入的文本；

9.按照权利要求8所述的混搭语音合成系统，其特征在于：

所述的混搭语音合成模块包括：文本匹配子模块，定制语音合成子模块，通用语音合成子模块，语音调整合成子模块；

10.按照权利要求9所述的混搭语音合成系统，其特征在于：所述混搭定制语音合成子模块包括定位单元，混搭定制语音库，和解码器；定位单元按照被音韵结构信息匹配的定制文本从混搭定制语音库的索引中随机或者设置调用一种风格的语音片段压缩数据，然后由解码器对所述的语音片段压缩数据进行解码合成匹配语音数据。