CN113362800A

CN113362800A - 用于语音合成语料库的建立方法、装置、设备和介质

Info

Publication number: CN113362800A
Application number: CN202110616148.8A
Authority: CN
Inventors: 石强; 孙见青; 梁家恩
Original assignee: Shenzhen Yunzhisheng Information Technology Co Ltd
Current assignee: Shenzhen Yunzhisheng Information Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-09-07

Abstract

本发明涉及一种用于语音合成语料库的建立方法、装置、设备和介质，该方法包括：获取第一文本以及第一文本对应的语音数据；切分语音数据得到分割语料；所述分割语料得到第二文本；对比第二文本和第一文本，筛选得到筛选文本；根据筛选文本确定筛选音频；提取筛选音频的基频值；计算基频值的均值和方差；聚类均值和方差得到聚类结果；根据聚类结果将筛选文本及其对应的语音数据分成k个语料库。本申请实施例中采取先切分后识别的方式，可以提高文本识别准确率，并且将获取得到的第一文本作为参考去除识别错误的情况；由于基频与语音风格和音色具有强相关性，使用句子级的基频均值方差进行分类，有效的保证类内语音风格与音色的一致性。

Description

用于语音合成语料库的建立方法、装置、设备和介质

技术领域

本发明涉及语料库技术领域，具体涉及一种用于语音合成语料库的建立方法、装置、设备和介质。

背景技术

目前，语料库录制存在成本高、制作周期长、难度大等问题。但直接使用网络爬取的语音数据，其中含有大量质量并不能满足合成模型训练的数据质量要求的数据。当前常见的自动化构建音库的方法，对爬取语音进行语音识别获得识别文本，根据识别文本将语音切分成符合长度要求的短句，最后将切割后的音频和对应文本作为语库中的语料。

一个合格的用于语音合成模型训练的语料库，通常需要满足如下要求：1、语音和文本需要有高度的字音一致性；2、同一发音人所有语音在音色、风格、音质等语音学指标上要保持一致；3、每条语音的长度要保持在一定的字数区间，不可过长或者过短。而上述方法由于识别模型存在误差，所以要求1中内容不能得到有效保证。同时无法通过方法对语音的语言学稳定性进行评估，导致要求2中的内容不能得到满足。

发明内容

本发明提供一种用于语音合成语料库的建立方法、装置、设备和介质，能够解决语音文本字音一致性差、音色、风格、音质上的一致性较差的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种用于语音合成语料库的建立方法，包括：获取第一文本以及第一文本对应的语音数据；切分所述语音数据得到分割语料；识别所述分割语料得到第二文本；对比第二文本和第一文本，筛选得到筛选文本；根据筛选文本确定筛选音频；提取筛选音频的基频值；计算句子级基频值的均值和方差；聚类均值和方差得到聚类结果；根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。

在一些实施例中，上述方法中切分所述语音数据得到分割语料，包括：

通过语音活动检测算法切分所述语音数据得到分割语料。

在一些实施例中，上述方法中对比第二文本和第一文本，筛选得到筛选文本，包括：

根据对比的字数和准确率进行筛选。

在一些实施例中，上述方法还包括：

将k个语料库使用不同的style-id进行区分。

在一些实施例中，上述方法中识别分割语料得到第二文本，包括：采用自动识别语音技术识别分割语料得到第二文本。

第二方面，本发明实施例还提供了一种用于语音合成语料库的建立装置，包括：获取模块：用于获取第一文本以及第一文本对应的语音数据；切分模块：用于切分语音数据得到分割语料；识别模块：用于识别分割语料得到第二文本；对比模块：用于对比第二文本和所述第一文本，筛选得到筛选文本；确定模块：根据筛选文本确定筛选音频；提取模块：用于提取筛选音频的基频值；计算模块：用于计算句子级基频值的均值和方差；聚类模块：用于聚类均值和方差得到聚类结果；分类模块：根据聚类结果将筛选文本及其对应的语音数据分类得到k个语料库。

在一些实施例中，上述装置中切分模块切分语音数据得到分割语料，包括：

通过语音活动检测算法切分所述语音数据得到分割语料。

在一些实施例中，上述对比模块还用于：

根据对比的字数和准确率进行筛选得到筛选文本。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项用于语音合成语料库的建立方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项用于语音合成语料库的建立方法。

本发明的有益效果是：获取第一文本以及第一文本对应的语音数据；切分所述语音数据得到分割语料；识别所述分割语料得到第二文本；对比第二文本和第一文本，筛选得到筛选文本；根据筛选文本确定筛选音频；提取筛选音频的基频值；计算基频值的均值和方差；聚类均值和方差得到聚类结果；根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。本申请建立语料库的方法第一方面采取先切分后识别的方式，可以提高文本识别准确率，并且将获取得到的第一文本作为参考与第二文本进行对比去除识别错误的情况，进一步提高文本识别准确率；第二方面，由于基频与语音风格和音色具有强相关性，使用句子级的基频均值方差进行分类，可以有效的保证类内语音风格与音色的一致性。

附图说明

图1为本发明实施例提供的一种用于语音合成语料库的建立方法；

图2为本发明实施例提供的一种用于语音合成语料库的建立装置；

图3为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种用于语音合成语料库的建立方法。

第一方面，结合图1，本发明实施例提供了一种用于语音合成语料库的建立方法，包括如下S101、S102、S103、S104、S105、S106、S107、S108和S109九个步骤：

S101：获取第一文本以及第一文本对应的语音数据。

具体的，本申请实施例中，第一文本以及第一文本对应的语音数据可以是有声读物、新闻播报等，获取手段可以是爬取，如第一文本是“我是中国人”，第一文本对应的语音数据是“我是中国人”对应的语音数据。

S102：切分语音数据得到分割语料。

具体的，本申请实施例中，切分语音数据得到分割语料，可以是将一个长语音，根据其静音段，切分出多个短的语音段，多个短的语音段就是分割语料，切分长语音切分出多个短的语音段，主要是句长在5到25字区间的音频比较适合用于模型训练，为模型训练提供语料。

S103：识别所述分割语料得到第二文本。

具体的，本申请实施例中，如分割语料是“我爱中国”的语音，识别“我爱中国”的语音得到我爱中国的文本。

S104：对比第二文本和第一文本，筛选得到筛选文本。

具体的，本申请实施例中，如第二文本是“我爱中国”，第一文本是“我是中国人”，对比模块参考第一文本对比第二文本，第一文本字数5个，第二文本正确率3/5＝60％,60％低于90％，具体的应用过程中，90％只是一个例子，可以具体设定，将“我爱中国”筛选掉得到筛选文本，如第二文本是“我爱中国”，第一文本是“我爱中国”，第一文本字数4个，第二文本正确率4/4＝100％,所以，第二文本“我爱中国”不会被筛选掉。

S105：根据筛选文本确定筛选音频。

具体的，本申请实施例中，筛选掉不符合字数和正确率的文本后得到筛选文本，每个筛选后的文本都对应一个音频，所以对文本的筛选也是对音频的筛选。

S106：提取筛选音频的基频值。

示例性的，如从音频0001.wav中提取到基频序列为200,200,……,200。

S107：计算句子级基频值的均值和方差。

示例性的，基频序列为200,200,……,200，则计算得到句子级基频的均值和方差分别为200和1。

S108：聚类均值和方差得到聚类结果。

示例性的，比如有3个音频：0001.wav、0002.wav、0003.wav对应的基频值的均值、方差组为[200,1]、[100,10]、[201,1.1]，则聚类后会得到两个聚类结果A:[200,1]、[201,1.1]；B：[100,10]。

S109：根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。

具体的，如上聚类结果为2，则将筛选文本及其对应的语音数据分成2个语料库分，A语库中有音频0001.wav、0003.wav及其对应文本；B语库中0002.wav及其对应文本。

应理解，本申请建立语料库的方法第一方面采取先切分后识别的方式，可以提高文本识别准确率，并且将获取得到的第一文本作为参考与第二文本进行对比去除识别错误的情况，进一步提高文本识别准确率；第二方面，由于基频与语音风格和音色具有强相关性，使用句子级的基频均值方差进行分类，可以有效的保证类内语音风格与音色的一致性。

通过语音活动检测算法切分所述语音数据得到分割语料。

具体的，本申请实施例中通过语音活动检测算法VAD将一个长语音，根据其静音段，切分出多个短的语音段，即切分成分割语料。

根据对比的字数和准确率进行筛选。

具体的，如第二文本是“我爱中国”，第一文本是“我是中国人”，对比参考第一文本对比第二文本，第一文本字数5个，第二文本正确率3/5＝60％,60％低于90％，具体的应用过程中，90％只是一个例子，可以具体设定，将“我爱中国”筛选掉得到筛选文本，如第二文本是“我爱中国”，第一文本是“我爱中国”，第一文本字数4个，第二文本正确率4/4＝100％,所以，第二文本“我爱中国”不会被筛选掉。

在一些实施例中，上述方法还包括：

将k个语料库使用不同的style-id进行区分。

具体的，结合上述内容A类中的音频名前都加前缀01作为其style-id，即：010001.wav、010003.wav；B类前缀02，即：020002.wav，在训练过程中就可以区分两个语库，由于两个语库是通过基频来聚类区分的，且根据上述说明了基频和风格是强相关的，所以在完成训练时，前缀的style-id是控制模型合成风格种类的配置位，而style-id之外的信息如文本内容，语速不能通过基频均值方差进行分类的信息，由于是采用的是所有语库一起混合训练的方式，这些信息会在训练过程中被共享，从而训练模型既可以区分不同的style-id，也能对style-id之外的信息进行充分的共享。

具体的，本发明实施例中通过自动识别语音技术ASR识别分割语料得到第二文本即分割语料的识别文本。

图2为本发明实施例提供的一种用于语音合成语料库的建立装置。

第二方面，结合图2，本发明实施例还提供了一种用于语音合成语料库的建立装置，包括：

获取模块201：用于获取第一文本以及第一文本对应的语音数据。

具体的，本申请实施例中，第一文本以及第一文本对应的语音数据可以是有声读物、新闻播报等，通过获取模块201进行获取，如第一文本是“我是中国人”，第一文本对应的语音数据是“我是中国人”对应的语音数据。

切分模块202：用于切分语音数据得到分割语料。

具体的，本申请实施例中，切分模块202切分语音数据得到分割语料，可以是将一个长语音，根据其静音段，切分出多个短的语音段，多个短的语音段就是分割语料，切分长语音切分出多个短的语音段，主要是句长在5到25字区间的音频比较适合用于模型训练，为模型训练提供语料。

识别模块203：用于识别分割语料得到第二文本。

具体的，本申请实施例中，如分割语料是“我爱中国”的语音，识别模块203识别“我爱中国”的语音得到我爱中国的文本。

对比模块204：用于对比第二文本和所述第一文本，筛选得到筛选文本。

具体的，本申请实施例中，如第二文本是“我爱中国”，第一文本是“我是中国人”，对比模块204参考第一文本对比第二文本，第一文本字数5个，第二文本正确率3/5＝60％,60％低于90％，具体的应用过程中，90％只是一个例子，可以具体设定，将“我爱中国”筛选掉得到筛选文本，如第二文本是“我爱中国”，第一文本是“我爱中国”，第一文本字数4个，第二文本正确率4/4＝100％,所以，第二文本“我爱中国”不会被筛选掉。

确定模块205：根据筛选文本确定筛选音频。

具体的，本申请实施例中，筛选掉不符合字数和正确率的文本后得到筛选文本，每个筛选后的文本都对应一个音频，确定模块205根据筛选文本确定筛选音频，所以对文本的筛选也是对音频的筛选。

提取模块206：用于提取筛选音频的基频值。

示例性的，如提取模块206从音频0001.wav中提取到基频序列为200,200,……,200。

计算模块207：用于计算句子级基频值的均值和方差。

示例性的，基频序列为200,200,……,200，则计算模块207计算得到句子级基频的均值和方差分别为200和1。

聚类模块208：用于聚类均值和方差得到聚类结果。

示例性的，比如有3个音频：0001.wav、0002.wav、0003.wav对应的基频值的均值方差组为[200,1]、[100,10]、[201,1.1]，则聚类模块208聚类后会得到两个聚类结果A:[200,1]、[201,1.1]；B：[100,10]。

分类模块209：根据聚类结果将筛选文本及其对应的语音数据分类得到k个语料库。

具体的，如上分类模块209根据聚类结果将筛选文本及其对应的语音数据分为两类，即k＝2，A语库中有音频0001.wav、0003.wav及其对应文本；B语库中0002.wav及其对应文本。

在一些实施例中，上述装置中切分模块202切分语音数据得到分割语料，包括：

通过切分模块202中语音活动检测算法VAD将一个长语音，根据其静音段，切分出多个短的语音段，即切分成分割语料。

在一些实施例中，上述对比模块204还用于：

根据对比的字数和准确率进行筛选得到筛选文本。

具体的，如第二文本是“我爱中国”，第一文本是“我是中国人”，对比模块204参考第一文本对比第二文本，第一文本字数5个，第二文本正确率3/5＝60％,60％低于90％，具体的应用过程中，90％只是一个例子，可以具体设定，将“我爱中国”筛选掉得到筛选文本，如第二文本是“我爱中国”，第一文本是“我爱中国”，第一文本字数4个，第二文本正确率4/4＝100％,所以，第二文本“我爱中国”不会被筛选掉。

图3是本公开实施例提供的一种电子设备的示意性框图。

如图3所示，电子设备包括：至少一个处理器301、至少一个存储器302和至少一个通信接口303。电子设备中的各个组件通过总线系统304耦合在一起。通信接口303，用于与外部设备之间的信息传输。可理解，总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图3中将各种总线都标为总线系统304。

可以理解，本实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器302存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的解锁电脑屏幕和锁定电脑屏幕的方法中任一用于语音合成语料库的建立方法的程序可以包含在应用程序中。

在本申请实施例中，处理器301通过调用存储器302存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器301用于执行本申请实施例提供的用于语音合成语料库的建立方法各实施例的步骤。

获取第一文本以及第一文本对应的语音数据；切分所述语音数据得到分割语料；识别所述分割语料得到第二文本；对比第二文本和第一文本，筛选得到筛选文本；根据筛选文本确定筛选音频；提取筛选音频的基频值；计算基频值的均值和方差；聚类均值和方差得到聚类结果；根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。

本申请实施例提供的用于语音合成语料库的建立方法中任一方法可以应用于处理器301中，或者由处理器301实现。处理器301可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的用于语音合成语料库的建立方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成语音合成语料库的建立方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于语音合成语料库的建立方法，其特征在于，包括：

获取第一文本以及第一文本对应的语音数据；

切分所述语音数据得到分割语料；

识别所述分割语料得到第二文本；

对比所述第二文本和所述第一文本，筛选得到筛选文本；

根据所述筛选文本确定筛选音频；

提取所述筛选音频的基频值；

计算所述基频值的均值和方差；

聚类所述均值和所述方差得到聚类结果；

根据所述聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。

2.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，所述切分所述语音数据得到分割语料，包括：

通过语音活动检测算法切分所述语音数据得到分割语料。

3.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，对比所述第二文本和所述第一文本，筛选得到筛选文本，包括：

根据对比的字数和准确率进行筛选。

4.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，所述方法还包括：

将所述k个语料库使用不同的style-id进行区分。

5.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，识别所述分割语料得到第二文本，包括：采用自动识别语音技术识别所述分割语料得到第二文本。

6.一种用于语音合成语料库的建立装置，其特征在于，包括：

获取模块：用于获取第一文本以及第一文本对应的语音数据；

切分模块：用于切分所述语音数据得到分割语料；

识别模块：用于识别所述分割语料得到第二文本；

对比模块：用于对比所述第二文本和所述第一文本，筛选得到筛选文本；

确定模块：根据所述筛选文本确定筛选音频；

提取模块：用于提取所述筛选音频的基频值；

计算模块：用于计算所述基频值的均值和方差；

聚类模块：用于聚类所述均值和所述方差得到聚类结果；

分类模块：根据所述聚类结果将所述筛选文本及其对应的语音数据分类得到k个语料库。

7.根据权利要求6所述的用于语音合成语料库的建立装置，其特征在于，所述切分所述语音数据得到分割语料，包括：

通过语音活动检测算法切分所述语音数据得到分割语料。

8.根据权利要求6所述的用于语音合成语料库的建立装置，其特征在于，所述对比模块还用于：

根据对比的字数和准确率进行筛选得到筛选文本。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述用于语音合成语料库的建立方法。

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述用于语音合成语料库的建立方法。