CN107516509A

CN107516509A - 用于新闻播报语音合成的语音库构建方法及系统

Info

Publication number: CN107516509A
Application number: CN201710756925.2A
Authority: CN
Inventors: 代大明; 张李; 肖佳林
Original assignee: Suzhou Qdreamer Network Science And Technology Co Ltd
Current assignee: Suzhou Qdreamer Network Science And Technology Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-26
Anticipated expiration: 2037-08-29
Also published as: CN107516509B

Abstract

本发明涉及一种用于新闻播报语音合成的语音库构建方法包括获取新闻语料，筛选新闻语料得到目标录音文本，然后对目标录音文本进行预处理，最后对目标录音文本进行录制并采集目标语音，构建语音库；用于新闻播报语音合成的语音库构建系统包括语料采集筛选模块、预处理模块、语音采集模块和语音库生成模块；本发明提供了一种高质量、时效高的用于新闻播报语音合成的语音库构建方法及系统。

Description

用于新闻播报语音合成的语音库构建方法及系统

技术领域

本发明涉及一种数据统计领域，尤其涉及一种用于新闻播报语音合成的语音库构建方法及系统。

背景技术

近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值，而合成音系统的质量好坏主要通过以下两方面进行考量：合成技术方案与音库。

音库的质量可以通过多方面进行考量，比如音色、文本、韵律、自然度、性价比和时间等。一般首先是视应用的需求，选择特定合适的音色声优；其次是在录制文本的选取上也存在可选性以增加领域的适应性。在拼接技术中,由于采用了真实的录音进行拼接，所以对音库的要求是较高的，所以在设计音库过程中，对录音文本的设计、数量以及发音的自然度、韵律、音高、一致性、感情等因素都要做到严格控制，以保证最后拼接单元之间的适配性，因为稍有缺陷就会造成对合成音的重大影响，同时该技术需要大规模语料音库才可以得到良好的扩展效果。在参数合成技术中，由于该技术的特点，不直接使用原始音频，而是通过一种语音合成器通过特征参数合成语音，所以其在文本与声音的控制上不在需要那么严格。

无论采用哪种技术，合成音库的质量需要尽量得到保证，同时在实际需求当中，更期望尽可能快速得到高质量的音库。传统构建音库，若想得到一个高质量的音库，会考虑发音、音素、音节、词语、短语、句子及其韵律等多方面精细标注，但整个构建过程将需要耗费大量的人力物力，整个制作周期又是非常漫长的，甚至长达一两年。一般质量的音库虽然不用去考虑过多音素标注，节省了时间与资源，但音库的质量往往难以得到保证。

发明内容

为解决上述技术问题，本发明的目的在于针对现有技术中构建音库质量不高，高质量的音库构建周期长、耗资巨大以及时效低等问题，提供了一种高质量、时效高的用于新闻播报语音合成的语音库构建方法及系统。

本发明提供的一种用于新闻播报语音合成的语音库构建方法包括：

S1、获取新闻语料，筛选新闻语料得到目标录音文本；

S2、目标录音文本的预处理；

S3、对目标录音文本进行录制并采集目标语音，构建语音库。

进一步的，所述步骤S2中所述目标录音文本的预处理的步骤包括：

S21、对目标录音文本中的符号进行归一化转换成文字；

S22、目标录音文本的拼音标注处理；

S23、目标录音文本的分句处理。

更进一步的，所述步骤S21中的所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。

更进一步的，所述步骤S22中所述目标录音文本的拼音标注处理包括对所述目标录音文本的拼音的声调符号的数字化处理。

更进一步的，所述步骤S23中所述目标录音文本的分句处理包括目标录音文本中基于标点符号的符号分句和阈值长度的长度分句。

本发明提供的一种用于新闻播报语音合成的语音库构建系统，包括：

语料采集筛选模块，用于采集新闻语料筛作为基础语料并进行筛选；

预处理模块，用于对所述语料采集模块筛选出的目标录音文本进行预处理；

语音采集模块，用于对经所述预处理模块预处理的所述目标录音文本进行录制，获得目标语音；

语音库生成模块，用于储存所述语音采集模块采集的语音生成语音库。

进一步的，所述预处理模块包括：

符号转换模块，用于将所述目标录音文本中的符号归一化转换成文字；

拼音标注模块，用于对所述目标录音文本对应的拼音及声调进行数字化处理；

分句模块，用于对所述目标录音文本进行分句。

更进一步的，所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。

更进一步的，所述分句模块包括标点符号分句模块和长度分句模块，所述标点符号分句模块用于根据所述目标录音文本中的标点符号进行分句，所述长度分句模块根据所述目标录音文本中句子的阈值长度进行分句。

进一步的，所述目标录音文本为字符覆盖率大于95％、音节覆盖率等于100％、词语覆盖率大于99％且句式覆盖率等于100％的目标录音文本。

本发明提供的用于新闻播报语音合成的语音库构建方法及系统，对特定应用场景选用领域内文本，采用自动化方法与文本选择准则，使文本在音素、音节以及语调上覆盖均衡，减少语料的样本数量，节省了时间与成本；提出了覆盖多类别的文本归一方法，将涉及的符号进行归一化转换；使用拼音-字符对照朗读和特定的分句形式，减少错误，提供朗读韵律，为最终构建一个发音准确、平稳、富有自然度、具备感情的高质量语音库提供了必不可少的技术条件。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明提供的用于新闻播报语音合成的语音库构建系统的结构框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供的一种用于新闻播报语音合成的语音库构建方法的一较佳实施例包括：

S1、获取新闻语料，筛选新闻语料得到目标录音文本；

1)获取新闻语料：

通常在制作一款合成音时，我们通常会使用已有的语料库，这样可以节省不少时间，但是也隐藏了隐患，因为现有的录音文本库与特定领域在韵律、情感等存在一定的差异性。当制作新闻播报的合成音时，例如：一份来自于财经新闻的文本：“上股交：挂牌企业总数九千五百六十六家，其中N板(科创板)七十九家，E板六百四十七家，Q板八千八百四十家，累计融资额二百二十一点三五亿。”和一份来自日常对话领域的文本：“冬天能干啥呢？老闷在家看电视也没劲，还不如串门唠嗑呢！”。可以明显看出，不同领域，语言上存在明显的特点。新闻文本在感情上会稍带了严肃的特性，而聊天文本就比较随意。因此如果使用对话聊天文本去制作新闻播报的合成音,在合成效果上会存在两方面的问题：a)语调不适应问题；b)合成效果，比如自然度、韵律都存在问题。因此，对于特定领域的合成音，我们采取从特定领域获取录音材料文本的方案，所以我们从新闻语料中抽取大量的文本资料作为待处理的目标录音文本。

2)筛选新闻语料：

新闻语料可以从新闻咨询中轻易拿到，但是如果对所有录音目标文本都进行录制，那将是耗费时间与成本的，同时也难以保证质量。因此需要从原始大量的文本语料中选取具有覆盖度的录音目标文本。

S2、目标录音文本的预处理；

防止目标录音文本的处理不善，导致声优对目标录音文本的录制效果与预期效果产生偏差，需要对目标录音文本进行预处理。

对经筛选和预处理的目标录音文本进行录制，对目标录音文本中多音字发音的正确度、意群确立、停顿、自然度以及情感进行规范化的掌控，最终构建一个高质量的用于新闻播报语音合成的语音库。

为了更好的筛选新闻语料，提高新闻语料的质量，需要保证目标录音文本中的字符覆盖率、音节覆盖率、词语覆盖率和句式覆盖率：

1)字符覆盖率：统计所有字符(其中部分偏僻字，暂不做考虑)的数量，保证覆盖95％以上的字符；

2)音节覆盖率：保证覆盖所有的音节拼音形式,并且使得分布在一定的区间内；

3)词语覆盖率：保证覆盖所有常用的词语及其他词语达到词典(211556个词数)的99％以上；

4)句式覆盖率：保证覆盖每一类句式。

对目标录音文本进行预处理的步骤包括：

S21、对目标录音文本中的符号进行归一化转换成文字，符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号；

在获取原始文本后,文本中存在诸如123456与+-/％等符号，这些符号在不同上下文中，语义会存在不同，在录音开始前，必须都统一转换程中文形式，主要的步骤如下：

1)数字类型转换处理：根据上下文语音信息及其场景进行判断数字的读法，例如：“明天晚上10:15的比赛结果是10:15”，其中第一个10:15按照时间来调整，读成十点三十分，而第二个10:15按照比分来调整，读成二十一比十七；

2)数学符号类转换：主要根据上下文及场景判断符号的读法，转换为相应的中文读法，例如：符号“-”可做减号，也做“到/至”；如"1-5等于"表示"一减去五等于"；"1-5日"表示"1-到五日"；符号”/”可做”除以”，也可做”每”；100/1表示如100m/S；符号">"换成"大于"，符号"％"换成"百分之"；

3)其他符号的转换处理：另外还涉及时期、时间、分数、单位、表达式、区号、号码、网址、比分、地理等各个领域的数字字符表达式的处理，这些都需要一一做中文的转换，避免词意的误解造成录音的失效,以及错误的数据的引入，比如：经纬度:N8°8'8"＝>北纬8度8分8秒等等。

S22、目标录音文本的拼音标注处理，对目标录音文本的拼音的声调符号的数字化处理；

为了防止由于声优语言水平或能力不足造成的发音错误，甚至影响整个朗读的自然度，音录音人员在录制过程中，会存在思考正确读法而导致读错或影响韵律，因此采用拼音字符对照的形式，具体如下：拼音:wo3-shi4-zhong1-guo2-ren2，字符句子：我是中国人。

在操作过程中，明显可以减少朗读人员读错的机会，而且在韵律上也明显得到的改善，提炼录制质量与效率。

S23、目标录音文本的分句处理，包括目标录音文本中句子的符号分句和长度分句；

为了解决句子过长导致朗读停顿不便，韵律不够明确，或带入过多信息从而影响到录制质量与合成音制作的模型构建，对目标录音文本进行分句处理，具体如下：

1)标点符号分句：句子分段或结束,如:".！？。？！"，不包括逗号的原因在于由于大多数的句子逗号的位置依旧存在上下文的关联，如果此处分割，极易造成韵律的丢失；

2)长度分句：①不超过阈值长度的句子，不用考虑；②超过阈值长度的句子，根据句意以及正常阅读时换气的停顿来划分句子；③超过阈值长度的句子，但是前后句之间有联系的句子不可分割。

有些句子长主要是因为文本的不规范预计多重句式，在实际的朗读过程中，对于长过程的句子必然存在的停顿，所以需要从上下文的语境进行区分分割。

为了保证录音符合合成的标准要求，步骤S3中目标语音是音量在10000～20000分贝之间的目标语音。

本方法对特定应用场景选用领域内文本，采用自动化方法与文本选择准则，使文本在音素、音节以及语调上覆盖均衡，减少语料的样本数量，节省了时间与成本；提出了覆盖多类别的文本归一方法，将涉及的符号进行归一化转换；使用拼音-字符对照朗读和特定的分句形式，减少错误，提供朗读韵律，构建了一个发音准确、平稳、富有自然度、具备感情的高质量语音库。

参见图1，图1是本发明提供的一种用于新闻播报语音合成的语音库构建系统的一较佳实施例，用于实现上述的用于新闻播报语音合成的语音库构建方法。在本实施例中，用于新闻播报语音合成的语音库构建系统包括：

预处理模块，用于对语料采集模块筛选出的目标录音文本进行预处理；

语音采集模块，用于对经预处理模块预处理的目标录音文本进行录制，获得目标语音；

语音库生成模块，用于储存语音采集模块采集的语音生成语音库。

作为优选，预处理模块包括：

符号转换模块，用于将目标录音文本中的符号归一化转换成文字；

拼音标注模块，用于对目标录音文本对应的拼音及声调进行数字化处理；

分句模块，用于对目标录音文本进行分句。

为了进行目标录音文本中符号的归一化处理，符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。

为了方便声优录制目标录制文本，分句模块包括：标点符号分句模块用于根据目标录音文本中的标点符号进行分句；长度分句模块根据目标录音文本中句子的阈值长度进行分句。

为了得到合适的目标录音文本，目标录音文本为字符覆盖率大于95％、音节覆盖率等于100％、词语覆盖率大于99％且句式覆盖率等于100％的目标录音文本。

用于新闻播报语音合成的语音库构建系统的工作步骤如下：

首先，由语料采集筛选模块将采集到的新闻语料进行筛选得到目标录音文本，目标录音文本在预处理模块中进行符号转换、拼音标注和分句的预处理，通过语音采集模块，对声优录制目标录音文本生成的目标语音进行采集，采集到的目标语音通过语音库生成模块进行储存并生成用于新闻播报语音合成的语音库。

本发明提供的用于新闻播报语音合成的语音库构建系统是从录音文本的设计准备，到录音，以及核对，直到最后得到标注的音频-文本音库。基于原始音频文本库所需的录制基础上,考虑利用声学，语言学的特性做多重保证处理，规范录音文本及其录音规范，同时进行自动与人工相结合的方式录制合成语音库，最终形成符合要求的语音库，最终构建一个发音精准、平稳、富有自然度及具备感情的高质量语音库。

以上仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种用于新闻播报语音合成的语音库构建方法，其特征在于，所述的用于新闻播报语音合成的语音库构建方法包括：

S1、获取新闻语料，筛选新闻语料得到目标录音文本；

S2、目标录音文本的预处理；

2.根据权利要求1所述的用于新闻播报语音合成的语音库构建方法，其特征在于：所述步骤S2中所述目标录音文本的预处理的步骤包括：

S21、对目标录音文本中的符号进行归一化转换成文字；

S22、目标录音文本的拼音标注处理；

S23、目标录音文本的分句处理。

3.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法，其特征在于：所述步骤S21中的所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。

4.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法，其特征在于：所述步骤S22中所述目标录音文本的拼音标注处理包括对所述目标录音文本的拼音的声调符号的数字化处理。

5.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法，其特征在于：所述步骤S23中所述目标录音文本的分句处理包括目标录音文本中基于标点符号的符号分句和阈值长度的长度分句。

6.一种用于新闻播报语音合成的语音库构建系统，其特征在于，所述用于新闻播报语音合成的语音库构建系统包括：

7.根据权利要求6所述的用于新闻播报语音合成的语音库构建系统，其特征在于，所述预处理模块包括：

分句模块，用于对所述目标录音文本进行分句。

8.根据权利要求7所述的用于新闻播报语音合成的语音库构建系统，其特征在于：所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。

9.根据权利要求7所述的用于新闻播报语音合成的语音库构建系统，其特征在于：所述分句模块包括标点符号分句模块和长度分句模块，所述标点符号分句模块用于根据所述目标录音文本中的标点符号进行分句，所述长度分句模块根据所述目标录音文本中句子的阈值长度进行分句。

10.根据权利要求6所述的用于新闻播报语音合成的语音库构建系统，其特征在于：所述目标录音文本为字符覆盖率大于95％、音节覆盖率等于100％、词语覆盖率大于99％且句式覆盖率等于100％的目标录音文本。