CN117672179A

CN117672179A - 一种支持智能处理的语音合成方法及系统

Info

Publication number: CN117672179A
Application number: CN202311592280.5A
Authority: CN
Inventors: 卢志良; 梁寿愚; 敖榜; 刘懋; 董召杰; 吴石松; 姚森敬; 于力; 董若烟; 黄毅; 赵必美; 杨伟; 辛文成; 廖灿; 任正国; 郭尧; 王鹏凯; 郑桦; 李成
Original assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd; Guizhou Power Grid Co Ltd
Current assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd; Guizhou Power Grid Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-08

Abstract

本发明公开了一种支持智能处理的语音合成方法及系统，涉及智能语音处理技术领域，包括对输入文本集中管理配置属性并转化为语音资源；进行文本预处理与分词，构建文本向量模型；进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。本发明提供的支持智能处理的语音合成方法本发明在通过信息过滤函数和权重分配机制，确保每个词语在语音合成中的重要性得到合理体现，充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性，灵活选择不同的语音合成引擎，以适应不同类型的文本。采用jieba分词工具对文本进行预处理，构建文本向量模型，更有效地理解和处理文本数据。

Description

一种支持智能处理的语音合成方法及系统

技术领域

本发明涉及智能语音处理技术领域，具体为一种支持智能处理的语音合成方法及系统。

背景技术

从最初的基于规则的语音合成到基于统计模型的方法，再到近年来的深度学习算法，语音合成技术经历了显著的进步。深度学习算法，尤其是基于神经网络的模型，如循环神经网络(RNN)和长短期记忆网络(LSTM)，已成为推动该领域发展的主要力量。早期的语音合成系统往往生成机械和单调的声音，而现代系统则能生成更自然、流畅且富有表现力的语音。这得益于更复杂的算法和大量的训练数据，使得合成的语音在语调、节奏和情感表达上更加接近真人。现代语音合成技术不仅能够生成标准的语音输出，还能根据不同的应用场景和用户需求进行定制。例如，可以根据文本的情感色彩调整语音的音色和语调，或者为特定的用户群体定制特定风格的语音。随着计算能力的提升和算法的优化，现代语音合成系统能够更快速地处理文本并生成语音，甚至能够实现实时语音合成。

但当前的语音合成方法仍存在一些缺陷，传统的语音合成系统往往采用较为简单的文本处理方法，如直接的文本到语音转换，缺乏对文本深层次语义的理解和处理。这导致合成的语音在自然度和表达力上有所不足。现有系统在处理特定词语或短语时，往往缺乏有效的信息过滤机制和权重调整策略，无法充分考虑词语在特定上下文中的重要性和适用性。大多数现有的语音合成系统在处理不同类型的文本(如专业文本与日常对话)时，使用相同的处理方法和语音合成引擎，缺乏针对性和灵活性。传统的语音合成技术在情感表达方面存在限制，很难根据文本的情感色彩调整音色和语调，使得合成的语音缺乏情感表达力。现有技术在满足用户个性化需求方面存在不足，如在语速、节奏、音色等方面的调整不够灵活，无法满足不同用户的具体需求。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的语音合成方法存在文本处理的局限性，缺少过滤机制，以及如何语音合成存在的单一性，灵活性不足的问题。

为解决上述技术问题，本发明提供如下技术方案：一种支持智能处理的语音合成方法，包括对输入文本集中管理配置属性并转化为语音资源；进行文本预处理与分词，构建文本向量模型；进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传，基于任务来配置通用的属性。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作；所述词典配置对于专有名词进行规范化框定，被框定的名字进行固定化方法描述，不被通用规则限制；所述结构化规则包括当一个名词或一个文本有多种语音表达方式时，将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式；所述模板音制作包括将录音文本和录音打包成模板音资源，在合成的时候，TTS引擎自动匹配模板音文本，记录固定部分和动态部分衔接的位置，将整句全部合成，然后根据匹配的位置计算到需要拼接的音频位置，将固定部分的合成音用录音替换。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述构建文本向量模型包括将接收文本输入，并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值，表示为：

其中，tf(t_i,D)表示词语t_i在文档D中的频率，N表示文档集中的文档总数，n_i是包含词语t_i的文档数。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述进行信息过滤与权重调整包括系统将使用信息过滤函数G(t_i,D)处理每个词语的tf-jdf值，并为每个词语分配权重，表示为：

其中，w_i是短语t_i的权重。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量，用于智能处理的语音合成，表示为：

其中，完成向量输出后，进行语音合成。

作为本发明所述的支持智能处理的语音合成方法的一种优选方案，其中：所述语音合成包括根据文本内容的特性选择合适的语音合成引擎，若文本内容包含专业输出出现频率超过10％，选择专业领域的语音合成引擎，若专业输出出现频率低于10％，视为日常对话，选择自然语言处理引擎；根据文本的情感色彩和场景需求调整音色和语调，若文本具情感倾向，则调整音色和语调以匹配这种情感，若文具是新闻播报，选择无情感的正式的音色和语调根据文本的内容和预期听众调整语速和节奏，若文本为信息密集型的文本，选择缓慢语速，若内容为娱乐性内容，选择快语速。

本发明的另外一个目的是提供一种支持智能处理的语音合成系统，其能通过信息过滤函数和权重分配机制，确保每个词语在语音合成中的重要性得到合理体现。解决了目前的语音合成方法含有无法充分考虑词语在特定上下文中的重要性和适用性的问题。

作为本发明所述的支持智能处理的语音合成系统的一种优选方案，其中：包括语音资源整合模块，文本向量构建模块，语音合成模块；所述语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源；所述文本向量构建模块用于进行文本预处理与分词，构建文本向量模型；所述语音合成模块用于进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序是实现支持智能处理的语音合成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现支持智能处理的语音合成方法的步骤。

本发明的有益效果：本发明提供的支持智能处理的语音合成方法本发明在通过信息过滤函数和权重分配机制，确保每个词语在语音合成中的重要性得到合理体现，充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性，灵活选择不同的语音合成引擎，以适应不同类型的文本。采用jieba分词工具对文本进行预处理，构建文本向量模型，更有效地理解和处理文本数据。本发明在适用性、高效性以及灵活性方面都取得更加良好的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明第一个实施例提供的一种支持智能处理的语音合成方法的整体流程图。

图2为本发明第一个实施例提供的一种支持智能处理的语音合成方法的平台示意图。

图3为本发明第三个实施例提供的一种支持智能处理的语音合成系统的整体流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

实施例1

参照图1-图2，为本发明的一个实施例，提供了一种支持智能处理的语音合成方法，包括：

S1：对输入文本集中管理配置属性并转化为语音资源。

更进一步的，对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传，基于任务来配置通用的属性。

应说明的是，转化为语音资源包括词典配置、结构化规则配置以及模板音制作；词典配置对于专有名词进行规范化框定，被框定的名字进行固定化方法描述，不被通用规则限制；结构化规则包括当一个名词或一个文本有多种语音表达方式时，将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式；模板音制作包括将录音文本和录音打包成模板音资源，在合成的时候，TTS引擎自动匹配模板音文本，记录固定部分和动态部分衔接的位置，将整句全部合成，然后根据匹配的位置计算到需要拼接的音频位置，将固定部分的合成音用录音替换。

还应说明的是，对专有名词进行规范化框定，在语音合成中，专有名词的正确发音至关重要，因为它们往往具有特定的发音规则，与通用规则不同。通过对这些名词进行固定化方法描述，系统能够确保在语音合成过程中准确无误地发音，从而提高合成语音的准确性和自然度。结构化规则解决了一个名词或文本可能存在的多种语音表达方式的问题。在自然语言中，同一词语可能有多种发音方式，这对语音合成系统来说是一个挑战。通过将所有有争议的语音表达方式限制在一种规定标准下，可以确保语音输出的一致性和标准化，同时减少听众的困惑。

S2：进行文本预处理与分词，构建文本向量模型。

更进一步的，构建文本向量模型包括将接收文本输入，并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值，表示为：

应说明的是，每个词语的权重是根据其在信息过滤函数中的评分来分配的。权重较高的词语在语音合成过程中会被赋予更多的重要性。这种方法确保了语音合成不仅仅是机械地转换文本为语音，而是能够突出文本中的关键信息，使得合成的语音更加丰富和有意义。向量是通过整合所有词语的加权信息过滤函数得分来生成的。这个向量不仅包含了文本的语义信息，还包含了词语的重要性评分，使得语音合成引擎能够更好地理解和处理文本内容。

S3：进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

更进一步的，进行信息过滤与权重调整包括系统将使用信息过滤函数G(t_i,D)处理每个词语的tf-jdf值，并为每个词语分配权重，表示为：

其中，w_i是短语t_i的权重。

应说明的是，调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量，用于智能处理的语音合成，表示为：

其中，完成向量输出后，进行语音合成。

还应说明的是，语音合成包括根据文本内容的特性选择合适的语音合成引擎，若文本内容包含专业输出出现频率超过10％，选择专业领域的语音合成引擎，若专业输出出现频率低于10％，视为日常对话，选择自然语言处理引擎；根据文本的情感色彩和场景需求调整音色和语调，若文本具情感倾向，则调整音色和语调以匹配这种情感，若文具是新闻播报，选择无情感的正式的音色和语调根据文本的内容和预期听众调整语速和节奏，若文本为信息密集型的文本，选择缓慢语速，若内容为娱乐性内容，选择快语速。

实施例2

本发明的一个实施例，提供了一种支持智能处理的语音合成方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

某公司基于一种支持智能处理的语音合成系统进行产品研发，其产品的部署情况如表1所示。

表1产品部署表

产品的硬件设施如表2所示。

表2硬件设施表

由于该平台可以与合成引擎共用服务器，故服务器推荐配置与引擎配置保持一致。

表3工作模拟表

表4工作性能模拟表

某公司基于一种支持智能处理的语音合成系统进行产品研发，进行在4VID情况下的持续输出，测试影响时间与机器消耗，其结果如表3和表4所示，得出以下结论：

四个发音人中英文随机在48路时最小实时率为1.542，路数再上涨最小实时率已经低于1.5，所以四个发音人中英文随机能达到48路。

最后进行对于平台系统性能的检测。

表5平台性能检测表

因该平台同时使用概率较低，目前基于20个用户同时登录进行测试，如表5所示，20人范围内基本可以完成测试目标，延迟也具有一定的减少。

实施例3

参照图3，为本发明的一个实施例，提供了一种支持智能处理的语音合成系统，包括语音资源整合模块，文本向量构建模块，语音合成模块。

其中，语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源；文本向量构建模块用于进行文本预处理与分词，构建文本向量模型；语音合成模块用于进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种支持智能处理的语音合成方法，其特征在于，包括：

对输入文本集中管理配置属性并转化为语音资源；

进行文本预处理与分词，构建文本向量模型；

进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

2.如权利要求1所述的支持智能处理的语音合成方法，其特征在于：所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传，基于任务来配置通用的属性。

3.如权利要求2所述的支持智能处理的语音合成方法，其特征在于：所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作；

所述词典配置对于专有名词进行规范化框定，被框定的名字进行固定化方法描述，不被通用规则限制；

所述结构化规则包括当一个名词或一个文本有多种语音表达方式时，将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式；

所述模板音制作包括将录音文本和录音打包成模板音资源，在合成的时候，TTS引擎自动匹配模板音文本，记录固定部分和动态部分衔接的位置，将整句全部合成，然后根据匹配的位置计算到需要拼接的音频位置，将固定部分的合成音用录音替换。

4.如权利要求3所述的支持智能处理的语音合成方法，其特征在于：所述构建文本向量模型包括将接收文本输入，并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值，表示为：

5.如权利要求4所述的支持智能处理的语音合成方法，其特征在于：所述进行信息过滤与权重调整包括系统将使用信息过滤函数G(t_i,D)处理每个词语的tf-jdf值，并为每个词语分配权重，表示为：

其中，w_i是短语t_i的权重。

6.如权利要求5所述的支持智能处理的语音合成方法，其特征在于：所述调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量，用于智能处理的语音合成，表示为：

其中，完成向量输出后，进行语音合成。

7.如权利要求6所述的支持智能处理的语音合成方法，其特征在于：所述语音合成包括根据文本内容的特性选择合适的语音合成引擎，若文本内容包含专业输出出现频率超过10％，选择专业领域的语音合成引擎，若专业输出出现频率低于10％，视为日常对话，选择自然语言处理引擎；

根据文本的情感色彩和场景需求调整音色和语调，若文本具情感倾向，则调整音色和语调以匹配这种情感，若文具是新闻播报，选择无情感的正式的音色和语调

根据文本的内容和预期听众调整语速和节奏，若文本为信息密集型的文本，选择缓慢语速，若内容为娱乐性内容，选择快语速。

8.一种采用如权利要求1～7任一所述的支持智能处理的语音合成方法的系统，其特征在于：包括语音资源整合模块，文本向量构建模块，语音合成模块；

所述语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源；

所述文本向量构建模块用于进行文本预处理与分词，构建文本向量模型；

所述语音合成模块用于进行信息过滤与权重调整，调整后输入复合模型生成数值型向量进行语音合成。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。