CN117672179A - 一种支持智能处理的语音合成方法及系统 - Google Patents

一种支持智能处理的语音合成方法及系统 Download PDF

Info

Publication number
CN117672179A
CN117672179A CN202311592280.5A CN202311592280A CN117672179A CN 117672179 A CN117672179 A CN 117672179A CN 202311592280 A CN202311592280 A CN 202311592280A CN 117672179 A CN117672179 A CN 117672179A
Authority
CN
China
Prior art keywords
text
speech synthesis
speech
intelligent processing
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311592280.5A
Other languages
English (en)
Inventor
卢志良
梁寿愚
敖榜
刘懋
董召杰
吴石松
姚森敬
于力
董若烟
黄毅
赵必美
杨伟
辛文成
廖灿
任正国
郭尧
王鹏凯
郑桦
李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Artificial Intelligence Technology Co ltd
Guizhou Power Grid Co Ltd
Original Assignee
China Southern Power Grid Artificial Intelligence Technology Co ltd
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Artificial Intelligence Technology Co ltd, Guizhou Power Grid Co Ltd filed Critical China Southern Power Grid Artificial Intelligence Technology Co ltd
Priority to CN202311592280.5A priority Critical patent/CN117672179A/zh
Publication of CN117672179A publication Critical patent/CN117672179A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种支持智能处理的语音合成方法及系统,涉及智能语音处理技术领域,包括对输入文本集中管理配置属性并转化为语音资源;进行文本预处理与分词,构建文本向量模型;进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。本发明提供的支持智能处理的语音合成方法本发明在通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现,充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性,灵活选择不同的语音合成引擎,以适应不同类型的文本。采用jieba分词工具对文本进行预处理,构建文本向量模型,更有效地理解和处理文本数据。

Description

一种支持智能处理的语音合成方法及系统
技术领域
本发明涉及智能语音处理技术领域,具体为一种支持智能处理的语音合成方法及系统。
背景技术
从最初的基于规则的语音合成到基于统计模型的方法,再到近年来的深度学习算法,语音合成技术经历了显著的进步。深度学习算法,尤其是基于神经网络的模型,如循环神经网络(RNN)和长短期记忆网络(LSTM),已成为推动该领域发展的主要力量。早期的语音合成系统往往生成机械和单调的声音,而现代系统则能生成更自然、流畅且富有表现力的语音。这得益于更复杂的算法和大量的训练数据,使得合成的语音在语调、节奏和情感表达上更加接近真人。现代语音合成技术不仅能够生成标准的语音输出,还能根据不同的应用场景和用户需求进行定制。例如,可以根据文本的情感色彩调整语音的音色和语调,或者为特定的用户群体定制特定风格的语音。随着计算能力的提升和算法的优化,现代语音合成系统能够更快速地处理文本并生成语音,甚至能够实现实时语音合成。
但当前的语音合成方法仍存在一些缺陷,传统的语音合成系统往往采用较为简单的文本处理方法,如直接的文本到语音转换,缺乏对文本深层次语义的理解和处理。这导致合成的语音在自然度和表达力上有所不足。现有系统在处理特定词语或短语时,往往缺乏有效的信息过滤机制和权重调整策略,无法充分考虑词语在特定上下文中的重要性和适用性。大多数现有的语音合成系统在处理不同类型的文本(如专业文本与日常对话)时,使用相同的处理方法和语音合成引擎,缺乏针对性和灵活性。传统的语音合成技术在情感表达方面存在限制,很难根据文本的情感色彩调整音色和语调,使得合成的语音缺乏情感表达力。现有技术在满足用户个性化需求方面存在不足,如在语速、节奏、音色等方面的调整不够灵活,无法满足不同用户的具体需求。
发明内容
鉴于上述存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有的语音合成方法存在文本处理的局限性,缺少过滤机制,以及如何语音合成存在的单一性,灵活性不足的问题。
为解决上述技术问题,本发明提供如下技术方案:一种支持智能处理的语音合成方法,包括对输入文本集中管理配置属性并转化为语音资源;进行文本预处理与分词,构建文本向量模型;进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作;所述词典配置对于专有名词进行规范化框定,被框定的名字进行固定化方法描述,不被通用规则限制;所述结构化规则包括当一个名词或一个文本有多种语音表达方式时,将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式;所述模板音制作包括将录音文本和录音打包成模板音资源,在合成的时候,TTS引擎自动匹配模板音文本,记录固定部分和动态部分衔接的位置,将整句全部合成,然后根据匹配的位置计算到需要拼接的音频位置,将固定部分的合成音用录音替换。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值,表示为:
其中,tf(ti,D)表示词语ti在文档D中的频率,N表示文档集中的文档总数,ni是包含词语ti的文档数。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述进行信息过滤与权重调整包括系统将使用信息过滤函数G(ti,D)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:
其中,wi是短语ti的权重。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量,用于智能处理的语音合成,表示为:
其中,完成向量输出后,进行语音合成。
作为本发明所述的支持智能处理的语音合成方法的一种优选方案,其中:所述语音合成包括根据文本内容的特性选择合适的语音合成引擎,若文本内容包含专业输出出现频率超过10%,选择专业领域的语音合成引擎,若专业输出出现频率低于10%,视为日常对话,选择自然语言处理引擎;根据文本的情感色彩和场景需求调整音色和语调,若文本具情感倾向,则调整音色和语调以匹配这种情感,若文具是新闻播报,选择无情感的正式的音色和语调根据文本的内容和预期听众调整语速和节奏,若文本为信息密集型的文本,选择缓慢语速,若内容为娱乐性内容,选择快语速。
本发明的另外一个目的是提供一种支持智能处理的语音合成系统,其能通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现。解决了目前的语音合成方法含有无法充分考虑词语在特定上下文中的重要性和适用性的问题。
作为本发明所述的支持智能处理的语音合成系统的一种优选方案,其中:包括语音资源整合模块,文本向量构建模块,语音合成模块;所述语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源;所述文本向量构建模块用于进行文本预处理与分词,构建文本向量模型;所述语音合成模块用于进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序是实现支持智能处理的语音合成方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现支持智能处理的语音合成方法的步骤。
本发明的有益效果:本发明提供的支持智能处理的语音合成方法本发明在通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现,充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性,灵活选择不同的语音合成引擎,以适应不同类型的文本。采用jieba分词工具对文本进行预处理,构建文本向量模型,更有效地理解和处理文本数据。本发明在适用性、高效性以及灵活性方面都取得更加良好的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明第一个实施例提供的一种支持智能处理的语音合成方法的整体流程图。
图2为本发明第一个实施例提供的一种支持智能处理的语音合成方法的平台示意图。
图3为本发明第三个实施例提供的一种支持智能处理的语音合成系统的整体流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
实施例1
参照图1-图2,为本发明的一个实施例,提供了一种支持智能处理的语音合成方法,包括:
S1:对输入文本集中管理配置属性并转化为语音资源。
更进一步的,对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。
应说明的是,转化为语音资源包括词典配置、结构化规则配置以及模板音制作;词典配置对于专有名词进行规范化框定,被框定的名字进行固定化方法描述,不被通用规则限制;结构化规则包括当一个名词或一个文本有多种语音表达方式时,将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式;模板音制作包括将录音文本和录音打包成模板音资源,在合成的时候,TTS引擎自动匹配模板音文本,记录固定部分和动态部分衔接的位置,将整句全部合成,然后根据匹配的位置计算到需要拼接的音频位置,将固定部分的合成音用录音替换。
还应说明的是,对专有名词进行规范化框定,在语音合成中,专有名词的正确发音至关重要,因为它们往往具有特定的发音规则,与通用规则不同。通过对这些名词进行固定化方法描述,系统能够确保在语音合成过程中准确无误地发音,从而提高合成语音的准确性和自然度。结构化规则解决了一个名词或文本可能存在的多种语音表达方式的问题。在自然语言中,同一词语可能有多种发音方式,这对语音合成系统来说是一个挑战。通过将所有有争议的语音表达方式限制在一种规定标准下,可以确保语音输出的一致性和标准化,同时减少听众的困惑。
S2:进行文本预处理与分词,构建文本向量模型。
更进一步的,构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值,表示为:
其中,tf(ti,D)表示词语ti在文档D中的频率,N表示文档集中的文档总数,ni是包含词语ti的文档数。
应说明的是,每个词语的权重是根据其在信息过滤函数中的评分来分配的。权重较高的词语在语音合成过程中会被赋予更多的重要性。这种方法确保了语音合成不仅仅是机械地转换文本为语音,而是能够突出文本中的关键信息,使得合成的语音更加丰富和有意义。向量是通过整合所有词语的加权信息过滤函数得分来生成的。这个向量不仅包含了文本的语义信息,还包含了词语的重要性评分,使得语音合成引擎能够更好地理解和处理文本内容。
S3:进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
更进一步的,进行信息过滤与权重调整包括系统将使用信息过滤函数G(ti,D)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:
其中,wi是短语ti的权重。
应说明的是,调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量,用于智能处理的语音合成,表示为:
其中,完成向量输出后,进行语音合成。
还应说明的是,语音合成包括根据文本内容的特性选择合适的语音合成引擎,若文本内容包含专业输出出现频率超过10%,选择专业领域的语音合成引擎,若专业输出出现频率低于10%,视为日常对话,选择自然语言处理引擎;根据文本的情感色彩和场景需求调整音色和语调,若文本具情感倾向,则调整音色和语调以匹配这种情感,若文具是新闻播报,选择无情感的正式的音色和语调根据文本的内容和预期听众调整语速和节奏,若文本为信息密集型的文本,选择缓慢语速,若内容为娱乐性内容,选择快语速。
实施例2
本发明的一个实施例,提供了一种支持智能处理的语音合成方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
某公司基于一种支持智能处理的语音合成系统进行产品研发,其产品的部署情况如表1所示。
表1产品部署表
产品的硬件设施如表2所示。
表2硬件设施表
由于该平台可以与合成引擎共用服务器,故服务器推荐配置与引擎配置保持一致。
表3工作模拟表
表4工作性能模拟表
某公司基于一种支持智能处理的语音合成系统进行产品研发,进行在4VID情况下的持续输出,测试影响时间与机器消耗,其结果如表3和表4所示,得出以下结论:
四个发音人中英文随机在48路时最小实时率为1.542,路数再上涨最小实时率已经低于1.5,所以四个发音人中英文随机能达到48路。
最后进行对于平台系统性能的检测。
表5平台性能检测表
因该平台同时使用概率较低,目前基于20个用户同时登录进行测试,如表5所示,20人范围内基本可以完成测试目标,延迟也具有一定的减少。
实施例3
参照图3,为本发明的一个实施例,提供了一种支持智能处理的语音合成系统,包括语音资源整合模块,文本向量构建模块,语音合成模块。
其中,语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源;文本向量构建模块用于进行文本预处理与分词,构建文本向量模型;语音合成模块用于进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种支持智能处理的语音合成方法,其特征在于,包括:
对输入文本集中管理配置属性并转化为语音资源;
进行文本预处理与分词,构建文本向量模型;
进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
2.如权利要求1所述的支持智能处理的语音合成方法,其特征在于:所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。
3.如权利要求2所述的支持智能处理的语音合成方法,其特征在于:所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作;
所述词典配置对于专有名词进行规范化框定,被框定的名字进行固定化方法描述,不被通用规则限制;
所述结构化规则包括当一个名词或一个文本有多种语音表达方式时,将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式;
所述模板音制作包括将录音文本和录音打包成模板音资源,在合成的时候,TTS引擎自动匹配模板音文本,记录固定部分和动态部分衔接的位置,将整句全部合成,然后根据匹配的位置计算到需要拼接的音频位置,将固定部分的合成音用录音替换。
4.如权利要求3所述的支持智能处理的语音合成方法,其特征在于:所述构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值,表示为:
其中,tf(ti,D)表示词语ti在文档D中的频率,N表示文档集中的文档总数,ni是包含词语ti的文档数。
5.如权利要求4所述的支持智能处理的语音合成方法,其特征在于:所述进行信息过滤与权重调整包括系统将使用信息过滤函数G(ti,D)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:
其中,wi是短语ti的权重。
6.如权利要求5所述的支持智能处理的语音合成方法,其特征在于:所述调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量,用于智能处理的语音合成,表示为:
其中,完成向量输出后,进行语音合成。
7.如权利要求6所述的支持智能处理的语音合成方法,其特征在于:所述语音合成包括根据文本内容的特性选择合适的语音合成引擎,若文本内容包含专业输出出现频率超过10%,选择专业领域的语音合成引擎,若专业输出出现频率低于10%,视为日常对话,选择自然语言处理引擎;
根据文本的情感色彩和场景需求调整音色和语调,若文本具情感倾向,则调整音色和语调以匹配这种情感,若文具是新闻播报,选择无情感的正式的音色和语调
根据文本的内容和预期听众调整语速和节奏,若文本为信息密集型的文本,选择缓慢语速,若内容为娱乐性内容,选择快语速。
8.一种采用如权利要求1~7任一所述的支持智能处理的语音合成方法的系统,其特征在于:包括语音资源整合模块,文本向量构建模块,语音合成模块;
所述语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源;
所述文本向量构建模块用于进行文本预处理与分词,构建文本向量模型;
所述语音合成模块用于进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。
CN202311592280.5A 2023-11-27 2023-11-27 一种支持智能处理的语音合成方法及系统 Pending CN117672179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311592280.5A CN117672179A (zh) 2023-11-27 2023-11-27 一种支持智能处理的语音合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311592280.5A CN117672179A (zh) 2023-11-27 2023-11-27 一种支持智能处理的语音合成方法及系统

Publications (1)

Publication Number Publication Date
CN117672179A true CN117672179A (zh) 2024-03-08

Family

ID=90065390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311592280.5A Pending CN117672179A (zh) 2023-11-27 2023-11-27 一种支持智能处理的语音合成方法及系统

Country Status (1)

Country Link
CN (1) CN117672179A (zh)

Similar Documents

Publication Publication Date Title
US20220208170A1 (en) Generating Expressive Speech Audio From Text Data
Pitrelli et al. The IBM expressive text-to-speech synthesis system for American English
US11514888B2 (en) Two-level speech prosody transfer
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
Campbell Conversational speech synthesis and the need for some laughter
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
CN112786004A (zh) 语音合成方法以及电子设备、存储装置
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
Pravena et al. Development of simulated emotion speech database for excitation source analysis
KR20230039750A (ko) 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기
Dongmei Design of English text-to-speech conversion algorithm based on machine learning
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
Dumitrescu et al. Crowd-sourced, automatic speech-corpora collection–Building the Romanian Anonymous Speech Corpus
Panda et al. Text-to-speech synthesis with an Indian language perspective
Ekpenyong et al. Improved syllable-based text to speech synthesis for tone language systems
CN112242134A (zh) 语音合成方法及装置
CN117672179A (zh) 一种支持智能处理的语音合成方法及系统
WO2022144851A1 (en) System and method of automated audio output
US20210295820A1 (en) Method and system for creating object-based audio content
Ronanki Prosody generation for text-to-speech synthesis
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
Matoušek et al. VITS: quality vs. speed analysis
TWI836255B (zh) 透過歌聲轉換設計個人化虛擬歌手的方法及裝置
CN117711444B (zh) 一种基于口才表达的互动方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination