CN116524897A - 一种轻量化的语音合成方法、装置、设备及存储介质 - Google Patents

一种轻量化的语音合成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116524897A
CN116524897A CN202310722679.4A CN202310722679A CN116524897A CN 116524897 A CN116524897 A CN 116524897A CN 202310722679 A CN202310722679 A CN 202310722679A CN 116524897 A CN116524897 A CN 116524897A
Authority
CN
China
Prior art keywords
text
feature
vector
synthesized
spectrum information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310722679.4A
Other languages
English (en)
Inventor
张旭龙
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310722679.4A priority Critical patent/CN116524897A/zh
Publication of CN116524897A publication Critical patent/CN116524897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种轻量化的语音合成方法、装置、设备及存储介质。上述方法应用于医疗领域,对待合成文本进行嵌入向量编码,得到对应待合成文本的文本向量,对文本向量进行特征编码,得到文本特征向量,提取待合成语音的频谱信息,将频谱信息与文本特征向量进行对齐,得到对应对齐后的合成特征,使用预设解码器,对对齐后的合成特征进行特征解码,使用预设声码器将解码后的频谱信息转化为语音信息。提取待合成文本对应的文本特征向量,将文本特征向量与待合成语音的频谱信息进行对齐,并使用预设解码器对对齐后的特征进行解码,语音合成的过程中简化了语音合成模型的的结构,从而提高语音合成的效率。

Description

一种轻量化的语音合成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种轻量化的语音合成方法、装置、设备及存储介质。
背景技术
随着科技不断发展,语音合成技术已经成为人工智能领域里的重要分支之一,拟人化语音合成技术的应用也越来越广泛。在医疗领域中,可以帮助指导或者指导医院程序,帮助患者快速了解对应的就医程序。语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成系统在生活中被广泛应用于各个场景,包括语音对话系统,智能语音助手,电话信息查询系统,车站等实时信息广播系统等。
近年来,语音合成技术由传统的拼接法,参数法,转变为基于神经网络的端到端语音合成系统,这种系统旨在利用深度学习强大的特征提取能力和序列数据处理能力,摒弃各种复杂的中间环节,利用声学模型将文本转化中间表征,然后声码器将中间表征还原成语音,即输入文本,经过声学模型得到梅尔频谱,再将梅尔频谱输出经过声码器得到最终的语音,但基于神经网络的端到端语音合成系统往往结构过于复杂,训练时间过长,使语音合成效率较低,因此,如何提高语音合成效率成为亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种轻量化的语音合成方法、装置、设备及存储介质,以解决语音合成效率较低的问题。
本申请实施例的第一方面提供了一种轻量化的语音合成方法,所述语音合成方法包括:
获取待合成文本与待合成语音;
对所述待合成文本进行嵌入向量编码,得到对应所述待合成文本的文本向量,对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量;
对所述待合成语音进行频谱信息提取,得到对应的频谱信息,将所述频谱信息与所述文本特征向量进行对齐,得到对齐后的合成特征;
使用预设解码器,对所述对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将所述解码后的频谱信息转化为语音信息。
本申请实施例的第二方面提供了一种轻量化的语音合成装置,所述语音合成装置包括:
获取模块,用于获取待合成文本与待合成语音;
编码模块,用于对所述待合成文本进行嵌入向量编码,得到对应所述待合成文本的文本向量,对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量;
对齐模块,用于对所述待合成语音进行频谱信息提取,得到对应的频谱信息,将所述频谱信息与所述文本特征向量进行对齐,得到对应对齐后的合成特征;
语音信息确定模块,用于使用预设解码器,对所述对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将所述解码后的频谱信息转化为语音信息。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音合成方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音合成方法。
本发明与现有技术相比存在的有益效果是:
获取待合成文本与待合成语音,对待合成文本进行嵌入向量编码,得到对应待合成文本的文本向量,对文本向量进行特征编码,得到对应文本向量的文本特征向量,对待合成语音进行频谱信息提取,得到对应的频谱信息,将频谱信息与文本特征向量进行对齐,得到对应对齐后的合成特征,使用预设解码器,对对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息。本发明中,提取待合成文本对应的文本特征向量,将文本特征向量与待合成语音的频谱信息进行对齐,并使用预设解码器对对齐后的特征进行解码,通过使用声码器将解码后的频谱合成对应的语音信息,语音合成的过程中简化了语音合成模型的的结构,从而提高语音合成的效率。使用本申请的语音合成方法,在医疗自助服务设备中,可以合成效率更高的语音,有助于对患者指导医院程序,使患者可以快速了解就医过程。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种轻量化的语音合成方法的一应用环境示意图;
图2是本发明一实施例提供的一种轻量化的语音合成方法的流程示意图;
图3是本发明一实施例提供的一种轻量化的语音合成装置的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的一种轻量化的语音合成方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器生成的服务器集群来实现。
参见图2,是本发明一实施例提供的一种轻量化的语音合成方法的流程示意图,上述轻量化的语音合成方法可以应用于图1中的服务端,上述服务端连接相应的客户端,如图2所示,该轻量化的语音合成方法可以包括以下步骤。
S201:获取待合成文本与待合成语音。
在步骤S201中,获取待合成文本与待合成语音,使待合成文本合成与待合成语音中的音频相同的语音信息。
本实施例中,在医院的医疗自助服务设备中,一般患者查询可以查询对应的就医过程,还可以在医疗自助服务设备中预约对应的医生,医疗自助服务设备中根据用户输入的信息,获取下一流程中的需语音播报的文本和需要播报使用语音信息,其中,需语音播报的文本为待合成文本,需要播报使用语音信息为待合成语音。待合成文本的来源及文本类型可以为多种形式的,其中文本类型包含有中文及英文等。需要说明的是,待合成文本中,若存在阿拉伯数字,则将阿拉伯数字转化为文字,则根据设置好的规则,使合成文本标准化,例如,“这里有59个人”,其中“59”为阿拉伯数字,需要转化为汉字“五十九”,这样便于进行待合成文本转化音素等后续过程。本实施例中,待合成语音为待合成文本需要合成的语音信息。
S202:对待合成文本进行嵌入向量编码,得到对应待合成文本的文本向量,对文本向量进行特征编码,得到对应文本向量的文本特征向量。
在步骤S202中,通过嵌入层,提取待合成文本的文本向量,通过预设编码器对文本向量进行特征编码,得到对应文本向量的文本特征向量,其中预设编码器为轻量编码器。
本实施例中,通过嵌入层,提取待合成文本的文本向量,文本向量为三维向量(B,T,D),其中,B是batch_size,T是每句文本的长度,D是词向量的长度,一般待合成文本中包括多个文本语句,一个语句又包含多个词语,可以将待合成文本进行分词处理,分词处理时,对于英文文本可以按照其空格进行分词,对于中文文本可以,它是将文本内容中的字符串与分词词典进行比对,通过对比如果词典中含有该字符串,那么字符串与词语匹配成功,则在字符串的两端进行切分,反之不切分。该方法一般基于一个非常大的分词词典之上,如果该分词词典不足或者有误,则分词效果将会大大降低。基于统计分词算法主要有N元文法模型和隐马尔科夫模型,它们是基于语句中相邻字符出现的频率进行工作,跟据频率的大小判断两个字符是不是同一个词。这种方法能够将文本中的所有字符进行切分,属于全切分的方法。本实施例中使用两者相结合的方法对文本特征进行分词处理,得单词序列。需要说明的是,语句划分和单词划分可利用开源的划分工具,例如jieba工具、SnowNLP工具等。
分词后,通过嵌入层,取待合成文本的文本向量,文本向量中包括文本语句的个数,每句文本的长度以及文本中对应的词向量长度。利用embedding词嵌入方式取待合成文本的文本向量,embedding词嵌入方式的模型为Word2vec模型,通过Word2vec模型对语料库中的词语进行训练,模型根据特征词的上下文预测特征的词向量,由于词向量用低维实数表示,保持了同义词之间强的相关性,并且很好的根据特征词推测其所在的上下文环境,Word2vec模型中包括两种训练模型,本实施例中使用Word2vec模型中的CBOW模型进行训练,CBOW模型的输入是特征词的上下文环境,其中每个词的输入是词对应的独热编码,经过模型计算映射成低维的实数向量,之后通过变换矩阵,输出预测词的独热编码向量。而Skip_gram模型输入的是特征词的独热编码,经过矩阵变换之后,输出的是特征词周围可能出现词的独热编码,独热编码中1的位置指示了词典中对应的词,其中,投影层是对输入层的每个词对应的独热编码向量进行简单求和,其中有变换矩阵;输出层对应一棵Huffman树,该树以每个词在语料中出现的权值构造出来。通过对语料库中的词语进行训练,得到语料库中词语的初始化词向量。
需要说明的是,在进行训练时,也可以使用Word2vec模型中的Skip_gram模型,Skip_gram模型是通过一个特定的特征词来预测这个词的周围邻居可能出现的词。
当获取到对应的待合成文本的文本向量时,通过预设编码器,对文本向量进行编码处理,得到对应文本向量的文本特征向量,例如,预设编码器可以是由Transformer的双向编码器表示。通过联合调节所有层中的上下文来预先训练深度双向表示,主要运用了Transformer的Encoder。通过对大量语料的训练,对所有层的上下左右的文本信息进行提取,实现文本的双向表示。由于其对上下文、单词、句子等做了详细的提取,所以其得到的词向量是动态的,保证了同一个单词在不同语言环境内所获得的词向量是不同的,可以更好的表达单词、句子和上下文之间的关系,生成对应的文本特征向量。
需要说明的是,待合成文本的长度为一段对话中的句子个数,当一段对话中的句子个数不同时,得到文本特征向量中的每句文本的长度不同,为了得到定长的文本特征向量,对待合成文本中的文本向量进行不定长序列处理,补齐文本向量中每句文本中长度较短的序列,使用mask机制进行补齐,对文本特征序列中长度较短的文本使用0进行补齐。首先从得到的多个文本向量中的文本长度最长的文本,该文本的长度作为模板长度,将其余的文本使用0进行补齐得到目标文本,假设有一个长度为5的向量:x=[1,9,3,4,5],将该向量序列使用mask机制补齐到长度位为8的向量,则得到x=[1,9,3,4,5,0,0,0]。
可选地,对文本向量进行特征编码,得到对应文本向量的文本特征向量,包括:
使用预设编码器对文本向量进行特征编码,得到对应文本向量的文本特征向量,预设编码器包括第一卷积块、第二卷积块与第三卷积块;
使用第一卷积块对文本向量进行特征编码,得到第一特征向量;
使用第二卷积块对第一特征进行特征编码,得到第二特征向量;
使用第三卷积块对第二特征进行特征编码,得到文本向量对应的文本特征向量。
本实施例中,使用预设编码器对文本向量进行特征编码,得到对应文本向量的文本特征向量,预设编码器包括第一卷积块、第二卷积块与第三卷积块,每个卷积块的组成相同,每个卷积块可以包括至少一个卷积层,通过每个卷积块都可以得到对应的特征向量,多个卷积块以便于对文本向量进行多次卷积处理,得到更将确定的待合成文本中的文本特征向量。
本实施例中,预设编码器包括第一卷积块、第二卷积块与第三卷积块,其中,第一卷积块与第二卷积块连接,第二卷积块与第三卷积块连接,使用第一卷积块对文本向量进行特征编码,得到第一特征向量,使用第二卷积块对第一特征进行特征编码,得到第二特征向量,使用第三卷积块对第二特征进行特征编码,得到文本向量对应的文本特征向量。
可选地,使用第一卷积块对文本向量进行特征编码,得到第一特征向量,包括:
使用第一卷积块中的卷积层对文本向量进行卷积,得到文本向量对应的卷积特征;
使用第一卷积块中的批标准化层对卷积特征进行归一化处理,得到卷积特征对应的归一化特征;
使用第一卷积块中的激活层,对归一化特征进行非线性处理,得到归一化特征对应的非线性特征;
使用第一卷积块中的随机失活层,对非线性特征进行稀疏化处理,得到非线性特征对应的第一特征向量。
本实施例中,预设编码器包括第一卷积块、第二卷积块与第三卷积块,每个卷积块的组成相同,每个卷积块包括一层卷积层,一层批归一化层,一层激活层与一层随机失活层,其中每层卷积层中包含512个5x1的卷积核,然后通过批归一化激活层对卷积层的输出进行批归一化处理,并使用ReLu激活,最后将激活后的特征输入至随机失活层,对非线性特征进行稀疏化处理,其中,随机失活层可以配置随机失活层系数为0.25,表明在训练过程中百分之25%的网络参数被屏蔽不参与训练,以防止过拟合,得到非线性特征对应的第一特征向量。
本实施例中,在第一卷积块中,将文本向量输入至卷积层中,对文本向量进行卷积操作,输出文本向量对应的卷积特征,将卷积特征输入至批标准化层中,对卷积特征进行归一化处理,到卷积特征对应的归一化特征,将归一化特征输入至激活层中,对归一化特征进行非线性处理,得到归一化特征对应的非线性特征,将非线性特征输入至随机失活层,对非线性特征进行稀疏化处理,得到非线性特征对应的第一特征向量。
预设编码器中每个卷积块的组成相同,在第二卷积块中,将第一特征向量输入至卷积层中,对第一特征向量进行卷积操作,输出第一特征向量对应的第二卷积特征,将第二卷积特征输入至批标准化层中,对第二卷积特征进行归一化处理,得到对应的第二归一化特征,将第二归一化特征输入至激活层中,对第二归一化特征进行非线性处理,得到第二非线性特征,将第二非线性特征输入至随机失活层,对第二非线性特征进行稀疏化处理,得到第二非线性特征对应的第二特征向量。
在第三卷积块中,将第二特征向量输入至卷积层中,对第二特征向量进行卷积操作,输出第二特征向量对应的第三卷积特征,将第三卷积特征输入至批标准化层中,对第三卷积特征进行归一化处理,得到对应的第三归一化特征,将第三归一化特征输入至激活层中,对第三归一化特征进行非线性处理,得到第三非线性特征,将第三非线性特征输入至随机失活层,对第三非线性特征进行稀疏化处理,得到第三非线性特征对应的文本特征向量。
S203:对待合成语音进行频谱信息提取,得到对应的频谱信息,将频谱信息与文本特征向量进行对齐,得到对齐后的合成特征。
在步骤S203中,对待合成语音进行频谱信息提取,其中,频谱信息为梅尔频谱信息,根据对应的梅尔频谱信息,将频谱信息与文本特征向量进行对齐,得到对齐后的合成特征。
本实施例中,可以对待合成语音进行处理以获取与待合成语音对应的频谱信息,该频谱信息为语音信息对应的梅尔频谱图。具体而言,首先可以对待合成语音进行预处理,并对预处理后的语音信息进行短时傅里叶变换,以获取与语音信息对应的声谱图,然后通过梅尔滤波器对声谱图进行滤波处理,以获取梅尔频谱图。
其中,对待合成语音进行的预处理具体可以是对待合成语音中的声音信号进行分帧,然后对分帧得到的声音帧进行加窗,接着再对每一帧声音信号做傅里叶变换,最后将每一帧的结果沿预设维度进行堆叠,以得到声谱图。由于得到的声谱图较大,并且频率的单位是Hz,人耳能听到的频率范围是20-20000Hz,但是人耳对Hz单位不是线性敏感,而是对低Hz敏感,对高Hz不敏感,因此为了得到合适大小的声音特征,通常将声谱图通过梅尔尺度滤波器组(Mel-scale filter banks)变为梅尔频谱,将Hz频率转化为梅尔频率,则人耳对频率的感知度就变为线性。
提取后的待合成语音的梅尔频谱信息与文本特征向量进行对齐,可使用强制对齐方法MFA(montreal-forced-aligner,自动语音到音素对齐工具)来代替常用的基于注意力机制的对齐提取器,通过使用强制对齐方法进行对齐后,得到对齐后的合成特征。
可选地,对待合成语音进行频谱信息提取,得到对应的频谱信息,包括:
对待合成语音进行分帧处理,得到待合成语音中每一帧语音数据;
通过预设变换算法,将每一帧语音数据转换成频谱信息。
本实施例中,在提取待合成语音进行频谱信息时,通过提取待合成语音的时域特征与频域特征,得到频谱信息,将时域特征转换为固定窗口的帧数,例如,可以对涉及多段对象的待合成语音进行分帧处理,得到多个语音帧,将该多个语音帧根据时间顺序依次排列,得到涉及多段对象的语音帧序列。或者,可以在得到多个语音帧后,基于预定采样间隔,对该多个语音帧进行采样,将采样得到的语音帧按时间顺序排列,从而得到语音帧序列。从语音帧序列中确定出固定窗口对应的帧数,其中,预定采样间隔大于等于1帧。这是由于通常一个文字的发音会持续多个语音帧。将分帧处理的得到的语音帧进行加窗处理,窗口化过程中,最小化了在帧的开始和结束时出现的中断。在此过程之后,连续语音信息被转换为加窗帧。这些窗口帧被传递到离散傅里叶变换器,该变换器将加窗帧转换为频域特征,通过频域特征计算梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)得到频谱信息。
例如,可以通过前馈神经网络模型得到待合成语音对应的频谱信息,其中,前馈神经网络模型中,历史信息的表示方法与N-gram语言模型,采用前n-1个词表示。
另一实施例中,也可以通过使用循环神经网络语言模型提取待合成语音中的频谱信息,循环神经网络语言模型与前馈神经网络语言模型的主要区别在乎对词的历史信息采用不同的表示方法。循环神经网络模型则通过隐含层的不断循环,并对其进行学习来获得历史信息,在循环神经网络中,隐含层可表示的历史信息而不仅是前n-1词,这种模型理论上可W表示更长的上下文信息。
可选地,将频谱信息与文本特征向量进行对齐,得到对齐后的合成特征,包括:
获取预设扩充因子与文本特征向量中的文本长度向量;
使用预设扩充因子对文本长度向量进行扩充处理,得到扩充后的文本长度向量;
根据频谱信息,对扩充后的文本长度向量进行裁剪与扩充处理,得到处理后的文本长度向量;
将处理后的文本长度向量与频谱信息进行对齐,得到对齐后的合成特征。
本实施例中,在对齐的过程中,主要是将频谱信息与文本特征向量中的文本长度向量进行对齐,根据获取到的扩充因子,扩充对应的文本长度,将文本长度扩充到预设长度,再根据频谱信息对文本长度进行裁剪与扩充,例如,获取到的扩充因子为expand,文本特征向量为三维向量(B,T,D),其中文本长度向量为T,对文本长度向量进行扩充,得到扩充后的文本长度向量为(B,T*expand,D),根据得到的待合成文本的频谱信息中的帧数,对扩充后的文本长度向量进行裁剪与扩充,例如,当扩充后的文本长度小于对应的频谱信息中的帧数据的时长时,对扩充后的文本进行补零处理,当扩充后的文本长度大于对应的频谱信息中的帧数据的时长时,对扩充后的文本进行裁剪。
S204:使用预设解码器,对对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息。
在步骤S204中,预设解码器对对齐后的合成特征进行解码,得到包含待合成文本特征的目标频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息。
本实施例中,将对齐后的合成特征输入至预设的解码器中,对合成特征进行解码操作,得到包含对应待合成文本特征的梅尔频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息,本申请实施例中的预设声码器可以为神经网络声码器,可以包括但不限于基于自回归的神经网络声码器(如waveRNN声码器)、基于Gan网络的神经网络声码器(如melGan声码器、hifiGan声码器),从而将音素的梅尔频谱变为能够播放的wav文件,最终完成语音合成过程。
可选地,使用预设解码器,对对齐后的合成特征进行特征解码,得到解码后的频谱信息,包括:
使用预设解码器中的第一解码块对对齐后的合成特征进行特征解码,得到第一频谱信息;
使用预设解码器中的第二解码块对第一频谱信息进行特征解码,得到第二频谱信息;
使用预设解码器中的第三解码块对第二频谱信息进行特征解码,得到解码后的频谱信息。
本实施例中,预设解码器中包括三个解码块,每个解码块中的组成相同,使用多个解码块对对齐后的合成特征进行多次解码处理,以便可以得到准确的解码结果。其中,第一解码块连接第二解码块,第二解码块连接第三解码块。将对齐后的合成特征输入至预设解码器中的第一解码块,输出第一频谱信息,将第一频谱信息输入至预设解码器中的第二解码块,输出第二频谱信息,将第二频谱信息输入至预设解码器中的第三解码块,输出解码后的频谱信息。
可选地,使用预设解码器中的第一解码块对对齐后的合成特征进行特征解码,得到第一频谱信息,包括:
使用第一解码块中的长短时记忆网络层对对齐后的合成特征进行特征解码,得到频谱特征;
使用第一解码块中的残差网络层对频谱特征进行优化,得到第一频谱信息。
本实施例中,预设解码器中的每个解码块的徐成相同,包括长短时记忆网络层与残差网络层,在第一解码中,使用第一解码块中的长短时记忆网络层对对齐后的合成特征进行特征解码,得到频谱特征,使用第一解码块中的残差网络层对频谱特征进行优化,得到第一频谱信息。在第二解码块中,使用第二解码块中的长短时记忆网络层对第一频谱信息进行特征解码,得到第二频谱特征,使用第二解码块中的残差网络层对第二频谱特征进行优化,得到第二频谱信息。在第三解码块中,使用第三解码块中的长短时记忆网络层对第二频谱信息进行特征解码,得到第三频谱特征,使用第三解码块中的残差网络层对第三频谱特征进行优化,得到第三频谱信息。
需要说明的是,长短期记忆模型包含两个相互独立的隐藏,其传播方向相反,由此针对于同一输入数据,最终可以得到两个隐藏输出,即两个关于输入信息的特征向量。之后长短期记忆模型通过将两个特征向量拼接或取平均值的方法得到一个向量,再将其进行输出处理。
需要说明的是,长短期记忆模型通过BPTT(Back Propagation Through Time)算法对包括输入层,隐藏层和输出层在内的所有参数进行训练并更新。模型训练的关键是计算误差关于模型参数的梯度,然后使用梯度下降法学习出好的参数。由于采用了方向完全相反的两次输入,那么在某方向上后输入的信息在另一方向上会被优先输入,如此一来模型关于输入信息先后造成的不同影响力就能够被削弱,长短期记忆模型可以缓解梯度消失的问题。
获取待合成文本与待合成语音,对待合成文本进行嵌入向量编码,得到对应待合成文本的文本向量,对文本向量进行特征编码,得到对应文本向量的文本特征向量,对待合成语音进行频谱信息提取,得到对应的频谱信息,将频谱信息与文本特征向量进行对齐,得到对应对齐后的合成特征,使用预设解码器,对对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息。本发明中,提取待合成文本对应的文本特征向量,将文本特征向量与待合成语音的频谱信息进行对齐,并使用预设解码器对对齐后的特征进行解码,通过使用声码器将解码后的频谱合成对应的语音信息,语音合成的过程中简化了语音合成模型的的结构,从而提高语音合成的效率。
请参阅图3,图3是本发明实施例提供的一种轻量化的语音合成装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图3所示,语音合成装置30包括:获取模块31,编码模块32,对齐模块33,语音信息确定模块34。
获取模块31,用于获取待合成文本与待合成语音。
编码模块32,用于对待合成文本进行嵌入向量编码,得到对应待合成文本的文本向量,对文本向量进行特征编码,得到对应文本向量的文本特征向量。
对齐模块33,用于对待合成语音进行频谱信息提取,得到对应的频谱信息,将频谱信息与文本特征向量进行对齐,得到对应对齐后的合成特征。
语音信息确定模块34,用于使用预设解码器,对对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将解码后的频谱信息转化为语音信息。
可选地,上述编码模块32包括:
文本特征向量确定单元,用于使用预设编码器对文本向量进行特征编码,得到对应文本向量的文本特征向量,预设编码器包括第一卷积块、第二卷积块与第三卷积块。
第一编码单元,用于使用第一卷积块对文本向量进行特征编码,得到第一特征向量。
第二编码单元,用于使用第二卷积块对第一特征进行特征编码,得到第二特征向量。
第三编码单元,用于使用第三卷积块对第二特征进行特征编码,得到文本向量对应的文本特征向量。
可选地,上述第一编码单元包括:
卷积子单元,用于使用第一卷积块中的卷积层对文本向量进行卷积,得到文本向量对应的卷积特征。
归一化子单元,用于使用第一卷积块中的批标准化层对卷积特征进行归一化处理,得到卷积特征对应的归一化特征。
激活子单元,用于使用第一卷积块中的激活层,对归一化特征进行非线性处理,得到归一化特征对应的非线性特征。
稀疏化子单元,用于使用第一卷积块中的随机失活层,对非线性特征进行稀疏化处理,得到非线性特征对应的第一特征向量。
可选地,上述对齐模块33包括:
分帧单元,拥有对待合成语音进行分帧处理,得到待合成语音中每一帧语音数据。
转换单元,用于通过预设变换算法,将每一帧语音数据转换成频谱信息。
可选地,上述对齐模块33还包括:
扩充因子与文本长度向量获取单元,用于获取预设扩充因子与文本特征向量中的文本长度向量。
扩充单元,用于使用预设扩充因子对文本长度向量进行扩充处理,得到扩充后的文本长度向量。
处理单元,用于根据频谱信息,对扩充后的文本长度向量进行裁剪与扩充处理,得到处理后的文本长度向量。
对齐后的合成特征确定单元,用于将处理后的文本长度向量与频谱信息进行对齐,得到对齐后的合成特征。
可选地,上述语音信息确定模块34包括:
第一解码单元,用于使用预设解码器中的第一解码块对对齐后的合成特征进行特征解码,得到第一频谱信息。
第二解码单元,用于使用预设解码器中的第二解码块对第一频谱信息进行特征解码,得到第二频谱信息。
第三解码单元,用于使用预设解码器中的第三解码块对第二频谱信息进行特征解码,得到解码后的频谱信息。
可选地,上述第一解码单元包括:
频谱特征确定子单元,用于使用第一解码块中的长短时记忆网络层对对齐后的合成特征进行特征解码,得到频谱特征。
优化子单元,用于使用第一解码块中的残差网络层对频谱特征进行优化,得到第一频谱信息。
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个轻量化的语音合成方法步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种轻量化的语音合成方法,其特征在于,所述语音合成方法包括:
获取待合成文本与待合成语音;
对所述待合成文本进行嵌入向量编码,得到对应所述待合成文本的文本向量,对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量;
对所述待合成语音进行频谱信息提取,得到对应的频谱信息,将所述频谱信息与所述文本特征向量进行对齐,得到对齐后的合成特征;
使用预设解码器,对所述对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将所述解码后的频谱信息转化为语音信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量,包括:
使用预设编码器对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量,所述预设编码器包括第一卷积块、第二卷积块与第三卷积块;
使用所述第一卷积块对所述文本向量进行特征编码,得到第一特征向量;
使用所述第二卷积块对所述第一特征进行特征编码,得到第二特征向量;
使用所述第三卷积块对所述第二特征进行特征编码,得到所述文本向量对应的文本特征向量。
3.如权利要求2所述的语音合成方法,其特征在于,所述使用所述第一卷积块对所述文本向量进行特征编码,得到第一特征向量,包括:
使用所述第一卷积块中的卷积层对所述文本向量进行卷积,得到所述文本向量对应的卷积特征;
使用所述第一卷积块中的批标准化层对所述卷积特征进行归一化处理,得到所述卷积特征对应的归一化特征;
使用所述第一卷积块中的激活层,对所述归一化特征进行非线性处理,得到所述归一化特征对应的非线性特征;
使用所述第一卷积块中的随机失活层,对所述非线性特征进行稀疏化处理,得到所述非线性特征对应的第一特征向量。
4.如权利要求1所述的语音合成方法,其特征在于,所述对所述待合成语音进行频谱信息提取,得到对应的频谱信息,包括:
对所述待合成语音进行分帧处理,得到所述待合成语音中每一帧语音数据;
通过预设变换算法,将每一帧语音数据转换成所述频谱信息。
5.如权利要求1所述的语音合成方法,其特征在于,所述将所述频谱信息与所述文本特征向量进行对齐,得到对齐后的合成特征,包括:
获取预设扩充因子与所述文本特征向量中的文本长度向量;
使用所述预设扩充因子对所述文本长度向量进行扩充处理,得到扩充后的文本长度向量;
根据所述频谱信息,对所述扩充后的文本长度向量进行裁剪与扩充处理,得到处理后的文本长度向量;
将所述处理后的文本长度向量与所述频谱信息进行对齐,得到对齐后的合成特征。
6.如权利要求1所述的语音合成方法,其特征在于,所述使用预设解码器,对所述对齐后的合成特征进行特征解码,得到解码后的频谱信息,包括:
使用所述预设解码器中的第一解码块对所述对齐后的合成特征进行特征解码,得到第一频谱信息;
使用所述预设解码器中的第二解码块对所述第一频谱信息进行特征解码,得到第二频谱信息;
使用所述预设解码器中的第三解码块对所述第二频谱信息进行特征解码,得到解码后的频谱信息。
7.如权利要求6所述的语音合成方法,其特征在于,所述使用所述预设解码器中的第一解码块对所述对齐后的合成特征进行特征解码,得到第一频谱信息,包括:
使用所述第一解码块中的长短时记忆网络层对所述对齐后的合成特征进行特征解码,得到频谱特征;
使用所述第一解码块中的残差网络层对所述频谱特征进行优化,得到所述第一频谱信息。
8.一种轻量化的语音合成装置,其特征在于,所述语音合成装置包括:
获取模块,用于获取待合成文本与待合成语音;
编码模块,用于对所述待合成文本进行嵌入向量编码,得到对应所述待合成文本的文本向量,对所述文本向量进行特征编码,得到对应所述文本向量的文本特征向量;
对齐模块,用于对所述待合成语音进行频谱信息提取,得到对应的频谱信息,将所述频谱信息与所述文本特征向量进行对齐,得到对应对齐后的合成特征;
语音信息确定模块,用于使用预设解码器,对所述对齐后的合成特征进行特征解码,得到解码后的频谱信息,使用预设声码器将所述解码后的频谱信息转化为语音信息。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音合成方法。
CN202310722679.4A 2023-06-16 2023-06-16 一种轻量化的语音合成方法、装置、设备及存储介质 Pending CN116524897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310722679.4A CN116524897A (zh) 2023-06-16 2023-06-16 一种轻量化的语音合成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310722679.4A CN116524897A (zh) 2023-06-16 2023-06-16 一种轻量化的语音合成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116524897A true CN116524897A (zh) 2023-08-01

Family

ID=87401389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310722679.4A Pending CN116524897A (zh) 2023-06-16 2023-06-16 一种轻量化的语音合成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116524897A (zh)

Similar Documents

Publication Publication Date Title
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
WO2020200178A1 (zh) 语音合成方法、装置和计算机可读存储介质
CN112017644B (zh) 一种声音变换系统、方法及应用
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及系统
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
CN111179905A (zh) 一种快速配音生成方法及装置
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
CN113327585B (zh) 一种基于深度神经网络的自动语音识别方法
KR20190016889A (ko) 텍스트-음성 변환 방법 및 시스템
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Dossou et al. OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
CN115410596A (zh) 构音异常语料扩增方法及系统、语音辨识平台,及构音异常辅助装置
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
CN114999447B (zh) 一种基于对抗生成网络的语音合成模型及语音合成方法
CN116645961A (zh) 语音识别方法、语音识别装置、电子设备及存储介质
CN115798455A (zh) 语音合成方法、系统、电子设备及存储介质
Venkatagiri Speech recognition technology applications in communication disorders
CN116524897A (zh) 一种轻量化的语音合成方法、装置、设备及存储介质
Mache et al. Development of text-to-speech synthesizer for Pali language
CN112151008B (zh) 一种语音合成方法、系统及计算机设备
CN113345415B (zh) 语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination