CN118262697A - 语音合成方法和装置、电子设备及存储介质 - Google Patents
语音合成方法和装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118262697A CN118262697A CN202410427075.1A CN202410427075A CN118262697A CN 118262697 A CN118262697 A CN 118262697A CN 202410427075 A CN202410427075 A CN 202410427075A CN 118262697 A CN118262697 A CN 118262697A
- Authority
- CN
- China
- Prior art keywords
- style
- data
- speaker
- feature vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 304
- 238000013139 quantization Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000009792 diffusion process Methods 0.000 claims abstract description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 43
- 238000003786 synthesis reaction Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 24
- 238000004891 communication Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,本申请实施例能够优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
Description
技术领域
本申请涉及金融科技技术领域,尤其涉及一种语音合成方法和装置、电子设备及存储介质。
背景技术
金融行业在数字化转型的浪潮之中,智能语音技术的落地正当其时。各金融机构纷纷开始投入打造智能语音客服,通过智能语音客服,代替人工客服,缓解客服业务的压力,实现降本增效。在金融场景下,在进入业务流程的各节点时,可以通过调用语音合成算法接口,将话术转换为语音文件,进而自动播报。然而,目前的语音合成的技术手段为基于TTS(Text To Speech,从文本到语音)对语音进行合成,从文本到语音合成是一个典型的多模态生成任务,这一任务将给定的文本输入序列转化为具有不同说话者身份、情绪、风格的语音输出。然而,TTS合成语音在表现力上仍与人类自然语音存在很大差距,这是由于其无法有效地从参考话语中捕获风格信息,从而导致语音合成效果不佳。
目前在金融行业,智能语音客服发出的语音比较机械生硬,且无法发出客户所喜欢的人物说话风格的语音,从而导致客户进行业务咨询、业务办理等线上互动交流的体验不佳,影响了企业客服的服务水平。
发明内容
本申请实施例的主要目的在于提出一种语音合成方法和装置、电子设备及存储介质,能够有效地从目标说话人数据中捕获风格信息,从而合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:
获取源说话人数据,根据所述源说话人数据得到源说话人特征向量;
从预设的语音数据库获取目标说话人数据,根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量;
根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
将所述源说话人特征向量和所述语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
根据所述源说话人数据和所述矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
在一些实施例,所述获取源说话人数据,根据所述源说话人数据得到源说话人特征向量,包括:
根据源说话人身份标识获取所述源说话人数据;
从所述源说话人数据中提取源说话人语音特征;
将所述源说话人语音特征转换成所述源说话人特征向量。
在一些实施例,所述根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量,包括:
从所述目标说话人数据中获取内容提示和风格提示;
将所述内容提示输入至预设的内容编码器,提取得到所述内容表示特征向量;
将所述风格提示输入至预设的风格编码器,提取得到所述风格表示特征向量。
在一些实施例,所述风格编码器包括风格提示嵌入模型、风格嵌入适应层和音频编码器,所述将所述风格提示嵌入输入至预设的风格编码器,提取得到所述风格表示特征向量,包括:
将所述风格提示输入至所述风格提示嵌入模型,得到风格提示嵌入;
将风格提示嵌入输入至所述风格嵌入适应层,得到风格特征信息;
基于所述音频编码器对所述风格特征信息进行风格信息编码,得到所述风格表示特征向量。
在一些实施例,所述根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息,包括:
将所述风格表示特征向量输入至预设的样式自适应层归一化适配器,得到归一化的所述风格表示特征向量;
将所述内容表示特征向量和归一化的所述风格表示特征向量输入至预设的音素编码器,得到韵律特征;
将所述韵律特征输入至预设的方差适配器,预测出具有目标说话人说话风格的语音风格信息。
在一些实施例,所述从所述目标说话人数据中获取内容提示和风格提示,包括:
通过三阶段训练策略从所述目标说话人数据中获取内容提示和风格提示,其中,所述三阶段训练策略包括:
采用中文数据对预设的RoBERTa模型进行预训练;
使用I nfoNCE损失目标来微调预训练的RoBERTa模型;
基于跨模态度量学习构建音频文本检索任务;
在离散潜空间中对梅尔谱图建模,使用H i Fi-GAN声码器从梅尔谱图中恢复语音波形。
在一些实施例,所述在离散潜空间中对梅尔谱图建模,使用H i Fi-GAN声码器从梅尔谱图中恢复语音波形,包括:
采用大规模语音数据集预训练VQ-VAE,使预训练的VQ-VAE将语音信息编码到潜在代码中;
将矢量量化的潜在代码作为预测目标,对离散潜空间中的梅尔谱图进行建模;
利用自监督矢量量化声学特征代替梅尔谱图作为中间预测目标。
为实现上述目的,本申请实施例的第二方面提出了一种语音合成装置,所述装置包括:
第一获取模块,用于获取源说话人数据,根据所述源说话人数据得到源说话人特征向量;
第二获取模块,用于从预设的语音数据库获取目标说话人数据,根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量;
第一生成模块,用于根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
第二生成模块,用于将所述源说话人特征向量和所述语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
合成模块,用于根据所述源说话人数据和所述矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请提出的语音合成方法和装置、电子设备及存储介质,获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
附图说明
图1是本申请实施例提供的语音合成方法的流程图;
图2是图1中的步骤S101的流程图;
图3是图1中的步骤S102的流程图;
图4是图3中的步骤S303的流程图;
图5是图1中的步骤S103的流程图;
图6是本申请实施例提供的三阶段训练策略的流程图;
图7是图6中的步骤S604的流程图;
图8是本申请实施例提供的语音合成模型的结构示意图;
图9是本申请实施例提供的语音合成装置的结构示意图;
图10是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(art ificia l i nte l l igence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
从文本到语音(Text To Speech,TTS):是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/秒的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。
自然语言处理(natura l l anguage process i ng,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(I nformat ion Extract ion,NER):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
自监督学习:主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。
梅尔谱图:是转换为梅尔标度的谱图。梅尔标度是基于彼此等距的听众对音高(pitch)的感性判断的刻度。
音素(Phone):是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。
编码(Encoder):将输入序列转化成一个固定长度的向量。
解码(Decoder):就是将之前生成的固定向量再转化成输出序列;其中,输入序列可以是文字、语音、图像、视频;输出序列可以是文字、图像。
BERT:全称是来自变换器的双向编码器表征量(Bi d i rect i ona l EncoderRepresentat i ons from Transformers),它是Goog l e于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。BERT是一种基于微调的多层双向变换器编码器。
RoBERTa模型:是BERT的改进版(A Robust l y Opt imi zed BERT,强力优化的BERT方法)。在模型规模、算力和数据上,与BERT相比主要有以下几点改进:更大的模型参数量、更大bacth s i ze和更多的训练数据。RoBERTa在训练方法上有以下改进:去掉下一句预测(NSP)任务;动态掩码,BERT依赖随机掩码和预测token。原版的BERT实现在数据预处理期间执行一次掩码,得到一个静态掩码。而RoBERTa使用了动态掩码:每次向模型输入一个序列时都会生成新的掩码模式。这样,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征;文本编码,Byte-Pai r Encod i ng(BPE)是字符级和词级别表征的混合,支持处理自然语言语料库中的众多常见词汇。原版的BERT实现使用字符级别的BPE词汇,大小为30K,是在利用启发式分词规则对输入进行预处理之后学得的。Facebook研究者没有采用这种方式,而是考虑用更大的byte级别BPE词汇表来训练BERT,这一词汇表包含50K的subword单元,且没有对输入作任何额外的预处理或分词。RoBERTa建立在BERT的语言掩蔽策略的基础上,修改BERT中的关键超参数,包括删除BERT的下一个句子训练前目标,以及使用更大的bacth s i ze和学习率进行训练。RoBERTa也接受了比BERT多一个数量级的训练,时间更长。这使得RoBERTa表示能够比BERT更好地推广到下游任务。
矢量量化(Vector Quant i zat i on,VQ):是20世纪70年代后期新发展起来的一种有效的有损压缩技术,其理论基础是香农的速率失真理论。矢量量化的基本原理是用码书中与输入矢量最匹配的码字的索引代替输入矢量进行传输与存储,而解码时仅需要简单地查表操作。其突出优点是压缩比大、解码简单且能够很好地保留信号的细节。
度量学习(Metr ic Learn i ng):在数学中,一个度量(或距离函数)是一个定义集合中元素之间距离的函数。一个具有度量的集合被称为度量空间。其基本原理是根据不同的任务来自主学习出针对某个特定任务的度量距离函数。后来度量学习又被迁移至文本分类领域,尤其是针对高维数据的文本处理,度量学习有很好的分类效果。
模态:是指数据的存在形式,比如文本、音频、图像、视频等文件格式。
语音合成:是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
在现有技术中,TTS合成语音在表现力上仍与人类自然语音存在很大差距,这是由于其无法有效地从参考话语中捕获风格信息,从而导致语音合成效果不佳。
基于此,本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
本申请实施例可以应用于智能金融语音客服,具体实现时,通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而使得智能金融语音客服能够合成具有目标说话人相同说话风格的目标语音数据,因此,智能金融语音客服能够合成出客户所喜欢的人物说话风格的语音,并基于该语音与客户进行业务咨询、业务办理等线上互动交流,由于其语音合成效果好,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
本申请实施例提供的语音合成方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的语音合成方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Art i f i c i a l I nte l l i gence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的语音合成方法,涉及人工智能技术领域。本申请实施例提供的语音合成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音合成方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图1是本申请实施例提供的语音合成方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S105。
步骤S101,获取源说话人数据,根据源说话人数据得到源说话人特征向量;
步骤S102,从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;
步骤S103,根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
步骤S104,将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
步骤S105,根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
在一些实施例的步骤S101中,获取源说话人数据,根据源说话人数据得到源说话人特征向量。源说话人数据可以为使用者自身的语音数据,语音数据可以包括但不限于梅尔谱图、语音波形。可以根据源说话人数据得到源说话人特征向量,例如,根据源说话人身份标识获取源说话人数据,从源说话人数据中提取源说话人语音特征,将源说话人语音特征转换成源说话人特征向量。
在一些实施例的步骤S102中,从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量。在语音数据库中包括有大量不同说话风格的目标说话人数据,可以从语音数据库获取使用者想要进行语音合成的目标说话人数据。再从目标说话人数据中提取出内容表示特征向量和风格表示特征向量。具体地,可以从目标说话人数据中获取内容提示和风格提示,可以通过内容编码器对内容提示进行编码,以提取得到内容表示特征向量,还可以通过风格编码器对风格提示进行编码,以提取得到风格表示特征向量。
在一些实施例的步骤S103中,根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息。其中,内容表示特征向量可以表征目标说话人的说话内容信息,风格表示特征向量可以表征目标说话人的说话风格信息。具体地,可以通过音素编码器对内容表示特征向量进行编码处理,得到韵律特征,还可以通过样式自适应层归一化适配器对风格表示特征向量进行归一化处理,得到风格特征,再将韵律特征和风格特征输入至方差适配器,以预测出具有目标说话人说话风格的语音风格信息。
在一些实施例的步骤S104中,将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征,从而有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,以实现在离散潜在空间中建模表达性TTS,并将语音合成作为语言建模任务,通过在离散潜在空间中建模VQ声学特征。
在一些实施例的步骤S105中,根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
在一些实施例中,可以将语音合成方法应用于智能语音客服,例如,智能客服机器人。在金融行业,可以利用智能客服机器人与客户进行智能语音交互,智能客服机器人通过自动识别客户语音及语义,自动回复客户问题,通过语音合成将回复以语音形式呈现,让人机交互闭环。在金融科技场景下,利用本申请实施例的语音合成方法,智能客服机器人能够合成出客户所喜欢的人物说话风格的语音,并基于该语音与客户进行业务咨询、业务办理等线上互动交流。由于本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
需要说明的是,可以通过语音合成模型来实现上述的语音合成方法,其中,语音合成模型包括但不限于基于GPT3的I nstructTTS模型。
本申请实施例可以应用于智能金融语音客服,通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,具体地,可以基于客服坐席人员身份标识ID获取客服坐席人员语音数据。将客服坐席人员语音数据输入至说话人编码器,以提取得到客服坐席人员语音特征向量。从客户选择所喜欢的目标说话人数据中获取内容提示和风格提示,将内容提示输入至预设的内容编码器,提取得到内容表示特征向量。将风格提示输入至预设的风格编码器,提取得到风格表示特征向量。将风格表示特征向量输入至样式自适应层归一化适配器,得到归一化的风格表示特征向量。将内容表示特征向量和归一化的风格表示特征向量输入至音素编码器,得到韵律特征。将韵律特征输入至方差适配器,预测出具有目标说话人说话风格的语音风格信息。将客服坐席人员语音特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征。根据客服坐席人员语音数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据,从而使得智能金融语音客服能够合成具有目标说话人相同说话风格的目标语音数据,因此,智能金融语音客服能够合成出客户所喜欢的人物说话风格的语音,并基于该语音与客户进行业务咨询、业务办理等线上互动交流,由于其语音合成效果好,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
本申请实施例所示意的步骤S101至步骤S105,获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
请参阅图2,在一些实施例中,步骤S101可以包括但不限于包括步骤S201至步骤S203:
步骤S201,根据源说话人身份标识获取源说话人数据;
步骤S202,从源说话人数据中提取源说话人语音特征;
步骤S203,将源说话人语音特征转换成源说话人特征向量。
在一些实施例中,源说话人身份标识用于标识源说话人的身份,可以基于源说话人身份标识获取源说话人数据。从源说话人数据中提取源说话人语音特征,将源说话人语音特征转换成源说话人特征向量,源说话人特征向量包含有源说话人的说话内容的特征。
请参阅图3,在一些实施例中,在步骤S102可以包括但不限于包括步骤S301至步骤S303:
步骤S301,从目标说话人数据中获取内容提示和风格提示;
步骤S302,将内容提示输入至预设的内容编码器,提取得到内容表示特征向量;
步骤S303,将风格提示输入至预设的风格编码器,提取得到风格表示特征向量。
在一些实施例中,对于基于GPT3的I nstructTTS模型,I nstructTTS模型可以包括内容编码器和风格编码器。具体地,可以从目标说话人数据中获取内容提示和风格提示,将内容提示输入至预设的内容编码器,提取得到内容表示特征向量。将风格提示输入至预设的风格编码器,提取得到风格表示特征向量。
请参阅图4,在一些实施例中,步骤S303可以包括但不限于包括步骤S401至步骤S403:
步骤S401,将风格提示输入至风格提示嵌入模型,得到风格提示嵌入;
步骤S402,将风格提示嵌入输入至风格嵌入适应层,得到风格特征信息;
步骤S403,基于音频编码器对风格特征信息进行风格信息编码,得到风格表示特征向量。
在一些实施例中,风格编码器可以包括风格提示嵌入模型、风格嵌入适应层和音频编码器。具体地,可以将风格提示输入至风格提示嵌入模型,得到风格提示嵌入。将风格提示嵌入输入至风格嵌入适应层,得到风格特征信息。基于音频编码器对风格特征信息进行风格信息编码,得到风格表示特征向量。
请参阅图5,在一些实施例中,步骤S103可以包括但不限于包括步骤S501至步骤S503:
步骤S501,将风格表示特征向量输入至预设的样式自适应层归一化适配器,得到归一化的风格表示特征向量;
步骤S502,将内容表示特征向量和归一化的风格表示特征向量输入至预设的音素编码器,得到韵律特征;
步骤S503,将韵律特征输入至预设的方差适配器,预测出具有目标说话人说话风格的语音风格信息。
在一些实施例中,I nstructTTS模型还可以包括音素编码器、样式自适应层归一化适配器和方差适配器。具体地,可以将风格表示特征向量输入至样式自适应层归一化适配器,得到归一化的风格表示特征向量。可以将内容表示特征向量和归一化的风格表示特征向量输入至音素编码器,得到韵律特征。可以将韵律特征输入至方差适配器,预测出具有目标说话人说话风格的语音风格信息。
请参阅图6,在一些实施例中,通过三阶段训练策略从目标说话人数据中获取内容提示和风格提示,其中,三阶段训练策略可以包括但不限于包括步骤S601至步骤S604:
步骤S601,采用中文数据对预设的RoBERTa模型进行预训练;
步骤S602,使用I nfoNCE损失目标来微调预训练的RoBERTa模型;
步骤S603,基于跨模态度量学习构建音频文本检索任务;
步骤S604,在离散潜空间中对梅尔谱图建模,使用H i Fi-GAN声码器从梅尔谱图中恢复语音波形。
在一些实施例中,采用中文数据对预设的RoBERTa模型进行预训练,使用I nfoNCE损失目标来微调预训练的RoBERTa模型,基于跨模态度量学习构建音频文本检索任务,在离散潜空间中对梅尔谱图建模,使用H i Fi-GAN声码器从梅尔谱图中恢复语音波形。基于此,充分利用自监督学习和跨模态度量学习的优势,利用三阶段训练策略有效地从风格提示中捕获信息,并控制生成语音中的说话风格。
请参阅图7,在一些实施例中,步骤S604可以包括但不限于包括步骤S701至步骤S703:
步骤S701,采用大规模语音数据集预训练VQ-VAE,使预训练的VQ-VAE将语音信息编码到潜在代码中;
步骤S702,将矢量量化的潜在代码作为预测目标,对离散潜空间中的梅尔谱图进行建模;
步骤S703,利用自监督矢量量化声学特征代替梅尔谱图作为中间预测目标。
在一些实施例中,首先用大规模语音数据集预训练VQ-VAE,使预训练的VQ-VAE将所有语言、音高、能量、情感信息编码到潜在代码中。然后将矢量量子化的潜码作为预测目标,对离散潜空间中的梅尔谱图进行建模。在VQ-TTS中采用了在离散潜空间中建模梅尔谱图的类似思想,利用自监督VQ声学特征代替传统的梅尔谱图作为中间预测目标。
以下结合附图和具体实施例进一步说明本申请的语音合成方法。
如图8所示,图8为语音合成模型的结构示意图。其中,语音合成模型以基于GPT3的I nstructTTS模型为例,基于GPT3的I nstructTTS模型包括内容编码器、风格编码器、说话人编码器、样式自适应层归一化适配器和离散扩散概率模型。其中,内容编码器旨在从内容提示中提取内容表示,内容编码器采用Fast-Speech2的结构,该结构由4个前馈变压器组成。在此之后,使用方差适配器来预测与合成语音风格密切相关的信息,如持续时间和音高。风格编码器模块包括三个部分:预训练的鲁棒风格提示嵌入模型,一个将风格嵌入到新的潜在空间的适应层,一个被用于从目标梅尔谱图进行风格信息编码的音频编码器。为了从风格提示中提取风格表示,采用RoBERTa模型作为提示嵌入模型。为了提升提示嵌入的质量,稳定地控制TTS输出中的风格,采用三阶段训练策略,一是在中文数据上训练RoBERTa模型,二是使用I nfoNCE损失目标来微调预训练的RoBERTa模型,三是基于度量学习的跨模态表示学习过程和NLSpeech数据集中的样式提示符和音频对构建一个音频文本检索任务。在离散潜空间中对梅尔谱图建模,仍使用H i F i-GAN声码器从梅尔谱图中恢复波形。具体来说,首先用大规模语音数据集预训练VQ-VAE,使预训练的Me l-VQ-VAE将所有语言、音高、能量、情感信息编码到潜在代码中。然后将矢量量子化的潜码作为预测目标,对离散潜空间中的梅尔谱图进行建模。在VQ-tts中采用了在离散潜空间中建模梅尔谱图的类似思想,利用自监督VQ声学特征代替传统的梅尔谱图作为中间预测目标。
具体地,源说话人身份标识ID用于标识源说话人的身份,可以基于源说话人身份标识ID获取源说话人数据。将源说话人数据输入至说话人编码器,以提取得到源说话人特征向量。从目标说话人数据中获取内容提示和风格提示,将内容提示输入至预设的内容编码器,提取得到内容表示特征向量。将风格提示输入至预设的风格编码器,提取得到风格表示特征向量。将风格表示特征向量输入至样式自适应层归一化适配器,得到归一化的风格表示特征向量。将内容表示特征向量和归一化的风格表示特征向量输入至音素编码器,得到韵律特征。将韵律特征输入至方差适配器,预测出具有目标说话人说话风格的语音风格信息。将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征。根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
基于此,本申请实施例通过获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
请参阅图9,本申请实施例还提供一种语音合成装置,可以实现上述语音合成方法,该装置包括:
第一获取模块910,用于获取源说话人数据,根据源说话人数据得到源说话人特征向量;
第二获取模块920,用于从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;
第一生成模块930,用于根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
第二生成模块940,用于将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
合成模块950,用于根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
在本申请的一些实施例中,第一获取模块910获取源说话人数据,根据源说话人数据得到源说话人特征向量;第二获取模块920从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;第一生成模块930根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;第二生成模块940将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;合成模块950根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
在本申请的一些实施例中,获取源说话人数据,根据源说话人数据得到源说话人特征向量。源说话人数据可以为使用者自身的语音数据,语音数据可以包括但不限于梅尔谱图、语音波形。可以根据源说话人数据得到源说话人特征向量,例如,根据源说话人身份标识获取源说话人数据,从源说话人数据中提取源说话人语音特征,将源说话人语音特征转换成源说话人特征向量。
在本申请的一些实施例中,从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量。在语音数据库中包括有大量不同说话风格的目标说话人数据,可以从语音数据库获取使用者想要进行语音合成的目标说话人数据。再从目标说话人数据中提取出内容表示特征向量和风格表示特征向量。具体地,可以从目标说话人数据中获取内容提示和风格提示,可以通过内容编码器对内容提示进行编码,以提取得到内容表示特征向量,还可以通过风格编码器对风格提示进行编码,以提取得到风格表示特征向量。
在本申请的一些实施例中,根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息。其中,内容表示特征向量可以表征目标说话人的说话内容信息,风格表示特征向量可以表征目标说话人的说话风格信息。具体地,可以通过音素编码器对内容表示特征向量进行编码处理,得到韵律特征,还可以通过样式自适应层归一化适配器对风格表示特征向量进行归一化处理,得到风格特征,再将韵律特征和风格特征输入至方差适配器,以预测出具有目标说话人说话风格的语音风格信息。
在本申请的一些实施例中,将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征,从而有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,以实现在离散潜在空间中建模表达性TTS,并将语音合成作为语言建模任务,通过在离散潜在空间中建模VQ声学特征。
在本申请的一些实施例中,根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
基于此,本申请实施例的语音合成装置,第一获取模块910获取源说话人数据,根据源说话人数据得到源说话人特征向量;第二获取模块920从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;第一生成模块930根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;第二生成模块940将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;合成模块950根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请通过获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
该语音合成装置的具体实施方式与上述语音合成方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述语音合成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图10,图10示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1001,可以采用通用的CPU(Centra l Process i ngUn it,中央处理器)、微处理器、应用专用集成电路(App l i cat i onSpec i f i c I ntegratedCi rcu it,AS I C)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器1002,可以采用只读存储器(ReadOn l yMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1002可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1002中,并由处理器1001来调用执行本申请实施例的语音合成方法,即通过获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
输入/输出接口1003,用于实现信息输入及输出。
通信接口1004,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WI F I、蓝牙等)实现通信。
总线,在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息。
其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述语音合成方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的语音合成方法、语音合成装置、电子设备及存储介质,通过获取源说话人数据,根据源说话人数据得到源说话人特征向量;从预设的语音数据库获取目标说话人数据,根据目标说话人数据得到内容表示特征向量和风格表示特征向量;根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息;将源说话人特征向量和语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。基于此,通过获取源说话人数据和目标说话人数据,并从中提取得到对应的说话人特征向量、内容表示特征向量和风格表示特征向量,然后根据内容表示特征向量和风格表示特征向量生成具有目标说话人说话风格的语音风格信息,再根据说话人特征向量和语音风格信息生成矢量量化声学特征,最后根据源说话人数据和矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。本申请实施例通过有效地从目标说话人数据中捕获可以表征目标说话人风格信息的矢量量化声学特征,从而能够合成具有目标说话人相同说话风格的目标语音数据,合成效果好,从而优化金融行业中客户使用智能语音客服的体验,提高了企业客服的服务水平。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-On ly Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
获取源说话人数据,根据所述源说话人数据得到源说话人特征向量;
从预设的语音数据库获取目标说话人数据,根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量;
根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
将所述源说话人特征向量和所述语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
根据所述源说话人数据和所述矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
2.根据权利要求1所述的方法,其特征在于,所述获取源说话人数据,根据所述源说话人数据得到源说话人特征向量,包括:
根据源说话人身份标识获取所述源说话人数据;
从所述源说话人数据中提取源说话人语音特征;
将所述源说话人语音特征转换成所述源说话人特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量,包括:
从所述目标说话人数据中获取内容提示和风格提示;
将所述内容提示输入至预设的内容编码器,提取得到所述内容表示特征向量;
将所述风格提示输入至预设的风格编码器,提取得到所述风格表示特征向量。
4.根据权利要求3所述的方法,其特征在于,所述风格编码器包括风格提示嵌入模型、风格嵌入适应层和音频编码器,所述将所述风格提示嵌入输入至预设的风格编码器,提取得到所述风格表示特征向量,包括:
将所述风格提示输入至所述风格提示嵌入模型,得到风格提示嵌入;
将风格提示嵌入输入至所述风格嵌入适应层,得到风格特征信息;
基于所述音频编码器对所述风格特征信息进行风格信息编码,得到所述风格表示特征向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息,包括:
将所述风格表示特征向量输入至预设的样式自适应层归一化适配器,得到归一化的所述风格表示特征向量;
将所述内容表示特征向量和归一化的所述风格表示特征向量输入至预设的音素编码器,得到韵律特征;
将所述韵律特征输入至预设的方差适配器,预测出具有目标说话人说话风格的语音风格信息。
6.根据权利要求3所述的方法,其特征在于,所述从所述目标说话人数据中获取内容提示和风格提示,包括:
通过三阶段训练策略从所述目标说话人数据中获取内容提示和风格提示,其中,所述三阶段训练策略包括:
采用中文数据对预设的RoBERTa模型进行预训练;
使用InfoNCE损失目标来微调预训练的RoBERTa模型;
基于跨模态度量学习构建音频文本检索任务;
在离散潜空间中对梅尔谱图建模,使用HiFi-GAN声码器从梅尔谱图中恢复语音波形。
7.根据权利要求6所述的方法,其特征在于,所述在离散潜空间中对梅尔谱图建模,使用HiFi-GAN声码器从梅尔谱图中恢复语音波形,包括:
采用大规模语音数据集预训练VQ-VAE,使预训练的VQ-VAE将语音信息编码到潜在代码中;
将矢量量化的潜在代码作为预测目标,对离散潜空间中的梅尔谱图进行建模;
利用自监督矢量量化声学特征代替梅尔谱图作为中间预测目标。
8.一种语音合成装置,其特征在于,所述装置包括:
第一获取模块,用于获取源说话人数据,根据所述源说话人数据得到源说话人特征向量;
第二获取模块,用于从预设的语音数据库获取目标说话人数据,根据所述目标说话人数据得到内容表示特征向量和风格表示特征向量;
第一生成模块,用于根据所述内容表示特征向量和所述风格表示特征向量生成具有目标说话人说话风格的语音风格信息;
第二生成模块,用于将所述源说话人特征向量和所述语音风格信息输入至预设的离散扩散概率模型,生成矢量量化声学特征;
合成模块,用于根据所述源说话人数据和所述矢量量化声学特征合成具有目标说话人声学特征的目标语音数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410427075.1A CN118262697A (zh) | 2024-04-09 | 2024-04-09 | 语音合成方法和装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410427075.1A CN118262697A (zh) | 2024-04-09 | 2024-04-09 | 语音合成方法和装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118262697A true CN118262697A (zh) | 2024-06-28 |
Family
ID=91604986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410427075.1A Pending CN118262697A (zh) | 2024-04-09 | 2024-04-09 | 语音合成方法和装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118262697A (zh) |
-
2024
- 2024-04-09 CN CN202410427075.1A patent/CN118262697A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN108231062A (zh) | 一种语音翻译方法及装置 | |
CN116611459B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN116312463A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116386594A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116543768A (zh) | 模型的训练方法、语音识别方法和装置、设备及存储介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
Kazakova et al. | Analysis of natural language processing technology: Modern problems and approaches | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116665639A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116665638A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116469370A (zh) | 目标语言语音合成方法和装置、电子设备、存储介质 | |
CN116631434A (zh) | 基于转换系统的视频语音同步方法、装置、电子设备 | |
CN116645961A (zh) | 语音识别方法、语音识别装置、电子设备及存储介质 | |
CN116543797A (zh) | 基于语音的情感识别方法和装置、电子设备及存储介质 | |
CN116580691A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN115995225A (zh) | 模型训练方法和装置、语音合成方法、设备及存储介质 | |
CN115620702A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN115273805A (zh) | 基于韵律的语音合成方法和装置、设备、介质 | |
CN118262697A (zh) | 语音合成方法和装置、电子设备及存储介质 | |
CN114333903A (zh) | 一种语音转换方法、装置、电子设备及存储介质 | |
CN116564274A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |