CN113822017A - 基于人工智能的音频生成方法、装置、设备及存储介质 - Google Patents

基于人工智能的音频生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113822017A
CN113822017A CN202110620109.5A CN202110620109A CN113822017A CN 113822017 A CN113822017 A CN 113822017A CN 202110620109 A CN202110620109 A CN 202110620109A CN 113822017 A CN113822017 A CN 113822017A
Authority
CN
China
Prior art keywords
audio data
vector
text
reference audio
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110620109.5A
Other languages
English (en)
Inventor
郑艺斌
李新辉
苏文超
卢鲤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110620109.5A priority Critical patent/CN113822017A/zh
Publication of CN113822017A publication Critical patent/CN113822017A/zh
Priority to PCT/CN2022/090951 priority patent/WO2022252904A1/zh
Priority to US18/123,695 priority patent/US20230230571A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:对目标对象的多个音频数据进行采样处理,得到目标对象的参考音频数据;对目标对象的参考音频数据进行音频编码处理,得到参考音频数据的参考嵌入向量;对参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到目标对象的音色嵌入向量;对目标文本进行文本编码处理,得到目标文本的内容嵌入向量;基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据。通过本申请,能够提高音频合成的稳定性。

Description

基于人工智能的音频生成方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中对于音频的合成方式比较粗糙,通常是直接对目标对象的音频数据进行特征提取,并基于提取到的目标对象的嵌入向量进行合成,以得到合成的音频数据,这种合成方式无法实现音频的精准合成,从而影响用户体验正常的音频合成。
发明内容
本申请实施例提供一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质,能够提高音频合成的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的音频生成方法,包括:
对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
本申请实施例提供一种基于人工智能的音频生成装置,包括:
采样模块,用于对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
音频编码模块,用于对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
注意力模块,用于对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
文本编码模块,用于对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
合成模块,用于基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
上述技术方案中,所述注意力模块还用于对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个所述对象音色的权重;
基于多个所述对象音色的权重,对多个所述对象音色的嵌入向量进行加权求和处理,得到所述目标对象的音色嵌入向量。
上述技术方案中,所述音频编码模块还用于对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量;
对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量。
上述技术方案中,所述音频编码是通过参考编码器实现的,所述参考编码器包括多个级联的卷积层;所述音频编码模块还用于通过所述多个级联的卷积层中的第一个卷积层,对所述目标对象的参考音频数据进行卷积处理;
将所述第一个卷积层的卷积结果输出到后续级联的卷积层,以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并
将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。
上述技术方案中,所述音频编码是通过参考编码器实现的,所述参考编码器包括循环神经网络;所述音频编码模块还用于基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息;
基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理,得到所述参考音频数据的重置信息;
基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量。
上述技术方案中,所述音频编码模块还用于对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理,得到拼接向量;
对所述拼接向量进行基于更新门的映射处理,得到所述参考音频数据的更新信息。
上述技术方案中,所述音频编码模块还用于基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到所述参考音频数据的候选嵌入向量;
基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理,得到所述参考音频数据的参考嵌入向量。
上述技术方案中,所述合成模块还用于对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理,得到所述目标文本的对齐向量;
基于所述目标文本的对齐向量进行解码处理,得到所述目标文本的声学特征序列;
对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
上述技术方案中,所述合成模块还用于对所述声学特征序列进行平滑处理,得到对应的频谱数据;
对所述对应的频谱数据进行傅里叶变换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
上述技术方案中,所述音频生成方法是通过调用神经网络模型实现的;所述装置还包括:
训练模块,用于通过初始化的所述神经网络模型对对象样本的参考音频数据进行基于音色的注意力处理,得到所述对象样本的音色嵌入向量;
基于所述对象样本的音色嵌入向量进行对象预测处理,得到所述参考音频数据的预测对象;基于所述参考音频数据的预测对象以及所述对象样本的对象标签,构建所述神经网络模型的第一损失函数;
基于所述第一损失函数更新所述神经网络模型的参数,将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。
上述技术方案中,所述训练模块还用于通过初始化的所述神经网络模型执行以下处理至少之一:
对文本样本进行文本编码处理,得到所述文本样本的内容嵌入向量,并基于所述文本样本的内容嵌入向量构建所述神经网络模型的第二损失函数;
基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量,构建所述神经网络模型的第三损失函数;
其中,所述第二损失函数以及所述第三损失函数中至少之一用于与所述第一损失函数结合,以更新所述神经网络模型的参数。
上述技术方案中,所述训练模块还用于基于所述文本样本的内容嵌入向量进行对象预测处理,得到所述文本样本的预测对象;
基于所述文本样本的预测对象以及所述对象样本的对象标签,构建第四损失函数;
对所述第四损失函数进行反转处理,得到所述神经网络模型的第二损失函数。
上述技术方案中,所述训练模块还用于基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行合成处理,得到符合所述对象样本的音色且与所述文本样本对应的音频数据样本;
基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行对齐预测处理,得到所述文本样本的预测对齐信息;
对所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行强制对齐处理,得到所述文本样本的强制对齐信息;
基于所述文本样本的字符数以及所述音频数据样本的音频帧数进行线性映射处理,得到所述文本样本的线性对齐信息;
基于所述文本样本的预测对齐信息、所述文本样本的强制对齐信息以及所述文本样本的线性对齐信息,构建所述神经网络模型的第三损失函数。
上述技术方案中,所述训练模块还用于基于所述文本样本的线性对齐信息与基于所述文本样本的预测对齐信息的差值,构建第一差异信息;
基于所述文本样本的强制对齐信息与基于所述文本样本的预测对齐信息的差值,构建第二差异信息;
对所述第一差异信息以及所述第二差异信息进行加权求和处理,得到所述神经网络模型的第三损失函数。
本申请实施例提供一种用于音频生成的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的音频生成方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的音频生成方法。
本申请实施例具有以下有益效果:
通过对采样得到的目标对象的参考音频数据进行注意力处理,以提高音色嵌入向量提取的鲁棒性,并结合目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行音频合成处理,以提高音频合成的稳定性,进而基于准确的音色嵌入向量实现精准地个性化音频生成。
附图说明
图1是本申请实施例提供的音频生成系统的应用场景示意图;
图2是本申请实施例提供的用于音频生成的电子设备的结构示意图;
图3-图5是本申请实施例提供的基于人工智能的音频生成方法的流程示意图;
图6是本申请实施例提供的参考编码器的结构示意图;
图7是本申请实施例提供的级联卷积层的结构示意图;
图8是本申请实施例提供的嵌入空间的示意图;
图9是本申请实施例提供的训练流程图;
图10是本申请实施例提供的一种快速有效的语音合成定制模型结构的结构示意图;
图11是本申请实施例提供的参考编码器的具体结构框图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)卷积神经网络(CNN,Convolutional Neural Networks):一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入图像进行平移不变分类(shift-invariantclassification)。
2)循环神经网络(RNN,Recurrent Neural Network):一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive Neural Network)。循环神经网络具有记忆性、参数共享并且图灵完备(Turing Completeness),因此在对序列的非线性特征进行学习时具有一定优势。
3)音素:语音中最小的基本单位,音素是人类能区别一个单词和另一个单词的基础。音素构成音节,音节又构成不同的词和短语。
4)音色:不同音频表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点。不同的发声体由于其材料、结构不同,则发出音频的音色也不同。例如钢琴、小提琴和人发出的声音不一样,每一个人发出的音频也不一样,即音色可以理解为音频的特征。
5)目标对象:真实世界中的真实对象或者虚拟场景中的虚拟对象,例如真实用户、虚拟人物、虚拟动物、动漫人物等。
近几年来,随着计算能力的大规模提升,深度学习技术得到了大规模的研究与运用,进一步推动了语音合成技术的发展。开始涌现出端到端的语音合成声学建模方法。该方法直接从输入的字符或者音素序列上预测对应的声学特征序列,在学术界和工业界上都获得了较为广泛的运用。然而训练一个这样的商用语音合成系统一般都需要数十个小时的数据量,这样的数据要求在许多运用场景上都不太可能。因此,基于少量数据的语音合成定制技术的需求日益迫切。
语音合成定制声学建模方法可以分为两大类:第一种方法,首先在多个说话人(对象)的语料上预训练多说话人模型(也称为平均模型),然后在平均模型的基础上利用说话人少量的数据进行自适应训练;第二种方法,直接从目标说话人的音频中预测说话人嵌入向量,然后将该嵌入向量直接输入到平均模型,没有经过任何模型的微调训练。
然而,相关技术存在以下问题:
1)在说话人嵌入空间建模的采用独热编码对说话人进行表示,该表示信息仅仅能将不同的说话人区分开,但并不含有说话人音色相关的信息,另外一种直接从音频中提取嵌入空间表示的方法,由于是直接从与文本相配对的音频中提取说话人嵌入信息,避免不了引入音频内容相关的信息(比如韵律、风格等),导致待合成的文本和参考音频的内容不一致时合成效果不稳定;
2)在平均模型的设计上,无法保证文本编码器为所有的说话人信息所共享;
3)在语音合成定制模型训练策略上,由于定制语料少和数据稀疏问题经常会导致低效的训练和模型不稳定的情况。
为了解决上述问题,本申请实施例提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质,能够提高音频合成的稳定性。
本申请实施例所提供的基于人工智能的音频生成方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的基于人工智能的音频生成方法,或者,终端向服务器发送针对音频的生成请求(包括目标对象以及目标文本),服务器根据接收的针对音频的生成请求执行基于人工智能的音频生成方法,响应于针对音频的生成请求,基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据,从而实现音频的智能化地精准生成。
本申请实施例提供的用于音频生成的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为音频生成服务,即云端的服务器封装有本申请实施例提供的音频生成的程序。用户通过终端(运行有客户端,例如音响客户端、车载客户端等)调用云服务中的音频生成服务,以使部署在云端的服务器调用封装的音频生成的程序,对目标对象的音频数据进行采样、注意力处理,得到目标对象的音色嵌入向量,并基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据,从而实现音频的智能化地精准生成。
作为一个应用示例,对于音响客户端,目标对象可以是某广播平台的广播员,需要向社区的住户定期广播注意事项、生活小知识等。例如,广播员在音响客户端输入一段目标文本,该文本需要转化为音频,以向社区的住户广播,基于广播员的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合广播员的音色且与目标文本对应的音频数据,以向住户广播生成的音频。
作为另一个应用示例,对于车载客户端,当用户在开车时,不方便通过文本的形式了解信息,但是可以通过读取音频的方式了解信息,避免遗漏重要的信息。例如,用户在开车时,领导向用户发送一段重要会议的文本,需要用户及时读取并处理该文本,则车载客户端接收到该文本后,需要将该文本转化为音频,以向该用户播放该音频,基于领导的音色嵌入向量以及文本的内容嵌入向量进行合成处理,得到符合领导的音色且与文本对应的音频数据,以向用户播放生成的音频,使得用户可以及时读取到领导的音频。
参见图1,图1是本申请实施例提供的音频生成系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200(运行有客户端,例如音响客户端、车载客户端等)可以被用来获取针对音频的生成请求,例如,用户通过终端200输入目标对象以及目标文本,则终端200自动获取目标对象的多个音频数据以及目标文本,并自动生成针对音频的生成请求。
在一些实施例中,终端中运行的客户端中可以植入有音频生成插件,用以在客户端本地实现基于人工智能的音频生成方法。例如,终端200获取针对音频的生成请求(包括目标对象以及目标文本)后,调用音频生成插件,以实现基于人工智能的音频生成方法,对目标对象的音频数据进行采样、注意力处理,得到目标对象的音色嵌入向量,并基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据,从而实现音频的智能化地精准生成,例如,对于录音应用,用户在非录音室场景下,无法进行高质量的个性化声音定制,则在录音客户端中输入一段需要录制的文本,该文本需要转化为个性化的音频,基于个性化的音色嵌入向量以及文本的内容嵌入向量进行合成处理,从而基于准确的音色嵌入向量生成精准的个性化音频,以实现非录音室场景下的个性化声音定制。
在一些实施例中,终端200获取针对音频的生成请求后,调用服务器100的音频生成接口(可以提供为云服务的形式,即音频生成服务),服务器100对目标对象的音频数据进行采样、注意力处理,得到目标对象的音色嵌入向量,并基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据,并将音频数据发送至终端200,例如,对于录音应用,用户在非录音室场景下,无法进行高质量的个性化声音定制,则在终端200中输入一段需要录制的文本,并自动生成针对音频的生成请求,并将针对音频的生成请求发送至服务器100,服务器100基于个性化的音色嵌入向量以及文本的内容嵌入向量进行合成处理,从而基于准确的音色嵌入向量生成精准的个性化音频,并将生成的个性化音频发送至终端200,以响应针对音频的生成请求,实现非录音室场景下的个性化声音定制。
下面说明本申请实施例提供的用于音频生成的电子设备的结构,参见图2,图2是本申请实施例提供的用于音频生成的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于音频生成的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的音频生成装置可以采用软件方式实现,例如,可以是上文所述的终端中的音频生成插件,可以是上文所述的服务器中音频生成服务。当然,不局限于此,本申请实施例提供的音频生成装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器550中的音频生成装置555,其可以是程序和插件等形式的软件,例如音频生成插件,并包括一系列的模块,包括采样模块5551、音频编码模块5552、注意力模块5553、文本编码模块5554、合成模块5555以及训练模块5556;其中,采样模块5551、音频编码模块5552、注意力模块5553、文本编码模块5554、合成模块5555用于实现本申请实施例提供的音频生成功能,训练模块5556用于训练神经网络模型,其中,音频生成方法是通过调用神经网络模型实现的。
如前,本申请实施例提供的基于人工智能的音频生成方法可以由各种类型的电子设备实施。参见图3,图3是本申请实施例提供的基于人工智能的音频生成方法的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,对目标对象的多个音频数据进行采样处理,得到目标对象的参考音频数据。
作为获取目标对象的示例,用户通过终端输入目标对象以及目标文本,则终端自动生成针对音频的生成请求,并将针对音频的生成请求发送至服务器,服务器解析针对音频的生成请求,得到目标对象的标识,并基于目标对象的标识从数据库中获取目标对象的多个音频数据,对多个音频数据进行随机采样,将采样得到的音频数据作为目标对象的参考音频数据,从而通过随机采样保证后续得到的参考嵌入向量与音频数据的内容和句子无关。
例如,任一目标对象(即说话人m),从目标对象对应的语料中随机采样出一个音频作为参考音频yr=yRandom(N),其中,Random(N)表示[1,N]中的任意正整数,N表示目标对象的所有音频的文本数。
在步骤102中,对目标对象的参考音频数据进行音频编码处理,得到参考音频数据的参考嵌入向量。
例如,将目标对象的参考音频数据作为参考编码器的输入,通过参考编码器对随机采样得到的参考音频数据(变长的音频序列)进行音频编码处理,得到参考音频数据的参考嵌入向量,以便后续基于参考嵌入向量进行注意力处理,以构建一个更加鲁棒、准确的对象嵌入空间,从而提高了生成音频的自然度和与目标对象的相似度。
在一些实施例中,对目标对象的参考音频数据进行音频编码处理,得到参考音频数据的参考嵌入向量,包括:对目标对象的参考音频数据进行卷积处理,得到参考音频数据的卷积嵌入向量;对参考音频数据的卷积嵌入向量进行前向编码处理,得到参考音频数据的参考嵌入向量。
如图6所示,通过参考编码器中级联的卷积层对对目标对象的参考音频数据进行卷积处理,得到参考音频数据的卷积嵌入向量,然后通过参考编码器中的循环神经网络对参考音频数据的卷积嵌入向量进行前向编码处理,得到参考音频数据的参考嵌入向量。
在一些实施例中,音频编码是通过参考编码器实现的,参考编码器包括多个级联的卷积层;对目标对象的参考音频数据进行卷积处理,得到参考音频数据的卷积嵌入向量,包括:通过多个级联的卷积层中的第一个卷积层,对目标对象的参考音频数据进行卷积处理;将第一个卷积层的卷积结果输出到后续级联的卷积层,以在后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并将最后一个卷积层输出的卷积结果作为参考音频数据的卷积嵌入向量。
如图7所示,第1个卷积层对参考音频数据进行卷积编码,并将卷积结果输出到第2个卷积层,第2个卷积层继续进行卷积编码和卷积结果输出,直至输出到第J个卷积层,通过第J个卷积层对第J-1个卷积层输出的卷积结果进行卷积编码,得到参考音频数据的卷积嵌入向量,其中,J为多个级联的卷积层的总数,J为大于1的正整数。
在一些实施例中,音频编码是通过参考编码器实现的,参考编码器包括循环神经网络;对参考音频数据的卷积嵌入向量进行前向编码处理,得到参考音频数据的参考嵌入向量,包括:基于循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量更新处理,得到参考音频数据的更新信息;基于循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量重置处理,得到参考音频数据的重置信息;基于参考音频数据的更新信息以及参考音频数据的重置信息,对参考音频数据的卷积嵌入向量进行上下文编码处理,得到参考音频数据的参考嵌入向量。
例如,循环神经网络能够解决长依赖的问题,循环神经网络包括两个门:分别是更新门和重置门。更新门用于控制前一状态的隐藏向量被带入到当前状态中的程度,更新门的值越大说明前一状态的带入隐藏向量越多;重置门控制前一状态有多少信息被写入到当前的候选集上,重置门的值越小,前一状态的信息被写入的越少。通过循环神经网络中的更新门,结合循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量更新处理,得到参考音频数据的更新信息zt,通过循环神经网络中的重置门,结合循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量重置处理,得到参考音频数据的重置信息rt;基于参考音频数据的更新信息以及参考音频数据的重置信息,对参考音频数据的卷积嵌入向量进行上下文编码处理,得到参考音频数据的参考嵌入向量yt
在一些实施例中,基于循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量更新处理,得到参考音频数据的更新信息,包括:对循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行拼接处理,得到第一拼接向量;对第一拼接向量进行基于更新门的映射处理,得到参考音频数据的更新信息。
例如,向量更新处理的过程如下公式所示:zt=σ(Wz·[ht-1,xt],其中,σ表示激活函数,Wz表示更新门的可学习参数,ht-1表示循环神经网络的隐藏向量,xt表示参考音频数据的卷积嵌入向量,[.]表示拼接处理,zt表示参考音频数据的更新信息。
在一些实施例中,基于循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行向量重置处理,得到参考音频数据的重置信息,包括:对循环神经网络的隐藏向量以及参考音频数据的卷积嵌入向量进行拼接处理,得到第二拼接向量;对第二拼接向量进行基于重置门的映射处理,得到参考音频数据的重置信息。
例如,向量重置处理的过程如下公式所示:rt=σ(Wr·[ht-1,xt],其中,σ表示激活函数,Wr表示重置门的可学习参数,ht-1表示循环神经网络的隐藏向量,xt表示参考音频数据的卷积嵌入向量,[.]表示拼接处理,rt表示参考音频数据的重置信息。
在一些实施例中,基于参考音频数据的更新信息以及参考音频数据的重置信息,对参考音频数据的卷积嵌入向量进行上下文编码处理,得到参考音频数据的参考嵌入向量,包括:基于目标对象的重置信息、循环神经网络的隐藏向量以及目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到参考音频数据的候选嵌入向量;基于目标对象的更新信息、循环神经网络的隐藏向量以及参考音频数据的候选嵌入向量进行向量映射处理,得到参考音频数据的参考嵌入向量。
例如,基于候选向量的映射处理的过程如下公式所示:
Figure BDA0003099494660000151
Figure BDA0003099494660000153
其中,Wr表示可学习参数,ht-1表示循环神经网络的隐藏向量,xt表示参考音频数据的卷积嵌入向量,[.]表示拼接处理,*表示矩阵的乘积,zt表示参考音频数据的更新信息,rt表示参考音频数据的重置信息,
Figure BDA0003099494660000152
表示参考音频数据的候选嵌入向量。
例如,向量映射处理的过程如下公式所示:
Figure BDA0003099494660000161
Figure BDA0003099494660000162
其中,o表示可学习参数,σ表示激活函数,yt表示参考音频数据的参考嵌入向量。
在步骤103中,对参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到目标对象的音色嵌入向量。
例如,在得到参考音频数据的参考嵌入向量后,基于参考嵌入向量进行注意力处理,得到目标对象的音色嵌入向量,其注意力处理能够构建一个更加鲁棒、准确的对象嵌入空间,使得音色嵌入向量与音频的内容与文本分离开,音色嵌入向量可以准确标识目标对象的音色,从而提高了生成音频的自然度和与目标对象的相似度。
参见图4,图4是本申请实施例提供的基于人工智能的音频生成方法的流程示意图,图4示出图3的步骤103可以通过步骤1031-步骤1032实现:在步骤1031中,对参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个对象音色的权重;在步骤1032中,基于多个对象音色的权重,对多个对象音色的嵌入向量进行加权求和处理,得到目标对象的音色嵌入向量。
如图8所示,当基于对象音色的嵌入空间存在4个对象(即对象音色),分别为A、B、C、D,对参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到对象音色A的权重(0.3)、对象音色B的权重(0.4)、对象音色C的权重(0.1)、对象音色D的权重(0.2),基于4个对象音色的权重,对4个对象音色的嵌入向量进行加权求和处理,得到目标对象的音色嵌入向量(即说话人嵌入向量)。
在步骤104中,对目标文本进行文本编码处理,得到目标文本的内容嵌入向量。
作为获取目标文本的示例,用户通过终端输入目标对象以及目标文本,则终端自动生成针对音频的生成请求,并将针对音频的生成请求发送至服务器,服务器解析针对音频的生成请求,得到目标文本,并通过文本编码器对目标文本进行文本编码,得到目标文本的内容嵌入向量,以便后续结合音色嵌入向量进行音频合成,以实现个性化音频定制。
在步骤105中,基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据。
例如,由于音色嵌入向量能够精准地表征目标对象的音色,因此基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行音频合成,能够得到符合目标对象的音色且与目标文本对应的音频数据,该合成的音频数据与目标对象真实的音频数据相似,使得合成的音频数据更加逼真。
在一些实施例中,基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据,包括:对目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行对齐处理,得到目标文本的对齐向量;基于目标文本的对齐向量进行解码处理,得到目标文本的声学特征序列;对声学特征序列进行声学特征转换,得到符合目标对象的音色且与目标文本对应的音频数据。
例如,对齐向量的值为当前声学特征对输入的目标文本中的每一个字符选择的概率(或关注的程度),表征了输入的目标文本序列和输出音频序列的对齐关系。基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行对齐预测处理,得到目标文本的对齐向量,并基于目标文本的对齐向量进行解码处理,得到目标文本的声学特征序列,通过声码器(Vocoder)对声学特征序列进行声学特征转换,得到符合目标对象的音色且与目标文本对应的音频数据,即将声学特征序列转换为与输入的目标文本序列相匹配的合成语音数据。其中,声学特征序列具体可以为梅尔频谱图(Mel-Spectrogram)序列,声学特征序列中每个音素对应的声学特征均为目标对象的声学特征,例如,目标文本序列的长度为100(即包括100个字符),那么可以将每个字符对应的声学特征都确定为目标对象的声学特征,那么可以将100个字符对应的声学特征组成声学特征序列,当声学特征为1*5维的向量,那么声学特征序列包括100个1*5维的向量,可以组成100*5维的向量。
其中,声码器具体可以为WaveGlow网络(一种依靠流的从梅尔频谱图合成高质量语音的网络),可以实现并行化的语音合成,或者可以为SqueezeWave网络(一种可用于移动端语音合成的轻量级的流模型),可以有效提升语音合成的速度,或者还可以使用诸如Griffin-Lim、WaveNet、Parallel的声码器将声学特征序列合成语音,可以根据实际需要选取合适的声码器,本申请实施例对此不做限制。
承接上述示例,声学特征转换的过程如下:对声学特征序列进行平滑处理,得到对应的频谱数据;对对应的频谱数据进行傅里叶变换,得到符合目标对象的音色且与目标文本对应的音频数据。
参见图5,图5是本申请实施例提供的基于人工智能的音频生成方法的流程示意图,音频生成方法是通过调用神经网络模型实现的,图5示出图3的还包括神经网络模型的训练过程,即训练步骤106-步骤109实现:在步骤106中,通过初始化的神经网络模型对对象样本的参考音频数据进行基于音色的注意力处理,得到对象样本的音色嵌入向量;在步骤107中,基于对象样本的音色嵌入向量进行对象预测处理,得到参考音频数据的预测对象;在步骤108中,基于参考音频数据的预测对象以及对象样本的对象标签,构建神经网络模型的第一损失函数;在步骤109中,基于第一损失函数更新神经网络模型的参数,将神经网络模型的更新的参数作为训练后的神经网络模型的参数。
例如,神经网络模型包括参考编码器、第一分类器,为了能够得到与音频的内容和句子独立的音色嵌入信息以及加大不同对象的区分性,进一步在音色嵌入向量的基础上增加了分类器。对对象样本的多个音频数据进行采样处理,得到对象样本的参考音频数据,通过参考编码器对对象样本的参考音频数据进行音频编码处理,得到参考音频数据的参考嵌入向量,对参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到对象样本的音色嵌入向量,通过第一分类器对对象样本的音色嵌入向量进行对象预测处理,得到参考音频数据的预测对象(即参考音频数据的预测说话人的概率),当基于参考音频数据的预测对象以及对象样本的对象标签(即真实的说话人标签),确定神经网络模型的第一损失函数的值后,可以判断第一损失函数的值是否超出预设阈值,当第一损失函数的值超出预设阈值时,基于第一损失函数确定神经网络模的误差信号,将误差信息在神经网络模中反向传播,并在传播的过程中更新各个层的模型参数。
作为示例,第一损失函数的计算公式为
Figure BDA0003099494660000191
其中,N表示对象样本m的音频的文本数,
Figure BDA0003099494660000192
表示为基于音色嵌入向量预测的对象概率,
Figure BDA0003099494660000193
表示对象标签,CE表示交叉熵损失,Lspk表示第一损失函数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值,即根据输出结果与实际值之间的误差构建损失函数,并逐层求出损失函数对模型参数的偏导数,生成损失函数对各层模型参数的梯度,由于梯度的方向表明误差扩大的方向,因此对模型参数的梯度取反,与以各层模型的原始参数求和,将得到的求和结果作为更新后的各层模型参数,从而减小模型参数引起的误差;不断迭代上述过程,直至收敛。
在一些实施例中,更新神经网络模型的参数之前,通过初始化的神经网络模型执行以下处理至少之一:对文本样本进行文本编码处理,得到文本样本的内容嵌入向量,并基于文本样本的内容嵌入向量构建神经网络模型的第二损失函数;基于对象样本的音色嵌入向量以及文本样本的内容嵌入向量,构建神经网络模型的第三损失函数;其中,第二损失函数以及第三损失函数中至少之一用于与第一损失函数结合(结合的方式可以是加和,还可以是基于注意力机制的加权求和等),以更新神经网络模型的参数。
例如,神经网络模型还包括文本编码器、第二分类器,为了最大化不同对象之间可以共享的信息,即文本编码器被所有对象共享,在文本编码器端引入了对抗训练机制,即在文本编码器后面加入带梯度反转层(Gradient Reversal Layer)的分类器,阻止文本编码捕捉对象信息。通过文本编码器对文本样本进行文本编码处理,得到文本样本的内容嵌入向量,通过第二分类器对文本样本的内容嵌入向量进行对象预测处理,得到文本样本的预测对象,基于文本样本的预测对象以及对象样本的对象标签,构建第四损失函数,对第四损失函数进行反转处理,得到神经网络模型的第二损失函数。
作为示例,第四损失函数的计算公式为
Figure BDA0003099494660000201
其中,μ表示缩放因子,N表示对象样本m的音频的文本数,
Figure BDA0003099494660000202
表示为基于文本嵌入向量预测的对象概率,
Figure BDA0003099494660000203
表示对象标签,CE表示交叉熵损失,第二损失函数的计算公式为Ltxt=-L1
例如,为了帮助语音合成在少量数据下更好地学习得到文本和音频之间的对齐关系,利用了文本和音频之间存在的一些关系来训练神经网络模型,即引入了两种不同的文本与音频之间的预对齐信息。基于对象样本的音色嵌入向量以及文本样本的内容嵌入向量进行合成处理,得到符合对象样本的音色且与文本样本对应的音频数据样本,首先,基于对象样本的音色嵌入向量以及文本样本的内容嵌入向量进行对齐预测处理,得到文本样本的预测对齐信息αt′t,然后,对对象样本的音色嵌入向量以及文本样本的内容嵌入向量进行基于语音识别的强制对齐处理,得到文本样本的强制对齐信息
Figure BDA0003099494660000204
基于文本样本的字符数以及音频数据样本的音频帧数进行线性映射处理,得到文本样本的线性对齐信息A′t′t;基于文本样本的预测对齐信息、文本样本的强制对齐信息以及文本样本的线性对齐信息,构建神经网络模型的第三损失函数。
其中,文本样本的线性对齐信息A′t′t是假定文本与音频之间存在接近于线性单调的对应关系(即对齐图,输入文本序列和输出音频序列之间的对齐成对角关系),线性对齐信息的计算公式为
Figure BDA0003099494660000205
其中,T′表示输入的最大文本数,t′表示输入的第t′个文本,T表示输出的最大的音频数,t表示输出的第t个音频帧,g表示缩放因子。
承接上述示例,基于文本样本的预测对齐信息、文本样本的强制对齐信息以及文本样本的线性对齐信息,构建神经网络模型的第三损失函数,包括:基于文本样本的线性对齐信息与基于文本样本的预测对齐信息的差值,构建第一差异信息;基于文本样本的强制对齐信息与基于文本样本的预测对齐信息的差值,构建第二差异信息;对第一差异信息以及第二差异信息进行加权求和处理,得到神经网络模型的第三损失函数。
例如,第一差异信息为A′t′tt′t,第二差异信息为
Figure BDA0003099494660000211
第三损失函数的计算公式为
Figure BDA0003099494660000212
其中,αt′t表示预测的文本与音频之间的对齐信息,
Figure BDA0003099494660000213
表示通过自动语音识别(ASR,Automatic SpeechRecognition)得到的文本与音频之间的对齐信息。如果αt′t与A′t′t,或者αt′t
Figure BDA0003099494660000214
差距较大,将会得到很大的惩罚。这种基于多对齐信息的训练策略一方面能够通过引入ASR中得到矩阵
Figure BDA0003099494660000215
来避免缩放因子g的敏感性,另外一方面能够通过A′t′t来避免强制对齐中存在较大的对齐偏差的影响。
下面,将说明本申请实施例在一个实际的语音合成应用场景中的示例性应用。
本申请实施例可以应用于各种语音合成的应用场景(例如,智能音箱、有屏音箱、智能手表、智能手机、智能家居、智能地图、智能汽车等具有语音合成能力的智能设备等,XX新闻、XX听书、在线教育、智能机器人、人工智能客服、语音合成云服务等具有语音合成能力的应用等)中,例如对于车载应用,当用户在开车时,不方便通过文本的形式了解信息,但是可以通过读取语音的方式了解信息,避免遗漏重要的信息,当车载客户端接收到该文本后,需要将该文本转化为语音,以向该用户播放该语音,使得用户可以及时读取到文本对应的语音。
为了解决相关技术中语音合成定制声学建模方法所存在的问题,本申请实施例提出一种基于人工智能的音频生成方法,该方法能够在建模过程中对说话人信息(即对象信息)和文本内容信息进行分离。该方法的说话人信息通过带有随机采样机制和说话人分类器的音频编码器进行特征提取,以保证得到的说话人信息不带有韵律或者风格相关的信息;该方法提出一种对抗训练策略将说话人相关的信息从文本编码器进行剖离;为了让定制训练更加快速有效,充分利用了文本和音频之间的相关性,进一步提出基于多对齐信息的注意力损失来辅助模型进行学习。
为了快速、准确、稳定、高效地进行语音合成声学模型定制,本申请实施例提供了一种基于人工智能的音频生成方法。如图9所示,图9是本申请实施例提供的训练流程图,主要包括三个步骤:
步骤11、数据准备,包括文本预处理、声学特征提取、音素时长信息提取。
步骤12、利用给定的数据训练基于多说话人的语音合成声学模型(即神经网络模型),作为定制声学模型训练的初始模型。
步骤13、利用给定目标说话人的数据,利用本申请实施例提供的方法训练目标说话人的语音合成定制模型。
如图10所示,图10是本申请实施例提供的一种快速有效的语音合成定制模型结构的结构示意图。该结构主要包括带有随机采样机制、说话人注意力模块和说话人分类器的说话人编码器,带有说话人对抗训练的文本编码器和带有多对齐机制指导的基于序列到序列编解码的端到端声学模型。
如图10所示,第一部分是说话人编码器。为了让说话人编码器能够更专注于刻画说话人音色而忽略韵律、风格等音频内容相关的信息,本申请实施例提供了一种带有随机采样机制的说话人编码器(即音频编码器)。对于给定的文本和音频对
Figure BDA0003099494660000221
其中,N表示说话人(即对象)的音频的文本数,首先基于随机采样机制,从说话人m对应的语料中随机采样出一个音频作为参考编码器的输入,如公式(1)所示:
yr=yRandom(N) (1)
其中,Random(N)表示[1,N]中的任意正整数,yr表示从说话人m对应的语料中随机采样出的一个音频,即参考音频,可以基于字符或者音素进行建模,限定最大序列长度为256。
其中,采样得到的音频yr直接送入到参考编码器(Reference Encoder)中进行编码,参考编码器对该变长的音频序列yr进行编码,输出对应的参考嵌入向量(ReferenceEmbedding)。其中,如图11所示,图11是本申请实施例提供的参考编码器的具体结构框图,输入的参考音频经过多层CNN编码(例如6层卷积层)后再送入单向GRU(例如,包括128个节点的门控循环网格)中,然后将单向GRU最后时刻的表示作为参考嵌入向量(ReferenceEmbedding)。
上述参考嵌入向量(Reference Embedding)已经可以直接作为说话人嵌入向量对说话人音色进行控制。为了构建一个更加鲁棒、准确的说话人嵌入空间,本申请实施例进一步引入说话人注意力层,如图10所示,说话人嵌入空间由M个不同类型的说话人令牌(token)(即不同对象)构成,每个说话人m嵌入表示则可以由这M个说话人token的线性组合进行表示,这样将说话人嵌入空间进行进一步的多样化抽象表示能够有利于提升说话人嵌入空间表示的鲁棒性,从而提高了生成音频的自然度和说话人相似度。
为了能够得到与音频的内容和句子独立的说话人嵌入信息以及加大不同说话人的区分性,进一步在说话人嵌入向量的基础上增加了说话人分类器。如图5所示,对于说话人m∈[1,S]中随机采样的音频yr,其中,S表示说话人的数量,说话人损失函数可以表示为基于说话人嵌入向量(即音色嵌入向量)预测的说话人概率
Figure BDA0003099494660000231
(即预测对象的概率)和目标说话人标签
Figure BDA0003099494660000232
之间的交叉熵(CE)损失(即第一损失函数),如公式(2)所示:
Figure BDA0003099494660000233
其中,N表示说话人m的音频的文本数,Lspk表示说话人损失函数,该说话人损失函数有助于从同一说话人的不同音频中获得一致的说话人嵌入向量。
如图10所示,第二部分是基于说话人对抗训练的文本编码器。为了最大化不同说话人之间可以共享的信息,即文本编码器被所有说话人共享,本申请实施例在文本编码器端引入了对抗训练机制,即在文本编码器后面加入带梯度反转层(Gradient ReversalLayer)的说话人分类器,阻止文本编码捕捉说话人信息,如公式(3)所示:
Figure BDA0003099494660000241
其中,μ表示缩放因子,N表示说话人m的音频的文本数,
Figure BDA0003099494660000242
表示为基于文本嵌入向量预测的说话人概率,
Figure BDA0003099494660000243
表示目标说话人标签,CE表示交叉熵损失,Ltxt表示第二损失函数,由于没有必要基于每个说话人学习文本编码器参数,因此对抗训练能够加快训练速度。
如图10所示,第三部分是基于多对齐信息指导的训练策略。为了帮助语音合成定制模型在少量数据下更好地学习得到文本和音频之间的对齐关系,本申请实施例利用了文本和音频之间存在的一些关系来训练模型,即引入了两种不同的文本与音频之间的预对齐信息,其中一种对齐信息来源于语音识别中的强制对齐(Force-Alignment)(即公式(5)中的矩阵
Figure BDA0003099494660000244
),另外一种线性对齐信息是假定文本与音频之间存在接近于线性单调的对应关系(即对齐图,输入文本序列和输出音频序列之间的对齐成对角关系)。其中,线性对齐信息如公式(4)所示:
Figure BDA0003099494660000245
其中,T′表示输入的最大文本数,t′表示输入的第t′个文本,T表示输出的最大的声学特征帧数,t表示输出的第t个声学特征帧,g表示缩放因子(例如0.2)。
其中,多对齐信息的注意力损失函数(即第三损失函数)如公式(5)所示:
Figure BDA0003099494660000246
其中,αt′t表示声学模型学习得到的文本与音频之间的对齐信息,
Figure BDA0003099494660000247
表示通过自动语音识别(ASR,Automatic Speech Recognition)得到的文本与音频之间的对齐信息。如果αt′t与A′t′t,或者αt′t
Figure BDA0003099494660000248
差距较大,将会得到很大的惩罚。这种基于多对齐信息的训练策略一方面能够通过引入ASR中得到矩阵
Figure BDA0003099494660000249
来避免公式(4)中参数g的敏感性,另外一方面能够通过A′t′t来避免ASR强制对齐中存在较大的对齐偏差的影响。
本申请实施例提出的方法在录制的中文语音合成语料上进行测试,采用共60个说话人约120小时的中文普通话语料进行训练。本申请实施例采用自然度和相似度主观平均意见值(MOS,Mean Opinion Score)作为最终评价指标。
对于说话人嵌入空间的验证,比较了三种不同的说话人嵌入空间建模方法,包括相关技术的独热(One-hot)表示法、相关技术的说话人编码方法和本申请实施例提出的说话人编码器(SE)。随机选择一个目标说话人进行消融研究。从实验可知,使用相关技术的说话人编码方法生成的结果是不稳定的,而且合成的文本与参考音频的内容不匹配。
基于20个音频对(不包括在训练集中)对相关技术的独热(One-hot)表示法、以及本申请实施例提出的说话人编码器(SE)进行AB偏好测试,AB偏好测试结果如表1所示:
表1 AB偏好测试
模型 SE One-hot
AB偏好测试 56.1% 20.5%
由表1可知,本申请实施例提出的基于人工智能的音频生成方法能够获得更多的偏好,这是因为提取的说话人嵌入向量包含有助于解码相应说话人的声学特征的说话人特征相关信息。同时,说话人编码器(SE)加入了一个说话人分类器,以保证说话人嵌入向量对不同说话人具有更好的区分性,从而可以更好地控制后续解码过程中的说话人特征,并且本申请实施例所提出的说话人嵌入向量可以预先离线计算,因此在推理过程中不会带来任何额外的计算成本。
在说话人编码器(SE)的基础上,引入一个对抗训练(SE+AT),以消除文本编码器中的说话人信息,其AB偏好测试结果如表2所示:
表2 AB偏好测试
模型 SE+AT SE
AB偏好测试 48.2% 20.3%
由表2可知,增加对抗训练可以进一步提高测试效果,这是因为对抗训练可以最大限度地增加说话者之间可以共享信息。
在极少量语料(每个说话人20句)的定制上,本申请实施例的测试结果如表2所示,基线模型(Baseline)采用目前主流的语音合成定制的方法,本申请实施例提出的语音合成定制模型(Proposed):
表3极少量语料下语音合定制声学模型建模的MOS值
Figure BDA0003099494660000261
由表3可知,本申请实施例提出的一种基于人工智能的音频生成方法取得了相比于Baseline系统更好的性能。
同时,本申请实施例在不同说话人、不同语料规模下也都取得了明显的性能提升,收敛速度也更快,如表4所示:
表4不同说话人不同语料规模下语音合定制声学模型建模的MOS值
Figure BDA0003099494660000262
由上述表可知,本申请实施例提出的一种基于人工智能的音频生成方法在录制的语音合成语料中、在不同的说话人和不同的语料规模下均取得了比相关技术更高的自然度和相似度,合成语音的清晰度、自然度更好,合成语音的频谱细节上也更清晰,另外大大缩短了定制合成模型训练收敛的时间。
综上,本申请实施例提出的一种基于人工智能的音频生成方法具有以下有益效果:
1)从所有的音频数据中随机采样一个音频作为说话人编码器的信息,从而保证得到的说话人嵌入向量跟音频内容和句子无关,另外,进一步引入说话人分类器,确保对不同的说话人有更好的区分性;
2)为了能够更好的学习到说话人无关的文本,引入说话人对抗训练机制,让文本编码器不能区分出文本属于哪个说话人,以最大化不同说话人之间可以共享的信息;
3)充分利用训练文本和音频之间的相关性,引入了多对齐机制的损失函数,从而有效提升了模型收敛的速度和模型稳定性。
至此已经结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的基于人工智能的音频生成方法。本申请实施例还提供音频生成装置,实际应用中,音频生成装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的音频生成装置555,其可以是程序和插件等形式的软件,例如,软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式,下面对不同的实现方式举例说明。
示例一、音频生成装置是移动端应用程序及模块
本申请实施例中的音频生成装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的音频合成任务,并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器,或者在移动端本地保存。
示例二、音频生成装置是服务器应用程序及平台
本申请实施例中的音频生成装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),服务器使用自身的计算资源完成相关的音频合成任务。
本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或单位使用的音频合成平台(用于音频合成)等。
示例三、音频生成装置是服务器端应用程序接口(API,Application ProgramInterface)及插件
本申请实施例中的音频生成装置555可提供为服务器端的API或插件,以供用户调用,以执行本申请实施例的基于人工智能的音频生成方法,并嵌入到各类应用程序中。
示例四、音频生成装置是移动设备客户端API及插件
本申请实施例中的音频生成装置555可提供为移动设备端的API或插件,以供用户调用,以执行本申请实施例的基于人工智能的音频生成方法。
示例五、音频生成装置是云端开放服务
本申请实施例中的音频生成装置555可提供为向用户开发的信息推荐云服务,供个人、群体或单位获取音频。
其中,音频生成装置555包括一系列的模块,包括采样模块5551、音频编码模块5552、注意力模块5553、文本编码模块5554、合成模块5555以及训练模块5556。下面继续说明本申请实施例提供的音频生成装置555中各个模块配合实现音频生成方案。
采样模块5551,用于对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;音频编码模块5552,用于对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;注意力模块5553,用于对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;文本编码模块5554,用于对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;合成模块5555,用于基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
在一些实施例中,所述注意力模块5553还用于对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个所述对象音色的权重;基于多个所述对象音色的权重,对多个所述对象音色的嵌入向量进行加权求和处理,得到所述目标对象的音色嵌入向量。
在一些实施例中,所述音频编码模块5552还用于对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量;对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量。
在一些实施例中,所述音频编码是通过参考编码器实现的,所述参考编码器包括多个级联的卷积层;所述音频编码模块5552还用于通过所述多个级联的卷积层中的第一个卷积层,对所述目标对象的参考音频数据进行卷积处理;将所述第一个卷积层的卷积结果输出到后续级联的卷积层,以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。
在一些实施例中,所述音频编码是通过参考编码器实现的,所述参考编码器包括循环神经网络;所述音频编码模块5552还用于基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息;基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理,得到所述参考音频数据的重置信息;基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量。
在一些实施例中,所述音频编码模块5552还用于对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理,得到拼接向量;对所述拼接向量进行基于更新门的映射处理,得到所述参考音频数据的更新信息。
在一些实施例中,所述音频编码模块5552还用于基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到所述参考音频数据的候选嵌入向量;基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理,得到所述参考音频数据的参考嵌入向量。
在一些实施例中,所述合成模块5555还用于对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理,得到所述目标文本的对齐向量;基于所述目标文本的对齐向量进行解码处理,得到所述目标文本的声学特征序列;对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
在一些实施例中,所述合成模块5555还用于对所述声学特征序列进行平滑处理,得到对应的频谱数据;对所述对应的频谱数据进行傅里叶变换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
在一些实施例中,所述音频生成方法是通过调用神经网络模型实现的;所述装置还包括:训练模块5556,用于通过初始化的所述神经网络模型对对象样本的参考音频数据进行基于音色的注意力处理,得到所述对象样本的音色嵌入向量;基于所述对象样本的音色嵌入向量进行对象预测处理,得到所述参考音频数据的预测对象;基于所述参考音频数据的预测对象以及所述对象样本的对象标签,构建所述神经网络模型的第一损失函数;基于所述第一损失函数更新所述神经网络模型的参数,将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。
在一些实施例中,所述训练模块5556还用于通过初始化的所述神经网络模型执行以下处理至少之一:对文本样本进行文本编码处理,得到所述文本样本的内容嵌入向量,并基于所述文本样本的内容嵌入向量构建所述神经网络模型的第二损失函数;基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量,构建所述神经网络模型的第三损失函数;其中,所述第二损失函数以及所述第三损失函数中至少之一用于与所述第一损失函数结合,以更新所述神经网络模型的参数。
在一些实施例中,所述训练模块5556还用于基于所述文本样本的内容嵌入向量进行对象预测处理,得到所述文本样本的预测对象;基于所述文本样本的预测对象以及所述对象样本的对象标签,构建第四损失函数;对所述第四损失函数进行反转处理,得到所述神经网络模型的第二损失函数。
在一些实施例中,所述训练模块5556还用于基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行合成处理,得到符合所述对象样本的音色且与所述文本样本对应的音频数据样本;基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行对齐预测处理,得到所述文本样本的预测对齐信息;对所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行强制对齐处理,得到所述文本样本的强制对齐信息;基于所述文本样本的字符数以及所述音频数据样本的音频帧数进行线性映射处理,得到所述文本样本的线性对齐信息;基于所述文本样本的预测对齐信息、所述文本样本的强制对齐信息以及所述文本样本的线性对齐信息,构建所述神经网络模型的第三损失函数。
在一些实施例中,所述训练模块5556还用于基于所述文本样本的线性对齐信息与基于所述文本样本的预测对齐信息的差值,构建第一差异信息;基于所述文本样本的强制对齐信息与基于所述文本样本的预测对齐信息的差值,构建第二差异信息;对所述第一差异信息以及所述第二差异信息进行加权求和处理,得到所述神经网络模型的第三损失函数。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的音频生成方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的音频生成方法,例如,如图3-图5示出的基于人工智能的音频生成方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (17)

1.一种基于人工智能的音频生成方法,其特征在于,所述方法包括:
对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量,包括:
对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个所述对象音色的权重;
基于多个所述对象音色的权重,对多个所述对象音色的嵌入向量进行加权求和处理,得到所述目标对象的音色嵌入向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量,包括:
对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量;
对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量。
4.根据权利要求3所述的方法,其特征在于,
所述音频编码是通过参考编码器实现的,所述参考编码器包括多个级联的卷积层;
所述对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量,包括:
通过所述多个级联的卷积层中的第一个卷积层,对所述目标对象的参考音频数据进行卷积处理;
将所述第一个卷积层的卷积结果输出到后续级联的卷积层,以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并
将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。
5.根据权利要求3所述的方法,其特征在于,
所述音频编码是通过参考编码器实现的,所述参考编码器包括循环神经网络;
所述对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量,包括:
基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息;
基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理,得到所述参考音频数据的重置信息;
基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息,包括:
对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理,得到拼接向量;
对所述拼接向量进行基于更新门的映射处理,得到所述参考音频数据的更新信息。
7.根据权利要求5所述的方法,其特征在于,所述基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量,包括:
基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到所述参考音频数据的候选嵌入向量;
基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理,得到所述参考音频数据的参考嵌入向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据,包括:
对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理,得到所述目标文本的对齐向量;
基于所述目标文本的对齐向量进行解码处理,得到所述目标文本的声学特征序列;
对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
9.根据权利要求8所述的方法,其特征在于,所述对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据,包括:
对所述声学特征序列进行平滑处理,得到对应的频谱数据;
对所述对应的频谱数据进行傅里叶变换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述音频生成方法是通过调用神经网络模型实现的;所述神经网络模型的训练过程包括:
通过初始化的所述神经网络模型对对象样本的参考音频数据进行基于音色的注意力处理,得到所述对象样本的音色嵌入向量;
基于所述对象样本的音色嵌入向量进行对象预测处理,得到所述参考音频数据的预测对象;基于所述参考音频数据的预测对象以及所述对象样本的对象标签,构建所述神经网络模型的第一损失函数;
基于所述第一损失函数更新所述神经网络模型的参数,将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。
11.根据权利要求10所述的方法,其特征在于,所述更新所述神经网络模型的参数之前,所述方法还包括:
通过初始化的所述神经网络模型执行以下处理至少之一:
对文本样本进行文本编码处理,得到所述文本样本的内容嵌入向量,并
基于所述文本样本的内容嵌入向量构建所述神经网络模型的第二损失函数;
基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量,构建所述神经网络模型的第三损失函数;
其中,所述第二损失函数以及所述第三损失函数中至少之一用于与所述第一损失函数结合,以更新所述神经网络模型的参数。
12.根据权利要求11所述的方法,其特征在于,所述基于所述文本样本的内容嵌入向量构建所述神经网络模型的第二损失函数,包括:
基于所述文本样本的内容嵌入向量进行对象预测处理,得到所述文本样本的预测对象;
基于所述文本样本的预测对象以及所述对象样本的对象标签,构建第四损失函数;
对所述第四损失函数进行反转处理,得到所述神经网络模型的第二损失函数。
13.根据权利要求11所述的方法,其特征在于,所述基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量,构建所述神经网络模型的第三损失函数,包括:
基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行合成处理,得到符合所述对象样本的音色且与所述文本样本对应的音频数据样本;
基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行对齐预测处理,得到所述文本样本的预测对齐信息;
对所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入向量进行强制对齐处理,得到所述文本样本的强制对齐信息;
基于所述文本样本的字符数以及所述音频数据样本的音频帧数进行线性映射处理,得到所述文本样本的线性对齐信息;
基于所述文本样本的预测对齐信息、所述文本样本的强制对齐信息以及所述文本样本的线性对齐信息,构建所述神经网络模型的第三损失函数。
14.根据权利要求13所述的方法,其特征在于,所述基于所述文本样本的预测对齐信息、所述文本样本的强制对齐信息以及所述文本样本的线性对齐信息,构建所述神经网络模型的第三损失函数,包括:
基于所述文本样本的线性对齐信息与基于所述文本样本的预测对齐信息的差值,构建第一差异信息;
基于所述文本样本的强制对齐信息与基于所述文本样本的预测对齐信息的差值,构建第二差异信息;
对所述第一差异信息以及所述第二差异信息进行加权求和处理,得到所述神经网络模型的第三损失函数。
15.一种基于人工智能的音频生成装置,其特征在于,所述装置包括:
采样模块,用于对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
音频编码模块,用于对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
注意力模块,用于对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
文本编码模块,用于对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
合成模块,用于基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至14任一项所述的基于人工智能的音频生成方法。
17.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时实现权利要求1至14任一项所述的基于人工智能的音频生成方法。
CN202110620109.5A 2021-06-03 2021-06-03 基于人工智能的音频生成方法、装置、设备及存储介质 Pending CN113822017A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110620109.5A CN113822017A (zh) 2021-06-03 2021-06-03 基于人工智能的音频生成方法、装置、设备及存储介质
PCT/CN2022/090951 WO2022252904A1 (zh) 2021-06-03 2022-05-05 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
US18/123,695 US20230230571A1 (en) 2021-06-03 2023-03-20 Audio processing method and apparatus based on artificial intelligence, device, storage medium, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110620109.5A CN113822017A (zh) 2021-06-03 2021-06-03 基于人工智能的音频生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113822017A true CN113822017A (zh) 2021-12-21

Family

ID=78923801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110620109.5A Pending CN113822017A (zh) 2021-06-03 2021-06-03 基于人工智能的音频生成方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20230230571A1 (zh)
CN (1) CN113822017A (zh)
WO (1) WO2022252904A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333762A (zh) * 2022-03-08 2022-04-12 天津大学 基于表现力的语音合成方法、系统、电子设备及存储介质
CN115202767A (zh) * 2022-09-19 2022-10-18 腾讯科技(深圳)有限公司 一种振动控制方法、装置、设备及计算机可读存储介质
WO2022252904A1 (zh) * 2021-06-03 2022-12-08 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
US12087270B1 (en) * 2022-09-29 2024-09-10 Amazon Technologies, Inc. User-customized synthetic voice

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117857892B (zh) * 2024-02-02 2024-05-14 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119217A (ko) * 2019-04-09 2020-10-19 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN112802448B (zh) * 2021-01-05 2022-10-11 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和系统
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112687258B (zh) * 2021-03-11 2021-07-09 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机存储介质
CN113822017A (zh) * 2021-06-03 2021-12-21 腾讯科技(深圳)有限公司 基于人工智能的音频生成方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252904A1 (zh) * 2021-06-03 2022-12-08 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN114333762A (zh) * 2022-03-08 2022-04-12 天津大学 基于表现力的语音合成方法、系统、电子设备及存储介质
CN115202767A (zh) * 2022-09-19 2022-10-18 腾讯科技(深圳)有限公司 一种振动控制方法、装置、设备及计算机可读存储介质
CN115202767B (zh) * 2022-09-19 2022-11-25 腾讯科技(深圳)有限公司 一种振动控制方法、装置、设备及计算机可读存储介质
US12087270B1 (en) * 2022-09-29 2024-09-10 Amazon Technologies, Inc. User-customized synthetic voice

Also Published As

Publication number Publication date
WO2022252904A1 (zh) 2022-12-08
US20230230571A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN111968618B (zh) 语音合成方法、装置
CN113822017A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
US20230122659A1 (en) Artificial intelligence-based audio signal generation method and apparatus, device, and storage medium
CN113450765B (zh) 语音合成方法、装置、设备及存储介质
CN113539242A (zh) 语音识别方法、装置、计算机设备及存储介质
CN112767910A (zh) 音频信息合成方法、装置、计算机可读介质及电子设备
CN112837669B (zh) 语音合成方法、装置及服务器
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
Shankar et al. A Multi-Speaker Emotion Morphing Model Using Highway Networks and Maximum Likelihood Objective.
CN114387946A (zh) 语音合成模型的训练方法和语音合成方法
CN115206284B (zh) 一种模型训练方法、装置、服务器和介质
CN117219052A (zh) 韵律预测方法、装置、设备、存储介质和程序产品
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN117373431A (zh) 音频合成方法、训练方法、装置、设备及存储介质
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
CN113345410A (zh) 通用语音、目标语音合成模型的训练方法及相关装置
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination