CN116312583A - 音色转换方法、装置、存储介质及计算机设备 - Google Patents

音色转换方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN116312583A
CN116312583A CN202310177862.0A CN202310177862A CN116312583A CN 116312583 A CN116312583 A CN 116312583A CN 202310177862 A CN202310177862 A CN 202310177862A CN 116312583 A CN116312583 A CN 116312583A
Authority
CN
China
Prior art keywords
tone
audio data
vector
converted
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310177862.0A
Other languages
English (en)
Inventor
刘子威
赵鑫
程斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhimeiyuansu Technology Co ltd
Original Assignee
Beijing Zhimeiyuansu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhimeiyuansu Technology Co ltd filed Critical Beijing Zhimeiyuansu Technology Co ltd
Priority to CN202310177862.0A priority Critical patent/CN116312583A/zh
Publication of CN116312583A publication Critical patent/CN116312583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音色转换方法、装置、存储介质及计算机设备,涉及人工智能技术领域,主要在于能够提高音色的转换准确度。其中方法包括:获取待转换音频数据和目标音色;将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量;确定目标音色对应的音色特征向量;将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量;将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有目标音色和待转换音频数据中原始语气的音频。本发明适用于对音色进行转换。

Description

音色转换方法、装置、存储介质及计算机设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种音色转换方法、装置、存储介质及计算机设备。
背景技术
随着AI(ArtificialIntelligence,人工智能)技术在内容创作方面的快速发展,AI从只作为用于辅助内容创作的工具,到如今的AIGC(AI Generated Content,利用人工智能技术来生成内容方式)已经能够独立完成对话聊天、视频生成等创意性工作,进化速度十分明显。AIGC已经广泛应用于各类场景,例如音色复刻技术在短视频场景的应用,因此将音频转化为指定音色的音频变得尤为重要。
目前,通常将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换。然而,该算法是针对文本进行音色转换,文本无法获知原始语音中的语气,会导致音色转换后的语音中没有原始语音中的语气,从而导致音色转换的准确度较低。
发明内容
本发明提供了一种音色转换方法、装置、存储介质及计算机设备,主要在于能够提高音色的转换准确度。
根据本发明的第一个方面,提供一种音色转换方法,包括:
获取待转换音频数据和目标音色;
将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
确定所述目标音色对应的音色特征向量;
将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
优选地,在所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量之前,所述方法还包括:
构建预设初始语义预测模型;
获取样本音频数据,以及所述样本音频数据对应的实际语义信息向量;
将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测,得到预测语义信息向量;
基于所述实际语义信息向量和所述预测语义信息向量,构建所述预设初始语义预测模型对应的损失函数;
基于所述损失函数,对所述预设初始语义预测模型进行训练,构建所述预设语义预测模型。
优选地,所述预设语义预测模型为预设编码器,所述预设编码器包括注意力层和前馈神经网络层,所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量,包括:
确定所述待转换音频数据对应的频率特征向量;
将所述频率特征向量输入至所述注意力层进行特征提取,得到所述待转换音频数据对应的第一特征向量;
将所述第一特征向量和所述频率特征向量相加,得到所述待转换音频数据对应的第二特征向量;
将所述第二特征向量输入至所述前馈神经网络层进行特征提取,得到所述待转换音频数据对应的语义信息向量。
优选地,所述确定所述待转换音频数据对应的频率特征向量,包括:
对所述待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;
对所述处理后的音频数据进行傅里叶变换,得到所述待转换音频数据对应的语谱图;
利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的频谱图,并计算所述能量波的对数,得到对数频谱图;
对所述对数频谱图进行离散余弦变换,得到所述待转换音频数据对应的频率特征向量。
优选地,所述将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量,包括:
对所述语义信息向量和所述音色特征向量做交叉卷积处理,得到第一交叉向量;
对所述语义信息向量和所述音色特征向量做低阶交叉处理,得到第二交叉向量;
对所述语义信息向量和所述音色特征向量做交叉线性处理,得到第三交叉向量;
利用预设变换函数对所述第一交叉向量、所述第二交叉向量和所述第三交叉向量做变换处理,得到所述音色交叉特征向量。
优选地,所述将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
获取高斯噪声,并确定针对所述高斯噪声进行去噪的噪声步数索引;
将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频。
优选地,所述预设音色转换模型为预设声码器模型,所述预设声码器模型由位置编码层,降采样层和条件上采样层组成,所述将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
将所述噪声步数索引输入至所述位置编码层,通过所述位置编码层输出降噪特征向量;
将所述降噪特征向量与所述音色交叉特征向量相加,得到融合特征向量;
将所述高斯噪声输入至所述降采样层,得到噪音特征向量;
将所述噪音特征向量和所述融合特征向量输入至所述条件上采样层,得到所述目标音频。
根据本发明的第二个方面,提供一种音色转换装置,包括:
获取单元,用于获取待转换音频数据和目标音色;
语义预测单元,用于将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
确定单元,用于确定所述目标音色对应的音色特征向量;
交叉处理单元,用于将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
音色转换单元,用于将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上音色转换方法。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上音色转换方法。
根据本发明提供的一种音色转换方法、装置、存储介质及计算机设备,与目前将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换的方式相比,本发明通过获取待转换音频数据和目标音色;并将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;与此同时,确定所述目标音色对应的音色特征向量;之后将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;最终将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频,由此通过对音频数据中语音的语义进行分析,得到语义信息向量,之后根据语义信息向量,目标音色对应的音色特征向量来进行音色转换,得到转换后的目标音色,能够使转换音色后的音频中依然包括原始音频中的语气,从而提高了音色的转换准确度,与此同时,通过直接对音频进行分析,能够避免对音素进行分析导致只能对单一语种进行音色转换的问题,从而本发明能够适用于对任意语种进行音色转换,本发明的适用范围更广,同时本发明能够避免每对一种语种进行音色转换均需训练相应模型的问题,因此本发明能够提高音色的转换效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种音色转换方法流程图;
图2示出了本发明实施例提供的另一种音色转换方法流程图;
图3示出了本发明实施例提供的一种音色转换装置的结构示意图;
图4示出了本发明实施例提供的另一种音色转换装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换的方式,不能获知原始音频中的语气,会导致音色转换后的语音中没有原始语音中的语气,从而导致音色转换的准确度较低。
为了解决上述问题,本发明实施例提供了一种音色转换方法,如图1所示,所述方法包括:
101、获取待转换音频数据和目标音色。
其中,待转换音频数据中包括原始音色、语音内容和原始语气;本发明实施例是需要将待转换音频中的原始音色变换为目标音色。
对于本发明实施例,首先音色数据库中存储着各种音色,待转换音频数据可以是提前录制好的音频数据,也可以是现场直接录制的音频数据,或者是在音频设备上截取的音频。当需要对待转换音频数据中的原始音色转换成为目标音色时,直接在音色数据库中获取该目标音色即可,之后确定待转换音频数据中的语义信息(其中,语义信息中包括语气信息),最终根据语义信息和目标音色信息将待转换音频数据转换成为带有目标音色的音频,由此能够得到带有语气和目标音色的音频,提高了音色的转换准确度。
102、将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量。
其中,语义信息向量中包含带转换音频数据中原始音频的语气信息,如感叹语气,惊讶语气,愉快语气和悲伤语气。
对于本发明实施例,在获取待转换音频数据和目标音色后,将利用预设语义预测模型来对待转换音频数据中的语义进行预测,得到语义信息向量,之后根据语义信息向量和目标音色来对待装换音频数据进行音色转换,使得转换后的音频中不仅带有目标音色,还能够带有相应的语气,使得转化音色后的音频能够表达真实情感,增加用户的听觉感受。
103、确定目标音色对应的音色特征向量。
对于本发明实施例,可以预先获取目标音频,并在目标音频中提取出目标音色,也可以直接在音色数据库中获取目标音色,为了将待转换音频数据转换成为带有目标音色的音频,首先需要确定目标音色对应的音色特征,基于此,可以预先确定目标音色对应的频谱特征和时域等特征,之后在频谱特征和时域等特征中提取出音色描述符,并基于音色描述符来构建音色特征向量,最终根据目标音色对应的音色特征向量和待转换音频数据对应的语义信息向量来对待转换音频数据进行音色转换,将待转换音频数据转换成为带有目标音色和对应语气的音频。
104、将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量。
对于本发明实施例,待转换音频数据对应的语义信息向量和目标音色对应的音色特征向量属于不同维度的向量,为了提高音色转换的准确度,需要将语义信息向量和音色特征向量处理为同维度的向量,基于此,可以对语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量,之后就可以将音色交叉特征向量输入至预设音色转换模型中进行音色转换,从而能够提高音色转换模型的预测精度,进而提高音色转换的准确度。
105、将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有目标音色和待转换音频数据中原始语气的音频。
对于本发明实施例,在获取音色交叉特征向量后,将音色交叉特征向量输入至预设音色转换模型中进行音色转换,最终得到带有目标音色和目标语气的转换后的目标音频。由此通过对音频数据中语音的语义进行分析,得到语义信息向量,之后根据语义信息向量,目标音色对应的音色特征向量,得到转换后的目标音色,能够使转换音色后的音频中依然包括原始音频中的语气,从而提高了音色的转换准确度。
根据本发明提供的一种音色转换方法,与目前将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换的方式相比,本发明通过获取待转换音频数据和目标音色;并将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;与此同时,确定所述目标音色对应的音色特征向量;之后将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;最终将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频,由此通过对音频数据中语音的语义进行分析,得到语义信息向量,之后根据语义信息向量,目标音色对应的音色特征向量来进行音色转换,得到转换后的目标音色,能够使转换音色后的音频中依然包括原始音频中的语气,从而提高了音色的转换准确度,与此同时,通过直接对音频进行分析,能够避免对音素进行分析导致只能对单一语种进行音色转换的问题,从而本发明能够适用于对任意语种进行音色转换,本发明的适用范围更广,同时本发明能够避免每对一种语种进行音色转换均需训练相应模型的问题,因此本发明能够提高音色的转换效率。
进一步的,为了更好的说明上述对音色进行转换的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种音色转换方法,如图2所示,所述方法包括:
201、获取待转换音频数据和目标音色。
具体地,可以在播放设备中的某一音频数据中截取待转换音频数据,并且在音色数据库中获取目标音色,在本发明另一实施例中,若用户感觉某一个播放器中的正在播报的音频中的音色比较好听,可以在该播放器中截取出带有目标音色的音频,并在带有目标音色的音频中获取目标音色。
202、构建预设初始语义预测模型,并获取样本音频数据,以及样本音频数据对应的实际语义信息向量。
其中样本音频数据可以为包含多个语种的音频数据,实际语义信息向量是指样本音频数据中包含的标准语气对应的语义信息向量。
203、将样本音频数据输入至预设初始语义预测模型中进行语义预测,得到预测语义信息向量。
204、基于实际语义信息向量和预测语义信息向量,构建预设初始语义预测模型对应的损失函数。
205、基于损失函数,对预设初始语义预测模型进行训练,构建预设语义预测模型。
对于本发发明实施例,为了提高预设语义预测模型的预测精度,首先需要构建预设语义预测模型,基于此,所述方法包括,首先构建预设初始语义预测模型,与此同时,获取多语种样本音频数据,其中,该多语种可以包括英语、汉语、法语等语种,样本音频数据中包含原始音色和语音内容,在获取多语种样本音频数据后,还需要在多语种样本音频数据中提取实际语义信息向量。进一步地,对样本音频数据依次进行预处理、傅里叶变换处理、梅尔滤波器组处理和反离散变换处理,得到多语种样本音频数据对应的样本音频特征向量,之后将样本音频特征向量输入至预设初始语义预测模型中进行语义预测,得到多语种样本音频数据对应的预测语义信息向量,之后基于实际语义信息向量和预测语义信息向量,构建损失函数,并利用损失函数来对预设初始语义预测模型的参数进行调优,最终得到精度较高的预设语义预测模型。进一步地,具体利用损失函数来对预设初始语义预测模型进行训练时,可以采用自监督方式来训练预设初始语义预测模型,具体可以使用Online K-means clustering量化方法优化预设初始语义预测模型的模型参数,最终将优化参数后的预设初始语义预测模型确定为预设语义预测模型。
206、将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量。
其中,预设语义预测模型为预设编码器,预设编码器包括注意力层和前馈神经网络层。
对于本发明实施例,在构建完预设语义预测模型后,需要将待转换音频数据输入至预设语义预测模型中进行语义预测,基于此,步骤206具体包括:确定待转换音频数据对应的频率特征向量;将频率特征向量输入至注意力层进行特征提取,得到待转换音频数据对应的第一特征向量;将第一特征向量和频率特征向量相加,得到待转换音频数据对应的第二特征向量;将第二特征向量输入至前馈神经网络层进行特征提取,得到待转换音频数据对应的语义信息向量。
具体地,为了提高预设语义预测模型的预测精度,首先需要确定待转换音频数据对应的频率特征向量,基于此,所述方法包括:对待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;对处理后的音频数据进行傅里叶变换,得到待转换音频数据对应的语谱图;利用梅尔滤波器组对语谱图进行滤波,得到梅尔滤波器组输出的带有能量波的频谱图,并计算能量波的对数,得到对数频谱图;对对数频谱图进行离散余弦变换,得到待转换音频数据对应的频率特征向量。
其中,梅尔滤波器组由多个带宽不等的三角滤波器组成。
具体地,在获取待转换音频数据后,为了提高音色转换精度,首先需要去除该音频数据中的冗余数据,基于此,首先可以对音频数据进行预加重处理,得到第一音频数据,进行预加重处理主要是为了去除口唇辐射的影响,增加音频数据中语音的高频分辨率,之后为了保证输入音频信号是平稳的,我们需要将第一音频数据分成一小段,即分帧处理,得到第二音频数据,之后把每一音频帧里面的抽样点与窗函数中对应元素相乘,即对第二音频数据进行加窗处理,加窗处理是为了解决由于音频信号的非周期截断,导致频谱在整个频带内发生了拖尾现象的泄漏问题,可以使全局更加连续,避免出现吉布斯效应,由此能够得到信号特征明显的处理后的音频数据。进一步地,对处理后的音频数据进行傅里叶变换,将音频数据从时域转换为频域,得到音频数据对应的语谱图,之后利用梅尔滤波器组对语谱图进行滤波,得到每个梅尔滤波器中的能量波,并对每个梅尔滤波器中的能量波取对数,得到对数频谱图,最终对对数频谱图进行离散余弦变换,得到待转换音频数据对应的频率特征向量。
进一步地,在确定待转换音频数据对应的频率特征向量后,需要将频率特征向量输入至预设编码器中进行语义预测,其中,预设编码器可以有多个,每个编码器首尾相连,编码器具体包括注意力层和前馈神经网络层,具体利用编码器提取语义信息向量的方法为:将频率特征向量输入至注意力层进行特征提取,得到第一特征向量,将第一特征向量和频率特征向量相加,得到第二特征向量,之后将第二特征向量输入至第一个编码器的前馈神经网络层中进行特征提取,得到第一个编码器的输出向量,因为本发明实施例中包含多个编码器,且多个编码器之间采用首尾串联的方式,因此将第一个编码器的输出向量输入至第二个编码器中进行特征提取,得到第二个编码器的输出向量,以此将前一个编码器的输出向量作为下一个编码器的输入向量,最终将最后一个编码器的输出向量确定为待转换音频数据对应的语义信息向量。
207、确定目标音色对应的音色特征向量。
具体地,可以利用神经网络模型来提取目标音色对应的音色特征向量,之后将目标音色对应的音色特征向量和待转换音频数据对应的语义信息向量进行交叉处理,最终将交叉处理后的向量输入至预设音色转换模型中进行音色转换。
208、将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量。
对于本发明实施例,为了可以充分利用数据之间的关系,提取更多隐性特征,同时兼顾高阶和低阶的处理,使数据利用更加充分,后面得到的转换结果更加准确,满足实际应用场景的需求,需要对语义信息向量和音色特征向量进行交叉处理,基于此,步骤208具体包括:对语义信息向量和音色特征向量做交叉卷积处理,得到第一交叉向量;对语义信息向量和音色特征向量做低阶交叉处理,得到第二交叉向量;对语义信息向量和音色特征向量做交叉线性处理,得到第三交叉向量;利用预设变换函数对第一交叉向量、第二交叉向量和第三交叉向量做变换处理,得到音色交叉特征向量。
具体地,在实际应用中,目标音色对应的音色特征向量和待转换音频数据对应语义信息向量为不同维度向量,因此,为了提高模型的转换准确度,需要将不同领域的向量处理处理为同纬度的向量,基于此,所述方法为,若语义信息向量为(a1,a2),音色特征向量为(b1,b2),具体交叉处理包括:对语义信息向量和音色特征向量之间做交叉卷积处理,即向量之间所有的元素做笛卡尔积之后,在一定权重下再做卷积变换,得到第一交叉向量为f(w*(a1*b1,a1*b2,a2*b1,a2*b2));与此同时,对语义信息向量和音色特征向量之间做低阶交叉处理,即将语义信息向量和音色特征向量之间各个元素两两组合,做低阶交叉处理,得到第二交叉向量为f(w(a1,a2,b1,b2,)),同时对语义信息向量和音色特征向量之间做交叉线性处理,即向量之间的每个元素做笛卡尔积之后,给每个乘积后的结果赋不同的权重值,再做线性变换,得到第三交叉向量为f(w1*a1*b1,w2*a1*b2,w3*a2*b1,w4*a2*b2),最终将以上三种处理结果结合在一起,利用预设变换函数做变换处理,得到音色交叉特征向量。这里的预设函数可以根据实际情况来设置,本实施例对此不作限制。需要说明的是,上述例举仅是示意性的,并不对本发明实施例进行限制。
209、将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有目标音色和待转换音频数据中原始语气的音频。
对于本发明实施例,在对语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量后,最终需要将音色交叉特征向量输入至预设音色转换模型中进行音色转换,在本发明实施例中,为了提高预设音色转换模型的准换精度,首选需要构建预设音色转换模型,具体构建方法包括,首先获取样本音频数据和样本音色,并确定样本音频数据对应的转换成为样本音色后的实际音频,之后确定样本音频数据对应的样本语义信息向量,与此同时,确定样本音色对应的样本音色特征向量,之后对样本语义信息向量和样本音色特征向量进行交叉处理,得到样本音色交叉特征向量,并将样本音色交叉特征向量输入至预设初始音色转换模型中进行音色转换,得到转换后的音频,之后根据同一样本音频数据对应的转换后的音频和转换后的实际音频,构建损失函数,并利用该损失函数训练预设初始音色转换模型,即不断对预设音色转换模型的模型参数进行优化,最终得到转换精度较高的预设音色转换模型。
进一步地,在构建完转换精度较高的预设音色转换模型后,需要利用该预设音色转换模型对待转换音频数据进行音色转换,基于此,步骤209具体包括:获取高斯噪声,并确定针对所述高斯噪声进行去噪的噪声步数索引;将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频。
其中,噪声步数索引是为音频进行去噪的一个步长,噪声步数索引的数值根据实际情况而设定,本发明实施例对噪声步数索引的数值不做具体限定。
具体地,在确定转换后的语音对应的音色交叉特征向量后,为了对待转换音频数据进行音色转换,还需要首先随机生成一个高斯噪声,与此同时确定去噪过程中的噪声步数索引,最终根据高斯噪声、噪声步数索引和音色交叉特征向量来对待转换音频进行音色转换,基于此,所述方法包括:将所述噪声步数索引输入至所述位置编码层,通过所述位置编码层输出降噪特征向量;将所述降噪特征向量与所述音色交叉特征向量相加,得到融合特征向量;将所述高斯噪声输入至所述降采样层,得到噪音特征向量;将所述噪音特征向量和所述融合特征向量输入至所述条件上采样层,得到所述目标音频。
其中,预设音色转换模型具体可以为基于DDPM(Denoising DiffusionProbabilistic Model,去噪扩散概率模型)的预设声码器模型,所述预设声码器模型包括位置编码层,降采样层和条件上采样层,其中,降采样层由一个2维卷积,两个1维卷积和四个LRelu层(非线性激活层)组成,条件上采样层由两个2维卷积层,两个1维卷积层,两个LRelu层和四个Gated Activation(激活层)组成。
具体地,利用预设声码器模型中的位置编码层对噪声步数索引进行编码,得到降噪特征向量,之后可以将降噪特征向量与音色交叉特征向量进行相加,得到融合特征向量,具体相加的方法可以为将降噪特征向量和音色交叉特征向量进行横向拼接,最终得到融合特征向量,与此同时,将高斯噪声输入至预设声码器模型中的降采样层,通过降采样层中的2维卷积层、1维卷积层和非线性激活层的激活处理后,输出噪音特征向量,之后将噪音特征向量和融合特征向量共同输入至条件上采样层,在条件上采样层中经过LReLU层激活与1维卷积层的卷积最终计算得到初始音频,将初始音频通过Gated Activation层来增加初始音频的非线性,之后将增加非线性后的初始音频与Gated Activation层中的残差相加。并将相加结果输入到2维卷积层进行卷积处理,最后输出带有目标音色的目标音频,从而通过高斯噪声和噪声步数索引的输入,能够去除音频中的噪声,保证获得的目标音频的清晰度。
根据本发明提供的另一种音色转换方法,与目前将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换的方式相比,本发明通过获取待转换音频数据和目标音色;并将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;与此同时,确定所述目标音色对应的音色特征向量;之后将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;最终将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频,由此通过对音频数据中语音的语义进行分析,得到语义信息向量,之后根据语义信息向量,目标音色对应的音色特征向量来进行音色转换,得到转换后的目标音色,能够使转换音色后的音频中依然包括原始音频中的语气,从而提高了音色的转换准确度,与此同时,通过直接对音频进行分析,能够避免对音素进行分析导致只能对单一语种进行音色转换的问题,从而本发明能够适用于对任意语种进行音色转换,本发明的适用范围更广,同时本发明能够避免每对一种语种进行音色转换均需训练相应模型的问题,因此本发明能够提高音色的转换效率。
进一步地,作为图1的具体实现,本发明实施例提供了一种音色转换装置,如图3所示,所述装置包括:获取单元31、语义预测单元32、确定单元33、交叉处理单元34和音色转换单元35。
所述获取单元31,可以用于获取待转换音频数据和目标音色。
所述语义预测单元32,可以用于将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量。
所述确定单元33,可以用于确定所述目标音色对应的音色特征向量。
所述交叉处理单元34,可以用于将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量。
所述音色转换单元35,可以用于将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
在具体应用场景中,为了构建预设语义预测模型,如图4所示,所述装置还包括:构建单元36。
所述构建单元36,可以用于构建预设初始语义预测模型。
所述获取单元31,还可以用于获取样本音频数据,以及所述样本音频数据对应的实际语义信息向量。
所述语义预测单元32,还可以用于将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测,得到预测语义信息向量。
所述构建单元36,具体可以用于基于所述实际语义信息向量和所述预测语义信息向量,构建所述预设初始语义预测模型对应的损失函数。
所述构建单元36,具体还可以用于基于所述损失函数,对所述预设初始语义预测模型进行训练,构建所述预设语义预测模型。
在具体应用场景中,为了对带转换音频数据进行语义预测,所述语义预测单元32,包括第一确定模块321、特征提取模块322和特征相加模块323。
所述第一确定模块321,可以用于确定所述待转换音频数据对应的频率特征向量。
所述特征提取模块322,可以用于将所述频率特征向量输入至所述注意力层进行特征提取,得到所述待转换音频数据对应的第一特征向量。
所述特征相加模块323,可以用于将所述第一特征向量和所述频率特征向量相加,得到所述待转换音频数据对应的第二特征向量。
所述特征提取模块322,具体可以用于将所述第二特征向量输入至所述前馈神经网络层进行特征提取,得到所述待转换音频数据对应的语义信息向量。
在具体应用场景中,为了确定待转换音频数据对应的频率特征向量,所述第一确定模块321,包括预处理子模块、变换子模块、滤波子模块和余弦变换子模块。
所述预处理子模块,可以用于对所述待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据。
所述变换子模块,可以用于对所述处理后的音频数据进行傅里叶变换,得到所述待转换音频数据对应的语谱图。
所述滤波子模块,可以用于利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的频谱图,并计算所述能量波的对数,得到对数频谱图。
所述余弦变换子模块,可以用于对所述对数频谱图进行离散余弦变换,得到所述待转换音频数据对应的频率特征向量。
在具体应用场景中,为了确定音色交叉特征向量,所述交叉处理单元34,包括卷积交叉模块341、低阶交叉模块342、线性交叉模块343和变换模块344。
所述卷积交叉模块341,可以用于对所述语义信息向量和所述音色特征向量做交叉卷积处理,得到第一交叉向量。
所述低阶交叉模块342,可以用于对所述语义信息向量和所述音色特征向量做低阶交叉处理,得到第二交叉向量。
所述线性交叉模块343,可以用于对所述语义信息向量和所述音色特征向量做交叉线性处理,得到第三交叉向量。
所述变换模块344,可以用于利用预设变换函数对所述第一交叉向量、所述第二交叉向量和所述第三交叉向量做变换处理,得到所述音色交叉特征向量。
在具体应用场景中,为了对待转换音频进行音色变换,所述音色转换单元35,包括第二确定模块351和音色转换模块352。
所述第二确定模块351,可以用于获取高斯噪声,并确定针对所述高斯噪声进行去噪的噪声步数索引。
所述音色转换模块352,可以用于将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频。
在具体应用场景中,为了利用预设音色转换模型进行音色转换,所述音色转换模块352,具体可以用于将所述噪声步数索引输入至所述位置编码层,通过所述位置编码层输出降噪特征向量;将所述降噪特征向量与所述音色交叉特征向量相加,得到融合特征向量;将所述高斯噪声输入至所述降采样层,得到噪音特征向量;将所述噪音特征向量和所述融合特征向量输入至所述条件上采样层,得到所述目标音频。
需要说明的是,本发明实施例提供的一种音色转换装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待转换音频数据和目标音色;将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量;确定目标音色对应的音色特征向量;将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量;将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待转换音频数据和目标音色;将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量;确定目标音色对应的音色特征向量;将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量;将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
通过本发明的技术方案,本发明通过获取待转换音频数据和目标音色;并将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;与此同时,确定所述目标音色对应的音色特征向量;之后将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;最终将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频,由此通过对音频数据中语音的语义进行分析,得到语义信息向量,之后根据语义信息向量,目标音色对应的音色特征向量来进行音色转换,得到转换后的目标音色,能够使转换音色后的音频中依然包括原始音频中的语气,从而提高了音色的转换准确度,与此同时,通过直接对音频进行分析,能够避免对音素进行分析导致只能对单一语种进行音色转换的问题,从而本发明能够适用于对任意语种进行音色转换,本发明的适用范围更广,同时本发明能够避免每对一种语种进行音色转换均需训练相应模型的问题,因此本发明能够提高音色的转换效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种音色转换方法,其特征在于,包括:
获取待转换音频数据和目标音色;
将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
确定所述目标音色对应的音色特征向量;
将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
2.根据权利要求1所述的方法,其特征在于,在所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量之前,所述方法还包括:
构建预设初始语义预测模型;
获取样本音频数据,以及所述样本音频数据对应的实际语义信息向量;
将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测,得到预测语义信息向量;
基于所述实际语义信息向量和所述预测语义信息向量,构建所述预设初始语义预测模型对应的损失函数;
基于所述损失函数,对所述预设初始语义预测模型进行训练,构建所述预设语义预测模型。
3.根据权利要求1所述的方法,其特征在于,所述预设语义预测模型为预设编码器,所述预设编码器包括注意力层和前馈神经网络层,所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量,包括:
确定所述待转换音频数据对应的频率特征向量;
将所述频率特征向量输入至所述注意力层进行特征提取,得到所述待转换音频数据对应的第一特征向量;
将所述第一特征向量和所述频率特征向量相加,得到所述待转换音频数据对应的第二特征向量;
将所述第二特征向量输入至所述前馈神经网络层进行特征提取,得到所述待转换音频数据对应的语义信息向量。
4.根据权利要求3所述的方法,其特征在于,所述确定所述待转换音频数据对应的频率特征向量,包括:
对所述待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;
对所述处理后的音频数据进行傅里叶变换,得到所述待转换音频数据对应的语谱图;
利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的频谱图,并计算所述能量波的对数,得到对数频谱图;
对所述对数频谱图进行离散余弦变换,得到所述待转换音频数据对应的频率特征向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量,包括:
对所述语义信息向量和所述音色特征向量做交叉卷积处理,得到第一交叉向量;
对所述语义信息向量和所述音色特征向量做低阶交叉处理,得到第二交叉向量;
对所述语义信息向量和所述音色特征向量做交叉线性处理,得到第三交叉向量;
利用预设变换函数对所述第一交叉向量、所述第二交叉向量和所述第三交叉向量做变换处理,得到所述音色交叉特征向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
获取高斯噪声,并确定针对所述高斯噪声进行去噪的噪声步数索引;
将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频。
7.根据权利要求6所述的方法,其特征在于,所述预设音色转换模型为预设声码器模型,所述预设声码器模型由位置编码层,降采样层和条件上采样层组成,所述将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
将所述噪声步数索引输入至所述位置编码层,通过所述位置编码层输出降噪特征向量;
将所述降噪特征向量与所述音色交叉特征向量相加,得到融合特征向量;
将所述高斯噪声输入至所述降采样层,得到噪音特征向量;
将所述噪音特征向量和所述融合特征向量输入至所述条件上采样层,得到所述目标音频。
8.一种音色转换装置,其特征在于,包括:
获取单元,用于获取待转换音频数据和目标音色;
语义预测单元,用于将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
确定单元,用于确定所述目标音色对应的音色特征向量;
交叉处理单元,用于将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
音色转换单元,用于将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310177862.0A 2023-02-17 2023-02-17 音色转换方法、装置、存储介质及计算机设备 Pending CN116312583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177862.0A CN116312583A (zh) 2023-02-17 2023-02-17 音色转换方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177862.0A CN116312583A (zh) 2023-02-17 2023-02-17 音色转换方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN116312583A true CN116312583A (zh) 2023-06-23

Family

ID=86825096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177862.0A Pending CN116312583A (zh) 2023-02-17 2023-02-17 音色转换方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116312583A (zh)

Similar Documents

Publication Publication Date Title
US11948066B2 (en) Processing sequences using convolutional neural networks
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN109523989B (zh) 语音合成方法、语音合成装置、存储介质及电子设备
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN111710326A (zh) 英文语音的合成方法及系统、电子设备及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN113781995A (zh) 语音合成方法、装置、电子设备及可读存储介质
WO2024055752A9 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN112860871A (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN110930975A (zh) 用于输出信息的方法和装置
CN115641860A (zh) 模型的训练方法、语音转换方法和装置、设备及存储介质
CN113591472A (zh) 歌词生成方法、歌词生成模型训练方法、装置及电子设备
CN115116470B (zh) 音频处理方法、装置、计算机设备和存储介质
CN116312583A (zh) 音色转换方法、装置、存储介质及计算机设备
CN115985320A (zh) 智能设备控制方法、装置、电子设备及存储介质
CN111862931B (zh) 一种语音生成方法及装置
CN116013336A (zh) 音色转换方法、装置、电子设备及存储介质
CN114822500A (zh) 小样本语种的语音识别方法、装置、电子设备及存储介质
Li RETRACTED ARTICLE: Speech-assisted intelligent software architecture based on deep game neural network
Hao et al. Speaker extraction network with attention mechanism for speech dialogue system
CN116266266B (zh) 多音字消歧方法、装置、设备及存储介质
Cheng et al. Audio Texture Manipulation by Exemplar-Based Analogy
CN118193713A (zh) 一种基于虚拟数字专家的知识问答方法和装置
CN119314484A (zh) 一种文本生成方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination