CN116543746A

CN116543746A - 音频处理方法及装置、电子设备、存储介质

Info

Publication number: CN116543746A
Application number: CN202310641242.8A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁; 赵金凤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-04

Abstract

本申请实施例提供了一种音频处理方法及装置、电子设备、存储介质，属于金融技术领域。该方法包括：基于预配置的音频编码器，根据第一音色向量、第一内容向量和第一音高向量生成第一潜变量；对第一潜变量进行潜在关系映射处理，得到第二潜变量；将第一内容向量与获取到的第二音高向量进行对齐处理，得到待处理音频对应的第二内容向量；基于音频编码器，根据第一音色向量、第二内容向量、第二音高向量以及第二潜变量，对初始梅尔频谱进行频谱优化处理，得到优化梅尔频谱。本申请实施例不仅可以改善待处理音频的音质和音高，还可以基于改善后的音频参数对初始梅尔频谱进行优化处理，得到美化过的梅尔频谱，有利于提升声音美化的音频质量。

Description

音频处理方法及装置、电子设备、存储介质

技术领域

本申请涉及金融技术领域，尤其涉及一种音频处理方法及装置、电子设备、存储介质。

背景技术

目前，银行领域中，需要对客户的语音内容进行分析，以进一步确定客户的身份信息是否合规，其中一个主要研究方面在于音合成，即广泛需要对客户进行声音美化，以实现对于客户语音的进一步可靠分析，也就是说，不美化语音不太好对语音进行具体地辨认分析，声音美化的目标在于改善语调和声音的音调，同时保持内容和音色，但目前大多数声音校正方案通常仅专注于语调，但忽略了声音整体的质量，无法较好地改善音频质量，不利于对客户语音进行良好分析，无法准确判断客户的身份信息是否合规。因此，如何提升声音美化的音频质量，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种音频处理方法及装置、电子设备、存储介质，旨在提升声音美化的音频质量。

为实现上述目的，本申请实施例的第一方面提出了一种音频处理方法，所述方法包括：

根据获取到的待处理音频，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量；

基于预配置的音频编码器，根据所述第一音色向量、所述第一内容向量和所述第一音高向量生成与所述待处理音频对应的第一潜变量；

对所述第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量；

将所述第一内容向量与获取到的所述预设标准音频对应的第二音高向量进行对齐处理，得到所述待处理音频对应的第二内容向量；

基于所述音频编码器，根据所述第一音色向量、所述第二内容向量、所述第二音高向量以及所述第二潜变量，对输入到所述音频编码器中的所述待处理音频的初始梅尔频谱进行频谱优化处理，得到所述待处理音频的优化梅尔频谱。

在一些实施例，所述根据获取到的待处理音频，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量，包括：

从获取到的待处理音频中，提取得到所述待处理音频的所述初始梅尔频谱以及所述待处理音频对应的音频向量；

根据所述初始梅尔频谱和所述音频向量，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量。

在一些实施例，所述根据所述初始梅尔频谱和所述音频向量，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量，包括：

将所述初始梅尔频谱分别输入到预配置的音色编码器和内容编码器中，得到由所述音色编码器输出的第一音色向量以及由所述内容编码器输出的第一内容向量；

将所述音频向量输入到预配置的音高编码器中，得到由所述音高编码器输出的第一音高向量。

在一些实施例，所述将所述第一内容向量与获取到的所述预设标准音频对应的第二音高向量进行对齐处理，得到所述待处理音频对应的第二内容向量，包括：

采用动态时间规整算法将所述第一内容向量与获取到的所述预设标准音频对应的第二音高向量进行对齐，得到所述待处理音频对应的第二内容向量。

在一些实施例，所述对所述第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量，包括：

采用潜在关系映射引擎算法，将所述第一潜变量映射为与预设标准音频对应的第三潜变量；

对所述第三潜变量进行数据优化处理，得到与预设标准音频对应的第二潜变量。

在一些实施例，所述对所述第三潜变量进行数据优化处理，得到与预设标准音频对应的第二潜变量，包括：

采用预训练的对数似然模型对所述第三潜变量进行最大似然估计训练。

在一实施例，所述基于预配置的音频编码器，根据所述第一音色向量、所述第一内容向量和所述第一音高向量生成与所述待处理音频对应的第一潜变量之前，还包括：

对预配置的所述音频编码器进行最大化证据下界训练和对抗学习训练。

为实现上述目的，本申请实施例的第二方面提出了一种音频处理装置，所述装置包括：

向量输出模块，用于根据获取到的待处理音频，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量；

第一处理模块，用于基于预配置的音频编码器，根据所述第一音色向量、所述第一内容向量和所述第一音高向量生成与所述待处理音频对应的第一潜变量；

第二处理模块，用于对所述第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量；

对齐处理模块，用于将所述第一内容向量与获取到的所述预设标准音频对应的第二音高向量进行对齐处理，得到所述待处理音频对应的第二内容向量；

优化处理模块，用于基于所述音频编码器，根据所述第一音色向量、所述第二内容向量、所述第二音高向量以及所述第二潜变量，对输入到所述音频编码器中的所述待处理音频的初始梅尔频谱进行频谱优化处理，得到所述待处理音频的优化梅尔频谱。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括内存和处理器，所述内存存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的音频处理方法和装置、电子设备及存储介质,通过待处理音频确定待处理音频对应的音频参数，包括第一音色向量、第一内容向量和第一音高向量，并且基于音频编码器对各个音频参数进行处理而生成相应的第一潜变量，将第一潜变量转换为对应专业音质的潜伏变量，以达到改善待处理音频的音质的目的，并且将第一内容向量与专业音质的第二音高向量进行对齐处理，以达到改善待处理音频的音高的效果，并且基于改善后的音频参数对待处理音频的梅尔频谱进行优化处理，可以得到更加美化的梅尔频谱，有利于提升声音美化的音频质量。

附图说明

图1是本申请一个实施例提供的音频处理方法的流程图；

图2是图1中的步骤S101的流程图；

图3是图2中的步骤S202的流程图；

图4是图1中的步骤S102的流程图；

图5是图1中的步骤S103的流程图；

图6是图5中的步骤S502的流程图；

图7是图1中的步骤S104的流程图；

图8是本申请一个实施例提供的一种音频处理方法的执行流程示意图；

图9是本申请一个实施例提供的音频处理装置的结构示意图；

图10是本申请一个实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智慧相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

目前，在银行场景中，美化可以由具有足够领域知识的专业音响工程师执行，通过操纵商业声乐校正工具来进行，例如Melodyne3、Autotune4等。目前大多数自动音高校正工具已经被证明是一种有吸引力的校正工具，但它们可能表现出较弱的对准精度或音高精度，还可能导致调谐录音和参考录音在语音风格上表现为同质。此外，由于通常仅专注于语调，容易忽略了整体的质量，即忽略了音频质量和音色。

基于此，本申请实施例提供了一种音频处理方法及装置、电子设备、存储介质，旨在提升声音美化的音频质量，改善音质，通过引入作为美化系统的音频编码器，以实现在保持内容和音色的同时转换语调和声调，这与相关技术中的转换任务有一定不同，实质上转换属于语音转换的一种子任务，也就是说，本申请实施例提供的音频处理方法也可以但不限于适用于语音转换的相关应用条件中，具有广阔的应用前景。

本申请实施例提供的音频处理方法及装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的音频处理方法。

本申请实施例可以基于金融技术对相关的数据进行获取和处理。其中，金融(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

金融基础技术一般包括如传感器、专用金融芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。金融软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的音频处理方法，涉及金融技术领域。本申请实施例提供的音频处理方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智慧手机、平板计算机、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和金融平台等基础云计算服务的云服务器；软件可以是实现音频处理方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可程序设计的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网路而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的资料进行相关处理时，例如在本申请的具体实施方式中需要获取使用者相关的待处理音频等，都会先获得使用者的许可或者同意，而且，对这些资料的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得使用者的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的音频处理方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S105。

步骤S101，根据获取到的待处理音频，确定待处理音频对应的第一音色向量、第一内容向量和第一音高向量；

步骤S102，基于预配置的音频编码器，根据第一音色向量、第一内容向量和第一音高向量生成与待处理音频对应的第一潜变量；

步骤S103，对第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量；

步骤S104，将第一内容向量与获取到的预设标准音频对应的第二音高向量进行对齐处理，得到待处理音频对应的第二内容向量；

步骤S105，基于音频编码器，根据第一音色向量、第二内容向量、第二音高向量以及第二潜变量，对输入到音频编码器中的待处理音频的初始梅尔频谱进行频谱优化处理，得到待处理音频的优化梅尔频谱。

本申请实施例所示意的步骤S101至步骤S105，通过待处理音频确定待处理音频对应的音频参数，包括第一音色向量、第一内容向量和第一音高向量，并且基于音频编码器对各个音频参数进行处理而生成相应的第一潜变量，将第一潜变量转换为对应专业音质的潜伏变量，以达到改善待处理音频的音质的目的，并且将第一内容向量与专业音质的第二音高向量进行对齐处理，以达到改善待处理音频的音高的效果，并且基于改善后的音频参数对待处理音频的梅尔频谱进行优化处理，可以得到更加美化的梅尔频谱，有利于提升声音美化的音频质量。

在一些实施例的步骤S101至S105中，将声音音频的美化任务分为音高校正和音高改进两部分来执行，一是为了校正语调，将待处理音频与作为模板的预设标准音频的音高曲线对齐，然后将对齐后的曲线放在一起重新合成一个新的声音样本；二是为了改善音质，通过潜在关系映射处理将待处理音频的业余音质的潜伏变量转换为专业音质的潜伏变量，以达到改善音质的技术效果。以银行业务为例，通过音高校正和音高改进可以将客户的语音美化为标准语音，然后再将该标准语音与大数据系统中的身份信息进行核对，若匹配则说明该客户为银行的注册客户，则进行注册客户的接待，否则判断其不属于银行的注册客户，需要该客户先进行注册，再进行接待。

在一些实施例的步骤S101中，获取到的待处理音频可以为实时获取到的，也可以是预先获取到的，此处并未限定；待处理音频可以为歌唱者的声音音频，也可以为普通说话人，包括演讲人、特殊情形下的说话人等，即对于待处理音频的来源可以不作限定。

在一些实施例的步骤S101中，音色、内容和音高为声音领域中所熟知的音频参数，本领域技术人员能够清楚地分清楚其含义和差别，为免冗余，在此对其不作赘述。

请参阅图2，在一些实施例中，步骤S101可以包括但不限于包括步骤S201至步骤S202：

步骤S201，从获取到的待处理音频中，提取得到待处理音频的初始梅尔频谱以及待处理音频对应的音频向量；

步骤S202，根据初始梅尔频谱和音频向量，确定待处理音频对应的第一音色向量、第一内容向量和第一音高向量。

本步骤中，通过提取待处理音频的初始梅尔频谱以及待处理音频对应的音频向量，可以获知待处理音频的声音状态，以便于进一步根据初始梅尔频谱和音频向量，确定待处理音频对应的第一音色向量、第一内容向量和第一音高向量。

在一些实施例的步骤S201中，初始梅尔频谱即为待处理音频对应的实际梅尔频谱，该初始梅尔频谱为未经处理、优化过的，属于待处理音频对应的特征梅尔频谱；需要说明的是，音频向量可以但不限于对应于待处理音频的音高特征。

请参阅图3，在一些实施例中，步骤S202可以包括但不限于包括步骤S301至步骤S302：

步骤S301，将初始梅尔频谱分别输入到预配置的音色编码器和内容编码器中，得到由音色编码器输出的第一音色向量以及由内容编码器输出的第一内容向量；

步骤S302，将音频向量输入到预配置的音高编码器中，得到由音高编码器输出的第一音高向量。

本步骤中，通过设置不同的编码器以确保能够分别输出相应的第一音色向量、第一内容向量和第一音高向量，使得各个向量的输出彼此之间不会产生大的影响，有利于从整体上更为可靠地确定待处理音频对应的第一音色向量、第一内容向量和第一音高向量。

在一些实施例的步骤S301和S302中，对于本领域技术人员而言，音色编码器、内容编码器和音高编码器的类型及结构可以根据具体应用场景进行设置，此处不作限定，下面相应处将给出具体实施例进行说明，为免冗余，此处对其不再赘述。

在一些实施例的步骤S102中，音频编码器可以根据具体应用场景进行选择设置，例如可以但不限于设置为条件变分自动编码器(Conditional Variational AutoEncoder,CVAE)等，此处并未限定；其中，条件变分自动编码器具体包括变分自动(Variational Auto Encoder,VAE)编码器和VAE解码器，用于实现对于梅尔频谱的完全处理。

请参阅图4，在一些实施例中，步骤S102之前还可以包括但不限于包括步骤S401：

步骤S401，对预配置的音频编码器进行最大化证据下界训练和对抗学习训练。

本步骤中，通过对预配置的音频编码器进行最大化证据下界训练和对抗学习训练，可以达到优化音频编码器的编码性能的目的，提升音频编码器的鲁棒性。

在一些实施例的步骤S401中，最大化证据下界训练和对抗学习训练的具体应用形式可以为多种，例如采用神经网络的形式等，此处并未限定，且这部分内容为本领域技术人员所熟知，故不作赘述。

请参阅图5，在一些实施例中，步骤S103可以包括但不限于包括步骤S501至S502：

步骤S501，采用潜在关系映射引擎算法，将第一潜变量映射为与预设标准音频对应的第三潜变量；

步骤S502，对第三潜变量进行数据优化处理，得到与预设标准音频对应的第二潜变量。

本步骤中，与预设标准音频对应的第二潜变量、第三潜变量即为专业音质的潜变量，也就是说，采用潜在关系映射引擎算法，将第一潜变量映射为与预设标准音频对应的第三潜变量，可以达到改善音质的技术效果，其中，进一步对第三潜变量进行数据优化处理，得到与预设标准音频对应的第二潜变量，可以实现潜变量的进一步优化，使其应用性能更好。

在一些实施例的步骤S501中，潜在关系映射引擎算法用于改变变量的形式，即能够将普通变量修改为潜变量，其具体呈现形式可以为多种，本领域技术人员可以根据具体应用场景选择相应的潜在关系映射引擎算法进行应用，此处并未限定。

请参阅图6，在一些实施例中，步骤S502可以包括但不限于包括步骤S601：

步骤S601，采用预训练的对数似然模型对第三潜变量进行最大似然估计训练。

本步骤中，通过预训练的对数似然模型对所得到的第三潜变量进行最大似然估计训练，可以实现对于第三潜变量的进一步优化，即可以通过最大似然对应的概率模型，寻找能够以较高概率产生观察数据的系统发生树，可以理解地是，最大似然法是一类完全基于统计的系统发生树重建方法的代表，但不仅限于此，还可以采用类似的训练方式以对第三潜变量进行优化，此处并未限定。

请参阅图7，在一些实施例，步骤S104包括但不限于包括步骤S701：

步骤S701，采用动态时间规整算法将第一内容向量与获取到的预设标准音频对应的第二音高向量进行对齐，得到待处理音频对应的第二内容向量。

本步骤中，通过动态时间规整(Dynamic Time Warping，DTW)算法进行第一内容向量与第二音高向量的对齐，可以更为准确地实现内容向量与专业的音高向量的对齐，从而改善了相关技术中的对齐方法的鲁棒性。

在一些实施例的步骤S701中，时间序列数据可以存在多种相似或距离函数，其中一种较为突出的则是DTW算法。该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数，而DTW算法的训练中几乎不需要额外的计算，因此能够大大降低训练开销。所以在孤立词语音识别中，DTW算法可以得到广泛的应用。

为了更好地说明上述各实施例的工作原理及内容，以下给出一个具体示例进行说明。

示例一:

请参阅图8,示出了本申请实施例的一种音频处理方法的执行流程示意图。

如图8所示，该音频处理方法的执行主要由两阶段组成，具体如下：

第一阶段：主要由音高编码器、内容编码器和音色编码器组成执行，音高编码器可以但不限于由3个卷积层组成，通过接收外部的音频向量(即图8中第一阶段所示的向量“Pitch”或第二阶段所示的“Pitch_a”、“Pitch_p”)以对其进行处理。内容编码器和音色编码器可以按照下面要求设计，例如给定一个唱歌的录音，那么为了获得它的内容向量，可以用语音和唱歌数据训练一个基于Conform的自动语音识别(Automatic Speech Recognition,ASR)模型，并从ASR模型(被视为内容编码器)输出中提取隐藏状态作为语言内容信息，也称为语音后格；针对获取声乐音色方面，利用开源API相似性编码器(similarity blyzer8)作为音色编码器，这是一个为说话人验证设计的深度学习模型，可以提取歌手的身份信息。在上述流程的执行下，基于音高编码器、内容编码器和音色编码器从输入中提取的音高、内容和音色条件，通过CVAE主干重建输入的梅尔谱图(即“初始梅尔频谱”)，并通过最大化证据下界和对抗学习来优化CVAE。

第二阶段，首先根据业余条件(即对应于“待处理音频”)推断出潜变量z_a，其基本方式与第一阶段一致，只不过增加了一个基于各个编码器所生成的音频参数而生成潜变量z_a的步骤，故在此不作赘述；其次，通过DTW算法将业余内容向量z_a(即图8中第二阶段所示的“Pitch_a”)与专业的音高内容向量z_p(即图8中第二阶段所示的“Pitch_p”)对齐，用潜在映射算法将z_a映射到z_p；最后，将专业的音高向量、对齐的业余内容向量和业余音色向量混合，从而获得一个新的条件，该条件与VAE解码器所映射的VAE编码器的z_p一起利用，能够生成一个新的美化的梅尔频谱。

从中可以看出，通过DTW算法将业余内容向量与专业的音高向量进行对齐，可以改善现有时间扭曲方法的鲁棒性；本申请实施例的音频处理方法，不仅可以纠正业余录音的音高，还可以生成音频质量高、音色改善的音频，在这一过程中采用CVAE作为生成高质量音频的骨干，并学习音色的潜在表征，处理效果更好；

为了校正语调，将业余录音与专业音高的曲线对齐，然后将它们放在一起重新合成一个新的歌唱样本，可以大大减小音频处理过程中的误差，同时有利于扩展音频处理的应用场景；并且基于潜伏空间的潜伏映射算法，可以将业余音质的潜伏变量转换为专业音质的潜伏变量，以达到改善音质的技术效果。

请参阅图9，本申请实施例还提供一种音频处理装置，可以实现上述音频处理方法，该装置包括：

向量输出模块，用于根据获取到的待处理音频，确定待处理音频对应的第一音色向量、第一内容向量和第一音高向量；

第一处理模块，用于基于预配置的音频编码器，根据第一音色向量、第一内容向量和第一音高向量生成与待处理音频对应的第一潜变量；

第二处理模块，用于对第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量；

对齐处理模块，用于将第一内容向量与获取到的预设标准音频对应的第二音高向量进行对齐处理，得到待处理音频对应的第二内容向量；

优化处理模块，用于基于音频编码器，根据第一音色向量、第二内容向量、第二音高向量以及第二潜变量，对输入到音频编码器中的待处理音频的初始梅尔频谱进行频谱优化处理，得到待处理音频的优化梅尔频谱。

该音频处理装置的具体实施方式与上述音频处理方法的具体实施例基本相同，属于相同的发明构思，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括内存和处理器，内存存储有计算机程序，处理器执行计算机程序时实现上述音频处理方法。该电子设备可以为包括平板计算机、车载计算机等任意智能终端。

请参阅图10，图10示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

内存902，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取内存(RandomAccessMemory，RAM)等形式实现。内存902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在内存902中，并由处理器901来调用执行本申请实施例的音频处理方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、内存902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、内存902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述音频处理方法。

内存作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序以及非瞬时性计算机可执行程序。此外，内存可以包括高速随机存取内存，还可以包括非瞬时内存，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态内存件。在一些实施方式中，内存可选包括相对于处理器远程设置的内存，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的音频处理方法及装置、电子设备、存储介质,通过待处理音频确定待处理音频对应的音频参数，包括第一音色向量、第一内容向量和第一音高向量，并且基于音频编码器对各个音频参数进行处理而生成相应的第一潜变量，将第一潜变量转换为对应专业音质的潜伏变量，以达到改善待处理音频的音质的目的，并且将第一内容向量与专业音质的第二音高向量进行对齐处理，以达到改善待处理音频的音高的效果，并且基于改善后的音频参数对待处理音频的梅尔频谱进行优化处理，可以得到更加美化的梅尔频谱，有利于提升声音美化的音频质量。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

上述对本申请特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。

例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，例如:

ABEL(Advanced Boolean Expression Language)；AHDL(Altera HardwareDescription Language)；Confluence；CUPL(Cornell University ProgrammingLanguage)；HDCal；以及JHDL(Java Hardware Description Language)；Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等；目前，在本领域技术之中，相比之下更加较为常用的是VHDL(Very-High-Speed Integrated Circuit HardwareDescription Language)以及语言Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：

ARC 625D、Atmel AT91SAM、MicrochIP地址PIC18F26K20以及Silicone LabsC8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据获取到的待处理音频，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量，包括：

3.根据权利要求2所述的音频处理方法，其特征在于，所述根据所述初始梅尔频谱和所述音频向量，确定所述待处理音频对应的第一音色向量、第一内容向量和第一音高向量，包括：

4.根据权利要求1所述的音频处理方法，其特征在于，所述将所述第一内容向量与获取到的所述预设标准音频对应的第二音高向量进行对齐处理，得到所述待处理音频对应的第二内容向量，包括：

5.根据权利要求1所述的音频处理方法，其特征在于，所述对所述第一潜变量进行潜在关系映射处理，得到与预设标准音频对应的第二潜变量，包括：

6.根据权利要求5所述的音频处理方法，其特征在于，所述对所述第三潜变量进行数据优化处理，得到与预设标准音频对应的第二潜变量，包括：

7.根据权利要求1所述的音频处理方法，其特征在于，所述基于预配置的音频编码器，根据所述第一音色向量、所述第一内容向量和所述第一音高向量生成与所述待处理音频对应的第一潜变量之前，还包括：

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括内存和处理器，所述内存存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的音频处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频处理方法。