CN113747337B - 音频处理方法、介质、装置和计算设备 - Google Patents

音频处理方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN113747337B
CN113747337B CN202111033266.2A CN202111033266A CN113747337B CN 113747337 B CN113747337 B CN 113747337B CN 202111033266 A CN202111033266 A CN 202111033266A CN 113747337 B CN113747337 B CN 113747337B
Authority
CN
China
Prior art keywords
audio
sound source
audio signal
spatial
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111033266.2A
Other languages
English (en)
Other versions
CN113747337A (zh
Inventor
赵翔宇
曹偲
刘华平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202111033266.2A priority Critical patent/CN113747337B/zh
Publication of CN113747337A publication Critical patent/CN113747337A/zh
Application granted granted Critical
Publication of CN113747337B publication Critical patent/CN113747337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本公开的实施方式提供了一种音频处理方法、介质、装置和计算设备。该音频处理方法包括:获取待处理音频的音频数据;确定音频数据中的至少一种声源音频信号,声源音频信号为在声场中存在对应时长的分轨音频信号;根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置;根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。本公开通过空间参数对待处理音频进行渲染得到沉浸式效果更好目标音频,而无需获取分轨文件即可得到分离度很高的声源音频信号,并且能够将现有的非沉浸式音频数据转换为沉浸式效果的目标音频,为用户带来了更好的体验。

Description

音频处理方法、介质、装置和计算设备
技术领域
本公开的实施方式涉及沉浸式音频技术领域,更具体地,本公开的实施方式涉及一种音频处理方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
沉浸式音频是将音频声道或者声源音频信号按照3维空间的方位进行渲染达到上下左右包围的效果,例如全景声在电影场景中的应用。
对于音乐场景,为实现沉浸式音频体验,通常将左右2声道音频扩展到多声道音频。具体地,采用的方式是利用声道间的相关性和响度差异,将声道间相同的成分布置在中央声道,将声道间不同的差异成分按响度衰减布置在环绕声道和上方声道。但是,通常情况下声道间的成分差异非常小,导致音频的大部分成分还是从中央声道一个声道发出的,因此按照此方式并不能达到很好的沉浸式音频效果。
发明内容
在本上下文中,本公开的实施方式期望提供一种音频处理方法、介质、装置和计算设备,以解决现有技术无法达到很好的沉浸式音频效果的问题。
在本公开实施方式的第一方面中,提供了一种音频处理方法,包括:获取待处理音频的音频数据;确定音频数据中的至少一种声源音频信号,声源音频信号为在声场中存在对应时长的分轨音频信号;根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置;根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。
在本公开的一个实施例中,确定音频数据中的至少一种声源音频信号包括:对音频数据进行傅里叶变换,得到音频数据对应的频谱;将频谱输入声源音频信号分离模型,得到音频数据对应的分轨音频信号的频谱参数,声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数;将音频数据对应的分轨音频信号的频谱参数进行逆傅里叶变换,得到声源音频信号。
在本公开的另一实施例中,根据预设空间位置摆放规则,获取声源音频信号对应的空间参数包括:根据声源音频信号,确定对应的空间位置摆放模板;空间位置摆放模块包括:根据不同音乐风格预先定义的至少一种声源音频信号对应的空间参数;根据空间位置摆放模板,确定声源音频信号对应的空间参数。
在本公开的又一个实施例中,根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频,包括:根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号;根据目标空间音频信号,得到待处理音频对应的目标音频。
在本公开的又一个实施例中,至少一种声源音频信号包括至少一种音频对象,空间位置摆放模板还包括:音频对象对应的头相关传输函数,声源音频信号对应的空间参数包括音频对象对应的空间位置坐标,头相关传输函数用于描述声波从声源到双耳的传输过程,头相关传输函数根据音频对象的空间位置坐标预先设定,该根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号,包括:基于空间位置模板确定音频对象对应的头相关传输函数;将音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;根据第一空间音频信号确定待处理音频对应的目标空间音频信号。
在本公开的再一个实施例中,至少一种声源音频信号还包括音床信号,音床信号为待处理音频中除音频对象之外的音频信号,空间位置摆放模板还包括:音床信号对应的空间响应函数,空间响应函数用于描述声波在环境中的衰减,空间响应函数根据音床信号的空间参数预先设定,根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号,还包括:基于空间位置模板确定音床信号对应的空间响应函数;将音床信号和空间响应函数进行卷积,得到第二空间音频信号;根据第一空间音频信号和第二空间音频信号,得到目标空间音频信号。
在本公开的再一个实施例中,根据目标空间音频信号,得到待处理音频对应的目标音频,包括:根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,预置播放设备包括:双耳式耳机,预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频,包括:获取双耳式耳机对应的传递函数和正则因子;根据传递函数和正则因子,确定对应的补偿函数;将补偿函数和目标空间音频信号进行卷积,得到目标音频。
在本公开的再一个实施例中,对音频数据进行傅里叶变换,得到音频数据对应的频谱之前,还包括:获取训练样本,训练样本中包括音频数据样本以及音频数据样本对应的声源音频信号;将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号;根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
在本公开的再一个实施例中,声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号,包括:采用K个编码器对音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,i依次取1,2,……,K-1;采用K个解码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,j依次取K,K-1,……,1。
在本公开的再一个实施例中,采用K个编码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,包括:获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;根据第一输出和第二输出,确定关联结果;将关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到音频数据样本对应的训练输出声源音频信号,K依次取K,K-1,……,2。
在本公开的再一个实施例中,根据第一输出和第二输出,确定关联结果,包括:确定第一输出和第二输出的相似因子;根据相似因子和第二输出,确定关联结果。
在本公开的再一个实施例中,确定第一输出和第二输出的相似因子,包括:确定第一输出和第二输出之和为第三输出;对第三输出进行卷积处理,得到相似因子。
在本公开的再一个实施例中,将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号,包括:对音频数据样本进行傅里叶变换,得到音频数据样本对应的频谱;将音频数据样本对应的频谱输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号的频谱;将训练输出声源音频信号的频谱进行逆傅里叶变换,得到训练输出声源音频信号。
在本公开的再一个实施例中,根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型,包括:根据音频数据样本、训练输出声源音频信号和音频数据样本对应的声源音频信号,确定声源音频信号分离模型对应的损失函数;根据损失函数调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
在本公开实施方式的第二方面中,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如上述任一项的方法。
在本公开实施方式的第三方面中,提供了一种音频处理装置,包括:第一获取模块,用于获取待处理音频的音频数据;
确定模块,用于确定音频数据中的至少一种声源音频信号,声源音频信号为在声场中存在对应时长的音频元素;
第二获取模块,用于根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置;
渲染模块,用于根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,确定模块,包括:
第一变换单元,用于对音频数据进行傅里叶变换,得到音频数据对应的频谱;
输入单元,用于将频谱输入声源音频信号分离模型,得到音频数据对应的分轨音频信号的频谱参数,声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数;
第二变换单元,用于将音频数据对应的分轨音频信号的频谱参数进行逆傅里叶变换,得到声源音频信号。
在本公开的再一个实施例中,第二获取模块,包括:
第一确定单元,用于根据声源音频信号,确定对应的空间位置摆放模板;空间位置摆放模块包括:根据不同音乐风格预先定义的至少一种声源音频信号对应的空间参数;
第二确定单元,用于根据空间位置摆放模板,确定声源音频信号对应的空间参数。
在本公开的再一个实施例中,渲染模块,包括:
第三确定单元,用于根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号;
第四确定单元,用于根据目标空间音频信号,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,至少一种声源音频信号包括至少一种音频对象,空间位置摆放模板还包括:音频对象对应的头相关传输函数,声源音频信号对应的空间参数包括音频对象对应的空间位置坐标,头相关传输函数用于描述声波从声源到双耳的传输过程,头相关传输函数根据音频对象的空间位置坐标预先设定,第三确定单元,包括:
第一确定子单元,用于基于空间位置模板确定音频对象对应的头相关传输函数;
第一卷积子单元,用于将音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;
第二确定子单元,用于根据第一空间音频信号确定待处理音频对应的目标空间音频信号。
在本公开的再一个实施例中,至少一种声源音频信号还包括音床信号,音床信号为待处理音频中除音频对象之外的音频信号,空间位置摆放模板还包括:音床信号对应的空间响应函数,空间响应函数用于描述声波在环境中的衰减,空间响应函数根据音床信号的空间参数预先设定,第三确定单元,还包括:
第三确定子单元,用于基于空间位置模板确定音床信号对应的空间响应函数;
第二卷积子单元,用于将音床信号和空间响应函数进行卷积,得到第二空间音频信号;
第四确定子单元,用于根据第一空间音频信号和第二空间音频信号,得到目标空间音频信号。
在本公开的再一个实施例中,第四确定单元,包括:
补偿子单元,用于根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,预置播放设备包括:双耳式耳机,补偿子单元,具体用于:
获取双耳式耳机对应的传递函数和正则因子;
根据传递函数和正则因子,确定对应的补偿函数;
将补偿函数和目标空间音频信号进行卷积,得到目标音频。
在本公开的再一个实施例中,还包括:
第三获取模块,用于获取训练样本,训练样本中包括音频数据样本以及音频数据样本对应的声源音频信号;
输入模块,用于将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号;
调整模块,用于根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
在本公开的再一个实施例中,声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,输入模块,包括:
第一采样单元,用于采用K个编码器对音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,i依次取1,2,……,K-1;
第二采样单元,用于采用K个解码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,j依次取K,K-1,……,1。
在本公开的再一个实施例中,第二采样单元,具体用于:
获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;
根据第一输出和第二输出,确定关联结果;
将关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到音频数据样本对应的训练输出声源音频信号,K依次取K,K-1,……,2。
在本公开的再一个实施例中,第二采样单元在根据第一输出和第二输出,确定关联结果时,具体用于:
确定第一输出和第二输出的相似因子;
根据相似因子和第二输出,确定关联结果。
在本公开的再一个实施例中,二采样单元在确定第一输出和第二输出的相似因子时,具体用于:
确定第一输出和第二输出之和为第三输出;
对第三输出进行卷积处理,得到相似因子。
在本公开的再一个实施例中,输入模块,具体用于:
对音频数据样本进行傅里叶变换,得到音频数据样本对应的频谱;将音频数据样本对应的频谱输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号的频谱;
将训练输出声源音频信号的频谱进行逆傅里叶变换,得到训练输出声源音频信号。
在本公开的再一个实施例中,调整模块,具体用于:
根据音频数据样本、训练输出声源音频信号和音频数据样本对应的声源音频信号,确定声源音频信号分离模型对应的损失函数;
根据损失函数调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
在本公开实施方式的第四方面中,提供了一种计算设备,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如第一方面中任一项的方法。
根据本公开实施方式的确定音频数据中的至少一种声源音频信号,根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置,根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。可以通过空间参数对待处理音频进行渲染得到沉浸式效果更好目标音频,而无需获取分轨文件即可得到分离度很高的声源音频信号,并且能够将现有的非沉浸式音频数据转换为沉浸式效果的目标音频,为用户带来了更好的体验。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的应用场景图;
图2示意性地示出了根据本公开一实施例的音频处理方法的步骤流程图;
图3示意性地示出了根据本公开一实施例的声源音频信号分离模型的结构示意图;
图4示意性地示出了根据本公开一实施例的声源音频信号空间摆放的结构示意图;
图5示意性地示出了根据本公开一实施例的声源音频信号分离模型训练方法的步骤流程图;
图6示意性地示出了根据本公开一实施例的存储介质的结构示意图;
图7示意性地示出了根据本公开一实施例的音频处理装的结构框图;
图8示意性地示出了根据本公开一实施例的电子设备的结构框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种音频处理方法、介质、装置和计算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
本公开人发现,在对音频数据处理方法中,一种是基于声道上混的立体音频生成方法。具体为按照扬声器摆放位置的差异进行声道的上混,例如:将2声道的音频数据扩展到5.1声道的音频数据,将扬声器按照角度比例摆放在左、中、右、左后、右后位置。根据2声道的音频数据中的声道间的相关性和响度差异,将声道间相同的成分布置在中央声道,将声道间不同的差异成分按照响度衰减布置在环绕声道和上方声道。但是,该种方式由于2声道的音频数据的左右声道相似性非常高、差异性小。因此,按照该方式将2声道的音频数据扩展为5.1声道的音频数据,方位差异性不够明显,并且扩展为5.1声道后上方声道和后方环绕声道内容相同,使用户感受不到垂直方向的声音差异,进而导致沉浸式效果不理想。
另一种是基于音频对象提取立体音频的方法。具体为,首先获取多声道的音频数据,根据音频数据多个声道间的频谱相似性,得到音频数据的音频对象。该方法是基于声道间的频谱相似性提取,由于声道间的频谱差异性较小,尤其对于2声道的音频数据,左右声道的频谱包络和频谱形状基本一致,因此采用该方式通常只能得到1个音频对象或者得到多个相似的音频对象。并且该方法由于无法获取到音频对象的方位信息,进而不能达到很好的沉浸式音频效果。
基于上述问题,本公开提供一种音频处理方法,可以通过确定音频数据中的至少一种声源音频信号,然后确定声源音频信号对应的空间参数,采用空间参数对待处理音频进行渲染得到沉浸式效果更好目标音频,而无需获取分轨文件即可得到分离度很高的声源音频信号,并且能够将现有的非沉浸式音频数据转换为沉浸式效果的目标音频,为用户带来了更好的体验。
应用场景总览
首先参考图1,图1为本公开提供的一种音频处理方法的应用场景图,图1中包括:终端11和播放设备12。其中,终端11可以下载待处理音频的音频数据,例如,音乐。然后对音频数据进行处理后得到目标音频,目标音频可以通过播放设备12进行播放。在图1中播放设备为耳机,此外还可以是音箱、扬声器等,在此不加以限定。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的用于音频处理方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
参照图2,示出本公开提供的一种音频处理方法的流程示意图。本公开实施例提供一种音频处理方法具体包括以下步骤:
S201,获取待处理音频的音频数据。
其中,音频数据可以是音乐对应的音频数据。音频数据可以是2声道、5.1声道或者7.12声道的音频数据。
具体的,获取待处理音频的音频数据包括:接收用户对待处理音频的触发操作;响应触发操作,下载待处理音频的音频数据。示例性的,用户在使用音乐应用时,想要听音乐“ABC”,则用户可以触发音乐“ABC”的标识,终端下载或缓存“ABC”的标识对应的音频数据。
本公开的另一种实现方式,获取待处理音频的音频数据包括:在音频数据库中获取待处理音频的音频数据。示例性的,在音频数据库中存储有多个待处理音频的音频数据,本公开依次获取待处理音频的音频数据,进行后续音频处理。
本公开还可以采样其他方式获取待处理音频的音频数据,在此不加以限定。
S202,确定音频数据中的至少一种声源音频信号。
其中,声源音频信号为在声场中存在对应时长的分轨音频信号。
在本公开中,音频数据是由多种分轨音频信号组成的,每一个分轨音频信号对应一种声源音频信号。示例性的,音频数据为音乐时,声源音频信号对应为由主唱、伴唱、钢琴、吉他、弦乐组、鼓组、贝斯以及音床(对应环境)发出的音频信号。可以理解,声源音频信号包括由一个音频对象发出的音频信号。通常情况下音频数据是由多种声源音频信号组成的。
具体的,确定音频数据中的至少一种声源音频信号,具体包括如下步骤:
S2021,对音频数据进行傅里叶变换,得到音频数据对应的频谱。
具体的,将音频数据按照预设时间进行分帧,得到音频数据子帧,然后对音频数据子帧进行傅里叶变换。则音频数据对应的频谱包括:多个音频数据子帧对应的频谱。示例性的,得到的频谱为512*128的第一频谱图像,其中512为第一频谱图像的宽度对应的像素值,128为第一频谱图像的高度对应的像素值。
S2022,将频谱输入声源音频信号分离模型,得到音频数据对应的分轨音频信号的频谱参数。
其中,声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数。
在本公开中,每一个声源音频信号对应一个声源音频信号分离模型,因此将频谱输入不同的声源音频信号分离模型,得到不同分轨音频信号的频谱参数。
进一步的,频谱参数是指分轨音频信号的第二频谱图像。示例性的,得到的音频数据对应的分轨音频信号的频谱参数为512*128的第二频谱图像。
具体的,参照图3,为本公开提供的声源音频信号分离模型的结构示意图,其中,该声源音频信号分离模型包括多层网络卷积(K1至K6),每层网络卷积包括一个编码器En和一个解码器De。其中,每个编码器En包括一个2维卷积和一个ReLU整型(线性整流函数)。每个解码器De包括1个跨步长解卷积和1个ReLU整型,其中跨步长解卷积是逆2位卷积。其中,每一层卷积网络还包括激活函数子层;每个编码器或解码器的输出都通过激活函数子层输出对应的卷积网络。
其中,向第一层网络卷积K1的编码器En输入(In)第一频谱图像,得到对应的输出,将该输出输入至第二层卷积网络K2的编码器En,依次直到得到第六层卷积网络K6的编码器En的输出。将第六层卷积网络K6的编码器En的输出,输入至第六层卷积网络K6的解码器De,得到对应的输出,将该输出输入至第五层卷积网络K5的解码器De,依次直到得到第一层卷积网络K1的解码器De的输出Out。
示例性的,参照图3,P0是由音频数据傅里叶变换得到的第一频谱图像(512*128*1),其中,1表示为一个第一频谱图像,输入第一层网络卷积K1的编码器En,输出为频谱图像P1(256*64*16),其中16表示16个频谱图像P1。将P1(256*64*16)输入第二层网络卷积K2的编码器En,输出P2(128*32*32)。将P2(128*32*32)输入第三层网络卷积K3的编码器En,输出P3(64*16*64)。将P3(64*16*64)输入第四层网络卷积K4的编码器En,输出P4(32*8*128)。将P4(32*8*128)输入第五层网络卷积K5的编码器En,输出P5(16*4*258)。将P5(16*4*258)输入第六层网络卷积K6的编码器En,输出P6(8*2*512)。将P6(8*2*512)输入第六层网络卷积K6的解码器De,输出P7(16*4*258)。将P7(16*4*258)输入第五层网络卷积K5的解码器De,输出P8(32*8*128)。将P8(32*8*128)输入第四层网络卷积K4的解码器De,输出P9(64*16*64)。将P9(64*16*64)输入第三层网络卷积K3的解码器De,输出P10(128*32*32)。将P10(128*32*32)输入第二层网络卷积K2的解码器De,输出P11(256*64*16)。将P11(256*64*16)输入第一层网络卷积K1的解码器De,输出P12(512*128*1)。P12为声源音频信号分离模型的输出Out,具体为一个2维的掩蔽因子f(P0,Θ)(512×128×1),将该掩蔽因子f(P0,Θ)与P0相乘后得到对应的输出声源音频对象信号对应的频谱参数。
在本公开中,通过将音频数据输入不同的声源音频信号分离模型,能够精确的获得音频数据中的各个声源音频信号对应的频谱参数。
S2023,将音频数据对应的分轨音频信号的频谱参数进行逆傅里叶变换,得到声源音频信号。
具体的,将每个音频数据帧的对应分轨音频信号的频谱参数进行逆傅里叶变换,得到对应的多个子声源音频信号,将这些子声源音频信号按照时间顺序组合,得到声源音频信号。
在本公开实施例中,采用声源音频信号分离模型,能够得到音频数据中的各个声源音频信号。
S203,根据预设空间位置摆放规则,获取声源音频信号对应的空间参数。
其中,空间参数为声源音频信号发声时的相对位置。在本公开中,声源音频信号根据发声对象的不同,对应的空间参数不同,即每个声源音频信号都具有对应的一个空间参数。
此外,空间参数可以用坐标表示,坐标原点模拟为用户所在的位置。空间参数可以表示声源音频信号发声时相对于用户的位置。
具体的,根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,包括如下步骤:
S2031,根据声源音频信号,确定对应的空间位置摆放模板。
其中,空间位置摆放模块包括:根据不同音乐风格预先定义的至少一种声源音频信号对应的空间参数。
其中,参照表一,为其中一空间位置摆放模板。在表一中,声源音频信号包括音频对象,具体的一个声源音频信号对应一个音频对象,音频对象为发声对象对应的音频信号,包括但不限于人声、乐器声等。例如,主唱对应的音频信号,吉他对应的音频信号或者贝斯对应的音频信号等。
每个音频对象具有对应的空间参数,空间参数采用XYZ坐标表示。每个音频对应具有对应的头相关传输函数。
表一
参照表二,为本公开提供的另一空间位置摆放模板。其中,声源音频信号还包括音床信号,音床信号是指除音频对象之外的音频信号,例如可以是环境声和背景声等。音床信号具有对应的空间混响函数。音床信号通过空间混响函数处理,可以提升整体环绕感。
表二
此外,表一和表二所示的空间位置摆放模板,可以是根据实验获得的,即参照图4,当用户在坐标原点时,在空间参数对应的位置摆放音箱,采用该音箱播放对应的声源音频信号,会得到较好的沉浸效果。此外,还可以根据音频数据不同的风格类型设置不同的空间位置摆放模块。在此不加以限定。
示例性的,图4中,用户R的空间参数为(0,0,0)。主唱41(1,0,0)设置在用户R的正前方,与用户R接近齐平。伴唱42(0.4,0.4,0.4)可以设置在用户R的前面、耳边或耳后。钢琴43(2.5,2.5,2.5)可以上混成7.12声道,更有包围感。吉他44(1.5,1.5,0)放在用户R的侧前面。弦乐组45(1.5,-1.5,0)可以放在用户R的侧前面,也可以放在用户R的上方。鼓组46/贝斯47(-1,0,0)可以放在用户R的正后方。其中,若有琵琶对应的音频对象,则对应的空间参数可以和吉他相同。
在本公开中,不同的音乐风格,各音频对象对应有不同的空间位置摆放规则,进而设计不同的空间位置摆放模块,使不同音频对象都具体适合的音乐方位感。
S2032,根据空间位置摆放模板,确定声源音频信号对应的空间参数。
其中,可以在确定声源音频信号后,根据声源音频信号在空间位置摆放模板中对应的空间参数,获取到对应的空间参数。示例性的,参照表一,若声源音频信号为人声,则人声对应的空间参数为(1,0,0)。
在本公开中,可以基于空间位置摆放模板,确定各个声源音频信号的空间参数。
S204,根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。
其中,采用空间参数对待处理音频进行渲染处理,使待处理音频的音频数据具有了方位感,进而使得到的目标音频具有沉浸感。
具体的,根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频,包括以下步骤:
S2041,根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号。
一种可选方案中,至少一种声源音频信号包括至少一种音频对象,具体的一个声源音频信号对应一个音频对象,空间位置摆放模板还包括:音频对象对应的头相关传输函数,声源音频信号对应的空间参数包括音频对象对应的空间位置坐标,头相关传输函数用于描述声波从声源到双耳的传输过程,头相关传输函数根据音频对象的空间位置坐标预先设定,该根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号,包括:基于空间位置模板确定音频对象对应的头相关传输函数;将音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;根据第一空间音频信号确定待处理音频对应的目标空间音频信号。
其中,参照表一,空间位置模板包括至少一种音频对象,空间位置摆放模板还包括:音频对象对应的头相关传输函数,声源音频信号对应的空间参数包括音频对象对应的空间位置坐标,头相关传输函数用于描述声波从声源到双耳的传输过程,头相关传输函数根据音频对象的空间位置坐标预先设定。
具体的,头相关传输函数(HRTF,Head Related Transfer Functions)是一种音效定位算法。其中,不同的音频对象对应不同的头相关传输函数。示例性的,在表一中,主唱对应的头相关传输函数HRTF(1)。伴唱对应的头相关传输函数HRTF(2)。
具体的,是将各个音频对象与对应的头相关传输函数进行卷积,然后将卷积结果相加后,得到第一空间音频信号。示例性的,音频数据经过分离得到主唱的音频对象为Ovocal。吉他的音频对象为Oguitar。鼓的音频对象为Odrum。贝斯的音频对象为Obass。其中,主唱对应的头相关传输函数为HRTF(1)。吉他对应的头相关传输函数为HRTF(4)。鼓对应的头相关传输函数为HRTF(6)。贝斯对应的头相关传输函数为HRTF(7)。则第一空间音频信号的目标空间音频信号S1=Ovocal*HRTF(1)+Oguitar*HRTF(4)+Odrum*HRTF(6)+Obass*HRTF(7)。
另一种可选方案中,至少一种声源音频信号还包括音床信号,音床信号为待处理音频中除音频对象之外的音频信号,空间位置摆放模板还包括:音床信号对应的空间响应函数,空间响应函数用于描述声波在环境中的衰减,空间响应函数根据音床信号的空间参数预先设定,根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号,还包括:基于空间位置模板确定音床信号对应的空间响应函数;将音床信号和空间响应函数进行卷积,得到第二空间音频信号;根据第一空间音频信号和第二空间音频信号,得到目标空间音频信号。
其中,参照表二,空间位置模板还包括音床信号,具体的,音床信号为Oother。音床信号对应的空间响应函数为梳状滤波或全通滤波/>其中,m表示延时样本点数,取值20ms-40ms。
则第二空间音频信号为S2=Oother*H(z)。对应的目标空间音频信号S为第一空间音频信号S1和第二空间音频信号S2的和。其中第一空间音频信号S1为各音频对象与对应的头相关传输函数进行卷积处理之后的和。示例性的,参照表二,S1=Ovocal*HRTF(1)+Oguitar*HRTF(4)+Odrum*HRTF(6)+Obass*HRTF(7)
S2042,根据目标空间音频信号,得到待处理音频对应的目标音频。
其中,根据目标空间音频信号,得到待处理音频对应的目标音频,包括:根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频。
此外,根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频,包括:获取预置播放设备对应的补偿函数,将目标空间音频信号与补偿函数进行卷积,得到待处理音频对应的目标音频。其中,补偿函数用于提升目标空间音频信号在预置播放设备的播放质量。具体为对目标空间音频信号的频响曲线进行调整。
示例性的,预置播放设备包括:双耳式耳机,则根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频,包括:获取双耳式耳机对应的传递函数和正则因子;根据传递函数和正则因子,确定对应的补偿函数;将补偿函数和目标空间音频信号进行卷积,得到目标音频。
其中,双耳式耳机对应的传递函数和正则因子可以预存在存储器中,在使用时,从存储器获取该传递函数和正则因子。
具体的,对于耳机的使用场景,耳机传递函数为Hp,则耳机的补偿函数为Hc的计算方式如下:
其中,β为正则因子,典型为极小值,与频率响应无关,用于避免补偿函数发散。
则目标音频Sout=S1*Hc
此外,预置播放设备还可以是其他设备,如音箱、扬声器等。本公开可以预存各个预置播放设备对应的补偿函数,则在得到目标空间音频信号时,可以根据预置播放设备,确定补偿函数,对目标空间音频信号进行补偿,进一步得到目标音频。
具体的,卷积在频域上表示为相乘,则目标音频Sout=S*Hc
其中,参照图5,示出一种声源音频信号分离模型的训练步骤流程图,可以在S2022之前执行以下步骤,具体如下:
S501,获取训练样本,训练样本中包括音频数据样本以及音频数据样本对应的声源音频信号。
其中,音频数据样本对应的声源音频信号为音频数据样本的分轨音频。在本公开中可以在公开数据集musbd18中获取训练样本。musbd18是一个数据集,包含150首不同类型大约10小时的长度的全长音乐,以及各首音乐对应的独立的声源音频信号,例如:鼓、贝斯、人声和其他音频。本公开还可以在音乐的曲库中获取训练样本。音乐曲库中包含有原创音乐人提供的分轨音频(声源音频信号)和对应的混音音频(音频数据样本),覆盖了流行、电子、说唱、摇滚、拉丁、古风、二次元等风格类型的音乐。
在本公开中,还可以采用其他方式获取训练样本,在此不加以限定。
S502,将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号。
其中,将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号,包括:对音频数据样本进行傅里叶变换,得到音频数据样本对应的频谱;将音频数据样本对应的频谱输入声源音频信号分离模型,得到音频数据样本对应遮蔽因子,然后将遮蔽因子和音频数据样本对应的频谱相乘,得到训练输出声源音频信号的频谱;将训练输出声源音频信号的频谱进行逆傅里叶变换,得到训练输出声源音频信号。
其中,声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号,包括:采用K个编码器对音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,i依次取1,2,……,K-1;采用K个解码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,j依次取K,K-1,……,1。
具体的,参照图3,初始的声源音频信号分离模型为U-net等网络结构,采用训练样本在初始的声源音频信号分离模型的基础上训练得到本公开使用的声源音频信号分离模型。其中,初始的声源音频信号分离模型的结构如图3所示,包括K层卷积网络,如图3中的K1至K6,其中,每层卷积网络包括编码器En、解码器De和激活函数子层,编码器和解码器对应的输出内容通过激活函数子层输出卷积网络。编码器包括:2维卷积子层和第一线性整流子层;解码器包括:跨步长解卷积子层和第二线性整流子层。
其中,采用K个编码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,包括:获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;根据第一输出和第二输出,确定关联结果;将关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到音频数据样本对应的训练输出声源音频信号K依次取K,K-1,……,2。
具体的,编码器的第一输出为Ui,解码器的第二输出为Di。其中,i是指卷积网络的层数,例如,第一层卷积网络K1的i为1,第二层卷积网络K2的i为2。
其中,根据第一输出和第二输出,确定关联结果,包括:确定第一输出和第二输出的相似因子;根据相似因子和第二输出,确定关联结果。
具体的,相似因子A(Pi)经过ReLu卷积后与第二输出Di相乘后得到关联结果,将关联结果输入至第k-1层卷积网络的解码器,进而建立同一层卷积网络中的连接关系。通过同样的方式对各层卷积网络均进行相同的操作,则建立了声源音频信号分离模型的注意力机制。其中,确定第一输出和第二输出的相似因子,包括:确定第一输出和第二输出之和为第三输出;对第三输出进行卷积处理,得到相似因子。
综上,声源音频信号分离模型的注意力机制确定方式如下:
上式中,Attention为注意力机制,K为卷积网络的层数。A(Pi)为相似因子。Di为第i层卷积网络解码器的输出。
其中,关联结果Qi的具体计算方式为,将第一输出Ui与第二输出Di相加后,再经过ReLu卷积后得到相似因子A(Pi),将相似因子A(Pi)再ReLu卷积后与第二输出Di相乘得到关联结果Qi
示例性的,参照图3,频谱图像P0输入至第一层卷积网络K1的编码器En,得到频谱图像P1。频谱图像P1输入第二层卷积网络K2的编码器En,依次直到得到第六层卷积网络K6的编码器En的输出的频谱图像P6。然后将频谱图像P6输入至第六层卷积网络K6的解码器De,得到频谱图像P7。其中,频谱图像P6作为第六层卷积网络K6的编码器En的第一输出U6,频谱图像P7作为第六层卷积网络K6的解码器De的第二输出D6,则将P6与P7相加后,再经过ReLu卷积后得到相似因子A(P6),将相似因子A(P6)再ReLu卷积后与P7相乘得到关联结果Q6。将关联结果Q6输入至第五层卷积网络K5的解码器De,得到第二输出D5。采用相同的方式基于第五层卷积网络K5的编码器En输出的频谱图像P5和第二输出D5,得到对应的关联结果Q5。继续采用上述方式,直到得到第一层卷积网络K1的解码器De的第二输出D1,则第二输出D1作为声源音频信号分离模型输出的2维的掩蔽因子,将D1与P0相乘得到训练输出声源音频信号的频谱。
在本公开中,采用注意力机制使训练得到的声源音频信号分离模型收敛的更深。
S503,根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
其中,根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型,包括:根据音频数据样本、训练输出声源音频信号和音频数据样本对应的声源音频信号,确定声源音频信号分离模型对应的损失函数;根据损失函数调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
具体的,损失函数的确定方式如下:
L(P0,Y;Θ)=||f(P0,Θ)*P0-Y||
上式中f(P0,Θ)为声源音频信号分离模型输出的2维的掩蔽因子,P为音频数据样本经过傅里叶变换得到的频谱图像,Y是音频数据样本对应的声源音频信号经过傅里叶变换得到的频谱图像,Θ是声源音频信号分离模型的参数。
在本公开中,不同声源音频信号对应不同的声源音频信号分离模型,不同声源音频信号分离模型采用上述相同的方式训练得到,不同声源音频信号分离模型对应的参数Θ是不同的。
根据本公开实施方式的确定音频数据中的至少一种声源音频信号,根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置,根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。可以通过空间参数对待处理音频进行渲染得到沉浸式效果更好目标音频,而无需获取分轨文件即可得到分离度很高的声源音频信号,并且能够将现有的非沉浸式音频数据转换为沉浸式效果的目标音频,为用户带来了更好的体验。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图6对本公开示例性实施方式的存储介质进行说明。
参考图6所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图7对本公开示例性实施方式的音频处理装置进行说明。
如图7所示,音频处理装置70包括:第一获取模块701、确定模块702、第二获取模块703和渲染模块704。其中:
第一获取模块701,用于获取待处理音频的音频数据;
确定模块702,用于确定音频数据中的至少一种声源音频信号,声源音频信号为在声场中存在对应时长的音频元素;
第二获取模块703,用于根据预设空间位置摆放规则,获取声源音频信号对应的空间参数,空间参数为声源音频信号发声时的相对位置;
渲染模块704,用于根据空间参数,对待处理音频进行渲染处理,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,确定模块702,包括:
第一变换单元,用于对音频数据进行傅里叶变换,得到音频数据对应的频谱;
输入单元,用于将频谱输入声源音频信号分离模型,得到音频数据对应的分轨音频信号的频谱参数,声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数;
第二变换单元,用于将音频数据对应的分轨音频信号的频谱参数进行逆傅里叶变换,得到声源音频信号。
在本公开的再一个实施例中,第二获取模块703,包括:
第一确定单元,用于根据声源音频信号,确定对应的空间位置摆放模板;空间位置摆放模块包括:根据不同音乐风格预先定义的至少一种声源音频信号对应的空间参数;
第二确定单元,用于根据空间位置摆放模板,确定声源音频信号对应的空间参数。
在本公开的再一个实施例中,渲染模块704,包括:
第三确定单元,用于根据空间参数和声源音频信号,确定待处理音频对应的目标空间音频信号;
第四确定单元,用于根据目标空间音频信号,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,至少一种声源音频信号包括至少一种音频对象,空间位置摆放模板还包括:音频对象对应的头相关传输函数,声源音频信号对应的空间参数包括音频对象对应的空间位置坐标,头相关传输函数用于描述声波从声源到双耳的传输过程,头相关传输函数根据音频对象的空间位置坐标预先设定,第三确定单元,包括:
第一确定子单元,用于基于空间位置模板确定音频对象对应的头相关传输函数;
第一卷积子单元,用于将音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;
第二确定子单元,用于根据第一空间音频信号确定待处理音频对应的目标空间音频信号。
在本公开的再一个实施例中,至少一种声源音频信号还包括音床信号,音床信号为待处理音频中除音频对象之外的音频信号,空间位置摆放模板还包括:音床信号对应的空间响应函数,空间响应函数用于描述声波在环境中的衰减,空间响应函数根据音床信号的空间参数预先设定,第三确定单元,还包括:
第三确定子单元,用于基于空间位置模板确定音床信号对应的空间响应函数;
第二卷积子单元,用于将音床信号和空间响应函数进行卷积,得到第二空间音频信号;
第四确定子单元,用于根据第一空间音频信号和第二空间音频信号,得到目标空间音频信号。
在本公开的再一个实施例中,第四确定单元,包括:
补偿子单元,用于根据预置播放设备的补偿响应,对目标空间音频信号进行补偿,得到待处理音频对应的目标音频。
在本公开的再一个实施例中,预置播放设备包括:双耳式耳机,补偿子单元,具体用于:
获取双耳式耳机对应的传递函数和正则因子;
根据传递函数和正则因子,确定对应的补偿函数;
将补偿函数和目标空间音频信号进行卷积,得到目标音频。
在本公开的再一个实施例中,还包括:
第三获取模块,用于获取训练样本,训练样本中包括音频数据样本以及音频数据样本对应的声源音频信号;
输入模块,用于将音频数据样本输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号;
调整模块,用于根据训练输出声源音频信号和音频数据样本对应的声源音频信号,调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
在本公开的再一个实施例中,声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,输入模块,包括:
第一采样单元,用于采用K个编码器对音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,i依次取1,2,……,K-1;
第二采样单元,用于采用K个解码器对中间特征图像进行上采样,得到音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,j依次取K,K-1,……,1。
在本公开的再一个实施例中,第二采样单元,具体用于:
获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;
根据第一输出和第二输出,确定关联结果;
将关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到音频数据样本对应的训练输出声源音频信号,K依次取K,K-1,……,2。
在本公开的再一个实施例中,第二采样单元在根据第一输出和第二输出,确定关联结果时,具体用于:
确定第一输出和第二输出的相似因子;
根据相似因子和第二输出,确定关联结果。
在本公开的再一个实施例中,二采样单元在确定第一输出和第二输出的相似因子时,具体用于:
确定第一输出和第二输出之和为第三输出;
对第三输出进行卷积处理,得到相似因子。
在本公开的再一个实施例中,输入模块,具体用于:
对音频数据样本进行傅里叶变换,得到音频数据样本对应的频谱;
将音频数据样本对应的频谱输入声源音频信号分离模型,得到音频数据样本对应的训练输出声源音频信号的频谱;
将训练输出声源音频信号的频谱进行逆傅里叶变换,得到训练输出声源音频信号。
在本公开的再一个实施例中,调整模块,具体用于:
根据音频数据样本、训练输出声源音频信号和音频数据样本对应的声源音频信号,确定声源音频信号分离模型对应的损失函数;
根据损失函数调整声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
需要说明的是,本公开提供的音频处理装置,能够执行如图2和图5所示的方法。在此不再赘述。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图8对本公开示例性实施方式的计算设备进行说明。
图8显示的计算设备80仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802,连接不同系统组件(包括处理单元801和存储单元802)的总线803。
总线803包括数据总线、控制总线和地址总线。
存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了音频处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (26)

1.一种音频处理方法,包括:
获取待处理音频的音频数据;
确定所述音频数据中的至少一种声源音频信号,所述声源音频信号为在声场中存在对应时长的分轨音频信号;
根据预设空间位置摆放规则,获取所述声源音频信号对应的空间参数,所述空间参数为所述声源音频信号发声时的相对位置;
根据所述空间参数,对所述待处理音频进行渲染处理,得到所述待处理音频对应的目标音频;
所述确定所述音频数据中的至少一种声源音频信号,包括:
对所述音频数据进行傅里叶变换,得到所述音频数据对应的频谱;
将所述频谱输入声源音频信号分离模型,得到所述音频数据对应的分轨音频信号的频谱参数,所述声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数;
将所述音频数据对应的所述分轨音频信号的频谱参数进行逆傅里叶变换,得到所述声源音频信号;
所述对所述音频数据进行傅里叶变换,得到所述音频数据对应的频谱之前,还包括:
获取训练样本,所述训练样本中包括音频数据样本以及所述音频数据样本对应的声源音频信号;
将所述音频数据样本输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号;
根据所述训练输出声源音频信号和所述音频数据样本对应的声源音频信号,调整所述声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型;
所述声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,所述将所述音频数据样本输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号,包括:
采用K个编码器对所述音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,所述i依次取1,2,……,K-1;
采用K个解码器对所述中间特征图像进行上采样,得到所述音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,所述j依次取K,K-1,……,1。
2.根据权利要求1所述的音频处理方法,所述根据预设空间位置摆放规则,获取所述声源音频信号对应的空间参数,包括:
根据所述声源音频信号,确定对应的空间位置摆放模板;
所述空间位置摆放模板包括:根据不同音乐风格预先定义的所述至少一种声源音频信号对应的空间参数;
根据所述空间位置摆放模板,确定所述声源音频信号对应的空间参数。
3.根据权利要求2所述的音频处理方法,所述根据所述空间参数,对所述待处理音频进行渲染处理,得到所述待处理音频对应的目标音频,包括:
根据所述空间参数和所述声源音频信号,确定所述待处理音频对应的目标空间音频信号;
根据所述目标空间音频信号,得到所述待处理音频对应的所述目标音频。
4.根据权利要求3所述的音频处理方法,所述至少一种声源音频信号包括至少一种音频对象,所述空间位置摆放模板还包括:所述音频对象对应的头相关传输函数,所述声源音频信号对应的空间参数包括所述音频对象对应的空间位置坐标,所述头相关传输函数用于描述声波从声源到双耳的传输过程,所述头相关传输函数根据所述音频对象的空间位置坐标预先设定,所述根据所述空间参数和所述声源音频信号,确定所述待处理音频对应的目标空间音频信号,包括:
基于所述空间位置模板确定所述音频对象对应的头相关传输函数;
将所述音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;
根据所述第一空间音频信号确定所述待处理音频对应的目标空间音频信号。
5.根据权利要求4所述的音频处理方法,所述至少一种声源音频信号还包括音床信号,所述音床信号为所述待处理音频中除所述音频对象之外的音频信号,所述空间位置摆放模板还包括:所述音床信号对应的空间响应函数,所述空间响应函数用于描述声波在环境中的衰减,所述空间响应函数根据所述音床信号的空间参数预先设定,所述根据所述空间参数和所述声源音频信号,确定所述待处理音频对应的目标空间音频信号,还包括:
基于所述空间位置模板确定所述音床信号对应的空间响应函数;
将所述音床信号和所述空间响应函数进行卷积,得到第二空间音频信号;
根据所述第一空间音频信号和所述第二空间音频信号,得到目标空间音频信号。
6.根据权利要求3-5任一所述的音频处理方法,所述根据所述目标空间音频信号,得到所述待处理音频对应的所述目标音频,包括:
根据预置播放设备的补偿响应,对所述目标空间音频信号进行补偿,得到所述待处理音频对应的所述目标音频。
7.根据权利要求6所述的音频处理方法,所述预置播放设备包括:双耳式耳机,所述根据预置播放设备的补偿响应,对所述目标空间音频信号进行补偿,得到所述待处理音频对应的所述目标音频,包括:
获取所述双耳式耳机对应的传递函数和正则因子;
根据所述传递函数和所述正则因子,确定对应的补偿函数;
将所述补偿函数和所述目标空间音频信号进行卷积,得到所述目标音频。
8.根据权利要求1所述的音频处理方法,所述采用所述K个编码器对所述中间特征图像进行上采样,得到所述音频数据样本对应的训练输出声源音频信号,包括:
获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;
根据所述第一输出和所述第二输出,确定关联结果;
将所述关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到所述音频数据样本对应的训练输出声源音频信号,所述K依次取K,K-1,……,2。
9.根据权利要求8所述的音频处理方法,所述根据所述第一输出和所述第二输出,确定关联结果,包括:
确定所述第一输出和所述第二输出的相似因子;
根据所述相似因子和所述第二输出,确定所述关联结果。
10.根据权利要求9所述的音频处理方法,所述确定所述第一输出和所述第二输出的相似因子,包括:
确定所述第一输出和所述第二输出之和为第三输出;
对所述第三输出进行卷积处理,得到所述相似因子。
11.根据权利要求1至10中任一项所述的音频处理方法,所述将所述音频数据样本输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号,包括:
对所述音频数据样本进行傅里叶变换,得到所述音频数据样本对应的频谱;
将所述音频数据样本对应的频谱输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号的频谱;
将所述训练输出声源音频信号的频谱进行逆傅里叶变换,得到所述训练输出声源音频信号。
12.根据权利要求1至10中任一项所述的音频处理方法,所述根据所述训练输出声源音频信号和所述音频数据样本对应的声源音频信号,调整所述声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型,包括:
根据所述音频数据样本、所述训练输出声源音频信号和所述音频数据样本对应的声源音频信号,确定所述声源音频信号分离模型对应的损失函数;
根据所述损失函数调整所述声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
13.一种音频处理装置,包括:
第一获取模块,用于获取待处理音频的音频数据;
确定模块,用于确定所述音频数据中的至少一种声源音频信号,所述声源音频信号为在声场中存在对应时长的音频元素;
第二获取模块,用于根据预设空间位置摆放规则,获取所述声源音频信号对应的空间参数,所述空间参数为所述声源音频信号发声时的相对位置;
渲染模块,用于根据所述空间参数,对所述待处理音频进行渲染处理,得到所述待处理音频对应的目标音频;
所述确定模块,包括:
第一变换单元,用于对所述音频数据进行傅里叶变换,得到所述音频数据对应的频谱;
输入单元,用于将所述频谱输入声源音频信号分离模型,得到所述音频数据对应的分轨音频信号的频谱参数,所述声源音频信号分离模型用于分离并获取一种声源音频信号对应的分轨音频信号的频谱参数;
第二变换单元,用于将所述音频数据对应的所述分轨音频信号的频谱参数进行逆傅里叶变换,得到所述声源音频信号;
第三获取模块,用于获取训练样本,所述训练样本中包括音频数据样本以及所述音频数据样本对应的声源音频信号;
输入模块,用于将所述音频数据样本输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号;
调整模块,用于根据所述训练输出声源音频信号和所述音频数据样本对应的声源音频信号,调整所述声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型;
所述声源音频信号分离模型包括K层卷积网络,每层卷积网络包括编码器和解码器,所述输入模块,包括:
第一采样单元,用于采用K个编码器对所述音频数据样本进行下采样,得到中间特征图像,第i个编码器的输出为第i+1个编码器的输入,所述i依次取1,2,……,K-1;
第二采样单元,用于采用K个解码器对所述中间特征图像进行上采样,得到所述音频数据样本对应的训练输出声源音频信号,第j个解码器的输出为第j+1个解码器的输入,所述j依次取K,K-1,……,1。
14.根据权利要求13所述的音频处理装置,所述第二获取模块,包括:
第一确定单元,用于根据所述声源音频信号,确定对应的空间位置摆放模板;所述空间位置摆放模板包括:根据不同音乐风格预先定义的所述至少一种声源音频信号对应的空间参数;
第二确定单元,用于根据所述空间位置摆放模板,确定所述声源音频信号对应的空间参数。
15.根据权利要求14所述的音频处理装置,所述渲染模块,包括:
第三确定单元,用于根据所述空间参数和所述声源音频信号,确定所述待处理音频对应的目标空间音频信号;
第四确定单元,用于根据所述目标空间音频信号,得到所述待处理音频对应的所述目标音频。
16.根据权利要求15所述的音频处理装置,所述至少一种声源音频信号包括至少一种音频对象,所述空间位置摆放模板还包括:所述音频对象对应的头相关传输函数,所述声源音频信号对应的空间参数包括所述音频对象对应的空间位置坐标,所述头相关传输函数用于描述声波从声源到双耳的传输过程,所述头相关传输函数根据所述音频对象的空间位置坐标预先设定,所述第三确定单元,包括:
第一确定子单元,用于基于所述空间位置模板确定所述音频对象对应的头相关传输函数;
第一卷积子单元,用于将所述音频对象与对应的头相关传输函数进行卷积处理,得到第一空间音频信号;
第二确定子单元,用于根据所述第一空间音频信号确定所述待处理音频对应的目标空间音频信号。
17.根据权利要求16所述的音频处理装置,所述至少一种声源音频信号还包括音床信号,所述音床信号为所述待处理音频中除所述音频对象之外的音频信号,所述空间位置摆放模板还包括:所述音床信号对应的空间响应函数,所述空间响应函数用于描述声波在环境中的衰减,所述空间响应函数根据所述音床信号的空间参数预先设定,所述第三确定单元,还包括:
第三确定子单元,用于基于所述空间位置模板确定所述音床信号对应的空间响应函数;
第二卷积子单元,用于将所述音床信号和所述空间响应函数进行卷积,得到第二空间音频信号;
第四确定子单元,用于根据所述第一空间音频信号和所述第二空间音频信号,得到目标空间音频信号。
18.根据权利要求15-17任一所述的音频处理装置,所述第四确定单元,包括:
补偿子单元,用于根据预置播放设备的补偿响应,对所述目标空间音频信号进行补偿,得到所述待处理音频对应的所述目标音频。
19.根据权利要求18所述的音频处理装置,所述预置播放设备包括:双耳式耳机,所述补偿子单元,具体用于:
获取所述双耳式耳机对应的传递函数和正则因子;
根据所述传递函数和所述正则因子,确定对应的补偿函数;
将所述补偿函数和所述目标空间音频信号进行卷积,得到所述目标音频。
20.根据权利要求13所述的音频处理装置,所述第二采样单元,具体用于:
获取第K层卷积网络中的编码器的第一输出以及解码器的第二输出;
根据所述第一输出和所述第二输出,确定关联结果;
将所述关联结果输入第K-1层卷积网络层的解码器,通过第K-1层卷积网络层的解码器进行上采样,得到所述音频数据样本对应的训练输出声源音频信号,所述K依次取K,K-1,……,2。
21.根据权利要求20所述的音频处理装置,所述第二采样单元在根据所述第一输出和所述第二输出,确定关联结果时,具体用于:
确定所述第一输出和所述第二输出的相似因子;
根据所述相似因子和所述第二输出,确定所述关联结果。
22.根据权利要求21所述的音频处理装置,所述二采样单元在确定所述第一输出和所述第二输出的相似因子时,具体用于:
确定所述第一输出和所述第二输出之和为第三输出;
对所述第三输出进行卷积处理,得到所述相似因子。
23.根据权利要求13至22中任一项所述的音频处理装置,所述输入模块,具体用于:
对所述音频数据样本进行傅里叶变换,得到所述音频数据样本对应的频谱;
将所述音频数据样本对应的频谱输入声源音频信号分离模型,得到所述音频数据样本对应的训练输出声源音频信号的频谱;
将所述训练输出声源音频信号的频谱进行逆傅里叶变换,得到所述训练输出声源音频信号。
24.根据权利要求13至22中任一项所述的音频处理装置,所述调整模块,具体用于:
根据所述音频数据样本、所述训练输出声源音频信号和所述音频数据样本对应的声源音频信号,确定所述声源音频信号分离模型对应的损失函数;
根据所述损失函数调整所述声源音频信号分离模型的参数,得到训练完成的声源音频信号分离模型。
25.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1至12中任一项所述的方法。
26.一种计算设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至12中任一项所述的方法。
CN202111033266.2A 2021-09-03 2021-09-03 音频处理方法、介质、装置和计算设备 Active CN113747337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111033266.2A CN113747337B (zh) 2021-09-03 2021-09-03 音频处理方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111033266.2A CN113747337B (zh) 2021-09-03 2021-09-03 音频处理方法、介质、装置和计算设备

Publications (2)

Publication Number Publication Date
CN113747337A CN113747337A (zh) 2021-12-03
CN113747337B true CN113747337B (zh) 2024-05-10

Family

ID=78735468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111033266.2A Active CN113747337B (zh) 2021-09-03 2021-09-03 音频处理方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN113747337B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598985B (zh) * 2022-03-07 2024-05-03 安克创新科技股份有限公司 音频处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521843A (zh) * 2008-02-27 2009-09-02 索尼株式会社 头相关传输函数卷积方法和设备
CN106211018A (zh) * 2016-07-20 2016-12-07 广州番禺巨大汽车音响设备有限公司 一种环绕声场处理的方法及系统
WO2018200000A1 (en) * 2017-04-28 2018-11-01 Hewlett-Packard Development Company, L.P. Immersive audio rendering
CN111724807A (zh) * 2020-08-05 2020-09-29 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9131305B2 (en) * 2012-01-17 2015-09-08 LI Creative Technologies, Inc. Configurable three-dimensional sound system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521843A (zh) * 2008-02-27 2009-09-02 索尼株式会社 头相关传输函数卷积方法和设备
CN106211018A (zh) * 2016-07-20 2016-12-07 广州番禺巨大汽车音响设备有限公司 一种环绕声场处理的方法及系统
WO2018200000A1 (en) * 2017-04-28 2018-11-01 Hewlett-Packard Development Company, L.P. Immersive audio rendering
CN111724807A (zh) * 2020-08-05 2020-09-29 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN113747337A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
KR101090565B1 (ko) 오디오 신호로부터 주위 신호를 생성하는 장치 및 방법, 오디오 신호로부터 멀티-채널 오디오 신호를 도출하는 장치및 방법, 그리고 컴퓨터 프로그램
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
Blauert Communication acoustics
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP5238707B2 (ja) オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
CN108780643A (zh) 自动配音方法和装置
US20090060207A1 (en) method and system for sound source separation
CN111540374A (zh) 伴奏和人声提取方法及装置、逐字歌词生成方法及装置
US20160302005A1 (en) Method for processing data for the estimation of mixing parameters of audio signals, mixing method, devices, and associated computers programs
Sarroff Complex neural networks for audio
CN114203163A (zh) 音频信号处理方法及装置
CN113747337B (zh) 音频处理方法、介质、装置和计算设备
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
US20230040657A1 (en) Method and system for instrument separating and reproducing for mixture audio source
CN114631142A (zh) 电子设备、方法和计算机程序
JP6694755B2 (ja) チャンネル数変換装置およびそのプログラム
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
Barry Real-time sound source separation for music applications
JP6846822B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
CN114827886A (zh) 音频生成方法、装置、电子设备和存储介质
KR100891669B1 (ko) 믹스 신호의 처리 방법 및 장치
CN114694665A (zh) 语音信号的处理方法和装置,存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant