CN114067827A - 一种音频处理方法、装置及存储介质 - Google Patents

一种音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN114067827A
CN114067827A CN202111564746.1A CN202111564746A CN114067827A CN 114067827 A CN114067827 A CN 114067827A CN 202111564746 A CN202111564746 A CN 202111564746A CN 114067827 A CN114067827 A CN 114067827A
Authority
CN
China
Prior art keywords
audio
tracks
original
track
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111564746.1A
Other languages
English (en)
Inventor
刘雪松
李芳庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202111564746.1A priority Critical patent/CN114067827A/zh
Publication of CN114067827A publication Critical patent/CN114067827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本申请实施例公开了一种音频处理方法、装置及存储介质,方法包括:分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频,并混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。

Description

一种音频处理方法、装置及存储介质
技术领域
本申请实施例涉及音频处理技术领域,尤其涉及一种音频处理方法、装置及存储介质。
背景技术
音频处理技术已经在音乐播放设备或软件中广泛搭载,为用户在聆听音乐时提供多样化的效果选择。
目前,通常采用的音频处理方式包括均衡器、声场扩展、高音/低音增强、混响增强、虚拟环绕等,这些处理方式只能使立体声音频中某些成分上的听感达到最优。
发明内容
本申请实施例提供一种音频处理方法、装置及存储介质,通过对立体声音频进行音轨分离,将分离的不同音轨对应的音频分别优化后再混合,使得立体声音频中各个成分达到最优,全面提高了立体声音频的听感。其中,针对不同音轨对应的音频的优化,可以包括空间重建,从而使得立体声音频具备真实的空间感。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种音频处理方法,包括:
分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;
针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;
混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
在上述方法中,所述针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频之前,所述方法还包括:
获取音轨优化参数和混合增益参数;
所述针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频,包括:
利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频;
所述混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频,包括:
利用所述混合增益参数,针对所述多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;
混合所述多个音轨中不同音轨对应的目标音频,得到所述目标立体声音频。
在上述方法中,所述获取音轨优化参数和混合增益参数,包括:
对所述多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;
识别所述原始立体声音频的音频风格类型;
基于所述数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定所述音轨优化参数和所述混合增益参数。
在上述方法中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨增强参数,所述利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:
针对所述多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
在上述方法中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,所述利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:
针对所述多个音轨中每个音轨,利用对应的音轨空间位置、所述空间环境参数和所述音频接收空间位置,对对应的原始音频进行双耳空间渲染。
本申请实施例提供了一种音频处理装置,包括:
分离模块,用于分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;
处理模块,用于:
针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;
混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
在上述装置中,所述处理模块,还用于:
获取音轨优化参数和混合增益参数;
所述处理模块,具体用于:
利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频;
利用所述混合增益参数,针对所述多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;
混合所述多个音轨中不同音轨对应的目标音频,得到所述目标立体声音频。
在上述装置中,所述处理模块,具体用于:
对所述多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;
识别所述原始立体声音频的音频风格类型;
基于所述数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定所述音轨优化参数和所述混合增益参数。
在上述装置中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨增强参数,所述处理模块,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
在上述装置中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,所述处理模块,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨空间位置、所述空间环境参数和所述音频接收空间位置,对对应的原始音频进行双耳空间渲染。
本申请实施例提供了一种音频处理装置,包括:处理器、存储器和通信总线;
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述处理器存储的一个或者多个程序,以实现上述音频处理方法。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述音频处理方法。
本申请实施例提供了一种音频处理方法、装置及存储介质,方法包括:分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。本申请实施例提供的技术方案,通过对立体声音频进行音轨分离,将分离的不同音轨对应的音频分别优化后再混合,使得立体声音频中各个成分达到最优,全面提高了立体声音频的听感。其中,针对不同音轨对应的音频的优化,可以包括空间重建,从而使得立体声音频具备真实的空间感。
附图说明
图1为本申请实施例提供的一种示例性的音频处理过程示意图一;
图2为本申请实施例提供的一种音频处理方法的流程示意图;
图3为本申请实施例提供的一种示例性的显示界面示意图;
图4为本申请实施例提供的一种示例性的音频处理过程示意图二;
图5为本申请实施例提供的一种音频处理装置的结构示意图一;
图6为本申请实施例提供的一种音频处理装置的结构示意图二;
图7为本申请实施例提供的一种音频处理装置的结构示意图三。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
另外,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
本申请实施例提供了一种音频处理方法,通过音频处理装置实现。具体的音频处理装置本申请实施例不作限定,其可以为任何用户设备,例如可以为智能手机、个人计算机、笔记本电脑、平板电脑和便携式可穿戴设备等。
图1为本申请实施例提供的一种示例性的音频处理过程示意图一。如图1所示,在大部分立体声音频中,各种音轨对应的音频经由后期混音后,通常作为一个整体而存在,一般并不会表现出特别的空间感和方位感。而在本申请的实施例中,关键步骤就是分离混合的音频中各个音轨对应的音频,这些音轨可以包括人声,或者各种乐器的音轨,如鼓、吉他、钢琴、贝斯等。随后通过空间重建算法,可以将不同音轨对应的音频进行空间上的重新排列,例如,可以将人声放在舞台前方正中,吉他和贝斯分别位于舞台两侧,钢琴和鼓位于舞台后方。通过空间渲染技术可以在双声道音频中为各个音轨对应的音频构建出虚拟的方位感,再经过混音后,就可以营造出一种具有真实临场感的听音体验。此外,在进行空间重建之前,还可对每个音轨对应的音频单独进行最合适的音效处理,如均衡器、混响、高音/低音增强等,根据每个音轨的特征,其处理参数可以不同,这样可使人声和每种乐器均达到最佳的处理效果。例如,对于鼓点音轨对应的音频,可以进行低音增强、动态增强或混响处理,使鼓点更低沉、更有力;而同时可对人声和乐器音轨对应的音频进行高音增强,使声音更清晰、更明亮。这些不同的处理可以在不影响其他音轨对应的音频的前提下同时存在,使听感达到最优,以下进行具体步骤的详述。
图2为本申请实施例提供的一种音频处理方法的流程示意图。如图2所示,在本申请的实施例中,音频处理方法主要包括以下步骤:
S101、分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频。
在本申请的实施例中,音频处理装置可以先获取原始立体声音频,分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频。
具体的,在本申请的实施例中,音频处理装置可以采用深度神经网络(DeepNeural Network,DNN)分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频,DNN可以通过大量立体声音频和用于混合生成立体声音频的每个音轨对应的干净音频进行训练。DNN的输入是原始立体声音频的波形数据或时频谱数据。在输入DNN的为波形数据的情况下,可以通过一维卷积对原始立体声音频进行编码,之后,DNN通过多个一维卷积网络(Convolutional Neural Network,CNN)或循环网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short Term Memory,LSTM)等网络对编码的结果进行处理和分离,最后,通过一维反卷积将分离后的编码结果解析至波形数据。在DNN的输入为时频谱数据的情况下,首先通过短时傅里叶变换将原始立体声音频转换至时频谱,然后在DNN内部通过二维CNN或RNN、LSTM等网络对时频谱进行处理和分离,得到分离后的时频谱或时频谱掩膜,最后,通过逆短时傅里叶变换将分离间隔转换至波形数据。
需要说明的是,在本申请的实施例中,音频处理装置可以利用特定的人工智能算法、神经网络或者模型对原始立体声音频进行不同音轨对应的原始音频的分离,上述分离方式仅为一种示例性的分离方式。具体的分离方式可以根据实际需求和应用场景选择,本申请实施例不作限定。
S102、针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频。
在本申请的实施例中,音频处理装置在分离原始立体声音频包括的多个音轨中每个音轨对象的原始音频之后,即可针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频。
具体的,在本申请的实施例中,音频处理装置针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频之前,还可以执行以下步骤:获取音轨优化参数和混合增益参数;音频处理装置针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频,包括:利用音轨优化参数,针对多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频。
需要说明的是,在本申请的实施例中,音频处理装置在对每个音轨对应的原始音频进行优化,以及混合不同音轨对应的优化音频时,需要应用特定的参数,即在优化时,需要应用音轨优化参数,在混合时,需要应用混合增益参数,因此,音频处理装置需要获取音轨优化参数和混合增益参数。
具体的,在本申请的实施例中,音频处理装置获取音轨优化参数和混合增益参数,包括:对多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;识别原始立体声音频的音频风格类型;基于数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定音轨优化参数和混合增益参数。
需要说明的是,在本申请的实施例中,音频处理装置可以对每个音轨对应的原始音频进行分析,分析结果可用于对确定音轨优化参数和混合增益参数,其中,音轨优化参数可包括每个音轨对应的音轨增强参数和/或空间相关参数,其中,空间相关参数,具体可以包括:每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置。
需要说明的是,在本申请的实施例中,音频处理装置对每个音轨对应的原始音频进行分析,分析的内容可以包括响度分析、节奏检测、混响强度检测、基频和谐波检测、带宽检测、方向检测、左右平衡检测等。包括但不限于:根据音轨之间的响度水平差异,可以调节对应的混合增益,使得在最终生成的音频中各音轨之间的响度比较均衡;根据检测到的节奏强度调节各音轨对应的原始音频的位置在空间中的移动速度以使之与音频节奏较好地匹配;根据检测到的混响水平,调整音轨增强参数中表征混响处理水平的参数,使得最终生成的音频中的混响水平与用户的预期和场景设置较好地匹配;根据基频和谐波检测结果确定乐器丰富程度、伴奏复杂度、歌手性别和乐器大致类别等信息,可用于调节音轨增强参数。根据检测到的左右平衡参数调整对应音轨在空间中的位置,使之更好地和原曲想表现的空间感匹配。
需要说明的是,在本申请的实施例中,音频处理装置可以采用特定的人工智能算法、神经网络或者模型识别原始立体声音频的音频风格类型,例如,可以采用DNN识别原始立体声音频的音频风格类型,DNN可以通过大量立体声音频和其对应的风格类型进行训练。DNN的输入是原始立体声音频的波形数据或时频谱数据,输出是原始立体声音频的音频风格类型。具体的,可以按照大众普遍接受的音乐分类设定不同的音频风格类型,如流行、摇滚、嘻哈、乡村、古典等,也可以根据实际需求和应用场景设定不同的音频风格类型。
需要说明的是,在本申请的实施例中,用户可以根据在音频处理装置中设定音频偏好信息,音频处理装置在结合预设音频偏好信息确定音轨优化参数和混合增益参数时,可以将预设音频偏好信息转换成相应的参数。用户可以通过手机上的用户界面(UserInterface,UI),如图3所示,来进行偏好的设置,并实时调整音频分离和混音的效果。用户可以配置的内容包括但不限于:期望的场景类型,如音乐厅、演唱会、酒吧等;场景的特征,如安静、活力、喧闹等;此外,还可以提供一个高级模式,供用户自己定制更多的混音参数。例如,可在UI中通过拖动的方式调整各音乐元素在虚拟舞台上的位置、音量和声场宽度。还可以通过滑轨的方式,让用户选择鼓点增强、人声强化和乐器提亮等音轨增强处理的强度。
需要说明的是,在本申请的实施例中,音频处理装置可以基于数据分析结果、识别到的音频风格类型,以及预设音频偏好信息确定音轨优化参数和混合增益参数。其中,音轨优化参数可以包括:多个音轨中每个音轨对应的音轨增强参数、多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置等,每个音轨对应的音轨增强参数包括滤波器参数、均衡器参数、混响处理水平等。混合增益参数是指在重新混音时,为每个音轨选择的增益水平。通过专业人员对大量音频的反复调试,可以确定一组从音频风格类型和音轨分析得到的数据分析结果到音轨优化参数和混合增益参数之间的映射关系。
具体的,在本申请的实施例中,音轨优化参数包括:多个音频中每个音轨的音轨增强参数,音频处理装置利用音轨优化参数,针对多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:针对多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
需要说明的是,在本申请的实施例中,音频处理装置针对每个音轨对应的原始音频,可以根据对应的音轨增强参数进行增强。音轨增强的手段可以包括但不限于滤波器、均衡器、混响调节、低音/高音增强、动态增强等。音频处理装置可以针对不同场景和距离下乐器和人声的特性对原曲进行针对性的调整,使各个音轨的效果均达到最优,并且与场景环境更匹配。例如,可以对鼓点音轨对应的原始音频进行低音增强和动态增强,使鼓点更有力、更低沉;而对于人声和乐器音轨对应的原始音频,可以进行高音增强,使声音更清晰、更明亮。这些不同的处理可以在不影响其他音轨的前提下同时存在,使每个音轨的听感均达到最优。
具体的,在本申请的实施例中,音轨优化参数包括:多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,音频处理装置利用音轨优化参数,针对多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:针对多个音轨中每个音轨,利用对应的音轨空间位置、空间环境参数和音频接收空间位置,对对应的原始音频进行双耳空间渲染。
需要说明的是,在本申请的实施例中,音频接收空间位置即收听者的空间位置,音频处理装置针对每个音轨,使用空间环境参数和音频接收空间位置,结合对应的音轨空间位置可以对对应的原始音频进行双耳空间渲染,以在收听者期望的方向和距离上模拟目标的听觉感知。音频处理装置通常使用基于头相关传递函数(Head Related TransferFunction,HRTF)的双耳滤波来对原始音频进行处理。一组通过测量得到的通用HRTF参数被预置在音频处理装置内,可以用于进行普通水平的双耳滤波。进一步地,可以根据收听者耳部的特性对通用HRTF参数进行修正,得到定制的HRTF参数,使双耳滤波的结果对特定收听者有更准确的空间感。具体地,可以通过手机对收听者的两边耳部各拍一张照片,然后使用基于DNN的方法,通过对耳部照片的处理,来生成为特定收听者定制的HRTF。
需要说明的是,在本申请的实施例中,音频处理装置对每个音轨对应的原始音频分别进行适应性的优化,可以包括上述音轨增强和/或空间双耳渲染,当然,可以采用其他特定的方式进行优化,本申请实施例不作限定。
S103、混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
在本申请的实施例中,音频处理装置在得到每个音轨对应的优化音频之后,即可混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
需要说明的是,在本申请的实施例中,音频处理装置可以利用获取的混合增益参数进行优化音频的混合,混合增益参数的获取方式在步骤S102中已详述,在此不再赘述。
具体的,在本申请的实施例中,音频处理装置混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频,包括:利用混合增益参数,针对多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;混合多个音轨中不同音轨对应的目标音频,得到目标立体声音频。
具体的,在本申请的实施例中,混合增益参数包括:多个音轨中每个音轨对应的增益参数,音频处理装置利用混合增益参数,针对多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频,包括:针对多个音轨中每个音轨,利用对应的增益参数对对应的优化音频进行增益调整,从而得到对应的目标音频。
可以理解的是,在本申请的实施例中,音频处理装置在得到每个音轨对应的目标音频之后,混合不同音轨对应的目标音频,即将不同音轨对应的目标音频相加,从而最终得到目标立体声音频,用于播放。
图4为本申请实施例提供的一种示例性的音频处理过程示意图二。如图4所示,在本申请的实施例中,音频处理装置对原始立体声音频进行音轨分离,可以得到N个音轨对应的原始音频,并分析每个音轨对应的原始音频,此外,音频处理装置可以对原始立体声音频进行音频风格识别,以及获取用户配置的音频偏好信息,从而结合每个音轨对应的原始音频分析的结果,确定出混音规则,混音规则具体就包括了音轨优化参数和混合增益参数,其中,音轨优化参数具体包括:每个音轨对应的音轨增强参数,以及由每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置组成的空间相关参数,音频处理装置从而可以利用这些参数,针对每个音轨对应的音频先进行音轨增强,再进行双耳空间渲染,最后,利用混合增益参数,将不同音轨对应的优化音频进行混合,此部分生成目标立体声音频,再进行播放。
可以理解的是,在本申请的实施例中,通过音频分离以及分别进行音轨增强和空间处理的方式,可以为立体声音频中的每个音轨对应的音频进行最合适的增强处理,并且可为不同乐器或人声建立独立的声像,与传统的音效增强和虚拟环绕技术相比,可以极大地增强音乐的临场感、空间感和主观听感。让收听者在欣赏普通立体声格式的音乐时,也能体验到身临其境的感觉。
本申请实施例提供了一种音频处理方法,包括:分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。本申请实施例提供的音频处理方法,通过对立体声音频进行音轨分离,将分离的不同音轨对应的音频分别优化后再混合,使得立体声音频中各个成分达到最优,全面提高了立体声音频的听感。其中,针对不同音轨对应的音频的优化,可以包括空间重建,从而使得立体声音频具备真实的空间感。
本申请实施例提供了一种音频处理装置。图5为本申请实施例提供的一种音频处理装置的结构示意图一。如图5所示,在本申请的实施例中,音频处理装置包括:
分离模块201,用于分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;
处理模块202,用于:
针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;
混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
在本申请一实施例中,所述处理模块202,还用于:
获取音轨优化参数和混合增益参数;
所述处理模块202,具体用于:
利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频;
利用所述混合增益参数,针对所述多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;
混合所述多个音轨中不同音轨对应的目标音频,得到所述目标立体声音频。
在本申请一实施例中,所述处理模块202,具体用于:
对所述多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;
识别所述原始立体声音频的音频风格类型;
基于所述数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定所述音轨优化参数和所述混合增益参数。
在本申请一实施例中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨增强参数,所述处理模块202,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
在本申请一实施例中,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,所述处理模块202,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨空间位置、所述空间环境参数和所述音频接收空间位置,对对应的原始音频进行双耳空间渲染。
图6为本申请实施例提供的一种音频处理装置的结构示意图二。如图6所示,音频处理装置包括:处理器301、存储器302和通信总线303;
所述通信总线303,用于实现所述处理器301和所述存储器302之间的通信连接;
所述处理器301,用于执行所述处理器302存储的一个或者多个程序,以实现上述音频处理方法。
图7为本申请实施例提供的一种音频处理装置的结构示意图三。如图7所示,在本申请的实施例中,音频处理装置主要执行音频分离和音频重建两部分步骤,其中,音频分离即包括上述每个音轨对应的音频的分离等步骤,音频重建包括上述音频优化和混合步骤,为了提高处理速度,可以使用神经网络加速器401来进行音频分离处理,即音频处理装置可以包括神经网络加速器401。当处理速度满足实时需求时,也即对每一帧音频的处理时间小于相应的播放时间,则整个处理流程可以在播放音频的同时实时进行。
本申请实施例提供了一种音频处理装置,分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;针对多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;混合多个音轨中不同音轨对应的优化音频,生成目标立体声音频。本申请实施例提供的音频处理装置,通过对立体声音频进行音轨分离,将分离的不同音轨对应的音频分别优化后再混合,使得立体声音频中各个成分达到最优,全面提高了立体声音频的听感。中,针对不同音轨对应的音频的优化,可以包括空间重建,从而使得立体声音频具备真实的空间感。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述音频处理方法。计算机可读存储介质可以是是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);也可以是包括上述存储器之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本实用申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种音频处理方法,其特征在于,包括:
分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;
针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;
混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
2.根据权利要求1所述的方法,其特征在于,所述针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频之前,所述方法还包括:
获取音轨优化参数和混合增益参数;
所述针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频,包括:
利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频;
所述混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频,包括:
利用所述混合增益参数,针对所述多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;
混合所述多个音轨中不同音轨对应的目标音频,得到所述目标立体声音频。
3.根据权利要求2所述的方法,其特征在于,所述获取音轨优化参数和混合增益参数,包括:
对所述多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;
识别所述原始立体声音频的音频风格类型;
基于所述数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定所述音轨优化参数和所述混合增益参数。
4.根据权利要求2所述的方法,其特征在于,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨增强参数,所述利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:
针对所述多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
5.根据权利要求2所述的方法,其特征在于,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,所述利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,包括:
针对所述多个音轨中每个音轨,利用对应的音轨空间位置、所述空间环境参数和所述音频接收空间位置,对对应的原始音频进行双耳空间渲染。
6.一种音频处理装置,其特征在于,包括:
分离模块,用于分离原始立体声音频包括的多个音轨中每个音轨对应的原始音频;
处理模块,用于:
针对所述多个音轨中每个音轨,分别优化对应的原始音频,得到对应的优化音频;
混合所述多个音轨中不同音轨对应的优化音频,生成目标立体声音频。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于:
获取音轨优化参数和混合增益参数;
所述处理模块,具体用于:
利用所述音轨优化参数,针对所述多个音轨中每个音轨对应的原始音频,分别进行适应性的优化,得到对应的优化音频;
利用所述混合增益参数,针对所述多个音轨中每个音轨对应的优化音频,分别进行适应性的增益调整,得到对应的目标音频;
混合所述多个音轨中不同音轨对应的目标音频,得到所述目标立体声音频。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:
对所述多个音轨中每个音轨对应的原始音频进行数据分析,得到数据分析结果;
识别所述原始立体声音频的音频风格类型;
基于所述数据分析结果、识别到的音频风格类型,以及预设音频偏好信息,确定所述音轨优化参数和所述混合增益参数。
9.根据权利要求7所述的装置,其特征在于,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨增强参数,所述处理模块,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨增强参数对对应的原始音频进行增强。
10.根据权利要求6所述的装置,其特征在于,所述音轨优化参数包括:所述多个音轨中每个音轨对应的音轨空间位置、空间环境参数和音频接收空间位置,所述处理模块,具体用于:
针对所述多个音轨中每个音轨,利用对应的音轨空间位置、所述空间环境参数和所述音频接收空间位置,对对应的原始音频进行双耳空间渲染。
11.一种音频处理装置,其特征在于,包括:处理器、存储器和通信总线;
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述处理器存储的一个或者多个程序,以实现权利要求1-5任一项所述的音频处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5任一项所述的音频处理方法。
CN202111564746.1A 2021-12-20 2021-12-20 一种音频处理方法、装置及存储介质 Pending CN114067827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111564746.1A CN114067827A (zh) 2021-12-20 2021-12-20 一种音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111564746.1A CN114067827A (zh) 2021-12-20 2021-12-20 一种音频处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114067827A true CN114067827A (zh) 2022-02-18

Family

ID=80230044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111564746.1A Pending CN114067827A (zh) 2021-12-20 2021-12-20 一种音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114067827A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299976A (zh) * 2022-03-06 2022-04-08 荣耀终端有限公司 音频数据处理方法及电子设备
CN116013349A (zh) * 2023-03-28 2023-04-25 荣耀终端有限公司 音频处理方法及相关装置
WO2024093798A1 (zh) * 2022-10-31 2024-05-10 北京字跳网络技术有限公司 音乐创作方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299976A (zh) * 2022-03-06 2022-04-08 荣耀终端有限公司 音频数据处理方法及电子设备
WO2024093798A1 (zh) * 2022-10-31 2024-05-10 北京字跳网络技术有限公司 音乐创作方法、装置、电子设备及可读存储介质
CN116013349A (zh) * 2023-03-28 2023-04-25 荣耀终端有限公司 音频处理方法及相关装置
CN116013349B (zh) * 2023-03-28 2023-08-29 荣耀终端有限公司 音频处理方法及相关装置

Similar Documents

Publication Publication Date Title
US10607629B2 (en) Methods and apparatus for decoding based on speech enhancement metadata
JP5161109B2 (ja) 信号デコーディング方法及び装置
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN112205006B (zh) 音频内容的自适应再混合
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
US10595144B2 (en) Method and apparatus for generating audio content
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
CN113347552B (zh) 一种音频信号处理方法、装置及计算机可读存储介质
CN114242025A (zh) 一种伴奏的生成方法、设备及存储介质
CN116437268B (zh) 自适应分频的环绕声上混方法、装置、设备及存储介质
CN113347551B (zh) 一种单声道音频信号的处理方法、装置及可读存储介质
EP3920049A1 (en) Techniques for audio track analysis to support audio personalization
CN115119110A (zh) 音效调节方法、音频播放设备以及计算机可读存储介质
US11935552B2 (en) Electronic device, method and computer program
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
US20230143062A1 (en) Automatic level-dependent pitch correction of digital audio
Skowronek et al. Towards the development of preference models accounting for the impact of music production techniques
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
Tom Automatic mixing systems for multitrack spatialization based on unmasking properties and directivity patterns
CN115240709A (zh) 一种音频文件的声场分析方法及装置
Lopatka et al. Personal adaptive tuning of mobile computer audio
CN116847272A (zh) 音频处理方法及相关设备
CN117119369A (zh) 音频生成方法、计算机设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination