CN116564319A - 音频处理方法、装置、电子设备及存储介质 - Google Patents
音频处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116564319A CN116564319A CN202310522004.5A CN202310522004A CN116564319A CN 116564319 A CN116564319 A CN 116564319A CN 202310522004 A CN202310522004 A CN 202310522004A CN 116564319 A CN116564319 A CN 116564319A
- Authority
- CN
- China
- Prior art keywords
- audio
- channel
- channel audio
- correlation
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 162
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本公开关于一种音频处理方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法中,提取待编码的多通道音频中指定通道音频的音频特征,指定通道音频基于多通道音频中包括的单通道音频得到。提取多通道音频中包括的至少部分单通道音频之间的相关性特征。将音频特征以及相关性特征输入预设的预测模型,获取预测模型为多通道音频输出的多个编码码率以及多个编码码率各自对应的音质。基于多个编码码率以及多个编码码率各自对应的音质,确定多通道音频的目标码率。这样,一定程度上可以使得所确定的目标码率更适合多通道音频,进而提高为该多通道音频确定的目标码率的准确性,从而提高后续编码效果。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种音频处理方法、装置、电子设备及存储介质。
背景技术
目前,音频编码作为一种音频信号处理技术,得到了广泛的应用。通过音频编码可以对音频信号进行压缩,以尽可能地减少音频传输所需的传输带宽与音频所需的存储空间。其中,音频的音质与采用的音频编码方式息息相关。
现有技术中,往往是直接基于音频的整体内容为音频确定编码码率,后续基于该编码码率对音频进行编码处理。这种方式中,针对多通道音频进行处理时,所确定的编码码率的准确性较低,进而会导致后续编码处理的效果较差。
发明内容
本公开提供一种音频处理方法、装置、电子设备及存储介质,以至少解决相关技术中编码码率的准确性较低,进而导致后续编码处理的效果较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种音频处理方法,包括:
提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到;
提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征;
将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质;
基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
可选的,在所述提取待编码的多通道音频中指定通道音频的音频特征之前,还包括:
从所述多通道音频中包括的单通道音频中选择N个单通道音频,作为所述指定通道音频;
和/或,
基于所述多通道音频中包括的单通道音频,生成N个音频分组;所述N为正整数,所述N个音频分组中存在包括至少两个单通道音频的音频分组;
对于任一所述音频分组,基于所述音频分组中包括的单通道音频,生成一个所述指定通道音频。
可选的,所述提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征,包括:
基于所述多通道音频对应的多个音频通道,确定通道组;一个所述通道组中包括至少两个单通道;
对于任一所述通道组,提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。
可选的,所述提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征,包括:
获取所述至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数;所述通道间相关参数包括用于表征所述至少两个单通道对应的单通道音频之间的相关程度;
对于任一所述通道间相关参数,根据各所述指定音频帧之间的通道间相关参数,确定所述通道间相关参数对应的特征;
基于所有所述通道间相关参数对应的特征生成所述相关性特征。
可选的,所述基于所述多通道音频对应的多个音频通道,确定通道组,包括:
在所述多通道音频对应的音频通道总数量等于2的情况下,将所述多通道音频对应的两个音频通道,确定为一个通道组;
在所述多通道音频对应的音频通道总数量大于2的情况下,将对应的音频内容的相似度符合预设要求的至少两个音频通道,划分至同一通道组。
可选的,所述预测模型通过下述方式训练得到:
获取样本多通道音频的多个样本编码码率以及所述多个样本编码码率各自对应的音质;
将所述样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,获取所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质;
基于所述多个样本编码码率、所述多个样本编码码率各自对应的音质、所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质,调整所述待训练预测模型的模型参数;
在所述待训练预测模型收敛的情况下,将所述待训练预测模型确定为所述预测模型。
可选的,所述将所述音频特征以及所述相关性特征输入预设的预测模型,包括:
对所述音频特征以及所述相关性特征进行拼接,得到拼接特征;
将所述拼接特征输入所述预测模型。
根据本公开实施例的第二方面,提供了一种音频处理装置,应用于终端,包括:
第一提取模块,被配置为执行提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到;
第二提取模块,被配置为执行提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征;
第一获取模块,被配置为执行将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质;
第一确定模块,被配置为执行基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
可选的,所述装置还包括:
选择模块,被配置为执行从所述多通道音频中包括的单通道音频中选择N个单通道音频,作为所述指定通道音频;
和/或,
第一生成模块,被配置为执行基于所述多通道音频中包括的单通道音频,生成N个音频分组;所述N为正整数,所述N个音频分组中存在包括至少两个单通道音频的音频分组;
第二生成模块,被配置为执行对于任一所述音频分组,基于所述音频分组中包括的单通道音频,生成一个所述指定通道音频。
可选的,所述第二提取模块,具体被配置为执行:
基于所述多通道音频对应的多个音频通道,确定通道组;一个所述通道组中包括至少两个单通道;
对于任一所述通道组,提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。
可选的,所述第二提取模块,具体还被配置为执行:
获取所述至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数;所述通道间相关参数包括用于表征所述至少两个单通道对应的单通道音频之间的相关程度;
对于任一所述通道间相关参数,根据各所述指定音频帧之间的通道间相关参数,确定所述通道间相关参数对应的特征;
基于所有所述通道间相关参数对应的特征生成所述相关性特征。
可选的,所述第二提取模块,具体还被配置为执行:
在所述多通道音频对应的音频通道总数量等于2的情况下,将所述多通道音频对应的两个音频通道,确定为一个通道组;
在所述多通道音频对应的音频通道总数量大于2的情况下,将对应的音频内容的相似度符合预设要求的至少两个音频通道,划分至同一通道组。
可选的,所述预测模型通过下述模块训练得到:
第二获取模块,被配置为执行获取获取样本多通道音频的多个样本编码码率以及所述多个样本编码码率各自对应的音质;
第三获取模块,被配置为执行将所述样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,获取所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质;
调整模块,被配置为执行基于所述多个样本编码码率、所述多个样本编码码率各自对应的音质、所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质,调整所述待训练预测模型的模型参数;
第二确定模块,被配置为执行在所述待训练预测模型收敛的情况下,将所述待训练预测模型确定为所述预测模型。
可选的,所述第一获取模块,具体被配置为执行:
对所述音频特征以及所述相关性特征进行拼接,得到拼接特征;
将所述拼接特征输入所述预测模型。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括可读性程序指令,所述可读性程序指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:在本公开实施例中,提取待编码的多通道音频中指定通道音频的音频特征,指定通道音频基于多通道音频中包括的单通道音频得到。提取多通道音频中包括的至少部分单通道音频之间的相关性特征。将音频特征以及相关性特征输入预设的预测模型,获取预测模型为多通道音频输出的多个编码码率以及多个编码码率各自对应的音质。基于多个编码码率以及多个编码码率各自对应的音质,确定多通道音频的目标码率。这样,相较于直接基于音频内容确定编码码率的方式,本公开实施例中,在针对多通道音频进行处理时,提取多通道音频中基于单通道音频得到的指定通道音频的音频特征,以及,多通道音频中包括的至少部分单通道音频之间的相关性特征,基于音频特征以及相关性特征为多通道音频确定目标码率。由于多通道音频的通道相关性会影响所需的编码码率,音频特征以及相关性特征可以更全面的表征多通道音频,因此,一定程度上可以使得所确定的目标码率更适合多通道音频,进而提高为该多通道音频确定的目标码率的准确性,从而提高后续编码效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频处理方法的流程图;
图2是根据一示例性实施例示出的一种音频处理过程示意图;
图3是根据一示例性实施例示出的一种音频处理装置的框图;
图4是根据一示例性实施例示出的一种用于音频处理的装置的框图;
图5是根据一示例性实施例示出的另一种用于音频处理的装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频处理方法的流程图,如图1所示,可以包括以下步骤:
步骤101、提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到。
本公开实施例中,待编码的多通道音频的可以是任一需要进行编码处理的多通道音频。多通道音频可以包括至少两个音频通道,相应地,基于多通道音频可以抽取得到该多通道音频所包括的各音频通道对应的单通道音频,即,多通道音频可以被分解为至少两个单通道音频。多通道音频也可以称为多声道音频,一个音频通道即为一个声道,一个音频通道对应的单通道音频即为一个声道对应的声道信号。
进一步地,指定通道音频可以是单通道音频本身,也可以是基于单通道音频混合得到的,本公开实施例对此不作限制。相应地,对于任一指定通道音频,可以提取该指定通道音频的音频特征。这样,得到的音频特征可以从多通道音频中包括的单个通道音频的维度进行表征。其中,音频特征的种类可以根据实际需求设置,本公开实施例对此不作限制。
步骤102、提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征。
其中,多通道音频中包括的单通道音频的通道间相关性不同,需要的编码码率往往会存在差异。例如,以双通道为例,当双通道音频的通道间相关性很强时,编码器往往只需在单通道编码的基础上增加少量码率,即可保留双通道的声音细节。反之,当双通道音频的通道间相关性很弱时,编码器则需要在单通道编码的基础上花费更多的码率来保留声音的细节。即,单通道音频的通道间相关性一定程度上可以体现在确保编码质量的情况下,针对多通道音频所需的码率。因此,本公开实施例中,可以进一步提取多通道音频中包括的至少部分单通道音频之间的相关性特征。这样,得到的相关性特征可以从多通道音频中包括的多个单通道音频的通道间维度进行表征。其中,相关性特征可以包括用于表征通道间相关性的特征,相关性特征的具体种类可以根据实际需求设置,本公开实施例对此不作限制。
步骤103、将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质。
其中,预设的预测模型可以是预先训练好的模型,该预测模型可以为神经网络模型。预测模型可以基于输入为多通道音频输出多个编码码率以及这多个编码码率中各个编码码率对应的音质。其中,输出的编码码率的数量可以是预先设置的,例如,输出的编码码率的数量可以为10。
步骤104、基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
本公开实施例中,可以查找这多个编码码率对应的音质中是否存在目标音质,如果存在,则可以直接从这多个编码码率中选择目标音质对应的编码码率作为目标码率。如果不存在,则可以基于多个编码码率以及多个编码码率各自对应的音质构建音质码率曲线。或者,也可以直接构建音质码率曲线。其中,输出的一个编码码率以及该编码码率对应的音质可以作为一个数据对,一个数据对可以体现以该数据对中的编码码率对该多通道音频进行编码后的所得到音频的音质,基于这多个数据对进行曲线拟合,得到音质码率曲线。其中,音质码率曲线可以表征不同编码码率下,对该多通道音频进行编码后的所得到音频的音质。目标音质可以是本次编码操作所需的音质,目标音质可以是预先设置的。可以从音质码率曲线中查找与该目标音质对应的编码码率,进而得到目标码率。基于多个编码码率以及多个编码码率各自对应的音质,适应性的确定与目标音质对应的编码码率,作为目标码率。这样,可以确保最终确定的编码码率能够满足编码操作对音质的需求。
进一步地,可以基于目标码率对多通道音频进行编码处理。示例性地,可以将目标码率设置为编码器采用的编码码率,并将多通道音频作为该编码器的输入,通过该编码器按照目标码率对多通道音频进行编码处理。相应地,编码器可以输出编码后的多通道音频。
综上所述,本公开实施例所提供的音频处理方法,提取待编码的多通道音频中指定通道音频的音频特征,指定通道音频基于多通道音频中包括的单通道音频得到。提取多通道音频中包括的至少部分单通道音频之间的相关性特征。将音频特征以及相关性特征输入预设的预测模型,获取预测模型为多通道音频输出的多个编码码率以及多个编码码率各自对应的音质。基于多个编码码率以及多个编码码率各自对应的音质,确定多通道音频的目标码率。这样,相较于直接基于音频内容确定编码码率的方式,本公开实施例中,在针对多通道音频进行处理时,提取多通道音频中基于单通道音频得到的指定通道音频的音频特征,以及,多通道音频中包括的至少部分单通道音频之间的相关性特征,基于音频特征以及相关性特征为多通道音频确定目标码率。由于多通道音频的通道相关性会影响所需的编码码率,音频特征以及相关性特征可以更全面的表征多通道音频,因此,一定程度上可以使得所确定的目标码率更适合多通道音频,进而提高为该多通道音频确定的目标码率的准确性,从而提高后续编码效果。
可选的,上述提取待编码的多通道音频中指定通道音频的音频特征之前的步骤之前,可以通过下述步骤确定指定通道音频:
步骤201、从所述多通道音频中包括的单通道音频中选择N个单通道音频,作为所述指定通道音频。
和/或,步骤202、基于所述多通道音频中包括的单通道音频,生成N个音频分组;所述N为正整数,所述N个音频分组中存在包括至少两个单通道音频的音频分组。
步骤203、对于任一所述音频分组,基于所述音频分组中包括的单通道音频,生成一个所述指定通道音频。
本公开实施例中,N的具体值可以根据实际情况来设置,N不大于多通道音频中包括的单通道音频的总数量。示例性地,可以根据算力情况设置N的具体值,N的大小可以与算力正相关。例如,在算力较高,设置更大的N。在算力较低的情况下,设置更小的N,以避免所需处理的指定通道音频过多,导致处理效率过低。同时,基于算力适应性设置N的具体值,一定程度上可以在确保所设置的N与算力匹配,避免所需处理的指定通道音频过多,导致处理效率过低的同时,尽可能为后续处理提供更多的指定通道音频,进而为后续确定目标码率提供更多维度的音频特征,从而确保后续的确定效果。
进一步地,在一种实现中,一个指定通道音频可以对应一个单通道音频。具体的,可以直接从多通道音频中包括的单通道音频中选择N个单通道音频,作为指定通道音频。这样,一定程度上可以确保指定通道音频的确定效率,进而提高整体处理效率。在选择N个单通道音频时,可以随机从多通道音频中包括的多个单通道音频中选择N个单通道音频。或者,也可以基于预设规则从中选择,例如,选择能量最大的前N个通道对应的单通道音频。
在另一种实现方式中,可以存在对应至少两个单通道音频的指定通道音频。可以从多通道音频中包括的单通道音频中选择多个单通道音频进行混合,得到一个指定通道音频。具体的,对多通道音频中包括的单通道音频进行分组,得到N个音频分组。示例性地,可以设置N小于多通道音频中包括的单通道音频的总数量,将多通道音频中包括的多个单通道音频分为N个音频分组,以确保存在包括至少两个单通道音频的音频分组。或者,也可以仅对多通道音频中包括的部分单通道音频进行分组,本公开实施例对此不作限制。例如,多通道音频包括单通道音频:音频A、音频B、音频C、音频D以及音频E,可以将音频A以及音频B划分为一个音频分组,将音频D以及音频E划分为一个音频分组。
在进行分组时候,可以随机选择单通道音频进行分组,或者,也可以基于预设规则从中选择,例如,选择音频内容的相似度符合预设要求的单通道音频。其中,预设要求可以包括音频内容的相似度不小于预设相似度阈值。可以预先根据不同音频通道的特性,针对音频通道进行分组,例如,针对5.1多通道音频,5.1多通道音频包括6个音频通道:左通道、中通道、右通道、左环绕通道、右环绕通道以及低音通道。由于左通道、中通道以及右通道采集到的音频往往属于同类型,因此,可以将左通道、中通道以及右通道作为一个音频通道分组。将左环绕通道以及右环绕通道作为一个音频通道分组,将低音通道单独作为一个音频通道分组。
相应地,可以将属于同一音频通道分组的音频通道对应的单通道音频,确定为音频内容的相似度符合预设要求的单通道音频。可以将左通道音频、中通道音频以及右通道音频作为一个音频分组,将左环绕通道音频以及右环绕通道音频作为一个音频分组,将低音通道音频单独作为一个音频分组。对于任一音频分组,可以基于该音频分组中包括的单通道音频进行混合,得到一个指定通道音频。示例性地,可以对该音频分组中包括的单通道音频进行相加并求平均,进而实现混合。在进行相加之后,还可以检测是否存在相位的反向抵消,如果存在,则可以进行相位调整,以避免反向抵消的问题。之后,再进行平均。
需要说明的是,本公开实施例中,多通道音频可以先输入通道抽取/混合模块,基于该通道抽取/混合模块先对多通道音频进行分离,得到其中包括的多个单通道音频,然后从中提取单通道音频作为指定通道音频。或者,对多个单通道音频进行混合,得到一个指定通道音频。进一步地,N可以小于多通道音频中包括的单通道音频的总数量,这样,可以降低后续所需处理的数据维度,进而提高处理效率。
在又一种实现方式中,可以从多通道音频中包括的单通道音频中选择N个单通道音频作为指定通道音频,以及,基于多通道音频中包括的单通道音频,生成N个音频分组,基于各音频分组中包括的单通道音频,生成一个指定通道音频。即最终得到的指定通道音频包括直接选择的单通道音频以及基于音频分组生成的通道音频。
进一步地,对于任一指定通道音频,可以对该指定通道音频进行单通道特征提取操作,具体的,可以提取该指定通道音频的指定种类的特征。其中,指定种类的特征可以包括该指定通道音频中多个音频帧(例如,所有音频帧)的梅尔频率倒谱系数(Mel FrequencyCepstral Coefficients,MFCC)的统计均值和方差、多个音频帧的子带能量比的统计均值和方差。进一步地,还可以包括指定通道音频中音频片段的音频有效带宽和音频丰富度。音频片段的长度可以根据实际需求设置,例如,音频片段可以是时长为3秒的音频片段。其中,在提取音频帧的子带能量比时,可以先对指定通道音频进行短时傅里叶变换,之后得到指定通道音频中多个音频帧对应的频谱数据。接着,可以将频谱划分子带,计算子带的能量与频谱总能量的比值,得到音频帧的子带能量比。
对于任一指定通道音频,可以将该指定通道音频的多种指定种类的特征进行拼接,最终得到D1维的特征向量。相应地,针对N个指定通道音频,最终可以得到维度为D1*N的特征,作为上述第一音频特征。其中,D1的具体值可以根据实际需求设置,例如,D1维可以为40维。
本公开实施例中,在提取指定通道音频的音频特征时,通过直接选择N个单通道音频,作为指定通道音频。这样,一定程度上可以节省选择指定通道音频的处理量,进而提高处理效率。通过将多通道音频中包括的单通道音频分为N个音频分组,基于音频分组中包括的单通道音频生成指定通道音频,这样,可以确保最终得到的N个指定通道音频能够表征多通道音频中包括的所有单通道音频,进而确保为后续操作提供的信息的全面性。
可选的,上述提取所述多通道音频中包括的单通道音频之间的相关性特征的步骤,具体可以包括:
步骤1021、基于所述多通道音频对应的多个音频通道,确定通道组;一个所述通道组中包括至少两个单通道。
本步骤中,一个通道组中包括的单通道的数量可以根据实际需求设置,例如,一个通道组中可以包括两个单通道。假设多通道音频包括的M个音频通道,可以对M个音频通道进行两两组合,得到多个通道组。多通道音频对应的多个音频通道即为多通道音频对应的多个单通道,其中,多通道音频对应的多个单通道表示多通道音频中包括的单通道。然后从中选择K个通道组。例如,可以随机进行两两组合,并随机选择K个通道组。其中,K个通道组不大于对多通道音频包括的多个音频通道进行两两组合所能得到的组合总数量,K为不小于1的整数。不同通道组中包括的音频通道可以存在差异,即,不存在完全相同的两个通道组。例如,如果通道组1中包括左通道以及中通道,通道组2中包括左通道以及右通道,则通道组1以及通道组2存在差异,即,通道组1以及通道组2部分相同。如果通道组1中包括左通道以及中通道,通道组2中包括左环绕通道以及右环绕通道,则通道组1以及通道组2为两个完全不相同的通道组。如果通道组1中包括左通道以及中通道,通道组2中包括左通道以及中通道,则通道组1以及通道组2为两个完全相同的通道组。
需要说明的是,对于一个通道组而言,通道组中包括的单通道可以不同,也可以完全相同。例如,假设多通道音频为伪双通道音频,即,该多通道音频中包括的左通道与右通道完全一致。相应地,对于包括左通道以及右通道的通道组而言,该通道组中包括的单通道完全相同。
步骤1022、对于任一所述通道组,提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。
对于任一通道组,可以对通道组中包括的至少两个单通道对应的单通道音频进行多通道特征提取操作,具体的,可以提取该对通道组中包括的至少两个单通道对应的单通道音频之间的通道间相关参数,基于通道间相关参数确定相关性特征。其中,通道间相关参数可以根据实际需求设置,本公开实施例对此不作限制。
本公开实施例中,先基于多通道音频对应的多个音频通道,确定通道组,一个通道组中包括至少两个单通道。之后,对于任一通道组,提取通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。这样,通过先分组之后再提取的方式,一定程度上可以便捷的实现提取多通道音频中包括的单通道音频之间的相关性特征。
可选的,上述所述基于所述多通道音频对应的多个音频通道,确定通道组的步骤,具体可以包括:
步骤1021a、在所述多通道音频对应的音频通道总数量等于2的情况下,将所述多通道音频对应的两个音频通道,确定为一个通道组。
步骤1021b、在所述多通道音频对应的音频通道总数量大于2的情况下,将对应的音频内容的相似度符合预设要求的至少两个音频通道,划分至同一通道组。
本公开实施例中,如果多通道音频对应的音频通道总数量等于2,即,通道音频中仅包括两个音频通道,那么可以直接选择这两个音频通道作为一个通道组,进而便捷的实现从多通道音频包括的多个音频通道中选择至少一个通道组的操作。例如,对于双通道音频,可以直接选取左通道以及右通道作为一个通道组。进一步地,如果多通道音频对应的音频通道总数量大于2,即,通道音频中包括的音频通道之间可以组成多个通道组。因此,可以将对应的音频内容的相似度符合预设要求的至少两个音频通道划分至同一通道组。这样,由于同一通道组中单通道对应的音频内容的相似度符合预设要求,因此,一定程度上可以提高针对通道组生成的相关性特征的参考性。
其中,预设要求可以包括音频内容的相似度不小于预设相似度阈值。可以预先根据不同音频通道的特性,针对音频通道进行分组,例如,针对5.1多通道音频,5.1多通道音频包括6个音频通道:左通道、中通道、右通道、左环绕通道、右环绕通道以及低音通道。由于左通道、中通道以及右通道采集到的音频往往属于同类型,因此,可以将左通道、中通道以及右通道作为一个音频通道分组。将左环绕通道以及右环绕通道作为一个音频通道分组。相应地,可以将属于同一音频通道分组的音频通道,确定为音频内容的相似度符合预设要求音频通道。本步骤中,可以将属于同一预先划分的音频通道分组中的两个音频通道作为一个通道组。例如,选取[左右]、[左中]、[右中]和[左环绕右环绕]等几个通道组。
可选的,上述提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征的步骤,具体可以包括:
步骤1022a、获取所述至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数;所述通道间相关参数包括用于表征所述至少两个单通道对应的单通道音频之间的相关程度。
其中,指定音频帧的数量不小于2,通道间相关参数可以包括通道间相位差、通道间能量差以及通道间互相关系数中的一种或多种。本公开实施例中,通道间相关参数可以包括通道间相位差(Inter-channelPhase Difference,IPD)、通道间能量差(Inter-channel Level Difference,ILD)以及通道间互相关系数(Inter-channelCross-correlationCoefficient,ICC)中的一种或多种。当然,通道间相关参数还可以包括其他参数,例如,通道间时间差(Inter-channel Time Difference,ICTD)。
指定音频帧可以是单通道音频中包括的所有音频帧,可以是部分音频帧,例如,可以是第10帧音频帧~第30帧音频帧。对于任一通道组,该通道组中包括的至少两个单通道对应的单通道音频即为该通道组对应的至少两个单通道音频。相应地,可以计算该至少两个单通道音频中相同位置的指定音频帧之间的通道间相关参数。假设该通道组对应的至少两个单通道音频为音频1以及音频2,那么可以计算音频1中第10帧音频帧与音频2中第10帧音频帧之间的通道间相关参数,计算音频1中第11帧音频帧与音频2中第11帧音频帧之间的通道间相关参数,……,计算音频1中第30帧音频帧与音频2中第30帧音频帧之间的通道间相关参数。具体的通道间相关参数中每种参数的计算方式可以参照现有的计算方式,例如,采用预设的参数计算公式,计算指定音频帧之间的通道间相关参数。
步骤1022b、对于任一所述通道间相关参数,根据各所述指定音频帧之间的通道间相关参数,确定所述通道间相关参数对应的特征。
以通道间相关参数包括通道间相位差、通道间能量差以及通道间互相关系数为例。可以根据各指定音频帧之间的通道间相位差,确定通道间相位差对应的特征,具体的,可以计算所有指定音频帧之间的通道间相位差的统计均值和方差,作为通道间相位差对应的特征。根据各指定音频帧之间的通道间能量差,确定通道间能量差对应的特征,具体的,可以计算所有指定音频帧之间的通道间能量差的统计均值和方差,作为通道间能量差对应的特征。根据各指定音频帧之间的通道间互相关系数,确定通道间互相关系数对应的特征,具体的,可以计算所有指定音频帧之间的通道间互相关系数的统计均值和方差,作为通道间互相关系数对应的特征。
步骤1022c、基于所有所述通道间相关参数对应的特征生成所述相关性特征。
本步骤中,可以将针对该通道组提取的各种通道间相关参数对应的特征进行拼接。例如,将通道间相位差对应的特征、通道间能量差对应的特征以及通道间互相关系数对应的特征进行拼接,得到该通道组对应的相关性特征。其中,通道组对应的相关性特征可以为D2维。相应地,针对K个通道组,最终可以得到维度为D2*K的特征,作为上述相关性特征。其中,D1的具体值可以根据实际需求设置,例如,D2维可以为40维。
需要说明的是,在通道组中包括的单通道数量大于2时,可以将通道组中包括的单通道对应的单通道音频两两划分为一组。针对任一组,计算该组中的两个单通道音频中指定音频帧之间的通道间相关参数。之后,确定该组对应的任一通道间相关参数对应的特征。对于任一通道间相关参数对应的特征,可以对这多组的通道间相关参数对应的特征进行平均。最后,将平均后得到的所有通道间相关参数对应的特征进行拼接,得到该通道组最终的相关性特征。
示例性地,假设通道组对应3个单通道音频:音频1、音频2以及音频3,那么可以将音频1以及音频2划分为A组,将音频1以及音频3划分为B组,将音频2以及音频3划分为C组。基于音频1以及音频2计算得到A组对应的通道间相位差、通道间能量差以及通道间互相关系数,基于音频1以及音频3计算得到B组对应的通道间相位差、通道间能量差以及通道间互相关系数,基于音频2以及音频3计算得到C组对应的通道间相位差、通道间能量差以及通道间互相关系数。
之后,分别确定A组对应的通道间相位差对应的特征、通道间能量差对应的特征以及通道间互相关系数对应的特征,确定B组对应的通道间相位差对应的特征、通道间能量差对应的特征以及通道间互相关系数对应的特征,确定C组对应的通道间相位差对应的特征、通道间能量差对应的特征以及通道间互相关系数对应的特征。
接着,对A组、B组以及C组各自对应的通道间相位差对应的特征进行平均,得到最终的通道间相位差对应的特征。对A组、B组以及C组各自对应的通道间能量差对应的特征进行平均,得到最终的通道间能量差对应的特征。对A组、B组以及C组各自对应的通道间互相关系数对应的特征进行平均,得到最终的通道间互相关系数对应的特征。最后,将最终的通道间相位差对应的特征、最终的通道间能量差对应的特征以及最终的通道间互相关系数对应的特征进行拼接,得到该通道组中包括的3个单通道对应的单通道音频之间的相关性特征。
本公开实施例中,通过获取至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数,基于根据各指定音频帧之间的通道间相关参数,确定通道间相关参数对应的特征,最后,基于所有通道间相关参数对应的特征生成相关性特征。由于通道间相关参数可以准确的表征通道间的相关性,因此,一定程度上可以确保所生成的相关性特征的准确性。
可选的,上述将所述音频特征以及所述相关性特征输入预设的预测模型的步骤,具体可以包括:
步骤1031、对所述音频特征以及所述相关性特征进行拼接,得到拼接特征。
步骤1032、将所述拼接特征输入所述预测模型。
本公开实施例中,可以将音频特征以及相关性特征拼接后得到的特征作为预测模型的输入,例如,拼接特征可以表示为D1*N+D2*K。图2是根据一示例性实施例示出的一种音频处理过程示意图,如图2所示,原始音频即为待编码的多通道音频,该处理过程可以基于编码音质预测模块实现。具体的,可以先通过其中的通道抽取/混合模块,得到若干个指定通道音频并且基于单通道特征提取模块提取各指定通道音频的音频特征FEAintra。同时,基于通道间特征提取模块提取相关性特征FEAinter。接着,将FEAintra以及FEAinter拼接后输入神经网络,最终获得音质码率曲线。其中,FEAintra可以理解为单通道特征,FEAinter可以理解为通道间的相关性特征,神经网络可以为预设的预测模型。
进一步地,上述编码音质预测模块可以属于音频编码系统框架。在音频编码系统框架中,还可以进一步将原始音频输入编码器,并基于音质码率曲线以及目标音质进行码率计算,即,查找与目标音质对应的码率,以确定目标码率。最后,基于编码器以目标码率对原始音频进行编码,得到编码后的音频。
本公开实施例中,针对待编码的多通道音频,同时基于多通道音频的单通道音频特征以及音频间的相关性特征,为多通道音频确定目标码率,基于目标码率对待编码的多通道音频进行自适应编码,使得能够为不同的待编码的多通道音频分配合适且更为准确的目标码率,进而确保编码处理的处理效果。
本公开实施例中,通过对音频特征以及相关性特征进行拼接,将拼接特征作为预设的预测模型的输入。这样,可以方便预测模型对音频特征以及相关性特征进行处理,进而一定程度上提高处理效率。
可选的,上述预测模型通过下述步骤训练得到:
步骤A、获取样本多通道音频的多个样本编码码率以及所述多个样本编码码率各自对应的音质。
其中,样本多通道音频可以随机选取的多通道音频。样本多通道音频可以为多个,样本多通道音频可以是语音、音乐和环境声,或者是几种内容的混合得到的。对于任一样本多通道音频,可以使用音频编码算法,例如,高效高级音频编码(High-EfficiencyAdvancedAudioCoding,HE-AAC)算法进行L个码率的编码。这L个码率即为样本编码码率,其中,这L个码率可以表示为R=[r1,r2,…,rL]。编码后输出的音频可以表示为Y=[y1,y2,…,yL]。L的具体值可以由待训练预测模型的网络结构决定,例如,为待训练预测模型中最后一层包括的输出神经元的数量。在一种实现方式中,L可以等于7,R=[16,24,32,40,48,56,64]千比特每秒(kbps)。
进一步地,可以根据该样本多通道音频以及编码后得到L种音频Y=[y1,y2,…,yL],采用客观音频音质评估算法,确定L个码率中每种码率对应的客观音质:S=[s1,s2,…,sL]。其中,客观音质可以为音频质量的感知评价(Perceptual Evaluation ofAudio Quality,PEAQ)参数,或者是多种客观音频音质指标的线性融合得到的参数。或者,也可以通过人工标注,确定使用L个码率编码后得到L种音频各自对应的音质,以使得样本编码码率对应的音质更加接近人类实际的主观感知。
相应地,可以L个码率以及所述L个码率各自对应的音质,即,得到L个数据对,其中,一个数据对可以包括一种码率以及该码率对应的音质。
步骤B、将所述样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,获取所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质。
其中,提取样本多通道音频的音频特征以及相关性特征的实现方式,可以参照前述提取待编码的多通道音频的音频特征以及相关性特征的实现方式。进一步地,可以对样本多通道音频的音频特征以及相关性特征进行拼接,得到样本拼接特征。
待训练预测模型可以为神经网络,例如,具体可以为包括P层,每层具备Q个节点的多层全连接网络,其中,P可以等于2,Q可以等于100,以适配低运算量轻量化的场景。当然,在算力充足的情况下,也可以采用多层卷积神经网络(Convolutional Neural Networks,CNN),长短期记忆(Long short-term memory,LSTM)网络和深度神经网络(Deep NeuralNetworks,DNN)等神经网络作为待训练预测模型。相应地,还可以进一步获取多通道音频的多通道频谱输入预测模型,以为预测模型提供更多维度的数据,进而提高预测结果的准确性。
进一步地,待训练预测模型可以基于输入对应输出L个编码码率以及这L个编码码率各自对应的音质。
步骤D、基于所述多个样本编码码率、所述多个样本编码码率各自对应的音质、所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质,调整所述待训练预测模型的模型参数。
将样本编码码率对应的音质记为S,将待训练预测模型输出的编码码率对应的音质记为S’。本公开实施例中,可以将均方误差(Mean Square Error,MSE)函数作为损失函数,基于多个样本编码码率以及待训练预测模型输出的多个编码码率中相同码率对应的S以及S’,计算误差值。以最小化损失函数为目标,基于该误差值,采用梯度下降的方式调整待训练预测模型的模型参数。
步骤E、在所述待训练预测模型收敛的情况下,将所述待训练预测模型确定为所述预测模型。
本步骤中,可以在损失函数达到最小,或者,模型参数的调整次数达到预设次数阈值,又或者计算得到的误差值小于预设数值阈值的情况下,确定待训练预测模型收敛。相应地,收敛的待训练预测模型即为上述预测模型。
需要说明的是,上述模型训练过程的执行主体,可以与上述进行编码处理的执行主体为同一设备,也可以为不同设备。
本公开实施例中,采用样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,使得待训练预测模型的可以在训练过程中使用更全面的能够表征多通道音频的特征进行学习,进而使得训练得到的预测模型可以更为准确的为多通道音频确定预测编码码率。
图3是根据一示例性实施例示出的一种音频处理装置的框图,如图3所示,该装置30可以包括:
第一提取模块301,被配置为执行提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到;
第二提取模块302,被配置为执行提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征;
第一获取模块303,被配置为执行将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质;
第一确定模块304,被配置为执行基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
在一种可选实施例方式中,所述装置30还包括:
选择模块,被配置为执行从所述多通道音频中包括的单通道音频中选择N个单通道音频,作为所述指定通道音频;
和/或,
第一生成模块,被配置为执行基于所述多通道音频中包括的单通道音频,生成N个音频分组;所述N为正整数,所述N个音频分组中存在包括至少两个单通道音频的音频分组;
第二生成模块,被配置为执行对于任一所述音频分组,基于所述音频分组中包括的单通道音频,生成一个所述指定通道音频。
在一种可选实施例方式中,所述第二提取模块302,具体被配置为执行:
基于所述多通道音频对应的多个音频通道,确定通道组;一个所述通道组中包括至少两个单通道;
对于任一所述通道组,提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。
在一种可选实施例方式中,所述第二提取模块302,具体还被配置为执行:
获取所述至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数;所述通道间相关参数包括用于表征所述至少两个单通道对应的单通道音频之间的相关程度;
对于任一所述通道间相关参数,根据各所述指定音频帧之间的通道间相关参数,确定所述通道间相关参数对应的特征;
基于所有所述通道间相关参数对应的特征生成所述相关性特征。
在一种可选实施例方式中,所述第二提取模块302,具体还被配置为执行:
在所述多通道音频对应的音频通道总数量等于2的情况下,将所述多通道音频对应的两个音频通道,确定为一个通道组;
在所述多通道音频对应的音频通道总数量大于2的情况下,将对应的音频内容的相似度符合预设要求的至少两个音频通道,划分至同一通道组。
在一种可选实施例方式中,所述预测模型通过下述模块训练得到:
第二获取模块,被配置为执行获取获取样本多通道音频的多个样本编码码率以及所述多个样本编码码率各自对应的音质;
第三获取模块,被配置为执行将所述样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,获取所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质;
调整模块,被配置为执行基于所述多个样本编码码率、所述多个样本编码码率各自对应的音质、所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质,调整所述待训练预测模型的模型参数;
第二确定模块,被配置为执行在所述待训练预测模型收敛的情况下,将所述待训练预测模型确定为所述预测模型。
在一种可选实施例方式中,所述第一获取模块303,具体被配置为执行:
对所述音频特征以及所述相关性特征进行拼接,得到拼接特征;
将所述拼接特征输入所述预测模型。
综上所述,本公开实施例所提供的音频处理装置,提取待编码的多通道音频中指定通道音频的音频特征,指定通道音频基于多通道音频中包括的单通道音频得到。提取多通道音频中包括的至少部分单通道音频之间的相关性特征。将音频特征以及相关性特征输入预设的预测模型,获取预测模型为多通道音频输出的多个编码码率以及多个编码码率各自对应的音质。基于多个编码码率以及多个编码码率各自对应的音质,确定多通道音频的目标码率。这样,相较于直接基于音频内容确定编码码率的方式,本公开实施例中,在针对多通道音频进行处理时,提取多通道音频中基于单通道音频得到的指定通道音频的音频特征,以及,多通道音频中包括的至少部分单通道音频之间的相关性特征,基于音频特征以及相关性特征为多通道音频确定目标码率。由于多通道音频的通道相关性会影响所需的编码码率,音频特征以及相关性特征可以更全面的表征多通道音频,因此,一定程度上可以使得所确定的目标码率更适合多通道音频,进而提高为该多通道音频确定的目标码率的准确性,从而提高后续编码效果。
根据本公开的一个实施例,提供了一种电子设备,包括:处理器、用于存储处理器可执行指令的存储器,其中,处理器被配置为执行时实现如上述任一个实施例中的音频处理方法中的步骤。
根据本公开的一个实施例,还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一个实施例中的音频处理方法中的步骤。
根据本公开的一个实施例,还提供了一种计算机程序产品,该计算机程序产品包括可读性程序指令,可读性程序指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一个实施例中的音频处理方法中的步骤。
图4是根据一示例性实施例示出的一种用于音频处理的装置的框图。其中,装置900可以包括处理组件902、存储器904、电源组件906、多媒体组件908、音频组件910、输入/输出接口912、传感器组件914、通信组件916以及处理器920。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的音频处理方法的全部或部分步骤。在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的另一种用于音频处理的装置的框图。
其中,装置1000可以包括处理组件1022、存储器1032、输入输出接口1058、网络接口1050以及电源组件1026。装置1000可以被提供为一服务器。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行上述音频处理方法。
本公开所涉及的用户信息(包括但不限于用户的设备信息、用户个人信息等)、相关数据等均为经用户授权或经各方授权后的信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种音频处理方法,其特征在于,所述方法包括:
提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到;
提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征;
将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质;
基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
2.根据权利要求1所述的方法,其特征在于,在所述提取待编码的多通道音频中指定通道音频的音频特征之前,还包括:
从所述多通道音频中包括的单通道音频中选择N个单通道音频,作为所述指定通道音频;
和/或,
基于所述多通道音频中包括的单通道音频,生成N个音频分组;所述N为正整数,所述N个音频分组中存在包括至少两个单通道音频的音频分组;
对于任一所述音频分组,基于所述音频分组中包括的单通道音频,生成一个所述指定通道音频。
3.根据权利要求1所述的方法,其特征在于,所述提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征,包括:
基于所述多通道音频对应的多个音频通道,确定通道组;一个所述通道组中包括至少两个单通道;
对于任一所述通道组,提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征。
4.根据权利要求3所述的方法,其特征在于,所述提取所述通道组中包括的至少两个单通道对应的单通道音频之间的相关性特征,包括:
获取所述至少两个单通道对应的单通道音频中指定音频帧之间的通道间相关参数;所述通道间相关参数包括用于表征所述至少两个单通道对应的单通道音频之间的相关程度;
对于任一所述通道间相关参数,根据各所述指定音频帧之间的通道间相关参数,确定所述通道间相关参数对应的特征;
基于所有所述通道间相关参数对应的特征生成所述相关性特征。
5.根据权利要求3所述的方法,其特征在于,所述基于所述多通道音频对应的多个音频通道,确定通道组,包括:
在所述多通道音频对应的音频通道总数量等于2的情况下,将所述多通道音频对应的两个音频通道,确定为一个通道组;
在所述多通道音频对应的音频通道总数量大于2的情况下,将对应的音频内容的相似度符合预设要求的至少两个音频通道,划分至同一通道组。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述预测模型通过下述方式训练得到:
获取样本多通道音频的多个样本编码码率以及所述多个样本编码码率各自对应的音质;
将所述样本多通道音频的音频特征以及相关性特征作为待训练预测模型的输入,获取所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质;
基于所述多个样本编码码率、所述多个样本编码码率各自对应的音质、所述待训练预测模型输出的多个编码码率以及所述多个编码码率各自对应的音质,调整所述待训练预测模型的模型参数;
在所述待训练预测模型收敛的情况下,将所述待训练预测模型确定为所述预测模型。
7.根据权利要求1-5中任一所述的方法,其特征在于,所述将所述音频特征以及所述相关性特征输入预设的预测模型,包括:
对所述音频特征以及所述相关性特征进行拼接,得到拼接特征;
将所述拼接特征输入所述预测模型。
8.一种音频处理装置,其特征在于,所述装置包括:
第一提取模块,被配置为执行提取待编码的多通道音频中指定通道音频的音频特征;所述指定通道音频基于所述多通道音频中包括的单通道音频得到;
第二提取模块,被配置为执行提取所述多通道音频中包括的至少部分单通道音频之间的相关性特征;
第一获取模块,被配置为执行将所述音频特征以及所述相关性特征输入预设的预测模型,获取所述预测模型为所述多通道音频输出的多个编码码率以及所述多个编码码率各自对应的音质;
第一确定模块,被配置为执行基于所述多个编码码率以及所述多个编码码率各自对应的音质,确定所述多通道音频的目标码率。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522004.5A CN116564319A (zh) | 2023-05-10 | 2023-05-10 | 音频处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522004.5A CN116564319A (zh) | 2023-05-10 | 2023-05-10 | 音频处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564319A true CN116564319A (zh) | 2023-08-08 |
Family
ID=87492643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310522004.5A Pending CN116564319A (zh) | 2023-05-10 | 2023-05-10 | 音频处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564319A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117118956A (zh) * | 2023-10-25 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、电子设备及计算机可读存储介质 |
-
2023
- 2023-05-10 CN CN202310522004.5A patent/CN116564319A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117118956A (zh) * | 2023-10-25 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、电子设备及计算机可读存储介质 |
CN117118956B (zh) * | 2023-10-25 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731238B (zh) | 多声道信号的编码方法和编码器 | |
CN104934036B (zh) | 音频编码装置、方法以及音频解码装置、方法 | |
EP2278582A2 (en) | A method and an apparatus for processing an audio signal | |
Kleijn et al. | Optimizing speech intelligibility in a noisy environment: A unified view | |
EP3899936B1 (en) | Source separation using an estimation and control of sound quality | |
AU2020271965A2 (en) | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program | |
US20220148607A1 (en) | Spatialized Audio Coding with Interpolation and Quantization of Rotations | |
EP3201917A1 (en) | Method, apparatus and system | |
CN116564319A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN110024421A (zh) | 用于自适应控制去相关滤波器的方法和装置 | |
JP2022505964A (ja) | 方向性音量マップベースのオーディオ処理 | |
Lin et al. | Speech enhancement using forked generative adversarial networks with spectral subtraction | |
JP2007534986A (ja) | 知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法 | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
RU2020103799A (ru) | Способ и устройство кодирования параметра межканальной разности фаз | |
WO2009088258A2 (ko) | 프레임 타입 식별 방법 및 장치 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
Hu et al. | Multi-step coding structure of spatial audio object coding | |
CN113823318A (zh) | 一种基于人工智能的倍率确定方法、音量调节方法及装置 | |
Jing et al. | A novel multichannel audio signal compression method based on tensor representation and decomposition | |
Yang et al. | Cascaded trellis-based rate-distortion control algorithm for MPEG-4 advanced audio coding | |
CN117238311B (zh) | 一种多声源及噪声环境中的语音分离增强方法及系统 | |
RU2771833C1 (ru) | Обработка аудиоданных на основе карты направленной громкости |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |