CN115410586A - 音频处理方法、装置、电子设备及存储介质 - Google Patents
音频处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115410586A CN115410586A CN202210887729.XA CN202210887729A CN115410586A CN 115410586 A CN115410586 A CN 115410586A CN 202210887729 A CN202210887729 A CN 202210887729A CN 115410586 A CN115410586 A CN 115410586A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- audio signal
- processed
- coding rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 230000005236 sound signal Effects 0.000 claims abstract description 150
- 238000001228 spectrum Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims description 43
- 230000003595 spectral effect Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 abstract description 18
- 238000000034 method Methods 0.000 abstract description 15
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 description 3
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开关于一种音频处理方法、装置、电子设备及存储介质,该方法包括:获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。本公开在保证音频编码质量的同时降低了音频编码码流传输所需的带宽。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种音频处理方法、装置、电子设备及存储介质。
背景技术
音频编码是指在音频传输过程中,利用编码技术对音频信号进行压缩的过程,其目的是用以减少音频流媒体的传输带宽需求与音频档案的存储大小。而音频流媒体的传输带宽和音频编码质量均与音频编码码率息息相关,通常情况下,音频编码码率越大,则音频编码质量越高,音频编码码流在传输过程中所需的带宽也就越大,但是当音频编码码率达到某一阈值时,音频编码质量便达到峰值,而传输所需的带宽依然在变大。
因此,需要可靠且有效的音频处理方式以在确保音频编码质量的同时尽可能的降低音频编码码流传输所需的带宽。
发明内容
本公开提供一种音频处理方法、装置、电子设备及存储介质,以在确保音频编码质量的同时尽可能的降低音频编码码流传输所需的带宽。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频处理方法,包括:
获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;
基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;
基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;
基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。
在一个示例性的实施方式中,所述对所述待处理音频信号进行音频分类得到目标音频类别,包括:
基于所述待处理音频信号的频谱数据,提取所述待处理音频信号的声学特征;
将所述声学特征输入到音频分类模型中,得到所述音频分类模型输出的分类结果;所述分类结果指示目标音频类别。
在一个示例性的实施方式中,所述音频分类模型的训练方式,包括:
获取样本音频信号以及对应的标注信息;所述标注信息指示所述样本音频信号的参考音频类别;
基于所述样本音频信号的频谱数据,提取所述样本音频信号的声学特征得到样本声学特征;
将所述样本声学特征输入到初始音频分类模型中进行音频分类,得到预测分类结果;所述预测分类结果指示属于所述参考音频类别的概率;
基于所述预测分类结果与所述标注信息之间的差异调整所述初始音频分类模型的模型参数,直至满足预设训练结束条件得到所述音频分类模型。
在一个示例性的实施方式中,所述码率编码系数包括有效带宽系数;所述基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数,包括:
基于所述待处理音频信号的频谱数据,确定所述待处理音频信号中各频带的能量;
基于所述各频带的能量,确定有效带宽;
基于所述有效带宽与采样频率,得到有效带宽系数。
在一个示例性的实施方式中,所述基于所述各频带的能量,确定有效带宽,包括:
基于所述各频带的能量中的最大能量,确定能量阈值;
确定各所述能量中小于所述能量阈值的目标能量;
确定所述目标能量中最小能量对应频带的频带点;
基于所述频带点、所述采样频率和总频带数,确定有效带宽。
在一个示例性的实施方式中,所述预设编码码率范围包括预设编码码率上限和预设编码码率下限;所述基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率,包括:
基于所述有效带宽系数与目标预设编码码率上限的乘积得到目标编码码率上限,以及基于所述有效带宽系数与目标预设编码码率下限的乘积得到目标编码码率下限;
基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率。
在一个示例性的实施方式中,所述码率编码系数还包括频谱稀疏度;所述基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数,还包括:
对各所述频带对应的能量进行加权平均处理,得到频谱质心;
基于所述频谱质心与总频带数的比值,得到所述频谱稀疏度。
在一个示例性的实施方式中,所述基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率,包括:
确定所述目标编码码率上限与所述目标编码码率下限之间的码率差值;
确定所述频谱稀疏度与码率差值的乘积;
根据所述乘积与所述目标编码码率下限的和值,确定所述待处理音频数据对应的目标编码码率。
根据本公开实施例的第二方面,提供一种音频处理装置,包括:
音频分类单元,被配置为执行获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;
编码码率范围确定单元,被配置为执行基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;
码率编码系数确定单元,被配置为执行基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;
目标编码码率确定单元,被配置为执行基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。
在一个示例性的实施方式中,所述音频分类单元,包括:
声学特征提取单元,被配置为执行基于所述待处理音频信号的频谱数据,提取所述待处理音频信号的声学特征;
分类单元,被配置为执行将所述声学特征输入到音频分类模型中,得到所述音频分类模型输出的分类结果;所述分类结果指示目标音频类别。
在一个示例性的实施方式中,所述装置还包括训练单元,所述训练单元被配置为执行:
获取样本音频信号以及对应的标注信息;所述标注信息指示所述样本音频信号的参考音频类别;
基于所述样本音频信号的频谱数据,提取所述样本音频信号的声学特征得到样本声学特征;
将所述样本声学特征输入到初始音频分类模型中进行音频分类,得到预测分类结果;所述预测分类结果指示属于所述参考音频类别的概率;
基于所述预测分类结果与所述标注信息之间的差异调整所述初始音频分类模型的模型参数,直至满足预设训练结束条件得到所述音频分类模型。
在一个示例性的实施方式中,所述码率编码系数包括有效带宽系数;所述码率编码系数确定单元包括:
频带能量确定单元,被配置为执行基于所述待处理音频信号的频谱数据,确定所述待处理音频信号中各频带的能量;
有效带宽确定单元,被配置为执行基于所述各频带的能量,确定有效带宽;
有效带宽系数确定单元,被配置为执行基于所述有效带宽与采样频率,得到有效带宽系数。
在一个示例性的实施方式中,所述有效带宽确定单元,包括:
能量阈值确定单元,被配置为执行基于所述各频带的能量中的最大能量,确定能量阈值;
目标能量确定单元,被配置为执行确定各所述能量中小于所述能量阈值的目标能量;
频带点确定单元,被配置为执行确定所述目标能量中最小能量对应频带的频带点;
有效带宽确定子单元,被配置为执行基于所述频带点、所述采样频率和总频带数,确定有效带宽。
在一个示例性的实施方式中,所述预设编码码率范围包括预设编码码率上限和预设编码码率下限;所述目标编码码率确定单元,包括:
编码码率限值确定单元,被配置为执行基于所述有效带宽系数与目标预设编码码率上限的乘积得到目标编码码率上限,以及基于所述有效带宽系数与目标预设编码码率下限的乘积得到目标编码码率下限;
目标编码码率确定子单元,被配置为执行基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率。
在一个示例性的实施方式中,所述码率编码系数还包括频谱稀疏度;所述码率编码系数确定单元还包括:
频谱质心确定单元,被配置为执行对各所述频带对应的能量进行加权平均处理,得到频谱质心;
频谱稀疏度确定单元,被配置为执行基于所述频谱质心与总频带数的比值,得到所述频谱稀疏度。
在一个示例性的实施方式中,所述目标编码码率确定子单元,包括:
码率差值确定单元,被配置为执行确定所述目标编码码率上限与所述目标编码码率下限之间的码率差值;
第一计算单元,被配置为执行确定所述频谱稀疏度与码率差值的乘积;
第二计算单元,被配置为执行根据所述乘积与所述目标编码码率下限的和值,确定所述待处理音频数据对应的目标编码码率。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一方面的音频处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的音频处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述第一方面的音频处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过对待处理音频信号进行音频分类得到目标音频类别,并基于音频类别与预设编码码率范围之间的对应关系,确定该目标音频类别对应的目标预设编码码率范围,进而基于待处理音频信号的频谱数据确定码率编码系数,基于目标预设编码码率范围和该码率编码系数确定用于对待处理音频信号进行音频编码的目标编码码率,从而实现对于不同种类的音频采用不同的编码码率进行编码,在有效保证音频编码质量的同时,尽可能的降低了音频编码码率,进而降低了音频编码码流传输所需的带宽。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频处理方法的流程图。
图2是根据一示例性实施例示出的另一种音频处理方法的流程图。
图3是根据一示例性实施例示出的一种音频处理装置的结构框图;
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
当音频传输过程中对音频进行编码时,由于受到传输带宽和音频编码质量的影响,一般情况下需要对音频编码码率进行限制。正常情况下,音频编码码率越高,音频编码码流所能恢复的音频质量越高,传输过程中所需的带宽也就越大。但是当音频编码码率达到某一阈值时,音频编码码流所能恢复的音频质量便达到峰值,不能再被人类听感所感知。因此,保证在人类所感知的音频质量不变的同时,应尽可能的降低音频编码码流传输所需要的带宽。
在实现本公开实施例的过程中,发明人发现相关技术中对于不同种类的音频采用的是同一码率进行编码,但是不同种类的音频对应的编码码率阈值(即大于该编码码率进行音频编码所能恢复的音频质量不再能被人类听感所感知)却不同。以利用AAC(AdvancedAudio Coding,高级音频编码)对音频进行编码为例,当噪声的编码码率达到48kbps,语音的编码码率达到64kbps,音乐的编码码率达到96kbps时,随着编码码率的提升,噪声、语音和音乐的质量提升便不能再被人类听感所感知。因此,对于不同种类的音频采用同一码率进行编码,会对音频传输带宽造成极大的浪费,无法在保证音频编码质量的同时降低音频编码码流的传输带宽。
鉴于此,本公开实施例提供一种音频处理方法,该方法通过对待处理音频信号进行音频分类,并基于音频类别与预设编码码率范围之间的对应关系,确定目标音频类别对应的目标预设编码码率范围,进而基于待处理音频信号的频谱数据确定码率编码系数,基于目标预设编码码率范围和该码率编码系数确定用于对待处理音频信号进行音频编码的目标编码码率,从而实现对于不同种类的音频采用不同的编码码率进行编码,在保证音频编码质量的同时,尽可能的降低了音频编码码率,进而有效降低了音频编码码流传输所需的带宽。
需要说明的是,本公开实施例的音频处理方法可以应用于音频处理装置,该音频处理装置可以配置在电子设备中,电子设备可以是终端或者服务器。
其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是边缘计算节点,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1是根据一示例性实施例示出的一种音频处理方法的流程图,如图1所示,以音频处理方法用于电子设备为例,包括以下步骤。
在步骤S101中,获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别。
其中,待处理音频信号为预设时间长度的音频时域信号,该预设时间长度可以根据实际经验来设定,例如预设时间长度T可以为3秒。
目标音频类别可以是多个预设音频类别的任一类别,该多个预设音频类别例如可以包括噪声、语音和音乐。
具体的实施中,电子设备对于接收的输入音频信号,可以按照预设时间长度进行截断,从而得到待处理音频信号,进而对该待处理音频信号进行音频分类以得到该待处理音频信号的目标音频类别。
在一个示例性的实施方式中,上述步骤S101在实施时可以包括以下步骤:
基于所述待处理音频信号的频谱数据,提取所述待处理音频信号的声学特征;
将所述声学特征输入到音频分类模型中,得到所述音频分类模型输出的分类结果,其中所述分类结果指示目标音频类别。
具体的,待处理音频信号的频谱数据可以通过将待处理音频信号从时域变换到频域得到。假设预设时间长度T的待处理音频信号x表示为x(t),其中t代表时间,0<t≤T,则经过短时傅里叶变换(Short-TimeFourierTransform,STFT)后,x的频谱数据可以表示为以下公式(1):
X(n,k)=STFT(x(t)) (1)
其中,n为帧索引,0<n≤N,N为总帧数;k频带点,0<k≤K,K为总频带数;STFT(·)表示进行短时傅里叶变换处理,具体的处理过程可以参见相关技术中的描述,在此不再赘述。
具体的,声学特征可以是梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC),则针对待处理音频信号x的频谱数据X(n,k),可以通过以下公式(2)计算各帧对应的梅尔频率倒谱系数Melx(n,p):
Melx(n,p)=mfcc(X16k(n,k)) (2)
其中,mfcc(·)表示梅尔频率倒谱系数计算,可以参见相关技术中关于MFCC的计算过程,在此不再赘述;Fs表示待处理音频信号的采样频率,例如Fs可以是16k。;
在得到每帧对应的梅尔频率倒谱系数之后,通过对各帧对应的梅尔频率倒谱系数取均值即可得到待处理音频信号x的梅尔频率倒谱系数Mel(p),示例性的,待处理音频信号x的梅尔频率倒谱系数Mel(p)可以表示为以下公式(3):
Mel(p)=ave(Melx(n,p)) (3)
其中,ave(·)表示取平均计算。
在基于以上公式(1)~(3)得到待处理音频信号的声学特征如Mel(p)后,将该Mel(p)输入到预先训练好的音频分类模型中进行音频分类处理,从而得到音频分类模型输出的分类结果,该分类结果指示待处理音频信号所属的目标音频类别,例如可以是噪声、语音或音乐等类别。
其中,音频分类模型可以是神经网络模型,如卷积神经网络模型、深度神经网络模型等等,本公开对于神经网络模型的类型不作具体限定,经过训练可以实现分类任务的神经网络模型均可以作为本公开实施例的音频分类模型。
上述实施方式,通过基于待处理音频信号的频谱数据提取得到声学特征,进而结合音频分类模型对声学特征进行音频分类从而可以快速、准确的确定待处理音频信号的音频类别,有利于提高音频处理的效率。
基于此,在一个示例性的实施方式中,在基于音频分类模型进行音频分类之前,该方法还可以包括训练音频分类模型,该音频分类模型的训练过程可以包括以下步骤:
获取样本音频信号以及对应的标注信息;
基于所述样本音频信号的频谱数据,提取所述样本音频信号的声学特征得到样本声学特征;
将所述样本声学特征输入到初始音频分类模型中进行音频分类,得到预测分类结果;所述预测分类结果指示属于参考音频类别的概率;
基于所述预测分类结果与所述标注信息之间的差异调整所述初始音频分类模型的模型参数,直至满足预设训练结束条件得到所述音频分类模型。
其中,样本音频信号对应的标注信息指示该样本音频信号的参考音频类别,该参考音频类别即为样本音频信号的实际音频类别,可以通过人工对样本音频信号的分析确定。示例性的,参考音频类别可以包括噪声、语音和音乐。
样本音频信号的频谱数据可以参考前述公式(1)计算得到,进而样本声学特征可以参考前述公式(2)至(3)计算得到,在此不再赘述。
初始音频分类模型可以是初始化的神经网络模型,在基于预测分类结果与标注信息之间的差异调整该初始音频分类模型的模型参数时,可以利用预设损失函数根据预测分类结果与标注信息之间的差异确定损失值,然后基于损失值进行反向传播调整初始音频分类模型的模型参数,并基于调整后的模型参数继续迭代训练直至满足预设训练结束条件得到音频分类模型。
其中,预设损失函数可以是交叉熵损失函数。预设训练结束条件可以是损失值到达预设损失阈值,也可以是迭代次数达到预设迭代次数阈值,还可以是相邻两次迭代的损失值之间的差值达到预设损失差阈值。
上述实施方式,通过机器学习的方式可以训练得到用于对多种音频类别进行分类的音频分类模型,使得本公开实施例的音频处理方式具有较大的灵活性,当有新增音频类别时,通过新增音频类别对应的样本音频信号来训练更新音频分类模型即可实现对该新增音频类别的分类处理。
在步骤S103中,基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围。
其中,对应关系中的音频类别包括音频分类模型所能识别的音频类别。各音频类别对应的预设编码码率范围可以根据实际应用中的经验来设定。
示例性的,噪声对应的预设编码码率范围为32-48kbps,语音对应的预设编码码率范围为48-64kbps,音乐对应的预设编码码率范围为64-96kbps。
在确定了待处理音频信号的目标音频类别后,可以在音频类别与预设编码码率范围之间的对应关系中查找目标音频类别命中的目标对应关系,进而将该目标对应关系中的预设编码码率范围确定为目标预设编码码率范围。
在步骤S105中,基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数。
在步骤S107中,基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率。
其中,所述目标编码码率用于对所述待处理音频信号进行音频编码处理。示例性的,音频编码处理可以采用高级音频编码对待处理音频信号进行编码。
具体的,基于码率编码系数可以对目标预设编码码率范围进行调整以得到目标编码码率范围,然后在该目标编码码率范围内确定目标编码码率,可以在确保音频编码质量的同时尽量降低目标编码码率,进而有效降低音频传输所需的带宽。
在一个示例性的实施方式中,码率编码系数可以包括有效带宽系数,该有效带宽系数表征待处理音频信号中有效频带宽度的占比,一般音频编码码率与有效频带宽度成正相关关系,即当有效音频带宽越高时,音频编码码率越大。
基于此,上述步骤S105在实施时可以包括以下步骤:
基于所述待处理音频信号的频谱数据,确定所述待处理音频信号中各频带的能量。
基于所述各频带的能量,确定有效带宽。
基于所述有效带宽与采样频率,得到有效带宽系数。
具体的,待处理音频信号的频谱数据可以参见前述公式(1)。
针对每个频带点,基于各帧中该频带点对应傅里叶变换的绝对值可以确定出各频带的能量,进而基于各频带的能量确定出有效带宽(即有效频带宽度),基于有效频带宽度与音频采样频率一半的比值,可以得到有效带宽系数即有效带宽系数βeb可以表示为以下公式(4):
βeb=EB/(Fs/2) (4)
其中,EB表示有效带宽;Fs表示待处理音频信号的采样频率。
示例性的,待处理音频信号中各频带的能量可以通过以下公式(5)计算得到:
P(k)=20*log10(ave(abs(X(n,k)))) (5)
其中,P(k)表示频带点k所对应频带的能量;abs(·)表示取绝对值;ave(·)表示求平均。
上述实施例方式,通过待处理音频信号中各频带的能量,可以准确计算出待处理音频信号的有效带宽系数。
在一个示例性的实施方式中,上述基于所述各频带的能量确定有效带宽,可以包括:
基于所述各频带的能量中的最大能量,确定能量阈值;
确定各所述能量中小于所述能量阈值的目标能量;
确定所述目标能量中最小能量对应频带的频带点;
基于所述频带点、所述采样频率和总频带数,确定有效带宽。
其中,能量阈值可以基于最大能量与预设能量值的差值得到,该预设能量值可以根据实际经验设定,例如可以为60dB,则能量阈值可以表示为Pmax-60dB,该Pmax为各频带对应能量中的最大能量,即Pmax=max(P(k))。
则目标能量中最小能量对应频带的频带点index_k可以表示为以下公式(6):
index_k=min(where(P(k)<(Pmax-60dB))) (6)
其中,where(·)用于返回满足设定条件的索引。
进而,在基于目标能量中最小能量对应频带的频带点、采样频率和总频带数确定有效带宽时可以基于以下公式(7)计算得到:
EB=min(index_k*Fs/fft_len,Fs/2) (7)
其中,EB为有效带宽;index_k为目标能量中最小能量对应频带的频带点;fft_len为FFT(Fast Fourier transform,快速傅里叶变换)长度;Fs为音频采样频率。
在一个示例性的实施方式中,预设编码码率范围包括预设编码码率上限和预设编码码率下限,则目标预设编码码率范围包括目标预设编码码率上限和目标预设编码码率下限,进而上述步骤S107在基于目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率时,可以包括:
基于所述有效带宽系数与目标预设编码码率上限的乘积得到目标编码码率上限,以及基于所述有效带宽系数与目标预设编码码率下限的乘积得到目标编码码率下限;
基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率。
以(Bmin,Bmax)表示目标预设编码码率范围,其中Bmin表示目标预设编码码率下限,Bmax表示目标预设编码码率上限,则目标编码码率上限可以表示为 目标编码码率下限Bmin可以表示为Bmin=βeb*Bmin,其中,βeb为有效带宽系数。
为了能够达到更好的编码效果,在一个示例性的实施方式中,码率编码系数还包括频谱稀疏度,该频谱稀疏度可以表征音频的复杂程度,通常频谱稀疏度也可以称之为频谱丰富度,一般频谱稀疏度与音频编码码率成正相关关系,即当频谱稀疏度越大时,音频编码码率越大。
基于此,上述步骤S105在基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数时,还可以包括:
对各所述频带对应的能量进行加权平均处理,得到频谱质心;
基于所述频谱质心与总频带数的比值,得到所述频谱稀疏度。
其中,频谱质心是用于度量频谱中心的特征,一般频谱质心的值越大,表示音频信号的高频成分越多。具体的实施中,频谱质心可以通过以下公式(8)计算得到:
其中,C表示频谱质心;|X(k)|表示频带点k对应频带的幅度值,该值可以是各帧对应该频带点的幅度值求平均得到;K表示总频带数。
则,频谱稀疏度Sparsity95可以通过以下公式(9)计算得到:
Sparsity95=C/K (9)
上述实施方式中通过频谱质心确定频谱稀疏度,进而可以准确表征出音频信号的复杂程度。
基于此,上述步骤S107在基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率时,可以基于预设函数来确定目标编码码率,该预设函数中的参数包括目标编码码率上限、目标编码码率下限以及频谱稀疏度,其中,目标编码码率上、下限可以基于有效带宽系数对目标预设编码码率上、下限进行调整得到,也即在码率编码系数包括有效带宽系数和频谱稀疏度时,目标编码码率可以通过以下公式(10)表示:
其中,Bmin表示目标预设编码码率下限,Bmax表示目标预设编码码率上限,Sparsity95表示频谱稀疏度,func()表示预设函数,EBo表示目标编码码率。
在一个示例性的实施方式中,上述预设函数可以是线性函数,那么在基于目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定待处理音频信号对应的目标编码码率时可以包括:
确定所述目标编码码率上限与所述目标编码码率下限之间的码率差值;
确定所述频谱稀疏度与码率差值的乘积;
根据所述乘积与所述目标编码码率下限的和值,确定所述待处理音频数据对应的目标编码码率。
具体的,可以将上述乘积(即频谱稀疏度与码率差值的乘积)与目标编码码率下限的和值作为待处理音频数据对应的目标编码码率。
具体的实施中,目标编码码率可以通过以下公式(11)计算:
通过上述的线性函数可以快速、准确的计算出待处理音频信号的目标编码码率。
为了更好的理解本公开实施例的技术方案,下面结合图2的流程示意图对本公开实施例的音频处理方法进行说明。
如图2所示,待处理音频信号经过短时傅里叶变换后,基于短时傅里叶变换的结果和音频分类模型进行音频分类,输出待处理音频信号所属的音频类别即噪声/语音/音乐。
此外,还进一步基于短时傅里叶变换的结果进行音频有效带宽检测和频谱稀疏度检测,进而得到有效带宽系数和频谱稀疏度。
最后,基于音频分类结果所对应的预设编码码率范围和有效带宽系数、频谱稀疏度进行码率分配,得到目标编码码率,进而可以采用该目标编码码率对待处理音频信号进行音频编码。
图3是根据一示例性实施例示出的一种音频处理装置的框图。参照图3,该音频处理装置300包括音频分类单元310、编码码率范围确定单元320、码率编码系数确定单元330和目标编码码率确定单元340,其中:
音频分类单元310,被配置为执行获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;
编码码率范围确定单元320,被配置为执行基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;
码率编码系数确定单元330,被配置为执行基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;
目标编码码率确定单元340,被配置为执行基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。
在一个示例性的实施方式中,所述音频分类单元310,包括:
声学特征提取单元,被配置为执行基于所述待处理音频信号的频谱数据,提取所述待处理音频信号的声学特征;
分类单元,被配置为执行将所述声学特征输入到音频分类模型中,得到所述音频分类模型输出的分类结果;所述分类结果指示目标音频类别。
在一个示例性的实施方式中,所述装置还包括训练单元,所述训练单元被配置为执行:
获取样本音频信号以及对应的标注信息;所述标注信息指示所述样本音频信号的参考音频类别;
基于所述样本音频信号的频谱数据,提取所述样本音频信号的声学特征得到样本声学特征;
将所述样本声学特征输入到初始音频分类模型中进行音频分类,得到预测分类结果;所述预测分类结果指示属于所述参考音频类别的概率;
基于所述预测分类结果与所述标注信息之间的差异调整所述初始音频分类模型的模型参数,直至满足预设训练结束条件得到所述音频分类模型。
在一个示例性的实施方式中,所述码率编码系数包括有效带宽系数;所述码率编码系数确定单元330包括:
频带能量确定单元,被配置为执行基于所述待处理音频信号的频谱数据,确定所述待处理音频信号中各频带的能量;
有效带宽确定单元,被配置为执行基于所述各频带的能量,确定有效带宽;
有效带宽系数确定单元,被配置为执行基于所述有效带宽与采样频率,得到有效带宽系数。
在一个示例性的实施方式中,所述有效带宽确定单元,包括:
能量阈值确定单元,被配置为执行基于所述各频带的能量中的最大能量,确定能量阈值;
目标能量确定单元,被配置为执行确定各所述能量中小于所述能量阈值的目标能量;
频带点确定单元,被配置为执行确定所述目标能量中最小能量对应频带的频带点;
有效带宽确定子单元,被配置为执行基于所述频带点、所述采样频率和总频带数,确定有效带宽。
在一个示例性的实施方式中,所述预设编码码率范围包括预设编码码率上限和预设编码码率下限;所述目标编码码率确定单元340,包括:
编码码率限值确定单元,被配置为执行基于所述有效带宽系数与目标预设编码码率上限的乘积得到目标编码码率上限,以及基于所述有效带宽系数与目标预设编码码率下限的乘积得到目标编码码率下限;
目标编码码率确定子单元,被配置为执行基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率。
在一个示例性的实施方式中,所述码率编码系数还包括频谱稀疏度;所述码率编码系数确定单元330还包括:
频谱质心确定单元,被配置为执行对各所述频带对应的能量进行加权平均处理,得到频谱质心;
频谱稀疏度确定单元,被配置为执行基于所述频谱质心与总频带数的比值,得到所述频谱稀疏度。
在一个示例性的实施方式中,所述目标编码码率确定子单元,包括:
码率差值确定单元,被配置为执行确定所述目标编码码率上限与所述目标编码码率下限之间的码率差值;
第一计算单元,被配置为执行确定所述频谱稀疏度与码率差值的乘积;
第二计算单元,被配置为执行根据所述乘积与所述目标编码码率下限的和值,确定所述待处理音频数据对应的目标编码码率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个示例性的实施方式中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述任一实施方式中提供的音频处理方法。
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是终端为例,图4是根据一示例性实施例示出的一种用于音频处理的电子设备的框图,具体来讲:
终端可以包括RF(Radio Frequency,射频)电路410、包括有一个或一个以上计算机可读存储介质的存储器420、输入单元430、显示单元440、传感器450、音频电路460、WiFi(wireless fidelity,无线保真)模块470、包括有一个或者一个以上处理核心的处理器480、以及电源490等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器480处理;另外,将涉及上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器480和输入单元430对存储器420的访问。
输入单元430可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元330可包括触敏表面431以及其他输入设备432。触敏表面431,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面431上或在触敏表面431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面431。除了触敏表面431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元440可包括显示面板441,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板441。进一步的,触敏表面431可覆盖显示面板441,当触敏表面431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。其中,触敏表面431与显示面板441可以两个独立的部件来实现输入和输入功能,但是在某些实施例中,也可以将触敏表面431与显示面板441集成而实现输入和输出功能。
所述终端还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在所述终端移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与所述终端之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一终端,或者将音频数据输出至存储器420以便进一步处理。音频电路460还可能包括耳塞插孔,以提供外设耳机与所述终端的通信。
WiFi属于短距离无线传输技术,所述终端通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块470,但是可以理解的是,其并不属于所述终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是所述终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行所述终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器480可包括一个或多个处理核心;优选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
所述终端还包括给各个部件供电的电源490(比如电池),优选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源490还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,所述终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的音频处理方法的指令。
在一个示例性的实施方式中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器420,上述指令可由装置400的处理器480执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一个示例性的实施方式中,还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述任一实施方式中提供的音频处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种音频处理方法,其特征在于,包括:
获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;
基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;
基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;
基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。
2.根据权利要求1所述的音频处理方法,其特征在于,所述对所述待处理音频信号进行音频分类得到目标音频类别,包括:
基于所述待处理音频信号的频谱数据,提取所述待处理音频信号的声学特征;
将所述声学特征输入到音频分类模型中,得到所述音频分类模型输出的分类结果;所述分类结果指示目标音频类别。
3.根据权利要求2所述的音频处理方法,其特征在于,所述音频分类模型的训练方式,包括:
获取样本音频信号以及对应的标注信息;所述标注信息指示所述样本音频信号的参考音频类别;
基于所述样本音频信号的频谱数据,提取所述样本音频信号的声学特征得到样本声学特征;
将所述样本声学特征输入到初始音频分类模型中进行音频分类,得到预测分类结果;所述预测分类结果指示属于所述参考音频类别的概率;
基于所述预测分类结果与所述标注信息之间的差异调整所述初始音频分类模型的模型参数,直至满足预设训练结束条件得到所述音频分类模型。
4.根据权利要求1~3中任一项所述的音频处理方法,其特征在于,所述码率编码系数包括有效带宽系数;所述基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数,包括:
基于所述待处理音频信号的频谱数据,确定所述待处理音频信号中各频带的能量;
基于所述各频带的能量,确定有效带宽;
基于所述有效带宽与采样频率,得到有效带宽系数。
5.根据权利要求4的音频处理方法,其特征在于,所述基于所述各频带的能量,确定有效带宽,包括:
基于所述各频带的能量中的最大能量,确定能量阈值;
确定各所述能量中小于所述能量阈值的目标能量;
确定所述目标能量中最小能量对应频带的频带点;
基于所述频带点、所述采样频率和总频带数,确定有效带宽。
6.根据权利要求5的音频处理方法,其特征在于,所述预设编码码率范围包括预设编码码率上限和预设编码码率下限;所述基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率,包括:
基于所述有效带宽系数与目标预设编码码率上限的乘积得到目标编码码率上限,以及基于所述有效带宽系数与目标预设编码码率下限的乘积得到目标编码码率下限;
基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率。
7.根据权利要求6所述的音频处理方法,其特征在于,所述码率编码系数还包括频谱稀疏度;所述基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数,还包括:
对各所述频带对应的能量进行加权平均处理,得到频谱质心;
基于所述频谱质心与总频带数的比值,得到所述频谱稀疏度。
8.根据权利要求7的音频处理方法,其特征在于,所述基于所述目标编码码率上限和目标编码码率下限所限定的目标编码码率范围,确定所述待处理音频信号对应的目标编码码率,包括:
确定所述目标编码码率上限与所述目标编码码率下限之间的码率差值;
确定所述频谱稀疏度与码率差值的乘积;
根据所述乘积与所述目标编码码率下限的和值,确定所述待处理音频数据对应的目标编码码率。
9.一种音频处理装置,其特征在于,包括:
音频分类单元,被配置为执行获取待处理音频信号,对所述待处理音频信号进行音频分类得到目标音频类别;
编码码率范围确定单元,被配置为执行基于音频类别与预设编码码率范围之间的对应关系,确定所述目标音频类别对应的目标预设编码码率范围;
码率编码系数确定单元,被配置为执行基于所述待处理音频信号的频谱数据,确定所述待处理音频信号的码率编码系数;
目标编码码率确定单元,被配置为执行基于所述目标预设编码码率范围和所述码率编码系数,确定所述待处理音频信号对应的目标编码码率;所述目标编码码率用于对所述待处理音频信号进行音频编码处理。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的音频处理方法。
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的音频处理方法。
12.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210887729.XA CN115410586A (zh) | 2022-07-26 | 2022-07-26 | 音频处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210887729.XA CN115410586A (zh) | 2022-07-26 | 2022-07-26 | 音频处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410586A true CN115410586A (zh) | 2022-11-29 |
Family
ID=84156827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210887729.XA Pending CN115410586A (zh) | 2022-07-26 | 2022-07-26 | 音频处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410586A (zh) |
-
2022
- 2022-07-26 CN CN202210887729.XA patent/CN115410586A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364144B (zh) | 一种语音识别模型训练方法及装置 | |
CN109166593B (zh) | 音频数据处理方法、装置及存储介质 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN109256146B (zh) | 音频检测方法、装置及存储介质 | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
US20140207460A1 (en) | Voice identification method and apparatus | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN109558512A (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
CN107993672B (zh) | 频带扩展方法及装置 | |
CN107229629B (zh) | 音频识别方法及装置 | |
WO2022089098A1 (zh) | 音高调节方法、装置及计算机存储介质 | |
CN110097895B (zh) | 一种纯音乐检测方法、装置及存储介质 | |
CN111105852A (zh) | 一种电子病历推荐方法、装置、终端及存储介质 | |
CN111883091A (zh) | 音频降噪方法和音频降噪模型的训练方法 | |
CN112751648B (zh) | 丢包数据恢复方法和相关装置、设备及存储介质 | |
CN108322770B (zh) | 视频节目识别方法、相关装置、设备和系统 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN111062200B (zh) | 一种话术泛化方法、话术识别方法、装置及电子设备 | |
CN113225624A (zh) | 一种语音识别耗时确定方法和装置 | |
CN111897916A (zh) | 语音指令识别方法、装置、终端设备及存储介质 | |
CN115410586A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN111723783B (zh) | 一种内容识别方法和相关装置 | |
CN114722234A (zh) | 基于人工智能的音乐推荐方法、装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |