CN118016080A - 一种音频处理方法、音频处理器及相关装置 - Google Patents
一种音频处理方法、音频处理器及相关装置 Download PDFInfo
- Publication number
- CN118016080A CN118016080A CN202410419235.8A CN202410419235A CN118016080A CN 118016080 A CN118016080 A CN 118016080A CN 202410419235 A CN202410419235 A CN 202410419235A CN 118016080 A CN118016080 A CN 118016080A
- Authority
- CN
- China
- Prior art keywords
- audio
- layer
- decompression
- compression
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 78
- 238000007906 compression Methods 0.000 claims abstract description 347
- 230000006835 compression Effects 0.000 claims abstract description 338
- 230000005236 sound signal Effects 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 107
- 230000006837 decompression Effects 0.000 claims description 319
- 230000005284 excitation Effects 0.000 claims description 213
- 238000012545 processing Methods 0.000 claims description 180
- 238000009432 framing Methods 0.000 claims description 175
- 230000006870 function Effects 0.000 claims description 58
- 238000013139 quantization Methods 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 21
- 230000003139 buffering effect Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 abstract description 36
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 239000002699 waste material Substances 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 52
- 238000004458 analytical method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 34
- 239000000047 product Substances 0.000 description 34
- 230000002829 reductive effect Effects 0.000 description 32
- 230000009466 transformation Effects 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 17
- 230000004913 activation Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 230000001364 causal effect Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000013144 data compression Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供了一种音频处理方法、音频处理器以及相关装置。本申请实施例可应用于人工智能等各种场景。其方法包括:获取包括K个音频帧的音频序列,将音频序列输入至分组预测网络中,输出L个音频特征组,根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数,对L个音频特征组进行压缩,得到L个压缩音频特征;对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。本申请按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种音频处理方法、音频处理器及相关装置。
背景技术
在常规的音频处理应用中,声音信号经过ADC模数转换和音频编码器进行压缩后,可以有效降低存储空间和传输带宽;当音频播放时,来自存储设备或网络传输接收到的压缩音频数据经过对应的音频解码以及DAC数模转换后的音频模拟信号,通过硬件播放设备进行播放。
现有音频编码器大部分输入帧尺寸在启动编码器的时候被设定和固化,在音频编码过程中不会进行调整,采用固定帧大小的编码方式,每个输入帧对应输出一帧码流,而每一帧码流传输时需要额外增加外层协议信息相关比特空间进行封装,编码输出帧数越多带来的额外比特消耗越大,因此固定帧尺寸的音频编码方式不利于音频信号的进一步压缩,例如,对于网络电话的音频信号进行编码的场景中,由于通话双方或多方都是交互发声,对于通话音频中的大量的非发声段,如静音、小噪声、可被忽略的弱音频信号,若采用与通话音频中的发声段相同的固定帧对通话音频信号进行编码,则会造成传输带宽和存储空间的浪费,因此,采用固定帧大小的编码的方式不利于音频信号的优化压缩。
发明内容
本申请实施例提供了一种音频处理方法、音频处理器以及相关装置,通过可变帧长的方式对音频信号进行压缩编码,优化了音频信号的压缩方式,对优化压缩后的音频信号进行编码的占用较少的传输带宽和存储空间。
本申请的一方面提供一种音频处理方法,包括:
获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;
将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;
根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;
根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征;
对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
本申请的另一方面提供了一种音频处理器,包括:组帧决策及压缩模型及编码模型;具体的:
组帧决策及压缩模型,用于获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;
将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;
根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;
根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征;
编码模型,用于对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
在本申请实施例的另一种实现方式中,音频处理器还包括:量化模型、解码模型及组帧解压模型;具体的:
量化模型,用于对L个编码音频进行量化处理,得到L个音频量化特征;
解码模型,用于对L个音频量化特征进行解码,得到L个解码音频;
组帧解压模型,用于根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数;
根据L个音频特征组对应的L个解压次数对L个解码音频进行解压,得到L个解压序列;
根据L个解压序列生成音频信号。
本申请的另一方面提供了一种音频处理装置,包括:音频序列获取模块、分组模块、压缩次数确定模块、压缩模块及编码模块;具体的:
音频序列获取模块,用于获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;
分组模块,用于将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;
压缩次数确定模块,用于根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;
压缩模块,用于根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征;
编码模块,用于对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
在本申请实施例的另一种实现方式中,分组模块,还用于:
将音频序列输入至分组预测网络中,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存;
对音频序列进行频谱特征提取,得到音频特征序列,其中,音频特征序列包括K个音频特征;
将音频特征序列输入至分组预测网络中的组帧预测子网络,输出L个音频组帧数,其中,音频组帧数用于表征每个音频特征组中的音频帧的数量;
根据L个音频组帧数对缓存模块中的K个音频帧进行分组,得到L个音频特征组。
在本申请实施例的另一种实现方式中,分组模块,还用于:
获取预设音频组帧数N,其中,N为大于等于1且小于等于K的整数;
从音频特征序列中的K个音频特征中,提取连续的N个音频特征;
将N个音频特征输入至组帧预测子网络,输出第一预测音频组帧数M,其中,M为大于等于1且小于等于N的整数;
从音频特征序列中的K个音频特征中,提取N个音频特征之后的连续的M个音频特征;
将M个音频特征输入至组帧预测子网络,输出第二预测音频组帧数P,其中,P为大于等于1且小于等于N的整数,第二预测音频组帧数用于从音频特征序列中的K个音频特征中,提取M个音频特征之后的连续的P个音频特征,根据P个音频特征进行音频组帧数预测,直到K个音频特征均完成分组,结束预测音频组帧数。
在本申请实施例的另一种实现方式中,组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层;分组模块,还用于:
将N个音频特征输入至组帧预测子网络中的全连接层,通过全连接层输出音频全连接特征;
将音频全连接特征输入至组帧预测子网络中的第一卷积层,通过第一卷积层输出音频卷积特征;
将音频卷积特征输入至组帧预测子网络中的门控层,通过门控层输出音频门控特征;
将音频门控特征输入至组帧预测子网络中的归一化层,通过归一化层输出N个预测音频组帧数对应的N个概率值;
根据N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定第一预测音频组帧数M,其中,第一预测音频组帧数M对应的概率值为N个概率值中的最大值。
在本申请实施例的另一种实现方式中,分组模块,还用于:
从音频序列中的K个音频帧中获取第i个音频帧,其中,i为大于1且小于等于K的整数;
确定第i个音频帧对应的缓存模块的写入指针地址,其中,第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到;
根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧缓存至缓存模块;
根据第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
在本申请实施例的另一种实现方式中,分组模块,还用于:
根据L个音频组帧数确定L个读取指针地址;
根据L个读取指针地址依次对缓存模块中的K个音频帧进行读取,得到L个音频特征组。
在本申请实施例的另一种实现方式中,压缩次数确定模块,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个音频特征组中的每个音频特征组进行压缩的压缩层,得到L个压缩层数;
根据L个压缩层数确定L个音频特征组对应的L个压缩次数。
在本申请实施例的另一种实现方式中,压缩模块,还用于:
将L个音频特征组输入至压缩网络中,根据L个音频特征组对应的L个压缩层数,确定对L个音频特征组进行压缩的L个压缩层组,其中,每个压缩层组包括至少一个压缩网络层;
根据L个压缩层组对L个音频特征组进行压缩,得到L个压缩音频特征。
在本申请实施例的另一种实现方式中,压缩模块,还用于:
对L个音频特征组中的每个音频特征组均执行:
确定第j个音频特征组对应的第j个压缩层组,其中,第j个压缩层组中包括D个压缩网络层,j为大于等于1且小于等于L的整数,D为大于等于1的整数;
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,其中,每个压缩网络层的输入为上一个压缩网络层的输出。
在本申请实施例的另一种实现方式中,压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层,其中,第一激励层通过Sigmoid函数实现,第二激励层通过双曲正切函数实现;压缩模块,还用于:
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,包括:
将第j个音频特征组输入至第j个压缩层组中的第二卷积层,输出音频卷积特征;
将音频卷积特征输入至第j个压缩层组中的第一激励层,输出第一音频激励特征;
以及,将音频卷积特征输入至第j个压缩层组中的第二激励层,输出第二音频激励特征;
将第一音频激励特征与第二音频激励特征相乘,得到音频激励乘积特征;
将音频激励乘积特征输入至第j个压缩层组中的第三卷积层,得到第j个音频特征组对应的压缩音频特征。
在本申请实施例的另一种实现方式中,音频处理装置,还包括:量化模块、解码模块、解压次数确定模块、解压模块及音频信号还原模块;具体的:
量化模块,用于对L个编码音频进行量化处理,得到L个音频量化特征;
解码模块,用于对L个音频量化特征进行解码,得到L个解码音频;
解压次数确定模块,用于根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数;
解压模块,用于根据L个音频特征组对应的L个解压次数对L个解码音频进行解压,得到L个解压序列;
音频信号还原模块,用于根据L个解压序列生成音频信号。
在本申请实施例的另一种实现方式中,解压次数确定模块,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个解码音频中的每个解码音频进行解压的解压层,得到L个解压层数;
根据L个解压层数,确定L个解码音频对应的L个解压次数。
在本申请实施例的另一种实现方式中,解压模块,还用于:
将L个解码音频输入至解压网络中,根据L个解码音频对应的L个解压层数,确定对L个解码音频进行解压的L个解压层组,其中,每个解压层组包括至少一个解压网络层;
根据L个解压层组对L个解码音频进行解压,得到L个解压序列。
在本申请实施例的另一种实现方式中,解压模块,还用于:
对L个解码音频中的每个解码音频均执行:
确定第k个解码音频对应的第k个解压层组,其中,第k个解压层组中包括U个解压网络层,k为大于等于1且小于等于L的整数,U为大于等于1的整数;
将第k个解码音频输入至第k个解压层组,得到第k个解码音频对应的解压序列,其中,每个解压网络层的输入为上一个解压网络层的输出。
在本申请实施例的另一种实现方式中,解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层,其中,第三激励层通过Sigmoid函数实现,第四激励层通过双曲正切函数实现;解压模块,还用于:
将第k个解码音频输入至第k个解压层组中的第四卷积层,输出第一解码音频卷积特征;
将第一解码音频卷积特征输入至第k个解压层组中的第三激励层,输出第一解码音频激励特征;
以及,将第一解码音频卷积特征输入至第k个解压层组中的第四激励层,输出第二解码音频激励特征;
将第一解码音频激励特征与第二解码音频激励特征相乘,得到解码音频激励乘积特征;
将解码音频激励乘积特征输入至第k个解压层组中的第五卷积层,输出第二解码音频卷积特征;
将第二解码音频卷积特征输入至第k个解压层组中的逆卷积层,得到第k个解码音频对应的解压序列。
在本申请实施例的另一种实现方式中,音频序列获取模块,还用于:
获取音频信号;
对音频信号进行时频转换,得到频域特征;
对频域特征进行分帧,得到K个音频帧;
根据K个音频帧生成音频序列。
本申请的另一方面提供了一种计算机设备,包括:
存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供了一种音频处理方法、音频处理器以及相关装置,通过对音频信号对应的音频序列中的K个音频帧进行预测分组,得到L个音频特征组,根据L个音频特征组中每个音频特征组中的音频帧的数量,确定对应的音频特征组的压缩次数,进而根据压缩次数对音频特征组进行压缩,从而对压缩后的压缩音频特征进行编码,实现了按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
附图说明
图1为相关技术提供的深度学习音频编码器的结构示意图;
图2为相关技术提供的深度学习音频编码器soundstream的结构图;
图3为相关技术提供的Encodec音频编解码器的结构图;
图4为本申请某一实施例提供的音频处理方法的应用场景图;
图5为本申请某一实施例提供的音频处理系统的一个架构示意图;
图6为本申请某一实施例提供的音频处理方法的流程图;
图7为本申请某一实施例提供的分组预测网络的结构图;
图8为本申请某一实施例提供的音频序列分组过程的示意图;
图9为本申请另一实施例提供的音频处理方法的流程图;
图10为本申请某一实施例提供的缓存模块的结构示意图;
图11为本申请另一实施例提供的音频处理方法的流程图;
图12为本申请另一实施例提供的音频处理方法的流程图;
图13为本申请某一实施例提供的组帧预测子网络的结构示意图;
图14为本申请另一实施例提供的音频处理方法的流程图;
图15为本申请另一实施例提供的音频处理方法的流程图;
图16为本申请另一实施例提供的音频处理方法的流程图;
图17为本申请另一实施例提供的音频处理方法的流程图;
图18为本申请另一实施例提供的音频处理方法的流程图;
图19为本申请另一实施例提供的音频处理方法的流程图;
图20为本申请某一实施例提供的压缩网络层的结构图;
图21为本申请另一实施例提供的音频处理方法的流程图;
图22为本申请某一实施例提供的音频处理器的示意图;
图23为本申请某一实施例提供的组帧决策及压缩模型的结构示意图;
图24为本申请某一实施例提供的组帧解压模型的结构示意图;
图25为本申请另一实施例提供的音频处理方法的流程图;
图26为本申请另一实施例提供的音频处理方法的流程图;
图27为本申请另一实施例提供的音频处理方法的流程图;
图28为本申请另一实施例提供的音频处理方法的流程图;
图29为本申请某一实施例提供的解码网络的结构图;
图30为本申请又一实施例提供的音频处理方法的流程图;
图31为本申请某一实施例提供的音频处理器的结构示意图;
图32为本申请另一实施例提供的音频处理器的结构示意图;
图33为本申请某一实施例提供的音频处理装置的结构示意图;
图34为本申请另一实施例提供的音频处理装置的结构示意图;
图35为本申请某一实施例提供的服务器结构示意图。
具体实施方式
本申请实施例提供了一种音频处理方法,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术(Machine Learning,ML),基于语音技术和机器学习而设计。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在常规的音频处理应用中,声音信号经过ADC模数转换和音频编码器进行压缩后,可以有效降低存储空间和传输带宽;当音频播放时,来自存储设备或网络传输接收到的压缩音频数据经过对应的音频解码以及DAC数模转换后的音频模拟信号,通过硬件播放设备进行播放。
传统的音频编解码器是基于语音模型、声学掩蔽效应或时频域的相关性等原理对原始音频数字信号进行压缩。近年来随着深度学习的研究深入,基于深度学习的音频编解码逐渐成为音频编码器的主流研究方向,目前深度学习的音频编码器比传统音频编码器在编码效率上有显著提升,部分深度学习音频编码器在音质相当条件下与传统音频编码器比,压缩效率提升了几倍到十倍,可以在1.6kbps的极低编码码率下实现正常的VoIP通话应用。
音频编码器包括传于语音模型、声学掩蔽、时频域相关性压缩的传统音频编码器和基于深度学习的音频编码器。
大部分传统音频编码器的输入信号帧大小通常是固定的,帧大小一般是在编码器启动编码器时设定,例如Opus编码器在对语音信号时可以处理2.5ms、5ms、10ms、20ms、40ms或60ms的帧长的输入信号,而对于输入信号为音乐信号,Opus编码器通常处理20ms的帧,但也可以处理更长的帧,如40ms或60ms。
而也有部分传统音频编码器时可变帧长度的,例如在MP3编码中,有两种主要的帧大小:长窗口(Long Window):长窗口用于处理稳定的音频信号,如持续的音调或音符。长窗口的输入信号长度为 1152 个采样点。对于常见的采样率(如44.1 kHz),长窗口的输入信号长度约为 26.12 ms(即 1152 / 44100);短窗口(Short Window):短窗口用于处理快速变化的音频信号,如敲击乐或瞬态信号。短窗口的输入信号长度为 384 个采样点。对于常见的采样率(如44.1 kHz),短窗口的输入信号长度约为 8.71 ms(即 384 / 44100)。MP3编码器可以根据音频信号的特性自动选择使用长窗口还是短窗口,长窗口用于处理稳定的音频信号,如持续的音调或音符。短窗口用于处理快速变化的音频信号,如敲击乐或瞬态信号,这种自适应的窗口切换技术称为“临时噪声掩蔽效应”,它有助于提高编码质量和压缩效率。
在深度学习音频编码器中,如图1所示,编码阶段对输入的音频信号进行特征提取,这个提取过程通常使用深度网络单元(例如全卷积单元组)来实现,提取特征经过量化器量化后生成码流传输到解码端,解码器主要是生成网络,将码流输入预先训练好的深度解码网络进行信号重构,最终输出声音信号。
如图2所示,图2是相关技术中提出的深度学习音频编码器soundstream的结构图,编码端采用因果全卷积编码器对输入的时域声音波形进行编码,并残差向量量化器(Residual Vector Quantizers,RVQ)进行量化。解码端使用因果全卷积解码器对接收到的量化码流进行解码最终重建到与原始波形比较接近的声音信号。soundstream使用重建和对抗性损失进行端到端训练,即在训练阶段加入一个(或多个)鉴别器,其目的是将解码后的音频与原始音频区分开来,并作为副产品提供一个可以计算基于特征的重建损失值,用于编解码器网络的梯度下降训练。
如图3所示,图3是相关技术中提出的Encodec音频编解码器,其主要由三部分组成的系统,首先,编码器把输入信号转换为较低帧率的“潜空间”表示。然后,“量化器”将该表示法压缩到目标大小,同时获取最重要的信息,这些信息随后将被用于重建原始信号,最后,解码器使用一个神经网络将压缩的数据实时地转变成音频。可以看出现有的深度学习音频编码器常使用Encoder+RVQ+Decoder的框架,即Encoder负责把输入信号转为低帧率特征,RVQ为残差矢量量化器用于把Encoder输出量化为预设比特数的矢量输出,Decoder把RVQ输出采用与Encoder类似的逆向网络还原成音频信号。而现有深度学习音频编码器框架对应的输入信号帧大小是固定的,通常为20ms。
在相关技术中,音频编码器大部分输入帧尺寸在启动编码器的时候被设定和固化,在音频编码过程中不会进行调整,而部分传统音频编码器会根据输入音频信号类型进行自适应切换帧尺寸。而这种切换的依据是信号频谱特征的平稳性,即对频谱特征平稳信号采用较大尺寸帧进行编码,而频谱特征波动较大信号采用较小尺寸帧进行编码。这种传统判决通常是基于某些预设门限值进行,而由于实际信号是多变的,预设门限方法通常很难遍历和满足各种音频信号的场景,导致多尺寸帧大小划分不合理影响了音频编码器质量。
现有的深度学习音频编码器采用的是固定帧大小的方式,通常为20ms一帧,每个输入帧对应输出一帧码流,而每一帧码流传输时需要额外增加外层协议信息相关比特空间进行封装,编码输出帧数越多带来的额外比特消耗越大,因此固定帧尺寸的音频编码方式不利于音频信号的进一步压缩,例如一些非重要的帧信号,如静音、小噪声、可被忽略的弱音频信号,这些信号更适合用较长的帧尺寸进行编码,这样可以减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
本申请实施例提供了一种音频处理方法,通过对音频信号对应的音频序列中的K个音频帧进行预测分组,得到L个音频特征组,根据L个音频特征组中每个音频特征组中的音频帧的数量,确定对应的音频特征组的压缩次数,进而根据压缩次数对音频特征组进行压缩,从而对压缩后的压缩音频特征进行编码,实现了按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
如图4所示,图4是本申请实施例提供的音频处理方法的应用场景图。本申请实施例提供的方法,可用于声音相关的各种应用场合,包括且不限于以下应用:语音消息、voip通话、直播、游戏、音频广播、拍摄音频文件压缩存储等应用领域。
为了便于理解,请参阅图5,图5为本申请实施例中音频处理方法的应用环境图,如图5所示,本申请实施例中音频处理方法应用于音频处理系统。音频处理系统包括:服务器和终端设备;其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
服务器首先获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;其次,服务器将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;接着,服务器根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;然后,服务器根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征;最后,服务器对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
下面将从服务器的角度,对本申请中音频处理方法进行介绍。请参阅图6,本申请实施例提供的音频处理方法包括:步骤S110至步骤S150。具体的:
S110、获取音频信号对应的音频序列。
其中,音频序列中包括K个音频帧,K为大于1的整数。
可以理解的是,音频信号为时域上的连续信号,例如,语音消息、voip通话音频、直播音频、游戏音频、音频广播等等。首先需要获取音频信号。这可以通过各种音频输入设备,如麦克风、音频文件等来实现。将音频信号通过时频转换处理得到频域特征,对频域特征进行加窗、分帧等处理,得到K个音频帧,由该K个音频帧得到音频序列。音频帧可以理解为音频信号在时间上的划分,每个音频帧代表了一段时间内的音频信息。这种将音频信号划分为音频帧的过程通常是为了后续的处理和分析。通过将音频信号分割成较小的音频帧,可以更方便地对音频进行各种操作,例如音频特征提取、音频编码、音频分类等。在实际应用中,K 的值可以根据具体需求和音频信号的特点来确定。较小的 K 值可能会导致更精细的音频帧划分,但同时也会增加计算量和处理复杂度。较大的 K 值则可能会在一定程度上降低音频的细节和分辨率,但处理起来可能会更高效。所以,在选择 K 的值时,需要综合考虑音频处理的要求、计算资源的限制以及最终的应用场景等因素。
时频特征转换可采用快速傅里叶变换(Fast Fourier Transformation,FFT)。具体的,将音频信号通过时频转换处理得到频域特征,包括:首先,将时域上的音频信号转化为频域上的K个频域音频特征;然后,求取K个频域音频特征的离散功率谱;接着,对离散功率谱求对数,得到频域特征。
S120、将音频序列输入至分组预测网络中,输出L个音频特征组。
其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数。
可以理解的是,将音频序列输入至分组预测网络中,通过分组预测网络预测每个分组的音频帧数,并根据预测得到的每个分组的音频帧数对音频序列进行分组,输出L个音频特征组,每个音频特征组包括至少一个音频帧,L为浮动数,且为大于等于1的整数。
为便于理解,请参阅图7,图7是本申请实施例提供的分组预测网络的结构图,分组预测网络包括缓存模块及组帧预测子网络,其中,缓存模块用于将音频序列中的K个音频帧按序依次存入缓存模块中,缓存模块采用先入先出的队列方式,即先存入缓存模块的音频帧,会先进行读取,优选的,缓存模块可以采用环形存储的结构,以降低存储空间。组帧预测子网络可以通过分析音频序列的特征,例如音频帧的能量、频率、时长等,来预测每个音频组的帧数。组帧预测子网络预测输出L个预测的帧数,在实际应用中,L的值可以根据具体需求和音频序列的长度来确定。如果音频序列较长,可以将其划分为多个音频特征组,以提高处理效率和准确性。如果音频序列较短,则可以将其作为一个音频特征组来处理。最后,根据预测的帧数依次从缓存模块中依次取出对应数量的音频帧得到每个音频特征组。通过将音频序列输入至分组预测网络中,可以输出 L 个音频特征组,每个音频特征组包含了相应的音频帧。这些音频特征组可以用于后续的音频处理和分析。
示例性的,请参阅图8,图8是本申请实施例提供的音频序列分组过程的示意图。首先,获取预设音频组帧数N,从缓存模块存储的音频序列中的K个音频帧中取出连续的N个音频帧,将这N个音频帧输入至组帧预测子网络,通过组帧预测子网络得出第一预测音频组帧数M,接着,将从缓存模块存储的音频序列中的K个音频帧中取出N个音频帧之后的M个音频帧,将这M个音频帧输入至组帧预测子网络,通过组帧预测子网络得出第二预测音频组帧数P,从缓存模块存储的音频序列中的K个音频帧中取出M个音频帧之后的P个音频帧,以此类推,直到K个音频帧均被取完,结束音频帧预测及分组,最终得到L个预测的帧数以及L个音频特征组。
S130、根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数。
可以理解的是,根据L个音频特征组中每个音频特征组对应的音频组帧数,确定每个音频特征组的压缩次数,通过压缩网络对音频特征组进行对应次数的压缩,具体的,压缩次数与使用压缩网络中的压缩层的个数相等,即,若压缩次数为N时,对应的通过压缩网络中的N个压缩层对音频特征组进行压缩,且每个压缩层的输入为上一个压缩层的输出。在确定压缩次数时,可以根据音频特征组的重要性和音频质量要求来确定。对于重要的音频特征组,可以采用较少的压缩次数,以减少信息损失。对于不重要的音频特征组,可以采用较多的压缩次数,以降低编码码率。通过根据音频特征组对应的音频组帧数确定压缩次数,可以对不同重要性的音频特征组进行不同程度的压缩,从而优化音频信号的压缩效果。同样的,在解压时,也采用与音频帧帧数相同的解压次数,解压次数与使用解压网络中的解压层的个数相等。
S140、根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征。
可以理解的是,根据L个音频特征组中每个音频特征组对应的压缩次数,确定压缩网络中需要进行压缩的压缩层的个数,然后,将该音频特征组输入到压缩网络中,通过相应数量的压缩层进行压缩。每个压缩层的输入为上一个压缩层的输出,直到完成所有压缩层的处理。通过根据音频特征组对应的压缩次数进行压缩,可以对不同重要性的音频特征组进行不同程度的压缩,从而优化音频信号的压缩效果。同时,由于采用了可变帧长的压缩方式,可以根据音频特征组的内容和重要性进行自适应调整,进一步提高了压缩效率和音频质量。示例性的,若某一音频特征组对应的音频组帧数为M,则需要对该音频特征组进行压缩的次数为M,从压缩网络中确定对该音频特征组进行压缩的M个压缩层,通过该M个压缩层对该音频特征组进行压缩,每个压缩层的输入为上一个压缩层的输出。由于L个音频特征组中的每个音频特征组对应的音频组帧数不完全相同,因此对L个音频特征组进行压缩的压缩次数不完全相同,对完整的音频信号进行了可变帧长的压缩方式,例如,在语音音频中,对重要的帧信号采用较少的压缩次数,以减少重要信息的缺失,而对于非重要的帧信号(如静音、小噪声、可被忽略的弱音频信号)采用较多的压缩次数,以减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
S150、对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
可以理解的是,对压缩得到的压缩音频特征进行编码,得到音频信号对应的L个编码音频,在传输时,对音频信号对应的L个编码音频进行传输,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。具体来说,编码是将压缩音频特征转换为适合传输或存储的数字表示形式的过程。在音频编码中,常用的编码算法包括有损编码和无损编码。有损编码通过丢弃一些音频信息来减少数据量,从而实现较高的压缩比,但会对音频质量造成一定的损失。无损编码则尽可能地保留原始音频信息,以提供高质量的音频,但通常压缩比相对较低。在本申请实施例提供的方法中,可以采用有损编码或无损编码来对压缩音频特征进行编码,具体的编码算法可以根据实际需求和应用场景进行选择。编码后的音频信号可以以数字形式进行存储或传输,以便在后续的解码和播放过程中还原出原始的音频信号。
本申请提供了一种音频处理方法,按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
在本申请的图6对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图9,步骤S120进一步包括子步骤S121至子步骤S124。具体的:
S121、将音频序列输入至分组预测网络中,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存。
可以理解的是,将音频序列输入至分组预测网络中,首先,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存。缓存的目的可能是为了临时存储音频数据,以便后续的处理或分析。具体来说,当音频序列进入网络时,缓存模块会按照一定的顺序将 K 个音频帧依次存储起来。这种缓存机制可以帮助处理音频数据的顺序性和连续性,确保每个音频帧都被正确地处理和利用。通过将音频帧缓存起来,后续的处理步骤可以更方便地访问和操作这些音频数据。例如,在进行频谱特征提取、音频组帧数预测或其他相关处理时,可以从缓存中获取所需的音频帧进行进一步的计算和分析。这种缓存机制可以提高音频处理的效率和实时性,减少数据传输和处理的开销。同时,它也有助于保证音频数据的完整性和准确性,避免数据丢失或错误。
进一步地,缓存模块为先入先出的队列结构,若缓存模块的存储空间大小大于或等于K个音频帧的大小,则可以按照K个音频帧的顺序依次将全部的音频帧写入至缓存模块中;若缓存模块的存储大小小于K个音频帧的大小,例如,缓存模块的存储空间大小为G个音频帧的大小(G<K),则先将K个音频帧中的前G个音频帧按序写入存储空间中,待后续有音频帧进行读取后,再次写入未进行存储的音频帧。
优选的,请参阅图10,图10是本申请实施例提供的缓存模块的结构示意图。缓存模块可以是多帧环形缓存结构,环形缓存具有读指针和写指针,输入的音频帧会被存放到写指针对应的地址空间,然后写指针地址会自动加1进行偏移更新等待下一个音频帧的写入,环形缓存的读指针表示从环形缓存读出音频帧到后续的组帧预测子网络。具体的:从音频序列中的K个音频帧中获取第i个音频帧,其中,i为大于1且小于等于K的整数;确定第i个音频帧对应的缓存模块的写入指针地址,其中,第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到;根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧缓存至缓存模块;根据第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
S122、对音频序列进行频谱特征提取,得到音频特征序列。
其中,音频特征序列包括K个音频特征。
可以理解的是,对音频序列中的K个音频帧进行频谱特征提取,具体来说,频谱特征提取是一种音频处理技术,用于从音频信号中提取出代表其频率内容的特征。通过对音频序列进行频谱分析,可以获得音频信号在不同频率上的能量分布情况。这个过程通常使用快速傅里叶变换(FFT)或其他类似的算法来实现。在提取频谱特征时,可以选择不同的特征表示方式,以捕捉音频信号的不同方面。一些常见的音频特征包括频率谱、能量谱、梅尔频率倒谱(MFCC)等。这些特征可以提供有关音频信号的频率内容、能量分布、音高、音色等信息。通过计算K个音频帧的功率谱特征,得到K个音频特征,由该K个音频特征组成音频特征序列。通过对音频序列进行频谱特征提取,可以将原始的音频信号转化为一系列音频特征,这些特征能够更好地代表音频信号的特性。音频特征序列中的每个特征都对应着音频序列中的一个特定时间段或音频帧。通过对音频序列进行频谱特征提取,得到了一个包含K 个音频特征的音频特征序列,K 的值可以根据具体需求和应用场景来确定。通常情况下,K 会取一个适当的大小,以平衡特征的分辨率和计算负荷。通过提取音频特征序列,可以进一步利用这些特征进行音频分析、分类、识别等任务。音频特征序列可以作为输入提供给其他音频处理算法或模型,以便进行更深入的音频理解和处理。
S123、将音频特征序列输入至分组预测网络中的组帧预测子网络,输出L个音频组帧数。
其中,音频组帧数用于表征每个音频特征组中的音频帧的数量。
可以理解的是,将音频特征序列输入至分组预测网络中的组帧预测子网络,通过组帧预测子网络对K个音频特征进行计算,以预测得到L个音频组帧数。组帧预测子网络是分组预测网络中的一个关键部分,它的作用是根据输入的音频特征序列,预测每个音频特征组中的音频帧的数量。音频组帧数用于表征每个音频特征组中的音频帧的数量。具体来说,组帧预测子网络可能会采用深度学习模型,如循环神经网络(RNN)或长短时记忆网络(LSTM),来对音频特征序列进行建模和预测。模型会根据音频特征序列中的历史信息和当前状态,预测下一个音频特征组中的音频帧的数量。在训练组帧预测子网络时,可以使用已知的音频特征序列和对应的音频组帧数作为训练数据。模型会通过学习这些数据,逐渐掌握音频特征序列和音频组帧数之间的映射关系,从而能够对新的音频特征序列进行准确的音频组帧数预测。在预测音频组帧数时,组帧预测子网络会根据输入的音频特征序列,生成L 个预测值。每个预测值表示对应音频特征组中的音频帧的数量。这些预测值可以作为输出,用于后续的音频分组和处理。通过组帧预测子网络的预测,可以获得每个音频特征组中的音频帧的数量,从而更好地理解音频数据的结构和组成。这有助于后续的音频分析、处理和应用,例如音频分类、音频识别等任务。
进一步地,获取预设音频组帧数N,其中,N为大于等于1且小于等于K的整数;从音频特征序列中的K个音频特征中,提取连续的N个音频特征;将N个音频特征输入至组帧预测子网络,输出第一预测音频组帧数M,其中,M为大于等于1且小于等于N的整数;从音频特征序列中的K个音频特征中,提取N个音频特征之后的连续的M个音频特征;将M个音频特征输入至组帧预测子网络,输出第二预测音频组帧数P,其中,P为大于等于1且小于等于N的整数,第二预测音频组帧数用于从音频特征序列中的K个音频特征中,提取M个音频特征之后的连续的P个音频特征,根据P个音频特征进行音频组帧数预测,直到K个音频特征均完成分组,结束预测音频组帧数,输出L个音频组帧数。
S124、根据L个音频组帧数对缓存模块中的K个音频帧进行分组,得到L个音频特征组。
可以理解的是,根据L个音频组帧数,依次从缓存模块中读取出对应数量的音频帧,实现对K个音频帧进行分组,得到L个音频特征组。具体来说,首先根据预测得到的音频组帧数,确定每个音频特征组包含的音频帧数量。然后,从缓存模块中读取相应数量的音频帧,并将它们组成一个音频特征组。重复这个过程,直到将缓存模块中的 K 个音频帧全部分组为 L 个音频特征组。在分组过程中,可以根据音频组帧数的预测结果,采用不同的分组策略。例如,可以按照预测的音频组帧数,从缓存模块中依次读取相应数量的音频帧,并将它们组成音频特征组。也可以根据预测的音频组帧数,对缓存模块中的音频帧进行动态分组,以更好地适应音频数据的结构和内容。通过根据音频组帧数对缓存模块中的音频帧进行分组,得到了 L 个音频特征组。每个音频特征组包含了一定数量的音频帧,这些音频帧具有相似的音频特征和语义信息。
示例性的,L个音频组帧数为:N、M、P···,则先从缓存模块中读取出N个音频帧,该N个音频帧分为一组,接着,从缓存模块中读取出N个音频帧后面的M个音频帧,该M个音频帧分为一组,然后,从缓存模块中读取出M个音频帧后面的P个音频帧,该P个音频帧分为一组,以此类推,直到K个音频特征均完成分组,得到L个音频特征组。
本申请提供了一种音频处理方法,通过缓存模块,能够依次缓存音频帧,提高了数据处理的效率和实时性;对音频序列进行频谱特征提取,得到音频特征序列,为后续的音频处理提供了有价值的信息;利用分组预测网络中的组帧预测子网络,能够输出音频组帧数,实现了对音频特征的有效分组;根据音频组帧数对缓存模块中的音频帧进行分组,得到音频特征组,提高了音频处理的灵活性和适应性;有助于提高音频处理的效率、准确性和灵活性,为更进一步的音频分析和应用提供了良好的基础。
在本申请的图9对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图11,子步骤S123进一步包括子步骤S1231至子步骤S1235。具体的:
S1231、获取预设音频组帧数N。
其中,N为大于等于1且小于等于K的整数。
可以理解的是,预设音频组帧数N可以是预设的最大组帧数N1和当前最大可取帧数N2中的最小值,即N=min(N1,N2),其中,预设的最大组帧数N1可以是根据经验值设定的;当前最大可取帧数是指缓存模块所支持的最大可取帧数,由缓存模块的结构决定当前最大可取帧数。较小的N值可能意味着每个音频特征组包含较少的音频帧,这样可以更精细地对音频进行分组,但可能会增加计算和处理的复杂度。较大的N值则可能导致每个音频特征组包含更多的音频帧,简化了计算但可能会牺牲一定的音频细节。选择合适的N值需要综合考虑多种因素,例如音频的特点、处理要求、计算资源等。较小的值适用于对音频细节要求较高的情况,而较大的值可能更适合在计算资源有限或对音频分组的精细度要求不高的情况下使用。通过合理选择的N值,可以在音频分组过程中平衡处理效果和计算复杂度,以满足具体应用的需求。同时,根据实际情况和实验验证,可以不断调整和优化的N值,以获得最佳的音频处理结果。
S1232、从音频特征序列中的K个音频特征中,提取连续的N个音频特征。
可以理解的是,从音频特征序列中的K个音频特征中,提取连续的N个音频特征,优选的,从第一个音频特征开始提取,提取连续的N个音频特征。音频特征是对音频序列中的K个音频特征进行频谱特征提取得到的。音频特征是通过对音频信号进行某种处理或分析得到的,例如频谱特征、声学特征等。选择连续的N个音频特征的目的是为了捕捉音频在某一时间段内的特征信息。这样的提取方式有助于保持音频特征的时间顺序和相关性,使得后续的处理和分析更具有意义。具体的提取方法会根据音频特征的表示形式和应用需求而有所不同。例如,如果音频特征是以向量或矩阵的形式表示的,通过选择其中的一部分元素来提取连续的N个特征。在实际操作中,还需要考虑一些因素,例如音频特征的顺序、时间分辨率等。确保提取的N个音频特征能够代表所需的音频信息,并与后续的处理步骤相匹配。
S1233、将N个音频特征输入至组帧预测子网络,输出第一预测音频组帧数M。
其中,M为大于等于1且小于等于N的整数。
可以理解的是,将提取的N个音频特征输入到组帧预测子网络中,子网络会根据这些特征进行计算,输出第一预测音频组帧数M。M的值表示根据这N个音频特征预测得到的音频组帧数。组帧预测子网络是一个用于预测音频组帧数的模型或算法。它接收输入的N个音频特征,并通过对这些特征的分析和处理,生成对音频组帧数的预测。通过使用组帧预测子网络,利用音频特征的信息来预测合适的音频组帧数。这有助于在音频处理中进行分组或分段,以便进一步的分析、处理或应用。需要注意的是,预测的音频组帧数M只是一个估计值,实际的音频组帧数可能会受到多种因素的影响,例如音频的内容、噪声、变化等。因此,在实际应用中,可能需要进一步的验证和调整,以确保预测的准确性和适用性。
S1234、从音频特征序列中的K个音频特征中,提取N个音频特征之后的连续的M个音频特征。
可以理解的是,在得到第一预测音频组帧数M后,从剩余的音频特征中继续提取连续的M个音频特征。这一步为下一次预测提供了新的音频特征数据。
S1235、将M个音频特征输入至组帧预测子网络,输出第二预测音频组帧数P。
其中,P为大于等于1且小于等于N的整数,第二预测音频组帧数用于从音频特征序列中的K个音频特征中,提取M个音频特征之后的连续的P个音频特征,根据P个音频特征进行音频组帧数预测,直到K个音频特征均完成分组,结束预测音频组帧数。
可以理解的是,将新提取的M个音频特征输入到组帧预测子网络中,得到第二预测音频组帧数P。P的值用于进一步确定后续音频特征的分组情况。这个过程会重复进行,直到所有的K个音频特征都完成了分组。
本申请提供了一种音频处理方法,实现了对音频特征的逐步处理和预测,以确定合适的音频组帧数。这样的分步处理可以提高预测的准确性和灵活性,适应不同音频特征序列的特点。同时,通过多次预测和迭代,可以更好地捕捉音频特征之间的关系,从而实现更合理的音频分组。这些步骤的协同作用有助于提高整个音频处理系统的性能和效果。
在本申请的图11对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图12,子步骤S1233进一步包括子步骤S12331至子步骤S12335。组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层;具体的:
S12331、将N个音频特征输入至组帧预测子网络中的全连接层,通过全连接层输出音频全连接特征。
可以理解的是,将N个音频特征输入到组帧预测子网络中的全连接层。全连接层会对输入的音频特征进行线性变换,将每个特征与所有神经元进行连接,并通过激活函数产生新的特征表示,即音频全连接特征。
S12332、将音频全连接特征输入至组帧预测子网络中的第一卷积层,通过第一卷积层输出音频卷积特征。
可以理解的是,接下来,音频全连接特征被输入到第一卷积层。卷积层通过卷积操作对输入特征进行滤波和特征提取,生成音频卷积特征。卷积层可以捕捉音频特征中的空间信息和局部模式。
S12333、将音频卷积特征输入至组帧预测子网络中的门控层,通过门控层输出音频门控特征。
可以理解的是,音频卷积特征随后被输入到门控层。门控层通常用于引入门控机制,例如使用门控函数对特征进行调制或选择,以增强或抑制某些特征的重要性。
S12334、将音频门控特征输入至组帧预测子网络中的归一化层,通过归一化层输出N个预测音频组帧数对应的N个概率值。
可以理解的是,门控特征接着被输入到归一化层。归一化层的作用是对特征进行规范化处理,使其具有合适的尺度和分布,以便更好地进行后续的计算和比较。
S12335、根据N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定第一预测音频组帧数M。
其中,第一预测音频组帧数M对应的概率值为N个概率值中的最大值。
可以理解的是,根据N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定第一预测音频组帧数M。通常,选择概率值最大的预测音频组帧数作为M,这是因为最大概率值表示该组帧数在所有预测结果中的可能性最大。
通过利用组帧预测子网络中不同层的特性和功能,从音频特征中提取和预测组帧数。全连接层、卷积层、门控层和归一化层各自发挥着特定的作用,共同协作以生成对音频组帧数的预测。通过这种方式,可以根据预测的概率值来确定最有可能的第一预测音频组帧数,以便进一步处理和应用。需要注意的是,这只是一个示例性的解释,实际的组帧预测子网络可能会根据具体的应用和需求进行更复杂的设计和优化。
进一步的,组帧预测子网络可以由不同结构单元组成,可以包括Conv卷积网络、Gru门控循环单元、Lstm长短时记忆模型单元、FC全连接网络单元及其它变种单元等。示例性的,请参阅图13,图13是本申请实施例提供的组帧预测子网络的结构示意图。首先,将N个音频特征输入至组帧预测子网络中的全连接层Dense1,通过全连接层Dense1可以帮助神经网络更好地理解输入的N个音频特征,从而提高模型的准确性。在深度学习中,Dense层的作用可以分为这几个方面:1、特征提取;2、数据扁平化;3、数据降维或提升维度;4、优化模型的训练。接着,将全连接层Dense1输出的音频全连接特征输入至由卷积层Conv-Block1、卷积层Conv-Block2及卷积层Conv-Block3组成的第一卷积层,具体的,将音频全连接特征输入至卷积层Conv-Block1,将卷积层Conv-Block1的输出输入至卷积层Conv-Block2,将卷积层Conv-Block2的输出输入至卷积层Conv-Block3,通过卷积层Conv-Block3输出第一卷积层输出音频卷积特征。然后,将第一卷积层输出音频卷积特征输入至由门控循环单元Gru1及门控循环单元Gru2组成的门控层,具体的,将第一卷积层输出音频卷积特征输入至门控循环单元Gru1,将门控循环单元Gru1的输出输入至门控循环单元Gru2,由门控循环单元Gru2输出音频门控特征。最后,将音频门控特征输入至归一化层Dense2,归一化层Dense2根据softmax函数实现,通过归一化层Dense2输出N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定概率值最大的第一预测音频组帧数M。
本申请提供了一种音频处理方法,通过全连接层、卷积层和门控层的组合使用,能够从音频特征中提取出更有意义和代表性的特征。全连接层可以对音频特征进行线性变换,卷积层可以捕捉音频特征中的空间信息和局部模式,门控层可以引入门控机制来调节特征的重要性。利用多个层的协同工作,能够对音频组帧数进行更准确的预测。通过生成音频卷积特征、音频门控特征和概率值,提供了对音频组帧的不同层次的表示和分析,从而提高预测的准确性。
在本申请的图9对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图14,子步骤S121进一步包括子步骤S1221至子步骤S1224。具体的:
S1221、从音频序列中的K个音频帧中获取第i个音频帧。
其中,i为大于1且小于等于K的整数。
可以理解的是,从K个音频帧中任意获取一个非第一帧的音频帧,即第i个音频帧。
S1222、确定第i个音频帧对应的缓存模块的写入指针地址。
其中,第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到。
可以理解的是,第i个音频帧对应的缓存模块的写入指针地址是通过将第i-1个音频帧对应的缓存模块的写入指针地址加1得到的。写入指针地址是按照顺序递增的方式确定的。每次处理一个新的音频帧(第i个)时,将前一个音频帧(第i-1个)的写入指针地址加1,以确定当前音频帧的写入位置。通过这种方法,可以保证音频帧在缓存模块中的顺序存储。每个音频帧都被依次写入到缓存模块中相邻的位置,形成一个有序的序列,进而有效地利用缓存模块的空间,并确保音频帧的顺序与它们在原始音频序列中的顺序一致。例如,如果第i-1个音频帧的写入指针地址是100,那么第i个音频帧的写入指针地址就是101。这样的设计有助于数据的连续处理和访问。在后续的步骤(S1223)中,可以根据确定的写入指针地址将第i个音频帧缓存到相应的位置。
S1223、根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧缓存至缓存模块。
S1224、根据第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
可以理解的是,根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧对应的缓存模块的写入指针地址加一即得到第i+1个音频帧对应的缓存模块的写入指针地址。
示例性的,从音频序列中的K个音频帧中获取第一个音频帧,确定缓存模块的初始的写入指针地址,根据缓存模块的初始的写入指针地址将第一个音频帧存储至缓存模块,根据第一个音频帧的写入指针地址,将第一个音频帧的写入指针地址加一,计算得到第二个音频帧的写入指针地址,以此类推,直到音频序列中的K个音频帧全部存储至缓存模块,或者,直到缓存模块存满为止。
本申请提供了一种音频处理方法,通过顺序获取和缓存音频帧,可以高效地处理音频数据。这种顺序处理方式有助于保持数据的连续性和一致性,提高了处理效率;确定写入指针地址并将音频帧缓存到相应位置,有助于有效管理缓存模块的空间,这种方式可以确保缓存模块的合理利用,避免数据覆盖或丢失;按照顺序递增的方式确定写入指针地址,保证了音频帧在缓存模块中的顺序性。
在本申请的图9对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图15,步骤S124进一步包括子步骤S1241至子步骤S1242。具体的:
S1241、根据L个音频组帧数确定L个读取指针地址。
可以理解的是,根据给定的 L 个音频组帧数来确定 L 个读取指针地址。这可能涉及到一些计算或分配机制,以确保每个读取指针地址与一个音频组帧相对应。例如,可以根据音频组帧数和缓存模块的结构,按照一定的规则或算法来计算每个读取指针地址的具体值。这些读取指针地址将用于定位缓存模块中相应的音频帧,以便后续的读取操作。
S1242、根据L个读取指针地址依次对缓存模块中的K个音频帧进行读取,得到L个音频特征组。
可以理解的是,根据确定的 L 个读取指针地址,依次对缓存模块中的 K 个音频帧进行读取。通过按照读取指针地址的顺序访问缓存模块,可以获取到对应的音频帧数据。然后,对读取到的音频帧进行进一步的处理或分析,以提取出音频特征组。这些音频特征组可能包含了与音频相关的各种特征信息,例如频率、强度、时长等。具体的音频特征提取方法可能会根据具体的应用需求和音频特征的定义而有所不同。通过这两个子步骤,能够有效地管理音频数据的读取过程,并从缓存模块中获取到所需的音频特征组。这种方式可以提高数据读取的效率和准确性,同时也为后续的音频处理和分析提供了基础。
示例性的,假设第一个音频帧的读取指针地址为0001,即第一次进行音频帧读取的读取指针地址为0001。根据前述计算得到L个音频组帧数分别为N、M、P···,则第二次进行音频帧读取的读取指针地址为0001+N,第三次进行音频帧读取的读取指针地址为0001+N+M,第四次进行音频帧读取的读取指针地址为0001+N+M+P,···,例如,当N=5,M=3,P=2,第一次进行音频帧读取的读取指针地址为0001,第二次进行音频帧读取的读取指针地址为0006,第三次进行音频帧读取的读取指针地址为0009,第四次进行音频帧读取的读取指针地址为0011,···,以此类推。根据预测得到的音频组帧数更新缓存模块的下一次读取指针地址,即原地址加音频组帧数(偏移地址),则下一次将从新的读取指针地址读取数据,进而实现了对K个音频帧进行L次读取,得到L个音频特征组。
本申请提供了一种音频处理方法,通过根据预测得到的音频组帧数更新读取指针地址,可以实现对 K 个音频帧进行 L 次读取,提高了数据读取的效率和准确性;根据不同的音频组帧数进行读取,可以更好地适应音频特征的变化,提取出更有意义的音频特征组;通过有序的读取方式,可以减少不必要的数据访问和处理开销,提高整个音频处理流程的效率;这种方法具有一定的可扩展性,可以根据实际需求增加或减少音频组帧数,以适应不同的应用场景和处理要求;通过多次读取并得到多个音频特征组,可以更全面地分析音频数据,获取更精确的音频特征信息。这种根据音频组帧数更新读取指针地址的方法有助于提高音频处理的效率和准确性,为后续的音频分析和应用提供了更好的数据基础。
在本申请的图6对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图16,步骤S130进一步包括子步骤S131至子步骤S132。具体的:
S131、根据L个音频特征组对应的L个音频组帧数,确定对L个音频特征组中的每个音频特征组进行压缩的压缩层,得到L个压缩层数。
可以理解的是,可以理解的是,通过分组预测网络预测得到的每个音频特征组对应的音频组帧数,与通过压缩网络对该音频特征组进行压缩时使用的压缩层数相等,即当通过分组预测网络预测得到的某个音频特征组对应的音频组帧数为M时,则通过压缩网络中的M个压缩层对该音频特征组进行压缩处理,且每个压缩层对音频特征组进行一次压缩,每个压缩层的输入为上一个压缩层的输出。
S132、根据L个压缩层数确定L个音频特征组对应的L个压缩次数。
可以理解的是,根据音频特征组对应的音频组帧数确定对音频组帧数进行压缩的压缩层数,进而得到对音频组帧数进行压缩的压缩次数。
本申请提供了一种音频处理方法,根据音频特征组的帧数来确定压缩层数,可以更精确地控制压缩的程度,提高压缩效率;通过使用与音频组帧数相对应的压缩层数,可以在压缩过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证压缩后的音频质量;根据具体的音频特征组确定压缩次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种方法允许根据不同的音频特征组进行个性化的压缩设置,满足各种应用场景的需求;由于压缩层数和次数是根据音频特征组自动确定的,所以该方法具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定压缩层数和次数的方法,有助于在压缩效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图16对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图17,步骤S140进一步包括子步骤S141至子步骤S142。具体的:
S141、将L个音频特征组输入至压缩网络中,根据L个音频特征组对应的L个压缩层数,确定对L个音频特征组进行压缩的L个压缩层组。
其中,每个压缩层组包括至少一个压缩网络层。
可以理解的是,将L个音频特征组输入至压缩网络中,根据每个音频特征组对应的压缩层数,确定在压缩网络中对音频特征组进行压缩的具体的压缩网络层,得到对音频特征组进行压缩的压缩层组。这一步骤的关键是根据音频特征组的帧数来确定压缩层数,然后在压缩网络中找到相应的压缩网络层。这样可以更精确地控制压缩的程度,确保在提高压缩效率的同时,尽量减少对音频质量的影响。
S142、根据L个压缩层组对L个音频特征组进行压缩,得到L个压缩音频特征。
可以理解的是,通过每个压缩层组对对应的音频特征组进行压缩,得到压缩音频特征。
本申请提供了一种音频处理方法,通过根据音频特征组的特点来确定压缩层数和进行压缩操作,实现了对音频数据的高效压缩。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图17对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图18,子步骤S142进一步包括子步骤S1421至子步骤S1422。具体的:
对L个音频特征组中的每个音频特征组均执行:
S1421、确定第j个音频特征组对应的第j个压缩层组。
其中,第j个压缩层组中包括D个压缩网络层,j为大于等于1且小于等于L的整数,D为大于等于1的整数。
可以理解的是,确定第j个音频特征组对应的第j个压缩层组。这里的j表示第j个音频特征组,D表示压缩层组中包含的压缩网络层的数量。通过这种方式,可以为每个音频特征组确定与其对应的压缩层组。值得注意的是,D的值会影响压缩的效果和复杂度。较多的压缩网络层可能会带来更好的压缩效果,但也会增加计算量和处理时间。因此,在实际应用中,需要根据具体需求和系统资源来选择合适的D值。
S1422、将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征。
其中,每个压缩网络层的输入为上一个压缩网络层的输出。
可以理解的是,每个压缩网络层的输入都是上一个压缩网络层的输出。这意味着音频特征组会经过一系列的压缩网络层处理,每个层都会对输入进行压缩和变换,最终得到压缩后的音频特征。
本申请提供了一种音频处理方法,可以充分利用压缩网络层的特性,逐步对音频特征组进行压缩,从而实现更好的压缩效果。同时,由于每个压缩网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度压缩导致的音频质量损失。
在本申请的图18对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图19,压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层,其中,第一激励层通过Sigmoid函数实现,第二激励层通过双曲正切函数实现;步骤S1422进一步包括子步骤S14221至子步骤S14225。具体的:
S14221、将第j个音频特征组输入至第j个压缩层组中的第二卷积层,输出音频卷积特征。
可以理解的是,在这个步骤中,输入的是第j个音频特征组,经过第二卷积层的处理后,输出的是音频卷积特征。第二卷积层是压缩网络中的一层,它对输入的音频特征组进行卷积操作,以提取音频特征中的关键信息。卷积操作是一种线性变换,它通过对输入信号进行加权求和来实现。在这个步骤中,第二卷积层对输入的音频特征组进行卷积操作,以提取音频特征中的关键信息,并将其输出为音频卷积特征。这个音频卷积特征将作为下一层的输入,继续进行压缩处理。
S14222、将音频卷积特征输入至第j个压缩层组中的第一激励层,输出第一音频激励特征。
可以理解的是,在这个步骤中,输入的是上一步骤中得到的音频卷积特征,经过第一激励层的处理后,输出的是第一音频激励特征。第一激励层是压缩网络中的一层,它通过激活函数对输入的音频卷积特征进行非线性变换,以增强音频特征的表示能力。常用的激活函数包括 sigmoid 函数和 tanh 函数等。在这个步骤中,第一激励层通过 sigmoid 函数对输入的音频卷积特征进行非线性变换,以增强音频特征的表示能力,并将其输出为第一音频激励特征。这个第一音频激励特征将作为下一层的输入,继续进行压缩处理。
S14223、将音频卷积特征输入至第j个压缩层组中的第二激励层,输出第二音频激励特征。
可以理解的是,将第一音频激励特征输入至第j个压缩层组中的第二激励层,输出第二音频激励特征。第二激励层是压缩网络中的一层,它通过激活函数对输入的第一音频激励特征进行非线性变换,以增强音频特征的表示能力。常用的激活函数包括 sigmoid 函数和 tanh 函数等。在这个步骤中,第二激励层通过双曲正切函数(tanh 函数)对输入的第一音频激励特征进行非线性变换,以增强音频特征的表示能力,并将其输出为第二音频激励特征。这个第二音频激励特征将作为下一层的输入,继续进行压缩处理。
S14224、将第一音频激励特征与第二音频激励特征相乘,得到音频激励乘积特征。
可以理解的是,将第一音频激励特征和第二音频激励特征进行元素级的乘法运算,得到一个新的张量,即音频激励乘积特征。这个音频激励乘积特征是压缩网络中一个重要的中间结果,它将作为下一层的输入,继续进行压缩处理。通过将第一音频激励特征与第二音频激励特征相乘,可以将两个音频激励特征的信息进行融合,从而增强音频特征的表示能力。这种乘法运算可以被视为一种特征组合的方式,它可以有效地捕捉音频信号中的复杂模式和特征,从而提高模型的表达能力和泛化能力。
S14225、将音频激励乘积特征输入至第j个压缩层组中的第三卷积层,得到第j个音频特征组对应的压缩音频特征。
可以理解的是,在这个步骤中,第三卷积层对音频激励乘积特征进行进一步的卷积操作,以提取更高级别的音频特征。卷积操作是一种常见的神经网络操作,它通过在输入特征上应用卷积核来生成新的特征图。卷积核是一个小的滤波器,它在输入特征上滑动,并对每个局部区域进行加权求和。通过卷积操作,第三卷积层可以捕捉音频激励乘积特征中的局部模式和纹理信息,从而提取更具有语义含义的音频特征。输出的压缩音频特征是一个张量,它表示第j个音频特征组在压缩网络中的最终特征表示。
为便于理解,请参阅图20,图20是本申请实施例提供的压缩网络层的结构图。首先,将音频特征组输入至压缩层组中的第二卷积层Conv1D,通过第二卷积层Conv1D输出音频卷积特征;接着,将音频卷积特征分别输出到第一激励层Sigmoid和第二激励层Tanh中,通过第一激励层Sigmoid输出第一音频激励特征,通过第二激励层Tanh输出第二音频激励特征;然后,将第一音频激励特征与第二音频激励特征相乘;最后,将乘积结果输入至第三卷积层Conv1D,得到第j个音频特征组对应的压缩音频特征。
本申请提供了一种音频处理方法,通过第二卷积层对音频特征组进行卷积操作,能够提取音频特征中的关键信息,捕捉音频信号中的局部模式和纹理;第一激励层和第二激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频特征的复杂模式;将第一音频激励特征与第二音频激励特征相乘实现了特征的融合,将不同层次的特征信息结合在一起,提高了特征的表达能力和鲁棒性;通过第三卷积层对音频激励乘积特征进行进一步卷积操作,提取更高级别的音频特征,使模型能够捕捉更复杂的音频语义信息;整个压缩层组的设计旨在减少音频特征的维度和信息量,同时保留关键特征,提高模型的效率和泛化能力。综合起来,这些子步骤的目的是通过一系列的卷积、激励和乘法操作,对音频特征进行有效的压缩和处理,以提高模型在音频分析、分类、识别等任务中的性能。这样的处理方式可以增强模型对音频信号的理解和表示能力,从而更好地应对各种音频处理任务。
在本申请的图6对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图21,步骤S150之后还包括步骤S210至步骤S250。具体的:
S210、对L个编码音频进行量化处理,得到L个音频量化特征。
可以理解的是,在编码端,通过步骤S150采用因果全卷积编码器对输入的L个压缩音频特征进行编码,将编码后得到的L个编码音频通过残差向量量化器(Residual VectorQuantizers,RVQ)进行量化,得到L个音频量化特征。具体的,通过残差向量量化器(RVQ)将每个编码音频转化为一个音频量化特征。量化是一种数据压缩技术,它的目的是减少数据量,同时尽量保持原始数据的特征。具体来说,量化过程包括以下几个步骤:1)特征提取:首先,从 L 个编码音频中提取出一些关键的特征,这些特征可以是音频的频率、幅值、相位等信息。2)量化器设计:根据提取的特征,设计合适的量化器。量化器通常会将特征空间划分成若干个区域,并为每个区域分配一个量化值。3)量化:将每个编码音频的特征与量化器的区域进行匹配,并将其映射到对应的量化值上。4)得到音频量化特征:经过量化处理后,每个编码音频都被转化为一个量化值,这些量化值就构成了 L 个音频量化特征。
通过量化处理,原本高维度、高精度的编码音频被压缩成了低维度、低精度的音频量化特征。这样可以减少数据量,便于存储和传输。同时,量化过程也会不可避免地引入一些信息损失,但通过合理的量化器设计和后续的解码处理,可以尽量减少这种损失。量化处理在音频编码、语音识别等领域都有广泛的应用,它可以在保证一定音质的前提下,实现高效的数据压缩。
S220、对L个音频量化特征进行解码,得到L个解码音频。
可以理解的是,在解码端,使用因果全卷积解码器对接收到的L个音频量化特征进行解码,得到L个解码音频。
S230、根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数。
可以理解的是,根据L个音频特征组中每个音频特征组对应的音频组帧数,确定每个音频特征组的解压次数,通过解压网络对音频特征组进行对应次数的解压,具体的,解压次数与使用解压网络中的解压层的个数相等,即,若解压次数为N时,对应的通过解压网络中的N个解压层对音频特征组进行解压,且每个解压层的输入为上一个解压层的输出。对每个音频特征组进行压缩的次数与解压的次数相等,即使用的压缩层与解压层的数量相等。
S240、根据L个音频特征组对应的L个解压次数对L个解码音频进行解压,得到L个解压序列。
可以理解的是,根据L个音频特征组中每个音频特征组对应的解压次数,确定解压网络中需要进行解压的解压层的个数,然后,将该音频特征组输入到解压网络中,通过相应数量的解压层进行解压。每个解压层的输入为上一个解压层的输出,直到完成所有解压层的处理。示例性的,若某一音频特征组对应的音频组帧数为M,则需要对该音频特征组进行解压的次数为M,从解压网络中确定对该音频特征组进行解压的M个解压层,通过该M个解压层对该音频特征组进行解压,每个解压层的输入为上一个解压层的输出。
S250、根据L个解压序列生成音频信号。
可以理解的是,将L个解压序列还原为音频信号,具体的包括以下步骤:1)对解压序列进行离散化处理,即将解压序列按照一定的时间间隔进行采样,得到离散化的解压序列。2)对离散化的解压序列进行重建,即将离散化的解压序列通过一定的算法还原为连续的解压序列。3)对重建后的解压序列进行滤波,以去除其中的噪声和干扰。4)对滤波后的解压序列进行放大,以恢复其原始的幅度和能量。5)将放大后的解压序列转换为音频信号,即将解压序列中的每个样本转换为对应的音频信号的值。通过以上步骤,可以将解压序列转换为音频信号,从而实现音频的解码和还原。
为便于理解,请参阅图22至图24,图22是本申请实施例提供的音频处理器的示意图。图23是本申请实施例提供的组帧决策及压缩模型的结构示意图。图24是本申请实施例提供的组帧解压模型的结构示意图。
在编码端,首先,获取音频信号,将时域上连续的音频信号通过时频转换、加窗、分帧等处理,转换为包括K个音频帧的音频序列。
接着,将音频序列输入至组帧决策及压缩模型中,如图23,组帧决策及压缩模型包括分组预测网络及压缩网络,分组预测网络包括缓存模块及组帧预测子网络,压缩网络包括若干压缩层。将音频序列输入至分组预测网络中,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存。对音频序列进行频谱特征提取,得到音频特征序列;将音频特征序列输入至分组预测网络中的组帧预测子网络,输出L个音频组帧数,根据L个音频组帧数确定L个音频特征组对应的L个压缩次数,进而通过压缩网络对L个音频特征组进行对应次数的压缩,得到L个压缩音频特征。
然后,将L个压缩音频特征输入至编码器(Encoder)中,对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
最后,将L个编码音频输入至残差向量量化器(RVQ),对L个压缩音频特征进行量化处理,得到L个音频量化特征。
在进行音频信号传输时,将L个音频量化特征从编码端传输至解码端。
在解码端,首先将L个音频量化特征输入至解码器(Decoder)中,对L个音频量化特征进行解码,得到L个解码音频。
接着,如图24,将L个解码音频输入至组帧解压模型中,根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数,进而确定在组帧解压模型中用于解压的解压层的个数,通过组帧解压模型对L个解码音频进行解压,得到L个解压序列。
最后,将L个解压序列还原为音频信号。实现将音频信号压缩编码后进行传输,按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
在训练阶段,首先对压缩网络层、音频编码解码器及解压网络层进行训练,训练的损失函数与音频编码解码器的损失函数相同,压缩网络层与解压网络层中的层数为随机值,且压缩网络层与解压网络层中的层数相同。在述训练完成的网络基础上加入组帧预测子网络,除组帧预测子网络外的其他深度学习网络单元参数值保持为之前训练好的参数值而固定不变,通过上述定义好的基于频谱mse和bitrate的综合加权损失函数进行训练。具体的:组帧预测子网络的损失函数定义为按照组帧预测子网络输出多帧信号经过相应压缩网络、编码器、残差向量量化器、解码器、解压网络后输出解压序列,解压序列和输入解压序列的功率谱MSE值,以及编码码率bitrate的综合损失函数lossfunc = a×MSE + b×bitrate,这里的a和b是对应的MSE和bitrate的加权系数,训练目标使MSE值和bitrate值下降。训练完成后本发明提出的整体网络可用于实际应用。
本申请实施例提出的可变帧长的深度学习音频编解码直接减少了用于编码的帧数,其原理是把一些可以一起压缩的长音频信号通过可控卷积层进一步压缩和编码,从而可以有效降低现有深度学习音频编码器传输带宽和存储空间。最常见的场景如:voip通话中由于通话双方或多方都是交互发声,所以存在大量的非发声段,这些段可以会被判为可用更大的帧尺寸编码进行压缩,又如一下发音音素特征比较平稳的信号、一些弱噪声信号等都是可以通过更大帧尺寸编码进行压缩,上述这些可用大尺寸帧(可以用现有帧尺寸的三倍大小)编码的音频段占了整个音频段的40%以上,运用了本申请实施例的方案可以使码率节省13%((1/3)*40%)以上。
本申请提供了一种音频处理方法,通过量化处理,将高维度、高精度的编码音频压缩成低维度、低精度的音频量化特征,减少了数据量,便于存储和传输;使用因果全卷积解码器对音频量化特征进行解码,能够高效地恢复出原始的解码音频;根据音频特征组对应的音频组帧数确定解压次数,使得解压过程更加灵活,可以适应不同复杂度的音频特征;通过对解压序列进行处理,最终生成音频信号,实现了音频的解码和还原,保证了音频质量;在保证一定音质的前提下,实现高效的数据压缩;减少数据量的同时,尽量保持原始音频的特征和质量,提高了音频处理的效率和灵活性。
在本申请的图21对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图25,步骤S230进一步包括子步骤S231至子步骤S232。具体的:
S231、根据L个音频特征组对应的L个音频组帧数,确定对L个解码音频中的每个解码音频进行解压的解压层,得到L个解压层数。
可以理解的是,通过分组预测网络预测得到的每个音频特征组对应的音频组帧数,与通过解压网络对该音频特征组进行解压时使用的解压层数相等,即当通过分组预测网络预测得到的某个音频特征组对应的音频组帧数为M时,则通过解压网络中的M个解压层对该音频特征组进行解压处理,且每个解压层对音频特征组进行一次解压,每个解压层的输入为上一个解压层的输出。
S232、根据L个解压层数,确定L个解码音频对应的L个解压次数。
可以理解的是,根据音频特征组对应的音频组帧数确定对音频组帧数进行解压的解压层数,进而得到对音频组帧数进行解压的解压次数。
本申请提供了一种音频处理方法,根据音频特征组的帧数来确定解压层数,可以更精确地控制解压的程度,提高解压效率;通过使用与音频组帧数相对应的解压层数,可以在解压过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证解压后的音频质量;根据具体的音频特征组确定解压次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种方法允许根据不同的音频特征组进行个性化的解压设置,满足各种应用场景的需求;由于解压层数和次数是根据音频特征组自动确定的,所以该方法具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定解压层数和次数的方法,有助于在解压效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图25对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图26,步骤S240进一步包括子步骤S241至子步骤S242。具体的:
S241、将L个解码音频输入至解压网络中,根据L个解码音频对应的L个解压层数,确定对L个解码音频进行解压的L个解压层组。
其中,每个解压层组包括至少一个解压网络层。
可以理解的是,将L个解码音频输入至解压网络中,根据每个解码音频对应的解压层数,确定在解压网络中对解码音频进行解压的具体的解压网络层,得到对解码音频进行解压的解压层组。这一步骤的关键是根据解码音频的帧数来确定解压层数,然后在解压网络中找到相应的解压网络层。这样可以更精确地控制解压的程度,确保在提高解压效率的同时,尽量减少对音频质量的影响。
S242、根据L个解压层组对L个解码音频进行解压,得到L个解压序列。
可以理解的是,通过每个解压层组对对应的解码音频进行解压,得到解压音频特征。
本申请提供了一种音频处理方法,通过根据解码音频的特点来确定解压层数和进行解压操作,实现了对音频数据的高效解压。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图26对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图27,步骤S242进一步包括子步骤S2421至S2422。对L个解码音频中的每个解码音频均执行:
S2421、确定第k个解码音频对应的第k个解压层组。
其中,第k个解压层组中包括U个解压网络层,k为大于等于1且小于等于L的整数,U为大于等于1的整数。
可以理解的是,确定第k个解码音频对应的第k个解压层组。这里的k表示第k个解码音频,U表示解压层组中包含的解压网络层的数量。通过这种方式,可以为每个解码音频确定与其对应的解压层组。值得注意的是,U的值会影响解压的效果和复杂度。较多的解压网络层可能会带来更好的解压效果,但也会增加计算量和处理时间。因此,在实际应用中,需要根据具体需求和系统资源来选择合适的U值。
S2422、将第k个解码音频输入至第k个解压层组,得到第k个解码音频对应的解压序列。
其中,每个解压网络层的输入为上一个解压网络层的输出。
可以理解的是,每个解压网络层的输入都是上一个解压网络层的输出。这意味着解码音频会经过一系列的解压网络层处理,每个层都会对输入进行解压和变换,最终得到解压后的解压序列。
本申请提供了一种音频处理方法,可以充分利用解压网络层的特性,逐步对解码音频进行解压,从而实现更好的解压效果。同时,由于每个解压网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度解压导致的音频质量损失。
在本申请的图27对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图28,解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层,其中,第三激励层通过Sigmoid函数实现,第四激励层通过双曲正切函数实现;步骤S2422进一步包括子步骤S24221至子步骤S24226。具体的:
S24221、将第k个解码音频输入至第k个解压层组中的第四卷积层,输出第一解码音频卷积特征。
可以理解的是,在这个步骤中,输入的是第k个解码音频,经过第四卷积层的处理后,输出的是第一解码音频卷积特征。第四卷积层是解压网络中的一层,它对输入的解码音频进行卷积操作,以提取解码音频中的关键信息。卷积操作是一种线性变换,它通过对输入信号进行加权求和来实现。在这个步骤中,第四卷积层对输入的解码音频进行卷积操作,以提取音频特征中的关键信息,并将其输出为第一解码音频卷积特征。这个第一解码音频卷积特征将作为下一层的输入,继续进行解压处理。
S24222、将第一解码音频卷积特征输入至第k个解压层组中的第三激励层,输出第一解码音频激励特征。
可以理解的是,在这个步骤中,输入的是上一步骤中得到的第一解码音频卷积特征,经过第三激励层的处理后,输出的是第一解码音频激励特征。第三激励层是解压网络中的一层,它通过激活函数对输入的第一解码音频卷积特征进行非线性变换,以增强音频特征的表示能力。常用的激活函数包括 sigmoid 函数和 tanh 函数等。在这个步骤中,第三激励层通过 sigmoid 函数对输入的第一解码音频卷积特征进行非线性变换,以增强音频特征的表示能力,并将其输出为第一解码音频激励特征。这个第一解码音频激励特征将作为下一层的输入,继续进行压缩处理。
S24223、将第一解码音频卷积特征输入至第k个解压层组中的第四激励层,输出第二解码音频激励特征。
可以理解的是,将第一解码音频卷积特征输入至第k个解压层组中的第四激励层,输出第二解码音频激励特征。第四激励层是解压网络中的一层,它通过激活函数对输入的第一解码音频卷积特征进行非线性变换,以增强音频特征的表示能力。常用的激活函数包括 sigmoid 函数和 tanh 函数等。在这个步骤中,第四激励层通过双曲正切函数(tanh 函数)对输入的第一解码音频卷积特征进行非线性变换,以增强音频特征的表示能力,并将其输出为第二解码音频激励特征。这个第二解码音频激励特征将作为下一层的输入,继续进行解压处理。
S24224、将第一解码音频激励特征与第二解码音频激励特征相乘,得到解码音频激励乘积特征。
可以理解的是,将第一解码音频激励特征和第二解码音频激励特征进行元素级的乘法运算,得到一个新的张量,即解码音频激励乘积特征。这个解码音频激励乘积特征是压缩网络中一个重要的中间结果,它将作为下一层的输入,继续进行压缩处理。通过将第一解码音频激励特征与第二解码音频激励特征相乘,可以将两个音频激励特征的信息进行融合,从而增强音频特征的表示能力。这种乘法运算可以被视为一种特征组合的方式,它可以有效地捕捉音频信号中的复杂模式和特征,从而提高模型的表达能力和泛化能力。
S24225、将解码音频激励乘积特征输入至第k个解压层组中的第五卷积层,输出第二解码音频卷积特征。
可以理解的是,在这个步骤中,第五卷积层对解码音频激励乘积特征进行进一步的卷积操作,以提取更高级别的音频特征。卷积操作是一种常见的神经网络操作,它通过在输入特征上应用卷积核来生成新的特征图。卷积核是一个小的滤波器,它在输入特征上滑动,并对每个局部区域进行加权求和。通过卷积操作,第五卷积层可以捕捉解码音频激励乘积特征中的局部模式和纹理信息,从而提取更具有语义含义的音频特征。
S24226、将第二解码音频卷积特征输入至第k个解压层组中的逆卷积层,得到第k个解码音频对应的解压序列。
可以理解的是,将第二解码音频卷积特征输入到第 k 个解压层组中的逆卷积层。逆卷积层通常用于将卷积操作所产生的特征图还原为原始输入的形状或尺寸。逆卷积层的作用是对卷积特征进行上采样或还原操作,以得到与原始输入具有相同空间分辨率的解码音频。通过逆卷积层,可以在保留特征信息的同时,恢复出解码音频的时间序列或空间结构。具体来说,逆卷积层可能使用一些插值或反卷积的方法,根据输入的卷积特征和指定的上采样比例或核大小,生成对应解码音频的时间序列或空间图像。这样,经过逆卷积层的处理,就可以得到第 k 个解码音频对应的解压序列。
为便于理解,请参阅图29,图29是本申请实施例提供的解码网络的结构图。首先,将第k个解码音频输入至第四卷积层Conv1D,通过第四卷积层Conv1D输出第一解码音频卷积特征。接着,将第一解码音频卷积特征分别输入至第三激励层Sigmoid和第四激励层Tanh中,通过第三激励层Sigmoid输出第一解码音频激励特征,通过第四激励层Tanh输出第二解码音频激励特征。然后,将第一解码音频激励特征与第二解码音频激励特征相乘,得到解码音频激励乘积特征;将解码音频激励乘积特征输入至第五卷积层Conv1D中,通过第五卷积层Conv1D输出第二解码音频卷积特征。最后,将第二解码音频卷积特征输入至逆卷积层ConvTranspose1D,逆卷积层ConvTranspose1D用于展开第二解码音频卷积特征,恢复到原有的帧尺寸的解压序列。
本申请提供了一种音频处理方法,通过第四卷积层对解码音频进行卷积操作,能够提取出音频中的关键特征,为后续的处理提供有价值的信息;第三激励层和第四激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频中的复杂模式和特征;将第一解码音频激励特征与第二解码音频激励特征相乘,实现了特征的融合,进一步提高了特征的表达能力和泛化能力;第五卷积层对解码音频激励乘积特征进行卷积操作,提取更高级别的音频特征,有助于模型对音频的理解和处理;逆卷积层将卷积特征还原为原始输入的形状或尺寸,使得最终得到的解压序列与原始音频具有相同的时间或空间结构,便于进一步的分析和应用。综合起来,这些步骤有助于提高音频解压的质量和效果,使得解压后的音频能够更准确地还原原始音频的特征和信息,从而提升音频处理的性能和应用效果。
在本申请的图6对应的实施例提供的音频处理方法的一个可选实施例中,请参阅图30,步骤S110进一步包括子步骤S111至子步骤S114。具体的:
S111、获取音频信号。
S112、对音频信号进行时频转换,得到频域特征。
S113、对频域特征进行分帧,得到K个音频帧。
S114、根据K个音频帧生成音频序列。
可以理解的是,音频信号为时域上的连续信号,例如,语音消息、voip通话音频、直播音频、游戏音频、音频广播等等。首先需要获取音频信号。这可以通过各种音频输入设备,如麦克风、音频文件等来实现。将音频信号通过时频转换处理得到频域特征,对频域特征进行加窗、分帧等处理,得到K个音频帧,由该K个音频帧得到音频序列。音频帧可以理解为音频信号在时间上的划分,每个音频帧代表了一段时间内的音频信息。这种将音频信号划分为音频帧的过程通常是为了后续的处理和分析。通过将音频信号分割成较小的音频帧,可以更方便地对音频进行各种操作,例如音频特征提取、音频编码、音频分类等。在实际应用中,K 的值可以根据具体需求和音频信号的特点来确定。较小的 K 值可能会导致更精细的音频帧划分,但同时也会增加计算量和处理复杂度。较大的 K 值则可能会在一定程度上降低音频的细节和分辨率,但处理起来可能会更高效。所以,在选择 K 的值时,需要综合考虑音频处理的要求、计算资源的限制以及最终的应用场景等因素。
时频特征转换可采用快速傅里叶变换(Fast Fourier Transformation,FFT)。具体的,将音频信号通过时频转换处理得到频域特征,包括:首先,将时域上的音频信号转化为频域上的K个频域音频特征;然后,求取K个频域音频特征的离散功率谱;接着,对离散功率谱求对数,得到频域特征。
本申请提供了一种音频处理方法,通过获取音频信号并进行时频转换,能够将时域上的连续信号转换为频域上的特征表示。这使得对音频的分析和处理更加方便和灵活;将音频信号划分为音频帧有助于后续的处理和分析。每个音频帧代表了一段时间内的音频信息,这使得能够更细致地研究音频的特性,并进行各种音频操作,如特征提取、编码和分类等;根据具体需求和音频信号的特点来确定 K 的值,使能够在计算效率和音频细节之间进行权衡。较小的 K 值可以提供更精细的音频帧划分,但可能增加计算量;较大的 K 值则可以更高效地处理音频,但可能牺牲一些细节;采用快速傅里叶变换(FFT)进行时频特征转换,能够将音频信号转化为频域上的特征,如频域音频特征和离散功率谱。这有助于了解音频在不同频率上的能量分布,从而更好地分析和处理音频。综上,这些步骤提供了一种有效的方法来处理和分析音频信号,使得能够从音频中提取有价值的信息,并根据具体应用场景进行相应的处理和应用。
下面对本申请中的音频处理器进行详细描述,请参阅图31。图31为本申请实施例中音频处理器的结构示意图。音频处理器,包括:组帧决策及压缩模型及编码模型;具体的:
组帧决策及压缩模型,用于获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;
将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;
根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;
根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征
编码模型,用于对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
本申请提供了一种音频处理器,按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
将音频序列输入至分组预测网络中,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存;
对音频序列进行频谱特征提取,得到音频特征序列,其中,音频特征序列包括K个音频特征;
将音频特征序列输入至分组预测网络中的组帧预测子网络,输出L个音频组帧数,其中,音频组帧数用于表征每个音频特征组中的音频帧的数量;
根据L个音频组帧数对缓存模块中的K个音频帧进行分组,得到L个音频特征组。
本申请提供了一种音频处理器,通过缓存模块,能够依次缓存音频帧,提高了数据处理的效率和实时性;对音频序列进行频谱特征提取,得到音频特征序列,为后续的音频处理提供了有价值的信息;利用分组预测网络中的组帧预测子网络,能够输出音频组帧数,实现了对音频特征的有效分组;根据音频组帧数对缓存模块中的音频帧进行分组,得到音频特征组,提高了音频处理的灵活性和适应性;有助于提高音频处理的效率、准确性和灵活性,为更进一步的音频分析和应用提供了良好的基础。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
获取预设音频组帧数N,其中,N为大于等于1且小于等于K的整数;
从音频特征序列中的K个音频特征中,提取连续的N个音频特征;
将N个音频特征输入至组帧预测子网络,输出第一预测音频组帧数M,其中,M为大于等于1且小于等于N的整数;
从音频特征序列中的K个音频特征中,提取N个音频特征之后的连续的M个音频特征;
将M个音频特征输入至组帧预测子网络,输出第二预测音频组帧数P,其中,P为大于等于1且小于等于N的整数,第二预测音频组帧数用于从音频特征序列中的K个音频特征中,提取M个音频特征之后的连续的P个音频特征,根据P个音频特征进行音频组帧数预测,直到K个音频特征均完成分组,结束预测音频组帧数。
本申请提供了一种音频处理器,实现了对音频特征的逐步处理和预测,以确定合适的音频组帧数。这样的分步处理可以提高预测的准确性和灵活性,适应不同音频特征序列的特点。同时,通过多次预测和迭代,可以更好地捕捉音频特征之间的关系,从而实现更合理的音频分组。这些步骤的协同作用有助于提高整个音频处理系统的性能和效果。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层;组帧决策及压缩模型,还用于:
将N个音频特征输入至组帧预测子网络中的全连接层,通过全连接层输出音频全连接特征;
将音频全连接特征输入至组帧预测子网络中的第一卷积层,通过第一卷积层输出音频卷积特征;
将音频卷积特征输入至组帧预测子网络中的门控层,通过门控层输出音频门控特征;
将音频门控特征输入至组帧预测子网络中的归一化层,通过归一化层输出N个预测音频组帧数对应的N个概率值;
根据N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定第一预测音频组帧数M,其中,第一预测音频组帧数M对应的概率值为N个概率值中的最大值。
本申请提供了一种音频处理器,通过全连接层、卷积层和门控层的组合使用,能够从音频特征中提取出更有意义和代表性的特征。全连接层可以对音频特征进行线性变换,卷积层可以捕捉音频特征中的空间信息和局部模式,门控层可以引入门控机制来调节特征的重要性。利用多个层的协同工作,能够对音频组帧数进行更准确的预测。通过生成音频卷积特征、音频门控特征和概率值,提供了对音频组帧的不同层次的表示和分析,从而提高预测的准确性。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
从音频序列中的K个音频帧中获取第i个音频帧,其中,i为大于1且小于等于K的整数;
确定第i个音频帧对应的缓存模块的写入指针地址,其中,第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到;
根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧缓存至缓存模块;
根据第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
本申请提供了一种音频处理器,通过顺序获取和缓存音频帧,可以高效地处理音频数据。这种顺序处理方式有助于保持数据的连续性和一致性,提高了处理效率;确定写入指针地址并将音频帧缓存到相应位置,有助于有效管理缓存模块的空间,这种方式可以确保缓存模块的合理利用,避免数据覆盖或丢失;按照顺序递增的方式确定写入指针地址,保证了音频帧在缓存模块中的顺序性。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
根据L个音频组帧数确定L个读取指针地址;
根据L个读取指针地址依次对缓存模块中的K个音频帧进行读取,得到L个音频特征组。
本申请提供了一种音频处理器,通过根据预测得到的音频组帧数更新读取指针地址,可以实现对 K 个音频帧进行 L 次读取,提高了数据读取的效率和准确性;根据不同的音频组帧数进行读取,可以更好地适应音频特征的变化,提取出更有意义的音频特征组;通过有序的读取方式,可以减少不必要的数据访问和处理开销,提高整个音频处理流程的效率;这种装置具有一定的可扩展性,可以根据实际需求增加或减少音频组帧数,以适应不同的应用场景和处理要求;通过多次读取并得到多个音频特征组,可以更全面地分析音频数据,获取更精确的音频特征信息。这种根据音频组帧数更新读取指针地址的装置有助于提高音频处理的效率和准确性,为后续的音频分析和应用提供了更好的数据基础。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个音频特征组中的每个音频特征组进行压缩的压缩层,得到L个压缩层数;
根据L个压缩层数确定L个音频特征组对应的L个压缩次数。
本申请提供了一种音频处理器,根据音频特征组的帧数来确定压缩层数,可以更精确地控制压缩的程度,提高压缩效率;通过使用与音频组帧数相对应的压缩层数,可以在压缩过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证压缩后的音频质量;根据具体的音频特征组确定压缩次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种装置允许根据不同的音频特征组进行个性化的压缩设置,满足各种应用场景的需求;由于压缩层数和次数是根据音频特征组自动确定的,所以该装置具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定压缩层数和次数的装置,有助于在压缩效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
将L个音频特征组输入至压缩网络中,根据L个音频特征组对应的L个压缩层数,确定对L个音频特征组进行压缩的L个压缩层组,其中,每个压缩层组包括至少一个压缩网络层;
根据L个压缩层组对L个音频特征组进行压缩,得到L个压缩音频特征。
本申请提供了一种音频处理器,通过根据音频特征组的特点来确定压缩层数和进行压缩操作,实现了对音频数据的高效压缩。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,组帧决策及压缩模型,还用于:
对L个音频特征组中的每个音频特征组均执行:
确定第j个音频特征组对应的第j个压缩层组,其中,第j个压缩层组中包括D个压缩网络层,j为大于等于1且小于等于L的整数,D为大于等于1的整数;
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,其中,每个压缩网络层的输入为上一个压缩网络层的输出。
本申请提供了一种音频处理器,可以充分利用压缩网络层的特性,逐步对音频特征组进行压缩,从而实现更好的压缩效果。同时,由于每个压缩网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度压缩导致的音频质量损失。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层,其中,第一激励层通过Sigmoid函数实现,第二激励层通过双曲正切函数实现;组帧决策及压缩模型,还用于:
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,包括:
将第j个音频特征组输入至第j个压缩层组中的第二卷积层,输出音频卷积特征;
将音频卷积特征输入至第j个压缩层组中的第一激励层,输出第一音频激励特征;
以及,将音频卷积特征输入至第j个压缩层组中的第二激励层,输出第二音频激励特征;
将第一音频激励特征与第二音频激励特征相乘,得到音频激励乘积特征;
将音频激励乘积特征输入至第j个压缩层组中的第三卷积层,得到第j个音频特征组对应的压缩音频特征。
本申请提供了一种音频处理器,通过第二卷积层对音频特征组进行卷积操作,能够提取音频特征中的关键信息,捕捉音频信号中的局部模式和纹理;第一激励层和第二激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频特征的复杂模式;将第一音频激励特征与第二音频激励特征相乘实现了特征的融合,将不同层次的特征信息结合在一起,提高了特征的表达能力和鲁棒性;通过第三卷积层对音频激励乘积特征进行进一步卷积操作,提取更高级别的音频特征,使模型能够捕捉更复杂的音频语义信息;整个压缩层组的设计旨在减少音频特征的维度和信息量,同时保留关键特征,提高模型的效率和泛化能力。综合起来,这些子步骤的目的是通过一系列的卷积、激励和乘法操作,对音频特征进行有效的压缩和处理,以提高模型在音频分析、分类、识别等任务中的性能。这样的处理方式可以增强模型对音频信号的理解和表示能力,从而更好地应对各种音频处理任务。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中,请参阅图32,音频处理器还包括:量化模型、解码模型及组帧解压模型;具体的:
量化模型,用于对L个编码音频进行量化处理,得到L个音频量化特征;
解码模型,用于对L个音频量化特征进行解码,得到L个解码音频;
组帧解压模型,用于根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数;
根据L个音频特征组对应的L个解压次数对L个解码音频进行解压,得到L个解压序列;
根据L个解压序列生成音频信号。
本申请提供了一种音频处理器,通过量化处理,将高维度、高精度的编码音频压缩成低维度、低精度的音频量化特征,减少了数据量,便于存储和传输;使用因果全卷积解码器对音频量化特征进行解码,能够高效地恢复出原始的解码音频;根据音频特征组对应的音频组帧数确定解压次数,使得解压过程更加灵活,可以适应不同复杂度的音频特征;通过对解压序列进行处理,最终生成音频信号,实现了音频的解码和还原,保证了音频质量;在保证一定音质的前提下,实现高效的数据压缩;减少数据量的同时,尽量保持原始音频的特征和质量,提高了音频处理的效率和灵活性。
在本申请的图32对应的实施例提供的音频处理器的一个可选实施例中, 组帧解压模型,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个解码音频中的每个解码音频进行解压的解压层,得到L个解压层数;
根据L个解压层数,确定L个解码音频对应的L个解压次数。
本申请提供了一种音频处理器,根据音频特征组的帧数来确定解压层数,可以更精确地控制解压的程度,提高解压效率;通过使用与音频组帧数相对应的解压层数,可以在解压过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证解压后的音频质量;根据具体的音频特征组确定解压次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种装置允许根据不同的音频特征组进行个性化的解压设置,满足各种应用场景的需求;由于解压层数和次数是根据音频特征组自动确定的,所以该装置具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定解压层数和次数的装置,有助于在解压效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图32对应的实施例提供的音频处理器的一个可选实施例中, 组帧解压模型,还用于:
将L个解码音频输入至解压网络中,根据L个解码音频对应的L个解压层数,确定对L个解码音频进行解压的L个解压层组,其中,每个解压层组包括至少一个解压网络层;
根据L个解压层组对L个解码音频进行解压,得到L个解压序列。
本申请提供了一种音频处理器,通过根据解码音频的特点来确定解压层数和进行解压操作,实现了对音频数据的高效解压。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图32对应的实施例提供的音频处理器的一个可选实施例中, 组帧解压模型,还用于:
对L个解码音频中的每个解码音频均执行:
确定第k个解码音频对应的第k个解压层组,其中,第k个解压层组中包括U个解压网络层,k为大于等于1且小于等于L的整数,U为大于等于1的整数;
将第k个解码音频输入至第k个解压层组,得到第k个解码音频对应的解压序列,其中,每个解压网络层的输入为上一个解压网络层的输出。
本申请提供了一种音频处理器,可以充分利用解压网络层的特性,逐步对解码音频进行解压,从而实现更好的解压效果。同时,由于每个解压网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度解压导致的音频质量损失。
在本申请的图32对应的实施例提供的音频处理器的一个可选实施例中, 解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层,其中,第三激励层通过Sigmoid函数实现,第四激励层通过双曲正切函数实现;组帧解压模型,还用于:
将第k个解码音频输入至第k个解压层组中的第四卷积层,输出第一解码音频卷积特征;
将第一解码音频卷积特征输入至第k个解压层组中的第三激励层,输出第一解码音频激励特征;
以及,将第一解码音频卷积特征输入至第k个解压层组中的第四激励层,输出第二解码音频激励特征;
将第一解码音频激励特征与第二解码音频激励特征相乘,得到解码音频激励乘积特征;
将解码音频激励乘积特征输入至第k个解压层组中的第五卷积层,输出第二解码音频卷积特征;
将第二解码音频卷积特征输入至第k个解压层组中的逆卷积层,得到第k个解码音频对应的解压序列。
本申请提供了一种音频处理器,通过第四卷积层对解码音频进行卷积操作,能够提取出音频中的关键特征,为后续的处理提供有价值的信息;第三激励层和第四激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频中的复杂模式和特征;将第一解码音频激励特征与第二解码音频激励特征相乘,实现了特征的融合,进一步提高了特征的表达能力和泛化能力;第五卷积层对解码音频激励乘积特征进行卷积操作,提取更高级别的音频特征,有助于模型对音频的理解和处理;逆卷积层将卷积特征还原为原始输入的形状或尺寸,使得最终得到的解压序列与原始音频具有相同的时间或空间结构,便于进一步的分析和应用。综合起来,这些步骤有助于提高音频解压的质量和效果,使得解压后的音频能够更准确地还原原始音频的特征和信息,从而提升音频处理的性能和应用效果。
在本申请的图31对应的实施例提供的音频处理器的一个可选实施例中, 组帧决策及压缩模型,还用于:
获取音频信号;
对音频信号进行时频转换,得到频域特征;
对频域特征进行分帧,得到K个音频帧;
根据K个音频帧生成音频序列。
本申请提供了一种音频处理器,通过获取音频信号并进行时频转换,能够将时域上的连续信号转换为频域上的特征表示。这使得对音频的分析和处理更加方便和灵活;将音频信号划分为音频帧有助于后续的处理和分析。每个音频帧代表了一段时间内的音频信息,这使得能够更细致地研究音频的特性,并进行各种音频操作,如特征提取、编码和分类等;根据具体需求和音频信号的特点来确定 K 的值,使能够在计算效率和音频细节之间进行权衡。较小的 K 值可以提供更精细的音频帧划分,但可能增加计算量;较大的 K 值则可以更高效地处理音频,但可能牺牲一些细节;采用快速傅里叶变换(FFT)进行时频特征转换,能够将音频信号转化为频域上的特征,如频域音频特征和离散功率谱。这有助于了解音频在不同频率上的能量分布,从而更好地分析和处理音频。综上,这些步骤提供了一种有效的装置来处理和分析音频信号,使得能够从音频中提取有价值的信息,并根据具体应用场景进行相应的处理和应用。
下面对本申请中的音频处理装置进行详细描述,请参阅图33。图33为本申请实施例中音频处理装置10的一个实施例示意图,音频处理装置10包括:音频序列获取模块110、分组模块120、压缩次数确定模块130、压缩模块140及编码模块150;具体的:
音频序列获取模块110,用于获取音频信号对应的音频序列,其中,音频序列中包括K个音频帧,K为大于1的整数;
分组模块120,用于将音频序列输入至分组预测网络中,输出L个音频特征组,其中,L个音频特征组对应于L个音频组帧数,分组预测网络包括组帧预测子网络,组帧预测子网络用于预测音频序列对应的L个音频组帧数,每个音频特征组包括至少一个音频帧,L为大于等于1的整数;
压缩次数确定模块130,用于根据L个音频特征组对应的L个音频组帧数,确定L个音频特征组对应的L个压缩次数;
压缩模块140,用于根据L个音频特征组对应的L个压缩次数对L个音频特征组进行压缩,得到L个压缩音频特征;
编码模块150,用于对L个压缩音频特征进行编码,得到音频信号对应的L个编码音频。
本申请提供了一种音频处理装置,按照音频帧的特征将音频帧进行分组压缩和编码,有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题,通过可变帧长的分组压缩和编码的方式,优化了音频信号的压缩方式,减少编码帧输出,降低编码码率,进一步节省传输带宽和存储空间。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,分组模块120,还用于:
将音频序列输入至分组预测网络中,通过分组预测网络中的缓存模块将K个音频帧依次进行缓存;
对音频序列进行频谱特征提取,得到音频特征序列,其中,音频特征序列包括K个音频特征;
将音频特征序列输入至分组预测网络中的组帧预测子网络,输出L个音频组帧数,其中,音频组帧数用于表征每个音频特征组中的音频帧的数量;
根据L个音频组帧数对缓存模块中的K个音频帧进行分组,得到L个音频特征组。
本申请提供了一种音频处理装置,通过缓存模块,能够依次缓存音频帧,提高了数据处理的效率和实时性;对音频序列进行频谱特征提取,得到音频特征序列,为后续的音频处理提供了有价值的信息;利用分组预测网络中的组帧预测子网络,能够输出音频组帧数,实现了对音频特征的有效分组;根据音频组帧数对缓存模块中的音频帧进行分组,得到音频特征组,提高了音频处理的灵活性和适应性;有助于提高音频处理的效率、准确性和灵活性,为更进一步的音频分析和应用提供了良好的基础。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,分组模块120,还用于:
获取预设音频组帧数N,其中,N为大于等于1且小于等于K的整数;
从音频特征序列中的K个音频特征中,提取连续的N个音频特征;
将N个音频特征输入至组帧预测子网络,输出第一预测音频组帧数M,其中,M为大于等于1且小于等于N的整数;
从音频特征序列中的K个音频特征中,提取N个音频特征之后的连续的M个音频特征;
将M个音频特征输入至组帧预测子网络,输出第二预测音频组帧数P,其中,P为大于等于1且小于等于N的整数,第二预测音频组帧数用于从音频特征序列中的K个音频特征中,提取M个音频特征之后的连续的P个音频特征,根据P个音频特征进行音频组帧数预测,直到K个音频特征均完成分组,结束预测音频组帧数。
本申请提供了一种音频处理装置,实现了对音频特征的逐步处理和预测,以确定合适的音频组帧数。这样的分步处理可以提高预测的准确性和灵活性,适应不同音频特征序列的特点。同时,通过多次预测和迭代,可以更好地捕捉音频特征之间的关系,从而实现更合理的音频分组。这些步骤的协同作用有助于提高整个音频处理系统的性能和效果。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层;分组模块120,还用于:
将N个音频特征输入至组帧预测子网络中的全连接层,通过全连接层输出音频全连接特征;
将音频全连接特征输入至组帧预测子网络中的第一卷积层,通过第一卷积层输出音频卷积特征;
将音频卷积特征输入至组帧预测子网络中的门控层,通过门控层输出音频门控特征;
将音频门控特征输入至组帧预测子网络中的归一化层,通过归一化层输出N个预测音频组帧数对应的N个概率值;
根据N个预测音频组帧数对应的N个概率值,从N个预测音频组帧数中确定第一预测音频组帧数M,其中,第一预测音频组帧数M对应的概率值为N个概率值中的最大值。
本申请提供了一种音频处理装置,通过全连接层、卷积层和门控层的组合使用,能够从音频特征中提取出更有意义和代表性的特征。全连接层可以对音频特征进行线性变换,卷积层可以捕捉音频特征中的空间信息和局部模式,门控层可以引入门控机制来调节特征的重要性。利用多个层的协同工作,能够对音频组帧数进行更准确的预测。通过生成音频卷积特征、音频门控特征和概率值,提供了对音频组帧的不同层次的表示和分析,从而提高预测的准确性。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,分组模块120,还用于:
从音频序列中的K个音频帧中获取第i个音频帧,其中,i为大于1且小于等于K的整数;
确定第i个音频帧对应的缓存模块的写入指针地址,其中,第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到;
根据第i个音频帧对应的缓存模块的写入指针地址,将第i个音频帧缓存至缓存模块;
根据第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
本申请提供了一种音频处理装置,通过顺序获取和缓存音频帧,可以高效地处理音频数据。这种顺序处理方式有助于保持数据的连续性和一致性,提高了处理效率;确定写入指针地址并将音频帧缓存到相应位置,有助于有效管理缓存模块的空间,这种方式可以确保缓存模块的合理利用,避免数据覆盖或丢失;按照顺序递增的方式确定写入指针地址,保证了音频帧在缓存模块中的顺序性。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,分组模块120,还用于:
根据L个音频组帧数确定L个读取指针地址;
根据L个读取指针地址依次对缓存模块中的K个音频帧进行读取,得到L个音频特征组。
本申请提供了一种音频处理装置,通过根据预测得到的音频组帧数更新读取指针地址,可以实现对 K 个音频帧进行 L 次读取,提高了数据读取的效率和准确性;根据不同的音频组帧数进行读取,可以更好地适应音频特征的变化,提取出更有意义的音频特征组;通过有序的读取方式,可以减少不必要的数据访问和处理开销,提高整个音频处理流程的效率;这种装置具有一定的可扩展性,可以根据实际需求增加或减少音频组帧数,以适应不同的应用场景和处理要求;通过多次读取并得到多个音频特征组,可以更全面地分析音频数据,获取更精确的音频特征信息。这种根据音频组帧数更新读取指针地址的装置有助于提高音频处理的效率和准确性,为后续的音频分析和应用提供了更好的数据基础。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,压缩次数确定模块130,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个音频特征组中的每个音频特征组进行压缩的压缩层,得到L个压缩层数;
根据L个压缩层数确定L个音频特征组对应的L个压缩次数。
本申请提供了一种音频处理装置,根据音频特征组的帧数来确定压缩层数,可以更精确地控制压缩的程度,提高压缩效率;通过使用与音频组帧数相对应的压缩层数,可以在压缩过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证压缩后的音频质量;根据具体的音频特征组确定压缩次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种装置允许根据不同的音频特征组进行个性化的压缩设置,满足各种应用场景的需求;由于压缩层数和次数是根据音频特征组自动确定的,所以该装置具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定压缩层数和次数的装置,有助于在压缩效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,压缩模块140,还用于:
将L个音频特征组输入至压缩网络中,根据L个音频特征组对应的L个压缩层数,确定对L个音频特征组进行压缩的L个压缩层组,其中,每个压缩层组包括至少一个压缩网络层;
根据L个压缩层组对L个音频特征组进行压缩,得到L个压缩音频特征。
本申请提供了一种音频处理装置,通过根据音频特征组的特点来确定压缩层数和进行压缩操作,实现了对音频数据的高效压缩。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,压缩模块140,还用于:
对L个音频特征组中的每个音频特征组均执行:
确定第j个音频特征组对应的第j个压缩层组,其中,第j个压缩层组中包括D个压缩网络层,j为大于等于1且小于等于L的整数,D为大于等于1的整数;
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,其中,每个压缩网络层的输入为上一个压缩网络层的输出。
本申请提供了一种音频处理装置,可以充分利用压缩网络层的特性,逐步对音频特征组进行压缩,从而实现更好的压缩效果。同时,由于每个压缩网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度压缩导致的音频质量损失。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层,其中,第一激励层通过Sigmoid函数实现,第二激励层通过双曲正切函数实现;压缩模块140,还用于:
将第j个音频特征组输入至第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,包括:
将第j个音频特征组输入至第j个压缩层组中的第二卷积层,输出音频卷积特征;
将音频卷积特征输入至第j个压缩层组中的第一激励层,输出第一音频激励特征;
以及,将音频卷积特征输入至第j个压缩层组中的第二激励层,输出第二音频激励特征;
将第一音频激励特征与第二音频激励特征相乘,得到音频激励乘积特征;
将音频激励乘积特征输入至第j个压缩层组中的第三卷积层,得到第j个音频特征组对应的压缩音频特征。
本申请提供了一种音频处理装置,通过第二卷积层对音频特征组进行卷积操作,能够提取音频特征中的关键信息,捕捉音频信号中的局部模式和纹理;第一激励层和第二激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频特征的复杂模式;将第一音频激励特征与第二音频激励特征相乘实现了特征的融合,将不同层次的特征信息结合在一起,提高了特征的表达能力和鲁棒性;通过第三卷积层对音频激励乘积特征进行进一步卷积操作,提取更高级别的音频特征,使模型能够捕捉更复杂的音频语义信息;整个压缩层组的设计旨在减少音频特征的维度和信息量,同时保留关键特征,提高模型的效率和泛化能力。综合起来,这些子步骤的目的是通过一系列的卷积、激励和乘法操作,对音频特征进行有效的压缩和处理,以提高模型在音频分析、分类、识别等任务中的性能。这样的处理方式可以增强模型对音频信号的理解和表示能力,从而更好地应对各种音频处理任务。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,请参阅图34,音频处理装置,还包括:量化模块210、解码模块220、解压次数确定模块230、解压模块240及音频信号还原模块250;具体的:
量化模块210,用于对L个编码音频进行量化处理,得到L个音频量化特征;
解码模块220,用于对L个音频量化特征进行解码,得到L个解码音频;
解压次数确定模块230,用于根据L个音频特征组对应的L个音频组帧数,确定L个解码音频对应的L个解压次数;
解压模块240,用于根据L个音频特征组对应的L个解压次数对L个解码音频进行解压,得到L个解压序列;
音频信号还原模块250,用于根据L个解压序列生成音频信号。
本申请提供了一种音频处理装置,通过量化处理,将高维度、高精度的编码音频压缩成低维度、低精度的音频量化特征,减少了数据量,便于存储和传输;使用因果全卷积解码器对音频量化特征进行解码,能够高效地恢复出原始的解码音频;根据音频特征组对应的音频组帧数确定解压次数,使得解压过程更加灵活,可以适应不同复杂度的音频特征;通过对解压序列进行处理,最终生成音频信号,实现了音频的解码和还原,保证了音频质量;在保证一定音质的前提下,实现高效的数据压缩;减少数据量的同时,尽量保持原始音频的特征和质量,提高了音频处理的效率和灵活性。
在本申请的图34对应的实施例提供的音频处理装置的一个可选实施例中,解压次数确定模块230,还用于:
根据L个音频特征组对应的L个音频组帧数,确定对L个解码音频中的每个解码音频进行解压的解压层,得到L个解压层数;
根据L个解压层数,确定L个解码音频对应的L个解压次数。
本申请提供了一种音频处理装置,根据音频特征组的帧数来确定解压层数,可以更精确地控制解压的程度,提高解压效率;通过使用与音频组帧数相对应的解压层数,可以在解压过程中更好地保留音频特征组的重要信息,减少信息损失,从而保证解压后的音频质量;根据具体的音频特征组确定解压次数,能够更合理地利用计算资源和存储空间,避免不必要的浪费;这种装置允许根据不同的音频特征组进行个性化的解压设置,满足各种应用场景的需求;由于解压层数和次数是根据音频特征组自动确定的,所以该装置具有较强的适应性,可以处理不同类型和复杂度的音频数据。总的来说,这种根据音频特征组的帧数来确定解压层数和次数的装置,有助于在解压效率、音频质量和资源利用之间取得良好的平衡。
在本申请的图34对应的实施例提供的音频处理装置的一个可选实施例中,解压模块240,还用于:
将L个解码音频输入至解压网络中,根据L个解码音频对应的L个解压层数,确定对L个解码音频进行解压的L个解压层组,其中,每个解压层组包括至少一个解压网络层;
根据L个解压层组对L个解码音频进行解压,得到L个解压序列。
本申请提供了一种音频处理装置,通过根据解码音频的特点来确定解压层数和进行解压操作,实现了对音频数据的高效解压。这样可以在保证音频质量的前提下,减少存储空间和传输带宽的需求,使得音频处理更加高效和便捷。
在本申请的图34对应的实施例提供的音频处理装置的一个可选实施例中,解压模块240,还用于:
对L个解码音频中的每个解码音频均执行:
确定第k个解码音频对应的第k个解压层组,其中,第k个解压层组中包括U个解压网络层,k为大于等于1且小于等于L的整数,U为大于等于1的整数;
将第k个解码音频输入至第k个解压层组,得到第k个解码音频对应的解压序列,其中,每个解压网络层的输入为上一个解压网络层的输出。
本申请提供了一种音频处理装置,可以充分利用解压网络层的特性,逐步对解码音频进行解压,从而实现更好的解压效果。同时,由于每个解压网络层的输入都是上一个层的输出,这种级联的结构可以在一定程度上保留音频特征的信息,避免过度解压导致的音频质量损失。
在本申请的图34对应的实施例提供的音频处理装置的一个可选实施例中,解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层,其中,第三激励层通过Sigmoid函数实现,第四激励层通过双曲正切函数实现;解压模块240,还用于:
将第k个解码音频输入至第k个解压层组中的第四卷积层,输出第一解码音频卷积特征;
将第一解码音频卷积特征输入至第k个解压层组中的第三激励层,输出第一解码音频激励特征;
以及,将第一解码音频卷积特征输入至第k个解压层组中的第四激励层,输出第二解码音频激励特征;
将第一解码音频激励特征与第二解码音频激励特征相乘,得到解码音频激励乘积特征;
将解码音频激励乘积特征输入至第k个解压层组中的第五卷积层,输出第二解码音频卷积特征;
将第二解码音频卷积特征输入至第k个解压层组中的逆卷积层,得到第k个解码音频对应的解压序列。
本申请提供了一种音频处理装置,通过第四卷积层对解码音频进行卷积操作,能够提取出音频中的关键特征,为后续的处理提供有价值的信息;第三激励层和第四激励层通过激活函数对音频特征进行非线性变换,增强了特征的表示能力,使模型能够更好地捕捉音频中的复杂模式和特征;将第一解码音频激励特征与第二解码音频激励特征相乘,实现了特征的融合,进一步提高了特征的表达能力和泛化能力;第五卷积层对解码音频激励乘积特征进行卷积操作,提取更高级别的音频特征,有助于模型对音频的理解和处理;逆卷积层将卷积特征还原为原始输入的形状或尺寸,使得最终得到的解压序列与原始音频具有相同的时间或空间结构,便于进一步的分析和应用。综合起来,这些步骤有助于提高音频解压的质量和效果,使得解压后的音频能够更准确地还原原始音频的特征和信息,从而提升音频处理的性能和应用效果。
在本申请的图33对应的实施例提供的音频处理装置的一个可选实施例中,音频序列获取模块110,还用于:
获取音频信号;
对音频信号进行时频转换,得到频域特征;
对频域特征进行分帧,得到K个音频帧;
根据K个音频帧生成音频序列。
本申请提供了一种音频处理装置,通过获取音频信号并进行时频转换,能够将时域上的连续信号转换为频域上的特征表示。这使得对音频的分析和处理更加方便和灵活;将音频信号划分为音频帧有助于后续的处理和分析。每个音频帧代表了一段时间内的音频信息,这使得能够更细致地研究音频的特性,并进行各种音频操作,如特征提取、编码和分类等;根据具体需求和音频信号的特点来确定 K 的值,使能够在计算效率和音频细节之间进行权衡。较小的 K 值可以提供更精细的音频帧划分,但可能增加计算量;较大的 K 值则可以更高效地处理音频,但可能牺牲一些细节;采用快速傅里叶变换(FFT)进行时频特征转换,能够将音频信号转化为频域上的特征,如频域音频特征和离散功率谱。这有助于了解音频在不同频率上的能量分布,从而更好地分析和处理音频。综上,这些步骤提供了一种有效的装置来处理和分析音频信号,使得能够从音频中提取有价值的信息,并根据具体应用场景进行相应的处理和应用。
图35是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图35所示的服务器结构。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
1.一种音频处理方法,其特征在于,包括:
获取音频信号对应的音频序列,其中,所述音频序列中包括K个音频帧,K为大于1的整数;
将所述音频序列输入至分组预测网络中,输出L个音频特征组,其中,所述L个音频特征组对应于L个音频组帧数,所述分组预测网络包括组帧预测子网络,所述组帧预测子网络用于预测所述音频序列对应的L个音频组帧数,每个所述音频特征组包括至少一个音频帧,L为大于等于1的整数;
根据所述L个音频特征组对应的L个音频组帧数,确定所述L个音频特征组对应的L个压缩次数;
根据所述L个音频特征组对应的L个压缩次数对所述L个音频特征组进行压缩,得到L个压缩音频特征;
对所述L个压缩音频特征进行编码,得到所述音频信号对应的L个编码音频。
2.如权利要求1所述的音频处理方法,其特征在于,所述将所述音频序列输入至分组预测网络中,输出L个音频特征组,包括:
将所述音频序列输入至分组预测网络中,通过所述分组预测网络中的缓存模块将所述K个音频帧依次进行缓存;
对所述音频序列进行频谱特征提取,得到音频特征序列,其中,所述音频特征序列包括K个音频特征;
将所述音频特征序列输入至所述分组预测网络中的组帧预测子网络,输出所述L个音频组帧数,其中,所述音频组帧数用于表征每个音频特征组中的音频帧的数量;
根据所述L个音频组帧数对所述缓存模块中的K个音频帧进行分组,得到L个音频特征组。
3.如权利要求2所述的音频处理方法,其特征在于,所述将所述音频特征序列输入至所述分组预测网络中的组帧预测子网络,包括:
获取预设音频组帧数N,其中,N为大于等于1且小于等于K的整数;
从所述音频特征序列中的K个音频特征中,提取连续的N个音频特征;
将所述N个音频特征输入至所述组帧预测子网络,输出第一预测音频组帧数M,其中,M为大于等于1且小于等于N的整数;
从所述音频特征序列中的K个音频特征中,提取所述N个音频特征之后的连续的M个音频特征;
将所述M个音频特征输入至所述组帧预测子网络,输出第二预测音频组帧数P,其中,P为大于等于1且小于等于N的整数,所述第二预测音频组帧数用于从所述音频特征序列中的K个音频特征中,提取所述M个音频特征之后的连续的P个音频特征,根据所述P个音频特征进行音频组帧数预测,直到所述K个音频特征均完成分组,结束预测所述音频组帧数。
4.如权利要求3所述的音频处理方法,其特征在于,所述组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层;
所述将所述N个音频特征输入至所述组帧预测子网络,输出第一预测音频组帧数M,包括:
将所述N个音频特征输入至所述组帧预测子网络中的全连接层,通过所述全连接层输出音频全连接特征;
将所述音频全连接特征输入至所述组帧预测子网络中的第一卷积层,通过所述第一卷积层输出音频卷积特征;
将所述音频卷积特征输入至所述组帧预测子网络中的门控层,通过所述门控层输出音频门控特征;
将所述音频门控特征输入至所述组帧预测子网络中的归一化层,通过所述归一化层输出N个预测音频组帧数对应的N个概率值;
根据所述N个预测音频组帧数对应的N个概率值,从所述N个预测音频组帧数中确定所述第一预测音频组帧数M,其中,所述第一预测音频组帧数M对应的概率值为所述N个概率值中的最大值。
5.如权利要求2所述的音频处理方法,其特征在于,所述将所述音频序列输入至分组预测网络中,通过所述分组预测网络中的缓存模块将所述K个音频帧依次进行缓存,包括:
从所述音频序列中的K个音频帧中获取第i个音频帧,其中,i为大于1且小于等于K的整数;
确定所述第i个音频帧对应的缓存模块的写入指针地址,其中,所述第i个音频帧对应的缓存模块的写入指针地址为根据所述第i-1个音频帧对应的缓存模块的写入指针地址加一得到;
根据所述第i个音频帧对应的缓存模块的写入指针地址,将所述第i个音频帧缓存至所述缓存模块;
根据所述第i个音频帧对应的缓存模块的写入指针地址,计算第i+1个音频帧对应的缓存模块的写入指针地址。
6.如权利要求2所述的音频处理方法,其特征在于,所述根据所述L个音频组帧数对所述缓存模块中的K个音频帧进行分组,得到L个音频特征组,包括:
根据所述L个音频组帧数确定L个读取指针地址;
根据所述L个读取指针地址依次对所述缓存模块中的K个音频帧进行读取,得到L个音频特征组。
7.如权利要求1所述的音频处理方法,其特征在于,所述根据所述L个音频特征组对应的L个音频组帧数,确定所述L个音频特征组对应的L个压缩次数,包括:
根据所述L个音频特征组对应的L个音频组帧数,确定对所述L个音频特征组中的每个音频特征组进行压缩的压缩层,得到L个压缩层数;
根据所述L个压缩层数确定所述L个音频特征组对应的L个压缩次数。
8.如权利要求7所述的音频处理方法,其特征在于,所述根据所述L个音频特征组对应的L个压缩次数对所述L个音频特征组进行压缩,得到L个压缩音频特征,包括:
将所述L个音频特征组输入至压缩网络中,根据所述L个音频特征组对应的所述L个压缩层数,确定对所述L个音频特征组进行压缩的L个压缩层组,其中,每个压缩层组包括至少一个压缩网络层;
根据所述L个压缩层组对所述L个音频特征组进行压缩,得到L个压缩音频特征。
9.如权利要求8所述的音频处理方法,其特征在于,所述根据所述L个压缩层组对所述L个音频特征组进行压缩,得到L个压缩音频特征,包括:
对所述L个音频特征组中的每个音频特征组均执行:
确定第j个音频特征组对应的第j个压缩层组,其中,所述第j个压缩层组中包括D个压缩网络层,j为大于等于1且小于等于L的整数,D为大于等于1的整数;
将所述第j个音频特征组输入至所述第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,其中,每个压缩网络层的输入为上一个压缩网络层的输出。
10.如权利要求9所述的音频处理方法,其特征在于,所述压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层,其中,所述第一激励层通过Sigmoid函数实现,所述第二激励层通过双曲正切函数实现;
所述将所述第j个音频特征组输入至所述第j个压缩层组,得到第j个音频特征组对应的压缩音频特征,包括:
将所述第j个音频特征组输入至所述第j个压缩层组中的第二卷积层,输出音频卷积特征;
将所述音频卷积特征输入至所述第j个压缩层组中的第一激励层,输出第一音频激励特征;
以及,将所述音频卷积特征输入至所述第j个压缩层组中的第二激励层,输出第二音频激励特征;
将所述第一音频激励特征与所述第二音频激励特征相乘,得到音频激励乘积特征;
将所述音频激励乘积特征输入至所述第j个压缩层组中的第三卷积层,得到所述第j个音频特征组对应的压缩音频特征。
11.如权利要求1所述的音频处理方法,其特征在于,所述对所述L个压缩音频特征进行编码,得到所述音频信号对应的L个编码音频之后,还包括:
对所述L个编码音频进行量化处理,得到L个音频量化特征;
对所述L个音频量化特征进行解码,得到L个解码音频;
根据所述L个音频特征组对应的L个音频组帧数,确定所述L个解码音频对应的L个解压次数;
根据所述L个音频特征组对应的L个解压次数对所述L个解码音频进行解压,得到L个解压序列;
根据所述L个解压序列生成所述音频信号。
12.如权利要求11所述的音频处理方法,其特征在于,所述根据所述L个音频特征组对应的L个音频组帧数,确定所述L个解码音频对应的L个解压次数,包括:
根据所述L个音频特征组对应的L个音频组帧数,确定对所述L个解码音频中的每个解码音频进行解压的解压层,得到L个解压层数;
根据所述L个解压层数,确定所述L个解码音频对应的L个解压次数。
13.如权利要求11所述的音频处理方法,其特征在于,所述根据所述L个音频特征组对应的L个解压次数对所述L个解码音频进行解压,得到L个解压序列,包括:
将所述L个解码音频输入至解压网络中,根据所述L个解码音频对应的L个解压层数,确定对所述L个解码音频进行解压的L个解压层组,其中,每个解压层组包括至少一个解压网络层;
根据所述L个解压层组对所述L个解码音频进行解压,得到L个解压序列。
14.如权利要求11所述的音频处理方法,其特征在于,所述根据所述L个解压层组对所述L个解码音频进行解压,得到L个解压序列,包括:
对所述L个解码音频中的每个解码音频均执行:
确定第k个解码音频对应的第k个解压层组,其中,所述第k个解压层组中包括U个解压网络层,k为大于等于1且小于等于L的整数,U为大于等于1的整数;
将所述第k个解码音频输入至所述第k个解压层组,得到第k个解码音频对应的解压序列,其中,每个解压网络层的输入为上一个解压网络层的输出。
15.如权利要求14所述的音频处理方法,其特征在于,所述解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层,其中,所述第三激励层通过Sigmoid函数实现,所述第四激励层通过双曲正切函数实现;
所述将所述第k个解码音频输入至所述第k个解压层组,得到第k个解码音频对应的解压序列,包括:
将所述第k个解码音频输入至所述第k个解压层组中的第四卷积层,输出第一解码音频卷积特征;
将所述第一解码音频卷积特征输入至所述第k个解压层组中的第三激励层,输出第一解码音频激励特征;
以及,将所述第一解码音频卷积特征输入至所述第k个解压层组中的第四激励层,输出第二解码音频激励特征;
将所述第一解码音频激励特征与所述第二解码音频激励特征相乘,得到解码音频激励乘积特征;
将所述解码音频激励乘积特征输入至所述第k个解压层组中的第五卷积层,输出第二解码音频卷积特征;
将所述第二解码音频卷积特征输入至所述第k个解压层组中的逆卷积层,得到第k个解码音频对应的解压序列。
16.一种音频处理器,其特征在于,包括:
组帧决策及压缩模型,用于获取音频信号对应的音频序列,其中,所述音频序列中包括K个音频帧,K为大于1的整数;
将所述音频序列输入至分组预测网络中,输出L个音频特征组,其中,所述L个音频特征组对应于L个音频组帧数,所述分组预测网络包括组帧预测子网络,所述组帧预测子网络用于预测所述音频序列对应的L个音频组帧数,每个所述音频特征组包括至少一个音频帧,L为大于等于1的整数;
根据所述L个音频特征组对应的L个音频组帧数,确定所述L个音频特征组对应的L个压缩次数;
根据所述L个音频特征组对应的L个压缩次数对所述L个音频特征组进行压缩,得到L个压缩音频特征;
编码模型,用于对所述L个压缩音频特征进行编码,得到所述音频信号对应的L个编码音频。
17.如权利要求16所述的音频处理器,其特征在于,所述音频处理器还包括:
量化模型,用于对所述L个编码音频进行量化处理,得到L个音频量化特征;
解码模型,用于对所述L个音频量化特征进行解码,得到L个解码音频;
组帧解压模型,用于根据所述L个音频特征组对应的L个音频组帧数,确定所述L个解码音频对应的L个解压次数;
根据所述L个音频特征组对应的L个解压次数对所述L个解码音频进行解压,得到L个解压序列;
根据所述L个解压序列生成所述音频信号。
18.一种音频处理装置,其特征在于,包括:
音频序列获取模块,用于获取音频信号对应的音频序列,其中,所述音频序列中包括K个音频帧,K为大于1的整数;
分组模块,用于将所述音频序列输入至分组预测网络中,输出L个音频特征组,其中,所述L个音频特征组对应于L个音频组帧数,所述分组预测网络包括组帧预测子网络,所述组帧预测子网络用于预测所述音频序列对应的L个音频组帧数,每个所述音频特征组包括至少一个音频帧,L为大于等于1的整数;
压缩次数确定模块,用于根据所述L个音频特征组对应的L个音频组帧数,确定所述L个音频特征组对应的L个压缩次数;
压缩模块,用于根据所述L个音频特征组对应的L个压缩次数对所述L个音频特征组进行压缩,得到L个压缩音频特征;
编码模块,用于对所述L个压缩音频特征进行编码,得到所述音频信号对应的L个编码音频。
19.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如权利要求1至15中任一项所述的音频处理方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
20.一种计算机可读存储介质,包括指令,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1至15中任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410419235.8A CN118016080B (zh) | 2024-04-09 | 2024-04-09 | 一种音频处理方法、音频处理器及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410419235.8A CN118016080B (zh) | 2024-04-09 | 2024-04-09 | 一种音频处理方法、音频处理器及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118016080A true CN118016080A (zh) | 2024-05-10 |
CN118016080B CN118016080B (zh) | 2024-06-25 |
Family
ID=90950426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410419235.8A Active CN118016080B (zh) | 2024-04-09 | 2024-04-09 | 一种音频处理方法、音频处理器及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118016080B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1477872A (zh) * | 2002-08-21 | 2004-02-25 | 中山正音数字技术有限公司 | 多声道数字音频信号的压缩编码和解码设备及其方法 |
CN1783726A (zh) * | 2002-08-21 | 2006-06-07 | 广州广晟数码技术有限公司 | 用于从音频数据码流中解码重建多声道音频信号的解码器 |
US20080270124A1 (en) * | 2007-04-24 | 2008-10-30 | Samsung Electronics Co., Ltd | Method and apparatus for encoding and decoding audio/speech signal |
JP2012182618A (ja) * | 2011-03-01 | 2012-09-20 | Nec Corp | 映像音声処理装置および映像音声処理方法 |
CN116781910A (zh) * | 2023-07-03 | 2023-09-19 | 江苏汇智达信息科技有限公司 | 基于神经网络算法的信息转换系统 |
-
2024
- 2024-04-09 CN CN202410419235.8A patent/CN118016080B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1477872A (zh) * | 2002-08-21 | 2004-02-25 | 中山正音数字技术有限公司 | 多声道数字音频信号的压缩编码和解码设备及其方法 |
CN1783726A (zh) * | 2002-08-21 | 2006-06-07 | 广州广晟数码技术有限公司 | 用于从音频数据码流中解码重建多声道音频信号的解码器 |
US20080270124A1 (en) * | 2007-04-24 | 2008-10-30 | Samsung Electronics Co., Ltd | Method and apparatus for encoding and decoding audio/speech signal |
JP2012182618A (ja) * | 2011-03-01 | 2012-09-20 | Nec Corp | 映像音声処理装置および映像音声処理方法 |
CN116781910A (zh) * | 2023-07-03 | 2023-09-19 | 江苏汇智达信息科技有限公司 | 基于神经网络算法的信息转换系统 |
Also Published As
Publication number | Publication date |
---|---|
CN118016080B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
KR101019398B1 (ko) | 오디오 코딩 및 디코딩에서의 여기의 프로세싱 | |
CN109785847B (zh) | 基于动态残差网络的音频压缩算法 | |
WO2011062538A1 (en) | Bandwidth extension of a low band audio signal | |
US11990148B2 (en) | Compressing audio waveforms using neural networks and vector quantizers | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
WO2024051412A1 (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
JP2022505888A (ja) | 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 | |
Kinsner | Compression and its metrics for multimedia | |
JP2024516664A (ja) | デコーダ | |
CN111816197B (zh) | 音频编码方法、装置、电子设备和存储介质 | |
CN118016080B (zh) | 一种音频处理方法、音频处理器及相关装置 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
US20110135007A1 (en) | Entropy-Coded Lattice Vector Quantization | |
JP4645869B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP4645866B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
EP3903235A1 (en) | Identifying salient features for generative networks | |
CN112669857B (zh) | 一种语音处理的方法、装置及设备 | |
RU2773421C2 (ru) | Способ и соответствующий продукт для определения режима кодирования/декодирования аудио | |
RU2773421C9 (ru) | Способ и соответствующий продукт для определения режима кодирования/декодирования аудио | |
CN117351943A (zh) | 音频处理方法、装置、设备和存储介质 | |
CN117616498A (zh) | 使用神经网络和向量量化器压缩音频波形 | |
JP2000132195A (ja) | 信号符号化装置及び方法 | |
KR20230134856A (ko) | 정규화 플로우를 활용한 오디오 신호를 부호화 및 복호화 하는 방법 및 그 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |