CN115116457A - 音频编码及解码方法、装置、设备、介质及程序产品 - Google Patents

音频编码及解码方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN115116457A
CN115116457A CN202210681816.XA CN202210681816A CN115116457A CN 115116457 A CN115116457 A CN 115116457A CN 202210681816 A CN202210681816 A CN 202210681816A CN 115116457 A CN115116457 A CN 115116457A
Authority
CN
China
Prior art keywords
frequency
subband signal
sub
signal
frequency subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210681816.XA
Other languages
English (en)
Inventor
肖玮
黄庆博
王蒙
康迂勇
史裕鹏
商世东
吴祖榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210681816.XA priority Critical patent/CN115116457A/zh
Publication of CN115116457A publication Critical patent/CN115116457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种音频编码及解码方法、装置、设备、介质及程序产品;其中,音频编码方法包括:对音频信号进行分解处理,得到低频子带信号和高频子带信号;基于低频子带信号以及高频子带信号进行多个层次的特征提取处理,得到多个层次分别对应的子带信号特征;对每个层次对应的子带信号特征进行量化处理,得到子带信号特征的索引值;对子带信号特征的索引值进行编码处理,得到层次对应的码流;对多个层次分别对应的码流配置对应的传输优先级;其中,传输优先级与层次对应的码流的解码质量指标正相关。本申请能够灵活适用于不同网络带宽的应用场景,提升音频编解码的效率和质量。

Description

音频编码及解码方法、装置、设备、介质及程序产品
技术领域
本申请涉及音频处理技术,尤其涉及一种音频编码及解码方法、装置、设备、介质及程序产品。
背景技术
音频编解码技术,是包括远程音视频通话在内的通信服务中的一项核心技术。传统的编解码技术是基于时域和频域的变换实现,例如各种标准的语音编解码协议都属于此范畴。以编码为例,包括时域编码和频域编码,其本质都是基于信号处理的压缩方法,在保持一定的语音质量的前提下,编码的码率很难再有明显的下降,因为二者是相互制约的。
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,在音频编码领域的应用日渐增多,例如基于深度学习的编解码技术,目标是在低码率下实现高于传统的编解码技术的语音质量。但是,由于人工智能的编解码技术的计算复杂度较高,影响了编码效率,且码率较高时也无法适用于低带宽的应用场景。
综上所述,如何适用不同网络带宽的应用场景来提升编解码的效率和语音质量,相关技术尚无有效解决方案。
发明内容
本申请实施例提供一种音频编码及解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够灵活适用于不同网络带宽的应用场景,提升音频编解码的效率和质量。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种音频编码方法,包括:
对音频信号进行分解处理,得到低频子带信号和高频子带信号;
基于所述低频子带信号以及所述高频子带信号进行多个层次的特征提取处理,得到所述多个层次分别对应的子带信号特征;
对每个所述层次对应的子带信号特征进行量化处理,得到所述子带信号特征的索引值;
对所述子带信号特征的索引值进行编码处理,得到所述层次对应的码流;
对所述多个层次分别对应的码流配置对应的传输优先级;其中,所述传输优先级与所述层次对应的码流的解码质量指标正相关。
本申请实施例提供一种音频解码方法,包括:
对多个层次分别对应的码流进行解码处理,得到每个所述层次分别对应的码流的索引值;其中,不同的所述层次对应不同的传输优先级,且所述传输优先级与所述层次对应的码流的解码质量指标正相关;
对每个所述层次分别对应的码流的索引值进行逆量化处理,得到每个所述层次分别对应的子带信号特征;
对每个所述层次分别对应的子带信号特征进行特征重建处理,得到每个所述层次分别对应的子带信号;
将多个所述层次分别对应的子带信号合成为音频信号。
本申请实施例提供一种音频编码装置,包括:
分解模块,用于对音频信号进行分解处理,得到低频子带信号和高频子带信号;
特征提取模块,用于基于所述低频子带信号以及所述高频子带信号进行多个层次的特征提取处理,得到所述多个层次分别对应的子带信号特征;
量化模块,用于对每个所述层次对应的子带信号特征进行量化处理,得到所述子带信号特征的索引值;
编码模块,用于对所述子带信号特征的索引值进行编码处理,得到所述层次对应的码流;
配置模块,用于对所述多个层次分别对应的码流配置对应的传输优先级;其中,所述传输优先级与所述层次对应的码流的解码质量指标正相关。
本申请实施例提供一种音频解码装置,包括:
解码模块,用于对多个层次分别对应的码流进行解码处理,得到每个所述层次分别对应的码流的索引值;其中,不同的所述层次对应不同的传输优先级,且所述传输优先级与所述层次对应的码流的解码质量指标正相关;
逆量化模块,用于对每个所述层次分别对应的码流的索引值进行逆量化处理,得到每个所述层次分别对应的子带信号特征;
特征重建模块,用于对每个所述层次分别对应的子带信号特征进行特征重建处理,得到每个所述层次分别对应的子带信号;
合成模块,用于将多个所述层次分别对应的子带信号合成为音频信号。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的音频编码方法以及音频解码方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的音频编码方法以及音频解码方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的音频编码方法以及音频解码方法。
本申请实施例具有以下有益效果:
通过分层获取音频子带信号在每个层次的子带信号特征,并分层次对每个层次对应的子带信号特征进行编码,这样,每个层次仅需编码特定的子带信号特征,而不需要编码整个音频信号的特征,不仅能够提高编解码的效率,也降低了每个层次的编解码复杂度;根据不同层次的码流对解码质量的重要程度,灵活地为不同层次的码流配置不同的传输优先级,保证较为重要的码流优先传输,能够适用于不同网络带宽的应用场景。
附图说明
图1是本申请实施例提供的不同码率下的频谱比较示意图;
图2是本申请实施例提供的音频编解码系统100的架构示意图;
图3是本申请实施例提供的语音通信链路的示意图;
图4A是本申请实施例提供的终端401的结构示意图;
图4B是本申请实施例提供的终端402的结构示意图;
图5A-图5G是本申请实施例提供的音频编码方法的流程示意图;
图6A-图6G是本申请实施例提供的音频解码方法的流程示意图;
图7A是本申请实施例提供的进行一个层次的编码解码的示意图;
图7B是本申请实施例提供的进行两个层次的编码解码的示意图;
图7C是本申请实施例提供的进行三个层次的编码解码的示意图;
图7D是本申请实施例提供的QMF滤波器组对应的频谱响应的示意图;
图7E是本申请实施例提供的频带扩展的示意图;
图8A是本申请实施例提供的普通卷积网络与空洞卷积网络的示意图;
图8B是本申请实施例提供的用于进行第一特征提取处理的神经网络的结构示意图;
图8C是本申请实施例提供的用于进行第三特征提取处理的神经网络的结构示意图;
图8D是本申请实施例提供的用于进行第一特征重建处理的神经网络的结构示意图;
图8E是本申请实施例提供的用于进行第三特征重建处理的神经网络的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)语音编码(Audio Coding):即,音频编码,是对包含语音的音频信号进行数据压缩的一种应用。语音编码使用语音特定的参数估计,使用音频信号处理技术对语音信号进行建模,并结合通用数据压缩算法在紧凑的比特流中表示生成的建模参数。
2)正交镜像滤波器组(Quadrature Mirror Filter,QMF):用于将音频信号分解成两个等带宽的子带信号,即,高频子带信号和低频子带信号。
3)分层编码(Scalable Coding):一种用于兼容不同的终端设备和链路带宽的技术。其特点是对码流进行分层,低层码流可以单独解码,高层码流能够增强音频的质量。
4)神经网络(Neural Network,NN):一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。神经网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
5)深度学习(Deep Learning,DL):机器学习的一种,通过组合低层特征形成更加抽象的高层特征来表示属性类别或特征,用于发现数据的分布式特征表示。
6)熵编码:即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量。常见的熵编码有:香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(Arithmetic Coding)。
申请人发现,在基于信号处理的方式进行音频编码时,根据失真率分析并结合过去的标准化经验,得出如下结论:至少需要每个样本0.75bit的码率才能提供理想的语音质量,如果编码音乐,则至少需要每个样本1.5bit的码率。通常,对于采样率为16000Hz的宽带语音信号,编码后的信息的码率为12kbps;对于采样率为32000Hz的超宽带语音信号,编码后的信息的码率为48kbps。
参见图1,图1是本申请实施例提供的不同码率下的频谱比较示意图,在图1中,101表示原始音频信号的频谱,即,未经压缩的音频信号的频谱;102表示编码后码率为20kbps的数据还原出的音频信号的频谱;103表示编码后码率为6kbps的数据还原出的音频信号的频谱。如图1所示,编码后的数据码率越高,还原出的音频信号的频谱与原始音频信号的频谱更为接近。
在相关技术的音频编解码方式1中,编码端基于传统信号处理方式,提取典型的语音特征,如线谱频系数(Line Spectral Frequency,LSF),对于宽带语音,每帧可以提取10-16个LSF系数,以及语音帧的能量等。编码器会对这些语音特征进行压缩编码。解码端解码出上述语音特征,调用语音生成模型,如Wavenet等生成式网络生成语音信号。这种方式的码率可以低于2kbps。然而,需要调用wavenet等生成式网络进行语音信号的生成,解码端的计算复杂度非常高,在移动终端使用具有非常大的挑战性。此外,解码得到的音频质量与基于信号处理方式得到的音频的质量相比较差。
在相关技术的音频编解码方式2中,编码端通过卷积网络或者自编码器,将语音信号转换成特征向量。然后,对特征向量进行编码。解码端是编码端的网络的逆过程。通过解码获得的特征向量,调用对应的网络,生成语音信号。
申请人发现,上述两种方式,主要是通过音频信号分析或者编码网络,生成特征向量,然后对特征向量进行编码。然而,由于编解码两端均采用了深度学习网络,计算复杂度非常高,需要耗费巨大的计算资源才能实现音频编解码,编解码的效率较低,无法适用于不同网络带宽的应用场景,缺乏灵活性。
本申请实施例提供一种音频编码及解码方法、装置、电子设备、存储介质以及程序产品,能够灵活适用于不同网络带宽的应用场景,提升音频编解码的效率和质量。下面说明本申请实施例提供的用于进行音频编码及解码的电子设备的示例性应用,本申请实施例提供的进行音频编码及解码的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备、车载终端)等各种类型的用户终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时的示例性应用。
本申请实施例提供的音频编码及解码方法可以由终端或服务器单独执行或协同执行,参见图2,图2是本申请实施例提供的音频编解码系统100的架构示意图,包括终端401、终端402。终端401通过网络300连接终端402,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,以基于网际互联协议的语音传输(Voice over InternetProtocol,VoIP)会议系统为例,终端401包括会议客户端,用户在使用会议客户端时产生音频信号,由终端401中部署的编码器将终端401产生的待编码的音频信号进行分层编码处理,得到多个层次分别对应的码流,之后,对得到的码流配置不同的传输优先级,并按照对应的传输优先级将码流传输至终端402,由终端402中部署的解码器根据接收到的码流,进行分层解码并合成处理,得到音频信号,并将解码得到的音频信号通过终端402中相应的会议客户端进行播放。
除了可以应用于会议场景之外,本申请实施例中的音频编解码系统100还可以应用于即时通信客户端的语音、视频聊天,游戏客户端的语音聊天,网络直播间中的语音、视频聊天等场景。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端401和终端402可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。
在另一些实施例中,本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
在一些实施例中,参见图3,图3是本申请实施例提供的语音通信链路的示意图。可以将编码器部署在上行客户端,将解码器部署在下行客户端。编码器采集上行客户端的音频信号,并对音频信号进行前处理增强,如特征提取处理等,对得到的增强后的语音特征进行编码处理以及抗噪性能提升处理,得到码流之后,将码流传输至解码器所在的下行客户端。下行客户端中的解码器对收到的码流进行解码,并进行抗噪性能提升处理,进一步对得到解码结果进行增强和音效增加等处理,从而尽可能还原原始的音频信号并在下行客户端进行回放。
需要说明的是,考虑前向兼容,可以在音频编码解码系统的后台部署转码器(如NN解码器和G.722编码器的组合),以实现新的编码器与现有编码器互联互通的效果。例如,如果发送端是新的NN编码器,接收端使用是G.722解码器,接收端的G.722解码器无法解码发送端直接发送的经过NN编码器编码生成的码流。因此在后台(即,服务器)可以通过NN解码器对发送端经过NN编码器编码得到的码流进行解码,以生成语音信号,然后调用G.722编码器生成特定码流,并发送给接收端,才可能让接收端正确解码。
下面,参见图4A,图4A是本申请实施例提供的终端401的结构示意图,图4A所示的终端401包括:至少一个处理器410、存储器430、至少一个网络接口420。终端401中的各个组件通过总线系统440耦合在一起。可以理解的是,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4A中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DS P,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器430可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器430可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器430包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Ra ndom Access Memory)。本申请实施例描述的存储器430旨在包括任意适合类型的存储器。
在一些实施例中,存储器430能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统431,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块432,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的音频编码装置可以采用软件方式实现,图4A示出了存储在存储器430中的音频编码装置433,其可以是程序和插件等形式的软件,包括以下软件模块:分解模块4331、特征提取模块4332、量化模块4333、编码模块4334以及配置模块4335,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
下面,参见图4B,图4B是本申请实施例提供的终端402的结构示意图,图4B所示的终端402包括:至少一个处理器450、存储器470、至少一个网络接口460。终端402中的各个组件通过总线系统480耦合在一起。
在一些实施例中,本申请实施例提供的音频解码装置可以采用软件方式实现,图4B示出了存储在存储器470中的音频解码装置473,其可以是程序和插件等形式的软件,包括以下软件模块:解码模块4731、逆量化模块4734、特征重建模块4733和合成模块4734,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
下面将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的音频编码及解码方法。可以理解地,下述的方法可以由上文所述的终端或服务器单独执行或协同执行。
参见图5A,图5A是本申请实施例提供的音频编码方法的流程示意图,将结合图5A示出的步骤进行说明。
在步骤101中,对音频信号进行分解处理,得到低频子带信号和高频子带信号。
作为示例,在采集到音频信号之后,首先对音频信号进行分解处理,得到低频子带信号和高频子带信号。
在一些实施例中,对音频信号进行分解处理,得到低频子带信号和高频子带信号,可以通过以下方式实现:以第一采样频率对音频信号进行采样处理,得到采样信号;其中,采样信号包括从音频信号中采样得到的多个样本点;对采样信号进行低通滤波处理,对得到的低通滤波结果进行第一下采样处理,得到第二采样频率的低频子带信号;对采样信号进行高通滤波处理,对得到的高通滤波结果进行第二下采样处理,得到第二采样频率的高频子带信号。
作为示例,可以采用QMF滤波器组实现分解处理。参见图7D,图7D是本申请实施例提供的QMF滤波器组对应的频谱响应的示意图。
QMF滤波器组是一个包含QMF分析滤波器与QMF合成滤波器的滤波器对。
对于QMF分析滤波器,可以将输入的采样率为Fs的音频信号,分解成两路采样率为Fs/2的子带信号,即QMF低通信号和QMF高通信号。如图7D所示,701表示QMF分析滤波器的低通信号HLow(z)的频谱响应,702表示QMF分析滤波器的高通信号HHigh(z)的频谱响应。
作为示例,QMF低通信号滤波系数和QMF高通信号滤波系数之间的相关性可以通过以下公式进行计算:
hHigh(k)=(-1)khLow(k) 公式1
其中,hHigh(k)表示高通信号的第k个点的系数,hLow(k)表示低通信号的第k个点的系数。
下面以第一采样频率Fs=32000Hz、单帧音频信号的时长为20ms为例进行说明。第一采样频率也可以取8000Hz、16000Hz、48000Hz等,本申请实施例对此不做限定。
首先,以Fs=32000Hz对一帧音频信号x(n)(即,一帧连续的模拟信号)进行采样处理,得到采样信号(即,离散的数字信号)。作为示例,采样信号包括从音频信号中采样得到的640样本点,即640个采样值。
其次,通过2通道的QMF分析滤波器,对第一采样频率(即,32000Hz)的采样信号进行低通滤波处理,得到低通滤波结果之后,对低通滤波结果进行第一下采样处理,得到第二采样频率(即,16000Hz)的低频子带信号xLB(n)。
对应地,通过2通道的QMF分析滤波器,对第一采样频率(即,32000Hz)的采样信号进行高通滤波处理,得到高通滤波结果之后,对高通滤波结果进行第二下采样处理,得到第二采样频率(即,16000Hz)的高频子带信号xHB(n)。
其中,低通滤波处理和高通滤波处理可以并行进行,以提高滤波效率。进行下采样处理得到的低频子带信号的有效带宽范围为0-8kHz,高频子带信号的有效带宽范围为8-16kHz,由于带宽为信号包含的最高频率与最低频率之差,因此,低频子带信号和高频子带信号的带宽相同,均为8kHz。且经过分解处理后,两个子带信号均包括320个样本点。
通过上述方式,可以准确获得音频信号对应的低频子带信号和高频子带信号,便于基于准确的子带信号进行进一步地处理。
在步骤102中,基于低频子带信号以及高频子带信号进行多个层次的特征提取处理,得到多个层次分别对应的子带信号特征.
作为示例,在得到低频子带信号和高频子带信号后,在一些实施例中,可以基于低频子带信号以及高频子带信号进行至少一个层次的特征提取处理,以得到每个层次分别对应的子带信号特征。
作为示例,可以基于低频子带信号进行一个层次(即,第一层次)的特征提取处理。参见图7A,图7A是本申请实施例提供的进行一个层次的编码解码的示意图。
如图7A所示,在得到低频子带信号xLB(n)后,首先,对低频子带信号xLB(n)进行第一层次的分析(即特征提取处理),得到第一低频子带信号特征FLB(n)。
其次,对第一低频子带信号特征FLB(n)进行量化编码处理,得到第一层次对应的码流。
接着,将第一层次对应的码流传输至解码端,通过解码端对码流进行解码,得到解码结果F′LB(n),对解码结果F′LB(n)进行第一层析的合成处理,并调用合成滤波器对得到的合成结果x′LB(n)进行上采样处理,从而得到原始音频信号中的低频部分信号的估计值。
对应地,也可以基于高频子带信号进行一个层次的编码解码处理,处理流程与图7A所示的流程类似,在此不再赘述。
在一些实施例中,可以基于低频子带信号以及高频子带信号进行两个层次的特征提取处理,以得到每个层次分别对应的子带信号特征。
作为示例,可以基于低频子带信号进行第一层次的特征提取处理,基于高频子带信号进行第二层次的特征提取处理。参见图7B,图7B是本申请实施例提供的进行两个层次的编码解码的示意图。
在编码端,对低频子带信号进行第一层次的分析,得到第一低频子带信号特征FLB(n),并对高频子带信号进行第二层次的分析,得到第一高频子带信号特征FHB(n)。接着,对FLB(n)和FHB(n)分别进行量化编码处理,分别得到第一层次对应的码流和第二层次对应的码流,并将两个层次的码流传输至解码端。
在解码端,首先,对接收到的两个层次的码流进行解码处理,分别得到第一层次对应的码流解码结果和第二层次对应的码流解码结果;接着,基于第一层次对应的码流解码结果进行第一层次的合成处理,得到第一层次的合成结果x′LB(n),基于第二层次对应的码流解码结果进行第二层次的合成处理,得到第二层次的合成结果x′HB(n);最后,调用合成滤波器对x′LB(n)和x′HB(n)进行上采样处理,并将得到的两个上采样结果进行合并,从而得到原始音频信号的估计值x′(n)。
下面将结合附图说明基于低频子带信号以及高频子带信号进行两个层次的特征提取处理的方式。
参见图5B,图5B是本申请实施例提供的音频编码方法的一个流程示意图。基于图5A,图5B中的步骤102可以通过步骤1021-步骤1022实现。下面将结合图5B示出的步骤1021-步骤1022进行说明。
在步骤1021中,通过以下方式执行第一层次的特征提取处理:基于低频子带信号进行第一特征提取处理,得到第一低频子带信号特征。
作为示例,在进行第一层次和第二层次的特征提取处理的情况下,基于低频子带信号xLB(n)进行第一层次的第一特征提取处理,得到第一低频子带信号特征FLB(n),其中,第一低频子带信号特征的维度小于低频子带信号的维度。
这里,可以通过基于信号处理的方式实现第一特征提取处理,如提取低频子带信号的波形特征或参数特征;也可以通过神经网络的方式实现第一特征提取处理,神经网络包括但不限于自编码器(AutoEncoder,AE),全连接网络(Full-Connection,FC)、长短期记忆网络(Long Short-Term Memory,LSTM)、卷积网络(Convolutional Neural Network,CNN)+长短期记忆网络(LSTM)、空洞卷积网络(Dilated CNN)。
需要说明的是,在本申请实施例中,可以通过采集数据,对编码端和解码端的神经网络(如,空洞卷积网络)进行联合训练,以获得最优参数。由于相关技术中存在多个神经网络和深度学习的开源平台,基于这些开源平台,开发人员仅需准备数据和设置相应的网络结构,即可进行神经网络的训练,在服务器完成神经网络的训练后,即可将训练好的神经网络投入使用。具体的训练过程在此不再赘述。本申请实施例是假定基于训练后的神经网络的最优参数进行特征提取处理。
作为示例,以神经网络为空洞卷积网络为例,对第一特征提取处理进行说明。下面,首先对空洞卷积网络进行说明。
参见图8A,图8A是本申请实施例提供的普通卷积网络与空洞卷积网络的示意图。空洞卷积网络的提出,目的在于增加感受野的同时保持特征图的尺寸不变,避免因为上采样、下采样引起的误差。如图8A所示,虽然普通卷积网络(即,801所示的形式)和空洞卷积网络(即,802所示的形式)中的卷积核大小(Kernel size)均为3x3,然而,普通卷积网络的感受野只有3,扩张率(Dilation rate)为1;而空洞卷积网络的感受野达到5,扩张率为2。
在卷积过程中,卷积核可以在类似图8A中的平面上移动,移动过程涉及移位率(Stride rate)。例如,卷积核每次移位1格,则移位率为1。此外,卷积过程中的通道数,表示使用多少个卷积核对应的参数进行卷积处理。通常,通道数越多,对信号的分析更为全面,精度越高;但是,通道数越多,计算复杂度也越高。例如,一个1x320的特征向量,使用24个通道进行卷积运算,可以得到一个24*320的特征向量。在卷积过程中,可以根据实际应用需要,定义合适的空洞卷积核的大小(例如,针对音频信号,空洞卷积核一般设置为1x3)、扩张率、移位率和通道数。
下面将说明使用空洞卷积网络进行第一特征提取处理的方式。
参见图5B,图5B中的步骤1021可以通过步骤10211-步骤10214实现。下面将结合图5B示出的步骤10211-步骤10214进行说明。
在步骤10211中,对低频子带信号进行第一卷积处理,得到第一卷积特征。
参见图8B,图8B是本申请实施例提供的用于进行第一特征提取处理的神经网络的结构示意图。
如图8B所示,首先基于低频子带信号xLB(n)调用24通道的卷积层(如,因果卷积层)进行第一卷积处理,从而将1*320的低频子带信号xLB(n),扩展为24*320的第一卷积特征。
在步骤10212中,对第一卷积特征进行第一池化处理,得到第一池化特征。
作为示例,参见图8B,在得到第一卷积特征之后,基于24*320的第一卷积特征调用池化层进行第一池化(Pooling)处理,例如,池化因子可以设置为2、且激活函数可以设置为线性修正单元ReLU函数,经过第一池化处理后得到24*160的第一池化特征。
在步骤10213中,对第一池化特征进行第三下采样处理,得到第三下采样特征。其中,第三下采样处理包括多次级联的下采样。
作为示例,参见图8B,在得到第一池化特征之后,基于第一池化特征调用级联的3个下采样层进行第三下采样处理。
其中,这3个下采样层分别对应3个不同的下采样因子。作为示例,第1个下采样层的下采样因子为4、通道为48;第2个下采样层的下采样因子为5、通道为96;第3个下采样层的下采样因子为8、通道为192。因此,经过这3个下采样层的第三下采样处理,24*160的第一池化特征依次转换成48*40、96*8、192*1的第三下采样特征。
在进行第三下采样处理的过程中,可以先基于第一池化特征执行1个或者多个空洞卷积处理,例如,每个空洞卷积核大小均可以设置为1*3,移位率均可以设置为1,空洞卷积处理的扩张率均可以设置为3,本申请实施例对此并不进行限定。
在步骤10214中,对第三下采样特征进行第二卷积处理,得到第一低频子带信号特征。
作为示例,参见图8B,在得到192*1的第三下采样特征之后,基于192*1的第三下采样特征调用一个通道为64的卷积层(如,因果卷积层)进行第二卷积处理,得到一个64维的特征向量,即第一低频子带信号特征FLB(n)。
如图8B所示,低频子带信号xLB(n)的维度为320,第一低频子带信号特征FLB(n)的维度为64。因此,第一特征提取处理起到了降维作用,即进行了数据压缩。
通过上述方式,可以借助神经网络的方式快速高效地获得第一低频子带信号特征,不仅可以获得准确的第一频子带信号特征,还可以实现数据压缩。
在步骤1022中,通过以下方式执行第二层次的特征提取处理:基于高频子带信号进行第二特征提取处理,得到第一高频子带信号特征。
作为示例,可以基于频带扩展方式实现第二特征提取处理,得到高频子带信号对应的第一高频子带信号特征。其中,第一高频子带信号特征的维度小于高频子带信号的维度。
参见图7E,图7E是本申请实施例提供的频带扩展的示意图。如图7E所示,首先,在低采样频率下对原始超宽带信号实现一个核心层的编码,得到重建的宽带信号;其次,将重建的宽带信号的低频部分的频谱复制到超宽带的高频部分;最后,根据提前记录的边界信息(如,描述高频与低频的能量相关性的信息),对复制的高频频谱进行增益控制。一般地,仅需1-2kbps的码率,即可实现采样率翻倍的效果。
参见图5C,图5C是本申请实施例提供的音频编码方法的一个流程示意图。基于图5B,图5C中的步骤1022可以通过步骤10221-步骤10224实现。下面将结合图5C示出的步骤10221-步骤10224进行说明。
在步骤10221中,基于第一数量的样本点分别进行频域变换处理,得到第一数量的变换系数。
作为示例,在基于高频子带信号进行第二特征提取处理时,首先确定高频子带信号包括的样本点的数量,例如,高频子带信号包括320个样本点,那么第一数量为320。接着,基于高频子带信号的320个样本点进行频域变换处理,得到320个变换系数。
这里,频域变换处理包括离散余弦变换(Discrete Cosine Transform,DCT)处理、改进离散余弦变换(Modified Discrete Cosine Transform,MDCT)处理、快速傅立叶变换(Fast Fourier Transform,FFT)处理。
在一些实施例中,基于第一数量的样本点分别进行频域变换处理,得到第一数量的变换系数,可以通过以下方式实现:获取参考帧音频信号对应的参考帧高频子带信号;基于参考帧高频子带信号中第一数量的样本点与高频子带信号中第一数量的样本点,对高频子带信号包括的第一数量的样本点分别进行离散余弦变换处理,得到高频子带信号包括的第一数量的样本点分别对应的变换系数。
作为示例,首先,获取当前帧音频信号的下一帧音频信号或上一帧音频信号,并将获取到的音频信号作为参考帧音频信号;接着,对参考帧音频信号进行分解处理,得到参考帧高频子带信号,参考帧高频子带信号的获取方式,与当前帧高频子带信号的获取方式类似,在此不再赘述。其中,参考帧高频子带信号也包括第一数量的样本点,即320个样本点。
在得到参考帧高频子带信号的320个样本点之后,将参考帧高频子带信号的320个样本点与当前帧高频子带信号的320样本点进行合并,得到640个样本点。
基于这640个样本点进行MDCT处理,对于50%的时域交叠窗,可以计算得到当前帧高频子带信号对应的320个样本点分别对应的MDCT变换系数。
通过基于MDCT处理的方式来确定当前帧高频子带信号对应的320个MDCT变换系数,可以准确提取高频子带信号的关键信息。
在步骤10222中,将第一数量的变换系数划分为多个第一子带。
作为示例,在得到320个变换系数之后,将这320个变换系数划分为多个第一子带,例如,可以划分为8个第一子带,这里的第一子带中包括一组相邻的样本点对应的变换系数。
这里,可以均匀划分第一子带,使得每个第一子带包括的变换系数的数量相同,如在均匀划分为8个第一子带的情况下,每个第一子带包括320/8即40个变换系数;也可以非均匀划分第一子带,如偏低频的第一子带包含的变换系数的数量更少(即,频率分辨率更高)、偏高频的第一子带包含的变换系数的数量更多(即,频率分辨率更低)。
在一些实施例中,根据奈奎斯特Nyquist采样定律(即,如果要从抽样信号中无失真地恢复原信号,则抽样频率应大于2倍原信号最高频率,在抽样频率小于2倍原信号最高频率时,信号的频谱存在混叠,在抽样频率大于2倍原信号最高频率时,信号的频谱不存在混叠),由于当前帧高频子带信号对应的320个变换系数,对应8-16kHz的频谱,然而一般的超宽带语音通信不一定需要频谱到16kHz。因此,如果将最大频谱设置为14kHz,则只需要考虑前240个变换系数;对应地,如果均匀划分第一子带,可以得到6个第一子带。
在步骤10223中,针对每个第一子带执行以下处理:基于第一子带中第二数量的变换系数进行求均值处理,得到第一子带对应的第一平均能量,并将第一平均能量确定为第一子带对应的第一子带谱包络。
作为示例,以对320个变换系数进行均匀划分得到8个第一子带为例进行说明,在这种情况下,每个第一子带包括的变换系数的数量,即第二数量为40。
针对8个第一子带中的每个第一子带,基于第一子带中的40个变换系数进行求均值处理,得到第一子带对应的第一平均能量,并将第一平均能量作为该第一子带对应的第一子带谱包络。
作为示例,可以计算第一子带包括的40个变换系数的平方和,并将得到的平方和与40的比值,确定为第一平均能量,从而得到第一子带谱包络。
通过这种方式,可以获得8个第一子带分别对应的第一子带谱包络。
在步骤10224中,将多个第一子带分别对应的第一子带谱包络确定为第一高频子带信号特征。
作为示例,在得到8个第一子带分别对应的第一子带谱包络之后,将8个第一子带分别对应的第一子带谱包络确定为第一高频子带信号特征FHB(n)。
通过上述方式,可以将维度为320的高频子带信号,转换为8维的第一高频子带信号特征FHB(n),从而只需要少量的数据,即可表示高频子带信号,有利于提升编码效率。
作为示例,还可以基于低频子带信号进行第一层次的特征提取处理,基于高频子带信号进行第二层次的特征提取处理,基于低频子带信号和高频子带信号进行第三层次的特征提取处理。参见图7C,图7C是本申请实施例提供的进行三个层次的编码解码的示意图。
在编码端,对低频子带信号进行第一层次的分析,得到第一低频子带信号特征FLB(n);对高频子带信号进行第二层次的分析,得到第一高频子带信号特征FHB(n);基于低频子带信号以及第一低频子带信号特征进行第三层次的低频分析,得到第二低频子带信号特征FLB,e(n),基于高频子带信号进行第三层次的高频分析,得到第二高频子带信号特征FHB,e(n)。接着,对FLB(n)、FHB(n)、FLB,e(n)以及FHB,e(n)分别进行量化编码处理,分别得到第一层次对应的码流、第二层次对应的码流以及第三层次对应的码流,并将三个层次对应的码流传输至解码端。
在解码端,首先,对接收到的三个层次的码流进行解码处理,分别得到第一层次对应的码流解码结果、第二层次对应的码流解码结果以及第三层次对应的码流解码结果;接着,对第一层次对应的码流解码结果进行第一层次的合成处理,得到第一层次的合成结果x′LB(n),对第三层次对应的低频部分的码流解码结果进行第三层次的低频合成处理,得到第三层次的低频合成结果x′LB,e(n),并对x′LB(n)与x′LB,e(n)进行求和处理,得到低频部分的求和结果;基于第二层次对应的码流解码结果、以及第三层次对应的高频部分的码流解码结果进行第三层次的高频合成处理,得到高频合成结果x′HB(n);最后,调用合成滤波器对低频部分的求和结果和x′HB(n)进行上采样处理,并将得到的两个上采样结果进行合并,从而得到原始音频信号的估计值x′(n)。
下面将结合附图说明基于低频子带信号以及高频子带信号进行三个层次的特征提取处理的方式。
参见图5D,图5D是本申请实施例提供的音频编码方法的一个流程示意图。图5A中的步骤102可以通过步骤1023-步骤1024实现。下面将结合图5D示出的步骤1023-步骤1024进行说明。
在步骤1023中,通过以下方式执行第三层次的特征提取处理:基于低频子带信号以及第一低频子带信号特征进行第三特征提取处理,得到第二低频子带信号特征。
作为示例,在多个层次还包括第三层次的情况下,第一层次和第二层次的特征提取处理过程与上述步骤1021-步骤1022相同,在此不再赘述。
下面,以第三特征提取处理通过神经网络实现为例,对第三特征提取处理进行说明。
参见图5D,图5D中的步骤1023可以通过步骤10231-步骤10235实现。下面将结合图5D示出的步骤10231-步骤10235进行说明。
在步骤10231中,对低频子带信号以及第一低频子带信号特征进行拼接处理,得到拼接特征。
参见图8C,图8C是本申请实施例提供的用于进行第三特征提取处理的神经网络的结构示意图。
如图8C所示,首先对低频子带信号xLB(n)(维度为320)以及第一低频子带信号特征FLB(n)(维度为64)进行拼接处理,得到一个384维的拼接特征。
在步骤10232中,对拼接特征进行第三卷积处理,得到第三卷积特征。
作为示例,在得到拼接特征之后,基于拼接特征调用一个通道为24的卷积层(如,因果卷积层)进行第三卷积处理,得到一个24*384的第三卷积特征。
在步骤10233中,对第三卷积特征进行第二池化处理,得到第二池化特征。
作为示例,参见图8C,在得到第三卷积特征之后,基于第三卷积特征调用池化层进行第二池化处理,在池化因子为2的情况下,得到一个24*192的第二池化特征。
在步骤10234中,对第二池化特征进行第四下采样处理,得到第四下采样特征。
作为示例,参见图8C,在得到第二池化特征之后,基于第二池化特征调用级联的3个下采样层进行第四下采样处理。
其中,这3个下采样层分别对应3个不同的下采样因子。作为示例,第1个下采样层的下采样因子为4、通道为48;第2个下采样层的下采样因子为6、通道为96;第3个下采样层的下采样因子为8、通道为192。因此,经过这3个下采样层的第四下采样处理,24*192的第二池化特征依次转换成48*48、96*8、192*1的第四下采样特征。
在步骤10235中,对第四下采样特征进行第四卷积处理,得到第二低频子带信号特征。
作为示例,参见图8C,在得到192*1的第四下采样特征之后,基于192*1的第四下采样特征调用一个通道为28的卷积层(如,因果卷积层)进行第四卷积处理,得到一个28维的特征向量,即第二低频子带信号特征FLB,e(n)。
由于第二低频子带信号特征FLB,e(n)的维度为28,而第一低频子带信号特征FLB(n)的维度为64,因此,第二低频子带信号特征的维度小于第一低频子带信号特征的维度。
第三层次的第三特征提取处理的目的在于,进一步提取低频子带信号的特征。需要说明的是,第三特征提取处理得到的第二低频子带信号特征反映的是,第一低频子带信号特征在解码端的重建信号与原始的低频子带信号之间的残差,因此,第二低频子带信号特征也可以称为低频子带信号残差特征。
通过上述方式,可以借助神经网络的方式快速高效地获得第二低频子带信号特征,不仅可以获得准确的第二频子带信号特征,还可以实现数据压缩。
在步骤1024中,基于第一高频子带信号特征进行第四特征提取处理,得到第二高频子带信号特征。
作为示例,第三层次的第四特征提取处理,可以基于第二层次的第二特征提取处理过程实现。即,基于第二特征提取处理得到的第一高频子带信号特征进行第四特征提取处理,以得到第二高频子带信号特征。
参见图5E,图5E是本申请实施例提供的音频编码方法的一个流程示意图。基于图5D,图5E中的步骤1024可以通过步骤10241-步骤10243实现。下面将结合图5E示出的步骤10241-步骤10243进行说明。
在步骤10241中,从第一子带中第二数量的变换参数中,选择第三数量的变换参数,将第三数量的变换系数确定为第二子带。
作为示例,在得到第一高频子带信号特征的过程中,获得了8个第一子带,针对每个第一子带,从第一子带包括的40个变换参数中,选择第三数量的变换参数,并将选中的第三数量的变换系数确定为第二子带。其中,第三数量为第二数量的二分之一,在第二数量为40的情况下,第三数量为20。
这里,由于存在8个第一子带,并根据每个第一子带确定一个第二子带,因此,最终可以得到8个第二子带。
在步骤10242中,基于第二子带中第三数量的变换系数进行求均值处理,得到第二子带对应的第二平均能量,并将第二平均能量确定为第二子带对应的第二子带谱包络。
作为示例,在得到8个第二子带后,基于第二子带中的20个变换系数进行求均值处理,例如,可以计算第二子带包括的20个变换系数的平方和,并将得到的平方和与20的比值,确定为第二平均能量,从而得到第二子带谱包络。
通过这种方式,可以获得8个第二子带分别对应的第二子带谱包络。
在步骤10243中,将每个第二子带分别对应的第二子带谱包络确定为第二高频子带信号特征。
作为示例,在得到8个第二子带分别对应的第二子带谱包络之后,将8个第二子带分别对应的第二子带谱包络确定为第二高频子带信号特征FHB,e(n)。
由于第二特征提取处理是将320维的高频子带信号映射为8维的第一高频子带信号特征,也就是每40个样本点对应的变换系数共用一个第一子带,这种映射方式存在一定的信息损失,因此,在第四特征提取处理过程中,针对每个第一子带进一步传递高频子带信号的谱包络,即配置为每20个样本点对应的变换系数共用一个第二子带,这样可以每隔20个样本点对应的变换系数进行一次频谱能量调整,从而使得得到的第二高频子带信号特征具有更高的分辨率,能够更为精确地反映高频子带信号的特征。
在步骤103中,对每个层次对应的子带信号特征进行量化处理,得到子带信号特征的索引值。
作为示例,在得到每个层次对应的子带信号特征之后,对每个层次对应的子带信号特征进行量化处理,得到每个层次对应的子带信号特征的索引值。
这里,量化处理用于在幅度轴上将子带信号特征数字化,通常包括矢量量化处理或标量量化处理。
其中,矢量量化处理的原理为,将多个标量数据组成一个矢量,将矢量空间作为一个完整的区域,划分为多个子区域,在每个子区域确定一个代表矢量,如果子带信号特征在进行量化时落入某个子区域,则使用该子区域对应的代表矢量代替该子带信号特征,即,将该子带信号特征量化为该代表矢量。
标量量化处理的原理为,将整个动态范围作为一个区间,划分为多个子区间,每个子区间确定一个代表值,如果子带信号特征量化时落入某个子区间,则使用该子区间对应的代表值代替该子带信号特征,即,将该子带信号特征量化为该代表值。
作为示例,为了提高量化效率,针对每个层次对应的子带信号特征,可以通过查询设定的量化表的方式完成量化过程。
在步骤104中,对子带信号特征的索引值进行编码处理,得到层次对应的码流。
作为示例,在得到每个层次对应的子带信号特征的索引值之后,对子带信号特征的索引值进行编码处理,例如进行熵编码处理,从而得到每个层次对应的码流。
参见图5F,图5F是本申请实施例提供的音频编码方法的一个流程示意图。基于图5A,图5F中的步骤104可以通过步骤1041-步骤1044实现。下面将结合图5F示出的步骤1041-步骤1044进行说明。
在步骤1041中,对第一低频信号特征的索引值进行编码处理,得到第一层次对应的第一码流。
作为示例,如果进行了第一层次和第二层次的特征提取处理,且第一层次对应的子带信号特征为第一低频子带信号特征,那么,对第一低频信号特征的索引值进行编码处理,可以得到第一层次对应的第一码流。
作为示例,在第一层次中,假设每帧音频信号量化一个参数的平均码率为2.5bit,由于一帧的时长为20ms,相当于0.125bit/ms,进行单位换算后是125bit/s,由于第一低频子带信号特征为一个64维的特征,相当于包含64个参数,因此,对这64个参数进行编码的平均码率为64*125bit/s,即8000bit/s,也就是8kbps。所以,第一码流对应的第一码率为8kbps。
在步骤1042中,对第一高频信号特征的索引值进行编码处理,得到第二层次对应的第二码流。
作为示例,由于第二层次对应的子带信号特征为第一高频子带信号特征,那么,对第一高频信号特征的索引值进行编码处理,可以得到第二层次对应的第二码流。
作为示例,在第二层次中,假设每帧音频信号量化一个参数的平均码率为5bit,由于第一高频子带信号特征为一个8维的特征,相当于包含8个参数,因此,对这8个参数进行编码的平均码率为2kbps。所以,第二码流对应的第二码率为2kbps。
因此,第一码流的码率大于第二码流对应的码率,由于码率与对应的码流的解码质量指标正相关,因此,第一层次对应的第一码流的解码质量指标更高,第二层次对应的第二码流的解码质量指标相对来说较低。
在步骤1043中,对第二低频信号特征的索引值进行编码处理,得到第三层次对应的第三码流。
作为示例,如果还进行了第三层次的特征提取处理,由于第三层次对应的子带信号特征包括第二低频子带信号特征,那么,对第二低频信号特征的索引值进行编码处理,得到第三层次对应的第三码流。
作为示例,在第三层次中,假设每帧音频信号量化一个低频子带信号特征参数的平均码率为2.5bit,由于第二高频子带信号特征为一个28维的特征,相当于包含28个参数,因此,对这28个参数进行编码的平均码率为3.5kbps。所以,第三码流对应的第三码率为3.5kbps。
在步骤1044中,对第二高频信号特征的索引值进行编码处理,得到第三层次对应的第四码流。
作为示例,由于第三层次对应的子带信号特征还包括第二高频子带信号特征,那么,对第二高频信号特征的索引值进行编码处理,得到第三层次对应的第四码流。
作为示例,在第三层次中,假设每帧音频信号量化一个高频子带信号特征参数的平均码率为5bit,由于第二高频子带信号特征为一个8维的特征,相当于包含8个参数,因此,对这8个参数进行编码的平均码率为2kbps。所以,第四码流对应的第四码率为2kbps。
因此,第一码流的第一码率(即,8kbps)大于第三码流的第三码率(即,3.5kbps),第三码流的第三码率(即,3.5kbps)大于第二码流的第二码率(即,2kbps),第二码流的第二码率(即,2kbps)等于第四码流的第四码率(即,2kbps)。
由于码率与对应的码流的解码质量指标正相关,因此,第一层次对应的第一码流的解码质量指标更高,第三层次对应的第三码流的解码质量指标次之,而第二层次对应的第二码流以及第三层次对应的第四码流的解码质量指标相对来说较低。
通过上述分层进行编码的方式,可以采用不同的码率渐进编码不同层次对应的特征,由于每个层次仅需编码部分子带信号特征,可以提高编码效率,降低编码复杂度,并提供了根据不同的子带信号特征选择不同的编码方式的灵活度。
在步骤105中,对多个层次分别对应的码流配置对应的传输优先级。
作为示例,在得到每个层次对应的码流之后,为不同层次的码流分别配置对应的传输优先级。其中,传输优先级与层次对应的码流的解码质量指标正相关,即,码流的解码质量指标更高,则对应的传输优先级也更高,在带宽有限的情况下,能够被优先传输。
作为示例,传输优先级可以通过前向纠错(Forward Error Correction,FEC)机制进行配置,FEC机制通过冗余传输提升传输数据的稳定性和质量。这里,传输优先级较高的码流可以配置更大的FEC冗余倍数,传输优先级较低的码流可以配置更小的FEC冗余倍数。
参见图5G,图5G是本申请实施例提供的音频编码方法的一个流程示意图。基于图5A,图5G中的步骤105可以通过步骤1051-步骤1054实现。下面将结合图5G示出的步骤1051-步骤1054进行说明。
在步骤1051中,对第一层次对应的第一码流配置第一传输优先级。
作为示例,如果进行了第一层次和第二层次的编码处理,且第一层次对应的第一码流是对第一低频信号特征的索引值进行编码处理得到的。那么,对第一层次对应的第一码流配置第一传输优先级。
在步骤1052中,对第二层次对应的第二码流配置第二传输优先级。
作为示例,如果进行了第二层次的编码处理,且第二层次对应的第二码流是对第一高频信号特征的索引值进行编码处理得到的,那么,对第二层次对应的第二码流配置第二传输优先级。
由于第一码流对应的第一码率大于第二码流对应的第二码率,且码率与码流对应的解码质量指标正相关,那么,为第一码流配置更高的第一传输优先级,为第二码流配置低于第一传输优先级的第二传输优先级。
在步骤1053中,对第三层次对应的第三码流配置第三传输优先级。
作为示例,如果还进行了第三层次的编码处理,且第三层次对应第三码流,第三码流是对第二低频信号特征的索引值进行编码处理得到的,那么,对第三层次对应的第三码流配置第三传输优先级。
在步骤1054中,对第三层次对应的第四码流配置第四传输优先级。
作为示例,第三层次还对应第四码流,第四码流是对第二高频信号特征的索引值进行编码处理得到的。那么,对第三层次对应的第四码流配置第四传输优先级。
由于第一码流的第一码率大于第三码流的第三码率,第三码流的第三码率大于第二码流的第二码率,第二码流的第二码率等于第四码流的第四码率,且码率与码流对应的解码质量指标正相关。因此,对应地,第一传输优先级高于第三传输优先级,第三传输优先级高于第二传输优先级,第二传输优先级与第四传输优先级相同。
通过针对不同层次对应的码流配置对应的传输优先级,可以保证在带宽有限的情况下,较为重要的码流能够被优先传输,从而提高了数据传输的灵活性。
在本申请实施例中,通过分层获取音频子带信号在每个层次的子带信号特征,并分层次对每个层次对应的子带信号特征进行编码,这样,每个层次仅需编码特定的子带信号特征,而不需要编码整个音频信号的特征,不仅能够提高编解码的效率,也降低了每个层次的编解码复杂度;根据不同层次的码流对解码质量的重要程度,灵活地为不同层次的码流配置不同的传输优先级,保证较为重要的码流优先传输,能够适用于不同网络带宽的应用场景。
下面将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的音频解码方法。可以理解地,下述的方法可以由上文所述的终端或服务器单独执行或协同执行。
参见图6A,图6A是本申请实施例提供的音频解码方法的流程示意图,将结合图6A示出的步骤进行说明。
在步骤201中,对多个层次分别对应的码流进行解码处理,得到每个层次分别对应的码流的索引值。
作为示例,在解码端接收到多个层次分别对应的码流之后,对多个层次分别对应的码流进行解码处理,从而得到每个层次对应的码流的索引值。
这里,如果解码端收到了一个层次对应的码流,则解码得到一个层次对应的码流的索引值。如果解码端收到了多个层次对应的码流,则解码得到多个层次分别对应的码流的索引值。
其中,不同的层次对应不同的传输优先级,且传输优先级与层次对应的码流的解码质量指标正相关。
在步骤202中,对每个层次分别对应的码流的索引值进行逆量化处理,得到每个层次分别对应的子带信号特征。
作为示例,在得到每个层次对应的码流的索引值之后,可以通过查询量化表得到码流的索引值所对应的子带信号特征,从而实现逆量化处理。
作为示例,如果得到了第一层次至第三层次每个层次对应的码流的索引值,那么经过逆量化处理,得到第一层次对应的第一低频子带信号特征F′LB(n)、第二层次对应的第一高频子带信号特征F′HB(n)、第三层次对应的第二低频子带信号特征F′LB,e(n)、第三层次对应的第二高频子带信号特征F′HB,e(n)。
在步骤203中,对每个层次分别对应的子带信号特征进行特征重建处理,得到每个层次分别对应的子带信号。
作为示例,在得到每个层次分别对应的子带信号特征之后,对每个层次分别对应的子带信号特征进行特征重建处理,从而得到每个层次分别对应的子带信号。
作为示例,如果编码端仅进行了一个层次的特征提取处理,最终编码得到了一个层次对应的码流。那么,在解码端接收到该一个层次对应的码流之后,对该一个层次对应的码流进行解码处理,得到对应的码流的索引值。接着,对该码流的索引值进行逆量化处理,得到该一个层次对应的子带信号特征。再基于该子带信号特征进行特征重建处理,得到对应的子带信号。
作为示例,参见图7A,如果编码端仅进行了第一层次的特征提取处理,最终得到了第一层次对应的第一码流。而解码端基于第一码流进行处理,得到第一层次对应的第一低频子带信号特征。之后,基于第一低频子带信号特征进行特征重建处理,得到第一低频子带信号。
对应地,如果编码端仅进行了第二层次的特征提取处理,则对应的处理流程与上述方式类似,在此不再赘述。
参见图6B,图6B是本申请实施例提供的音频解码方法的一个流程示意图。基于图6A,图6B中的步骤203可以通过步骤2031-步骤2032实现。下面将结合图6B示出的步骤2031-步骤2032进行说明。
在步骤2031中,通过以下方式执行第一层次的特征重建处理:基于第一低频子带信号特征进行第一特征重建处理,得到第一低频子带信号。
作为示例,如果得到第一层次和第二层次对应的子带信号特征,且第一层次对应第一低频子带信号特征,那么,基于第一低频子带信号特征进行第一特征重建处理,得到第一低频子带信号x′LB(n)。其中,第一低频子带信号的维度大于第一低频子带信号特征的维度。
参见图6B,步骤2031可以通过步骤20311-步骤20314实现。下面将结合体图6B对步骤20311-步骤20314进行说明。
在步骤20311中,对第一低频子带信号特征进行第一卷积处理,得到第一卷积特征。
参见图8D,图8D是本申请实施例提供的用于进行第一特征重建处理的神经网络的结构示意图。
如图8D所示,首先,基于第一低频子带信号特征调用一个通道为192的卷积层(如,因果卷积层)进行第一卷积处理,得到一个192*1的第一卷积特征。
在步骤20312中,对第一卷积特征进行第一上采样处理,得到第一上采样特征。
作为示例,参见图8D,在得到第一卷积特征之后,基于第一卷积特征调用级联的3个上采样层进行第一上采样处理。
其中,这3个上采样层分别对应3个不同的上采样因子。作为示例,第1个上采样层的上采样因子为8、通道为96;第2个上采样层的上采样因子为5、通道为48;第3个上采样层的上采样因子为4、通道为24。因此,经过这3个上采样层的第一上采样处理,192*1的第一卷积特征依次转换成96*8、48*40、24*160的第一上采样特征。
在步骤20313中,对第一上采样特征进行第一池化处理,得到第一池化特征。
作为示例,在得到第一上采样特征之后,基于第一上采样特征调用池化层进行第一池化处理,在池化因子为2的情况下,得到24*320的第一池化特征。
在步骤20314中,对第一池化特征进行第二卷积处理,得到第一低频子带信号。
作为示例,在得到第一池化特征之后,基于第一池化特征调用通道为1的卷积层(如,因果卷积层)进行第二卷积处理,得到1*320的第一低频子带信号。需要说明的是,这里的第一低频子带信号为编码端的低频子带信号的估计值。
通过上述方式,可以借助神经网络的方式快速高效地获得第一低频子带信号。
在步骤2032中,通过以下方式执行第二层次的特征重建处理:基于第一高频子带信号特征进行第二特征重建处理,得到第一高频子带信号。
作为示例,如果得到第一层次和第二层次对应的子带信号特征,且第二层次对应第一高频子带信号特征。那么,基于第一高频子带信号特征进行第二特征重建处理,得到第一高频子带信号x′HB(n)。其中,第一高频子带信号的维度大于第一高频子带信号特征的维度。
参见图6C,图6C是本申请实施例提供的音频解码方法的一个流程示意图。基于图6B,图6C中的步骤2032可以通过步骤20321-步骤20324实现。下面将结合图6C示出的步骤20321-步骤20324进行说明。
在步骤20321中,基于第一低频子带信号包括的第一数量的样本点分别进行频域变换处理,得到第一数量的低频变换系数。
作为示例,在基于第一高频子带信号特征进行第二特征重建处理时,首先获得基于第一特征重建处理得到第一低频子带信号,接着,基于第一低频子带信号包括的第一数量(如,320)的样本点分别进行频域变换处理,得到320个低频变换系数。这里,频域变换处理可以为FFT、DCT、MDCT等。
在步骤20322中,基于第一数量的低频变换系数中的后半部分的低频变换系数,进行两次频谱复制处理,得到第一高频参考子带信号包括的第一数量的参考变换系数。
作为示例,在得到320个低频变换系数之后,从这320个低频变换系数中,选择后半部分的低频变换系数,即后160个低频变换系数,对选中的后160低频变换系数进行两次频谱复制处理,得到新的320个低频变换系数,并将新的320个低频变换系数作为第一参考高频子带信号包括的320个参考变换系数。
其中,后半部分的低频变换系数所对应的样本点的频率,高于前半部分的低频变换系数所对应的样本点的频率
需要说明的是,音频信号具有如下特点:低频部分的频谱的谐波相对较多,高频部分的频谱的谐波相对较少。因此,为了避免简单复制造成生成的频谱包含过多谐波,这里复制的是频率较高的样本点对应的低频变换系数的频谱,即频率较高的后160个样本点对应的低频变换系数的频谱。
在步骤20323中,基于第一高频子带信号特征对应的多个第一子带谱包络,对第一高频参考子带信号包括的第一数量的参考变换系数进行第一增益控制,得到第一数量的第一增益参考变换系数。
作为示例,在得到第一高频参考子带信号对应的320个参考变换系数之后,基于第一高频子带信号特征对应的8个第一子带谱包络,对第一高频参考子带信号包括的320个参考变换系数进行第一增益控制,从而得到320个第一增益参考变换系数。
参见图6D,图6D是本申请实施例提供的音频解码方法的一个流程示意图。基于图6C,图6D中的步骤20323可以通过步骤203231-步骤203236实现。下面将结合图6D示出的步骤203231-步骤203236进行说明。
在步骤203231中,将第一数量的参考变换系数划分为多个第一参考子带。
作为示例,在进行第一增益控制时,首先将320个参考变换系数划分为与第一子带谱包络的数量相同的多个第一参考子带,即,在第一子带谱包络的数量为8的情况下,这里划分得到8个第一参考子带,每个第一参考子带包括40个参考变换系数。
在步骤203232中,生成多个不同的第一组合,每个第一组合包括一个第一参考子带和一个第一子带谱包络,并针对每个第一组合,执行以下处理:将第一子带谱包络确定为第一平均能量。
作为示例,在得到8个第一参考子带后,针对8个第一参考子带和8个第一子带谱包络,生成8个第一组合,每个第一组合中包括一个第一参考子带和一个第一子带谱包络,不同的第一组合包括的第一参考子带和第一子带谱包络各不相同。
针对8个第一组合中的每个第一组合,首先将第一子带谱包络确定为第一平均能量。
在步骤203233中,基于第一参考子带中第二数量的参考变换系数进行求均值处理,得到第一参考子带对应的第一参考平均能量。
作为示例,这里的第二数量是第一数量与多个第一参考子带的数量的比值,在第一数量为320、第一参考子带的数量为8的情况下,第二数量为40。
基于第一参考子带包括的40个参考变换系数进行求均值处理,得到第一参考平均能量。其中,第一参考平均能量的计算方式,与上文所述的第一平均能量的计算方式类似,在此不再赘述。
在步骤203234中,确定第一平均能量与第一参考平均能量的比值,并对比值进行开平方处理,得到第一比例因子。
作为示例,在得到第一组合对应的第一平均能量以及第一参考平均能量之后,计算第一平均能量与第一参考平均能量的比值,并对该比值进行开平方处理,从而得到第一比例因子。
在步骤203235中,将第一参考子带中第二数量的参考变换系数,分别与第一比例因子进行相乘处理,得到第一参考子带中第二数量的第一增益参考变换系数。
作为示例,在得到第一比例因子之后,将第一参考子带中的40个参考变换系数均乘以该第一比例因子,从而得到40个第一增益参考变换系数。
在步骤203236中,将每个第一参考子带中第二数量的第一增益参考变换系数进行合并,得到第一数量的第一增益参考变换系数。
作为示例,由于步骤203232中得到了8个第一组合,而每个第一组合计算得到一个第一参考子带的40个第一增益参考变换系数,因此,将这8个第一组合分别对应的第一参考子带的40个第一增益参考变换系数进行合并,即可得到320个第一增益参考变换系数。
通过上述方式进行增益控制,可以使得解码端虚拟生成的参考变换系数的频谱能量,与编码端的原始变换系数的频谱能量更为接近,从而便于准确生成高频子带信号的估计值。
在步骤20324中,对第一数量的第一增益参考变换系数进行反频域变换处理,得到第一高频子带信号。
作为示例,在得到320个第一增益参考变换系数之后,对这320个第一增益参考变换系数进行反频域变换处理,即可得到第一高频子带信号。需要说明的是,这里的第一高频子带信号是编码端的高频子带信号的估计值。
由于是基于增益控制后的变换系数进行反频域变换处理,可以使得得到的第一高频子带信号与编码端的高频子带信号更为接近,从而提高了高频子带信号的解码质量。
参见图6E,图6E是本申请实施例提供的音频解码方法的一个流程示意图。基于图6A,图6E中的步骤203可以通过步骤2033-步骤2034实现。下面将结合图6E示出的步骤2033-步骤2034进行说明。
在步骤2033中,通过以下方式执行第三层次的特征重建处理:对第二低频子带信号特征进行第三特征重建处理,得到第二低频子带信号。
作为示例,如果还得到第三层次对应的子带信号特征,且第三层次对应第二低频子带信号特征,那么,基于第二低频子带信号特征进行第三特征重建处理,得到第二低频子带信号x′LB,e(n)。
参见图6E,步骤2033可以通过步骤20331-步骤20334实现。下面将结合体图6E对步骤20331-步骤20334进行说明。
在步骤20331中,对第二低频子带信号特征进行第三卷积处理,得到第三卷积特征。
参见图8E,图8E是本申请实施例提供的用于进行第三特征重建处理的神经网络的结构示意图。
如图8E所示,基于第二低频子带信号特征调用一个通道为192的卷积层(如,因果卷积层)进行第三卷积处理,得到一个192*1的第三卷积特征。
在步骤20332中,对第三卷积特征进行第二上采样处理,得到第二上采样特征。
作为示例,参见图8E,在得到第三卷积特征之后,基于第三卷积特征调用级联的3个上采样层进行第二上采样处理。
其中,这3个上采样层分别对应3个不同的上采样因子。作为示例,第1个上采样层的上采样因子为8、通道为96;第2个上采样层的上采样因子为5、通道为48;第3个上采样层的上采样因子为4、通道为24。因此,经过这3个上采样层的第二上采样处理,192*1的第一卷积特征依次转换成96*8、48*40、24*160的第二上采样特征。
在步骤20333中,对第二上采样特征进行第二池化处理,得到第二池化特征。
作为示例,在得到第二上采样特征之后,基于第二上采样特征调用池化层进行第二池化处理,在池化因子为2的情况下,得到24*320的第二池化特征。
在步骤20334中,对第二池化特征进行第四卷积处理,得到第二低频子带信号。
作为示例,参见图8E,在得到第二池化特征之后,基于第二池化特征调用通道为1的卷积层(如,因果卷积层)进行第四卷积处理,得到1*320的第二低频子带信号。需要说明的是,这里的第二低频子带信号为第一低频子带信号的残差信号。
通过上述方式,可以借助神经网络的方式快速高效地获得第二低频子带信号。
在步骤2034中,基于第一高频子带信号特征、以及第二高频子带信号特征进行第四特征重建处理,得到第二高频子带信号。
作为示例,如果还得到第三层次对应的子带信号特征,且第三层次对应第二高频子带信号特征,那么,基于第一高频子带信号特征、以及第二高频子带信号特征进行第四特征重建处理,得到第二高频子带信号。
参见图6F,图6F是本申请实施例提供的音频解码方法的一个流程示意图。基于图6E,图6F中的步骤2034可以通过步骤20341-步骤20344实现。下面将结合图6F示出的步骤20341-步骤20344进行说明。
在步骤20341中,确定第一高频子带信号特征对应的多个第一子带,并确定第二高频子带信号特征对应的多个第二子带。
作为示例,由于在编码过程中,第一高频子带信号特征是基于多个第一子带确定出的,第二高频子带信号特征是基于多个第二子带确定出的,因此,在进行第四特征重建处理时,首先确定第一高频子带信号特征对应的多个第一子带,并确定第二高频子带信号特征对应的多个第二子带。其中,多个第一子带的数量与多个第二子带的数量相同。例如,这里的第一子带和第二子带的数量均为8。
在步骤20342中,基于多个第一子带分别对应的第一子带谱包络以及多个第二子带分别对应的第二子带谱包络,确定多个第三子带分别对应的第三子带谱包络。
作为示例,在得到8个第一子带和8个第二子带之后,基于第一子带对应的第一子带谱包络以及第二子带对应的第二子带谱包络,确定出8个第三子带分别对应的第三子带谱包络。其中,第三子带的数量与第二子带的数量相同,同时也与第一子带的数量相同,例如,均为8。
在一些实施例中,通过以下方式确定多个第三子带分别对应的第三子带谱包络:生成多个不同的第二组合,每个第二组合包括一个第一子带和第一子带对应的第二子带,并针对每个第二组合,执行以下处理:将第一子带对应的第一子带谱包络确定为第一平均能量,并将第二子带对应的第二子带谱包络确定为第二平均能量;对第一平均能量与第二数量进行相乘处理,得到第一相乘结果;对第二平均能量与第三数量进行相乘处理,得到第二相乘结果;对第一相乘结果与第二相乘结果进行相减处理,将得到的相减结果与第三数量的比值,确定为第三子带对应的第三平均能量,并将第三平均能量确定为第三子带对应的第三子带谱包络。
作为示例,首先,生成8个第二组合,每个第二组合中包括一个第一子带和第一子带对应第二子带,不同的第二组合包括的第一子带和第二子带各不相同。
其次,针对8个第二组合中的每个第二组合,将第一子带对应的第一子带谱包络作为第一平均能量,对第一平均能量与第一子带包括的第二数量的高频变换系数的数量(如,40)进行相乘处理,得到第一相乘结果。
对应地,将第二子带对应的第二子带谱包络作为第二平均能量,对第二平均能量与第二子带包括的第三数量的高频变换系数的数量(如,20)进行相乘处理,得到第二相乘结果。其中,第三数量为第二子带包括的高频变换系数的数量,且第三数量为第二数量的二分之一。
最后,对第一相乘结果与第二相乘结果进行相减处理,将得到的相减结果与第三数量的比值,确定为第三子带对应的第三平均能量,并将第三平均能量确定为第三子带对应的第三子带谱包络。其中,第一子带包括的第二数量的高频变换系数是以下两者的并集:第二子带包括的高频变换系数,第三子带包括的高频变换系数。即,第一子带包括的40个高频变换系数,是第二子带包括的20个高频变换系数和第三子带包括的20个高频变换系数的并集。
作为示例,第三平均能量的计算公式如下:
Figure BDA0003696552480000151
其中,F′HB(n)表示每个第二组合中的第一子带对应的第一平均能量,F′HB,e(n)表示每个第二组合中的第二子带对应的第二平均能量。
作为示例,由于得到了8个第二组合,而每个第二组合计算得到一个第三子带谱包络,因此,基于这8个第二组合可以得到8个第三子带谱包络。
通过上述方式可以准确获得多个第三子带谱包络。
在步骤20343中,将多个第二子带谱包络和多个第三子带谱包络确定为第四子带谱包络。
作为示例,在得到8个第三子带谱包络之后,将8个第二子带谱包络与8个第三子带谱包络,均确定为第四子带谱包络,即,得到16个第四子带谱包络。
在步骤20344中,基于多个第四子带谱包络,对第一参考高频子带信号包括的第一数量的参考变换系数进行第二增益控制,得到第一数量的第二增益参考变换系数。
作为示例,在得到16个第四子带谱包络之后,基于这16个第四子带谱包络,对第一高频参考子带信号包括的320个参考变换系数进行第二增益控制,从而得到320个第二增益参考变换系数。
参见图6G,图6G是本申请实施例提供的音频解码方法的一个流程示意图。基于图6F,图6G中的步骤20344可以通过步骤203441-步骤203446实现。下面将结合图6G示出的步骤203441-步骤203446进行说明。
在步骤203441中,将第一数量的参考变换系数划分为多个第二参考子带。
作为示例,在进行第二增益控制时,首先将320个参考变换系数划分为与第四子带谱包络的数量相同的第二参考子带,即,划分为16个第二参考子带,每个第二参考子带包括20个参考变换系数。
在步骤203442中,生成多个不同的第三组合,每个第三组合包括一个第二参考子带和一个第四子带谱包络,并针对每个第三组合,执行以下处理:将第四子带谱包络确定为第四平均能量。
作为示例,在得到16个第二参考子带后,针对16个第二参考子带和16个第四子带谱包络,生成16个第三组合,每个第三组合中包括一个第二参考子带和一个第四子带谱包络,不同的第三组合包括的第二参考子带和第四子带谱包络各不相同。
针对16个第三组合中的每个第三组合,首先将第四子带谱包络确定为第四平均能量。
在步骤203443中,基于第二参考子带中第三数量的参考变换系数进行求均值处理,得到第二参考子带对应的第二参考平均能量。
作为示例,这里的第三数量是第一数量与多个第二参考子带的数量的比值,在第一数量为320、第二参考子带的数量为16的情况下,第三数量为20。
基于第二参考子带包括的20个参考变换系数进行求均值处理,得到第二参考平均能量。其中,第二参考平均能量的计算方式,与上文所述的第二平均能量的计算方式类似,在此不再赘述。
在步骤203444中,确定第四平均能量与第二参考平均能量的比值,并对比值进行开平方处理,得到第二比例因子。
作为示例,在得到第三组合对应的第四平均能量以及第二参考平均能量之后,计算第四平均能量与第二参考平均能量的比值,并对该比值进行开平方处理,从而得到第二比例因子。
在步骤203445中,将第二参考子带中第三数量的参考变换系数,分别与第二比例因子进行相乘处理,得到第二参考子带中第三数量的第二增益参考变换系数。
作为示例,在得到第二比例因子之后,将第二参考子带中的20个参考变换系数均乘以该第二比例因子,从而得到20个第二增益参考变换系数。
在步骤203446中,将每个第二参考子带中第三数量的第二增益参考变换系数进行合并,得到第一数量的第二增益参考变换系数。
作为示例,由于步骤203442中得到了16个第三组合,而每个第三组合计算得到一个第二参考子带的20个第二增益参考变换系数,因此,将这16个第三组合分别对应的第二参考子带的20个第二增益参考变换系数进行合并,即可得到320个第二增益参考变换系数。
通过上述方式进行增益控制,可以使得解码端虚拟生成的参考变换系数的频谱能量,与编码端的原始变换系数的频谱能量更为接近,从而便于准确生成高频子带信号的估计值。
在步骤20345中,对第一数量的第二增益参考变换系数进行反频域变换处理,得到第二高频子带信号。
作为示例,在得到320个第二增益参考变换系数之后,对这320个第二增益参考变换系数进行反频域变换处理,即可得到第二高频子带信号。需要说明的是,这里的第二高频子带信号是编码端的高频子带信号的估计值。
由于是基于增益控制后的变换系数进行反频域变换处理,可以使得得到的第二高频子带信号与编码端的高频子带信号更为接近,从而提高了高频子带信号的解码质量。
在步骤204中,将多个层次分别对应的子带信号合成为音频信号。
作为示例,在得到多个层次分别对应的子带信号之后,将多个层次分别对应的子带信号合成为音频信号。作为示例,可以通过调用QMF合成滤波器实现合成处理。
作为示例,可以基于QMF分析滤波器对应的HLow(z)和HHigh(z),描述QMF合成滤波器组,计算公式如下:
GLow(z)=HLow(z) 公式3
GHigh(z)=(-1)*HHigh(z) 公式4
其中,GLow(z)表示QMF合成滤波器的低通信号的频谱响应,HLow(z)表示QMF分析滤波器的低通信号的频谱响应,GHigh(z)表示QMF合成滤波器的高通信号的频谱响应,HHigh(z)表示QMF分析滤波器的高通信号的频谱响应。
解码端恢复的采样率为Fs/2的低通信号(即,低频子带信号)和高通信号(即,高频子带信号),经过QMF合成滤波器组处理之后,可以恢复与原始音频信号的采样率Fs相同的重建信号。
在一些实施例中,在得到第一层次和第二层次分别对应的子带信号之后,通过以下方式将这两个层次分别对应的子带信号合成为音频信号:对第二采样频率的第一低频子带信号进行第三上采样处理,得到第一采样频率的第三上采样结果;对第二采样频率的第一高频子带信号进行第四上采样处理,得到第一采样频率的第四上采样结果;对第三上采样结果与第四上采样结果进行合成处理,得到音频信号。
作为示例,第一层次对应第一低频子带信号,通过QMF合成滤波器对第二采样率(如,16000Hz)的第一低频子带信号进行第三上采样处理,得到第一采样频率(如,32000Hz)的第三上采样结果。其中,第二采样频率为第一采样频率的二分之一。
对应地,第二层次对应第一高频子带信号,通过QMF合成滤波器对第二采样率(如,16000Hz)的第一高频子带信号进行第四上采样处理,得到第一采样频率(如,32000Hz)的第四上采样结果。
之后,对第三上采样结果与第四上采样结果进行合成处理,从而得到音频信号,需要说明的是,这里的音频信号为编码端的原始音频信号的估计值。
通过上述方式,可以得到准确的音频信号。
在一些实施例中,在得到第一层次、第二层次以及第三层次分别对应的子带信号之后,通过以下方式将这三个层次分别对应的子带信号合成为音频信号:对第一低频子带信号与第二低频子带信号进行求和处理,得到第一求和结果;对第二采样频率的第一求和结果进行第五上采样处理,得到第一采样频率的第五上采样结果;对第二采样频率的第二高频子带信号进行第六上采样处理,得到第一采样频率的第六上采样结果;对第五上采样结果与第六上采样结果进行合成处理,得到音频信号。
作为示例,第三层次对应第二低频子带信号,首先,将第一层次对应的第一低频子带信号与第三层次对应的第二低频子带信号进行求和处理,得到第一求和结果,即,得到高精度的低频子带信号的估计值。其次,通过QMF合成滤波器对第二采样率(如,16000Hz)的第一求和结果进行第五上采样处理,得到第一采样频率(如,32000Hz)的第五上采样结果。
由于第三层次还对应第二高频子带信号,且第二高频子带信号比第一高频子带信号的分辨率和精度更高,因此,基于第二高频子带信号进行合成处理。例如,通过QMF合成滤波器对第二采样率(如,16000Hz)的第二高频子带信号进行第六上采样处理,得到第一采样频率(如,32000Hz)的第六上采样结果。
之后,对第五上采样结果与第六上采样结果进行合成处理,从而得到音频信号,需要说明的是,这里的音频信号为编码端的原始音频信号的估计值。
通过上述方式,可以得到准确的音频信号。
在本申请实施例中,通过分层进行解码、特征重建处理,并基于每个层次对应的子带信号进行合成处理,由于每个层次仅需处理部分子带信号,因此,可以提高解码效率,同时降低解码复杂度。
下面继续说明本申请实施例提供的音频编码装置433的实施为软件模块的示例性结构,在一些实施例中,如图4A所示,存储在存储器430的音频编码装置433中的软件模块可以包括:分解模块4331,用于对音频信号进行分解处理,得到低频子带信号和高频子带信号;特征提取模块4332,用于基于低频子带信号以及高频子带信号进行多个层次的特征提取处理,得到多个层次分别对应的子带信号特征;量化模块4333,用于对每个层次对应的子带信号特征进行量化处理,得到子带信号特征的索引值;编码模块4334,用于对子带信号特征的索引值进行编码处理,得到层次对应的码流;配置模块4335,用于对多个层次分别对应的码流配置对应的传输优先级;其中,传输优先级与层次对应的码流的解码质量指标正相关。
上述方案中,分解模块4331,用于以第一采样频率对音频信号进行采样处理,得到采样信号;其中,采样信号包括从音频信号中采样得到的多个样本点;对采样信号进行低通滤波处理,对得到的低通滤波结果进行第一下采样处理,得到第二采样频率的低频子带信号;对采样信号进行高通滤波处理,对得到的高通滤波结果进行第二下采样处理,得到第二采样频率的高频子带信号;其中,第二采样频率为第一采样频率的二分之一,低频子带信号和高频子带信号的带宽相同。
上述方案中,多个层次包括第一层次和第二层次;特征提取模块4332,用于通过以下方式执行第一层次的特征提取处理:基于低频子带信号进行第一特征提取处理,得到第一低频子带信号特征;其中,第一低频子带信号特征的维度小于低频子带信号的维度;通过以下方式执行第二层次的特征提取处理:基于高频子带信号进行第二特征提取处理,得到第一高频子带信号特征;其中,第一高频子带信号特征的维度小于高频子带信号的维度。
上述方案中,特征提取模块4332,用于对低频子带信号进行第一卷积处理,得到第一卷积特征;对第一卷积特征进行第一池化处理,得到第一池化特征;对第一池化特征进行第三下采样处理,得到第三下采样特征;其中,第三下采样处理包括多次级联的下采样;对第三下采样特征进行第二卷积处理,得到第一低频子带信号特征。
上述方案中,高频子带信号包括第一数量的样本点,第一数量为大于2的整数;特征提取模块4332,用于基于第一数量的样本点分别进行频域变换处理,得到第一数量的变换系数;将第一数量的变换系数划分为多个第一子带;针对每个第一子带执行以下处理:基于第一子带中第二数量的变换系数进行求均值处理,得到第一子带对应的第一平均能量,并将第一平均能量确定为第一子带对应的第一子带谱包络;其中,第二数量是第一数量与多个第一子带的数量的比值;将多个第一子带分别对应的第一子带谱包络确定为第一高频子带信号特征。
上述方案中,特征提取模块4332,用于获取参考帧音频信号对应的参考帧高频子带信号;其中,参考帧音频信号是音频信号的上一帧或下一帧,参考帧高频子带信号包括第一数量的样本点;基于参考帧高频子带信号中第一数量的样本点与高频子带信号中第一数量的样本点,对高频子带信号包括的第一数量的样本点分别进行离散余弦变换处理,得到高频子带信号包括的第一数量的样本点分别对应的变换系数。
上述方案中,多个层次还包括第三层次;特征提取模块4332,用于通过以下方式执行第三层次的特征提取处理:基于低频子带信号以及第一低频子带信号特征进行第三特征提取处理,得到第二低频子带信号特征;基于第一高频子带信号特征进行第四特征提取处理,得到第二高频子带信号特征。
上述方案中,特征提取模块4332,用于对低频子带信号以及第一低频子带信号特征进行拼接处理,得到拼接特征;对拼接特征进行第三卷积处理,得到第三卷积特征;对第三卷积特征进行第二池化处理,得到第二池化特征;对第二池化特征进行第四下采样处理,得到第四下采样特征;其中,第四下采样处理包括多次级联的下采样;对第四下采样特征进行第四卷积处理,得到第二低频子带信号特征;其中,第二低频子带信号特征的维度小于第一低频子带信号特征的维度。
上述方案中,特征提取模块4332,用于针对第一高频子带信号特征对应的每个第一子带执行以下处理:从第一子带中第二数量的变换参数中,选择第三数量的变换参数,将第三数量的变换系数确定为第二子带;其中,第三数量为第二数量的二分之一;基于第二子带中第三数量的变换系数进行求均值处理,得到第二子带对应的第二平均能量,并将第二平均能量确定为第二子带对应的第二子带谱包络;将每个第二子带分别对应的第二子带谱包络确定为第二高频子带信号特征。
上述方案中,多个层次包括第一层次和第二层次,且第一层次对应的子带信号特征为第一低频子带信号特征,第二层次对应的子带信号特征为第一高频子带信号特征;编码模块4334,用于对第一低频信号特征的索引值进行编码处理,得到第一层次对应的第一码流;对第一高频信号特征的索引值进行编码处理,得到第二层次对应的第二码流;其中,第一码流的码率大于第二码流对应的码率,且码率与对应的码流的解码质量指标正相关。
上述方案中,多个层次包括还包括第三层次,且第三层次对应的子带信号特征为第二低频子带信号特征和第二高频子带信号特征;编码模块4334,用于对第二低频信号特征的索引值进行编码处理,得到第三层次对应的第三码流;对第二高频信号特征的索引值进行编码处理,得到第三层次对应的第四码流;其中,第一码流的码率大于第三码流的码率,第三码流的码率大于第二码流的码率,第二码流的码率等于第四码流的码率,且码率与对应的码流的解码质量指标正相关。
上述方案中,多个层次包括第一层次和第二层次,且第一层次对应的第一码流是对第一低频信号特征的索引值进行编码处理得到的,第二层次对应的第二码流是对第一高频信号特征的索引值进行编码处理得到的;配置模块4335,用于对第一层次对应的第一码流配置第一传输优先级;对第二层次对应的第二码流配置第二传输优先级;其中,第一传输优先级高于第二传输优先级。
上述方案中,多个层次包括还包括第三层次,且第三层次对应第三码流和第四码流,第三码流是对第二低频信号特征的索引值进行编码处理得到的,第四码流是对第二高频信号特征的索引值进行编码处理得到的;配置模块4335,用于对第三层次对应的第三码流配置第三传输优先级;对第三层次对应的第四码流配置第四传输优先级;其中,第一传输优先级高于第三传输优先级,第三传输优先级高于第二传输优先级,第二传输优先级与第四传输优先级相同。
下面继续说明本申请实施例提供的音频解码装置473的实施为软件模块的示例性结构,在一些实施例中,如图4B所示,存储在存储器470的音频编码装置473中的软件模块可以包括:解码模块4731,用于对多个层次分别对应的码流进行解码处理,得到每个层次分别对应的码流的索引值;其中,不同的层次对应不同的传输优先级,且传输优先级与层次对应的码流的解码质量指标正相关;逆量化模块4732,用于对每个层次分别对应的码流的索引值进行逆量化处理,得到每个层次分别对应的子带信号特征;特征重建模块4733,用于对每个层次分别对应的子带信号特征进行特征重建处理,得到每个层次分别对应的子带信号;合成模块4734,用于将多个层次分别对应的子带信号合成为音频信号。
上述方案中,多个层次包括第一层次和第二层次,第一层次对应第一低频子带信号特征,第二层次对应第一高频子带信号特征;特征重建模块4733,用于通过以下方式执行第一层次的特征重建处理:基于第一低频子带信号特征进行第一特征重建处理,得到第一低频子带信号;其中,第一低频子带信号的维度大于第一低频子带信号特征的维度;通过以下方式执行第二层次的特征重建处理:基于第一高频子带信号特征进行第二特征重建处理,得到第一高频子带信号;其中,第一高频子带信号的维度大于第一高频子带信号特征的维度。
上述方案中,特征重建模块4733,用于对第一低频子带信号特征进行第一卷积处理,得到第一卷积特征;对第一卷积特征进行第一上采样处理,得到第一上采样特征;其中,第一上采样处理包括多次级联的上采样;对第一上采样特征进行第一池化处理,得到第一池化特征;对第一池化特征进行第二卷积处理,得到第一低频子带信号。
上述方案中,特征重建模块4733,用于基于第一低频子带信号包括的第一数量的样本点分别进行频域变换处理,得到第一数量的低频变换系数;基于第一数量的低频变换系数中的后半部分的低频变换系数,进行两次频谱复制处理,得到第一高频参考子带信号包括的第一数量的参考变换系数;其中,后半部分的低频变换系数所对应的样本点的频率,高于前半部分的低频变换系数所对应的样本点的频率;基于第一高频子带信号特征对应的多个第一子带谱包络,对第一高频参考子带信号包括的第一数量的参考变换系数进行第一增益控制,得到第一数量的第一增益参考变换系数;对第一数量的第一增益参考变换系数进行反频域变换处理,得到第一高频子带信号。
上述方案中,特征重建模块4733,用于将第一数量的参考变换系数划分为多个第一参考子带;其中,第一参考子带的数量与第一子带谱包络的数量相同;生成多个不同的第一组合,每个第一组合包括一个第一参考子带和一个第一子带谱包络,并针对每个第一组合,执行以下处理:将第一子带谱包络确定为第一平均能量;基于第一参考子带中第二数量的参考变换系数进行求均值处理,得到第一参考子带对应的第一参考平均能量;其中,第二数量是第一数量与多个第一参考子带的数量的比值;确定第一平均能量与第一参考平均能量的比值,并对比值进行开平方处理,得到第一比例因子;将第一参考子带中第二数量的参考变换系数,分别与第一比例因子进行相乘处理,得到第一参考子带中第二数量的第一增益参考变换系数;将每个第一参考子带中第二数量的第一增益参考变换系数进行合并,得到第一数量的第一增益参考变换系数。
上述方案中,多个层次还包括第三层次,第三层次对应第二低频子带信号特征和第二高频子带信号特征;特征重建模块4733,用于通过以下方式执行第三层次的特征重建处理:对第二低频子带信号特征进行第三特征重建处理,得到第二低频子带信号;基于第一高频子带信号特征、以及第二高频子带信号特征进行第四特征重建处理,得到第二高频子带信号。
上述方案中,特征重建模块4733,用于对第二低频子带信号特征进行第三卷积处理,得到第三卷积特征;对第三卷积特征进行第二上采样处理,得到第二上采样特征;其中,第二上采样处理包括多次级联的上采样;对第二上采样特征进行第二池化处理,得到第二池化特征;对第二池化特征进行第四卷积处理,得到第二低频子带信号;其中,第二低频子带信号为第一低频子带信号的残差信号。
上述方案中,特征重建模块4733,用于确定第一高频子带信号特征对应的多个第一子带,并确定第二高频子带信号特征对应的多个第二子带;其中,多个第一子带的数量与多个第二子带的数量相同;基于多个第一子带分别对应的第一子带谱包络以及多个第二子带分别对应的第二子带谱包络,确定多个第三子带分别对应的第三子带谱包络;其中,多个第三子带的数量与多个第二子带的数量相同;将多个第二子带谱包络和多个第三子带谱包络确定为第四子带谱包络;基于多个第四子带谱包络,对第一参考高频子带信号包括的第一数量的参考变换系数进行第二增益控制,得到第一数量的第二增益参考变换系数;对第一数量的第二增益参考变换系数进行反频域变换处理,得到第二高频子带信号。
上述方案中,特征重建模块4733,用于生成多个不同的第二组合,每个第二组合包括一个第一子带和第一子带对应的第二子带,并针对每个第二组合,执行以下处理:将第一子带对应的第一子带谱包络确定为第一平均能量,并将第二子带对应的第二子带谱包络确定为第二平均能量;对第一平均能量与第二数量进行相乘处理,得到第一相乘结果;其中,第二数量为第一子带包括的高频变换系数的数量;对第二平均能量与第三数量进行相乘处理,得到第二相乘结果;其中,第三数量为第二子带包括的高频变换系数的数量,且第三数量为第二数量的二分之一;对第一相乘结果与第二相乘结果进行相减处理,将得到的相减结果与第三数量的比值,确定为第三子带对应的第三平均能量,并将第三平均能量确定为第三子带对应的第三子带谱包络;其中,第一子带包括的第二数量的高频变换系数是以下两者的并集:第二子带包括的高频变换系数,第三子带包括的高频变换系数。
上述方案中,特征重建模块4733,用于将第一数量的参考变换系数划分为多个第二参考子带;其中,第二参考子带的数量与第四子带谱包络的数量相同;
生成多个不同的第三组合,每个第三组合包括一个第二参考子带和一个第四子带谱包络,并针对每个第三组合,执行以下处理:将第四子带谱包络确定为第四平均能量;基于第二参考子带中第三数量的参考变换系数进行求均值处理,得到第二参考子带对应的第二参考平均能量;其中,第三数量是第一数量与多个第二参考子带的数量的比值;确定第四平均能量与第二参考平均能量的比值,并对比值进行开平方处理,得到第二比例因子;将第二参考子带中第三数量的参考变换系数,分别与第二比例因子进行相乘处理,得到第二参考子带中第三数量的第二增益参考变换系数;将每个第二参考子带中第三数量的第二增益参考变换系数进行合并,得到第一数量的第二增益参考变换系数。
上述方案中,多个层次包括第一层次和第二层次,第一层次对应第一低频子带信号,第二层次对应第一高频子带信号;合成模块4734,用于对第二采样频率的第一低频子带信号进行第三上采样处理,得到第一采样频率的第三上采样结果;其中,第二采样频率为第一采样频率的二分之一;对第二采样频率的第一高频子带信号进行第四上采样处理,得到第一采样频率的第四上采样结果;对第三上采样结果与第四上采样结果进行合成处理,得到音频信号。
上述方案中,多个层次还包括第三层次,第三层次对应第二低频子带信号和第二高频子带信号;合成模块4734,用于对第一低频子带信号与第二低频子带信号进行求和处理,得到第一求和结果;对第二采样频率的第一求和结果进行第五上采样处理,得到第一采样频率的第五上采样结果;对第二采样频率的第二高频子带信号进行第六上采样处理,得到第一采样频率的第六上采样结果;对第五上采样结果与第六上采样结果进行合成处理,得到音频信号。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的音频编码方法以及音频解码方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的音频编码方法以及音频解码方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,在本申请实施例中,通过分层获取音频子带信号在每个层次的子带信号特征,并分层次对每个层次对应的子带信号特征进行编码,这样,每个层次仅需编码特定的子带信号特征,而不需要编码整个音频信号的特征,不仅能够提高编解码的效率,也降低了每个层次的编解码复杂度;根据不同层次的码流对解码质量的重要程度,灵活地为不同层次的码流配置不同的传输优先级,保证较为重要的码流优先传输,能够适用于不同网络带宽的应用场景。
此外,在本申请实施例中,通过分层进行解码、特征重建处理,并基于每个层次对应的子带信号进行合成处理,由于每个层次仅需处理部分子带信号,因此,可以提高解码效率,同时降低解码复杂度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (30)

1.一种音频编码方法,其特征在于,所述方法包括:
对音频信号进行分解处理,得到低频子带信号和高频子带信号;
基于所述低频子带信号以及所述高频子带信号进行多个层次的特征提取处理,得到所述多个层次分别对应的子带信号特征;
对每个所述层次对应的子带信号特征进行量化处理,得到所述子带信号特征的索引值;
对所述子带信号特征的索引值进行编码处理,得到所述层次对应的码流;
对所述多个层次分别对应的码流配置对应的传输优先级;其中,所述传输优先级与所述层次对应的码流的解码质量指标正相关。
2.根据权利要求1所述的方法,其特征在于,
所述对音频信号进行分解处理,得到低频子带信号和高频子带信号,包括:
以第一采样频率对所述音频信号进行采样处理,得到采样信号;其中,所述采样信号包括从所述音频信号中采样得到的多个样本点;
对所述采样信号进行低通滤波处理,对得到的低通滤波结果进行第一下采样处理,得到第二采样频率的所述低频子带信号;
对所述采样信号进行高通滤波处理,对得到的高通滤波结果进行第二下采样处理,得到所述第二采样频率的所述高频子带信号;
其中,所述第二采样频率为所述第一采样频率的二分之一,所述低频子带信号和所述高频子带信号的带宽相同。
3.根据权利要求1所述的方法,其特征在于,
所述多个层次包括第一层次和第二层次;
所述基于所述低频子带信号以及所述高频子带信号进行多个层次的特征提取处理,得到所述多个层次分别对应的子带信号特征,包括:
通过以下方式执行所述第一层次的特征提取处理:基于所述低频子带信号进行第一特征提取处理,得到第一低频子带信号特征;其中,所述第一低频子带信号特征的维度小于所述低频子带信号的维度;
通过以下方式执行所述第二层次的特征提取处理:基于所述高频子带信号进行第二特征提取处理,得到第一高频子带信号特征;其中,所述第一高频子带信号特征的维度小于所述高频子带信号的维度。
4.根据权利要求3所述的方法,其特征在于,
所述基于所述低频子带信号进行第一特征提取处理,得到第一低频子带信号特征,包括:
对所述低频子带信号进行第一卷积处理,得到第一卷积特征;
对所述第一卷积特征进行第一池化处理,得到第一池化特征;
对所述第一池化特征进行第三下采样处理,得到第三下采样特征;其中,所述第三下采样处理包括多次级联的下采样;
对所述第三下采样特征进行第二卷积处理,得到所述第一低频子带信号特征。
5.根据权利要求3或4所述的方法,其特征在于,
所述高频子带信号包括第一数量的样本点,所述第一数量为大于2的整数;
所述基于所述高频子带信号进行第二特征提取处理,得到第一高频子带信号特征,包括:
基于所述第一数量的样本点分别进行频域变换处理,得到所述第一数量的变换系数;
将所述第一数量的变换系数划分为多个第一子带;
针对每个所述第一子带执行以下处理:基于所述第一子带中第二数量的变换系数进行求均值处理,得到所述第一子带对应的第一平均能量,并将所述第一平均能量确定为所述第一子带对应的第一子带谱包络;其中,所述第二数量是所述第一数量与所述多个第一子带的数量的比值;
将所述多个第一子带分别对应的所述第一子带谱包络确定为所述第一高频子带信号特征。
6.根据权利要求5所述的方法,其特征在于,
所述基于所述第一数量的样本点分别进行频域变换处理,得到所述第一数量的变换系数,包括:
获取参考帧音频信号对应的参考帧高频子带信号;其中,所述参考帧音频信号是所述音频信号的上一帧或下一帧,所述参考帧高频子带信号包括所述第一数量的样本点;
基于所述参考帧高频子带信号中所述第一数量的样本点与所述高频子带信号中所述第一数量的样本点,对所述高频子带信号包括的所述第一数量的样本点分别进行离散余弦变换处理,得到所述高频子带信号包括的所述第一数量的样本点分别对应的变换系数。
7.根据权利要求5所述的方法,其特征在于,
所述多个层次还包括第三层次;
所述方法还包括:
通过以下方式执行所述第三层次的特征提取处理:基于所述低频子带信号以及所述第一低频子带信号特征进行第三特征提取处理,得到第二低频子带信号特征;
基于所述第一高频子带信号特征进行第四特征提取处理,得到第二高频子带信号特征。
8.根据权利要求7所述的方法,其特征在于,
所述基于所述低频子带信号以及所述第一低频子带信号特征进行第三特征提取处理,得到第二低频子带信号特征,包括:
对所述低频子带信号以及所述第一低频子带信号特征进行拼接处理,得到拼接特征;
对所述拼接特征进行第三卷积处理,得到第三卷积特征;
对所述第三卷积特征进行第二池化处理,得到第二池化特征;
对所述第二池化特征进行第四下采样处理,得到第四下采样特征;其中,所述第四下采样处理包括多次级联的下采样;
对所述第四下采样特征进行第四卷积处理,得到所述第二低频子带信号特征;其中,所述第二低频子带信号特征的维度小于所述第一低频子带信号特征的维度。
9.根据权利要求7所述的方法,其特征在于,
所述基于所述第一高频子带信号特征进行第四特征提取处理,得到第二高频子带信号特征,包括:
针对所述第一高频子带信号特征对应的每个所述第一子带执行以下处理:
从所述第一子带中所述第二数量的变换参数中,选择第三数量的变换参数,将所述第三数量的变换系数确定为第二子带;其中,所述第三数量为所述第二数量的二分之一;
基于所述第二子带中所述第三数量的变换系数进行求均值处理,得到所述第二子带对应的第二平均能量,并将所述第二平均能量确定为所述第二子带对应的第二子带谱包络;
将每个所述第二子带分别对应的所述第二子带谱包络确定为所述第二高频子带信号特征。
10.根据权利要求1所述的方法,其特征在于,
所述多个层次包括第一层次和第二层次,且所述第一层次对应的子带信号特征为第一低频子带信号特征,所述第二层次对应的子带信号特征为第一高频子带信号特征;
所述对所述子带信号特征的索引值进行编码处理,得到所述层次对应的码流,包括:
对所述第一低频信号特征的索引值进行编码处理,得到所述第一层次对应的所述第一码流;
对所述第一高频信号特征的索引值进行编码处理,得到所述第二层次对应的所述第二码流;
其中,所述第一码流的码率大于所述第二码流对应的码率,且所述码率与对应的码流的解码质量指标正相关。
11.根据权利要求10所述的方法,其特征在于,
所述多个层次包括还包括第三层次,且所述第三层次对应的子带信号特征为第二低频子带信号特征和第二高频子带信号特征;
所述方法还包括:
对所述第二低频信号特征的索引值进行编码处理,得到所述第三层次对应的第三码流;
对所述第二高频信号特征的索引值进行编码处理,得到所述第三层次对应的第四码流;
其中,所述第一码流的码率大于所述第三码流的码率,所述第三码流的码率大于所述第二码流的码率,所述第二码流的码率等于所述第四码流的码率,且所述码率与对应的码流的解码质量指标正相关。
12.根据权利要求1所述的方法,其特征在于,
所述多个层次包括第一层次和第二层次,且所述第一层次对应的第一码流是对第一低频信号特征的索引值进行编码处理得到的,所述第二层次对应的第二码流是对第一高频信号特征的索引值进行编码处理得到的;
所述对所述多个层次分别对应的码流配置对应的传输优先级,包括:
对所述第一层次对应的所述第一码流配置第一传输优先级;
对所述第二层次对应的所述第二码流配置第二传输优先级;其中,所述第一传输优先级高于所述第二传输优先级。
13.根据权利要求12所述的方法,其特征在于,
所述多个层次包括还包括第三层次,且所述第三层次对应第三码流和第四码流,所述第三码流是对第二低频信号特征的索引值进行编码处理得到的,所述第四码流是对第二高频信号特征的索引值进行编码处理得到的;
所述方法还包括:
对所述第三层次对应的所述第三码流配置第三传输优先级;
对所述第三层次对应的所述第四码流配置第四传输优先级;
其中,所述第一传输优先级高于所述第三传输优先级,所述第三传输优先级高于所述第二传输优先级,所述第二传输优先级与所述第四传输优先级相同。
14.一种音频解码方法,其特征在于,所述方法包括:
对多个层次分别对应的码流进行解码处理,得到每个所述层次分别对应的码流的索引值;其中,不同的所述层次对应不同的传输优先级,且所述传输优先级与所述层次对应的码流的解码质量指标正相关;
对每个所述层次分别对应的码流的索引值进行逆量化处理,得到每个所述层次分别对应的子带信号特征;
对每个所述层次分别对应的子带信号特征进行特征重建处理,得到每个所述层次分别对应的子带信号;
将多个所述层次分别对应的子带信号合成为音频信号。
15.根据权利要求14所述的方法,其特征在于,
所述多个层次包括第一层次和第二层次,所述第一层次对应第一低频子带信号特征,所述第二层次对应第一高频子带信号特征;
所述对每个所述层次分别对应的子带信号特征进行特征重建处理,得到每个所述层次分别对应的子带信号,包括:
通过以下方式执行所述第一层次的特征重建处理:基于所述第一低频子带信号特征进行第一特征重建处理,得到第一低频子带信号;其中,所述第一低频子带信号的维度大于所述第一低频子带信号特征的维度;
通过以下方式执行所述第二层次的特征重建处理:基于所述第一高频子带信号特征进行第二特征重建处理,得到第一高频子带信号;其中,所述第一高频子带信号的维度大于所述第一高频子带信号特征的维度。
16.根据权利要求15所述的方法,其特征在于,
所述基于所述第一低频子带信号特征进行第一特征重建处理,得到第一低频子带信号,包括:
对所述第一低频子带信号特征进行第一卷积处理,得到第一卷积特征;
对所述第一卷积特征进行第一上采样处理,得到第一上采样特征;其中,所述第一上采样处理包括多次级联的上采样;
对所述第一上采样特征进行第一池化处理,得到第一池化特征;
对所述第一池化特征进行第二卷积处理,得到所述第一低频子带信号。
17.根据权利要求15或16所述的方法,其特征在于,
所述基于所述第一高频子带信号特征进行第二特征重建处理,得到第一高频子带信号,包括:
基于所述第一低频子带信号包括的第一数量的样本点分别进行频域变换处理,得到所述第一数量的低频变换系数;
基于所述第一数量的低频变换系数中的后半部分的低频变换系数,进行两次频谱复制处理,得到第一高频参考子带信号包括的所述第一数量的参考变换系数;其中,所述后半部分的低频变换系数所对应的样本点的频率,高于前半部分的低频变换系数所对应的样本点的频率;
基于所述第一高频子带信号特征对应的多个第一子带谱包络,对所述第一高频参考子带信号包括的所述第一数量的参考变换系数进行第一增益控制,得到所述第一数量的第一增益参考变换系数;
对所述第一数量的第一增益参考变换系数进行反频域变换处理,得到第一高频子带信号。
18.根据权利要求17所述的方法,其特征在于,
所述基于所述第一高频子带信号特征对应的多个第一子带谱包络,对所述第一高频参考子带信号包括的所述第一数量的参考变换系数进行第一增益控制,得到所述第一数量的第一增益参考变换系数,包括:
将所述第一数量的参考变换系数划分为多个第一参考子带;其中,所述第一参考子带的数量与所述第一子带谱包络的数量相同;
生成多个不同的第一组合,每个所述第一组合包括一个所述第一参考子带和一个所述第一子带谱包络,并针对每个所述第一组合,执行以下处理:
将所述第一子带谱包络确定为第一平均能量;
基于所述第一参考子带中第二数量的参考变换系数进行求均值处理,得到所述第一参考子带对应的第一参考平均能量;其中,所述第二数量是所述第一数量与所述多个第一参考子带的数量的比值;
确定所述第一平均能量与所述第一参考平均能量的比值,并对所述比值进行开平方处理,得到第一比例因子;
将所述第一参考子带中所述第二数量的参考变换系数,分别与所述第一比例因子进行相乘处理,得到所述第一参考子带中所述第二数量的第一增益参考变换系数;
将每个所述第一参考子带中所述第二数量的第一增益参考变换系数进行合并,得到所述第一数量的第一增益参考变换系数。
19.根据权利要求17所述的方法,其特征在于,
所述多个层次还包括第三层次,所述第三层次对应第二低频子带信号特征和第二高频子带信号特征;
所述方法还包括:
通过以下方式执行所述第三层次的特征重建处理:对所述第二低频子带信号特征进行第三特征重建处理,得到第二低频子带信号;
基于所述第一高频子带信号特征、以及所述第二高频子带信号特征进行第四特征重建处理,得到第二高频子带信号。
20.根据权利要求19所述的方法,其特征在于,
所述对所述第二低频子带信号特征进行第三特征重建处理,得到第二低频子带信号,包括:
对所述第二低频子带信号特征进行第三卷积处理,得到第三卷积特征;
对所述第三卷积特征进行第二上采样处理,得到第二上采样特征;其中,所述第二上采样处理包括多次级联的上采样;
对所述第二上采样特征进行第二池化处理,得到第二池化特征;
对所述第二池化特征进行第四卷积处理,得到第二低频子带信号;其中,所述第二低频子带信号为所述第一低频子带信号的残差信号。
21.根据权利要求19所述的方法,其特征在于,
所述基于所述第一高频子带信号特征、以及所述第二高频子带信号特征进行第四特征重建处理,得到第二高频子带信号,包括:
确定所述第一高频子带信号特征对应的多个第一子带,并确定所述第二高频子带信号特征对应的多个第二子带;其中,所述多个第一子带的数量与所述多个第二子带的数量相同;
基于所述多个第一子带分别对应的所述第一子带谱包络以及所述多个第二子带分别对应的第二子带谱包络,确定多个第三子带分别对应的第三子带谱包络;其中,所述多个第三子带的数量与所述多个第二子带的数量相同;
将多个所述第二子带谱包络和多个所述第三子带谱包络确定为第四子带谱包络;
基于多个所述第四子带谱包络,对所述第一参考高频子带信号包括的所述第一数量的参考变换系数进行第二增益控制,得到所述第一数量的第二增益参考变换系数;
对所述第一数量的第二增益参考变换系数进行反频域变换处理,得到第二高频子带信号。
22.根据权利要求21所述的方法,其特征在于,
所述基于所述多个第一子带分别对应的所述第一子带谱包络以及所述多个第二子带分别对应的第二子带谱包络,确定多个第三子带分别对应的第三子带谱包络,包括:
生成多个不同的第二组合,每个所述第二组合包括一个所述第一子带和所述第一子带对应的所述第二子带,并针对每个所述第二组合,执行以下处理:
将所述第一子带对应的所述第一子带谱包络确定为第一平均能量,并将所述第二子带对应的所述第二子带谱包络确定为第二平均能量;
对所述第一平均能量与第二数量进行相乘处理,得到第一相乘结果;其中,所述第二数量为所述第一子带包括的高频变换系数的数量;
对所述第二平均能量与第三数量进行相乘处理,得到第二相乘结果;其中,所述第三数量为所述第二子带包括的所述高频变换系数的数量,且所述第三数量为所述第二数量的二分之一;
对所述第一相乘结果与所述第二相乘结果进行相减处理,将得到的相减结果与所述第三数量的比值,确定为所述第三子带对应的第三平均能量,并将所述第三平均能量确定为所述第三子带对应的第三子带谱包络;
其中,所述第一子带包括的所述第二数量的高频变换系数是以下两者的并集:所述第二子带包括的所述高频变换系数,所述第三子带包括的所述高频变换系数。
23.根据权利要求21所述的方法,其特征在于,
所述基于多个所述第四子带谱包络,对所述第一参考高频子带信号包括的所述第一数量的参考变换系数进行第二增益控制,得到所述第一数量的第二增益参考变换系数,包括:
将所述第一数量的参考变换系数划分为多个第二参考子带;其中,所述第二参考子带的数量与所述第四子带谱包络的数量相同;
生成多个不同的第三组合,每个所述第三组合包括一个所述第二参考子带和一个所述第四子带谱包络,并针对每个所述第三组合,执行以下处理:
将所述第四子带谱包络确定为第四平均能量;
基于所述第二参考子带中第三数量的参考变换系数进行求均值处理,得到所述第二参考子带对应的第二参考平均能量;其中,所述第三数量是所述第一数量与所述多个第二参考子带的数量的比值;
确定所述第四平均能量与所述第二参考平均能量的比值,并对所述比值进行开平方处理,得到第二比例因子;
将所述第二参考子带中所述第三数量的参考变换系数,分别与所述第二比例因子进行相乘处理,得到所述第二参考子带中所述第三数量的第二增益参考变换系数;
将每个所述第二参考子带中所述第三数量的第二增益参考变换系数进行合并,得到所述第一数量的第二增益参考变换系数。
24.根据权利要求14所述的方法,其特征在于,
所述多个层次包括第一层次和第二层次,所述第一层次对应第一低频子带信号,所述第二层次对应第一高频子带信号;
所述将多个所述层次分别对应的子带信号合成为音频信号,包括:
对第二采样频率的所述第一低频子带信号进行第三上采样处理,得到第一采样频率的第三上采样结果;其中,所述第二采样频率为所述第一采样频率的二分之一;
对所述第二采样频率的所述第一高频子带信号进行第四上采样处理,得到所述第一采样频率的第四上采样结果;
对所述第三上采样结果与所述第四上采样结果进行合成处理,得到所述音频信号。
25.根据权利要求24所述的方法,其特征在于,
所述多个层次还包括第三层次,所述第三层次对应第二低频子带信号和第二高频子带信号;
所述方法还包括:
对所述第一低频子带信号与所述第二低频子带信号进行求和处理,得到第一求和结果;
对所述第二采样频率的所述第一求和结果进行第五上采样处理,得到所述第一采样频率的第五上采样结果;
对所述第二采样频率的所述第二高频子带信号进行第六上采样处理,得到所述第一采样频率的第六上采样结果;
对所述第五上采样结果与所述第六上采样结果进行合成处理,得到所述音频信号。
26.一种音频编码装置,其特征在于,所述装置包括:
分解模块,用于对音频信号进行分解处理,得到低频子带信号和高频子带信号;
特征提取模块,用于基于所述低频子带信号以及所述高频子带信号进行多个层次的特征提取处理,得到所述多个层次分别对应的子带信号特征;
量化模块,用于对每个所述层次对应的子带信号特征进行量化处理,得到所述子带信号特征的索引值;
编码模块,用于对所述子带信号特征的索引值进行编码处理,得到所述层次对应的码流;
配置模块,用于对所述多个层次分别对应的码流配置对应的传输优先级;其中,所述传输优先级与所述层次对应的码流的解码质量指标正相关。
27.一种音频解码装置,其特征在于,所述装置包括:
解码模块,用于对多个层次分别对应的码流进行解码处理,得到每个所述层次分别对应的码流的索引值;其中,不同的所述层次对应不同的传输优先级,且所述传输优先级与所述层次对应的码流的解码质量指标正相关;
逆量化模块,用于对每个所述层次分别对应的码流的索引值进行逆量化处理,得到每个所述层次分别对应的子带信号特征;
特征重建模块,用于对每个所述层次分别对应的子带信号特征进行特征重建处理,得到每个所述层次分别对应的子带信号;
合成模块,用于将多个所述层次分别对应的子带信号合成为音频信号。
28.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至13任一项所述的音频编码方法或权利要求14-25任一项所述的音频解码方法。
29.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令用于被处理器执行时实现权利要求1至13任一项所述的音频编码方法或权利要求14-25任一项所述的音频解码方法。
30.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至13任一项所述的音频编码方法或权利要求14-25任一项所述的音频解码方法。
CN202210681816.XA 2022-06-15 2022-06-15 音频编码及解码方法、装置、设备、介质及程序产品 Pending CN115116457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210681816.XA CN115116457A (zh) 2022-06-15 2022-06-15 音频编码及解码方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210681816.XA CN115116457A (zh) 2022-06-15 2022-06-15 音频编码及解码方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN115116457A true CN115116457A (zh) 2022-09-27

Family

ID=83327913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210681816.XA Pending CN115116457A (zh) 2022-06-15 2022-06-15 音频编码及解码方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN115116457A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104460A1 (zh) * 2022-11-17 2024-05-23 抖音视界有限公司 音频编码方法、解码方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007007001A2 (fr) * 2005-07-13 2007-01-18 France Telecom Dispositif de codage/decodage hierarchique
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN113192521A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113470667A (zh) * 2020-03-11 2021-10-01 腾讯科技(深圳)有限公司 语音信号的编解码方法、装置、电子设备及存储介质
CN113903345A (zh) * 2021-09-29 2022-01-07 北京字节跳动网络技术有限公司 音频处理方法、设备及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007007001A2 (fr) * 2005-07-13 2007-01-18 France Telecom Dispositif de codage/decodage hierarchique
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN113192521A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113470667A (zh) * 2020-03-11 2021-10-01 腾讯科技(深圳)有限公司 语音信号的编解码方法、装置、电子设备及存储介质
CN113903345A (zh) * 2021-09-29 2022-01-07 北京字节跳动网络技术有限公司 音频处理方法、设备及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104460A1 (zh) * 2022-11-17 2024-05-23 抖音视界有限公司 音频编码方法、解码方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP5255638B2 (ja) ノイズ補充の方法及び装置
JP4850837B2 (ja) 異なるサブバンド領域同士の間の通過によるデータ処理方法
US9037454B2 (en) Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT)
KR100848324B1 (ko) 음성 부호화 장치 및 그 방법
JP2007506986A (ja) マルチ解像度ベクトル量子化のオーディオcodec方法及びその装置
JP2014510938A (ja) オーディオ信号の効率的なエンコーディング/デコーディング
CN102612712A (zh) 低频带音频信号的带宽扩展
WO2023241254A9 (zh) 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN115148217B (zh) 音频处理方法、装置、电子设备、存储介质及程序产品
US20240265929A1 (en) Audio processing method and apparatus, electronic device, computer-readable storage medium, and computer program product
US20240296855A1 (en) Audio coding method and apparatus, electronic device, and storage medium
JP7167335B2 (ja) 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
US20220180881A1 (en) Speech signal encoding and decoding methods and apparatuses, electronic device, and storage medium
CN115116457A (zh) 音频编码及解码方法、装置、设备、介质及程序产品
CN115116455B (zh) 音频处理方法、装置、设备、存储介质及计算机程序产品
Al-Nuaimi et al. Enhancing MP3 encoding by utilizing a predictive complex-valued neural network
WO2023241222A9 (zh) 音频处理方法、装置、设备、存储介质及计算机程序产品
CN117198301A (zh) 音频编码方法、音频解码方法、装置、可读存储介质
CN117476024A (zh) 音频编码方法、音频解码方法、装置、可读存储介质
CN117219095A (zh) 音频编码方法、音频解码方法、装置、设备及存储介质
Hosoda et al. Speech bandwidth extension using data hiding based on discrete hartley transform domain
CN117831548A (zh) 音频编解码系统的训练方法、编码方法、解码方法、装置
CN117219099A (zh) 音频编码、音频解码方法、音频编码装置、音频解码装置
CN117834596A (zh) 音频处理方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination