CN115346549A - 一种基于深度学习的音频带宽扩展方法、系统及编码方法 - Google Patents
一种基于深度学习的音频带宽扩展方法、系统及编码方法 Download PDFInfo
- Publication number
- CN115346549A CN115346549A CN202210989962.9A CN202210989962A CN115346549A CN 115346549 A CN115346549 A CN 115346549A CN 202210989962 A CN202210989962 A CN 202210989962A CN 115346549 A CN115346549 A CN 115346549A
- Authority
- CN
- China
- Prior art keywords
- audio
- bandwidth
- audio data
- encoder
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 128
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 230000003595 spectral effect Effects 0.000 claims description 61
- 238000005070 sampling Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 abstract description 11
- 238000006243 chemical reaction Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于深度学习的音频带宽扩展方法、系统及编码方法,属于音频编码技术领域,该方法包括:利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。本申请在SBC或mSBC编码器的编码过程中,利用SBC或mSBC编码器本身编码的特点,进行频带扩展,省掉了时频转换的过程,同时利用编码过程已有的参数进行带宽扩展,节省算力,同时有效地提升音频音质。
Description
技术领域
本申请涉及音频编码技术领域,尤其涉及一种基于深度学习的音频带宽扩展方法、系统及编码方法。
背景技术
SBC编解码器作为A2DP协议强制要求,使用最为广泛,所有的经典蓝牙音频设备必须支持的音频编解码器。其中,SBC编解码器在蓝牙音频中有两种典型应用,包括SBC:Subband Codec,子带编码器,主要用于蓝牙音乐播放,对于音乐信号进行编码与解码,典型的采样率为44.1kHz和48kHz;mSBC:Modified Subband Codec,改进的子带编码器,主要用于蓝牙通话时宽带语音的编码与解码,采样率为16kHz。目前存在较多的窄带音频,在进行蓝牙播放过程中,通过编解码器对该音频编解码后,导致音频音质较低,降低用户收听体验。目前,音频带宽扩展方法,在音频带宽的扩展过程中,涉及到时域频域的转换,需要消耗较大的算力,另外,具有较大的延迟,无法满足蓝牙音频对于延时的要求,并且现有技术在音频带宽扩展前已知音频的真实带宽信息,而输入到SBC与mSBC的音频其采样率已知,但真实带宽未知,因此导致现有的音频带宽扩展方法不适用于SBC编解码器。
发明内容
针对现有技术中,在进行频带扩展得到宽带宽音频时,操作过程复杂,功耗高,无法适用SBC编解码的问题,本申请提出一种基于深度学习的音频带宽扩展方法、系统及编码方法。
第一方面,本申请提出一种基于深度学习的音频带宽扩展方法,包括:利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。
可选的,利用SBC编码器或mSBC编码器对音频数据编码,包括:SBC编码器或mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在音频接收端支持相应的采样率的条件下,通过SBC编码器或mSBC编码器对具有采样率的音频数据进行编码。
可选的,带宽扩展模型的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行特征提取,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数;根据真宽带谱系数和窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
可选的,带宽扩展模型的预训练过程还包括:将低频谱系数和高频谱系数组合,得到假宽带谱系数;通过判别网络对真宽带谱系数和假宽带谱系数进行判断,对生成网络进行优化。
第二方面,本申请提出一种基于深度学习的音频带宽扩展系统,包括:分析滤波模块,其利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;带宽检测模块,其计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;带宽扩展模块,其在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。
第三方面,本申请提出一种音频编码方法,包括利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展;SBC编码器或mSBC编码器,根据带宽扩展后的新的带宽谱系数对当前帧音频数据进行编码,输出相应的码流。
在本申请的一个技术方案中,提供一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一或方案二中的方法。
在本申请的一个技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中处理器操作计算机程序以执行方案一或方案二中的方法。
本申请的有益效果是:本申请在SBC或mSBC编码器的编码过程中,利用SBC或mSBC编码器本身编码的特点,进行频带扩展,省掉了时频转换的过程,同时利用编码过程已有的参数进行带宽扩展,节省算力,同时有效地提升音频音质。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于深度学习的音频带宽扩展方法的一个实施方式的流程示意图;
图2是本申请带宽扩展模型训练及推理过程的一个实例的示意图;
图3是本申请音频带宽扩展方法的一个实例的示意图;
图4是本申请基于深度学习的音频带宽扩展系统的一个实施方式的示意图;
图5是本申请音频编码方法的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的产品或设备不必限于清楚地列出的哪些单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
SBC编解码器作为A2DP协议强制要求,使用最为广泛,所有的经典蓝牙音频设备必须支持的音频编解码器。其中,SBC编解码器在蓝牙音频中有两种典型应用,包括SBC:Subband Codec,子带编码器,主要用于蓝牙音乐播放,对于音乐信号进行编码与解码,典型的采样率为44.1kHz和48kHz;mSBC:Modified Subband Codec,改进的子带编码器,主要用于蓝牙通话时宽带语音的编码与解码,采样率为16kHz。目前存在较多的窄带音频,在进行蓝牙播放过程中,通过编解码器对该音频编解码后,导致音频音质较低,降低用户收听体验。目前,音频带宽扩展方法,在音频带宽的扩展过程中,涉及到时域频域的转换,需要消耗较大的算力,另外,具有较大的延迟,无法满足蓝牙音频对于延时的要求,并且现有技术在音频带宽扩展前已知音频的真实带宽信息,而输入到SBC与mSBC的音频其采样率已知,但真实带宽未知,因此导致现有的音频带宽扩展方法不适用于SBC编解码器。
针对上述问题,本申请提出一种基于深度学习的音频带宽扩展方法、系统及编码方法。该方法包括:利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。
本申请在SBC编码器或mSBC编码器对音频数据的编码过程中,利用其编码过程的特点,省略掉现有技术进行带宽扩展时,需要进行时频转换的过程,从而降低整个带宽扩展过程所需要的算力。另外通过深度学习的方式进行带宽扩展,保证带宽扩展的精度。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于深度学习的音频带宽扩展方法的一个实施方式的流程示意图。
在图1所示的所示方式中,本申请的基于深度学习的音频带宽扩展方法包括过程S101,利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带。
在图1所示的实施方式中,本申请的带宽扩展过程在SBC编码器或mSBC编码器对音频数据的编码过程中进行,直接利用编码过程中获得的参数进行音频带宽的扩展。在编码过程中,通过编码器中的分析滤波器对进行编码的音频数据进行分析滤波,得到音频数据对应的多个子带。
具体的,以mSBC编码器为例,在对音频数据进行编码的过程中,对输入的一帧PCM音频数据进行编码,其中每帧的长度为120个样点,将每一帧数据经过分析滤波器,得到8个子带信号,其中每个子带信号均有15个子带样点对应,可具体表示为:
a)XN(0,1),XN(0,2),,…,XN(0,14)
b)XN(1,1),XN(1,2),,…,XN(1,14)
c)……
d)XN(7,1),XN(7,2),,…,XN(7,14)
8个子带,共计120个子带样本数据。需要说明的是,本申请以mSBC编码器16KHz的采样率和8个子带进行配置。若采样其他采样率和子带数目的配置,处理的原理与上述一致,在此不进行赘述。
可选的,利用SBC编码器或mSBC编码器对音频数据编码,包括:SBC编码器或mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在音频接收端支持相应的采样率的条件下,通过SBC编码器或mSBC编码器对具有采样率的音频数据进行编码。
在该可选实施例中,在利用SBC编码器或mSBC编码器对音频数据编码,进行带宽扩展时,为了保证音频数据的带宽扩展后,在音频解码端能够对带宽扩展后的码流进行解码,需要和音频接收端也就是音频解码端进行编码参数的协商,也就是在音频接收端在能够对带宽扩展后的音频解码的条件下,编码器端才会进行音频带宽的扩展。另外,本申请的音频带宽扩展方法,在SBC编码器或mSBC编码器在音频编码过程中进行带宽扩展时,有着对进行编码的音频数据的基本要求。
具体的,SBC编码器主要用于蓝牙设备进行音乐播放时的编码过程。譬如手机和蓝牙耳机的组合,此时手机是发射端,蓝牙耳机是接收端。首先发射端和接收端协商参数时,如果接收端可以支持48kHz采样率的SBC音频的播放,则发射端的编码器输出48kHz采样率,对应带宽24kHz的SBC码流。具体如下:如果发射端的音源采样率是48kHz,且有效带宽是24kHz,则使用普通编码模式,不需要进行带宽扩展;如果发射端的音源是48kHz,但是编码过程中的带宽检测结果小于24kHz,则启动带宽扩展模式,进行音频带宽的扩展。
具体的,mSBC编码器用于蓝牙设备在进行通话时的编码过程。譬如手机和蓝牙耳机,此时手机是发射端,蓝牙耳机是接收端。进行编码时,首先发射端和接收端协商参数,如果接收端可以支持16kHz采样率的mSBC音频的播放,则发射端的编码器输出16kHz采样率,对应带宽8kHz的mSBC码流。具体如下:如果发射端的音源采样率是16kHz,且有效带宽是8Hz,则使用普通编码模式,不需要进行带宽扩展;如果发射端的音源是16kHz,但是编码过程中的带宽检测结果小于8kHz,则启动带宽扩展模式,进行音频带宽的扩展。
在图1所示的实施方式中,本申请的基于深度学习的音频带宽扩展方法包括过程S102,计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断。
在该实施方式中,在经过分析滤波器对一帧音频数据进行子带划分后,进行各个子带的子带能量的计算,然后通过子带能量对当前帧音频数据的带宽进行检测,得到当前帧音频数据是宽带数据还是窄带数据。若是窄带数据,则需要进行后续的带宽扩展过程。
具体的,下面以一帧音频数据中有8个子带为例,对当前帧音频数据带宽的检测过程进行说明。
其中,条件1是为了判断当前信号在窄带部分是否有足够的能量,条件2是为了确保高频子带的能量足够小,条件3是为了确保低频子带的总能量比高频子带的总能量的比值足够大。如果条件1、条件2和条件3均满足,则说明当前帧音频数据为窄带信号。需要说明的是,Threshold1、Threshold2以及Threshold3三个阈值,可根据经验值进行确定,也可根据实际情况进行阈值的适当调整,对于阈值的具体数值,本申请不进行具体限制。
在图1所示的实施方式中,本申请的基于深度学习的音频带宽扩展方法包括过程S103,在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。
在该实施方式中,在确定当前帧音频数据为窄带数据,需要进行带宽扩展后,通过预训练的带宽扩展模型对该窄带数据进行处理,得到对应的宽带数据。
可选的,带宽扩展模型的预训练过程包括:获取宽带音频,并对宽带音频进行滤波,得到窄带音频,其中宽带音频具有宽带宽,窄带音频仅具有窄带宽;分别对宽带音频和窄带音频进行特征提取,得到宽带音频对应的真宽带谱系数和窄带音频对应的窄带谱系数;根据真宽带谱系数和窄带谱系数对带宽扩展模型进行训练,使得带宽扩展模型能够根据窄带谱系数生成窄带音频对应的宽带谱系数。
在该可选实施例中,在对带宽扩展模型进行训练时,首先获取模型训练的数据,获取宽带音频,例如采样率为16KHz,有效带宽为8KHz的音频。该宽带音频的获取方式可以是已经公开的音频材料,或者自身录制的音频材料。其中,宽带音频在带宽0-8KHz的范围内均有频谱能量信息。然后获取窄带音频,与上述的宽带音频对应,窄带音频的采样率为16KHZ,有效带宽为4KHz。在实际情形中,通话时手机从基站接收到的可能为窄带信号,采样率8kHz,有效带宽4kHz,手机会将此窄带信号重采样到16kHz再输送到mSBC编码器,重采样不会改变有效带宽,从而得到窄带音频。在本申请对带宽模型训练的过程中,通过对获得的宽带音频进行低通滤波,得到窄带音频,即可得到采样率为16KHz,有效带宽为4KHz的窄带音频。通过宽带音频进行低通滤波得到窄带音频,保证了两种音频在除了带宽的其他方面的一致性,有助于保证训练的精度。
在该可选实施例中,在分别获得宽带音频和窄带音频后,进行宽带音频和窄带音频的特征提取,得到宽带音频对应的宽带谱系数和窄带音频对应的窄带谱系数。其中,宽带特征提取与窄带特征提取的方法相同,输入的都是16kHz的音频信号,区别在于窄带特征提取前使用低通滤波器滤除高频信号,再使用标准SBC规范的分析滤波器生成子带信号。训练时,宽带特征和窄带特征同时输入神经网络,训练神经网络,当训练的误差达到或超过预期目标时,冻结权重与相关参数。需要说明的是,上述以采样率16KHz的音频距离,对于其他音频,原理类似。
可选的,带宽扩展模型的预训练过程还包括:通过判别网络确定真宽带谱系数和宽带谱系数之间的误差,并根据误差对带宽扩展模型进行优化,直到误差小于预设阈值。
在该可选实施例中,在通过带宽扩展模型得到窄带音频对应预测的宽带谱系数后,通过判别网路对真宽带谱系数和宽带谱系数之间的误差进行判断,若两者的误差较大,则对带宽扩展模型的相关参数进行调整,以对带宽扩展模型进行优化,使得通过带宽扩展模型得到的宽带谱系数更加逼近真带宽谱系数,提高带宽扩展莫模型的训练效果。
具体的,图2示出了本申请带宽扩展模型训练及推理过程的一个实例。
如图2所示,在离线训练过程中,首先获取宽带音频,例如采样率为16KHz,有效带宽为8KHz。然后对该宽带音频进行低通滤波,得到窄带音频。对宽带音频和窄带音频分别进行特征提取,得到相应的宽带特征和窄带特征,进行深度学习神经网络的训练,最终确定带宽扩展模型。在带宽扩展模型的在线推理过程中,将窄带音频,例如采样率为16KHz,有效带宽为4KHz,进行窄带音频的特征提取和带宽检测,通过带宽扩展模型对窄带音频进行带宽扩展,并根据扩展后得到的宽带谱系数更新编码其中的编码参数,并进行其余编码模块的编码,并将编码的结果通过看蓝牙通信发送到音频接收端。
具体的,图3示出了本申请音频带宽扩展方法的一个实例。
如图3所示,图3的流程图表示了在SBC编码器会mSBC编码器对音频数据的编码过程中,对窄带音频进行带宽扩展的流程。首先在编码器中接收PCM音频数据,通过分析滤波器对音频数据进行分析滤波,得到对应的多个子带。然后通过对得到的子带样本进行子带能量的计算,完成当前音频的带宽检测。若该音频数据为宽带音频,也就是有效带宽等于奈奎斯特带宽,则无需进行带宽扩展,直接进行后续的编码流程,按照宽带音频进行比特分配,完成后续的编码。若检测到当前音频数据为窄带数据,也就是有效带宽低于奈奎斯特带宽,则通过本申请的带宽扩展方法进行带宽扩展,得到窄带音频对应的宽带音频,然后按照扩展后的宽带音频进行比特分配,完成后续的编码。
本申请在SBC或mSBC编码器的编码过程中,利用SBC或mSBC编码器本身编码的特点,进行频带扩展,省掉了时频转换的过程,同时利用编码过程已有的参数进行带宽扩展,节省算力,同时有效地提升音频音质。在带宽扩展过程中,进行带宽检测,在带宽扩展之前,不需要提前知道音频的带宽,另外基于编码过程中已有的信息辅以少量的计算,即可检测出带宽,因此本申请的带宽扩展过程可应用到音频数据可能为宽带宽也可能为窄带宽的蓝牙通话的场景中。本发明通过在编码过程中执行带宽扩展,除了增加一些运算延迟,不会增加算法延迟,提升用户体验。
图4示出了本申请基于深度学习的音频带宽扩展系统的一个实施方式。
在图4所示的实施方式中,本申请于深度学习的音频带宽扩展系统包括:分析滤波模块401,其利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;带宽检测模块402,其计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;带宽扩展模块403,其在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展。
可选的,利用SBC编码器或mSBC编码器对音频数据编码,包括:SBC编码器或mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在音频接收端支持相应的采样率的条件下,通过SBC编码器或mSBC编码器对具有采样率的音频数据进行编码。
可选的,带宽扩展模型的预训练过程包括:获取宽带音频,并对宽带音频进行滤波,得到窄带音频,其中宽带音频具有宽带宽,窄带音频仅具有窄带宽;分别对宽带音频和窄带音频进行特征提取,得到宽带音频对应的真宽带谱系数和窄带音频对应的窄带谱系数;根据真宽带谱系数和窄带谱系数对带宽扩展模型进行训练,使得带宽扩展模型能够根据窄带谱系数生成窄带音频对应的宽带谱系数。
可选的,带宽扩展模型的预训练过程还包括:通过判别网络确定真宽带谱系数和宽带谱系数之间的误差,并根据误差对带宽扩展模型进行优化,直到误差小于预设阈值。
本申请基于深度学习的音频带宽扩展系统在SBC或mSBC编码器的编码过程中,利用SBC或mSBC编码器本身编码的特点,进行频带扩展,省掉了时频转换的过程,同时利用编码过程已有的参数进行带宽扩展,节省算力,同时有效地提升音频音质。在带宽扩展过程中,进行带宽检测,在带宽扩展之前,不需要提前知道音频的带宽,另外基于编码过程中已有的信息辅以少量的计算,即可检测出带宽,因此本申请的带宽扩展过程可应用到音频数据可能为宽带宽也可能为窄带宽的蓝牙通话的场景中。本发明通过在编码过程中执行带宽扩展,除了增加一些运算延迟,不会增加算法延迟,保证用户体验。
图5示出了本申请音频编码方法的一个实施方式。
在图5所示的实施方式中,本申请的音频编码方法包括:过程S501,利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到当前帧音频数据对应的多个子带;过程S502,计算各个子带的子带能量,并根据子带能量对当前帧音频数据的带宽进行检测和判断;过程S503,在当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对当前帧音频数据进行带宽扩展;过程S504,SBC编码器或mSBC编码器,根据带宽扩展后的新的带宽谱系数对当前帧音频数据进行编码,输出相应的码流。
可选的,利用SBC编码器或mSBC编码器对音频数据编码,包括:SBC编码器或mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在音频接收端支持相应的采样率的条件下,通过SBC编码器或mSBC编码器对具有采样率的音频数据进行编码。
可选的,带宽扩展模型的预训练过程包括:获取宽带音频,并对宽带音频进行滤波,得到窄带音频,其中宽带音频具有宽带宽,窄带音频仅具有窄带宽;分别对宽带音频和窄带音频进行特征提取,得到宽带音频对应的真宽带谱系数和窄带音频对应的窄带谱系数;根据真宽带谱系数和窄带谱系数对带宽扩展模型进行训练,使得带宽扩展模型能够根据窄带谱系数生成窄带音频对应的宽带谱系数。
本申请的音频编码方法在SBC或mSBC编码器的编码过程中,利用SBC或mSBC编码器本身编码的特点,进行频带扩展,省掉了时频转换的过程,同时利用编码过程已有的参数进行带宽扩展,节省算力,同时有效地提升音频音质。在带宽扩展过程中,进行带宽检测,在带宽扩展之前,不需要提前知道音频的带宽,另外基于编码过程中已有的信息辅以少量的计算,即可检测出带宽,因此本申请的带宽扩展过程可应用到音频数据可能为宽带宽也可能为窄带宽的蓝牙通话的场景中。本发明通过在编码过程中执行带宽扩展,除了增加一些运算延迟,不会增加算法延迟,用户体验较好。本申请音频编码方法中各步骤的原理与上述音频扩展方法中国的流程一致,在此不进行赘述。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行任一实施例描述的基于深度学习的音频带宽扩展方法或音频编码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中:处理器操作计算机程序以执行任一实施例描述的基于深度学习的音频带宽扩展方法或音频编码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于深度学习的音频带宽扩展方法,其特征在于,包括:
利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到所述当前帧音频数据对应的多个子带;
计算各个所述子带的子带能量,并根据所述子带能量对所述当前帧音频数据的带宽进行检测和判断;
在所述当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对所述当前帧音频数据进行带宽扩展。
2.根据权利要求1所述的基于深度学习的音频带宽扩展方法,其特征在于,所述利用SBC编码器或mSBC编码器对音频数据进行编码,包括:
所述SBC编码器或所述mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在所述音频接收端支持相应采样率的条件下,通过所述SBC编码器或所述mSBC编码器对具有所述采样率的音频数据进行编码。
3.根据权利要求1所述的基于深度学习的音频带宽扩展方法,其特征在于,所述带宽扩展模型的预训练过程包括:
获取宽带音频,并对所述宽带音频进行滤波,得到窄带音频,其中所述宽带音频具有宽带宽,所述窄带音频仅具有窄带宽;
分别对所述宽带音频和所述窄带音频进行特征提取,得到所述宽带音频对应的真宽带谱系数和所述窄带音频对应的窄带谱系数;
根据所述真宽带谱系数和所述窄带谱系数对所述带宽扩展模型进行训练,使得所述带宽扩展模型能够根据所述窄带谱系数生成所述窄带音频对应的宽带谱系数。
4.根据权利要求3所述的基于深度学习的音频带宽扩展方法,其特征在于,所述带宽扩展模型的预训练过程还包括:
通过判别网络确定所述真宽带谱系数和所述宽带谱系数之间的误差,并根据所述误差对所述带宽扩展模型进行优化,直到所述误差小于预设阈值。
5.一种基于深度学习的音频带宽扩展系统,其特征在于,包括:
分析滤波模块,其利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到所述当前帧音频数据对应的多个子带;
带宽检测模块,其计算各个所述子带的子带能量,并根据所述子带能量对所述当前帧音频数据的带宽进行检测和判断;
带宽扩展模块,其在所述当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对所述当前帧音频数据进行带宽扩展。
6.一种音频编码方法,其特征在于,包括:
利用SBC编码器或mSBC编码器对音频数据进行编码,对当前帧音频数据进行分析滤波,得到所述当前帧音频数据对应的多个子带;
计算各个所述子带的子带能量,并根据所述子带能量对所述当前帧音频数据的带宽进行检测和判断;
在所述当前帧音频数据的带宽为窄带宽的条件下,通过预训练的带宽扩展模型对所述当前帧音频数据进行带宽扩展;
所述SBC编码器或所述mSBC编码器,根据带宽扩展后的新的带宽谱系数对所述当前帧音频数据进行编码,输出相应的码流。
7.根据权利要求6所述的音频编码方法,其特征在于,所述利用SBC编码器或mSBC编码器对音频数据编码,包括:
所述SBC编码器或所述mSBC编码器所在的音频发射端与音频接收端进行音频数据编码参数协商,在所述音频接收端支持相应的采样率的条件下,通过所述SBC编码器或所述mSBC编码器对具有所述采样率的音频数据进行编码。
8.根据权利要求6所述的音频编码方法,其特征在于,所述带宽扩展模型的预训练过程包括:
获取宽带音频,并对所述宽带音频进行滤波,得到窄带音频,其中所述宽带音频具有宽带宽,所述窄带音频仅具有窄带宽;
分别对所述宽带音频和所述窄带音频进行特征提取,得到所述宽带音频对应的真宽带谱系数和所述窄带音频对应的窄带谱系数;
根据所述真宽带谱系数和所述窄带谱系数对所述带宽扩展模型进行训练,使得所述带宽扩展模型能够根据所述窄带谱系数生成所述窄带音频对应的宽带谱系数。
9.一种计算机可读存储介质,其存储有计算机程序,其中所述计算机程序被操作以执行权利要求1-4中任一项所述的基于深度学习的音频带宽扩展方法或6-8中任一项所述的音频编码方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机程序,其中:所述处理器操作所述计算机程序以执行权利要求1-4中任一项所述的基于深度学习的音频带宽扩展方法或6-8中任一项所述的音频编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989962.9A CN115346549A (zh) | 2022-08-18 | 2022-08-18 | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989962.9A CN115346549A (zh) | 2022-08-18 | 2022-08-18 | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115346549A true CN115346549A (zh) | 2022-11-15 |
Family
ID=83951563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210989962.9A Pending CN115346549A (zh) | 2022-08-18 | 2022-08-18 | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346549A (zh) |
-
2022
- 2022-08-18 CN CN202210989962.9A patent/CN115346549A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2417456C2 (ru) | Системы, способы и устройства для обнаружения изменения сигналов | |
US8600740B2 (en) | Systems, methods and apparatus for context descriptor transmission | |
US10186274B2 (en) | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information | |
WO2014056326A1 (zh) | 语音质量评估的方法和装置 | |
JP6397082B2 (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
CN101421780A (zh) | 音频编码和解码中的激励处理 | |
CN104956437A (zh) | 执行增益控制的系统及方法 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
JP2004511003A (ja) | 音声コーディングにおける雑音のロバストな分類のための方法 | |
TWI590237B (zh) | 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 | |
CN114582361B (zh) | 基于生成对抗网络的高解析度音频编解码方法及系统 | |
CN115346549A (zh) | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 | |
JP2006039559A (ja) | 移動通信端末機のplpを利用した音声コーディング装置及び方法 | |
CN114999503A (zh) | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 | |
CN115527545A (zh) | 一种音频带宽扩展方法、装置、编码方法及介质 | |
CN114863942A (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
CN115641857A (zh) | 音频处理方法、装置、电子设备、存储介质及程序产品 | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |