CN117437925A - 优化音频编解码的方法、系统、介质及设备 - Google Patents
优化音频编解码的方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN117437925A CN117437925A CN202311563839.1A CN202311563839A CN117437925A CN 117437925 A CN117437925 A CN 117437925A CN 202311563839 A CN202311563839 A CN 202311563839A CN 117437925 A CN117437925 A CN 117437925A
- Authority
- CN
- China
- Prior art keywords
- audio
- impact
- signal
- audio frame
- discrete cosine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 230000008569 process Effects 0.000 claims abstract description 64
- 230000001629 suppression Effects 0.000 claims abstract description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 238000000638 solvent extraction Methods 0.000 claims abstract description 17
- 238000009432 framing Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000005452 bending Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 8
- 238000007493 shaping process Methods 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 101150036464 aptx gene Proteins 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种优化音频编解码的方法、系统、介质及设备,属于音频编解码技术领域,该方法包括:在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置;在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。本申请通过将在编码端进行的时域噪声整形过程省略,取而代之的是音频信号中冲击位置的确定过程,将噪声抑制过程放在解码端进行,从而节省编码端的算力和带宽资源,减少音频卡顿。
Description
技术领域
本申请涉及音频编解码技术领域,特别涉及一种优化音频编解码的方法、系统、介质及设备。
背景技术
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC:音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC:音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
在LC3音频编码器中,为了避免冲击信号引起的前回声(pre-echo)导致的音质降低,引入了时域噪声整形模块,其在编码端提取相关的LPC参数、执行滤波、对残差编码并将相关参数传输到解码端执行LPC逆滤波,以此消除前回声。其中,TNS模块(时域噪声整形,Temporal Noise Shaping)的引入虽然有效的降低了前回声的影响,但也存在明显不足,包括:需要占用系统带宽资源,每一帧最大需要传输16个LPC滤波器反射系数,这些从发射端(编码器)传输到接收端(解码器)的系数占用了有限的带宽资源;需要消耗较多的运算资源。
发明内容
针对现有技术中,常规音频编码器对音频进行时域噪声整形过程会占用较多的带宽资源和运算资源的问题,本申请提出一种优化音频编解码的方法、系统、介质及设备。
第一方面,本申请提出一种优化音频编解码的方法,包括:在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置;在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。
可选的,在音频编码过程中,确定音频信号对应的冲击信号,还包括:预先拓宽对音频信号进行冲击检测的采样率条件、帧长条件和编码码率条件,使得对具有不同采样率的音频信号进行冲击检测。
可选的,对音频帧进行分块,包括:根据预设分块个数对高通滤波后的音频帧进行分块,其中各个分块中具有预设数量的采样点。
可选的,在音频编码过程中,确定音频信号中对应的冲击信号,还包括:根据确定的冲击信号所在的冲击位置,确定冲击标志;根据冲击标志对冲击位置进行修正。
可选的,在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制,包括:在音频解码端对音频码流进行解析,得到冲击位置;若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数;若冲击位置不满足判断条件,则对音频码流进行标准的解码过程,得到标准离散余弦变换谱系数;根据更新离散余弦变换谱系数或标准离散余弦变换谱系数继续对音频码流进行解码,得到对应的音频信号。
可选的,若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数,包括:根据冲击位置构建全通滤波器;根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器;根据全通滤波器对前回声抑制滤波器进行更新,并使用更新后的前回声抑制滤波器对标准离散余弦变换谱系数进行滤波,得到更新离散余弦变换谱系数。
可选的,根据冲击位置构建全通滤波器,根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器,包括:根据冲击位置确定弯曲因子;根据弯曲因子构造全通滤波器;根据标准离散余弦变换谱系数计算对应的线性预测系数;根据线性预测系数构建前回声抑制滤波器。
第二方面,本申请提出一种优化音频编解码的系统,包括:编码器,其在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置;解码器,其在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。
第三方面,本申请提供一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一中的优化音频编解码的方法。
第四方面,本申请提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中处理器操作计算机程序以执行方案一中的优化音频编解码的方法。
本申请通过将在编码端进行的时域噪声整形过程省略,取而代之的是音频信号中冲击位置的确定过程,将噪声抑制过程放在解码端进行,从而节省编码端的算力和带宽资源,减少音频卡顿。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1是TNS模块运算量占比的一个实例的示意图;
图2是本申请优化音频编解码的方法的一个实施方式的示意图;
图3是本申请前回声抑制过程的一个实例的示意图;
图4是本申请在解码端的解码过程示意图;
图5是本申请优化音频编解码的系统的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
在LC3音频编码器中,为了避免冲击信号引起的前回声(pre-echo)导致的音质降低,引入了时域噪声整形模块,其在编码端提取相关的LPC参数、执行滤波、对残差编码并将相关参数传输到解码端执行LPC逆滤波,以此消除前回声。其中,TNS模块(时域噪声整形,Temporal Noise Shaping)的引入虽然有效的降低了前回声的影响,但也存在明显不足,包括:需要占用系统带宽资源,每一帧最大需要传输16个LPC滤波器反射系数,这些从发射端(编码器)传输到接收端(解码器)的系数占用了有限的带宽资源;需要消耗较多的运算资源。
具体的,图1是TNS模块运算量占比的一个实例的示意图。
如图1所示,时域噪声整形模块的处理过程在常见的音频编码器中运算量占比的平均值约为9.67%,可见其在音频编码端占用及耗费较多的带宽资源和运算资源。
针对上述问题,本申请提出一种优化音频编解码的方法、系统、介质及设备,该方法包括:在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置;在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。
本申请将时域噪声整形模块从编码端删除,增加对编码音频帧进行冲击信号确定的模块,通过对音频帧进行冲击检测,确定音频帧中的冲击位置,然后根据冲击位置在音频解码端进行滤波,消除前回声,从而实现类似时域噪声整形模块的功能。本申请通过将编码端进行的时域噪声整形模块的滤波过程转移到解码端进行,从而节省编码端的算力和带宽资源,减少音频卡顿。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2是本申请优化音频编解码的方法的一个实施方式的示意图。
在图2所示的实施方式中,本申请的优化音频编解码的方法包括过程S201,在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置。
在该实施方式中,本申请在编码端不再执行时域噪声整形模块的处理过程,但仍然需要提取冲击信号的相关信息并传输到解码端。如果在编码端检测到冲击信号,则解码端根据冲击信号的位置执行弯曲线性预测滤波,扩展低频谱系数同时压缩高频谱系数,从而达到抑制前回声的效果。
具体的,在标准编码器中具有冲击信号检测模块,但其只会输出一个冲击标志供编码器使用,无法满足本申请的要求,因此本申请在编码端重新对冲击信号的检测过程进行更新,最终得到音频帧中冲击信号所在的冲击位置。
可选的,在音频编码过程中,确定音频信号对应的冲击信号,还包括:预先拓宽对音频信号进行冲击检测的采样率条件、帧长条件和编码码率条件,使得对具有不同采样率的音频信号进行冲击检测。
在该可选实施例中,标准编码器只在某些条件满足时才执行冲击信号检测的过程,如采样率必须为32k、44.1k或48k。为了最大限度的提高音质,本申请预先拓宽对音频信号进行冲击检测的采样率条件、帧长条件和编码码率条件,从而对所有配置下的音频信号均能执行冲击信号检测过程,其中包括各种采样率配置(8k~48k)、帧长配置(10ms和7.5ms)和任何编码码率。
在该实施方式中,在对音频信号是否存在冲击信号的检测过程中,对音频信号进行分帧,并对得到的音频帧进行下采样过程。
其中具体过程如以下公式所示:
其中MF=16·Nms,xs(n)是输入的音频信号。
然后对下采样后的音频帧进行高通滤波过程,如下:
在该实施方式中,为了更精确的判断音频帧中冲击发生的位置,本申请对音频帧进行分块。
可选的,对音频帧进行分块,包括:根据预设分块个数对高通滤波后的音频帧进行分块,其中各个分块中具有预设数量的采样点。
在该可选实施例中,以帧长10毫秒、采样率48kHz配置的音频帧为例,首先将输入信号进行分帧,即划分为每帧480个采样点;然后执行下采样得到160个点,高通滤波后输出160个点;再执行分块,可将160个点划分为4块,其中包括:点的序号为0~39的第一分块;点的序号为40~79的第二分块;点的序号为80~119的第三分块;以及点的序号为120~159的第四分块,也就是将音频帧分为4块,每块40个点。需要说明的是,在实际的情景中,可根据不同的帧长和采样率的配置对音频帧进行相应数量和对应点数的分块,从而能够对音频帧中的冲击位置进行快速确定,提升处理效率。
在对音频帧进行分块后,计算各个分块对应的能量值,具体如下:
其中Nblocks=Nms/2.5
然后计算对应的能量包络:
然后进行冲击检测,其中当n=0~3的任何一个值时,如果下面的条件满足,则当前音频帧中存在冲击信号:
在确定冲击位置时,冲击位置Patt(k)取值为满足上述不等式的最大的n,如果n=0~3时上述不等式都不满足,则Patt(k)为-1。
可选的,在音频编码过程中,确定音频信号对应的冲击信号,还包括:根据冲击信号所在的冲击位置,确定冲击标志;根据冲击标志对冲击位置进行修正。
在该可选实施例中,在进行冲击标志的确定时,可通过以下条件进行判断,其中满足下述条件的冲击标志设置为1,判断条件如下:
然后进行冲击位置的修正过程,其中-1表示当前音频帧中没有冲击信号
在图2所示的实施方式中,本申请的优化音频编解码的方法包括过程S202,在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。
在该实施方式中,在编码端确定了音频帧中冲击信号所处的冲击位置后,通过编码码流中的辅助信息传输到解码端。在解码端,根据确定的冲击位置对音频码流进行前回声抑制,输出更新的离散余弦变换谱系数。如果在编码端检测出音频帧中不存在冲击信号,则在解码端对该音频帧对应的音频码流进行解码时,跳过前回声抑制的过程。
可选的,在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制,包括:在音频解码端对音频码流进行解析,得到冲击位置;若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数;若冲击位置不满足判断条件,则对音频码流进行标准的解码过程,得到标准离散余弦变换谱系数;根据更新离散余弦变换谱系数或标准离散余弦变换谱系数继续对音频码流进行解码,得到对应的音频信号。
在该可选实施例中,在音频解码端对编码后的音频码流进行解析,确定冲击信号所在的冲击位置。若解析出的冲击位置满足判断条件,说明该音频码流中存在冲击信号,需要进行前回声抑制过程,从而输出更新离散余弦变换谱系数;如果解析出的冲击位置不满足相应的判断条件,则说明该音频码流中不存在冲击信号,也就不需要进行前回声抑制过程,也就不需要对原本的离散余弦谱系数进行更新,最后输出标准离散余弦变换谱系数。最后根据更新离散余弦变换谱系数或标准离散余弦变换谱系数对音频码流进行后续的解码过程,最终解码得到音频信号。
可选的,若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数,包括:根据冲击位置构建全通滤波器;根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器;根据全通滤波器对前回声抑制滤波器进行更新,并使用更新后的前回声抑制滤波器对标准离散余弦变换谱系数进行滤波,得到更新离散余弦变换谱系数。
在该可选实施例中,在解码端对音频码流进行前回声抑制的过程也就是对音频码流进行滤波,从而除去其中冲击信号的过程。首先,根据在编码端确定的冲击信号所在的冲击位置确定全通滤波器;根据标准离散余弦变换谱系数构建前回声抑制滤波器;然后根据全通滤波器对前回声抑制滤波器进行更新,使用更新后的前回声抑制滤波器对标准离散余弦变换谱系数进行滤波,实现对标准离散余弦变换谱系数中冲击信号对应的位置进行滤除,得到更新离散余弦变换谱系数。
可选的,根据冲击位置构建全通滤波器,根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器,包括:根据冲击位置确定弯曲因子;根据弯曲因子构造全通滤波器;根据标准离散余弦变换谱系数计算对应的线性预测系数;根据线性预测系数构建前回声抑制滤波器。
具体的,图3是本申请前回声抑制过程的一个实例的示意图。
如图3所示,在根据冲击位置确定弯曲因子的过程中,弯曲因子:
λ=warp_tab(Patt(k))
其中warptab[4]={0.95,0.75,0.5,0.25}。然后基于弯曲因子构造全通滤波器,将全通滤波器和线性预测系数组成的滤波器组合得到新的滤波器,使用新的滤波器对谱系数滤波时,当弯曲因子接近1时,信号低频的分辨率会增大,高频的分辨率会降低。基于时频变换的对称性,可以通过对谱系数应用不同的弯曲线性预测滤波器,来调节时间分辨率。其中,全通滤波器的滤波公式表示为:
在该可选实施例中,在根据标准离散余弦变换谱系数计算对应的线性预测系数的过程中,先计算谱系数自相关函数:
其中Xs(n)是变换域噪声整形输出的谱系数
再给自相关函数进行加窗:
然后基于经典的Levinson-Durbin算法计算反射系数,下式中的p为LPC的阶数,典型的取值为:当采样率小于32kHz时,取值为8;当采样率大于等于32kHz时,取值为32。具体过程如下:
然后构建前回声抑制滤波器:
其中,其中β和α为经验值,可取0.85~0.95和0.16~0.24。使用此滤波器对频域的谱系数滤波可以达到对时域信号包络初步整形的效果。
具体的,更新前回声抑制滤波器以实现频率卷曲。其中,使用全通滤波器D(z)替换上述的z-1,得到新的前回声抑制滤波器Haew(z)。新的滤波器可以根据冲击的位置更精确的控制信号包络的形状。执行前回声滤波,使用新的滤波器对谱系数执行滤波,从而达到抑制前回声的效果。
具体的,图4是本申请在解码端的解码过程示意图。
如图4所示,本申请的解码过程与标准解码过程相比,增加了前回声抑制模块,在前回声抑制模块中进行对音频码流的冲击信号的滤除过程,该模块替换掉原本在编码端的时域噪声整形模块。在具体的解码过程中,通过对编码码流中的辅助信息进行解码,获得冲击信号所在的冲击位置。然后在前回声抑制模块中对码流进行滤波处理,得到最终更新离散余弦变换谱系数。
本申请通过将在编码端进行的时域噪声整形过程省略,取而代之的是音频信号中冲击位置的确定过程,将噪声抑制过程放在解码端进行,从而节省编码端的算力和带宽资源,减少音频卡顿。避免了在编码端执行复杂的运算,从而使得在使用蓝牙耳机通话时,其在语音编码时可以节省较多的算力和蓝牙发射功耗。
图5是本申请优化音频编解码的系统的一个实施方式的示意图。
在图5所示的实施方式中,本申请的优化音频编解码的系统,包括:编码器501,其在音频编码过程中,确定音频信号对应的冲击信号,其中对音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的音频帧进行高通滤波;对高通滤波后的音频帧进行分块;计算各个分块对应的能量值;计算音频帧对应的能量包络;对音频帧进行冲击检测,若存在冲击信号则确定冲击位置;解码器502,其在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制。
可选的,在音频编码过程中,确定音频信号中对应的冲击信号,还包括:预先拓宽对音频信号进行冲击检测的采样率条件、帧长条件和编码码率条件,使得对具有不同采样率的音频信号进行冲击检测。
可选的,对音频帧进行分块,包括:根据预设分块个数对音频帧进行分块,其中各个分块中具有一定数量的点。
可选的,在音频编码过程中,确定音频信号中对应的冲击信号,还包括:根据音频帧中确定的冲击信号所在的冲击位置,确定冲击标志;根据冲击标志对冲击位置进行修正。
可选的,在音频解码过程中,根据冲击位置对音频帧对应的音频码流进行前回声抑制,包括:在音频解码端对音频码流进行解析,得到冲击位置;若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数;若冲击位置不满足判断条件,则对音频码流进行标准的解码过程,得到标准离散余弦变换谱系数;根据更新离散余弦变换谱系数或标准离散余弦变换谱系数继续对音频码流继续进行解码,得到对应的音频信号。
可选的,若冲击位置满足判断条件,则对音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数,包括:根据冲击位置构建全通滤波器;根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器;根据全通滤波器对前回声抑制滤波器进行更新,并使用更新后的前回声抑制滤波器对标准离散余弦变换谱系数进行滤波,得到更新离散余弦变换谱系数。
可选的,根据冲击位置构建全通滤波器,根据音频码流对应的标准离散余弦变换谱系数构建前回声抑制滤波器,包括:根据冲击位置确定弯曲因子;根据弯曲因子构造全通滤波器;根据标准离散余弦变换谱系数计算对应的线性预测系数;根据线性预测系数构建前回声抑制滤波器。
本申请通过将在编码端进行的时域噪声整形过程省略,取而代之的是音频信号中冲击位置的确定过程,将噪声抑制过程放在解码端进行,从而节省编码端的算力和带宽资源,减少音频卡顿。避免了在编码端执行复杂的运算,从而在使用蓝牙耳机通话时,其在语音编码时可以节省较多的算力和蓝牙发射功耗。
在本申请的一个实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的优化音频编解码的方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的优化音频编解码的方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种优化音频编解码的方法,其特征在于,包括:
在音频编码过程中,确定音频信号对应的冲击信号,其中
对所述音频信号进行分帧,并对得到的音频帧进行下采样;
对进行下采样后的所述音频帧进行高通滤波;
对高通滤波后的所述音频帧进行分块;
计算各个分块对应的能量值;
计算所述音频帧对应的能量包络;
对所述音频帧进行冲击检测,若存在冲击信号则确定冲击位置;
在音频解码过程中,根据所述冲击位置对所述音频帧对应的音频码流进行前回声抑制。
2.根据权利要求1所述的优化音频编解码的方法,其特征在于,所述在音频编码过程中,确定音频信号对应的冲击信号,还包括:
预先拓宽对所述音频信号进行冲击检测的采样率条件、帧长条件和编码码率条件,使得对具有不同采样率的所述音频信号进行冲击检测。
3.根据权利要求1所述的优化音频编解码的方法,其特征在于,所述对所述音频帧进行分块,包括:
根据预设分块个数对高通滤波后的所述音频帧进行分块,其中各个分块中包含预设数量的采样点。
4.根据权利要求1所述的优化音频编解码的方法,其特征在于,所述在音频编码过程中,确定音频信号对应的冲击信号,还包括:
根据确定的冲击信号所在的所述冲击位置,确定冲击标志;
根据所述冲击标志对所述冲击位置进行修正。
5.根据权利要求1所述的优化音频编解码的方法,其特征在于,所述在音频解码过程中,根据所述冲击位置对所述音频帧对应的音频码流进行前回声抑制,包括:
在音频解码端对所述音频码流进行解析,得到所述冲击位置;
若所述冲击位置满足判断条件,则对所述音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数;
若所述冲击位置不满足判断条件,则对所述音频码流进行标准的解码过程,得到标准离散余弦变换谱系数;
根据所述更新离散余弦变换谱系数或所述标准离散余弦变换谱系数继续对所述音频码流进行解码,得到对应的音频信号。
6.根据权利要求5所述的优化音频编解码的方法,其特征在于,所述若所述冲击位置满足判断条件,则对所述音频码流进行前回声抑制,并输出对应的更新离散余弦变换谱系数,包括:
根据所述冲击位置构建全通滤波器;
根据所述音频码流对应的所述标准离散余弦变换谱系数构建前回声抑制滤波器;
根据所述全通滤波器对所述前回声抑制滤波器进行更新,并使用更新后的所述前回声抑制滤波器对所述标准离散余弦变换谱系数进行滤波,得到所述更新离散余弦变换谱系数。
7.根据权利要求6所述的优化音频编解码的方法,其特征在于,所述根据所述冲击位置构建全通滤波器,根据所述音频码流对应的所述标准离散余弦变换谱系数构建前回声抑制滤波器,包括:
根据所述冲击位置确定弯曲因子;
根据所述弯曲因子构造全通滤波器;
根据所述标准离散余弦变换谱系数计算对应的线性预测系数;
根据所述线性预测系数构建所述前回声抑制滤波器。
8.一种优化音频编解码的系统,其特征在于,包括:
编码器,其在音频编码过程中,确定音频信号对应的冲击信号,其中对所述音频信号进行分帧,并对得到的音频帧进行下采样;对进行下采样后的所述音频帧进行高通滤波;对高通滤波后的所述音频帧进行分块;计算各个分块对应的能量值;计算所述音频帧对应的能量包络;对所述音频帧进行冲击检测,若存在冲击信号则确定冲击位置;
解码器,其在音频解码过程中,根据所述冲击位置对所述音频帧对应的音频码流进行前回声抑制。
9.一种计算机可读存储介质,其存储有计算机程序,其中所述计算机程序被操作以执行权利要求1-7中任一项所述的优化音频编解码的方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机程序,其中所述处理器操作所述计算机程序以执行权利要求1-7中任一项所述的优化音频编解码的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311563839.1A CN117437925A (zh) | 2023-11-22 | 2023-11-22 | 优化音频编解码的方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311563839.1A CN117437925A (zh) | 2023-11-22 | 2023-11-22 | 优化音频编解码的方法、系统、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437925A true CN117437925A (zh) | 2024-01-23 |
Family
ID=89555197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311563839.1A Pending CN117437925A (zh) | 2023-11-22 | 2023-11-22 | 优化音频编解码的方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437925A (zh) |
-
2023
- 2023-11-22 CN CN202311563839.1A patent/CN117437925A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101844199B1 (ko) | 음성 주파수 신호 처리 방법 및 장치 | |
RU2383943C2 (ru) | Кодирование звуковых сигналов | |
US20110257979A1 (en) | Time/Frequency Two Dimension Post-processing | |
KR101693280B1 (ko) | 오디오 데이터 처리 방법, 장치 및 시스템 | |
US6026356A (en) | Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form | |
JP2001094433A (ja) | サブバンド符号化・復号方法 | |
EP2856776B1 (en) | Stereo audio signal encoder | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
JP2018200488A (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
CN112669860B (zh) | 一种增加lc3音频编解码有效带宽的方法及装置 | |
CN112951251B (zh) | 一种lc3音频混合方法、装置及存储介质 | |
CN114582361B (zh) | 基于生成对抗网络的高解析度音频编解码方法及系统 | |
CN117437925A (zh) | 优化音频编解码的方法、系统、介质及设备 | |
CN112995425B (zh) | 一种等响度混音方法及装置 | |
CN112992166B (zh) | 一种动态调整lc3音频编码速率的方法、装置及存储介质 | |
JP2000099095A (ja) | 音声信号をフィルタリングする装置及び方法、受話器、並びに、電話通信システム | |
CN1780326A (zh) | 通话音量自适应调节方法 | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 | |
CN112951252B (zh) | 一种lc3音频码流的混音方法、装置、介质及设备 | |
CN114566174B (zh) | 一种优化语音编码的方法、装置、系统、介质及设备 | |
CN105761724B (zh) | 一种语音频信号处理方法和装置 | |
CN116129920A (zh) | 骨导语音的编码方法、编解码方法、装置、介质及设备 | |
CN112735452B (zh) | 实现超低编码速率的编码方法、装置、存储介质及设备 | |
CN117253499A (zh) | 支持多种延迟模式的音频编解码方法、系统、介质及设备 | |
CN114999503A (zh) | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |