CN116978391A - 音频编码方法、系统、编码器、介质及设备 - Google Patents
音频编码方法、系统、编码器、介质及设备 Download PDFInfo
- Publication number
- CN116978391A CN116978391A CN202310958571.5A CN202310958571A CN116978391A CN 116978391 A CN116978391 A CN 116978391A CN 202310958571 A CN202310958571 A CN 202310958571A CN 116978391 A CN116978391 A CN 116978391A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- audio
- pitch
- crossing rate
- zero crossing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000007774 longterm Effects 0.000 claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 32
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 26
- 230000008569 process Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种音频编码方法、系统、编码器、介质及设备,属于音频编码技术领域。该方法包括:检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧;获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧;对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数;根据基音延迟和长期后置滤波器参数对第二音频帧继续进行编码。本申请通过对长期后置滤波器的处理过程进行简化,通过对音频帧进行过零率检测和倒谱基音检测,输出相应的结果,取代原有的长期后置滤波器,降低算力损耗,符合低功耗设备的要求。
Description
技术领域
本申请涉及音频编码技术领域,特别涉及一种音频编码方法、系统、编码器、介质及设备。
背景技术
在音频编码过程中,长期后置滤波器对于提高感知音质有重要的作用,在音频编解码中得到广泛使用。在标准LC3编解码过程中,在编码端提取基音的相关参数并传输给解码端,在解码端对包含基音成分的帧数据执行后置滤波,能够增强基音、同时降低基音谱峰之间的谱谷处的量化噪声,从而提高感知音质。
但是在LC3编码器中长期后置滤波器(Long term postfilter,简称LTPF)的运算过程需要消耗较大的算力,例如其中的重采样、高通滤波、基音检测和基音延迟估计过程。因为在低功耗蓝牙设备中,对于功耗和算力的要求较严格,长期后置滤波器的高算力,导致低功耗蓝牙设备其他编码部分需要进行算力的压缩,导致低功耗蓝牙设备的使用因为功耗和算力而受到限制。
发明内容
针对在低功耗蓝牙设备中,长期后置滤波器算力消耗过大的问题,本申请提出一种音频编码方法、系统、编码器、介质及设备。
第一方面,本申请提出一种音频编码方法,包括:检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧;获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧;对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数;根据基音延迟和长期后置滤波器参数对第二音频帧继续进行编码。
可选的,检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧,包括:对过零率与第一预设门限值进行比较,其中当过零率大于第一预设门限值时,设定音频帧的基音存在标志为0;当过零率不大于第一预设门限值时,将该音频帧确定为第一音频帧。
可选的,获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧,包括:对倒谱系数最大值与第二预设门限值进行比较,其中当倒谱系数最大值不大于第二预设门限值时,直接设定第一音频帧的基音存在标志为0;当倒谱系数最大值大于第二预设门限值时,将第一音频帧确定为第二音频帧。
可选的,对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数,包括:根据倒谱最大值和第三预设门限值的关系,确定第二音频帧对应的长期后置滤波器参数,并计算基音延迟。
第二方面,本申请提出一种音频编码系统,包括:用于检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧的模块;用于获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧的模块;用于对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数的模块;用于根据长期后置滤波器参数对第二音频帧继续进行编码的模块。
第三方面,本申请提出一种音频编码器,包括方案二中的音频编码系统。
第四方面,本申请提出一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一中的音频音频编码方法。
第五方面,本申请提出一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中处理器操作计算机程序以执行方案一中的音频编码方法。
本申请通过对长期后置滤波器的处理过程进行简化,通过对音频帧进行过零率检测和倒谱基音检测,输出相应的结果,取代原有的长期后置滤波器,从而降低算力损耗,符合低功耗设备的要求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1是本申请音频编码方法的一个实施方式的示意图;
图2是本申请音频编码方法的一个实例的示意图;
图3是本申请音频编码方法的一个实例的示意图;
图4是本申请音频编码系统的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
在音频编码过程中,长期后置滤波器对于提高感知音质有重要的作用,在音频编解码中得到广泛使用。在标准LC3编解码过程中,在编码端提取基音的相关参数并传输给解码端,在解码端对包含基音成分的帧数据执行后置滤波,能够增强基音、同时降低基音谱峰之间的谱谷处的量化噪声,从而提高感知音质。
但是在LC3编码器中长期后置滤波器(Long term post filter,简称LTPF)的运算过程需要消耗较大的算力,例如其中的重采样、高通滤波、基音检测和基音延迟估计过程。因为在低功耗蓝牙设备中,对于功耗和算力的要求较严格,长期后置滤波器的高算力,导致低功耗蓝牙设备其他编码部分需要进行算力的压缩,导致低功耗蓝牙设备的使用因为功耗和算力而受到限制。
针对上述问题,本申请提出一种音频编码方法、系统、编码器、介质及设备。该方法包括:检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧;获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧;对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数;根据基音延迟和长期后置滤波器参数对第二音频帧继续进行编码。
本申请通过对长期后置滤波器的处理过程进行简化,通过对音频帧进行过零率检测和倒谱基音检测,根据检测结果确定音频帧对应的长期后置滤波器参数,从而取代原有的长期后置滤波器的处理过程,从而降低算力损耗,符合低功耗蓝牙设备的要求。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1是本申请音频编码方法的一个实施方式的示意图。
在图1所示的实施方式中,本申请的音频编码方法包括过程S101,检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧。
在该实施方式中,本申请的技术方案对音频帧的过零率进行检测,通过音频帧的过零率对音频帧进行筛选,满足筛选条件的音频帧作为第一音频帧进行后续的过程。
可选的,检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧,包括:对过零率与第一预设门限值进行比较,其中当过零率大于第一预设门限值时,设定音频帧的基音存在标志为0;当过零率不大于第一预设门限值时,将该音频帧确定为第一音频帧。
在该可选实施例中,在确定音频帧的过零率后,将该过零率与第一预设门限值进行比较,根据比较结果对音频帧进行筛选,其中当过零率大于第一预设门限值时,设定音频帧的基音存在标志为0。此时音频帧通常对应清音或噪音,属于非浊音信号帧,直接设定该音频帧的基音存在标志为0,省略掉原有的长期后置滤波器的处理过程,降低功耗和算力。当过零率大于第一预设门限值时,将该音频帧确定为第一音频帧,进行后续的处理。
具体的,第一预设门限值可以设置为,其中第一预设门限值的取值可根据实际情况进行适当的调整。在语音通话过程中,基于语音通话的特性,通常情况下通话的一方只有部分时间在讲话,据统计,通话的一方通常只有约35%的时间在讲话,人在说话时,通常分为浊音、过渡音和清音,其中浊音中包含基音成分、过渡音中可能有基音成分、清音中没有基音成分。通过过零率的计算,可以有效滤除非浊音信号帧,粗略统计,可以滤除80%以上的信号帧,这些帧不用进入下一步计算,减少原有编码过程中不必要的编码过程。
具体的,音频帧的过零率的计算过程如下:
为了叙述方便,修改过零率公式如下,依据典型的统计数据,清音的过零率通常在0.5左右,浊音的在0.1左右,为了避免丢失过渡音,第一预设门限设为0.2,即过零率大于0.2直接判定为非浊音。
其中xm(n)是第m帧的PCM数据,n=0,1,2,…,NF,以采样率16kHz、帧长10ms为例,NF为160。Sgn[x]定义如下:
在图1所示的实施方式中,本申请的音频编码方法包括过程S102,获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧。
在该实施方式中,在进行音频帧的筛选,确定第一音频帧后,计算第一音频帧的倒谱系数,并确定在基音范围内的倒谱系数最大值。然后通过倒谱系数最大值对第一音频帧进行筛选,进一步确定第二音频帧。
可选的,获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧,包括:对倒谱系数最大值与第二预设门限值进行比较,其中当倒谱系数最大值不大于第二预设门限值时,直接设定第一音频帧的基音存在标志为0;当倒谱系数最大值大于第二预设门限值时,将第一音频帧确定为第二音频帧。
在该可选实施例中,在确定第二音频帧的过程中,将第一音频帧在基音范围内的最大值与第二预设门限值进行比较,当倒谱系数最大值不大于第二预设门限值时,设定第一音频帧的基音存在标志为0,当倒谱系数最大值大于第二预设门限值时,将第一音频帧确定为第二音频帧。
具体的,通过倒谱系数最大值与第二预设门限值进行比较,对第一音频帧是否属于浊音帧进行进一步筛选,其中当倒谱系数最大值大于第二预设门限值时,第一音频帧则不属于浊音帧,因此直接将该音频帧对应的基音存在标志设置为0,从而省略不必要的检测和计算过程。当倒谱最大值不大于第二预设门限值时,则说明第一音频帧属于浊音帧,将该第一音频帧确定为第二音频帧,再进行后续的计算。其中,第二预设门限值可设置为0.2,在实际的情形中,可对第二预设门限值进行适当的调整。关于第二预设门限值的取值,本申请不进行具体限制。
基于倒谱检测基音是一种较为有效的方法,本发明重用编码器中已有的时频变换及其结果来计算倒谱并检测基音,避免了常规的基于倒谱检测时需要消耗独立的时频变换算力和存储空间,此方法简述如下:
根据语音信号理论,语音信号x(n)可以分解为声带激励e(n)和声道滤波器h(n)的卷积:
x(n)=e(n)*h(n)
对上式两边同时取MDCT变换,时域的卷积对应频域的乘积:
X(k)=E(k)·H(k)
上式两边取幅值并取对数,可以看出激励与滤波器之间的乘法已经变成了加法,这便于在基音检测时将基音成分和共振峰成分分开,提高检测的准确性
log(|X(k)|)=log(|E(k)|)+log(|H(k)|)
上式两边同时取MDCT逆变换得到倒谱C(m),在倒谱中基音和共振峰是分开的,便于提高基音检测的准确性。
其中具体步骤如下:
对输入的音频数据分帧,以采样率16kHz、帧长10ms为例,每帧数据160个采样点;
按帧执行加窗和LD-MDCT,Xm(k)就是此帧所有的谱系数,NF是160,m是帧的序号,是窗函数。
第m帧的音频数据xm(n),n=0,1,2,…,NF
tm(n)=xm(Z-NF+n),for n=0…2·NF-1-Z
tm(2NF-Z+n)=0,for n=0…Z-1
k=0…NF-1
计算第m帧的幅度谱对数:
计算第m帧的倒谱:
Cm(n)中的n其单位是时间,通常称为倒频quefrency。
搜索倒谱索引范围内的最大倒谱值:基音范围通常是50~500Hz之间,所以可以搜索倒频范围是[BW/500,BW/50],即[16,160),其中BW是奈奎斯特带宽。
Imax=max(Cm(n)),n=16~159
如果满足下述条件,则Imax对应的n即基音周期。
将最大倒谱索引对应的倒谱与预设门限比较:
其中T2是第二预设门限值,可以根据典型的男声、女声的浊音、清音计算得到。
在图1所示的实施方式中,本申请的音频编码方法包括过程S103,对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数。
在该实施方式中,对确定的第二音频帧进行进一步基音检测,确定第二音频帧对应的基音延迟,最终确定第二音频帧对应的长期后置滤波器参数。
可选的,对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数,包括:根据倒谱最大值和第三预设门限值的关系,确定第二音频帧对应的长期后置滤波器参数,并计算基音延迟。
在该可选实施例中,在确定第二音频帧后,确定第二音频帧属于浊音帧,此时确定第二音频帧对应的长期后置滤波器参数,以及对应的基音延迟。
具体的,通过上述两个筛选过程,确定第二音频帧,其中第二音频帧为浊音帧,其基音存在标志为1,此时第二音频帧对应的基音延迟计算如下:
首先计算第二音频帧的基于频率:上述计算中都基于编码采样率SamplingRateEnc,其为16000Hz。然后计算第二音频帧对应的整数基音延迟:标准LC3编码器中的基音延迟对应的采样率是SamplingRatePitch,其为12800Hz。接着计算第二音频帧对应的分数基音延迟:/>
然后确定第二音频对应的长期后置滤波器参数,其中主要的是长期后置滤波器激活参数LTPF_active。在确定期后置滤波器激活参数时,根据上一音频帧的后置滤波器激活参数和第二音频帧对应的倒谱系数最大值与第三预设门限值之间的关系共同确定。
上一音频帧的后置滤波器激活参数用Mem_ltpf_active进行表示,其中LTPF_active在满足下列条件1或者条件2的情形下,LTPF_active的数值为1,否则为0,如下:
条件1:Mem_ltpf_active==0且Cm(Imax)≥T3,其中T2为第二预设门限值,T3为第三预设门限值,T3>T2,在一个典型的实施例中,T2=0.2,T3=0.25;
条件2:Mem_ltpf_active==1且Cm(Imax)≥T2。
通过上述过程,对于第二音频帧,输入基音存在标志为1,同时输出第二音频帧对应的整数延迟和分数延迟。然后对第二音频帧对应的长期后置滤波器参数进行更新,确定LTPF_active。
具体的,本申请通过对编码的音频帧进行过零率检测和倒谱基音检测,对音频帧进行筛选,将满足筛选条件的浊音帧进行基音延迟的计算和长期后置滤波器参数的计算;对不满足筛选条件的音频帧直接进行基音存在标志的赋值,从而省去原有复杂的长期后置滤波器的处理过程,降低算力,更加适合低功耗蓝牙编解码设备的要求。
在图1所示的实施方式中,本申请的音频编码方法包括过程S104,根据基音延迟和长期后置滤波器参数对第二音频帧继续进行编码。
在该实施方式中,通过上述音频帧筛选过程,将音频帧分类为第二音频帧和其他音频帧。在本申请的音频编码方法中,对第二音频帧进行后续的长期后置滤波器参数的确定过程,并进行后续的编码。对于其他音频帧,跳过长期后置滤波器的计算过程,直接进行后续的编码。
图2是本申请音频编码方法的一个实例的示意图。
如图2所示,在本申请的音频编码方法中,采用过零率检测和倒谱基音检测替换原有的长期后置滤波器模块。通过过零率检测确定音频帧的过零率,然后根据过零率对音频帧进行筛选,得到第一音频帧;再对第一音频帧计算倒谱计算,根据基音范围内的倒谱最大值再次进行筛选,确定第二音频帧,第二音频帧也就是浊音帧。然后计算出第二音频帧对应的长期后置滤波器参数和基音延迟。与现有的音频编码方法相比,本申请仅对筛选出的第二音频帧进行长期后置滤波器参数的确定,而现有技术中是对全部的音频帧均进行长期后置滤波器的处理。因此本申请与现有技术的编码方法相比,能够大大节省算力,从而更适应低功耗蓝牙设备。
图3是本申请音频编码方法的一个实例的示意图。
如图3所示,在本申请的编码过程中,对音频帧进行过零率检测,若过零率不小于门限1也就是上述的第一预设门限值,则直接跳过如图3所示的过程,也就是跳过长期后置滤波器的处理过程。若过零率小于门限1,则将该音频帧确定为第一音频帧。然后对第一音频帧计算倒谱,然后通过基音范围内的倒谱最大值与门限2进行比较,对第一音频帧进行筛选,确定第二音频帧。对不满足筛选条件的第一音频帧直接跳过后续的计算过程。然后对倒谱大于门限2的第二音频帧,也就是上述的倒谱系数最大值大于第二预设门限值后筛选出的第二音频帧进行后续的计算基音延迟和确定长期后置滤波器参数的过程。
本申请的音频编码方法利用过零率检测和倒谱基音检测过程替换掉原有的长期后置滤波器过程。通过对音频帧进行筛选,仅对满足条件的第二音频帧进行长期后置滤波器参数的计算过程,其他的音频帧则直接跳过不进行运算。因此能够大大降低算力。本申请通过对长期后置滤波器的处理过程进行简化,通过对音频帧进行过零率检测和倒谱基音检测,输出相应的结果,取代原有的长期后置滤波器,从而降低算力损耗,符合低功耗设备的要求。预先判断是否可能是浊音,可以避免80%的帧继续运算,节省算力;如果可能是浊音,则基于倒谱检测浊音,消耗不到一半的算力即可完成,整体而言,可以节约LTPF模块约90%的算力消耗。本发明以16kHz采样率、10ms为例,对于其他的采样率和帧长原理类同;根据倒谱检测基音,利用了编码器中已有的模块及其运算结果,避免复杂的重采样和自相关运算。
图4是本申请音频编码系统的一个实施方式的示意图。
在图4所示的实施例中,本申请的音频编码系统包括:用于检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧的模块401;用于获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧的模块402;用于对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数的模块403;用于根据长期后置滤波器参数对第二音频帧继续进行编码的模块404。
可选的,检测输入的音频帧的过零率,并根据过零率对音频帧进行筛选,得到第一音频帧,包括:对过零率与第一预设门限值进行比较,其中当过零率大于第一预设门限值时,设定音频帧的基音存在标志为0;当过零率不大于第一预设门限值时,将该音频帧确定为第一音频帧。
可选的,获取第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据倒谱系数最大值对第一音频帧进行筛选,得到第二音频帧,包括:对倒谱系数最大值与第二预设门限值进行比较,其中当倒谱系数最大值不大于第二预设门限值时,直接设定音频帧的基音存在标志为0;当倒谱系数最大值大于第二预设门限值时,将第一音频帧确定为第二音频帧。
可选的,对第二音频帧进行基音检测,得到第二音频帧对应的基音延迟,并确定第二音频帧对应的长期后置滤波器参数,包括:在编码过程中获取音频帧的谱系数;根据谱系数计算得到音频帧对应的倒谱系数;确定倒谱索引范围内倒谱系数的倒谱最大值;根据倒谱最大值和预设门限值的关系,对长期后置滤波器的参数进行更新,并同时输出基音延迟。
本申请的音频编码系统利用过零率检测和倒谱基音检测过程替换掉原有的长期后置滤波器过程。通过对音频帧进行筛选,仅对满足条件的第二音频帧进行长期后置滤波器参数的计算过程,其他的音频帧则直接跳过不进行运算。因此能够大大降低算力。本申请通过对长期后置滤波器的处理过程进行简化,通过对音频帧进行过零率检测和倒谱基音检测,输出相应的结果,取代原有的长期后置滤波器,从而降低算力损耗,符合低功耗设备的要求。预先判断是否可能是浊音,可以避免80%的帧继续运算,节省算力;如果可能是浊音,则基于倒谱检测浊音,消耗不到一半的算力即可完成,整体而言,可以节约LTPF模块约90%的算力消耗。本发明以16kHz采样率、10ms为例,对于其他的采样率和帧长原理类同;根据倒谱检测基音,利用了编码器中已有的模块及其运算结果,避免复杂的重采样和自相关运算。
在本申请的一个实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的音频编码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的音频编码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种音频编码方法,其特征在于,包括:
检测输入的音频帧的过零率,并根据所述过零率对所述音频帧进行筛选,得到第一音频帧;
获取所述第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据所述倒谱系数最大值对所述第一音频帧进行筛选,得到第二音频帧;
对所述第二音频帧进行基音检测,得到所述第二音频帧对应的基音延迟,并确定所述第二音频帧对应的长期后置滤波器参数;
根据所述基音延迟和所述长期后置滤波器参数对所述第二音频帧继续进行编码。
2.根据权利要求1所述的音频编码方法,其特征在于,所述检测输入的音频帧的过零率,并根据所述过零率对所述音频帧进行筛选,得到第一音频帧,包括:
对所述过零率与第一预设门限值进行比较,其中当所述过零率大于所述第一预设门限值时,设定所述音频帧的基音存在标志为0;
当所述过零率不大于所述第一预设门限值时,将该所述音频帧确定为所述第一音频帧。
3.根据权利要求1所述的音频编码方法,其特征在于,所述获取所述第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据所述倒谱系数最大值对所述第一音频帧进行筛选,得到第二音频帧,包括:
对所述倒谱系数最大值与第二预设门限值进行比较,其中
当所述倒谱系数最大值不大于所述第二预设门限值时,直接设定所述第一音频帧的基音存在标志为0;
当所述倒谱系数最大值大于所述第二预设门限值时,将所述第一音频帧确定为所述第二音频帧。
4.根据权利要求1所述的音频编码方法,其特征在于,所述对所述第二音频帧进行基音检测,得到所述第二音频帧对应的基音延迟,并确定所述第二音频帧对应的长期后置滤波器参数,包括:
根据所述倒谱最大值和第三预设门限值的关系,确定所述第二音频帧对应的所述长期后置滤波器参数,并计算所述基音延迟。
5.一种音频编码系统,其特征在于,包括:
用于检测输入的音频帧的过零率,并根据所述过零率对所述音频帧进行筛选,得到第一音频帧的模块;
用于获取所述第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据所述倒谱系数最大值对所述第一音频帧进行筛选,得到第二音频帧的模块;
用于对所述第二音频帧进行基音检测,得到所述第二音频帧对应的基音延迟,并确定所述第二音频帧对应的长期后置滤波器参数的模块;
用于根据所述长期后置滤波器参数对所述第二音频帧继续进行编码的模块。
6.根据权利要求5所述的音频编码系统,其特征在于,所述检测输入的音频帧的过零率,并根据所述过零率对所述音频帧进行筛选,得到第一音频帧,包括:
对所述过零率与第一预设门限值进行比较,其中
当所述过零率大于所述第一预设门限值时,直接设定所述音频帧的基音存在标志为0;当所述过零率不大于所述第一预设门限值时,将该所述音频帧确定为所述第一音频帧。
7.根据权利要求5所述的音频编码系统,其特征在于,所述获取所述第一音频帧的倒谱系数,确定基音范围内倒谱系数最大值,并根据所述倒谱系数最大值对所述第一音频帧进行筛选,得到第二音频帧,包括:
对所述倒谱系数最大值与第二预设门限值进行比较,其中
当所述倒谱系数最大值不大于所述第二预设门限值时,直接设定所述第一音频帧的基音存在标志为0;
当所述倒谱系数最大值大于所述第二预设门限值时,将所述第一音频帧确定为所述第二音频帧。
8.一种音频编码器,其特征在于,包括如权利要求5-7任一项所述的音频编码系统。
9.一种计算机可读存储介质,其存储有计算机程序,其中所述计算机程序被操作以执行权利要求1-4中任一项所述的音频编码方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机程序,其中:所述处理器操作所述计算机程序以执行权利要求1-4中任一项所述的音频编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310958571.5A CN116978391A (zh) | 2023-08-01 | 2023-08-01 | 音频编码方法、系统、编码器、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310958571.5A CN116978391A (zh) | 2023-08-01 | 2023-08-01 | 音频编码方法、系统、编码器、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978391A true CN116978391A (zh) | 2023-10-31 |
Family
ID=88480998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310958571.5A Pending CN116978391A (zh) | 2023-08-01 | 2023-08-01 | 音频编码方法、系统、编码器、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978391A (zh) |
-
2023
- 2023-08-01 CN CN202310958571.5A patent/CN116978391A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9837092B2 (en) | Classification between time-domain coding and frequency domain coding | |
US10482892B2 (en) | Very short pitch detection and coding | |
TW563094B (en) | Method and apparatus for high performance low bit-rate coding of unvoiced speech | |
US11393484B2 (en) | Audio classification based on perceptual quality for low or medium bit rates | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
KR102380487B1 (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
CN108231083A (zh) | 一种基于silk的语音编码器编码效率提高方法 | |
EP2608200B1 (en) | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream | |
JP6584431B2 (ja) | 音声情報を用いる改善されたフレーム消失補正 | |
US20090055171A1 (en) | Buzz reduction for low-complexity frame erasure concealment | |
CN116978391A (zh) | 音频编码方法、系统、编码器、介质及设备 | |
WO2003041054A2 (en) | Enhancement of a coded speech signal | |
CN116504256A (zh) | 一种语音编码方法、装置、介质、设备和程序产品 | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 | |
CN115497488A (zh) | 一种语音滤波方法、装置、存储介质及设备 | |
Liu et al. | Speech VTF similarity property and its application on coding analysis | |
Un et al. | Piecewise linear quantization of linear prediction coefficients | |
Hong | An improved SIFT method for pitch estimation of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |