CN112599140A - 一种优化语音编码速率和运算量的方法、装置及存储介质 - Google Patents
一种优化语音编码速率和运算量的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112599140A CN112599140A CN202011532857.XA CN202011532857A CN112599140A CN 112599140 A CN112599140 A CN 112599140A CN 202011532857 A CN202011532857 A CN 202011532857A CN 112599140 A CN112599140 A CN 112599140A
- Authority
- CN
- China
- Prior art keywords
- speech
- band
- audio frame
- current audio
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 37
- 230000007704 transition Effects 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 30
- 230000007774 longterm Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种优化语音编码速率和运算量的方法、装置及存储介质,属于音频编码技术领域,该方法包括根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵;根据语音子带能量熵的大小设置当前音频帧对应的编码码率,其中,语音子带能量熵越大,对应的编码码率越小;以及根据编码码率对当前音频帧进行编码。本发明根据语音子带能量熵计算出适合当前音频帧的码率,在确保音质不变的前提下降低了编码速率。
Description
技术领域
本发明涉及音频编码技术领域,特别涉及一种优化语音编码速率和运算量的方法、装置及存储介质。
背景技术
LC3与现有的CVSD和WBS相比,在相同的采样率下降低了码率,同时提升了音质,但由于LC3基于波形编码技术,与传统的声码器相比,压缩效率很低,举例来说,LC3在8k采样率时的推荐码率为24kbps,但应用于WCDMA的AMR-NB最大码率仅为12.2kbps,平均码率10kbps以下,应用于CDMA系统的EVRC-A最大码率为8kbps,平均码率约为5kbps,而3GPPRelease12推出的应用于VoLTE的EVS,其最低码率为5.9kbps。LC3较高的码率占用了较大的带宽,需要更多的发射功率,在公共场合,蓝牙设备较多,相互之间会造成干扰,影响了用户体验,相互干扰的程度与占用的带宽、发射功率有很大关系。
基于通话的特性,通常情况下通话的一方只有部分时间在讲话,据统计,通话的一方通常只有约35%的时间在讲话,而目前标准规范的LC3使用固定码率,即开始编码后每一帧语音都是用相同的可用比特数,这就导致一方不说话时仍然使用相同标准码率编码,不仅占用较多的带宽资源,而且占用更多的计算资源,造成浪费。
发明内容
本发明主要提供一种优化语音编码速率和运算量的方法、装置及存储介质,以解决非语音帧使用标准码率编码,不仅占用较多的带宽资源,而且占用更多的计算资源的问题。
为了解决上述问题,本发明采用的一个技术方案是:提供一种优化语音编码速率和运算量的方法,其包括:根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵;根据语音子带能量熵的大小设置当前音频帧对应的编码码率,其中,语音子带能量熵越大,对应的编码码率越小;以及根据编码码率对当前音频帧进行编码。
本发明采用的另一个技术方案是:提供一种优化语音编码速率和运算量的装置,其包括:用于根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵的模块;用于根据语音子带能量熵的大小设置当前音频帧对应的编码码率的模块,其中,语音子带能量熵越大,对应的编码码率越小;以及用于根据编码码率对当前音频帧进行编码的模块。
本发明采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行方案一中的优化语音编码速率和运算量的方法。
本发明的技术方案可以达到的有益效果是:本发明设计了一种优化语音编码速率和运算量的方法、装置及存储介质。该方法根据语音子带能量熵计算出适合当前音频帧的码率,在确保音质几乎不变的前提下降低了编码速率,通过确定音频数据的当前帧是否需要执行带宽检测的运算和长期后置滤波器的运算,从而降低运算量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种优化语音编码速率和运算量的方法的一个具体实施方式的示意图;
图2是本发明一种优化语音编码速率和运算量的方法的一个具体实例的示意图;
图3是本发明的编码码率与现有技术标准LC3的编码码率的结果对比图;
图4是本发明一种优化语音编码速率和运算量的方法的另一个具体实例的示意图;
图5是本发明一种优化语音编码速率和运算量的方法的另一个具体实例的示意图;
图6是能量熵与语谱图的比较示意图;
图7是本发明一种优化语音编码速率和运算量的装置的一个具体实施方式的示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
在现有技术中,为了节省码率,如3GPP和3GPP2中的声码器,二者都采用了非常复杂的话音激活检测和码率判决算法,虽然可以极大限度的节省码率,但资源消耗都比较大,如代码空间、数据空间以及运算资源。这些方法对于面向低功耗的蓝牙平台都不适用,因为低功耗蓝牙平台存储空间和运算能力都较为有限。
下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施方式以及实施例进行描述。
图1示出了本发明一种优化语音编码速率和运算量的方法的一个具体实施方式。
在该具体实施方式中,优化语音编码速率和运算量的方法包括步骤S101,根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵。
在本发明的一个具体实施例中,根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵的过程包括,根据当前音频帧的语音子带能量计算出当前音频帧的语音子带总能量;根据语音子带能量和语音子带总能量计算出当前音频帧的语音子带能量概率;以及根据语音子带能量概率计算出语音子带能量熵。
在本发明的一个具体实例中,低延迟改进型离散余弦变换将音频数据采集的时域样本进行时频转换后,得到频谱系数,并将相应的能量值分组到各个频段。利用得到的频谱系数计算语音子带能量,对于10毫秒帧长和7.5毫秒帧长的语音编码,针对任意的采样率而言,将0~4000Hz划分为20条语音子带,此时语音子带带宽为200。其中,这20条语音子带的语音子带能量计算公式如下:
SUBBAND_ENERYG(1)=0
for sb=2,...,SUBBAND_NUM-2
SUBBAND_ENERYG(19)=0
SUBBAND_ENERYG(20)=0
其中,X(k)2为频谱系数,SUBBAND_NUM为子带数量,SUBBAND_WIDTH为每个子带的带宽,子带带宽的计算公式为SUBBAND_WIDTH=采样率/SUBBAND_NUM。
在本发明的一个具体实例中,在这20条语音子带中,由于通常认为有效的语音频带是300Hz~3400Hz,在本发明的实例中取200Hz~3600Hz,所以将第一条语音子带,第十九条语音子带以及第二十条语音子带能量设为零,所以在计算语音子带总能量时,取第二条至第十八条语音子带的能量之和。语音子带总能量计算公式如下:
在本发明的一个具体实例中,根据语音子带能量和语音子带总能量计算语音子带能量概率,语音子带能量概率计算公式:
SUBBAND_ENERYG_PROB(k)=SUBBAND_ENERYG(k)/SUBBAND_ENERYG_TOTAL for k=2,...,SUBAND_NUM-2
根据语音子带能量概率计算语音子带能量熵,语音子带能量熵计算公式:
在图1所示的具体实施方式中,优化语音编码速率和运算量的方法还包括步骤S102,根据语音子带能量熵的大小设置当前音频帧对应的编码码率,其中,语音子带能量熵越大,对应的编码码率越小。
在本发明的一个具体实施例中,根据语音子带能量熵的大小设置当前音频帧对应的编码码率的过程包括,当语音子带能量熵小于语音门限值时,将编码码率设定为第一码率;当语音子带能量熵大于或等于语音门限值时,将编码码率设定为第一码率或第二码率,其中第二码率小于第一码率。
在该具体实施例中,当语音子带能量熵小于语音门限值时,当前音频帧为语音帧的概率远远大于其为非语音帧的概率,将当前音频帧的编码码率设定为第一码率,其用于语音帧的编码;当语音子带能量熵大于或等于语音门限值时,当前音频帧为非语音帧的概率远远大于其为语音帧的概率,将当前音频帧的编码码率设定为第一码率或第二码率,其中,第二码率用于非语音帧的编码。
在本发明的一个具体实施例中,根据语音子带能量熵的大小设置当前音频帧对应的编码码率的过程进一步包括,当语音子带能量熵小于语音门限值时,将状态转移计数器设定为预设数值,并将编码码率设定为第一码率;当语音子带能量熵大于或等于语音门限值时,若状态转移计数器的数值不大于初始值,则将编码码率设定为第二码率;若状态转移计数器的数值大于初始值,则将状态转移计数器的数值自动降低,并将编码码率设定为第一码率。
在该具体实施例中,当语音子带能量熵小于语音门限值时,将状态转移计数器设定为预设数值,并将当前音频帧的编码码率设定为第一码率;当语音子带能量熵大于或等于语音门限值时,若状当前帧态转移计数器的数值不大于初始值,则将当前音频帧的编码码率设定为第二码率;若状态转移计数器的数值大于初始值,则将状态转移计数器的数值自动减一,其用于为语音帧到非语音帧过渡状态计数,并将当前音频帧的编码码率设定为第一码率。
在本发明的一个具体实例中,语音门限值用于判断当前音频帧是语音帧还是非语音帧,其取值为0.9。当语音子带能量熵小于语音门限值时,当前音频帧有很大概率是语音帧;当语音子带能量熵大于或等于语音门限值时,当前音频帧有很大概率是非语音帧。状态转移计数器的数值用于语音帧和非语音帧的状态转换时,防止将语音帧误判为非语音帧,从而导致音质降低,状态转移计数器用HANDOVER_CNT表示,其预设数值取值为5,其初始值取值为0。第一码率为标准码率,即编码开始以前蓝牙发射端和蓝牙接收端协商的码率或码率范围,本发明中的第一码率主要用于语音帧的编码,其取值为64kbps;第二码率为低于标准码率的码率,本发明中的第二码率主要用于非语音帧的编码,其取值为16kbps。
在本发明的一个具体实例中,若语音子带能量熵小于语音门限值,则设置状态转移计数器的数值,并且将当前音频帧的编码码率设定为第一码率;若语音子带能量熵不小于语音门限值,则判断状态转移计数器的数值是否大于零,其中若状态转移计数器的数值大于零,则将状态转移计数器的数值减一,并且将当前音频帧的编码码率设定为第一码率;若状态转移计数器的数值不大于零,则将当前音频帧的编码码率设定为第二码率。
图2是本发明一种优化语音编码速率和运算量的方法的一个具体实例的示意图。
在该具体实例中,如图2所示,音频数据经过低延迟改进型离散余弦变换后得到频谱系数以及频带能量,根据频谱系数计算语音子带能量,将任意采样率划分为若干个语音子带,每个语音子带带宽根据语音子带数量均分采样率得到的,利用语音子带能量计算公式将每个语音子带的能量计算出来,根据计算出来的所有的语音子带能量计算语音子带总能量,利用每个语音子带能量在语音子带总能量中的占比比例,计算每个语音子带能量概率,利用语音子带能量熵计算公式将计算出来的所有的语音子带能量概率代入来求得语音子带能量熵。若求得的语音子带能量熵小于语音门限值时,当前音频帧有很大概率是语音帧,将状态转移计数器表示为HANDOVER_CNT,并取值为5,并且设置当前音频帧的码率为第一码率,用作语音帧的编码码率;若语音子带能量熵大于或等于语音门限值时,当前音频帧有很大概率是非语音帧,这时判断状态转移计数器的数值是否大于零,若状态转移计数器的数值大于零,则将状态转移计数器的数值自动减去一,然后设置当前音频帧的码率为第一码率;若状态转移计数器的数值不大于零,则设置当前音频帧的码率为第二码率,用作非语音帧的编码码率。
图3是本发明的编码码率与现有技术标准LC3的编码码率的结果对比图,在本发明的一个具体实例中,利用标准规范输出的频谱系数加上语音子带能量的运算即可得到语音子带能量熵,根据语音子带能量熵与语音门限值的判决结果,得到语音帧编码的码率和非语音帧编码的码率,这样可以较大的节省编码码率,如图3所示,编码码率从64kbps下降到40.4kbps,MOS得分由3.951上升到3.965,保障了语音通话的质量几乎不变。
在本发明的一个具体实施例中,根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程。通过对编码参数的设置可以控制当前音频帧的编码过程是否需要跳过正常编码模块,从而达到节省运算量的目的。
在本发明的一个具体实施例中,根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程,包括,根据语音子带能量熵的大小设置带宽检测参数,其中,当语音子带能量熵小于带宽检测门限值时,对当前音频帧进行带宽检测过程;当语音子带能量熵大于或等于带宽检测门限值时,将带宽设定为默认最大带宽,并且当前音频帧跳过带宽检测过程。
在该具体实施例中,根据语音子带能量熵与带宽检测门限值的判决结果,确定当前音频帧是否执行带宽检测过程,若语音子带能量熵小于带宽检测门限值,则当前音频帧需要执行带宽检测过程;若语音子带能量熵不小于带宽检测门限值,则当前音频帧不需要执行带宽检测过程,并且将当前采样率下的奈奎斯特带宽设置为当前音频帧的默认带宽,从而减少运算量。
图4是本发明一种优化语音编码速率和运算量的方法的另一个具体实例的示意图。
在本发明的一个具体实例中,如图4所示,带宽检测门限值用来判决是否需要执行带宽检测过程,其取值为0.9。若语音子带能量熵小于带宽检测门限值,当前音频帧有很大概率是语音帧,则执行带宽检测过程;若语音子带能量熵大于或等于带宽检测门限值,当前音频帧有很大概率是非语音帧,则跳过带宽检测过程,并且设置当前采样率下的默认最大带宽。默认最大带宽指的是当前采样率下的奈奎斯特带宽,例如,当前采样率是16kHz,则默认最大带宽为8kHz。
在本发明的一个具体实施例中,根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程,还包括,根据语音子带能量熵的大小设置滤波参数,其中,当语音子带能量熵小于滤波门限值时,对当前音频帧进行长期后置滤波器的滤波过程;当语音子带能量熵大于或等于滤波门限值时,长期后置滤波器不使能,当前音频帧跳过滤波过程。
在该具体实施例中,根据语音子带能量熵与滤波门限值的判决结果,确定当前音频帧是否执行长期后置滤波器的大部分运算,若语音子带能量熵小于滤波门限值,则当前音频帧执行长期后置滤波器中的基音检测运算,将经重采样、高通滤波、下采样以及基音检测的音频数据进行归一化计算,将得到的归一化相关系数与归一化标准阈值0.6进行比较,若归一化相关系数不大于归一化标准阈值0.6,则将音频数据的当前音频帧的基音标志设为0,码流设为1,若归一化相关系数大于归一化标准阈值0.6,则将当前音频帧进行基音延迟估计和LTPF判决;若语音子带能量熵不小于滤波门限值,则通过清空当前音频帧的基音和码流,并且设置长期后置滤波器不使能,当前音频帧不需要执行长期后置滤波器的后续运算,从而减少运算量。
图5是本发明一种优化语音编码速率和运算量的方法的另一个具体实例的示意图。
在本发明的一个具体实例中,长期后置滤波器(简称:LTPF)的滤波门限值用于判决是否需要执行长期后置滤波器的后续执行,其取值为0.8,其中,滤波门限值即为图5所示的LTPF门限值。其滤波门限值的选择依据能量熵和语谱的关系,其中语谱中包含语音段和非语音段,语音段对应着浊音,非语音段对应着静音,详情参见图6的能量熵与语谱图。在该实例中,如图5所示当语音子带能量熵低于0.8时,当前帧有较大概率是浊音,此时需要执行长期后置滤波器的全部模块;将经过重采样、高通滤波、下采样以及基音检测的音频数据的归一化相关系数与0.6比较,若归一化相关系数大于0.6,则继续执行基音延迟估计和LTPF判决模块,其中重采样、高通滤波、下采样模块、基音检测和基音延迟估计,是标准规范的模块;若归一化相关系数不大于0.6,则设置长期后置滤波器不使能,其操作为:设置pitch_present为0,0表示本帧没有基音,其中,pitch_present为标准规范规定,设置nbits_LTPF为1,1表示本帧LTPF的码流只有1个比特,其中nbits_LTPF为标准规范规定。当语音子带能量熵不低于0.8时,则设置长期后置滤波器不使能,其操作如上述对pitch_present和nbits_LTPF的设置。
在本发明的一个具体实施例中,根据语音子带能量熵和语谱的关系确定语音门限值、带宽检测门限值以及滤波门限值。
在本发明的一个具体实例中,根据图6的能量熵与语谱图,当处于非语音段时,即当前帧为静音,语音子带能量熵很大,熵值在1.1左右;当处于语音段时,即当前帧为浊音,语音子带能量熵较小,熵值在0.2~0.6左右;所以语音门限值、带宽检测门限值以及滤波门限值的取值范围在0.7到1.0,在具体实例中,优选的,将语音门限值、带宽检测门限值以及滤波门限值的取值范围定在0.8到0.9。
在图1所示的具体实施方式中,优化语音编码速率和运算量的方法还包括步骤S103,根据编码码率对当前音频帧进行编码。
在本发明的一个具体实例中,假设帧长10ms,2s的音频数据,其中第一秒有语音,第二秒没有语音,那么在第一秒中,有100帧的语音帧,在第二秒中,有100帧的非语音帧,在这第一秒的100帧的音频数据进入LC3编码器进行编码判断的过程中,这100帧的音频数据将会一直使用第一码率进行编码,并且状态转移计数器的数值一直为5,当第101帧的音频数据输入的时候,当前这第101帧的语音子带能量熵大于语音门限值,第101帧被判断为非语音帧,但是由于状态转移计数器的数值为5,其大于初始值0,所以仍旧以第一码率对当前第101帧音频数据进行编码,直到第106帧音频数据输入时,由于此时状态转移计数器的数值为0,其不大于初始值0,所以以第二码率对当前第106帧音频数据进行编码,从第106帧音频数据到第200帧音频数据,均以第二码率进行编码,从而降低了编码速率。
图7示出了本发明一种优化语音编码速率和运算量的装置的具体实施方式。
在该具体实施方式中,优化语音编码速率和运算量的装置包括模块701,用于根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵的模块。
在本发明的一个具体实施例中,用于根据当前音频帧的语音子带能量计算当前音频帧的语音子带能量熵的模块,还用于根据当前音频帧的语音子带能量计算出当前音频帧的语音子带总能量;根据语音子带能量和语音子带总能量计算出当前音频帧的语音子带能量概率;以及根据语音子带能量概率计算出语音子带能量熵。
在图7所示的具体实施方式中,优化语音编码速率和运算量的装置包括模块702,用于根据语音子带能量熵的大小设置当前音频帧对应的编码码率的模块,其中,语音子带能量熵越大,对应的编码码率越小。
在本发明的一个具体实施例中,用于根据语音子带能量熵的大小设置当前音频帧对应的编码码率的模块,还用于当语音子带能量熵小于语音门限值时,将编码码率设定为第一码率;当语音子带能量熵大于或等于语音门限值时,将编码码率设定为第一码率或第二码率,其中第二码率小于第一码率。
在本发明的一个具体实施例中,用于根据语音子带能量熵的大小设置当前音频帧对应的编码码率的模块,进一步用于,当语音子带能量熵小于语音门限值时,将状态转移计数器设定为预设数值,并将编码码率设定为第一码率;当语音子带能量熵大于或等于语音门限值时,若状态转移计数器的数值不大于初始值,则将编码码率设定为第二码率;若状态转移计数器的数值大于初始值,则将状态转移计数器的数值自动降低,并将编码码率设定为第一码率。
在本发明的一个具体实施例中,一种优化语音编码速率和运算量的装置,还包括用于根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程的模块。通过对编码参数的设置可以控制当前音频帧的编码过程是否需要跳过正常编码模块,从而达到节省运算量的目的。
在本发明的一个具体实施例中,用于根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程的模块,还用于根据语音子带能量熵的大小设置带宽检测参数,其中,当语音子带能量熵小于带宽检测门限值时,对当前音频帧进行带宽检测过程;当语音子带能量熵大于或等于带宽检测门限值时,将带宽设定为默认最大带宽,并且当前音频帧跳过带宽检测过程。
在本发明的一个具体实施例中,用于根据语音子带能量熵的大小设置编码参数,根据编码参数控制当前音频帧的编码过程的模块,还用于根据语音子带能量熵的大小设置滤波参数,其中,当语音子带能量熵小于滤波门限值时,对当前音频帧进行长期后置滤波器的滤波过程;当语音子带能量熵大于或等于滤波门限值时,长期后置滤波器不使能,当前音频帧跳过滤波过程。
在图7所示的具体实施方式中,优化语音编码速率和运算量的装置包括模块703,用于根据编码码率对当前音频帧进行编码的模块。
在本发明的一个具体实施例中,根据语音子带能量熵和语谱的关系确定语音门限值、带宽检测门限值以及滤波门限值。
本发明提供的一种优化语音编码速率和运算量的装置,可用于执行上述任一实施例描述的优化语音编码速率和运算量的方法,其实现原理和技术效果类似,在此不再赘述。
在本发明的一个具体实施例中,本发明提供的一种优化语音编码速率和运算量的装置中模块701、模块702以及模块703可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本发明的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行方案一中的优化语音编码速率和运算量的方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上描述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种优化语音编码编码速率和运算量的方法,其特征在于,包括:
根据当前音频帧的语音子带能量计算所述当前音频帧的语音子带能量熵;
根据所述语音子带能量熵的大小设置所述当前音频帧对应的编码码率,其中,所述语音子带能量熵越大,对应的所述编码码率越小;以及
根据所述编码码率对所述当前音频帧进行编码。
2.根据权利要求1所述的优化语音编码速率和运算量的方法,其特征在于,所述根据所述语音子带能量熵的大小设置所述当前音频帧对应的编码码率的过程包括:
当所述语音子带能量熵小于语音门限值时,将所述编码码率设定为第一码率;
当所述语音子带能量熵大于或等于所述语音门限值时,将所述编码码率设定为所述第一码率或第二码率,其中所述第二码率小于所述第一码率。
3.根据权利要求2所述的优化语音编码速率和运算量的方法,其特征在于,所述根据所述语音子带能量熵的大小设置所述当前音频帧对应的编码码率的过程进一步包括:
当所述语音子带能量熵小于语音门限值时,将状态转移计数器设定为预设数值,并将所述编码码率设定为所述第一码率;
当所述语音子带能量熵大于或等于所述语音门限值时,
若所述状态转移计数器的数值不大于初始值,则将所述编码码率设定为第二码率;
若所述状态转移计数器的数值大于所述初始值,则将所述状态转移计数器的数值自动降低,并将所述编码码率设定为所述第一码率。
4.根据权利要求1所述的优化语音编码速率和运算量的方法,其特征在于,还包括:
根据所述语音子带能量熵的大小设置编码参数,根据所述编码参数控制所述当前音频帧的编码过程。
5.根据权利要求4所述的优化语音编码速率和运算量的方法,其特征在于,所述根据所述语音子带能量熵的大小设置编码参数,根据所述编码参数控制所述当前音频帧的编码过程,包括:
根据所述语音子带能量熵的大小设置带宽检测参数,其中,
当所述语音子带能量熵小于带宽检测门限值时,对所述当前音频帧进行带宽检测过程;
当所述语音子带能量熵大于或等于所述带宽检测门限值时,将带宽设定为默认最大带宽,并且所述当前音频帧跳过所述带宽检测过程。
6.根据权利要求4所述的优化语音编码速率和运算量的方法,其特征在于,所述根据所述语音子带能量熵的大小设置编码参数,根据所述编码参数控制所述当前音频帧的编码过程,还包括:
根据所述语音子带能量熵的大小设置滤波参数,其中,
当所述语音子带能量熵小于滤波门限值时,对所述当前音频帧进行长期后置滤波器的滤波过程;
当所述语音子带能量熵大于或等于滤波门限值时,所述长期后置滤波器不使能,所述当前音频帧跳过所述滤波过程。
7.根据权利要求1所述的优化语音编码速率和运算量的方法,其特征在于,所述根据当前音频帧的语音子带能量计算所述当前音频帧的语音子带能量熵的过程包括:
根据所述当前音频帧的语音子带能量计算出所述当前音频帧的语音子带总能量;
根据所述语音子带能量和所述语音子带总能量计算出所述当前音频帧的语音子带能量概率;以及
根据所述语音子带能量概率计算出所述语音子带能量熵。
8.如权利要求1所述的优化语音编码速率和运算量的方法,其特征在于,根据所述语音子带能量熵和语谱的对应关系确定所述语音门限值、所述带宽检测门限值以及所述滤波门限值。
9.一种优化语音编码速率和运算量的装置,其特征在于,包括:
用于根据当前音频帧的语音子带能量计算所述当前音频帧的语音子带能量熵的模块;
用于根据所述语音子带能量熵的大小设置所述当前音频帧对应的编码码率的模块,其中,所述语音子带能量熵越大,对应的所述编码码率越小;以及
用于根据所述编码码率对所述当前音频帧进行编码的模块。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-8中任一项所述的优化语音编码速率和运算量的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532857.XA CN112599140A (zh) | 2020-12-23 | 2020-12-23 | 一种优化语音编码速率和运算量的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532857.XA CN112599140A (zh) | 2020-12-23 | 2020-12-23 | 一种优化语音编码速率和运算量的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112599140A true CN112599140A (zh) | 2021-04-02 |
Family
ID=75200728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011532857.XA Pending CN112599140A (zh) | 2020-12-23 | 2020-12-23 | 一种优化语音编码速率和运算量的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599140A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205826A (zh) * | 2021-05-12 | 2021-08-03 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113450809A (zh) * | 2021-08-30 | 2021-09-28 | 北京百瑞互联技术有限公司 | 语音数据处理方法、系统及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308659A (zh) * | 2007-05-16 | 2008-11-19 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
US20110103468A1 (en) * | 2009-11-04 | 2011-05-05 | Qualcomm Incorporated | Controlling video encoding using audio information |
US20130151260A1 (en) * | 2011-12-12 | 2013-06-13 | Motorola Mobility, Inc. | Apparatus and method for audio encoding |
US20160293175A1 (en) * | 2015-04-05 | 2016-10-06 | Qualcomm Incorporated | Encoder selection |
CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
CN111681663A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码运算量的方法、系统、存储介质及设备 |
CN111681664A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码码率的方法、系统、存储介质及设备 |
-
2020
- 2020-12-23 CN CN202011532857.XA patent/CN112599140A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308659A (zh) * | 2007-05-16 | 2008-11-19 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
US20110103468A1 (en) * | 2009-11-04 | 2011-05-05 | Qualcomm Incorporated | Controlling video encoding using audio information |
US20130151260A1 (en) * | 2011-12-12 | 2013-06-13 | Motorola Mobility, Inc. | Apparatus and method for audio encoding |
US20160293175A1 (en) * | 2015-04-05 | 2016-10-06 | Qualcomm Incorporated | Encoder selection |
CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
CN111681663A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码运算量的方法、系统、存储介质及设备 |
CN111681664A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码码率的方法、系统、存储介质及设备 |
Non-Patent Citations (2)
Title |
---|
应娜, 赵晓晖: "一种基于正弦模型的变码率低速率宽带语音编码算法", 吉林大学学报(工学版), no. 04 * |
肖玉娟;赵利;: "基于MELP的变速率分类型语音编码算法", 电声技术, no. 02 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205826A (zh) * | 2021-05-12 | 2021-08-03 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113205826B (zh) * | 2021-05-12 | 2022-06-07 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113450809A (zh) * | 2021-08-30 | 2021-09-28 | 北京百瑞互联技术有限公司 | 语音数据处理方法、系统及介质 |
CN113450809B (zh) * | 2021-08-30 | 2021-11-30 | 北京百瑞互联技术有限公司 | 语音数据处理方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8600740B2 (en) | Systems, methods and apparatus for context descriptor transmission | |
RU2667382C2 (ru) | Улучшение классификации между кодированием во временной области и кодированием в частотной области | |
JP5203929B2 (ja) | スペクトルエンベロープ表示のベクトル量子化方法及び装置 | |
RU2641464C1 (ru) | Способ, устройство и система для обработки аудиоданных | |
US10141001B2 (en) | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding | |
CN110619881B (zh) | 一种语音编码方法、装置及设备 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
TW200820219A (en) | Systems, methods, and apparatus for gain factor limiting | |
EP2954524B1 (en) | Systems and methods of performing gain control | |
MX2013004673A (es) | Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo. | |
CN110767243A (zh) | 一种音频编码方法、装置及设备 | |
KR102099752B1 (ko) | 신호 인코딩 방법 및 장치 | |
CN112599140A (zh) | 一种优化语音编码速率和运算量的方法、装置及存储介质 | |
CN112289328A (zh) | 一种确定音频编码码率的方法及系统 | |
TWI590237B (zh) | 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 | |
EP3127112B1 (en) | Apparatus and methods of switching coding technologies at a device | |
WO2021000724A1 (zh) | 一种立体声编码方法、立体声解码方法和装置 | |
CN112002338A (zh) | 一种优化音频编码量化次数的方法及系统 | |
CN115188388B (zh) | 一种音频后置滤波方法、装置、存储介质及设备 | |
JP2006039559A (ja) | 移動通信端末機のplpを利用した音声コーディング装置及び方法 | |
CN116504256A (zh) | 一种语音编码方法、装置、介质、设备和程序产品 | |
CN114566174B (zh) | 一种优化语音编码的方法、装置、系统、介质及设备 | |
CN112951252B (zh) | 一种lc3音频码流的混音方法、装置、介质及设备 | |
CN115662453A (zh) | 一种基于深度学习的语音编码方法、系统、介质及设备 | |
CN115035908A (zh) | 基于深度学习的语音频带扩展方法、装置及编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Applicant after: Beijing Bairui Internet Technology Co.,Ltd. Address before: 7-1-1, building C, 7 / F, building 2-1, No.2, Shangdi Information Road, Haidian District, Beijing 100085 Applicant before: BARROT WIRELESS Co.,Ltd. Country or region before: China |