CN106486129B - 一种音频编码方法和装置 - Google Patents

一种音频编码方法和装置 Download PDF

Info

Publication number
CN106486129B
CN106486129B CN201610984423.0A CN201610984423A CN106486129B CN 106486129 B CN106486129 B CN 106486129B CN 201610984423 A CN201610984423 A CN 201610984423A CN 106486129 B CN106486129 B CN 106486129B
Authority
CN
China
Prior art keywords
audio frame
frame
previous
audio
tilt frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610984423.0A
Other languages
English (en)
Other versions
CN106486129A (zh
Inventor
刘泽新
王宾
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN106486129A publication Critical patent/CN106486129A/zh
Application granted granted Critical
Publication of CN106486129B publication Critical patent/CN106486129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

本发明实施例公开了一种音频编码方法和装置,包括:对于音频中的每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。本发明能够在码率不变或者码率变化不大的情况下编码带宽更宽的音频,且音频帧间频谱更为平稳。

Description

一种音频编码方法和装置
技术领域
本发明涉及通信领域,尤其涉及一种音频编码方法和装置。
背景技术
随着技术的不断进步,用户对电子设备的音频质量的需求越来越高,其中提高音频的带宽是提高音频质量的主要方法,如果电子设备采用传统的编码方式对音频进行编码以增加音频的带宽,会大大提高音频的编码信息的码率,从而在两个电子设备之间传输音频的编码信息时会占用较多的网络传输带宽,由此提出的课题就是:要在音频编码信息的码率不变或者码率变化不大的情况下编码带宽更宽的音频。针对这个课题提出的解决方案是采用频带扩展技术,频带扩展技术分为时域频带扩展技术和频域频带扩展技术,本发明涉及时域频带扩展技术。
在时域频带扩展技术中,一般使用线性预测算法计算出音频中每一音频帧的线性预测参数,例如线性预测编码(LPC,Linear Predictive Coding)系数、线性频谱对(LSP,Linear Spectral Pairs)系数、电抗频谱对(ISP,Immittance Spectral Pairs)系数或者线性谱频率(LSF,Linear Spectral Frequency)系数等,在对音频进行编码传输时,根据音频中每一音频帧的线性预测参数对音频进行编码。但是,在编解码误差精度要求比较高的情况下,这种编码方式会造成音频帧间频谱的不连续。
发明内容
本发明实施例中提供了一种音频编码方法和装置,能够在码率不变或者码率变化不大的情况下编码带宽更宽的音频,且音频帧间频谱更为平稳。
第一方面,本发明实施例提供一种音频编码方法,包括:
对于每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;
根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;
根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。
结合第一方面,在第一方面第一种可能的实现方式中,所述根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重,包括:
根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述音频帧的前一音频帧的LSF差值,i为LSF差值的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第一方面、或第一方面第一种可能的实现方式,在第一方面第二种可能的实现方式中,所述确定第二修正权重,包括:
将所述第二修正权重确定为预设修正权重值,所述预设修正权重值大于0,小于或等于1。
结合第一方面、或第一方面第一种可能的实现方式、或第一方面第二种可能的实现方式,在第一方面第三种可能的实现方式中,所述根据确定的所述第一修正权重对所述音频帧的线性预测参数进行修正,包括:
根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第一方面、或第一方面第一种可能的实现方式、或第一方面第二种可能的实现方式、或第一方面第三种可能的实现方式,在第一方面第四种可能的实现方式中,所述根据确定的所述第二修正权重对所述音频帧的线性预测参数进行修正,包括:
根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第一方面、或第一方面第一种可能的实现方式、或第一方面第二种可能的实现方式、或第一方面第三种可能的实现方式、或第一方面第四种可能的实现方式,在第一方面第五种可能的实现方式中,所述确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件,包括:确定所述音频帧不是过渡帧,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、从摩擦音到非摩擦音的过渡帧;
所述确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件,包括:确定所述音频帧是过渡帧。
结合第一方面第五种可能的实现方式,在第一方面第六种可能的实现方式中,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的编码类型为瞬态;
确定所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率不大于所述第一谱倾斜频率阈值,和/或所述音频帧的编码类型不为瞬态;
结合第一方面第五种可能的实现方式,在第一方面第七种可能的实现方式中,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值;
确定所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率不大于所述第一谱倾斜频率阈值,和/或所述音频帧的谱倾斜频率不小于所述第二谱倾斜频率阈值。
结合第一方面第五种可能的实现方式,在第一方面第八种可能的实现方式中,确定所述音频帧是从非摩擦音到摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且,所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且,所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值;
确定所述音频帧不是从非摩擦音到摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率不小于所述第三谱倾斜频率阈值,和/或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,和/或所述音频帧的谱倾斜频率不大于所述第四谱倾斜频率阈值。
结合第一方面第五种可能的实现方式,在第一方面第九种可能的实现方式中,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的编码类型为瞬态。
结合第一方面第五种可能的实现方式,在第一方面第十种可能的实现方式中,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值。
结合第一方面第五种可能的实现方式,在第一方面第十一种可能的实现方式中确定所述音频帧是从非摩擦音到摩擦音的过渡帧,包括:确定所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且,所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且,所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值。
第二方面,本发明实施例提供一种音频编码装置,包括确定单元、修正单元以及编码单元,其中,
所述确定单元,用于对于每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;
所述修正单元,用于根据所述确定单元确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;
所述编码单元,用于根据所述修正单元修正得到的所述音频帧修正后的线性预测参数对所述音频帧进行编码。
结合第二方面,在第二方面第一种可能的实现方式中,所述确定单元具体用于:根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述音频帧的前一音频帧的LSF差值,i为LSF差值的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第二方面、或第二方面第一种可能的实现方式,在第二方面第二种可能的实现方式中,所述确定单元具体用于:将所述第二修正权重确定为预设修正权重值,所述预设修正权重值大于0,小于等于1。
结合第二方面、或第二方面第一种可能的实现方式、或第二方面第二种可能的实现方式,在第二方面第三种可能的实现方式中,所述修正单元具体用于:根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第二方面、或第二方面第一种可能的实现方式、或第二方面第二种可能的实现方式、或第二方面第三种可能的实现方式,在第二方面第四种可能的实现方式中,所述修正单元具体用于:根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
结合第二方面、或第二方面第一种可能的实现方式、或第二方面第二种可能的实现方式、或第二方面第三种可能的实现方式、或第二方面第四种可能的实现方式,在第二方面第五种可能的实现方式中,所述确定单元具体用于:对于音频中的每一音频帧,确定所述音频帧不是过渡帧时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧是过渡帧时,确定第二修正权重;所述过渡帧包括从非摩擦音到摩擦音的过渡帧、从摩擦音到非摩擦音的过渡帧。
结合第二方面第五种可能的实现方式,在第二方面第六种可能的实现方式中,所述确定单元具体用于:
对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的编码类型不为瞬态时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于所述第一谱倾斜频率阈值、并且所述音频帧的编码类型为瞬态时,确定第二修正权重。
结合第二方面第五种可能的实现方式,在第二方面第七种可能的实现方式中,所述确定单元具体用于:
对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于所述第一谱倾斜频率阈值、并且所述音频帧的谱倾斜频率小于所述第二谱倾斜频率阈值时,确定第二修正权重。
结合第二方面第五种可能的实现方式,在第二方面第八种可能的实现方式中,所述确定单元具体用于:
对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,和/或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,和/或所述音频帧的谱倾斜不大于第四谱倾斜阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率小于所述第三谱倾斜频率阈值,并且所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且所述音频帧的谱倾斜频率大于所述第四谱倾斜频率阈值时,确定第二修正权重。
本发明实施例中,对于音频中的每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。从而根据所述音频帧与所述音频帧的前一音频帧的信号特性是否相近来确定不同的修正权重,对音频帧的线性预测参数进行修正,使得音频帧间频谱更为平稳;而且,根据所述音频帧修正后的线性预测参数对所述音频帧进行编码,从而能够在保证码率不变的情况下使得解码恢复的频谱帧间连续增强,从而更加接近原始的频谱,提高了编码性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例音频编码方法流程示意图;
图1A为实际频谱和LSF差值对比关系图;
图2为本发明实施例音频编码方法应用场景举例;
图3为本发明实施例音频编码装置结构示意图;
图4为本发明实施例电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例音频解码方法流程图,该方法包括:
步骤101:对于音频中的每一音频帧,电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;
步骤102:电子设备根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;
其中,所述线性预测参数可以包括:LPC、LSP、ISP或者LSF等。
步骤103:电子设备根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。
本实施例中,对于音频中的每一音频帧,电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。从而根据所述音频帧与所述音频帧的前一音频帧的信号特性是否相近来确定不同的修正权重,对音频帧的线性预测参数进行修正,使得音频帧间频谱更为平稳。另外,根据所述音频帧与所述音频帧的前一音频帧的信号特性是否相近来确定不同的修正权重,在信号特性不相近时确定的第二修正权重可以尽量接近1,从而在所述音频帧与所述音频帧的前一音频帧的信号特性不相近时,尽量保持音频帧的原始频谱特点,使得音频的编码信息被解码后得到的音频的听觉质量更好。
其中,对于步骤101中,电子设备如何确定所述音频帧与所述音频帧的前一音频帧的信号特性是否满足预设修正条件,其具体实现与修正条件的具体实现相关,以下举例说明:
在一种可能的实现方式中,所述修正条件可以包括:音频帧不是过渡帧,则,
电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件,可以包括:确定所述音频帧不是过渡帧,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、从摩擦音到非摩擦音的过渡帧;
电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件,可以包括:确定所述音频帧是所述过渡帧。
在一种可能的实现方式中,在确定所述音频帧是否是从摩擦音到非摩擦音的过渡帧时,可以通过确定所述前一音频帧的谱倾斜频率是否大于第一谱倾斜频率阈值,并且所述音频帧的编码类型是否为瞬态来实现,具体的,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的编码类型为瞬态;确定所述音频帧不是从摩擦音到非摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,和/或所述音频帧的编码类型不为瞬态;
在另一种可能的实现方式中,在确定所述音频帧是否是从摩擦音到非摩擦音的过渡帧时,可以通过确定所述前一音频帧的谱倾斜频率是否大于第一频率阈值,并且确定所述音频帧的谱倾斜频率是否小于第二频率阈值来实现,具体的,确定所述音频帧是从摩擦音到非摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值;确定所述音频帧不是从摩擦音到非摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,和/或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值。其中,本发明实施例对第一谱倾斜频率阈值和第二谱倾斜频率阈值的具体取值不限制,以及对第一谱倾斜频率阈值和第二谱倾斜频率阈值之间的大小关系不限制。可选的,在本发明一个实施例中,第一谱倾斜频率阈值的取值可以为5.0;在本发明另一个实施例中,第二谱倾斜频率阈值可以取值为1.0。
在一种可能的实现方式中,在确定所述音频帧是否是从非摩擦音到摩擦音的过渡帧时,可以通过确定所述前一音频帧的谱倾斜频率是否小于第三频率阈值,并且,确定所述前一音频帧的编码类型是否为浊音(Voiced)、一般(Generic)、瞬态(Transition)、音频(Audio)四种类型之一,并且,确定所述音频帧的谱倾斜频率是否大于第四频率阈值来实现,具体的,确定所述音频帧是从非摩擦音到摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且,所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且,所述音频帧的谱倾斜大于第四谱倾斜阈值;确定所述音频帧不是从非摩擦音到摩擦音的过渡帧,可以包括:确定所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,和/或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,和/或所述音频帧的谱倾斜频率不大于第四谱倾斜频率阈值。其中,本发明实施例对第三谱倾斜频率阈值和第四谱倾斜频率阈值的具体取值不限制,以及对第三谱倾斜频率阈值和第四谱倾斜频率阈值之间的大小关系不限制。在本发明一个实施例中,第三谱倾斜频率阈值的取值可以为3.0;在本发明另一个实施例中,第四谱倾斜频率阈值可以取值为5.0。
在步骤101中,电子设备根据所述音频帧的LSF差值和所述前一音频帧的LSF差值确定第一修正权重可以包括:
电子设备根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重;lsf_new_diff[i]为所述音频帧的LSF差值,lsf_new_diff[i]=lsf_new[i]-lsf_new[i-1],lsf_new[i]为所述音频帧的第i阶LSF参数,lsf_new[i-1]为所述音频帧的第i-1阶LSF参数;lsf_old_diff[i]为所述音频帧的前一音频帧的LSF差值,lsf_old_diff[i]=lsf_old[i]-lsf_old[i-1],lsf_old[i]为所述音频帧的前一音频帧的第i阶LSF参数,lsf_old[i-1]为所述音频帧的前一音频帧的第i-1阶LSF参数;i为LSF参数和LSF差值的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
其中,上述公式的原理如下:
参见图1A为实际频谱和LSF差值对比关系图,由该图可以看到,音频帧内LSF差值lsf_new_diff[i]反映了音频帧的频谱能量趋势,lsf_new_diff[i]越小,相应频点的频谱能量越大;
如果w[i]=lsf_new_diff[i]/lsf_old_diff[i]越小,说明在lsf_new[i]对应的频点处,前后帧的频谱能量差别越大,而且所述音频帧的频谱能量比前一音频帧对应频点的频谱能量大的越多;
如果w[i]=lsf_old_diff[i]/lsf_new_diff[i]越小,说明在lsf_new[i]对应的频点处,前后帧的频谱能量差别越小,而且所述音频帧的频谱能量比前一音频帧对应频点的频谱能量小的越多;
所以,为了使得前后帧间的频谱能平稳,可以用w[i]作为所述音频帧lsf_new[i]的权重,1-w[i]作为前一音频帧相应频点的权重,详见公式2所示。
在步骤101中,电子设备确定第二修正权重可以包括:
电子设备将所述第二修正权重确定为预设修正权重值,所述预设修正权重值大于0,小于等于1。
优选地,所述预设修正权重值是一个接近1的数值。
在步骤102中,电子设备根据确定的所述第一修正权重对所述音频帧的线性预测参数进行修正可以包括:
根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i]; 公式2
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
在步骤102中,电子设备根据确定的所述第二修正权重对所述音频帧的线性预测参数进行修正可以包括:
根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i]; 公式3
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
在步骤103中,电子设备具体如何根据所述音频帧修正后的线性预测参数对所述音频帧进行编码,可以参考相关时域频带扩展技术,本发明不再赘述。
本发明实施例音频编码方法可以应用于图2所示的时域频带扩展方法中。其中,在该时域频带扩展方法中:
将原始的音频信号分解为低频带信号和高频带信号;
对于低频带信号,依次进行低频带信号编码、低频带激励信号预处理、LP合成、计算及量化时域包络等处理;
对于高频带信号,依次进行高频带信号预处理、LP分析、量化LPC等处理;
根据低频带信号编码的结果、量化LPC的结果以及计算及量化时域包络的结果对音频信号进行MUX。
其中,所述量化LPC即对应本发明实施例的步骤101和步骤102,而对音频信号进行MUX即对应本发明实施例的步骤103。
参见图3,为本发明实施例一种音频编码装置结构示意图,该装置可以设置于电子设备中,该装置300可以包括确定单元310、修正单元320以及编码单元330,其中,
所述确定单元310,用于对于音频中的每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;
所述修正单元320,用于根据所述确定单元310确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;
所述编码单元330,用于根据所述修正单元320修正得到的所述音频帧修正后的线性预测参数对所述音频帧进行编码。
可选地,所述确定单元310具体可以用于:根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述音频帧的前一音频帧的LSF差值,i为LSF差值的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述确定单元310具体可以用于:将所述第二修正权重确定为预设修正权重值,所述预设修正权重值大于0,小于等于1。
可选地,所述修正单元320具体可以用于:根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述修正单元320具体可以用于:根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述确定单元310具体可以用于:对于音频中的每一音频帧,确定所述音频帧不是过渡帧时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧是过渡帧时,确定第二修正权重;所述过渡帧包括从非摩擦音到摩擦音的过渡帧、从摩擦音到非摩擦音的过渡帧。
可选地,所述确定单元310具体可以用于:对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的编码类型不为瞬态时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值、并且所述音频帧的编码类型为瞬态时,确定第二修正权重。
可选地,所述确定单元310具体可以用于:对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值、并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值时,确定第二修正权重。
可选地,所述确定单元310具体可以用于:对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,和/或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,和/或所述音频帧的谱倾斜不大于第四谱倾斜阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值时,确定第二修正权重。
本实施例中,对于音频中的每一音频帧,电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。从而根据所述音频帧与所述音频帧的前一音频帧的信号特性是否满足预设修正条件来确定不同的修正权重,对音频帧的线性预测参数进行修正,使得音频帧间频谱更为平稳;而且,电子设备根据所述音频帧修正后的线性预测参数对所述音频帧进行编码,从而能够保证在码率不变或者码率变化不大的情况下编码带宽更宽的音频。
参见图4,为本发明实施例第一节点结构图,该第一节点400包括:处理器410、存储器420、收发器430和总线440;
处理器410、存储器420、收发器430通过总线440相互连接;总线440可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器420,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器420可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
收发器430用于连接其他设备,并与其他设备进行通信。
所述处理器410执行所述程序代码,用于对于音频中的每一音频帧,确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;所述预设修正条件用于确定所述音频帧与所述音频帧的前一音频帧的信号特性相近;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。
可选地,所述处理器410具体可以用于:根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述音频帧的前一音频帧的LSF差值,i为LSF差值的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述处理器410具体可以用于:将所述第二修正权重确定为1;或者,
将所述第二修正权重确定为预设修正权重值,所述预设修正权重值大于0,小于等于1。
可选地,所述处理器410具体可以用于:根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述处理器410具体可以用于:根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述音频帧的前一音频帧的线性预测参数,i为线性预测参数的阶数,i的取值为0~M-1,M为线性预测参数的阶数。
可选地,所述处理器410具体可以用于:对于音频中的每一音频帧,确定所述音频帧不是过渡帧时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧是过渡帧时,确定第二修正权重;所述过渡帧包括从非摩擦音到摩擦音的过渡帧、从摩擦音到非摩擦音的过渡帧。
可选地,所述处理器410具体可以用于:
对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的编码类型不为瞬态时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值、并且所述音频帧的编码类型为瞬态时,确定第二修正权重;
或者,对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值、和/或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值、并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值时,确定第二修正权重。
可选地,所述处理器410具体可以用于:
对于音频中的每一音频帧,确定所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,和/或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,和/或所述音频帧的谱倾斜不大于第四谱倾斜阈值时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值时,确定第二修正权重。
本实施例中,对于音频中的每一音频帧,电子设备确定所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重;确定所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重;根据确定的所述第一修正权重或者所述第二修正权重对所述音频帧的线性预测参数进行修正;根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。从而根据所述音频帧与所述音频帧的前一音频帧的信号特性是否满足预设修正条件来确定不同的修正权重,对音频帧的线性预测参数进行修正,使得音频帧间频谱更为平稳;而且,电子设备根据所述音频帧修正后的线性预测参数对所述音频帧进行编码,从而能够保证在码率不变或者码率变化不大的情况下编码带宽更宽的音频。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (26)

1.一种音频编码方法,其特征在于,包括:
对于当前音频帧,当所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重,所述音频帧与所述前一音频帧的信号特性满足预设修正条件,包括:所述音频帧不是过渡帧;
根据确定的所述第一修正权重对所述音频帧的线性预测参数进行修正;
根据所述音频帧修正后的线性预测参数对所述音频帧进行编码。
2.根据权利要求1所述的方法,其特征在于,所述根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重,包括:
根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述前一音频帧的LSF差值,i的取值为0~M-1,M为线性预测参数的阶数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据确定的所述第一修正权重对所述音频帧的线性预测参数进行修正,包括:
根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述前一音频帧的线性预测参数,i的取值为0~M-1,M为线性预测参数的阶数。
4.根据权利要求1所述的方法,其特征在于,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、或从摩擦音到非摩擦音的过渡帧。
5.根据权利要求4所述的方法,其特征在于,所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,或所述音频帧的编码类型不为瞬态。
6.根据权利要求4所述的方法,其特征在于,所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值。
7.根据权利要求4所述的方法,其特征在于,所述音频帧不是从非摩擦音到摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,或所述音频帧的谱倾斜频率不大于第四谱倾斜频率阈值。
8.一种音频编码方法,其特征在于,包括:
对于当前音频帧,当所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,根据预设的第二修正权重对所述音频帧的线性预测参数进行修正,所述预设修正权重值大于0,小于或等于1;
根据所述音频帧修正后的线性预测参数对所述音频帧进行编码;
所述音频帧与所述前一音频帧的信号特性不满足预设修正条件,包括:所述音频帧是过渡帧。
9.根据权利要求8所述的方法,其特征在于,所述根据预设的第二修正权重对所述音频帧的线性预测参数进行修正,包括:
根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述前一音频帧的线性预测参数,i的取值为0~M-1,M为线性预测参数的阶数。
10.根据权利要求8或9所述的方法,其特征在于,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、或从摩擦音到非摩擦音的过渡帧。
11.根据权利要求10所述的方法,其特征在于,所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的编码类型为瞬态。
12.根据权利要求10所述的方法,其特征在于,所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值。
13.根据权利要求10所述的方法,其特征在于,所述音频帧是从非摩擦音到摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且,所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且,所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值。
14.一种音频编码装置,其特征在于,所述装置包括确定单元、修正单元以及编码单元,其中,
所述确定单元,用于对于当前音频帧,当所述音频帧与所述音频帧的前一音频帧的信号特性满足预设修正条件时,根据所述音频帧的线性谱频率LSF差值和所述前一音频帧的LSF差值确定第一修正权重,所述音频帧与所述前一音频帧的信号特性满足预设修正条件,包括:所述音频帧不是过渡帧;
所述修正单元,用于根据所述确定单元确定的所述第一修正权重对所述音频帧的线性预测参数进行修正;
所述编码单元,用于根据所述修正单元修正得到的所述音频帧修正后的线性预测参数对所述音频帧进行编码。
15.根据权利要求14所述的装置,其特征在于,所述确定单元具体用于:根据所述音频帧的LSF差值和所述前一音频帧的LSF差值使用以下公式确定所述第一修正权重:
其中,w[i]为所述第一修正权重,lsf_new_diff[i]为所述音频帧的LSF差值,lsf_old_diff[i]为所述前一音频帧的LSF差值,i的取值为0~M-1,M为线性预测参数的阶数。
16.根据权利要求14或15所述的装置,其特征在于,所述修正单元具体用于:
根据所述第一修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-w[i])*L_old[i]+w[i]*L_new[i];
其中,w[i]为所述第一修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述前一音频帧的线性预测参数,i的取值为0~M-1,M为线性预测参数的阶数。
17.根据权利要求14所述的装置,其特征在于,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、或从摩擦音到非摩擦音的过渡帧。
18.根据权利要求17所述的装置,其特征在于,所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,或所述音频帧的编码类型不为瞬态。
19.根据权利要求17所述的装置,其特征在于,所述音频帧不是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不大于第一谱倾斜频率阈值,或所述音频帧的谱倾斜频率不小于第二谱倾斜频率阈值。
20.根据权利要求17所述的装置,其特征在于,所述音频帧不是从非摩擦音到摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率不小于第三谱倾斜频率阈值,或所述前一音频帧的编码类型不为浊音、一般、瞬态、音频四种类型之一,或所述音频帧的谱倾斜频率不大于第四谱倾斜频率阈值。
21.一种音频编码装置,其特征在于,所述装置包括确定单元、修正单元以及编码单元,其中,
所述确定单元,用于对于当前音频帧,当所述音频帧与所述音频帧的前一音频帧的信号特性不满足预设修正条件时,确定第二修正权重,所述第二修正权重值大于0,小于或等于1,所述音频帧与所述前一音频帧的信号特性不满足预设修正条件,包括:所述音频帧是过渡帧;
所述修正单元,用于根据所述确定单元确定的所述第二修正权重对所述音频帧的线性预测参数进行修正;
所述编码单元,用于根据所述修正单元修正得到的所述音频帧修正后的线性预测参数对所述音频帧进行编码。
22.根据权利要求21所述的装置,其特征在于,所述修正单元具体用于:
根据所述第二修正权重使用以下公式对所述音频帧的线性预测参数进行修正:
L[i]=(1-y)*L_old[i]+y*L_new[i];
其中,y为所述第二修正权重,L[i]为所述音频帧修正后的线性预测参数,L_new[i]为所述音频帧的线性预测参数,L_old[i]为所述前一音频帧的线性预测参数,i的取值为0~M-1,M为线性预测参数的阶数。
23.根据权利要求21或22所述的装置,其特征在于,所述过渡帧包括从非摩擦音到摩擦音的过渡帧、或从摩擦音到非摩擦音的过渡帧。
24.根据权利要求23所述的装置,其特征在于,所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的编码类型为瞬态。
25.根据权利要求23所述的装置,其特征在于,所述音频帧是从摩擦音到非摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率大于第一谱倾斜频率阈值,并且所述音频帧的谱倾斜频率小于第二谱倾斜频率阈值。
26.根据权利要求23所述的装置,其特征在于,所述音频帧是从非摩擦音到摩擦音的过渡帧,包括:所述前一音频帧的谱倾斜频率小于第三谱倾斜频率阈值,并且,所述前一音频帧的编码类型为浊音、一般、瞬态、音频四种类型之一,并且,所述音频帧的谱倾斜频率大于第四谱倾斜频率阈值。
CN201610984423.0A 2014-06-27 2014-08-26 一种音频编码方法和装置 Active CN106486129B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410299590 2014-06-27
CN2014102995902 2014-06-27
CN201410426046.XA CN105225670B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410426046.XA Division CN105225670B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置

Publications (2)

Publication Number Publication Date
CN106486129A CN106486129A (zh) 2017-03-08
CN106486129B true CN106486129B (zh) 2019-10-25

Family

ID=54936716

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610984423.0A Active CN106486129B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置
CN201410426046.XA Active CN105225670B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410426046.XA Active CN105225670B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置

Country Status (9)

Country Link
US (4) US9812143B2 (zh)
EP (3) EP3340242B1 (zh)
JP (1) JP6414635B2 (zh)
KR (3) KR102130363B1 (zh)
CN (2) CN106486129B (zh)
ES (2) ES2882485T3 (zh)
HU (1) HUE054555T2 (zh)
PL (1) PL3340242T3 (zh)
WO (1) WO2015196837A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2618919C2 (ru) * 2013-01-29 2017-05-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для синтезирования аудиосигнала, декодер, кодер, система и компьютерная программа
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US11430464B2 (en) 2018-01-17 2022-08-30 Nippon Telegraph And Telephone Corporation Decoding apparatus, encoding apparatus, and methods and programs therefor
CN111602196B (zh) * 2018-01-17 2023-08-04 日本电信电话株式会社 编码装置、解码装置、它们的方法及计算机可读记录介质
CN113348507A (zh) * 2019-01-13 2021-09-03 华为技术有限公司 高分辨率音频编解码
CN110390939B (zh) * 2019-07-15 2021-08-20 珠海市杰理科技股份有限公司 音频压缩方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1081037A (zh) * 1992-01-28 1994-01-19 夸尔柯姆股份有限公司 用于掩蔽传输信道产生的差错的声码器数据设置的方法和系统
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN101114450A (zh) * 2007-07-20 2008-01-30 华中科技大学 一种语音编码选择性加密方法
GB2466670A (en) * 2009-01-06 2010-07-07 Skype Ltd Transmit line spectral frequency vector and interpolation factor determination in speech encoding
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3270922B2 (ja) * 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6199040B1 (en) * 1998-07-27 2001-03-06 Motorola, Inc. System and method for communicating a perceptually encoded speech spectrum signal
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
WO2000060579A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
KR20070009644A (ko) * 2004-04-27 2007-01-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
US8510105B2 (en) * 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
JP4816115B2 (ja) * 2006-02-08 2011-11-16 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
EP2063418A4 (en) * 2006-09-15 2010-12-15 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
EP2126901B1 (en) * 2007-01-23 2015-07-01 Infoture, Inc. System for analysis of speech
EP2132731B1 (en) 2007-03-05 2015-07-22 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
ES2372014T3 (es) * 2008-07-11 2012-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral.
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
RU2606552C2 (ru) 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1081037A (zh) * 1992-01-28 1994-01-19 夸尔柯姆股份有限公司 用于掩蔽传输信道产生的差错的声码器数据设置的方法和系统
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN101114450A (zh) * 2007-07-20 2008-01-30 华中科技大学 一种语音编码选择性加密方法
GB2466670A (en) * 2009-01-06 2010-07-07 Skype Ltd Transmit line spectral frequency vector and interpolation factor determination in speech encoding
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MPEG_2_4_AAC音频编码模块的验证;王婷;《计算机技术与发展》;20120731;第57-63页 *

Also Published As

Publication number Publication date
JP2017524164A (ja) 2017-08-24
CN106486129A (zh) 2017-03-08
KR20190071834A (ko) 2019-06-24
KR101888030B1 (ko) 2018-08-13
JP6414635B2 (ja) 2018-10-31
EP3136383B1 (en) 2017-12-27
PL3340242T3 (pl) 2021-12-06
US20170076732A1 (en) 2017-03-16
EP3937169A2 (en) 2022-01-12
US20210390968A1 (en) 2021-12-16
KR20170003969A (ko) 2017-01-10
US11133016B2 (en) 2021-09-28
KR102130363B1 (ko) 2020-07-06
US20170372716A1 (en) 2017-12-28
EP3136383A1 (en) 2017-03-01
CN105225670B (zh) 2016-12-28
HUE054555T2 (hu) 2021-09-28
EP3340242A1 (en) 2018-06-27
KR101990538B1 (ko) 2019-06-18
EP3136383A4 (en) 2017-03-08
ES2659068T3 (es) 2018-03-13
ES2882485T3 (es) 2021-12-02
EP3340242B1 (en) 2021-05-12
US10460741B2 (en) 2019-10-29
US9812143B2 (en) 2017-11-07
US20200027468A1 (en) 2020-01-23
WO2015196837A1 (zh) 2015-12-30
CN105225670A (zh) 2016-01-06
KR20180089576A (ko) 2018-08-08
EP3937169A3 (en) 2022-04-13

Similar Documents

Publication Publication Date Title
CN106486129B (zh) 一种音频编码方法和装置
US11721349B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
RU2421828C2 (ru) Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом
CN1989548B (zh) 语音解码装置及补偿帧生成方法
CN106415717B (zh) 音频信号分类和编码
EP3055860B1 (en) Gain shape estimation for improved tracking of high-band temporal characteristics
US10121484B2 (en) Method and apparatus for decoding speech/audio bitstream
CN105976830A (zh) 音频信号编码和解码方法、音频信号编码和解码装置
AU2014331903A1 (en) Gain shape estimation for improved tracking of high-band temporal characteristics
RU2680748C1 (ru) Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала
US9953660B2 (en) System and method for reducing tandeming effects in a communication system
BR112015014956B1 (pt) Método de codificação de sinal de áudio, método de decodificação de sinal de áudio, aparelho de codificação de sinal de áudio e aparelho de decodificação de sinal de áudio
BR112016025330B1 (pt) Método de codificação de áudio e aparelho relacionado
JP2008250346A (ja) 信号処理方法、信号処理装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant