CN106409304A - 一种音频信号的时域包络处理方法及装置、编码器 - Google Patents

一种音频信号的时域包络处理方法及装置、编码器 Download PDF

Info

Publication number
CN106409304A
CN106409304A CN201610992299.2A CN201610992299A CN106409304A CN 106409304 A CN106409304 A CN 106409304A CN 201610992299 A CN201610992299 A CN 201610992299A CN 106409304 A CN106409304 A CN 106409304A
Authority
CN
China
Prior art keywords
subframe
window
signal
foremost
significant end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610992299.2A
Other languages
English (en)
Other versions
CN106409304B (zh
Inventor
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610992299.2A priority Critical patent/CN106409304B/zh
Publication of CN106409304A publication Critical patent/CN106409304A/zh
Application granted granted Critical
Publication of CN106409304B publication Critical patent/CN106409304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供一种音频信号的时域包络处理方法及装置、编码器。该方法包括:根据接收到的当前帧音频信号,得到所述当前帧音频信号的高带信号;根据预先确定的时域包络个数M将所述当前帧音频信号的高带信号分成M个子帧,其中,M为大于等于2的整数;计算每一个所述子帧的时域包络;采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗;对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗。本发明实施例提供的音频信号的时域包络处理方法及装置,在求解多个时域包络能够很好的保持信号能量的连续,同时降低了计算时域包络的复杂度。

Description

一种音频信号的时域包络处理方法及装置、编码器
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种音频信号的时域包络处理方法及装置、编码器。
背景技术
随着语音频压缩技术的高速发展,各种语音频编码算法也相继出现。在语音频编码算法的处理过程中,需要计算时域包络,现有的计算并量化时域包络的过程为:根据事先设定好的计算时域包络的个数M,M为正整数,将预处理后的原始高带信号和预测的高带信号分别分成M个子帧,对子帧进行加窗,然后计算各个子帧内预处理后的原始高带信号和预测的高带信号的能量或幅度比。其中,事先设定好的计算时域包络的个数M是根据前向缓存(lookahead buffer)的长度来确定。前向缓存是当前帧为了计算一些参数的需要,将输入信号的最后某些样点缓存不用,在下一帧计算参数时使用,当前帧使用的是前一帧缓存的样点。缓存的这些样点即为前向缓存,缓存的样点的个数即为前向缓存的长度。
上述对时域包络的处理过程存在的问题是:在求解时域包络时,利用的都是对称窗,同时为了保证子帧间和帧间的混叠,根据前向缓存(lookahead)的长度计算了多个时域包络。但在计算时域包络时,如果信号的时域分辨率太高,会造成帧内能量的不连续,从而引入很差的听觉感受。
发明内容
本发明实施例提供一种音频信号的时域包络处理方法及装置、编码器,可解决在计算时域包络时造成的帧内能量的不连续的问题。
第一方面,本发明实施例提供一种音频信号的时域包络处理方法,包括:
根据接收到的当前帧信号,得到所述当前帧信号的高带信号;
根据预先确定的时域包络个数M将所述当前帧的高带信号分成M个子帧,其中,M为大于等于2的整数;
计算每一个所述子帧的时域包络;
其中,所述计算每一个所述子帧的时域包络包括:
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗;
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗。
根据本发明实施例提供的音频信号的时域包络的处理方法,在不同的条件下采用不同的窗长度和/或窗形状求解时域包络,减少因为时域包络差别太大引入的能量不连续的影响,能够提升输出信号的性能。
在第一方面的第一种可能的实施方式中,在采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗之前,所述方法还包括:
根据所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗;或者,
根据所述当前帧信号的高带信号的前向缓存的长度和所述时域包络个数M确定所述非对称窗。
结合第一方面或第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,所述对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗,包括:
对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用对称窗进行加窗;或者,
对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用非对称窗进行加窗。
结合第一方面,在第一方面的第三种可能的实施方式中,所述非对称窗的窗长与对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
结合第一方面的第一种可能的实施方式至第一方面的第三种可能的实施方式任意之一所述的方法,在第一方面的第四种可能的实施方式中,所述根据所述当前帧音频信号的高带信号的前向缓存的长度确定非对称窗,包括:
当所述当前帧信号的高带信号的前向缓存的长度小于第一阈值时,根据当前帧的前一帧信号的高带信号和所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗,其中,所述当前帧的前一帧信号的高带信号的最末端子帧采用的非对称窗和所述当前帧信号的高带信号的最前端子帧采用的非对称窗的混叠部分等于所述当前帧信号的高带信号的前向缓存的长度,所述第一阈值等于所述当前帧的高带信号的帧长除以M。
结合第一方面的第一种可能的实施方式至第一方面的第三种可能的实施方式任意之一所述的方法,在第一方面的第五种可能的实施方式中,所述根据所述当前帧信号的高带信号的前向缓存的长度确定非对称窗,包括:
当所述当前帧信号的高带信号的前向缓存的长度大于第一阈值时,根据所述当前帧的前一帧信号的高带信号和所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗,其中,所述当前帧的前一帧信号的高带信号的最末端子帧采用的非对称窗和所述当前帧信号的高带信号的最前端子帧采用的非对称窗的混叠部分等于所述第一阈值,所述第一阈值等于所述当前帧的高带信号的帧长除以M。
结合第一方面至第一方面的第五种可能的实施方式任意之一所述的方法,在第一方面的第六种可能的实施方式中,根据下列之一方式确定所述时域包络个数M:
根据所述当前帧信号得到所述当前帧信号的低带信号,当所述当前帧信号的低带信号的基音周期大于第二阈值时,M=M1;或者,
根据所述当前帧信号得到所述当前帧信号的低带信号,当所述当前帧信号的低带信号的基音周期不大于第二阈值时,M=M2;
其中,M1,M2均为正整数,且M2>M1。
结合第一方面至第一方面的第五种可能的实施方式任意之一所述的方法,在第一方面的第七种可能的实施方式中,所述方法还包括:
根据所述当前帧信号得到所述当前帧信号的低带信号的基音周期;
当所述当前帧信号的类型与所述当前帧的前一帧信号的类型相同,且所述当前帧的低带信号的基音周期大于第三阈值时,对每一个所述子帧的时域包络进行平滑处理。
第二方面,本发明实施例提供一种音频信号的时域包络处理装置,包括:
高带信号获取模块,用于根据接收到的当前帧信号,得到所述当前帧信号的高带信号;
子帧获取模块,用于根据预先确定的时域包络个数M将所述当前帧的高带信号分成M个子帧,其中,M为大于等于2的整数;
时域包络获取模块,用于计算每一个所述子帧的时域包络;
其中,所述时域包络获取模块具体用于:
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗;
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗。
根据本发明实施例提供的音频信号的时域包络的处理装置,在不同的条件下采用不同的窗长度和/或窗形状求解时域包络,减少因为时域包络差别太大引入的能量不连续的影响,能够提升输出信号的性能。
在第二方面的第一种可能的实施方式中,所述时域包络获取模块还用于:
根据所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗;或者,
根据所述当前帧信号的高带信号的前向缓存的长度和所述时域包络个数M确定所述非对称窗。
结合第二方面的实施方式,在第二方面的第二种可能的实施方式中,所述时域包络获取模块具体用于:
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗,对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用对称窗进行加窗;或者,
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗,对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用非对称窗进行加窗。
结合第二方面的实施方式,在第二方面的第三种可能的实施方式中,所述非对称窗的窗长与对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
结合第二方面至第二方面的第三种可能的实施方式任意之一所述的装置,在第二方面的第四种可能的实施方式中,还包括:确定模块,用于根据下列之一方式确定所述时域包络个数M:
根据所述当前帧信号得到所述当前帧信号的低带信号,当所述当前帧信号的低带信号的基音周期大于第二阈值时,M=M1;或者,
根据所述当前帧信号得到所述当前帧信号的低带信号,当所述当前帧信号的低带信号的基音周期不大于第二阈值时,M=M2;
其中,M1,M2均为正整数,且M2>M1。
本发明第三方面的实施例公开了一种编码器,所述编码器具体用于:
用于根据接收到的当前帧信号,得到所述当前帧信号的低带信号和所述当前帧信号的高带信号;
对所述当前帧信号的低带信号进行编码,得到低带编码的激励信号;
对所述当前帧信号的高带信号进行线性预测,得到线性预测系数;
量化所述线性预测系数,得到量化后的线性预测系数;
根据所述低带编码的激励信号和所述量化后的线性预测系数得到预测的高带信号;
计算及量化所述预测的高带信号的时域包络;
其中,所述计算所述预测的高带信号的时域包络包括:
根据预先确定的时域包络个数M将所述预测的高带信号分成M个子帧,其中,M为大于等于2的整数,
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗,
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗;
对量化后的时域包络进行编码。
根据本发明实施例提供的编码器,在不同的条件下采用不同的窗长度和/或窗形状求解时域包络,减少因为时域包络差别太大引入的能量不连续的影响,能够提升输出信号的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种对音频信号进行编码的过程示意图;
图2为本发明音频信号的时域包络处理方法实施例一的流程图;
图3为本发明实施例中对音频信号进行处理的示意图;
图4为本发明另一实施例的对音频信号进行处理的示意图;
图5为本发明另一实施例的对音频信号进行处理的示意图;
图6为本发明音频信号的时域包络处理方法实施例二的流程图;
图7为本发明实施例的时域包络处理装置的结构示意图;
图8为本发明实施例的编码器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一种对语音频信号进行编码的过程示意图,如图1所示,在编码端,在获得原始音频信号后,首先对原始音频信号进行信号分解,得到原始音频信号的低带信号和高带信号,接着对低带信号通过已有算法进行编码得到低带的码流,已有算法(例如代数码本激励线性预测编码(Algebraic Code Excited Linear Prediction,简称:ACELP),或码本激励线性预测编码(Code Excited Linear Prediction,简称:CELP等算法),同时,在进行低带编码过程中,得到低带的激励信号,并对低带激励信号进行预处理;对于原始音频信号的高带信号,首先进行预处理,然后做线性预测(Linear prediction,以下简称:LP)分析得到LP系数,量化该LP系数。接着将预处理后的低带激励信号通过LP合成滤波器(滤波器系数为量化后的LP系数)得到预测的高带信号。根据预处理后的高带信号和预测的高带信号,计算及量化高带信号的时域包络,最后输出编码码流(MUX)。计算并量化高带信号的时域包络的过程为:根据事先设定好的时域包络的个数N,将预处理后的高带信号和预测的高带信号分别分成N个子帧,对每一个子帧进行加窗,然后计算预处理后的原始高带信号每一个子帧和预测的高带信号的相对应的每一个子帧的时域能量或子帧内每个样点幅度的平均值。其中,事先设定好的时域包络的个数N是根据前向缓存(lookahead)的长度来确定的,N为正整数。
本发明实施例提供一种音频信号的时域包络处理方法,主要用于图1中所示的计算及量化时域包络的步骤,还可以用于其它采用同样原理的求解时域包络的处理流程中。下面结合附图详细说明本发明实施例提供的音频信号的时域包络处理方法。
图2为本发明音频信号的时域包络处理方法实施例一的流程图,如图2所示,本实施例的方法包括:
S21、根据接收到的当前帧信号,得到当前帧信号的高带信号。
当前帧信号即可以是语音信号,也可以是音乐信号,还可能是噪音信号,在此不做具体的限制。
S22、根据预先确定的时域包络个数M将当前帧的高带信号分成M个子帧,其中,M为大于等于2的整数。
其中,具体来说,要预先确定的时域包络个数M可以是根据整体算法要求和经验值确定。时域包络个数M例如是编码器事先根据整体算法或经验值确定,确定后不会改变。例如一般对20ms一帧的输入信号,如果输入信号相对平稳,求解4个或者2个时域包络,但对一些非平稳信号,需要求解更多如8个时域包络。
S23、计算每一个子帧的时域包络。
其中,计算每一个子帧的时域包络包括:
采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗。
对M个子帧中除最前端的子帧和最末端的子帧之外的子帧进行加窗。
进一步地,在采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗之前,本实施例的方法还可以包括:
根据当前帧信号的高带信号的前向缓存的长度确定非对称窗;或者,
根据当前帧信号的高带信号的前向缓存的长度和时域包络个数M确定非对称窗。
其中,对M个子帧中除最前端的子帧和最末端的子帧之外的子帧进行加窗,具体可以包括:
对M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗;或者,
对M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用非对称窗进行加窗。
其中,在一种可能的实施方式中,对最前端子帧和最末端子帧加窗使用的非对称窗的窗长与对M个子帧中除最前端的子帧和最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
在上述实施例中,作为一种可实施的方式,根据当前帧音频信号的高带信号的前向缓存的长度确定非对称窗,包括:
当当前帧信号的高带信号的前向缓存的长度小于第一阈值时,根据当前帧的前一帧信号的高带信号和当前帧信号的高带信号的前向缓存的长度确定非对称窗,其中,当前帧的前一帧信号的高带信号的最末端子帧采用的非对称窗和当前帧信号的高带信号的最前端子帧采用的非对称窗的混叠部分等于当前帧信号的高带信号的前向缓存的长度,第一阈值等于当前帧的高带信号的帧长除以M。
在一种可能的实施方式中,根据当前帧信号的高带信号的前向缓存的长度确定非对称窗,包括:
当当前帧信号的高带信号的前向缓存的长度大于第一阈值时,根据当前帧的前一帧信号的高带信号和当前帧信号的高带信号的前向缓存的长度确定非对称窗,其中,当前帧的前一帧信号的高带信号的最末端子帧采用的非对称窗和当前帧信号的高带信号的最前端子帧采用的非对称窗的混叠部分等于第一阈值,第一阈值等于当前帧的高带信号的帧长除以M。
在本发明的一种实施例中,根据下列之一方式确定时域包络个数M:
根据当前帧信号得到当前帧信号的低带信号,当当前帧信号的低带信号的基音周期大于第二阈值时,M=M1;或者,
根据当前帧信号得到当前帧信号的低带信号,当当前帧信号的低带信号的基音周期不大于第二阈值时,M=M2;
其中,M1,M2均为正整数,且M2>M1。在一种可能的方式中,M1=4,M2=8。
在上述实施例中,进一步地,本实施例的方法还可以包括:
根据当前帧信号得到当前帧信号的低带信号的基音周期;
当当前帧信号的类型与当前帧的前一帧信号的类型相同,且当前帧的低带信号的基音周期大于第三阈值时,对每一个子帧的时域包络进行平滑处理。
对时域包络做平滑处理,具体可以是:将相邻的两个子帧的时域包络加权,加权后的时域包络作为这两个子帧的时域包络。例如,当解码端连续两帧信号都是浊音信号,或者一帧是浊音信号一帧是普通信号,且低带信号的基音周期大于给定阈值(大于70个样点,此时低带信号的采样率为12.8kHz采样)时,则对解码的高带信号时域包络做平滑处理,否则保持时域包络不变。平滑处理可以为:
env[0]=0.5*(env[0]+env[1]);
env[1]=0.5*(env[0]+env[1]);
env[N-1]=0.5*(env[N-1]+env[N]);
env[N]=0.5*(env[N-1]+env[N])。
其中,env[]为时域包络。
可以理解的是,上述步骤序号只是为了帮助理解本发明实施例而做出的一种示例,而不是对本发明实施例的具体限制。在实际的处理过程中,并不需要严格的按照上述顺序的限制。例如,可以先对除最前端和最末端的子帧之外的子帧进行加窗,再对最前端和最末端的子帧进行加窗。
图3为本发明实施例中对音频信号进行处理的示意图。
如图3所示,在编码端,在获得原始音频信号后,首先对原始音频信号进行信号分解,得到原始音频信号的低带信号和高带信号,接着对低带信号通过已有算法进行编码得到低带的码流,同时,在进行低带编码过程中,得到低带的激励信号,并对低带激励信号进行预处理;对于原始音频信号的高带信号,首先进行预处理,然后做LP分析得到LP系数,量化该LP系数。接着将预处理后的低带激励信号通过LP合成滤波器(滤波器系数为量化后的LP系数)得到预测的高带信号。根据预处理后的高带信号和预测的高带信号,计算及量化高带信号的时域包络,最后输出编码码流。
除了计算及量化高带信号的时域包络的步骤之外,对于音频信号的其它步骤的处理可以参考现有技术中所采用的方法,在此不再赘述。
下面以具体对图3中所示的N+1帧的处理来描述本发明实施例中计算及量化时域包络的步骤。
如图3所示,将第N+1帧按照需要计算的时域包络的个数划分为M个子帧,M为正整数。在一种可能的实施方式中,M的值可以是3、4、5、8等。在此不做限制。
对M个子帧中的最前端的子帧和M个子帧中最末端的子帧采用非对称窗进行加窗。N+1帧的M个子帧中最前端的子帧为与前一帧(N帧)的信号有重叠部分的子帧;最末端的子帧为与后一帧(N+2帧,图中未示出)的信号有重叠部分的子帧。在一种可能的方式中,如图3所示,最前端的子帧即为N+1帧中最左端的子帧,最末端的子帧即为N+1帧中最右端的子帧。可以理解的是,最左和最右只是结合图3的一种具体示例,而不是对本发明实施例的限制。实际中子帧的划分是不存在最左、最右这种方向性限制的。
对于最前端的子帧和最末端的子帧加窗所使用的非对称窗可以完全相同,也可以不同。在此不做限制。在一种可能的实现方式中,最前端子帧使用的非对称窗的窗长和最末端子帧所使用的非对称窗的窗长相同。
在本发明的一个实施例中,如图3所示,对N+1帧的M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗。
在本发明的一个实施例中,对于最前端的子帧和最末端的子帧加窗所采用的非对称窗的窗长与对其它子帧采用的对称窗的窗长相等。可以理解的是,在另一种可能的方式中,非对称窗的窗长和对称窗的窗长也可以不等。
在本发明的一个实施例中,当第N+1帧的帧长为80个样点,采样率为4kHz时,可以求解8个时域包络。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz时,也可以求解4个时域包络。
在本发明的一个实施例中,除了预先设定之外,还可以根据N+1帧的其它信息预先确定时域包络的个数N。下面是确定时域包络的个数N的实现方式的示例:
在一种可能实现的方式中,当第N+1帧的低带信号的基音周期大于第二阈值时,N=4;或者,当第N+1帧的低带信号的基音周期不大于第二阈值时,N=8。对于采用率为12.8kHz的低带信号,第二阈值可以为70个样点。可以理解的是,上述数值只是为了帮助理解本发明实施例而做出的一种具体举例,而不是对本发明实施例的具体限制。如图3所示,在对第N+1帧的信号进行信号分解时可以得到第N+1帧的低带信号,信号分解所采用的方法和求解低带信号的基音周期的方式可以采用现有技术中的任意一种方式,在此不做具体的限制。
可以理解的是,除了利用低带信号的基音周期以外,还可以利用信号的能量等其它参数。
在本发明的一个实施例中,在利用非对称窗对最前端的子帧和最末端的子帧进行加窗时,根据前向缓存的长度确定非对称窗。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解8个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为20个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于10。则当前向缓存的长度小于10个样点时,第8个子帧(即,最末端的子帧)采用的窗和第1个子帧(即,最前端的子帧)采用的窗的混叠部分等于前向缓存的长度。当前向缓存的长度大于等于10个样点时,第8个子帧采用的窗的右侧和第1个子帧采用的窗的左侧的长度可以等于另一侧(例如第一个子帧采用的窗的右侧或第八个子帧采用的窗的左侧)的窗长(10个样点),也可以根据经验设定一个长度(如,保持和前向缓存小于10个样点时相同的长度)。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解4个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为40个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于20。
在加窗后,计算各个子帧内预处理后的原始高带信号和预测的高带信号的时域能量或子帧内每个样点幅度的平均值。具体的计算方式可参考现有技术中提供的方式,本发明实施例提供的信号处理的方法在加窗时所采用的窗的形状和所需要加窗的个数的确定方式与现有技术不同。其它的计算方式均可参考现有技术中提供的方式。
根据本发明实施例提供的音频信号的时域包络的处理方法,在不同的条件下采用不同的窗长度和/或窗形状求解时域包络,减少因为时域包络差别太大引入的能量不连续的影响,能够提升输出信号的性能。
下面以具体对图4中所示的N+1帧的处理来描述本发明另一实施例中计算及量化时域包络的步骤。
图4为本发明另一实施例的对音频信号进行处理的示意图,如图4所示,和图3所示类似,将第N+1帧按照需要计算的时域包络的个数划分为M个子帧,M为正整数。在一种可能的实施方式中,M的值可以是3、4、5、8等。在此不做限制。
对M个子帧中的最前端的子帧和M个子帧中最末端的子帧采用非对称窗进行加窗。如图4所示,对于最前端的子帧和最末端的子帧加窗所使用的非对称窗不同。在一种可能的实现方式中,最前端子帧使用的非对称窗的窗长和最末端子帧所使用的非对称窗的窗长相同,也可以不同。
在本发明的一个实施例中,如图4所示,对N+1帧的M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用形状相同的非对称窗进行加窗。
在本发明的一个实施例中,当第N+1帧的帧长为80个样点,采样率为4kHz时,可以求解8个时域包络。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz时,也可以求解4个时域包络。
在本发明的一个实施例中,除了预先设定之外,还可以根据N+1帧的其它信息预先确定时域包络的个数N。下面是确定时域包络的个数N的实现方式的示例:
在一种可能实现的方式中,当第N+1帧的低带信号的基音周期大于第二阈值时,N=4;或者,当第N+1帧的低带信号的基音周期不大于第二阈值时,N=8。对于采用率为12.8kHz的低带信号,第二阈值可以为70个样点。可以理解的是,上述数值只是为了帮助理解本发明实施例而做出的一种具体举例,而不是对本发明实施例的具体限制。如图4所示,在对第N+1帧的信号进行信号分解时可以得到第N+1帧的低带信号,信号分解所采用的方法和求解低带信号的基音周期的方式可以采用现有技术中的任意一种方式,在此不做具体的限制。
可以理解的是,除了利用低带信号的基音周期以外,还可以利用信号的能量等其它参数。
在本发明的一个实施例中,在利用非对称窗对最前端的子帧和最末端的子帧进行加窗时,根据前向缓存的长度确定非对称窗。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解8个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为20个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于10。则当前向缓存的长度小于10个样点时,第8个子帧采用的窗(即,最末端的子帧)和第1个子帧(即,最前端的子帧)采用的窗的混叠部分等于前向缓存的长度。当前向缓存的长度大于等于10个样点时,第8个子帧采用的窗的右侧和第1个子帧采用的窗的左侧的长度可以等于另一侧(例如第1个子帧采用的窗的右侧或第8个子帧采用的窗的左侧)的窗长(10个样点),也可以根据经验设定一个长度(如,保持和前向缓存小于10个样点时相同的长度)。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解4个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为40个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于20。
在加窗后,计算各个子帧内预处理后的原始高带信号和预测的高带信号的时域能量或子帧内每个样点幅度的平均值。具体的计算方式可参考现有技术中提供的方式,本发明实施例提供的信号处理的方法在加窗时所采用的窗的形状和所需要加窗的个数的确定方式与现有技术不同。其它的计算方式均可参考现有技术中提供的方式。
下面以具体对图5中所示的N+1帧的处理来描述本发明另一实施例中计算及量化时域包络的步骤。
图5为本发明另一实施例的对音频信号进行处理的示意图,如图5所示,在编码端,在获得原始音频信号后,首先对原始音频信号进行信号分解,得到原始音频信号的低带信号和高带信号,接着对低带信号通过已有算法进行编码得到低带的码流,同时,在进行低带编码过程中,得到低带的激励信号,并对低带激励信号进行预处理;对于原始音频信号的高带信号,首先进行预处理,然后做LP分析得到LP系数,量化该LP系数。接着将预处理后的低带激励信号通过LP合成滤波器(滤波器系数为量化后的LP系数)得到预测的高带信号。根据预处理后的高带信号和预测的高带信号,计算及量化高带信号的时域包络,最后输出编码码流。
除了计算及量化高带信号的时域包络的步骤之外,对于音频信号的其它步骤的处理可以参考现有技术中所采用的方法,在此不再赘述。
下面以具体对图5中所示的N+1帧的处理来描述本发明实施例中计算及量化时域包络的步骤。
如图5所示,将第N+1帧按照需要计算的时域包络的个数划分为M个子帧,M为正整数。在一种可能的实施方式中,M的值可以是3、4、5、8等。在此不做限制。
对M个子帧中的最前端的子帧和M个子帧中最末端的子帧采用非对称窗进行加窗。N+1帧的M个子帧中最前端的子帧为与前一帧(N帧)的信号有重叠部分的子帧;最末端的子帧为与后一帧(N+2帧,图中未示出)的信号有重叠部分的子帧。在一种可能的方式中,如图3所示,最前端的子帧即为N+1帧中最左端的子帧,最末端的子帧即为N+1帧中最右端的子帧。可以理解的是,最左和最右只是结合图3的一种具体示例,而不是对本发明实施例的限制。实际中子帧的划分是不存在最左、最右这种方向性限制的。
对于最前端的子帧和最末端的子帧加窗所使用的非对称窗可以完全相同,也可以不同。在此不做限制。在一种可能的实现方式中,最前端子帧使用的非对称窗的窗长和最末端子帧所使用的非对称窗的窗长相同。
在本发明的一种可能实现的方式中,对M个子帧中的最前端的子帧和M个子帧中最末端的子帧采用非对称窗进行加窗,其中对M个子帧中的最前端的子帧采用的非对称窗与对M个子帧中最末端的子帧采用的非对称窗的形状不同,其中一个非对称窗以水平方向旋转180度可以与另一个非对称窗重合。在一种可能的实现方式中,最前端子帧使用的非对称窗的窗长和最末端子帧所使用的非对称窗的窗长相同。在本发明的一个实施例中,如图5所示,对N+1帧的M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗。对称窗的窗长与非对称窗的窗长不同。例如,对帧长为20ms(80个样点)采样率为4kHz的信号:如果前向缓存为5个样点,求解4个时域包络,采用本实施例的窗,两端的窗长为30个样点,连续两帧混叠时的样点数为5个样点,中间的两个窗长为50个样点,混叠25个样点。
在本发明的一个实施例中,如图5所示,对N+1帧的M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗。
在本发明的一个实施例中,对于最前端的子帧和最末端的子帧加窗所采用的非对称窗的窗长与对其它子帧采用的对称窗的窗长相等。可以理解的是,在另一种可能的方式中,非对称窗的窗长和对称窗的窗长也可以不等。
在本发明的一个实施例中,当第N+1帧的帧长为80个样点,采样率为4kHz时,可以求解8个时域包络。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz时,也可以求解4个时域包络。
在本发明的一个实施例中,除了预先设定之外,还可以根据N+1帧的其它信息预先确定时域包络的个数N。下面是确定时域包络的个数N的实现方式的示例:
在一种可能实现的方式中,当第N+1帧的低带信号的基音周期大于第二阈值时,N=4;或者,当第N+1帧的低带信号的基音周期不大于第二阈值时,N=8。对于采用率为12.8kHz的低带信号,第二阈值可以为70个样点。可以理解的是,上述数值只是为了帮助理解本发明实施例而做出的一种具体举例,而不是对本发明实施例的具体限制。如图3所示,在对第N+1帧的信号进行信号分解时可以得到第N+1帧的低带信号,信号分解所采用的方法和求解低带信号的基音周期的方式可以采用现有技术中的任意一种方式,在此不做具体的限制。
可以理解的是,除了利用低带信号的基音周期以外,还可以利用信号的能量等其它参数。
在本发明的一个实施例中,在利用非对称窗对最前端的子帧和最末端的子帧进行加窗时,根据前向缓存的长度确定非对称窗。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解8个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为20个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于10。则当前向缓存的长度小于10个样点时,第8个子帧(即,最末端的子帧)采用的窗和第1个子帧(即,最前端的子帧)采用的窗的混叠部分等于前向缓存的长度。当前向缓存的长度大于等于10个样点时,第8个子帧采用的窗的右侧和第1个子帧采用的窗的左侧的长度可以等于另一侧(例如第一个子帧采用的窗的右侧或第八个子帧采用的窗的左侧)的窗长(10个样点),也可以根据经验设定一个长度(如,保持和前向缓存小于10个样点时相同的长度)。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解4个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为40个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于20。
在加窗后,计算各个子帧内预处理后的原始高带信号和预测的高带信号的时域能量或子帧内每个样点幅度的平均值。具体的计算方式可参考现有技术中提供的方式,本发明实施例提供的信号处理的方法在加窗时所采用的窗的形状和所需要加窗的个数的确定方式与现有技术不同。其它的计算方式均可参考现有技术中提供的方式。
根据本发明实施例提供的音频信号的时域包络的处理方法,在不同的条件下采用不同的窗长度和/或窗形状求解时域包络,减少因为时域包络差别太大引入的能量不连续的影响,能够提升输出信号的性能。
本实施例提供的音频信号的时域包络处理方法,通过根据接收到的音频帧信号得到音频帧的高带信号,然后根据预先确定的时域包络个数M将音频帧的高带信号分成M个子帧,最后计算每一个子帧的时域包络。从而有效避免了在lookahead很短,同时要保证子帧间很好的混叠引起的求解过多时域包络的问题,进而避免了对一些信号,因过多求解时域包络而引入的能量不连续的问题,同时降低了计算复杂度。
图6为本发明音频信号的时域包络处理方法实施例二的流程图,如图6所示,本实施例的方法可以包括:
S60、接收到待处理信号后,根据第一频带内时域信号的平稳状态或第二频带信号的基音周期大小,确定对待处理信号计算的时域包络个数M,第一频带为待处理信号的时域信号的频带或整个输入信号的频带,第二频带为低于给定阈值的频带或整个输入信号的频带。
其中,确定对待处理信号计算的时域包络个数M,具体包括:
当第一频带内时域信号处于平稳状态或第二频带信号的基音周期大于预设阈值时,M等于M1,否则M等于M2,M1大于M2,M1、M2都为正整数,预设阈值根据采样率确定。
平稳状态是指时域信号在一定时间内的能量或幅度的均值变化不大,或时域信号在一定时间内的偏差小于给定阈值。
例如,对帧长为20ms(80个样点)采样率为4kHz的高带信号,如果高带时域信号子帧间的能量的比值小于给定阈值(小于0.5),或低带信号的基音周期大于给定阈值(大于70个样点,此时低带信号的采样率为12.8kHz采样),则在对高带信号求解时域包络时,求解4个时域包络;否则,求解8个时域包络。
例如,对帧长为20ms(320个样点)采样率为16kHz的高带信号,如果高带时域信号子帧间的能量的比值小于给定阈值(小于0.5),或低带信号的基音周期大于给定阈值(大于70个样点,此时低带信号的采样率为12.8kHz采样),则在对高带信号求解时域包络时,求解2个时域包络;否则,求解4个时域包络。
S61、将待处理信号分成M个子帧,计算每一个子帧的时域包络。
其中,本实施例对每一个子帧进行加窗处理时,不限定采用何种加窗方式进行加窗处理。
本实施例提供的音频信号的时域包络处理方法,通过根据不同的条件求解不同个数的时域包络,有效避免了对一定条件下的信号求解过多的时域包络造成的能量不连续,进而引起的听觉质量下降,同时,可以有效降低算法的平均复杂度。
本发明实施例还提供一种音频信号的时域包络处理装置,可以用于执行图1-图5中所示部分方法,还可以用于其它采用同样原理的求解时域包络的处理流程中。下面结合附图详细说明本发明实施例提供的音频信号的时域包络处理装置的结构。
图7为本发明实施例的时域包络处理装置的结构示意图,如图7所示,本实施例的时域包络处理装置70包括:高带信号获取模块71,用于根据接收到的当前帧信号,得到当前帧信号的高带信号;子帧获取模块72,用于根据预先确定的时域包络个数M将当前帧的高带信号分成M个子帧,其中,M为大于等于2的整数;时域包络获取模块73,用于计算每一个子帧的时域包络;其中,时域包络获取模块73具体用于:采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗;对M个子帧中除最前端的子帧和最末端的子帧之外的子帧进行加窗。
在本发明实施例一种可能的方式中,时域包络获取模块73还用于:
根据当前帧信号的高带信号的前向缓存的长度确定非对称窗;或者,
根据当前帧信号的高带信号的前向缓存的长度和时域包络个数M确定非对称窗。
在本发明一个实施例中,时域包络获取模块73具体用于:
采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗,对M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗;或者,
采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗,对M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用非对称窗进行加窗。
在本发明实施例一种可能的实现方式中,非对称窗的窗长与对M个子帧中除最前端的子帧和最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。在本发明的一个实施例中,时域包络获取模块73还用于:根据当前帧信号得到当前帧信号的低带信号的基音周期;
当当前帧信号的类型与当前帧的前一帧信号的类型相同,且当前帧的低带信号的基音周期大于第三阈值时,对每一个子帧的时域包络进行平滑处理。
对时域包络做平滑处理,具体可以是:将相邻的两个子帧的时域包络加权,加权后的时域包络作为这两个子帧的时域包络。例如,当解码端连续两帧信号都是浊音信号,或者一帧是浊音信号一帧是普通信号,且低带信号的基音周期大于给定阈值(大于70个样点,此时低带信号的采样率为12.8kHz采样)时,则对解码的高带信号时域包络做平滑处理,否则保持时域包络不变。平滑处理可以为:
env[0]=0.5*(env[0]+env[1]);
env[1]=0.5*(env[0]+env[1]);
env[N-1]=0.5*(env[N-1]+env[N]);
env[N]=0.5*(env[N-1]+env[N])。
其中,env[]为时域包络。
在本发明的一个实施例中,时域包络处理装置70还包括:确定模块74,用于根据下列之一方式确定时域包络个数M:
根据当前帧信号得到当前帧信号的低带信号,当当前帧信号的低带信号的基音周期大于第二阈值时,M=M1;或者,
根据当前帧信号得到当前帧信号的低带信号,当当前帧信号的低带信号的基音周期不大于第二阈值时,M=M2;
其中,M1,M2均为正整数,且M2>M1。
在本发明的实施例中,要预先确定的时域包络个数M可以是根据整体算法要求和经验值确定。时域包络个数M例如是编码器事先根据整体算法或经验值确定,确定后不会改变。例如一般对20ms一帧的输入信号,如果输入信号相对平稳,求解4个或者2个时域包络,但对一些非平稳信号,需要求解更多如8个时域包络。
具体来说,首先,在编码端,在获得原始音频信号后,首先对原始音频信号进行信号分解,得到原始音频信号的低带信号和高带信号,接着对低带信号通过已有算法进行编码得到低带的码流,同时,在进行低带编码过程中,得到低带的激励信号,并对低带激励信号进行预处理;对于原始音频信号的高带信号,首先进行预处理,然后做LP分析得到LP系数,量化该LP系数。接着将预处理后的低带激励信号通过LP合成滤波器(滤波器系数为量化后的LP系数)得到预测的高带信号。根据预处理后的高带信号和预测的高带信号,计算及量化高带信号的时域包络,最后输出编码码流。
除了计算及量化高带信号的时域包络的步骤之外,对于音频信号的其它步骤的处理可以参考现有技术中所采用的方法,在此不再赘述。
本实施例的装置,可以用于执行图2-图5所示方法实施例的技术方案,其实现原理类似。
在一个具体的示例中,在编码端,在获得原始音频信号后,首先对原始音频信号进行信号分解,得到原始音频信号的低带信号和高带信号,接着对低带信号通过已有算法进行编码得到低带的码流,同时,在进行低带编码过程中,得到低带的激励信号,并对低带激励信号进行预处理;对于原始音频信号的高带信号,首先进行预处理,然后做LP分析得到LP系数,量化该LP系数。接着将预处理后的低带激励信号通过LP合成滤波器(滤波器系数为量化后的LP系数)得到预测的高带信号。根据预处理后的高带信号和预测的高带信号,计算及量化高带信号的时域包络,最后输出编码码流。
除了计算及量化高带信号的时域包络的步骤之外,对于音频信号的其它步骤的处理可以参考现有技术中所采用的方法,在此不再赘述。
将第N+1帧按照需要计算的时域包络的个数划分为M个子帧,M为正整数。在一种可能的实施方式中,M的值可以是3、4、5、8等。在此不做限制。
对M个子帧中的最前端的子帧和M个子帧中最末端的子帧采用非对称窗进行加窗。N+1帧的M个子帧中最前端的子帧为与前一帧(N帧)的信号有重叠部分的子帧;最末端的子帧为与后一帧(N+2帧,图中未示出)的信号有重叠部分的子帧。在一种可能的方式中,最前端的子帧即为N+1帧中最左端的子帧,最末端的子帧即为N+1帧中最右端的子帧。可以理解的是,最左和最右只是一种具体示例,而不是对本发明实施例的限制。实际中子帧的划分是不存在最左、最右这种方向性限制的。
对于最前端的子帧和最末端的子帧加窗所使用的非对称窗可以完全相同,也可以不同。在此不做限制。在一种可能的实现方式中,最前端子帧使用的非对称窗的窗长和最末端子帧所使用的非对称窗的窗长相同。
在本发明的一个实施例中,对N+1帧的M个子帧中除最前端的子帧和最末端的子帧之外的子帧采用对称窗进行加窗。
在本发明的一个实施例中,对于最前端的子帧和最末端的子帧加窗所采用的非对称窗的窗长与对其它子帧采用的对称窗的窗长相等。可以理解的是,在另一种可能的方式中,非对称窗的窗长和对称窗的窗长也可以不等。
在本发明的一个实施例中,当第N+1帧的帧长为80个样点,采样率为4kHz时,可以求解8个时域包络。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz时,也可以求解4个时域包络。
在本发明的一个实施例中,除了预先设定之外,还可以根据N+1帧的其它信息预先确定时域包络的个数N。下面是确定时域包络的个数N的实现方式的示例:
在一种可能实现的方式中,当第N+1帧的低带信号的基音周期大于第二阈值时,N=4;或者,当第N+1帧的低带信号的基音周期不大于第二阈值时,N=8。对于采用率为12.8kHz的低带信号,第二阈值可以为70个样点。可以理解的是,上述数值只是为了帮助理解本发明实施例而做出的一种具体举例,而不是对本发明实施例的具体限制。在对第N+1帧的信号进行信号分解时可以得到第N+1帧的低带信号,信号分解所采用的方法和求解低带信号的基音周期的方式可以采用现有技术中的任意一种方式,在此不做具体的限制。
可以理解的是,除了利用低带信号的基音周期以外,还可以利用信号的能量等其它参数。
在本发明的一个实施例中,在利用非对称窗对最前端的子帧和最末端的子帧进行加窗时,根据前向缓存的长度确定非对称窗。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解8个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为20个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于10。则当前向缓存的长度小于10个样点时,第8个子帧(即,最末端的子帧)采用的窗和第1个子帧(即,最前端的子帧)采用的窗的混叠部分等于前向缓存的长度。当前向缓存的长度大于等于10个样点时,第8个子帧采用的窗的右侧和第1个子帧采用的窗的左侧的长度可以等于另一侧(例如第一个子帧采用的窗的右侧或第八个子帧采用的窗的左侧)的窗长(10个样点),也可以根据经验设定一个长度(如,保持和前向缓存小于10个样点时相同的长度)。
在一种可能的实现方式中,当第N+1帧的帧长为80个样点,采样率为4kHz,求解4个时域包络时,加窗所采用的非对称窗的窗长和对称窗的窗长可以都为40个样点。利用帧长除以包络个数得到第一阈值,此示例中第一阈值等于20。
在加窗后,计算各个子帧内预处理后的原始高带信号和预测的高带信号的时域能量或子帧内每个样点幅度的平均值。具体的计算方式可参考现有技术中提供的方式,本发明实施例提供的信号处理的方法在加窗时所采用的窗的形状和所需要加窗的个数的确定方式与现有技术不同。其它的计算方式均可参考现有技术中提供的方式。
本实施例提供的音频信号的时域包络处理装置,通过根据不同的条件求解不同个数的时域包络,有效避免了对一定条件下的信号求解过多的时域包络造成的能量不连续,进而引起的听觉质量下降,同时,可以有效降低算法的平均复杂度。
下面结合图8描述本发明实施例的一种编码器80,图8为本发明实施例的编码器的结构示意图,如图8所示,编码器80具体用于:
用于根据接收到的当前帧信号,得到当前帧信号的低带信号和当前帧信号的高带信号;
对当前帧信号的低带信号进行编码,得到低带编码的激励信号;
对当前帧信号的高带信号进行线性预测,得到线性预测系数;
量化线性预测系数,得到量化后的线性预测系数;
根据低带编码的激励信号和量化后的线性预测系数得到预测的高带信号;
计算及量化预测的高带信号的时域包络;
其中,计算所述预测的高带信号的时域包络包括:
根据预先确定的时域包络个数M将预测的高带信号分成M个子帧,其中,M为大于等于2的整数,
采用非对称窗对M个子帧中的最前端的子帧和M个子帧中的最末端的子帧进行加窗,
对M个子帧中除所述最前端的子帧和最末端的子帧之外的子帧进行加窗;
对量化后的时域包络进行编码。
可以理解的是,编码器80可以用于执行上述任意的方法实施例。也可以包括任意实施例的时域包络处理装置70。具体的编码器80所执行的功能可参考前述方法和装置实施例,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (25)

1.一种音频信号的时域包络处理方法,其特征在于,包括:
根据接收到的当前帧信号,得到所述当前帧信号的高带信号;
将所述当前帧的高带信号分成M个子帧,其中,M为预先确定的大于等于2的整数;
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗;
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗。
2.根据权利要求1所述的方法,其特征在于,在采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗之前,所述方法还包括:
根据所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗。
3.根据权利要求1所述的方法,其特征在于,所述对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗,包括:
对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用对称窗进行加窗。
4.根据权利要求1所述的方法,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长不同。
5.根据权利要求1所述的方法,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长相同。
6.根据权利要求5所述的方法,其特征在于,所述非对称窗的窗长与对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
7.根据权利要求1-6任意之一所述的方法,其特征在于,所述M=8。
8.根据权利要求1-6任意之一所述的方法,其特征在于,所述M=4。
9.根据权利要求1-6任意之一所述的方法,其特征在于,所述方法还包括:
根据所述当前帧信号得到所述当前帧信号的低带信号的基音周期;
当所述当前帧信号的类型与所述当前帧的前一帧信号的类型相同,且所述当前帧的低带信号的基音周期大于第三阈值时,对每一个所述子帧的时域包络进行平滑处理。
10.一种音频信号的时域包络处理装置,其特征在于,包括:
高带信号获取模块,用于根据接收到的当前帧信号,得到所述当前帧信号的高带信号;
子帧获取模块,用于将所述当前帧的高带信号分成M个子帧,其中,M为预先确定的大于等于2的整数;
时域包络获取模块,用于
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗;
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗。
11.根据权利要求10所述的装置,其特征在于,所述时域包络获取模块还用于:
根据所述当前帧信号的高带信号的前向缓存的长度确定所述非对称窗。
12.根据权利要求10所述的装置,其特征在于,所述时域包络获取模块具体用于:
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗,对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用对称窗进行加窗。
13.根据权利要求10所述的装置,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长不同。
14.根据权利要求10所述的装置,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长相同。
15.根据权利要求14所述的装置,其特征在于,所述非对称窗的窗长与对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
16.根据权利要求10-15任意之一所述的装置,其特征在于,所述M=8。
17.根据权利要求10-15任意之一所述的装置,其特征在于,所述M=4。
18.根据权利要求10-15任意之一所述的装置,其特征在于,所述时域包络获取模块还用于:
根据所述当前帧信号得到所述当前帧信号的低带信号的基音周期;
当所述当前帧信号的类型与所述当前帧的前一帧信号的类型相同,且所述当前帧的低带信号的基音周期大于第三阈值时,对每一个所述子帧的时域包络进行平滑处理。
19.一种编码器,其特征在于,所述编码器具体用于:
用于根据接收到的当前帧信号,得到所述当前帧信号的低带信号和所述当前帧信号的高带信号;
对所述当前帧信号的低带信号进行编码,得到低带编码的激励信号;
对所述当前帧信号的高带信号进行线性预测,得到线性预测系数;
量化所述线性预测系数,得到量化后的线性预测系数;
根据所述低带编码的激励信号和所述量化后的线性预测系数得到预测的高带信号;
计算及量化所述预测的高带信号的时域包络;
其中,所述计算所述预测的高带信号的时域包络包括:
将所述预测的高带信号分成M个子帧,其中,M为预先确定的大于等于2的整数,
采用非对称窗对所述M个子帧中的最前端的子帧和所述M个子帧中的最末端的子帧进行加窗,
对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗;
对量化后的时域包络进行编码。
20.根据权利要求19所述的编码器,其特征在于,所述对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗,包括:
对所述M个子帧中除最前端的子帧和所述最末端的子帧之外的子帧采用对称窗进行加窗。
21.根据权利要求19所述的编码器,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长不同。
22.根据权利要求19所述的编码器,其特征在于,对所述最前端的子帧进行加窗的窗长和对所述最末端的子帧进行加窗的窗长相同。
23.根据权利要求22所述的编码器,其特征在于,所述非对称窗的窗长与对所述M个子帧中除所述最前端的子帧和所述最末端的子帧之外的子帧进行加窗所采用的窗的窗长相同。
24.根据权利要求19-23任意之一所述的编码器,其特征在于,所述M=8。
25.根据权利要求19-23任意之一所述的编码器,其特征在于,所述M=4。
CN201610992299.2A 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器 Active CN106409304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610992299.2A CN106409304B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610992299.2A CN106409304B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器
CN201410260730.5A CN105336336B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410260730.5A Division CN105336336B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器

Publications (2)

Publication Number Publication Date
CN106409304A true CN106409304A (zh) 2017-02-15
CN106409304B CN106409304B (zh) 2020-08-25

Family

ID=54832857

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410260730.5A Active CN105336336B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器
CN201610992299.2A Active CN106409304B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201410260730.5A Active CN105336336B (zh) 2014-06-12 2014-06-12 一种音频信号的时域包络处理方法及装置、编码器

Country Status (8)

Country Link
US (3) US9799343B2 (zh)
EP (2) EP3133599B1 (zh)
JP (2) JP6510566B2 (zh)
KR (1) KR101896486B1 (zh)
CN (2) CN105336336B (zh)
ES (1) ES2895495T3 (zh)
PT (1) PT3579229T (zh)
WO (1) WO2015188627A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
WO2017125840A1 (en) * 2016-01-19 2017-07-27 Hua Kanru Method for analysis and synthesis of aperiodic signals
CN108109629A (zh) * 2016-11-18 2018-06-01 南京大学 一种基于线性预测残差分类量化的多描述语音编解码方法和系统
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016668A1 (en) * 2010-07-19 2012-01-19 Futurewei Technologies, Inc. Energy Envelope Perceptual Correction for High Band Coding
CN102859588A (zh) * 2009-10-20 2013-01-02 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5754534A (en) * 1996-05-06 1998-05-19 Nahumi; Dror Delay synchronization in compressed audio systems
JPH10222194A (ja) * 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
JP3518737B2 (ja) * 1999-10-25 2004-04-12 日本ビクター株式会社 オーディオ符号化装置、オーディオ符号化方法、及びオーディオ符号化信号記録媒体
JP3510168B2 (ja) * 1999-12-09 2004-03-22 日本電信電話株式会社 音声符号化方法及び音声復号化方法
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
CN1186765C (zh) * 2002-12-19 2005-01-26 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
EP1875464B9 (en) 2005-04-22 2020-10-28 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CA2698039C (en) * 2007-08-27 2016-05-17 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity spectral analysis/synthesis using selectable time resolution
CN101615394B (zh) * 2008-12-31 2011-02-16 华为技术有限公司 分配子帧的方法和装置
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
MX2013009305A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
AU2012276367B2 (en) * 2011-06-30 2016-02-04 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
EP2791937B1 (en) * 2011-11-02 2016-06-08 Telefonaktiebolaget LM Ericsson (publ) Generation of a high band extension of a bandwidth extended audio signal
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
US9384746B2 (en) * 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102859588A (zh) * 2009-10-20 2013-01-02 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序
US20120016668A1 (en) * 2010-07-19 2012-01-19 Futurewei Technologies, Inc. Energy Envelope Perceptual Correction for High Band Coding

Also Published As

Publication number Publication date
EP3133599B1 (en) 2019-07-10
JP2017523448A (ja) 2017-08-17
JP6765471B2 (ja) 2020-10-07
WO2015188627A1 (zh) 2015-12-17
US10170128B2 (en) 2019-01-01
EP3579229A1 (en) 2019-12-11
US9799343B2 (en) 2017-10-24
US20180005638A1 (en) 2018-01-04
US20190096415A1 (en) 2019-03-28
PT3579229T (pt) 2021-08-20
EP3579229B1 (en) 2021-07-28
EP3133599A4 (en) 2017-07-12
EP3133599A1 (en) 2017-02-22
CN105336336A (zh) 2016-02-17
CN105336336B (zh) 2016-12-28
JP2019135551A (ja) 2019-08-15
ES2895495T3 (es) 2022-02-21
KR20160147048A (ko) 2016-12-21
CN106409304B (zh) 2020-08-25
JP6510566B2 (ja) 2019-05-08
US20170098451A1 (en) 2017-04-06
US10580423B2 (en) 2020-03-03
KR101896486B1 (ko) 2018-09-07

Similar Documents

Publication Publication Date Title
CN105336336B (zh) 一种音频信号的时域包络处理方法及装置、编码器
JP2023071685A (ja) フォワードエイリアシング消去を用いた符号化器
CN103493129B (zh) 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
US9818421B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
US10622000B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
CN113571070B (zh) Fd/lpd转换环境中的帧丢失管理
EP2888734B1 (en) Audio classification based on perceptual quality for low or medium bit rates
CN104956437A (zh) 执行增益控制的系统及方法
CN104254886B (zh) 自适应编码浊音语音的基音周期
CN106104682A (zh) 用于对线性预测编码系数进行量化的加权函数确定装置和方法
KR20110132435A (ko) 선형 예측 코딩 분석을 위한 방법, 장치 및 시스템
US20130096913A1 (en) Method and apparatus for adaptive multi rate codec
WO2021077023A1 (en) Methods and system for waveform coding of audio signals with a generative model
Su et al. Speech Coding Algorithm with Dynamic Weighted Inter-Frame Linear Prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant