CN1737903A - 声音译码方法以及声音译码装置 - Google Patents

声音译码方法以及声音译码装置 Download PDF

Info

Publication number
CN1737903A
CN1737903A CNA2005100895281A CN200510089528A CN1737903A CN 1737903 A CN1737903 A CN 1737903A CN A2005100895281 A CNA2005100895281 A CN A2005100895281A CN 200510089528 A CN200510089528 A CN 200510089528A CN 1737903 A CN1737903 A CN 1737903A
Authority
CN
China
Prior art keywords
sound
time series
code
series vector
noise level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100895281A
Other languages
English (en)
Inventor
山浦正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BlackBerry Ltd
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=18439687&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1737903(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1737903A publication Critical patent/CN1737903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明的一种按照编码驱动线性预测(CELP)的声音译码方法,其特征在于,所述声音译码方法接收声音编码并利用至少一个驱动编码簿对声音进行合成,所述声音译码方法包括下列步骤:从所述驱动编码簿获得带有噪声水平的时间序列矢量;确定是否需要对所述时间序列矢量作出修改;如果确定需要进行修改,则对所述时间序列矢量进行修改,使得所述噪声水平改变;输出所述时间序列矢量;及利用所述输出的时间序列矢量对声音进行合成。

Description

声音译码方法以及声音译码装置
本申请是下述申请的分案申请:
申请日:1998年12月07日
申请号:200510056331.8
发明名称:声音编码方法和声音译码方法以及声音编码装置和声音译码装置
技术领域
本发明涉及对声音信号进行数字信号的压缩编码译码时使用的声音编码译码方法和声音编码译码装置,特别涉及用来使用低比特率再生高品质的声音的声音编码方法、声音译码方法、声音编码装置和声音译码装置。
背景技术
过去,作为高效率声音编码方法,典型的有码驱动线性预测编码(Code-Excited Linear Prediction:CELP),对该技术,“Code-ExcitedLinear Prediction(CELP):High-quality speech at very low bitrates”(M.R.Shroeder and B.S.Atal著、ICASSP’85,pp.937-940,1985)已有叙述。
图6是表示一例CELP声音编码方法的整体构成的图。图中101是编码部,102是译码部,103是多路复用装置,104是分离装置。编码部101由线性预测参数分析装置105、线性预测参数编码装置106、合成滤波器107、适应代码簿108、驱动代码簿109、增益编码装置110、距离计算装置111和加权相加计算装置138构成。此外,译码部102由线性预测参数译码装置112、合成滤波器113、适应代码簿114、驱动代码簿115、增益译码装置116和加权相加计算装置139构成。
在CELP声音编码中,将5~50ms作为一帧,将该帧的声音分成频谱信息和声音源信息后进行编码。首先,说明CELP声音编码方法的动作。在编码部101中,线性预测参数分析装置105分析输入声音S101,抽出作为声音频谱信息的线性预测参数。线性预测参数编码装置106对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器的系数来设定。
其次,说明声音源信息的编码。在适应代码簿108中,存储过去的驱动声音源信号,并与距离计算装置111输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。在驱动代码簿109中,存储多个时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。从适应代码簿108、驱动代码簿109来的各时间序列矢量与增益编码装置110给出的各增益对应,在加权相加计算装置138中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器107,得到编码声音。距离计算装置111求出编码声音和输入声音S101的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。
其次,说明CPEL声音译码方法的动作。
另一方面,在声音译码部102中,线性预测参译编码装置112根据线性预测参数的代码对该线性预测参数进行译码,并作为合成滤波器的系数来设定。其次,适应代码簿114与适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量,驱动代码簿115与驱动代码对应时间序列矢量。这些时间序列矢量与增益译码装置中从增益代码译码的各增益对应,在加权相加计算装置139中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器113,得到输出声音S103。
此外,在CELP声音编码译码方法中,作为以提高再生声音品质为目的进行改良的先有的声音编码译码方法,有“Phonetically-basedvector excitation coding of speech at 3.6kbps”(S.wang andA.Gersho著、ICASSP’89,pp.49-52,1989)所示的方法。图7示出一例该先有的声音编码译码方法的整体构成,对与图6对应的装置添加相同的符号,在图中的编码部101中,117是声音状态判定装置,118是驱动代码簿切换装置,119是第1驱动代码簿,120是第2驱动代码簿。此外,在图中的译码装置102中,121是驱动代码簿切换装置,122是第1驱动代码簿,123是第2驱动代码簿。说明这样构成的编码译码方法的动作。首先,在编码装置101中,声音状态判定装置117分析输入声音S101,判定声音状态例如是有声、无声两种状态中的哪一种状态。驱动代码簿切换装置118根据该声音状态的判定结果切换驱动代码簿,例如,若是有声则使用第1驱动代码簿119编码,若是无声则使用第2驱动代码簿120编码,此外,对使用了哪一个驱动代码簿也进行编码。
其次,在译码装置102中,驱动代码簿切换装置121与在编码装置中使用了哪一个驱动代码簿的代码对应切换到第1驱动代码簿或第2驱动代码簿,使其与编码装置101使用的驱动代码簿相同。通过这样的构成,对声音的每一个状态准备一个与编码适应的驱动代码簿,通过与输入的声音状态对应切换使用驱动代码簿,可以提高再生声音的品质。
此外,作为不增加比特数去切换多个驱动代码簿的先有的声音编码译码方法,有特开平8-185198号公报公开的方法。它是与用适应代码簿选择的音调周期对应去切换使用多个驱动代码簿的方法。因此,可以在不增加传送信息的情况下使用与输入信号的特征相适应的驱动代码簿。
如上所述,在图6所示的先有的声音编码译码方法中,使用单一的驱动代码簿生成合成声音。为了即使在低比特率时也能得到高品质的编码声音,存储在驱动代码簿中的时间序列矢量变成包含很多脉冲的无噪声的东西。因此,当将背景噪声或磨擦性子音等有噪声的声音编码合成时,编码声音存在产生“叽哩叽哩”“嘁哩嘁哩”等不自然的声音的问题。若使驱动编码簿只由带噪声的时间序列矢量构成,虽然可以解决该问题,但作为编码声音的整体品质却变差了。
此外,在已改良的图7所示的先有的声音编码译码方法中,与输入声音的状态对应切换多个驱动代码簿并生成编码声音。因此,对例如输入声音是有噪声的无声部分,可以使用由有噪声的时间序列矢量构成的驱动代码簿,对除此之外的有声部分可以使用由无噪声的时间序列矢量构成的驱动代码簿,即使对有噪声的声音进行编码、也不会发生“叽哩叽哩”的声音。但是,因译码侧也使用和编码侧相同的驱动代码簿,故有必要对使用了哪一个驱动编码簿的信息重新进行编码传送,存在妨碍低比特率化的问题。
此外,在不增加发送比特数的情况下切换多个驱动代码簿的先有的声音编码译码方法中,与用适应代码选择的音调周期对应切换驱动代码簿。但是,因用适应代码选择的音调周期与实际的声音音调周期有差别,只根据该值不能判定输入声音的状态是有噪声还是无噪声,故不能解决声音的噪声部分的编码声音不自然的问题。
发明内容
本发明是为了解决有关的问题而提出的,其目的在于提供一种声音编码译码方法和声音编码译码装置,即使在低比特率的情况下也能再生高品质的声音。
为了解决上述课题,本发明的声音编码方法使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果,对该编码区间中的声音的噪声水平进行评价,根据评价结果选择多个驱动代码中的一个。
本发明的一种按照编码驱动线性预测(CELP)的声音译码方法,其特征在于,所述声音译码方法接收声音编码并利用至少一个驱动编码簿对声音进行合成,所述声音译码方法包括下列步骤:从所述驱动编码簿获得带有噪声水平的时间序列矢量;确定是否需要对所述时间序列矢量作出修改;如果确定需要进行修改,则对所述时间序列矢量进行修改,使得所述噪声水平改变;输出所述时间序列矢量;及利用所述输出的时间序列矢量对声音进行合成。
与此对应,本发明的一种按照编码驱动线性预测(CELP)的声音译码装置,其特征在于,所述声音译码装置接收声音编码并利用至少一个驱动编码簿对声音进行合成,所述声音译码装置包括:时间序列矢量调制装置,用于从所述驱动编码簿获得带有噪声水平的时间序列矢量,并确定是否需要对所述时间序列矢量作出修改,如果确定需要进行修改,则用于对所述时间序列矢量进行修改,使得所述噪声水平改变,及用于输出所述时间序列矢量;和声音合成装置,用于利用所述输出的时间序列矢量对声音进行合成。
进而,下一个发明的声音编码方法具有多个驱动代码簿,所存储的时间序列矢量的噪声水平不同,根据声音的噪声水平的评价结果切换多个驱动代码簿。
进而,下一个发明的声音编码方法根据声音的噪声水平的评价结果,使存储在驱动代码簿中时间序列矢量的噪声水平发生变化。
进而,下一个发明的声音编码方法具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔驱动声音源的信号样品去生成噪声水平低的时间序列矢量。
进而,下一个发明的声音编码方法具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,生成将第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量加权相加后的时间序列矢量。
进而,下一个发明的声音译码方法使用频谱信息、功率信息和音调信息中的至少一个代码或译码结果,对该译码区间中的声音的噪声水平进行评价,根据评价结果选择多个驱动代码中的一个。
进而,下一个发明的声音译码方法具有多个驱动代码簿,所存储的时间序列矢量的噪声水平不同,根据声音的噪声水平的评价结果切换多个驱动代码簿。
进而,下一个发明的声音译码方法根据声音的噪声水平的评价结果,使存储在驱动代码簿中时间序列矢量的噪声水平发生变化。
进而,下一个发明的声音译码方法具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔驱动声音源的信号样品去生成噪声水平低的时间序列矢量。
进而,下一个发明的声音译码方法具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,生成将第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量加权相加后的时间序列矢量。
进而,下一个发明的声音编码装置包括:频谱信息编码部,对输入声音的频谱信息进行编码并作为编码结果的一个要素输出;噪声水平评价部,使用根据从该频谱信息编码部来的已编码的频谱信息得到的频谱信息和功率信息中的至少一个代码或编码结果,对该编码区间内的声音的噪声水平进行评价并输出评价结果;存储多个无噪声的时间序列矢量的第1驱动代码簿;存储多个有噪声的时间序列矢量的第2驱动代码簿;根据上述噪声水平评价部的评价结果切换第1驱动代码簿和第2驱动代码簿的驱动代码簿切换部;加权相加计算部,对从上述第1驱动代码簿或第2驱动代码簿来的时间序列矢量,分别与各时间序列矢量的增益对应进行加权相加;合成滤波器,将该加权的时间序列矢量作为驱动声音源信号,在该驱动声音源信号和从上述频谱信息编码部来的已编码的频谱信息的基础上得到编码声音;距离计算部,求出该编码声音和上述输入声音的距离,寻求距离最小的驱动代码和增益,并将该结果作为驱动代码和增益代码的编码结果输出。
进而,下一个发明的声音译码装置包括:频谱信息译码部,从频谱信息的代码中译码出频谱信息;噪声水平评价部,使用根据从该频谱信息译码部来的已译码的频谱信息得到的频谱信息和功率信息中的至少一个译码结果或上述频谱信息的代码,对该译码区间内的声音的噪声水平进行评价并输出评价结果;存储多个无噪声的时间序列矢量的第1驱动代码簿;存储多个有噪声的时间序列矢量的第2驱动代码簿;根据上述噪声水平评价部的评价结果切换第1驱动代码簿和第2驱动代码簿的驱动代码簿切换部;加权相加计算部,对从上述第1驱动代码簿或第2驱动代码簿来的时间序列矢量,分别与各时间序列矢量的增益对应进行加权相加;合成滤波器,将该加权的时间序列矢量作为驱动声音源信号,在该驱动声音源信号和从上述频谱信息译码部来的已译码的频谱信息的基础上得到译码声音。
本发明的声音编码装置的特征在于,在编码驱动线性预测(CELP)声音编码装置中,包括:使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果对该编码区间内的声音的噪声水平进行评价的噪声水平评价部;根据上述噪声水平评价部的评价结果切换多个驱动代码簿的驱动代码簿切换部。
本发明的声音译码装置的特征在于,在编码驱动线性预测(CELP)声音译码装置中,包括:使用频谱信息、功率信息和音调信息中的至少一个代码或译码结果对该译码区间内的声音的噪声水平进行评价的噪声水平评价部;根据上述噪声水平评价部的评价结果切换多个驱动代码簿的驱动代码簿切换部。
附图说明
图1是表示本发明的声音编码和声音译码装置的实施形态1的整体构成的方框图。
图2是向图1的实施形态1的噪声水平评价的说明提供的表。
图3是表示本发明的声音编码和声音译码装置的实施形态3的整体构成的方框图。
图4是表示本发明的声音编码和声音译码装置的实施形态5的整体构成的方框图。
图5是向图4的实施形态5的加权决定处理的说明提供的表。
图6是表示先有的CELP声音编码译码装置的整体构成的方框图。
图7是表示过去改良了的CELP声音编码译码装置的整体构成的方框图。
具体实施方式
下面,参照附图说明本发明的实施形态。
实施形态1.
图1示出本发明的声音编码方法和声音译码方法的实施形态1的整体构成的方框图。图中,1是编码部,2是译码部,3是多路复用部,4是分离部。编码部1由线性预测参数分析部5、线性预测参数编码部6、合成滤波器7、适应代码簿8、增益编码部10、距离计算装置11、第1驱动代码簿19、第2驱动代码簿20、噪声水平评价部24、驱动代码簿切换部25和加权相加计算部38构成。此外,译码部2由线性预测参数译码部12、合成滤波器13、适应代码簿14、第1驱动代码簿22、第2驱动代码簿23、噪声水平评价部26、驱动代码簿切换部27、增益译码部16和加权相加计算部39构成。图1中的5是作为频谱信息分析部的线性预测参数分析部,分析输入声音S1,抽出作为声音频谱信息的线性预测参数,6是作为频谱信息编码部的线性预测参数编码部,对作为频谱信息的该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,19、22是存储多个无噪声的时间序列矢量的第1驱动代码簿,20、23是存储多个有噪声的时间序列矢量的第2驱动代码簿,24、26是评价噪声水平的噪声水平评价部,25、27是根据噪声水平切换驱动代码簿的驱动代码簿切换部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算装置11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如如图2所示那样,从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给驱动代码簿切换部25。驱动代码簿切换部25根据上述噪声水平的评价结果去切换编码时用的驱动代码簿,例如,若噪声水平低,则切换到第1驱动代码簿19,若噪声水平高,则切换到第2驱动代码簿20。
在第1驱动代码簿19中存储多个无噪声的时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。此外,在第2驱动代码簿20中存储多个有噪声的时间序列矢量,例如,存储由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入的各个驱动代码对应的时间序列矢量。从适应代码簿8、第1驱动代码簿19或第2驱动代码簿20来的各时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。以上是本实施形态1的声音编码方法的特征动作。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给驱动代码簿切换部27。驱动代码簿切换部27和编码部1的驱动代码簿切换部25一样,根据上述噪声水平的评价结果切换第1驱动代码簿22和第2驱动代码簿23。
在第1驱动代码簿22中存储多个无噪声的时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小,而在第2驱动代码簿20中存储多个有噪声的时间序列矢量,例如,存储由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入的各个驱动代码对应的时间序列矢量。从适应代码簿14和第1驱动代码簿22或第2驱动代码簿23来的各时间序列矢量与在增益译码部16中从增益代码译码出的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器13,得到输出声音S3。以上是本实施形态1的声音译码方法的特征动作。
若按照该实施形态1,通过根据代码和编码结果对输入声音的噪声水平进行评价并根据评价结果使用不同的驱动代码簿,可以用少量的信息再生出高品质的声音。
此外,在上述实施形态中,对驱动代码簿19、20、22、23说明了存储多个时间序列矢量的情况,但只要存储至少一个时间序列矢量,就可以实施本发明。
实施形态2
在上述实施形态1中,切换使用两个驱动代码簿,但也可以具有三个以上的驱动代码簿,根据噪声水平进行切换使用。若按照该实施形态2,因为不只是将声音分成有噪声和无噪声两种类型,对于有一点噪声的中间状态的声音也可以使用与其相应的驱动代码簿,所以能够再生出高品质的声音。
实施形态3
图3示出本发明的声音编码方法和声音译码方法的实施形态3的整体构成,对与图1对应的部分添加相同的符号,图中28、30是存储有噪声的时间序列矢量的驱动代码簿,29、31是将时间序列矢量的小振幅样品的振幅值为零的样品间拔部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算部11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给样品间拔部29。
在驱动代码簿28中存储例如由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入驱动代码对应的时间序列矢量。样品间拔部29根据上述噪声水平的评价结果,若噪声水平低,则在从上述驱动代码簿28输入的时间序列矢量中输出使例如未达到规定的振幅值的样品的振幅值为零的时间序列矢量,此外,若噪声水平高,则直接输出从上述驱动代码簿28输入的时间序列矢量。从适应代码簿8、样品间拔部29来的各时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果S2输出。以上是本实施形态1的声音编码方法的特征动作。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给样品间拔部31。
驱动代码簿30与驱动代码对应输出时间序列矢量。样品间拔部31通过和上述编码部1的样品间拔部29同样的处理,根据上述噪声评价结果输出时间序列矢量。从适应代码簿14和样品间拔部31来的各时间序列矢量与增益译码部16加给的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音源信号供给合成滤波器13,得到输出声音S3。
若按照该实施形态3,具有存储有噪声的时间序列矢量的驱动代码簿,通过根据声音的噪声水平的结果对驱动声音源的信息样品进行间拔来生成噪声水平低的驱动声音源,可以用少量的信息再生出高品质的声音。此外,因不需要多个驱动代码簿,故具有能够减少用于存储驱动代码簿的存储器的数量的效果。
实施形态4
在上述实施形态3中,对时间序列矢量的样品有间拔和不间拔两种选择,但也可以在间拔样品时根据噪声水平变更振幅阈值。若按照该实施形态4,因为不只是将声音分成有噪声和无噪声两种类型,对于有一点噪声的中间状态的声音也可以生成并使用与其相应的时间序列矢量,所以能够再生出高品质的声音。
实施形态5
图4示出本发明的声音编码方法和声音译码方法的实施形态5的整体构成,对与图1对应的部分添加相同的符号,图中32、35是存储有噪声的时间序列矢量的第1驱动代码簿,33、36是存储无噪声的时间序列矢量的第2驱动代码簿,34、37是权重决定部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算部11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给权重决定部34。
在第1驱动代码簿32中存储例如由随机噪声生成的多个有噪声的时间序列矢量,输出与驱动代码对应的时间序列矢量。在第2驱动代码簿20中存储多个时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。输出与从距离计算部11输入的驱动代码对应的时间序列矢量。重量决定部34根据从上述噪声水平评价部24输入的噪声水平评价结果,例如按照图5决定加给第1驱动代码簿32的时间序列矢量和第1驱动代码簿32的时间序列矢量的权重。第1驱动代码簿32和第2驱动代码簿33的各时间序列矢量根据上述权重决定部34给出的权重进行加权相加。从适应代码簿8输出的时间序列矢量和上述加权相加后生成的时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给权重决定部37。
第1驱动代码簿35和第2驱动代码部36与驱动代码对应输出时间序列矢量。权重决定部37和编码部1的权重决定部34一样,根据从上述噪声水平评价部26输入的噪声水平评价结果给出权重。从第1驱动代码簿35、第2驱动代码簿36来的各时间序列矢量与上述权重决定部37加给的各权重对应进行加权相加。从适应代码簿14输出的时间序列矢量和上述权重相加生成的时间序列矢量与在增益译码部16中从增益代码译码出的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器13,得到输出声音S3。
若按照该实施形态5,根据代码和编码结果对输入声音的噪声水平进行评价并根据评价结果对有噪声的时间序列矢量和无噪声的时间序列矢量进行加权相加后再使用,因此,可以用少量的信息再生出高品质的声音。
实施形态6
在上述实施形态1~5中,进而还可以根据噪声水平的评价结果去变更增益的代码簿。若按照该实施形态6,因为可以根据驱动代码部使用最佳的增益代码簿,所以能够再生出高品质的声音。
实施形态7
在上述实施形态1~6中,对声音的噪声水平进行评价并根据评价结果切换驱动代码簿,也可以分别对有声音的突然出现和破裂性子音等进行判定、评价并根据评价结果切换驱动代码簿。若按照该实施形态7,因为不只对声音的噪声状态进行分类,而是对有声音的突然出现和破裂性子音等进一步进行仔细分类,可以使用各自合适的驱动代码部,所以能够再生出高品质的声音。
实施形态8
在上述实施形态1~6中,从图2所示的频谱倾斜、短期预测增益和音调变动去评价编码区间的噪声水平,但也可以使用相对适应代码簿的输出的增益值的大小去进行评价。
工业上利用的可能性
若按照本发明的声音编码方法和声音译码方法以及声音编码装置和声音译码装置,使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果去评价该编码区间的噪声水平,并根据评价结果使用不同的驱动代码簿,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有多个驱动代码簿,所存储的驱动声音源的噪声水平不同,根据声音的噪声水平的评价结果,切换使用多个驱动代码簿,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,根据声音的噪声水平的评价结果,使存储在驱动代码簿中的时间序列矢量的噪声水平变化,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔时间序列矢量的信息样品去生成噪声水平低的时间序列矢量,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,对第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量进行加权相加并生成时间序列矢量,所以,能用少量的信息再生高品质的声音。

Claims (2)

1.一种按照编码驱动线性预测(CELP)的声音译码方法,其特征在于,所述声音译码方法接收声音编码并利用至少一个驱动编码簿对声音进行合成,所述声音译码方法包括下列步骤:
从所述驱动编码簿获得带有噪声水平的时间序列矢量;
确定是否需要对所述时间序列矢量作出修改;
如果确定需要进行修改,则对所述时间序列矢量进行修改,使得所述噪声水平改变;
输出所述时间序列矢量;及
利用所述输出的时间序列矢量对声音进行合成。
2.一种按照编码驱动线性预测(CELP)的声音译码装置,其特征在于,所述声音译码装置接收声音编码并利用至少一个驱动编码簿对声音进行合成,所述声音译码装置包括:
时间序列矢量调制装置,用于从所述驱动编码簿获得带有噪声水平的时间序列矢量,并确定是否需要对所述时间序列矢量作出修改,如果确定需要进行修改,则用于对所述时间序列矢量进行修改,使得所述噪声水平改变,及用于输出所述时间序列矢量;和
声音合成装置,用于利用所述输出的时间序列矢量对声音进行合成。
CNA2005100895281A 1997-12-24 1998-12-07 声音译码方法以及声音译码装置 Pending CN1737903A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP354754/97 1997-12-24
JP35475497 1997-12-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2005100563318A Division CN1658282A (zh) 1997-12-24 1998-12-07 声音编码方法和声音译码方法以及声音编码装置和声音译码装置

Publications (1)

Publication Number Publication Date
CN1737903A true CN1737903A (zh) 2006-02-22

Family

ID=18439687

Family Applications (5)

Application Number Title Priority Date Filing Date
CNA2005100895281A Pending CN1737903A (zh) 1997-12-24 1998-12-07 声音译码方法以及声音译码装置
CN2005100563318A Pending CN1658282A (zh) 1997-12-24 1998-12-07 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
CN200510088000A Expired - Lifetime CN100583242C (zh) 1997-12-24 1998-12-07 声音译码方法和声音译码装置
CNA031584632A Pending CN1494055A (zh) 1997-12-24 1998-12-07 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
CNB988126826A Expired - Lifetime CN1143268C (zh) 1997-12-24 1998-12-07 声音编码方法、声音译码方法、声音编码装置和声音译码装置

Family Applications After (4)

Application Number Title Priority Date Filing Date
CN2005100563318A Pending CN1658282A (zh) 1997-12-24 1998-12-07 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
CN200510088000A Expired - Lifetime CN100583242C (zh) 1997-12-24 1998-12-07 声音译码方法和声音译码装置
CNA031584632A Pending CN1494055A (zh) 1997-12-24 1998-12-07 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
CNB988126826A Expired - Lifetime CN1143268C (zh) 1997-12-24 1998-12-07 声音编码方法、声音译码方法、声音编码装置和声音译码装置

Country Status (11)

Country Link
US (18) US7092885B1 (zh)
EP (8) EP1426925B1 (zh)
JP (2) JP3346765B2 (zh)
KR (1) KR100373614B1 (zh)
CN (5) CN1737903A (zh)
AU (1) AU732401B2 (zh)
CA (4) CA2722196C (zh)
DE (3) DE69837822T2 (zh)
IL (1) IL136722A0 (zh)
NO (3) NO20003321D0 (zh)
WO (1) WO1999034354A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1426925B1 (en) 1997-12-24 2006-08-02 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
EP1116219B1 (en) * 1999-07-01 2005-03-16 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
CA2378012A1 (en) * 1999-07-02 2001-01-11 Ravi Chandran Coded domain echo control
JP2001075600A (ja) * 1999-09-07 2001-03-23 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
JP4510977B2 (ja) * 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3566220B2 (ja) 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
KR100467326B1 (ko) * 2002-12-09 2005-01-24 학교법인연세대학교 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US20040244310A1 (en) * 2003-03-28 2004-12-09 Blumberg Marvin R. Data center
CN101176147B (zh) * 2005-05-13 2011-05-18 松下电器产业株式会社 语音编码装置以及频谱变形方法
CN1924990B (zh) * 2005-09-01 2011-03-16 凌阳科技股份有限公司 Midi音讯的播放架构和方法与其应用的多媒体装置
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
RU2462769C2 (ru) * 2006-10-24 2012-09-27 Войсэйдж Корпорейшн Способ и устройство кодирования кадров перехода в речевых сигналах
EP2088588B1 (en) 2006-11-10 2013-01-09 Panasonic Corporation Parameter decoding device, parameter encoding device, and parameter decoding method
US20100049508A1 (en) * 2006-12-14 2010-02-25 Panasonic Corporation Audio encoding device and audio encoding method
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
US9056697B2 (en) * 2008-12-15 2015-06-16 Exopack, Llc Multi-layered bags and methods of manufacturing the same
US8649456B2 (en) 2009-03-12 2014-02-11 Futurewei Technologies, Inc. System and method for channel information feedback in a wireless communications system
US8675627B2 (en) * 2009-03-23 2014-03-18 Futurewei Technologies, Inc. Adaptive precoding codebooks for wireless communications
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
IN2015DN02595A (zh) 2012-11-15 2015-09-11 Ntt Docomo Inc
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
MY187944A (en) 2013-10-18 2021-10-30 Fraunhofer Ges Forschung Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
MY180722A (en) 2013-10-18 2020-12-07 Fraunhofer Ges Forschung Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
EP3859734B1 (en) * 2014-05-01 2022-01-26 Nippon Telegraph And Telephone Corporation Sound signal decoding device, sound signal decoding method, program and recording medium
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
US10878831B2 (en) 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
JP6514262B2 (ja) * 2017-04-18 2019-05-15 ローランドディー.ジー.株式会社 インクジェットプリンタおよび印刷方法
CN112201270B (zh) * 2020-10-26 2023-05-23 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
EP4053750A1 (en) * 2021-03-04 2022-09-07 Tata Consultancy Services Limited Method and system for time series data prediction based on seasonal lags

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0197294A (ja) 1987-10-06 1989-04-14 Piran Mirton 木材パルプ等の精製機
CA2019801C (en) 1989-06-28 1994-05-31 Tomohiko Taniguchi System for speech coding and an apparatus for the same
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
US5261027A (en) 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JP2776050B2 (ja) 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH05232994A (ja) 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
JPH05265496A (ja) * 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP3297749B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5495555A (en) 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
DE69328399T2 (de) * 1992-09-30 2000-10-19 Hudson Soft Co Ltd Sprachdaten-Verarbeitung
CA2108623A1 (en) 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
JP2624130B2 (ja) 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
JPH0749700A (ja) 1993-08-09 1995-02-21 Fujitsu Ltd Celp型音声復号器
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JPH0869298A (ja) 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JPH08110800A (ja) 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3292227B2 (ja) 1994-12-28 2002-06-17 日本電信電話株式会社 符号励振線形予測音声符号化方法及びその復号化方法
EP0944038B1 (en) * 1995-01-17 2001-09-12 Nec Corporation Speech encoder with features extracted from current and previous frames
KR0181028B1 (ko) * 1995-03-20 1999-05-01 배순훈 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템
JPH08328598A (ja) * 1995-05-26 1996-12-13 Sanyo Electric Co Ltd 音声符号化・復号化装置
US5864797A (en) 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
JP3515216B2 (ja) * 1995-05-30 2004-04-05 三洋電機株式会社 音声符号化装置
JPH0922299A (ja) 1995-07-07 1997-01-21 Kokusai Electric Co Ltd 音声符号化通信方式
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
EP0773533B1 (en) 1995-11-09 2000-04-26 Nokia Mobile Phones Ltd. Method of synthesizing a block of a speech signal in a CELP-type coder
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4063911B2 (ja) 1996-02-21 2008-03-19 松下電器産業株式会社 音声符号化装置
JPH09281997A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置
GB2312360B (en) 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JP3094908B2 (ja) 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
CN1262994C (zh) 1996-11-07 2006-07-05 松下电器产业株式会社 噪声消除器
US5867289A (en) * 1996-12-24 1999-02-02 International Business Machines Corporation Fault detection for all-optical add-drop multiplexer
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
CA2202025C (en) 1997-04-07 2003-02-11 Tero Honkanen Instability eradicating method and device for analysis-by-synthesis speeech codecs
US6029125A (en) 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JPH11119800A (ja) 1997-10-20 1999-04-30 Fujitsu Ltd 音声符号化復号化方法及び音声符号化復号化装置
EP1426925B1 (en) 1997-12-24 2006-08-02 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
ITMI20011454A1 (it) 2001-07-09 2003-01-09 Cadif Srl Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法

Also Published As

Publication number Publication date
CN1494055A (zh) 2004-05-05
US8447593B2 (en) 2013-05-21
EP1596368A2 (en) 2005-11-16
EP2154679A3 (en) 2011-12-21
US7747441B2 (en) 2010-06-29
US20080065375A1 (en) 2008-03-13
EP1686563A2 (en) 2006-08-02
EP2154680A3 (en) 2011-12-21
US20050256704A1 (en) 2005-11-17
US20130024198A1 (en) 2013-01-24
DE69736446D1 (de) 2006-09-14
NO20035109L (no) 2000-06-23
CA2636684C (en) 2009-08-18
US20110172995A1 (en) 2011-07-14
CA2315699C (en) 2004-11-02
CN1790485A (zh) 2006-06-21
EP2154679A2 (en) 2010-02-17
CA2636552C (en) 2011-03-01
NO323734B1 (no) 2007-07-02
US20140180696A1 (en) 2014-06-26
EP2154679B1 (en) 2016-09-14
US7747432B2 (en) 2010-06-29
KR100373614B1 (ko) 2003-02-26
US8190428B2 (en) 2012-05-29
NO20003321L (no) 2000-06-23
US20080071524A1 (en) 2008-03-20
US20160163325A1 (en) 2016-06-09
US9263025B2 (en) 2016-02-16
JP2009134303A (ja) 2009-06-18
US8688439B2 (en) 2014-04-01
CA2722196A1 (en) 1999-07-08
CN100583242C (zh) 2010-01-20
NO20003321D0 (no) 2000-06-23
DE69736446T2 (de) 2007-03-29
EP1052620A1 (en) 2000-11-15
CA2636552A1 (en) 1999-07-08
EP2154680A2 (en) 2010-02-17
CA2315699A1 (en) 1999-07-08
US20050171770A1 (en) 2005-08-04
DE69825180T2 (de) 2005-08-11
US20080071525A1 (en) 2008-03-20
US20090094025A1 (en) 2009-04-09
EP1426925A1 (en) 2004-06-09
CN1283298A (zh) 2001-02-07
EP2154680B1 (en) 2017-06-28
CA2636684A1 (en) 1999-07-08
IL136722A0 (en) 2001-06-14
JP3346765B2 (ja) 2002-11-18
US20080071526A1 (en) 2008-03-20
CN1143268C (zh) 2004-03-24
US20130204615A1 (en) 2013-08-08
US7092885B1 (en) 2006-08-15
US9852740B2 (en) 2017-12-26
EP1596368B1 (en) 2007-05-23
US20080071527A1 (en) 2008-03-20
US7747433B2 (en) 2010-06-29
NO20040046L (no) 2000-06-23
US7383177B2 (en) 2008-06-03
US7363220B2 (en) 2008-04-22
US7937267B2 (en) 2011-05-03
EP1686563A3 (en) 2007-02-07
CN1658282A (zh) 2005-08-24
KR20010033539A (ko) 2001-04-25
US8352255B2 (en) 2013-01-08
DE69837822T2 (de) 2008-01-31
DE69825180D1 (de) 2004-08-26
US20080065394A1 (en) 2008-03-13
JP4916521B2 (ja) 2012-04-11
EP1596368A3 (en) 2006-03-15
EP2154681A3 (en) 2011-12-21
AU732401B2 (en) 2001-04-26
EP1052620B1 (en) 2004-07-21
EP1426925B1 (en) 2006-08-02
EP1596367A3 (en) 2006-02-15
US20080065385A1 (en) 2008-03-13
EP1596367A2 (en) 2005-11-16
DE69837822D1 (de) 2007-07-05
NO20035109D0 (no) 2003-11-17
EP1052620A4 (en) 2002-08-21
US20070118379A1 (en) 2007-05-24
WO1999034354A1 (en) 1999-07-08
CA2722196C (en) 2014-10-21
EP2154681A2 (en) 2010-02-17
US20120150535A1 (en) 2012-06-14
US7742917B2 (en) 2010-06-22
AU1352699A (en) 1999-07-19

Similar Documents

Publication Publication Date Title
CN1143268C (zh) 声音编码方法、声音译码方法、声音编码装置和声音译码装置
CN1154086C (zh) Celp转发
CN1121683C (zh) 语音编码
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN1126869A (zh) 语音编码和解码设备及其方法
CN1669075A (zh) 音频编码
CN1334952A (zh) 用于改善编码通信信号性能的编码增强特性
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1305024C (zh) 预测编码/解码设备及其方法
CN1815558A (zh) 语音中非话音部分的低数据位速率编码
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1192357C (zh) 用于语音编码的自适应规则
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
CN1989549B (zh) 语音编码装置及语音编码方法
CN1145144C (zh) 对背景噪音信号进行高质量解码的语音解码器
CN1234898A (zh) 具有改进语音编码器和解码器的发射机
CN1886783A (zh) 音频编码
CN100343895C (zh) 音频编码方法和装置,音频解码方法和装置
CN1222996A (zh) 用于传输语音信号的传输系统
CN1708786A (zh) 代码转换机及代码转换方法
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
CN1124590C (zh) 改善话音信号编码器性能的方法
CN1708785A (zh) 带宽扩展装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: RESEARCH IN MOTION LTD.

Free format text: FORMER OWNER: MISSUBISHI ELECTRIC CORP.

Effective date: 20120207

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20120207

Address after: Voight, Ontario, Canada

Applicant after: Research In Motion Ltd.

Address before: Tokyo, Japan, Japan

Applicant before: Missubishi Electric Co., Ltd.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060222