JP4916521B2 - 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置 - Google Patents

音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置 Download PDF

Info

Publication number
JP4916521B2
JP4916521B2 JP2009018916A JP2009018916A JP4916521B2 JP 4916521 B2 JP4916521 B2 JP 4916521B2 JP 2009018916 A JP2009018916 A JP 2009018916A JP 2009018916 A JP2009018916 A JP 2009018916A JP 4916521 B2 JP4916521 B2 JP 4916521B2
Authority
JP
Japan
Prior art keywords
code
speech
drive
linear prediction
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2009018916A
Other languages
English (en)
Other versions
JP2009134303A5 (ja
JP2009134303A (ja
Inventor
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BlackBerry Ltd
Original Assignee
Research in Motion Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=18439687&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP4916521(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Research in Motion Ltd filed Critical Research in Motion Ltd
Priority to JP2009018916A priority Critical patent/JP4916521B2/ja
Publication of JP2009134303A publication Critical patent/JP2009134303A/ja
Publication of JP2009134303A5 publication Critical patent/JP2009134303A5/ja
Application granted granted Critical
Publication of JP4916521B2 publication Critical patent/JP4916521B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

この発明は音声信号をディジタル信号に圧縮符号化復号化する際に使用する音声符号化・復号化方法及び音声符号化・復号化装置に関し、特に低ビットレートで品質の高い音声を再生するための音声符号化方法及び音声復号化方法並びに音声符号化装置及び音声復号化装置に関する。
従来、高能率音声符号化方法としては、符号駆動線形予測(Code-Excited Linear Prediction:CELP)符号化が代表的であり、その技術については、「Code-excited linear prediction(CELP):High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985)に述べられている。
図6は、CELP音声符号化復号化方法の全体構成の一例を示すもので、図中101は符号化部、102は復号化部、103は多重化手段、104は分離手段である。符号化部101は線形予測パラメータ分析手段105、線形予測パラメータ符号化手段106、合成フィルタ107、適応符号帳108、駆動符号帳109、ゲイン符号化手段110、距離計算手段111、重み付け加算手段138より構成されている。また、復号化部102は線形予測パラメータ復号化手段112、合成フィルタ113、適応符号帳114、駆動符号帳115、ゲイン復号化手段116、重み付け加算手段139より構成されている。
CELP音声符号化では、5〜50ms程度を1フレームとして、そのフレームの音声をスペクトル情報と音源情報に分けて符号化する。まず、CELP音声符号化方法の動作について説明する。符号化部101において、線形予測パラメータ分析手段105は入力音声S101を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化手段106はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ107の係数として設定する。
次に音源情報の符号化について説明する。適応符号帳108には、過去の駆動音源信号が記憶されており、距離計算手段111から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。駆動符号帳109には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算手段111から入力される駆動符号に対応した時系列ベクトルを出力する。
適応符号帳108、駆動符号帳109からの各時系列ベクトルはゲイン符号化手段110から与えられるそれぞれのゲインに応じて重み付け加算手段138で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ107へ供給し符号化音声を得る。距離計算手段111は符号化音声と入力音声S101との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。上記符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
次にCPEL音声復号化方法の動作について説明する。
一方復号化部102において、線形予測パラメータ復号化手段112は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ113の係数として設定する。次に、適応符号帳114は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力し、また駆動符号帳115は駆動符号に対応した時系列ベクトルを出力する。これらの時系列ベクトルは、ゲイン復号化手段116でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算手段139で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ113へ供給され出力音声S103が得られる。
またCELP音声符号化復号化方法で再生音声品質の向上を目的として改良された従来の音声符号化復号化方法として、「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989)に示されたものがある。図6との対応手段分に同一符号を付けた図7は、この従来の音声符号化復号化方法の全体構成の一例を示し、図中符号化部101において117は音声状態判定手段、118駆動符号帳切替手段、119は第1の駆動符号帳、120は第2の駆動符号帳である。また図中復号化手段102において121は駆動符号帳切替手段、122は第1の駆動符号帳、123は第2の駆動符号帳である。このような構成による符号化復号化方法の動作を説明する。まず符号化手段101において、音声状態判定手段117は入力音声S101を分析し、音声の状態を例えば有声/無声の2つの状態のうちどちらであるかを判定する。駆動符号帳切替手段118はその音声状態判定結果に応じて、例えば有声であれば第1の駆動符号帳119を、無声であれば第2の駆動符号帳120を用いるとして符号化に用いる駆動符号帳を切り替え、また、どちらの駆動符号帳を用いたかを符号化する。
次に復号化手段102において、駆動符号帳切替手段121は符号化手段101でどちらの駆動符号帳を用いたかの符号に応じて、符号化手段101で用いたのと同じ駆動符号帳を用いるとして第1の駆動符号帳122と第2の駆動符号帳123とを切り替える。このように構成することにより、音声の各状態毎に符号化に適した駆動符号帳を用意し、入力された音声の状態に応じて駆動符号帳を切り替えて用いることで再生音声の品質を向上することができる。
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法として特開平8−185198号公報に開示されたものがある。これは、適応符号帳で選択したピッチ周期に応じて、複数個の駆動符号帳を切り替えて用いるものである。これにより、伝送情報を増やさずに入力音声の特徴に適応した駆動符号帳を用いることができる。
特開平8−185198号公報
「Code-excited linear prediction(CELP):High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985) 「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989)
上述したように図6に示す従来の音声符号化復号化方法では、単一の駆動符号帳を用いて合成音声を生成している。低ビットレートでも品質の高い符号化音声を得るためには、駆動符号帳に格納する時系列ベクトルはパルスを多く含む非雑音的なものとなる。このため、背景雑音や摩擦性子音など雑音的な音声を符号化、合成した場合、符号化音声はジリジリ、チリチリといった不自然な音を発するという問題があった。駆動符号帳を雑音的な時系列ベクトルからのみ構成すればこの問題は解決するが、符号化音声全体としての品質が劣化する。
また改良された図7に示す従来の音声符号化復号化方法では、入力音声の状態に応じて複数の駆動符号帳を切り替えて符号化音声を生成している。これにより例えば入力音声が雑音的な無声部分では雑音的な時系列ベクトルから構成された駆動符号帳を、またそれ以外の有声部分では非雑音的な時系列ベクトルから構成された駆動符号帳を用いることができ、雑音的な音声を符号化、合成しても不自然なジリジリした音を発することはなくなる。しかし、復号化側でも符号化側と同じ駆動符号帳を用いるために、新たにどの駆動符号帳を使用したかの情報を符号化、伝送する必要が生じ、これが低ビットレート化の妨げになるという問題があった。
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法では、適応符号帳で選択されるピッチ周期に応じて駆動符号帳を切り替えている。しかし、適応符号帳で選択されるピッチ周期は実際の音声のピッチ周期とは異なり、その値からだけでは入力音声の状態が雑音的か非雑音的かを判定できないので、音声の雑音的な部分の符号化音声が不自然であるという課題は解決されない。
この発明はかかる課題を解決するためになされたものであり、低ビットレートでも品質の高い音声を再生する音声符号化復号化方法及び装置を提供するものである。
上述の課題を解決するためにこの発明は、符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化方法において
前記線形予測パラメータ符号を復号して線形予測パラメータを得るステップと、
適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得るステップと、
前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得るステップと、
前記適応符号に基づいて、前記復号区間について前記音声符号に関する雑音の度合いを評価するステップと、
当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得るステップと、
前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづけるステップと、
前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得るステップと、
前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成するステップと
を有することを特徴とする。
本発明に係音声復号化方によれば少ない情報量で品質の高い音声を再生することができる。
この発明による音声符号化及び音声復号化装置の実施の形態1の全体構成を示すブロック図である。 図1の実施の形態1における雑音の度合い評価の説明に供する表である。 この発明による音声符号化及び音声復号化装置の実施の形態3の全体構成を示すブロック図である。 この発明による音声符号化及び音声復号化装置の実施の形態5の全体構成を示すブロック図である。 図4の実施の形態5における重み付け決定処理の説明に供する略線図である。 従来のCELP音声符号化復号化装置の全体構成を示すブロック図である。 従来の改良されたCELP音声符号化復号化装置の全体構成を示すブロック図である。
以下図面を参照しながら、この発明の実施の形態について説明する。
実施の形態1.
図1は、この発明による音声符号化方法及び音声復号化方法の実施の形態1の全体構成を示す。図中、1は符号化部、2は復号化部、3は多重化部、4は分離部である。符号化部1は、線形予測パラメータ分析部5、線形予測パラメータ符号化部6、合成フィルタ7、適応符号帳8、ゲイン符号化部10、距離計算部11、第1の駆動符号帳19、第2の駆動符号帳20、雑音度評価部24、駆動符号帳切替部25、重み付け加算部38より構成されている。また、復号化部2は線形予測パラメータ復号化部12、合成フィルタ13、適応符号帳14、第1の駆動符号帳22、第2の駆動符号帳23、雑音度評価部26、駆動符号帳切替部27、ゲイン復号化部16、重み付け加算部39より構成されている。図1中5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出するスペクトル情報分析部としての線形予測パラメータ分析部、6はスペクトル情報であるその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するスペクトル情報符号化部としての線形予測パラメータ符号化部、19、22は非雑音的な複数の時系列ベクトルが記憶された第1の駆動符号帳、20、23は雑音的な複数の時系列ベクトルが記憶された第2の駆動符号帳、24、26は雑音の度合いを評価する雑音度評価部、25、27は雑音の度合いにより駆動符号帳を切り替える駆動符号帳切替部である。
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えば図2に示すようにスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を駆動符号帳切替部25に出力する。駆動符号帳切替部25は前記雑音度の評価結果に応じて、例えば雑音度が低ければ第1の駆動符号帳19を、雑音度が高ければ第2の駆動符号帳20を用いるとして符号化に用いる駆動符号帳を切り替える。
第1の駆動符号帳19には、非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されている。また、第2の駆動符号帳20には、雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力されるそれぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳8、第1の駆動音源符号帳19または第2の駆動符号帳20からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態1の音声符号化方法に特徴的な動作である。
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を駆動符号帳切替部27に出力する。駆動符号帳切替部27は前記雑音度の評価結果に応じて、符号化部1の駆動符号帳切替部25と同様に第1の駆動符号帳22と第2の駆動符号帳23とを切り替える。
第1の駆動符号帳22には非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが、第2の駆動符号帳23には雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、それぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳14と第1の駆動符号帳22または第2の駆動符号帳23からの時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。以上がこの実施の形態1の音声復号化方法に特徴的な動作である。
この実施の形態1によれば、入力音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて異なる駆動符号帳を用いることにより、少ない情報量で、品質の高い音声を再生することができる。
また、上記実施の形態では、駆動符号帳19,20,22,23には、複数の時系列ベクトルが記憶されている場合を説明したが、少なくとも1つの時系列ベクトルが記憶されていれば、実施可能である。
実施の形態2.
上述の実施の形態1では、2つの駆動符号帳を切り替えて用いているが、これに代え、3つ以上の駆動符号帳を備え、雑音の度合いに応じて切り替えて用いるとしても良い。この実施の形態2によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
実施の形態3.
図1との対応部分に同一符号を付けた図3は、この発明の音声符号化方法及び音声復号化方法の実施の形態3の全体構成を示し、図中28、30は雑音的な時系列ベクトルを格納した駆動符号帳、29、31は時系列ベクトルの低振幅なサンプルの振幅値を零にするサンプル間引き部である。
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果をサンプル間引き部29に出力する。
駆動符号帳28には、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部29は、前記雑音度の評価結果に応じて、雑音度が低ければ前記駆動符号帳28から入力された時系列ベクトルに対して、例えば所定の振幅値に満たないサンプルの振幅値を零にした時系列ベクトルを出力し、また、雑音度が高ければ前記駆動符号帳28から入力された時系列ベクトルをそのまま出力する。適応符号帳8、サンプル間引き部29からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態3の音声符号化方法に特徴的な動作である。
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果をサンプル間引き部31に出力する。
駆動符号帳30は駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部31は、前記雑音度評価結果に応じて、前記符号化部1のサンプル間引き部29と同様の処理により時系列ベクトルを出力する。適応符号帳14、サンプル間引き部31からの各時系列ベクトルは、ゲイン復号化部16から与えられるそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
この実施の形態3によれば、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い駆動音源を生成することにより、少ない情報量で、品質の高い音声を再生することができる。また、複数の駆動符号帳を備える必要がないので、駆動符号帳の記憶に要するメモリ量を少なくする効果もある。
実施の形態4.
上述の実施の形態3では、時系列ベクトルのサンプルを間引く/間引かないの2通りとしているが、これに代え、雑音の度合いに応じてサンプルを間引く際の振幅閾値を変更するとしても良い。この実施の形態4によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した時系列ベクトルを生成し、用いることができるので、品質の高い音声を再生することができる。
実施の形態5.
図1との対応部分に同一符号を付けた図4は、この発明の音声符号化方法及び音声復号化方法の実施の形態5の全体構成を示し、図中32、35は雑音的な時系列ベクトルを記憶している第1の駆動符号帳、33、36は非雑音的な時系列ベクトルを記憶している第2の駆動符号帳、34、37は重み決定部である。
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を重み決定部34に出力する。
第1の駆動符号帳32には、例えばランダム雑音から生成した複数の雑音的な時系列ベクトルが記憶されており、駆動符号に対応した時系列ベクトルを出力する。第2の駆動符号帳33には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。重み決定部34は前記雑音度評価部24から入力された雑音度の評価結果に応じて、例えば図5に従って、第1の駆動符号帳32からの時系列ベクトルと第2の駆動符号帳33からの時系列ベクトルに与える重みを決定する。第1の駆動符号帳32、第2の駆動符号帳33からの各時系列ベクトルは上記重み決定部34から与えられる重みに応じて重み付けして加算される。適応符号帳8から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルはゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給し符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。この符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を重み決定部37に出力する。
第1の駆動符号帳35および第2の駆動符号帳36は駆動符号に対応した時系列ベクトルを出力する。重み決定部37は前記雑音度評価部26から入力された雑音度評価結果に応じて、符号化部1の重み決定部34と同様に重みを与えるとする。第1の駆動符号帳35、第2の駆動符号帳36からの各時系列ベクトルは上記重み決定部37から与えれるそれぞれの重みに応じて重み付けして加算される。適応符号帳14から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
この実施の形態5によれば、音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて雑音的な時系列ベクトルと非雑音的な時系列ベクトルを重み付き加算して用いることにより、少ない情報量で、品質の高い音声を再生することができる。
実施の形態6.
上述の実施の形態1〜5でさらに、雑音の度合いの評価結果に応じてゲインの符号帳を変更するとしても良い。この実施の形態6によれば、駆動符号帳に応じて最適なゲインの符号帳を用いることができるので、品質の高い音声を再生することができる。
実施の形態7.
上述の実施の形態1〜6では、音声の雑音の度合いを評価し、その評価結果に応じて駆動符号帳を切り替えているが、有声の立ち上がりや破裂性の子音などをそれぞれ判定、評価し、その評価結果に応じて駆動符号帳を切り替えても良い。この実施の形態7によれば、音声の雑音的な状態だけでなく、有声の立ち上がりや破裂性子音などさらに細かく分類し、それぞれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
実施の形態8.
上述の実施の形態1〜6では、図2に示すスペクトル傾斜、短期予測利得、ピッチ変動から、符号化区間の雑音の度合いを評価しているが、適応符号帳出力に対するゲイン値の大小を用いて評価しても良い。

Claims (6)

  1. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化方法において、
    前記線形予測パラメータ符号を復号して線形予測パラメータを得るステップと、
    適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得るステップと、
    前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得るステップと、
    前記適応符号に基づいて、前記復号区間について前記音声符号に関する雑音の度合いを評価するステップと、
    当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得るステップと、
    前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづけるステップと、
    前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得るステップと、
    前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成するステップと
    を有することを特徴とする音声復号化方法。
  2. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、音声を符号化する音声符号化方法において、
    線形予測パラメータを得るために前記音声を分析するステップと、
    前記線形予測パラメータを符号化して線形予測パラメータ符号を得るステップと、
    適応符号帳から適応符号に対応する適応符号ベクトルを得るステップと、
    前記適応符号に対応するピッチ情報を得るステップと、
    前記ピッチ情報に基づいて前記音声の雑音の度合いを評価するステップと、
    前記評価された雑音の度合いに基づいて重みを得るステップと、
    駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得るステップと、
    前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得るステップと、
    前記符号化音声と前記音声とを比較することによって駆動符号を得るステップと、
    前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力するステップと
    を有することを特徴とする音声符号化方法。
  3. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、音声を符号化する音声符号化方法において、
    線形予測パラメータを得るために前記音声を分析するステップと、
    前記線形予測パラメータを符号化して線形予測パラメータ符号を得るステップと、
    適応符号帳から適応符号に対応する適応符号ベクトルを得るステップと、
    前記適応符号ベクトルに対応するゲイン値を得るステップと、
    前記ゲイン値に基づいて前記音声の雑音の度合いを評価するステップと、
    前記評価された雑音の度合いに基づいて重みを得るステップと、
    駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得るステップと、
    前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得るステップと、
    前記符号化音声と前記音声とを比較することによって駆動符号を得るステップと、
    前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力するステップと
    を有することを特徴とする音声符号化方法。
  4. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化装置において、
    前記線形予測パラメータ符号を復号して線形予測パラメータを得る手段と、
    適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得る手段と、
    前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得る手段と、
    前記適応符号に基づいて、前記復号期間について前記音声符号に関する雑音の度合いを評価する手段と、
    当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得る手段と、
    前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづける手段と、
    前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得る手段と、
    前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成する手段と
    を有することを特徴とする音声復号化装置。
  5. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、音声を符号化する音声符号化装置において、
    線形予測パラメータを得るために前記音声を分析する手段と、
    前記線形予測パラメータを符号化して線形予測パラメータ符号を得る手段と、
    適応符号帳から適応符号に対応する適応符号ベクトルを得る手段と、
    前記適応符号に対応するピッチ情報を得る手段と、
    前記ピッチ情報に基づいて前記音声の雑音の度合いを評価する手段と、
    前記評価された雑音の度合いに基づいて重みを得る手段と、
    駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得る手段と、
    前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得る手段と、
    前記符号化音声と前記音声とを比較することによって駆動符号を得る手段と、
    前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力する手段と
    を有することを特徴とする音声符号化装置。
  6. 符号駆動線形予測(Code−Excited Linear Prediction:CELP)によって、音声を符号化する音声符号化装置において、
    線形予測パラメータを得るために前記音声を分析する手段と、
    前記線形予測パラメータを符号化して線形予測パラメータ符号を得る手段と、
    適応符号帳から適応符号に対応する適応符号ベクトルを得る手段と、
    前記適応符号ベクトルに対応するゲイン値を得る手段と、
    前記ゲイン値に基づいて前記音声の雑音の度合いを評価する手段と、
    前記評価された雑音の度合いに基づいて重みを得る手段と、
    駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得る手段と、
    前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得る手段と、
    前記符号化音声と前記音声とを比較することによって駆動符号を得る手段と、
    前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力する手段と
    を有することを特徴とする音声符号化装置。
JP2009018916A 1997-12-24 2009-01-30 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置 Expired - Lifetime JP4916521B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009018916A JP4916521B2 (ja) 1997-12-24 2009-01-30 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1997354754 1997-12-24
JP35475497 1997-12-24
JP2009018916A JP4916521B2 (ja) 1997-12-24 2009-01-30 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007265301A Division JP4800285B2 (ja) 1997-12-24 2007-10-11 音声復号化方法及び音声復号化装置

Publications (3)

Publication Number Publication Date
JP2009134303A JP2009134303A (ja) 2009-06-18
JP2009134303A5 JP2009134303A5 (ja) 2011-04-07
JP4916521B2 true JP4916521B2 (ja) 2012-04-11

Family

ID=18439687

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000526920A Expired - Lifetime JP3346765B2 (ja) 1997-12-24 1998-12-07 音声復号化方法及び音声復号化装置
JP2009018916A Expired - Lifetime JP4916521B2 (ja) 1997-12-24 2009-01-30 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2000526920A Expired - Lifetime JP3346765B2 (ja) 1997-12-24 1998-12-07 音声復号化方法及び音声復号化装置

Country Status (11)

Country Link
US (18) US7092885B1 (ja)
EP (8) EP1596367A3 (ja)
JP (2) JP3346765B2 (ja)
KR (1) KR100373614B1 (ja)
CN (5) CN100583242C (ja)
AU (1) AU732401B2 (ja)
CA (4) CA2315699C (ja)
DE (3) DE69837822T2 (ja)
IL (1) IL136722A0 (ja)
NO (3) NO20003321D0 (ja)
WO (1) WO1999034354A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100583242C (zh) * 1997-12-24 2010-01-20 三菱电机株式会社 声音译码方法和声音译码装置
EP1116219B1 (en) * 1999-07-01 2005-03-16 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
CA2378012A1 (en) * 1999-07-02 2001-01-11 Ravi Chandran Coded domain echo control
JP2001075600A (ja) * 1999-09-07 2001-03-23 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
JP4510977B2 (ja) * 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3566220B2 (ja) * 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
KR100467326B1 (ko) * 2002-12-09 2005-01-24 학교법인연세대학교 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US20040244310A1 (en) * 2003-03-28 2004-12-09 Blumberg Marvin R. Data center
EP1881487B1 (en) * 2005-05-13 2009-11-25 Panasonic Corporation Audio encoding apparatus and spectrum modifying method
CN1924990B (zh) * 2005-09-01 2011-03-16 凌阳科技股份有限公司 Midi音讯的播放架构和方法与其应用的多媒体装置
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
WO2008056775A1 (fr) * 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
WO2008072732A1 (ja) * 2006-12-14 2008-06-19 Panasonic Corporation 音声符号化装置および音声符号化方法
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
US9056697B2 (en) * 2008-12-15 2015-06-16 Exopack, Llc Multi-layered bags and methods of manufacturing the same
US8649456B2 (en) 2009-03-12 2014-02-11 Futurewei Technologies, Inc. System and method for channel information feedback in a wireless communications system
US8675627B2 (en) * 2009-03-23 2014-03-18 Futurewei Technologies, Inc. Adaptive precoding codebooks for wireless communications
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
RU2612581C2 (ru) 2012-11-15 2017-03-09 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
AU2014336357B2 (en) 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
MX355091B (es) 2013-10-18 2018-04-04 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz.
CN107369453B (zh) * 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
ES2911527T3 (es) * 2014-05-01 2022-05-19 Nippon Telegraph & Telephone Dispositivo de descodificación de señales de sonido, método de descodificación de señales de sonido, programa y soporte de registro
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法
US10878831B2 (en) * 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
JP6514262B2 (ja) * 2017-04-18 2019-05-15 ローランドディー.ジー.株式会社 インクジェットプリンタおよび印刷方法
CN112201270B (zh) * 2020-10-26 2023-05-23 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
EP4053750A1 (en) * 2021-03-04 2022-09-07 Tata Consultancy Services Limited Method and system for time series data prediction based on seasonal lags

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0197294A (ja) 1987-10-06 1989-04-14 Piran Mirton 木材パルプ等の精製機
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
CA2019801C (en) 1989-06-28 1994-05-31 Tomohiko Taniguchi System for speech coding and an apparatus for the same
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JP2776050B2 (ja) 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH05232994A (ja) 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
JPH05265496A (ja) * 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP3297749B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5495555A (en) 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
EP0590966B1 (en) * 1992-09-30 2000-04-19 Hudson Soft Co., Ltd. Sound data processing
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
US5727122A (en) * 1993-06-10 1998-03-10 Oki Electric Industry Co., Ltd. Code excitation linear predictive (CELP) encoder and decoder and code excitation linear predictive coding method
JP2624130B2 (ja) 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
JPH0749700A (ja) 1993-08-09 1995-02-21 Fujitsu Ltd Celp型音声復号器
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JPH0869298A (ja) 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JPH08110800A (ja) 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3292227B2 (ja) 1994-12-28 2002-06-17 日本電信電話株式会社 符号励振線形予測音声符号化方法及びその復号化方法
DE69615227T2 (de) * 1995-01-17 2002-04-25 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
KR0181028B1 (ko) 1995-03-20 1999-05-01 배순훈 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템
JPH08328598A (ja) * 1995-05-26 1996-12-13 Sanyo Electric Co Ltd 音声符号化・復号化装置
JP3515216B2 (ja) * 1995-05-30 2004-04-05 三洋電機株式会社 音声符号化装置
US5864797A (en) 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
JPH0922299A (ja) * 1995-07-07 1997-01-21 Kokusai Electric Co Ltd 音声符号化通信方式
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
DE69516522T2 (de) 1995-11-09 2001-03-08 Nokia Mobile Phones Ltd Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4063911B2 (ja) 1996-02-21 2008-03-19 松下電器産業株式会社 音声符号化装置
GB2312360B (en) 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JPH09281997A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置
JP3094908B2 (ja) 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
KR20030096444A (ko) 1996-11-07 2003-12-31 마쯔시다덴기산교 가부시키가이샤 음원 벡터 생성 장치 및 방법
US5867289A (en) * 1996-12-24 1999-02-02 International Business Machines Corporation Fault detection for all-optical add-drop multiplexer
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US5893060A (en) 1997-04-07 1999-04-06 Universite De Sherbrooke Method and device for eradicating instability due to periodic signals in analysis-by-synthesis speech codecs
US6058359A (en) 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
US6029125A (en) 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
JPH11119800A (ja) 1997-10-20 1999-04-30 Fujitsu Ltd 音声符号化復号化方法及び音声符号化復号化装置
CN100583242C (zh) * 1997-12-24 2010-01-20 三菱电机株式会社 声音译码方法和声音译码装置
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6104992A (en) 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
ITMI20011454A1 (it) 2001-07-09 2003-01-09 Cadif Srl Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt

Also Published As

Publication number Publication date
CN100583242C (zh) 2010-01-20
EP1052620A1 (en) 2000-11-15
JP3346765B2 (ja) 2002-11-18
US20130204615A1 (en) 2013-08-08
US20070118379A1 (en) 2007-05-24
US20080071525A1 (en) 2008-03-20
CN1494055A (zh) 2004-05-05
US7363220B2 (en) 2008-04-22
CA2636684C (en) 2009-08-18
NO20003321L (no) 2000-06-23
CN1737903A (zh) 2006-02-22
NO20040046L (no) 2000-06-23
CA2722196A1 (en) 1999-07-08
US20080065385A1 (en) 2008-03-13
EP1596367A3 (en) 2006-02-15
CN1790485A (zh) 2006-06-21
US20110172995A1 (en) 2011-07-14
US20080071526A1 (en) 2008-03-20
CN1658282A (zh) 2005-08-24
US20090094025A1 (en) 2009-04-09
CA2636552A1 (en) 1999-07-08
CA2636684A1 (en) 1999-07-08
DE69837822D1 (de) 2007-07-05
DE69736446D1 (de) 2006-09-14
US8447593B2 (en) 2013-05-21
US8688439B2 (en) 2014-04-01
NO323734B1 (no) 2007-07-02
NO20003321D0 (no) 2000-06-23
EP2154679A2 (en) 2010-02-17
EP2154679A3 (en) 2011-12-21
US20140180696A1 (en) 2014-06-26
US20080071524A1 (en) 2008-03-20
WO1999034354A1 (en) 1999-07-08
EP2154679B1 (en) 2016-09-14
EP1596368B1 (en) 2007-05-23
CA2722196C (en) 2014-10-21
NO20035109L (no) 2000-06-23
US8352255B2 (en) 2013-01-08
CA2636552C (en) 2011-03-01
CA2315699C (en) 2004-11-02
DE69837822T2 (de) 2008-01-31
JP2009134303A (ja) 2009-06-18
EP1426925A1 (en) 2004-06-09
CN1143268C (zh) 2004-03-24
AU732401B2 (en) 2001-04-26
US20120150535A1 (en) 2012-06-14
US7747441B2 (en) 2010-06-29
US20080065375A1 (en) 2008-03-13
US7937267B2 (en) 2011-05-03
US20080071527A1 (en) 2008-03-20
EP1052620A4 (en) 2002-08-21
US20130024198A1 (en) 2013-01-24
US7747433B2 (en) 2010-06-29
US7747432B2 (en) 2010-06-29
US7383177B2 (en) 2008-06-03
US8190428B2 (en) 2012-05-29
EP1596368A3 (en) 2006-03-15
EP1596368A2 (en) 2005-11-16
DE69825180T2 (de) 2005-08-11
US20160163325A1 (en) 2016-06-09
CN1283298A (zh) 2001-02-07
EP2154680A3 (en) 2011-12-21
EP2154681A3 (en) 2011-12-21
KR20010033539A (ko) 2001-04-25
US7092885B1 (en) 2006-08-15
US9852740B2 (en) 2017-12-26
EP2154680B1 (en) 2017-06-28
US20050256704A1 (en) 2005-11-17
US7742917B2 (en) 2010-06-22
IL136722A0 (en) 2001-06-14
US20050171770A1 (en) 2005-08-04
DE69825180D1 (de) 2004-08-26
AU1352699A (en) 1999-07-19
US20080065394A1 (en) 2008-03-13
EP1686563A2 (en) 2006-08-02
EP1686563A3 (en) 2007-02-07
DE69736446T2 (de) 2007-03-29
US9263025B2 (en) 2016-02-16
EP2154681A2 (en) 2010-02-17
EP2154680A2 (en) 2010-02-17
KR100373614B1 (ko) 2003-02-26
EP1596367A2 (en) 2005-11-16
EP1052620B1 (en) 2004-07-21
EP1426925B1 (en) 2006-08-02
CA2315699A1 (en) 1999-07-08
NO20035109D0 (no) 2003-11-17

Similar Documents

Publication Publication Date Title
JP4916521B2 (ja) 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
JPH11327597A (ja) 音声符号化装置及び音声復号化装置
JP4800285B2 (ja) 音声復号化方法及び音声復号化装置
JP2001075600A (ja) 音声符号化装置および音声復号化装置
JP4170288B2 (ja) 音声符号化方法及び音声符号化装置
JP4510977B2 (ja) 音声符号化方法および音声復号化方法とその装置
JP3736801B2 (ja) 音声復号化方法及び音声復号化装置
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法
JPH10105200A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111109

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term