JP2009223326A - 音声符号化方法及び装置 - Google Patents

音声符号化方法及び装置 Download PDF

Info

Publication number
JP2009223326A
JP2009223326A JP2009101116A JP2009101116A JP2009223326A JP 2009223326 A JP2009223326 A JP 2009223326A JP 2009101116 A JP2009101116 A JP 2009101116A JP 2009101116 A JP2009101116 A JP 2009101116A JP 2009223326 A JP2009223326 A JP 2009223326A
Authority
JP
Japan
Prior art keywords
frame
pitch
weighting
frames
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009101116A
Other languages
English (en)
Other versions
JP4866438B2 (ja
Inventor
Ari Lakaniemi
ラカニエミ アリ
Janne Vainio
バイニオ ジャン
Pasi Ojala
オジャラ パシー
Petri Haavisto
ハーヴィスト ペトリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FI971976A external-priority patent/FI971976A/fi
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009223326A publication Critical patent/JP2009223326A/ja
Application granted granted Critical
Publication of JP4866438B2 publication Critical patent/JP4866438B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】サンプリングされた音声信号を長時間予測(LTP)を使用して音声符号化する方法と装置とを提供する。
【解決手段】信号中のフレームについて所定の最大遅延及び最小遅延の間の自己相関関数を始めに決定することによって、この音声信号の各フレームについてLTPピッチ−ラグ・パラメータを決定する。最も最近の有声フレームについて決定されたピッチ−ラグ・パラメータの近辺の遅延について前記自己相関関数を強調するために、前記自己相関関数に重み付けをする。この重み付けされた自己相関関数の最大値を発見して、それをそのフレームについてのピッチ−ラグ・パラメータと認定する。
【選択図】 図4

Description

本発明は、音声符号化に関し、特に、長時間予測(long term prediction (LTP))パラメータを使用する音声符号化方法及び装置に関する。
送信され、処理され、或いは記憶されるデータの量を減らすために可聴音声信号を圧縮することが望ましい多くの通信アプリケーションで音声符号化が行われる。特に、音声信号に対して符号化及び復号化を実行するいわゆる音声符復号器が移動電話及び通信基地コントローラ局に設けられるセルラー電話通信網において音声符号化が広く行われている。セルラー電話通信網においては通信網の通話容量をなるべく大きくする必要があるために、音声符号化によるデータ圧縮が必要である。
最新の音声符号器は、通常、フレームと呼ばれる短いセグメントを成す音声信号を処理するようになっている。GSMとして知られている欧州デジタルセルラー電話システム(欧州通信規格協会(ETSI)仕様06.60により定義されている)の場合、各フレームの長さは20msであり、これは8kHzのサンプリング周波数で160音声サンプルに相当する。送信局で、受信局に送信される符号化パラメータの集合を抽出するために音声符号器により各音声フレームが分析される。受信局では、受信したパラメータに基づいて復号器が合成音声フレームを作る。抽出された符号化パラメータの典型的集合は、信号の短時間予測に使われるスペクトル・パラメータ(LPCパラメータとして知られている)、信号の長時間予測に使われるパラメータ(LTPパラメータとして知られている)、種々の利得パラメータ、励起パラメータ、及びコードブック・ベクトルを含む。
図1はいわゆるCELP符復号器の符号器の概略を示している(実質的に同一のCELP符復号器が移動局と基地コントローラ局との両方に設けられる)。受信されサンプリングされた音声信号s(n)(nはサンプルの番号を意味する)の各フレームは、始めにこのフレームについてLPCパラメータを決定するために短時間予測ユニット1によって分析される。それらのパラメータはマルチプレクサ2に供給され、このマルチプレクサは、符号化パラメータ同士をエアインターフェースを介して送信するために結合させる。短時間予測ユニット1からの残差信号r(n)、即ち短時間冗長性が除去された後の音声フレームは、LTPパラメータを決定する長時間予測ユニット3に供給される。それらのパラメータはマルチプレクサ2に供給される。
この符号器は、LTPパラメータ及びLPCパラメータをそれぞれ受け取るLTP合成フィルタ4及びLPC合成フィルタ5を有する。これらのフイルタは、コードブック6を使って作られた信号c(n)に短時間冗長性及び長時間冗長性を導入して合成音声信号ss(n)を作る。この合成音声信号は、エラー信号e(n)を作るために比較器7において現実の音声信号s(n)とフレーム毎に比較される。重み付けフイルタ8(これは信号の‘フォルマント’を公知のように強調する)でエラー信号が重み付けされた後、この信号はコードブック検索ユニット9に入力される。検索ユニット9は、各フレームについてコードブック6を検索して、このコードブックの中の、実際の音声フレームと最もよく一致する項目を特定する、即ちエラー信号e(n)を最小にする信号c(n)を判定する。最もよく一致する項目を特定するベクトルが、符号化された音声信号t(n)の一部分としてエアインターフェースを介して送信されるべくマルチプレクサ2に供給される。
図2は、CELP符復号器の復号器を略図示している。受信された符号化されている信号t(n)はデマルチプレクサ11により多重化解除されて別々の符号化パラメータにされる。コードブック・ベクトルは、コードブック項目c(n)の列を抽出するために、符号器のコードブック6と同一のコードブック12に入力される。直列に配置されているLTP合成フイルタ14及びLPC合成フイルタ15に入力される前に、受信された利得gが乗算器13においてその信号c(n)に乗じられる。LTPフイルタ及びLPCフイルタは関連するパラメータを伝送チャネルから受け取って、この信号に短時間冗長性及び長時間冗長性を再導入して出力に合成音声信号ss(n)を作る。
LTPパラメータは、音声信号の基本周波数を記述するいわゆるピッチ−ラグ・パラメータを含んでいる。残差信号の現在のフレームについてのピッチ−ラグの決定は2段階で実行される。始めに、信号の、現在のフレームと最もよく一致する部分について、所定の最大遅延及び最小遅延を仮定して、残差信号の割合に粗い検索を含む開ループ検索が行われる。次に、既に合成された信号に対して閉ループ検索が行われる。この閉ループ検索は、ピッチ−ラグの開ループ推定値の近辺で遅延の小さな範囲にわたって行われる。開ループ検索で間違いがあると、その間違いを閉ループ検索で訂正することはできないことに注意するべきである。
初期の符復号器では、開ループLTP分析は、残差音声信号の中のフレームの自己相関関数:
Figure 2009223326
を決定することによって残差信号の与えられたフレームについてピッチ−ラグを決定する。ここでdは遅延であり、r(n)は残差信号であり、dL及びdHは遅延検索限界である。Nはフレームの長さである。自己相関関数R^(d)の最大値に対応する遅延dmaxとしてピッチ−ラグdplを特定することができる。それが図3に示されている。
ヨーロッパ特許出願EP0628947
しかし、この様な符復号器では、自己相関関数の最大値がピッチ−ラグの整数倍又は約数と一致し、従ってピッチ−ラグの推定値が正しくなくなる可能性がある。[特許文献1]は、自己相関関数R^(d)に重み関数w(d)をかける:
Figure 2009223326
ことによってこの問題に対処しており、この重み関数は次の形:
Figure 2009223326
を持っており、ここでKはR^W(d) の最大値がピッチ−ラグの倍数となる確率を減少させるのに充分な程度に小さく且つ同時にピッチ−ラグの約数を除外するのに充分な程度に大きい値に設定される調整パラメータである。
[特許文献1]は、現在のフレームについてピッチ−ラグを決定するのに前のフレームについて決定されたピッチ−ラグを考慮することも提案している。より具体的には、フレームは‘有声’又は‘無声’に分類され、最も最近の有声フレームについて決定されたピッチ−ラグの近辺で最大値を探す検索が実行される。もしR^W(d) の全体としての最大値がこの近辺の外側にあり、且つこの近辺での最大値を所定のファクタ(3/2)より大きくは上回らなければ、その近辺での最大値がピッチ−ラグに相当するものと認められる。この様にしてピッチ−ラグ推定の連続性が保たれて、ピッチ−ラグが擬似的に変化する可能性が減少する。
本発明は、一面においては、サンプリングされた信号をこの信号のフレームの系列の中の各フレームについてピッチ−ラグ・パラメータを使って音声符号化する方法を提供するものであり、この方法は、各フレームについて:
信号中のフレームについて所定の最大遅延と最小遅延との間の自己相関関数を決定し;
前のフレームについて決定されたピッチ−ラグ・パラメータの近辺での遅延についてその自己相関関数を強調するためにこの自己相関関数に重み付けをし;
重み付けされた自己相関関数の最大値に対応する遅延を前記フレームのピッチ−ラグ・パラメータと認定するステップを有する。
好ましくは、前記サンプリングされた信号は、オーディオ信号から短時間冗長性を実質的に除去することによってオーディオ信号から得られる残差信号である。或いは、サンプリングされた信号はオーディオ信号であってもよい。
好ましくは、前記重み付けは、自己相関関数を下記の形:
Figure 2009223326
を有する重み付け関数と結合させることによって達成され、ここでTprevは1つ以上前のフレームに基づいて決定されたピッチ−ラグ・パラメータであり、dLは前記最小遅延であり、Knwは近辺の重み付けを画定する調整パラメータである。また、重み付け関数は、長い遅延に対して相対的に短い遅延について自己相関関数を強調してもよい。この場合、下記の修正された重み付け関数:
Figure 2009223326
が使用され、ここでKwは別の調整パラメータである。
本発明の或る実施例では、Tprevは、前の1つのフレームToldのピッチ−ラグである。しかし、他の実施例では、Tprevは、前の数個のフレームのピッチ−ラグから導出される。具体的には、Tprevは、所定数の前のフレームのピッチ−ラグの中央値に相当することができる。前記中央値を決定するのに使われるn個のピッチ−ラグの標準偏差に反比例する別の重み付けを行ってもよい。この方法を使用すれば、自己相関関数の重み付けに対する間違っているピッチ−ラグ値の影響を減少させることができる。
好ましくは、この方法は、前記フレームを有声フレーム及び非有声フレームに分類するステップを有し、前記前のフレームは最も最近の有声フレームである。非有声フレームは無声フレームと、静寂又は暗騒音を含むフレームとを含むことができる。より好ましくは、もし前記前のフレームが最も新しいフレームでなければ、重み付けは簡略化される。1実施例では、連続する非有声フレームの系列が受信されたときには、その系列中の非有声フレームの個数に実質的に比例するように重み付けを縮小する。前節で提示した重み付け関数Wn(d) については、調整パラメータKnwを次のように修正することができる:
Figure 2009223326
ここでAは連続する非有声フレームの系列の中の各フレームが受信された後に大きくされる、もう一つの調整因数である。重み付けは、次の有声フレームについては、Aをその最小値に戻すことによって、その最大値に戻される。Aの値を同様に有声フレームの受信後に大きくすることができ、それは所定しきい利得より小さい開ループ利得をもたらす。
本発明は、第2の面においては、サンプリングされた信号を、この信号のフレーム列の各々についてピッチ−ラグ・パラメータを使って音声符号化するための装置を提供するものであり、この装置は:
各フレームについて、信号中のフレームの、所定の最大遅延及び最小遅延の間の自己相関関数を決定するための手段と;
前のフレームについて決定されたピッチ−ラグ・パラメータの近辺の遅延について前記自己相関関数を強調するために前記自己相関関数に重み付けをするための重み付け手段と;
その重み付けされた自己相関関数の最大値に対応する遅延を前記フレームについてのピッチ−ラグ・パラメータと認定するための手段とを有する。
本発明は、第3の面においては、本発明の上記第2面による装置を有する移動通信装置を提供するものである。
本発明は、第4の面においては、本発明の上記第2面による装置を有する基地コントローラ局からなるセルラー電話通信網を提供するものである。
本発明をよりよく理解してもらい、本発明の実施方法を示すために、例として添付図面を参照する。
信号中のフレームについて所定の最大遅延及び最小遅延の間の自己相関関数を始めに決定することにより、この音声信号の各フレームについてLTPピッチ−ラグ・パラメータを決定する。最近の有声フレームについて決定されたピッチ−ラグ・パラメータの近辺の遅延について自己相関関数を強調するために、自己相関関数に重み付けをする。この重み付けされた自己相関関数の最大値を発見して、それをそのフレームについてのピッチ−ラグ・パラメータと認定する。
CELP音声符号器を示す略図である。 CELP音声復号器を示す略図である。 符号化されるべき音声信号のフレームと、このフレームについての自己相関関数を決定するのに使用される最大遅延及び最小遅延とを示す。 本発明の実施例の音声符号化方法の主なステップを示す流れ図である。 図4の方法を実施するためのシステムを示す略図である。
サンプリングされた音声信号のフレームについてのピッチ−ラグ・パラメータの開ループ予測に使用される方法及び装置について説明をする。この方法の主なステップは、図4の流れ図に示されている。ここで説明する方法及び装置は、図1を参照して既に説明したCELP符復号器などの、その他の点では従来通りに構成された音声符復号器に組み込まれ得るものである。
サンプリングされた、符号化されるべき音声信号は、一定の長さのフレームに分割される。既に説明したように、受信されたとき、フレームは始めにLPC予測ユニット1に入力される。通常、元の音声信号の、LPC予測が行われて該信号の短時間冗長性が抜き取られた後に残っている部分である残差信号に対して開ループLTP予測が行われる。この残差をr(n)で表わすことができ、このnはサンプル番号を示す。自己相関関数はフレームについて:
Figure 2009223326
によって決定され、ここでw(d) は、下記の式:
Figure 2009223326
で与えられる重み付け関数であり、Toldは、最も最近に受信され、処理された有声フレームについて決定されたピッチ−ラグであり、n、N、dL、dHは上で定義されている。Knw及びKは、通常は0.85の値を有する調整パラメータである。追加の調整パラメータAについては後で説明する。
フレームについて開ループLTPパラメータが決定された後、そのフレームは(パラメータToldを式(2)で使用するためにフィードバックできるように)有声又は無声に分類される。この分類は、いろいろな方法で行われ得るものである。1つの適当な方法は、開ループLTP利得bを決定して、このbを何らかの所定しきい利得と、或いはより好ましくは下記の式:
thr=(1−α) Kb b+αbthr-1 {3}
で与えられる適応しきい利得bthrと比較するという方法であり、ここでαは減衰定数(0.995)であり、Kbはスケールファクター(0.15)である。項bthr-1は、直前のフレームについて決定されたしきい利得である。フレームを有声又は無声に分類するためのもう一つの基準、或いは追加の基準は、前記フレーム内での残差信号の‘ゼロ・クロッシング’率を決定することである。クロッシング率が割合に高いことは、フレームが無声であることを示し、クロッシング率が低いことはそのフレームが有声であることを示す。適当なしきい値は、フレームの長さNの3/4 である。
フレームを有声又は無声に分類するためのもう一つの或いは追加の基準は、ピッチ−ラグが変化する速度である。フレームについて決定されたピッチ−ラグが最近のフレームの集合について決定された’平均’ピッチ−ラグから著ぢるしくずれているならば、そのフレームを無声フレームに分類することができる。ずれが比較的に小さければ、そのフレームは有声フレームに分類することができる。
{2}により与えられる重み付け関数wn(d) は、重み付けされた自己相関関数R^W(d) を旧ピッチ−ラグToldの近辺で強調させる第1項
Figure 2009223326
を有する。式{2}の左辺の第2項
Figure 2009223326
は、小さなピッチ−ラグ値を強調させる。これら2つの項の組み合わせは、正しいピッチ−ラグの倍数又は約数が重み付けされている自己相関関数の最大値を生じさせる可能性を著しく低下させるのに役立つ。
もし、現在のフレームiについてのピッチ−ラグが決定された後に、そのフレームが有声に分類され、そのフレームについての開ループ利得が何らかのしきい値(例えば0.4)より大きいと判定されたならば、式{2}の中の調整因数Aは次のフレーム(i+1)については1にセットされる。しかし、現在のフレームが無声に分類され、或いは開ループ利得がしきい値より小さいと判定されたならば、調整因数は下記のように修正される:
i+1=1.01Ai {4}
連続する無声フレーム列中の各無声フレーム(或いは、開ループ利得がしきい値より小さい場合には、有声フレーム)について式{4}に従って調整因数Aを修正することができる。しかし、所定数の連続する無声フレームが受信された後に、例えばこの連続する無声フレームの集合が受信される毎に、はじめて式{4}を適用するのが好ましい。組み合わせ重み付け因数KnwAの上限が1.0である場合には近辺の重み付け因数Knwは通常は0.85にセットされ、その限界値では重み付けは全ての遅延d=dL〜dHで均一である。
或いは、所定数(例えば3個)の重み付け関数w(d)だけを使用してもよい。各関数にはしきいレベルが割り当てられ、例えば{4}で定義されている項などの適応項がそのしきいレベルを超えたときにはそれらの関数のうちの特定の1つが選択される。限られた数の重み付け関数を定義することの利点は、定義された関数をメモリーに記憶させることができることである。従って、新しいフレームの各々について重み付け関数を計算し直す必要はなくなる。
上記の方法を実行するための簡単なシステムが図5に略図示されており、ここでシステムへの入力16は、LPC予測ユニット1から供給される残差信号である。残差信号16は、残差信号の各フレームについて相関関数を作成するフレーム相関器17に供給される。各フレームについての相関関数は第1重み付けユニット18に入力され、このユニットは式[2]の第2項、即ち
Figure 2009223326
に従ってその相関関数に重み付けをする。その重み付けされた関数は第2重み付けユニット19に入力され、このユニット19は式{2}の第1項、即ち
Figure 2009223326
に従って前記相関関数に付加的な重み付けを行う。パラメータToldはバッファ20で保管され、このバッファは、分類ユニット21が現在のフレームを有声フレームに分類する場合に限って、システムの出力によって更新される。重み付けされた相関関数は検索ユニット22に入力され、このユニットは、重み付けされた関数の最大値を特定し、その最大値から現在のフレームのピッチ−ラグを決定する。
本発明の範囲から逸脱することなく上記の実施例に様々な修正を加え得ることを専門家は認めるであろう。特に、最も最近の有声フレームについて得られた間違ったピッチ−ラグ推定が現在の推定をあまり大幅に混乱させるのを防止するために、最も最近のn個の有声フレームについて推定されたピッチ−ラグを記憶するように図5のバッファ20を構成することができる(nは例えば4である)。重み付けユニット19が適用する重み付け関数は、パラメータToldを、緩衝記憶されているn個のピッチ−ラグの中央値であるパラメータTmedと置き換えることによって修正される。
別の修正では、ユニット19で適用される重み付けは、バッファ20に記憶されているn個のピッチ−ラグ値の標準偏差に反比例する。これは、緩衝記憶されているn個のピッチ−ラグ同士の差があまり大きくないときにはピッチ−ラグの中央値の近辺での重み付けを強調し、n個のピッチ−ラグ同士の差が割合に大きいときには逆に重み付けの強調を解除するという効果を有する。例えば、次のように3つの重み付け関数を使用することができる:
Figure 2009223326
ここでKm1,Km2,Th1 ,及びTh2 は、例えばそれぞれ0.75,0.95,2,及び6に等しい調整パラメータである。ピッチ−ラグが大きいときに生じる標準偏差の大幅な変動に対処するために、式{5}の中のしきい値Th1及びTh2をピッチ−ラグ中央値Tmedに比例させることができる。
17 フレーム相関器
18、19 重み付けユニット
20 バッファ
21 分類ユニット
22 検索ユニット

Claims (26)

  1. ピッチ−ラグを表すピッチパラメータを含む音声信号の符号化方法であって、
    前記信号中のフレームについて所定の最大遅延と最小遅延との間の自己相関関数を決定し;
    少なくとも1つ前のフレームについて決定されたピッチ−ラグの近辺での遅延について前記自己相関関数を強調し;
    前記強調は、前記少なくとも1つ前のフレームについて、前記ピッチ−ラグ及び前記フレームの遅延値に依存する重み関数を適用することにより実行され;
    重み付けされた自己相関関数の最大値に対応する前記遅延を前記フレームのピッチパラメータと認定することを特徴とする方法。
  2. 前記重み付け関数は下記の形:
    Figure 2009223326
    を持っており、ここでToldは前記前のフレームのピッチ−ラグであり、dLは前記最小遅延であり、Knwは前記近辺での重み付けを定義する調整パラメータであることを特徴とする請求項1に記載の方法。
  3. 前記重み関数は、少なくともそれぞれ2つ前までのフレームについての少なくとも2つのピッチ−ラグの中央値に依存していることを特徴とする請求項1に記載の方法。
  4. 前記重み付け関数は下記の形:
    Figure 2009223326
    を持っており、ここでTmedはそれぞれの前のフレームについて決定された複数のピッチ−ラグの中央値であり、dLは前記最小遅延であり、Knwは前記近辺での重み付けを定義する調整パラメータであることを特徴とする請求項3に記載の方法。
  5. 前記重み付け関数は、前記の複数のピッチ−ラグの標準偏差に反比例する因数を包含させられることによって修正されることを特徴とする請求項4項に記載の方法。
  6. 前記重み付けは、更に、長い遅延より短い遅延を強調するようになっていることを特徴とする請求項1乃至5のいずれかに記載の方法。
  7. 前記強調は下記の因数:
    Figure 2009223326
    によってもたらされ、ここでKwはもう一つの重み付けパラメータであることを特徴とする請求項4項に記載の方法。
  8. 前記フレームを有声フレーム及び非有声フレームに分類するステップを含み、前記前のフレームは最も最近の有声フレームであることを特徴とする請求項1乃至7のいずれかに記載の方法。
  9. 前記前のフレームが最も最近のフレームでなければ、重み付けは縮小されることを特徴とする請求項8に記載の方法。
  10. 連続する非有声フレームの列が受信された後、その列内のフレームの個数に実質的に比例させて重み付けを縮小することを特徴とする請求項8又は9に記載の方法。
  11. 調整パラメータは下記の形:
    log2nw
    に修正され、ここでAは、連続する非有声フレームの列の各フレームの受信後に、又はその列中の所定の複数のフレームの受信後に増大される調整因数であって、次の有声フレームについてはその最小値に戻されるようになっていることを特徴とする、請求項2に従属したときの請求項8に記載の方法。
  12. 調整パラメータは下記の形:
    log2nw
    に修正され、ここでAは、連続する非有声フレームの列の各フレームの受信後に、又はその列中の所定の複数のフレームの受信後に増大される調整因数であって、次の有声フレームについてはその最小値に戻されるようになっていることを特徴とする、請求項4従属したときの請求項8に記載の方法。
  13. ピッチ−ラグを表すピッチパラメータを含む音声信号を符号化する装置であって、この装置は:
    所定の最大遅延と最小遅延との間の信号内のフレームの自己相関関数を決定し;
    少なくとも1つ前のフレームについて決定されたピッチ−ラグの近辺での遅延について前記自己相関関数を強調し、前記強調は、前記少なくとも1つ前のフレームについて、前記ピッチ−ラグ及び前記フレームの遅延値に依存する重み関数を適用することにより実行され;
    重み付けされた自己相関関数の最大値に対応する前記遅延を前記フレームのピッチパラメータと認定するように構成されたことを特徴とする装置。
  14. 前記重み付け関数は下記の形:
    Figure 2009223326
    を持っており、ここでToldは前記前のフレームのピッチ−ラグであり、dLは前記最小遅延であり、Knwは前記近辺での重み付けを定義する調整パラメータであることを特徴とする請求項13に記載の装置。
  15. 前記重み関数は、少なくともそれぞれ2つ前までのフレームについての少なくとも2つのピッチ−ラグの中央値に依存していることを特徴とする請求項13に記載の装置。
  16. 前記重み付け関数は下記の形:
    Figure 2009223326
    を持っており、ここでTmedはそれぞれの前のフレームについて決定された複数のピッチ−ラグの中央値であり、dLは前記最小遅延であり、Knwは前記近辺での重み付けを定義する調整パラメータであることを特徴とする請求項13に記載の装置。
  17. 前記重み付け関数は、前記の複数のピッチ−ラグの標準偏差に反比例する因数を包含させられることによって修正されることを特徴とする請求項16に記載の装置。
  18. 前記重み付けは、更に、長い遅延より短い遅延を強調するようになっていることを特徴とする請求項13乃至17のいずれかに記載の装置。
  19. 前記強調は下記の因数:
    Figure 2009223326
    によってもたらされ、ここでKwはもう一つの重み付けパラメータであることを特徴とする請求項16に記載の装置。
  20. 前記フレームを有声フレーム及び非有声フレームに分類するようにさらに構成され、前記前のフレームは最も最近の有声フレームであることを特徴とする請求項13乃至19のいずれかに記載の装置。
  21. 前記前のフレームが最も最近のフレームでなければ、重み付けは縮小されることを特徴とする請求項20に記載の方法。
  22. 連続する非有声フレームの列が受信された後、その列内のフレームの個数に実質的に比例させて重み付けを縮小することを特徴とする請求項20又は21に記載の装置。
  23. 調整パラメータは下記の形:
    log2nw
    に修正され、ここでAは、連続する非有声フレームの列の各フレームの受信後に、又はその列中の所定の複数のフレームの受信後に増大される調整因数であって、次の有声フレームについてはその最小値に戻されるようになっていることを特徴とする、請求項14従属したときの請求項20に記載の装置。
  24. 調整パラメータは下記の形:
    log2nw
    に修正され、ここでAは、連続する非有声フレームの列の各フレームの受信後に、又はその列中の所定の複数のフレームの受信後に増大される調整因数であって、次の有声フレームについてはその最小値に戻されるようになっていることを特徴とする、請求項16従属したときの請求項20に記載の装置。
  25. 請求項13乃至24のいずれかに記載の装置を有する移動通信装置。
  26. 請求項13乃至24のいずれかに記載の装置を有する基地コントローラ局を有するセルラー電話通信網。
JP2009101116A 1997-05-07 2009-04-17 音声符号化方法及び装置 Expired - Lifetime JP4866438B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FI971976 1997-05-07
FI971976A FI971976A (fi) 1997-05-07 1997-05-07 Puhekoodaus
FI980502 1998-03-05
FI980502A FI113903B (fi) 1997-05-07 1998-03-05 Puheen koodaus

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003350824A Division JP2004038211A (ja) 1997-05-07 2003-10-09 音声符号化方法及び装置

Publications (2)

Publication Number Publication Date
JP2009223326A true JP2009223326A (ja) 2009-10-01
JP4866438B2 JP4866438B2 (ja) 2012-02-01

Family

ID=26160386

Family Applications (3)

Application Number Title Priority Date Filing Date
JP10113808A Withdrawn JPH1124699A (ja) 1997-05-07 1998-04-23 音声符号化方法及び装置
JP2003350824A Pending JP2004038211A (ja) 1997-05-07 2003-10-09 音声符号化方法及び装置
JP2009101116A Expired - Lifetime JP4866438B2 (ja) 1997-05-07 2009-04-17 音声符号化方法及び装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP10113808A Withdrawn JPH1124699A (ja) 1997-05-07 1998-04-23 音声符号化方法及び装置
JP2003350824A Pending JP2004038211A (ja) 1997-05-07 2003-10-09 音声符号化方法及び装置

Country Status (10)

Country Link
US (1) US6199035B1 (ja)
EP (1) EP0877355B1 (ja)
JP (3) JPH1124699A (ja)
KR (2) KR100653926B1 (ja)
CN (1) CN1120471C (ja)
AU (1) AU739238B2 (ja)
DE (1) DE69814517T2 (ja)
ES (1) ES2198615T3 (ja)
FI (1) FI113903B (ja)
WO (1) WO1998050910A1 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
TWI241557B (en) * 2003-07-21 2005-10-11 Ali Corp Method for estimating a pitch estimation of the speech signals
JP4490090B2 (ja) 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
ATE475170T1 (de) * 2006-03-20 2010-08-15 Mindspeed Tech Inc Tonhöhen-track-glättung in offener schleife
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8386246B2 (en) * 2007-06-27 2013-02-26 Broadcom Corporation Low-complexity frame erasure concealment
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) * 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US9384759B2 (en) 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9020818B2 (en) * 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
ES2760934T3 (es) * 2013-07-18 2020-05-18 Nippon Telegraph & Telephone Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal
ES2819032T3 (es) 2013-12-19 2021-04-14 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62194300A (ja) * 1986-02-21 1987-08-26 株式会社日立製作所 ピッチ抽出方法
JPH04264600A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JPH07114396A (ja) * 1993-10-19 1995-05-02 Sony Corp ピッチ検出方法
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4486900A (en) 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5179594A (en) * 1991-06-12 1993-01-12 Motorola, Inc. Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook
US5339384A (en) * 1992-02-18 1994-08-16 At&T Bell Laboratories Code-excited linear predictive coding with low delay for speech or audio signals
FI95085C (fi) 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FI91345C (fi) 1992-06-24 1994-06-10 Nokia Mobile Phones Ltd Menetelmä kanavanvaihdon tehostamiseksi
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
FI98163C (fi) 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5664053A (en) 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62194300A (ja) * 1986-02-21 1987-08-26 株式会社日立製作所 ピッチ抽出方法
JPH04264600A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JPH07114396A (ja) * 1993-10-19 1995-05-02 Sony Corp ピッチ検出方法
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置

Also Published As

Publication number Publication date
KR100653926B1 (ko) 2006-12-05
FI980502A (fi) 1998-11-08
FI980502A0 (fi) 1998-03-05
ES2198615T3 (es) 2004-02-01
KR100653932B1 (ko) 2006-12-04
KR20010006394A (ko) 2001-01-26
AU739238B2 (en) 2001-10-04
US6199035B1 (en) 2001-03-06
FI113903B (fi) 2004-06-30
JP2004038211A (ja) 2004-02-05
JP4866438B2 (ja) 2012-02-01
DE69814517D1 (de) 2003-06-18
EP0877355A2 (en) 1998-11-11
AU6403298A (en) 1998-11-27
CN1120471C (zh) 2003-09-03
CN1255226A (zh) 2000-05-31
WO1998050910A1 (en) 1998-11-12
JPH1124699A (ja) 1999-01-29
EP0877355A3 (en) 1999-06-16
DE69814517T2 (de) 2004-04-08
KR20040037265A (ko) 2004-05-04
EP0877355B1 (en) 2003-05-14

Similar Documents

Publication Publication Date Title
JP4866438B2 (ja) 音声符号化方法及び装置
US7117156B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
JP3197155B2 (ja) ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置
US7047190B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
EP1086451B1 (en) Method for performing frame erasure concealment
EP1720154B1 (en) Communication device, signal encoding/decoding method
US7852792B2 (en) Packet based echo cancellation and suppression
JPH0863200A (ja) 線形予測係数信号生成方法
JPH07311597A (ja) 音声信号合成方法
JP3565869B2 (ja) 伝送エラーの修正を伴う音声信号の復号方法
KR20010101422A (ko) 매핑 매트릭스에 의한 광대역 음성 합성
US20090171656A1 (en) Method and apparatus for performing packet loss or frame erasure concealment
KR20010090803A (ko) 과다-샘플된 합성 광대역 신호를 위한 고주파 내용 복구방법 및 디바이스
AU727706B2 (en) Repetitive sound compression system
US7302385B2 (en) Speech restoration system and method for concealing packet losses
WO1997015046A9 (en) Repetitive sound compression system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110617

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111107

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term