JP2007034326A - 音声コーダの方法とシステム - Google Patents

音声コーダの方法とシステム Download PDF

Info

Publication number
JP2007034326A
JP2007034326A JP2006271461A JP2006271461A JP2007034326A JP 2007034326 A JP2007034326 A JP 2007034326A JP 2006271461 A JP2006271461 A JP 2006271461A JP 2006271461 A JP2006271461 A JP 2006271461A JP 2007034326 A JP2007034326 A JP 2007034326A
Authority
JP
Japan
Prior art keywords
spectral
sequence
speech
frame
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006271461A
Other languages
English (en)
Other versions
JP4912816B2 (ja
Inventor
Rajiv Laroia
ラロイア ラジブ
Boon-Lock Yeo
イエオ ブーン−ロック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2007034326A publication Critical patent/JP2007034326A/ja
Application granted granted Critical
Publication of JP4912816B2 publication Critical patent/JP4912816B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

【課題】本発明は、向上された符号化効率を維持しつつ、線形予測分析のような通常の符号化技術と比較して音声信号の短期間特性を知覚的に改良する符号化システムを提供する。
【解決手段】本発明は非線形変換および/またはスペクトル・ワープ処理を有効に利用して音声信号の対応する有声区間について特定の短期間スペクトル特性情報を向上させる。非線形変換および/またはワープされたスペクトル特性情報はその後線形予測分析によるなどして符号化され、対応する符号化音声信号を生じる。特定のスペクトル情報の非線形変換および/またはスペクトル・ワープ処理の使用によって、好都合なことにより多くの符号化リソースが、対応する合成音声の知覚品質により多く貢献するスペクトル成分のために使用されるようになる。この符号化技術を、例えばボコーダおよび合成による分析符号化システムを含む多様な音声符号化技術で利用することが可能である。
【選択図】図1

Description

本発明は、概して、音声通信システムに関し、より詳細には、音声を符号化および復号化するためのシステムに関する。
音声記憶および音声応答システムを含むディジタル通信システムは記憶および伝送のために必要とされるビットレートを低減するために音声符号化およびデータ圧縮技術を使用する。有声音声は声帯による声道の周期的な励起によって発生する。その結果、有声音声に対応する信号は、ピッチ期間と呼ばれる実質上共通の期間を有する同様だが徐々に変化する波形の連続を含む。通常の音声符号化は、ピッチ期間内の短期間の冗長性を利用して符号化音声信号のデータ圧縮を達成する。
引用によって本明細書の記載に援用する米国特許第3,624,302号で説明されているような通常の音声コーダ(ボコーダ)システムでは、音声信号は10msec.〜30msec.の連続した一定の期間に分割され、各間隔の短期間の冗長性または相関から生じる短期間周波数スペクトルに近似する係数の集合が発生する。こうした係数は、線形予測分析によって発生するので、線形予測係数(LPC)と呼ばれる。LPCは、声道をモデル化する時間につれて変化する全極フィルタを表す。LPCは予測残差と呼ばれる励起信号を利用することによってオリジナル音声信号を再生するために使用できる。予測残差は、線形予測分析によって短期間の冗長性を除去した後に残るオリジナル音声信号の成分を表す。
ボコーダでは、予測残差は通常、無声音につていの白色雑音および有声音声のインパルスの周期的連続としてモデル化される。モデル化された残差と、声道をモデル化する線形予測フィルタのLPCとに基づいてボコーダ・シンセサイザにより合成音声信号を発生することができる。ボコーダはオリジナル音声信号の時間領域波形ではなくその信号のスペクトル情報に近似する。さらに、こうしたコードから合成された音声信号は、時に理解が困難な知覚可能な合成された品質を示すことが多い。
改良された音声知覚の品質を有する別の既知の音声符号化技術は音声信号の波形に近似する。慣用の合成による分析システムはこうした符号化技術を利用する。通常の合成による分析システムは、許容できる知覚品質を有する合成音声を達成することができる。こうしたシステムは、ピッチ期間の短期冗長特性の符号化のための線形予測分析と、予測残差の長期ピッチ相関を符号化するための長期予測器(LTP)との両方を利用する。LTPでは、過去のピッチ期間の特性を使用して現在のピッチ期間の特性の近似値を提供する。通常のLTPには、過去のピッチ期間特性の遅延フィードバックかまたは過去のピッチ期間特性の重なり合うベクトルのコードブックが含まれる。
特定の合成による分析システムでは、予測残差は雑音信号の適応的または確率的コードブックによってモデル化される。最適な励起が、フレームと呼ばれる連続する音声期間に対する候補となる励起ベクトルを探索することによって発見される。その後発見された最適な励起の特定のコードブック・エントリを指定するコードが符号化されたLPCおよびLTPパラメータと共にチャネルを伝送される。こうした特定の合成による分析システムはコード励起線形予測(CELP)システムと呼ばれる。CELPコーダの例は、引用によって本明細書の記載に援用する、B.Atal、M.Schroeder、「超低ビットレートにおける音声信号の確率的符号化」、米国電気電子学会通信国際会議会報、48.1ページ(1984年5月)、M.Schroeder、B.Atal、「コード励起線形予測(CELP):超低ビットレートにおける高品質音声」、米国電気電子学会ASSP国際会議会報、937−940ページ(1985年)およびP.Kroon、E.Deprettere、「4.8〜16KB/sの間の速度での高品質音声コーディングのための合成による分析予測コーダの等級」、米国電気電子学会通信分野機関誌SAC−6(2)、353−363ページ(1988年2月)でより詳細に説明される。
しかし、ボコーダおよび合成による分析システムでは、他の種類の音声符号化システムと同様、向上された知覚精度を有する短期間周波数スペクトルの特性を符号化する方法の必要が認識されている。
本発明は、有利な符号化効率を維持しつつ、慣用的な符号化技術と比較して音声信号の短期間スペクトル特性の改良された知覚符号化を提供する符号化システムに関する。本発明は、例えば、線形予測分析によるスペクトル符号化に先立って対応する有声音声フレームの短期間周波数スペクトルの特性を表すスペクトルの振幅の数値のシーケンスに対する非線形変換および/またはスペクトル・ワープ処理を行うことによる音声信号の連続するフレームの処理を利用する。スペクトル・ワープは、特定の周波数範囲が符号化信号から合成された対応する音声の知覚品質に対して有する影響に基づくスペクトル特性シーケンス中に表される特定の周波数範囲を拡大または圧縮する。
詳細には、スペクトル・ワープは対応する合成された音声の知覚品質に実質上影響する周波数範囲を拡大し、知覚的にあまり重要でない周波数範囲を圧縮する。対応する方法で、非線形変換はスペクトルの振幅の数値に対して振幅のワープ操作を行う。こうした変換はスペクトルの振幅の数値を増幅および/または減衰させて、対応する合成音声信号の知覚品質の特性を向上させる。
本発明は、ある周波数成分が符号化信号から合成された音声信号の知覚品質に実質上影響する対応する周波数成分について実質上等しい符号化のためのビット資源(符号化リソース)によって音声信号の短期間周波数スペクトルの符号化を行う、線形予測分析を含む通常の符号化方法の実現に基づいている。言い換えれば、典型的な符号化技術は、ある周波数成分が対応する合成音声信号に生じさせる知覚精度に基づいて短期間周波数スペクトル特性の周波数成分の符号化を行うわけではない。
これに対して、本発明は、スペクトル成分をスペクトル・ワープおよび/または非線形変換によって処理し、線形予測分析によるなどして連続するスペクトルの符号化を生じる変換および/またはワープされた特性を生じ、知覚的により重要なスペクトル成分についてより多くの符号化リソースを提供し、知覚的にあまり重要でないスペクトル成分に対してはより少ない符号化リソースを提供する。従って、こうした符号化信号から生じる合成された有声音声は、符号化処理のみに関する有利な符号化効率を維持しつつ、改良された知覚品質を有する。
本発明による対応する復号器は相補的逆非線形変換および/またはスペクトル・ワープ処理を利用して、改良された知覚品質を有する音声信号の対応するフレームのもとの短期間周波数スペクトルの対応する近似値を獲得する。
例えば、ボコーダおよび合成による分析符号化システム、または音声信号の短時間周波数スペクトルの特性を表すために線形予測分析が使用されてきた他の技術を含む多様な周波数符号化装置において、本発明の符号化技術を利用することが可能である。
本発明のそれ以外の特徴と利点は、以下の詳細な説明と添付の図面とからより容易に明らかになるだろう。
本発明は、例えば、線形予測分析によるスペクトルの符号化に先立って対応する有声音声フレームの短期間周波数スペクトルの特性を表すスペクトルの振幅の数値のシーケンスに対して非線形変換および/またはスペクトル・ワープ処理を行うことによる音声信号の連続するフレームの処理を有利に利用する。ここで使用されるように、「短期間周波数スペクトル」とはピッチの周期性に起因する相関を除外した音声信号の短期間の相関から生じるスペクトル特性のことを言う。短期間(short−term)周波数スペクトルは、当該技術分野では短時間(short−time)周波数スペクトルとも呼ばれ、その全体を引用によって本明細書に援用する、L.R.Rabiner、R.W.Schafer、「音声信号のディジタル処理」、6.0−6.1節、250−282ページ、(ニュージャージー州Prentice−Hall刊、1978年)でより詳細に説明されている。
スペクトル・ワープは、符号化信号から合成される対応する音声中に生じる知覚精度に周波数範囲が有する影響に基づいて、スペクトルの振幅の数値のシーケンスで表される特定の周波数範囲を拡大または圧縮する。対応する方法で、非線形変換はスペクトルの振幅の数値に対して振幅のワープ操作を行う。こうした変換はスペクトルの振幅の数値を増幅および/または減衰して対応する合成音声の知覚精度を改善するために特性を向上させる。
本発明は、知覚的に重要な周波数成分が知覚的にあまり重要でない周波数成分の符号化のために使用されるのと同一または同様のリソースを使用して符号化されるように、有声音声信号期間の周波数成分を符号化する線形予測コーダを含む通常のコーダの実現に基づいている。対照的に、本発明は、スペクトル・ワープおよび/または非線形変換によりスペクトルの振幅の数値を処理し、コーダが知覚的により重要なスペクトル成分により多くの符号化リソースを提供し、知覚的にあまり重要でないスペクトル成分にはより少ないスペクトル成分を提供するようにする少なくとも1つの特定の周波数範囲の特性が向上した変換および/またはワープされた特性を生じる。従って、こうした符号化音声信号から生じた合成音声は、有利な符号化効率を維持しつつ符号化処理のみに関して改良された知覚品質を有する。
本発明は以下、スペクトル・符号化を提供するための線形予測分析の使用に関して説明されるが、これは例示の目的のみであって、発明の制限を意図するものではない。ある周波数成分が対応する合成音声において有する対応する知覚品質または精度に基づく符号化以外の方法によって短期間周波数スペクトルの周波数成分を符号化する非常に多くの他のスペクトル・符号化技術を利用することもまた可能である。例えば、対応するスペクトル成分の知覚品質に基づいて符号化信号ビットまたは符号化リソースを割り当てない本発明によるスペクトル・コーダの使用が可能である。
本発明は、例えば、ボコーダやCELPコーダのような合成による分析システムを含む有声音声の短期間声道特性を符号化するための多様なコーダ・システムにおいて使用可能である。本発明の技術を利用する例示としてのボコーダおよびCELP型コーダおよび復号器システムは、図1および図4、および図7および図8にそれぞれ示される。こうしたシステムは例示の目的のみのために説明されるのであって、発明の制限を意図するものではない。短期間周波数スペクトル特性の符号化が望まれる他の種類のコーダ・システムで本発明を使用することも可能である。
説明を明瞭にするために、本発明の例示としての実施形態は、他のものと共に固有の機能ブロックを含むものとして示される。こうしたブロックが表す機能は、ソフトウェアの命令の実行を可能にするハードウェアを含む汎用または専用ハードウェアの使用を通じて提供される。例えば、こうした機能はLucent DSP16またはDSP32Cといったディジタル信号プロセッサ(DSP)ハードウェアと、以下論じられるような機能を実行するソフトウェアによって実行されるが、これは発明の制限を意図するものではない。本発明によって超大規模集積(VLSI)ハードウェア素子やハイブリッドDSP/VLSI装置を使用することも可能である。
本発明による例示としてのボコーダ型コーダ装置1が図1に示される。図1では、話されたメッセージのような音声パターンが、対応するアナログ音声信号を発生するマイクロホン・トランスジューサ5によって受信される。このアナログ音声信号は、フィルタおよびサンプラー回路10によって帯域制限されパルス・サンプルのシーケンスに変換される。帯域制限フィルタリングは、音声信号の処理で通常使用されるように、4.0KHzを超え、かつ8.0KHzであるサンプリング・レートf に関する音声信号の周波数成分を除去することができる。各音声信号サンプルはその後アナログ−ディジタル変換器15によってディジタルコードS(n)のシーケンスを表す振幅に変換される。シーケンスS(n)は普通ディジタル化音声と呼ばれる。ディジタル化音声S(n)は、短期間周波数スペクトル・プロセッサ20に供給され、そこで本発明によりディジタル化音声S(n)から対応する短期間スペクトル特性が決定されかつ符号化される。
プロセッサ20は、15msec.〜70msec.の範囲といった実質上固定した長さの時間に対応するフレームまたはブロックのシーケンスS(n)の間隔を連続して処理する。例えば、8.0KHzのレートでサンプリングされた音声のフレーム持続期間30msec.はシーケンスS(n)からの240サンプルのフレームと約33フレーム/秒のフレーム速度とに対応する。プロセッサ20はまずシーケンス・フレームが表す音声が有声であるか無声音であるかを決定する。フレームが有声音声を示す場合、プロセッサ20はフレームの少なくとも1つのピッチ期間について短期間周波数スペクトルを表すスペクトル成分の数値を決定する。フレームの短期間周波数スペクトルを表すスペクトル成分の数値を生じるために非常に多くの方法が利用できる。1つの例示としての方法が以下図2に関してより詳細に説明される。
それにも関わらず、符号器20では、フレームの短期間周波数スペクトルを表すスペクトル成分の数値が本発明により非線形変換および/またはスペクトル・ワープ操作によって処理され、変換および/またはワープされた数値または中間数値のシーケンスを生じる。特定のスペクトル・ワープ操作が選択され、別のスペクトル範囲に関する音声信号のフレームの少なくとも1つの特定の周波数範囲の特性を向上させる。向上したスペクトル範囲が、対応する合成音声の知覚可能な品質に実質上影響する範囲であることが有利である。
プロセッサ20はその後変換および/またはワープされたスペクトルの数値に対応する自己相関係数を決定する。線形予測分析のようなスペクトル符号化技術が自己相関係数に対して行われ、線形予測係数(LPC)のような係数のシーケンスを発生するが、これは量子化されてディジタル化音声信号S(n)の処理されたフレームに関する量子化係数シーケンスα 、α ...α を発生する。係数の数Pは線形予測分析の次数に対応する。
量子化係数シーケンスα 、α ...α はプロセッサ20によってチャネル・コーダ30に提供され、そこで量子化シーケンスは伝送媒体を通じた伝送または記憶媒体への記憶に適した形態に変換される。伝送のための例示としての変換にはコードを有線または無線伝送媒体上で伝送するための電気信号または光学式伝送媒体上で伝送するための光信号への変換が含まれる。同様の方法で、記憶のための例示としての変換には磁気または光学式記憶媒体への記憶のための記録可能な信号へのコードの変換が含まれる。LPCは通常容易に量子化されないので、量子化係数シーケンスα 、α ...α を形成するために、LPCを慣用の線スペクトル対(LSP)または偏相関(PARCOR)パラメータといった同等の量子化可能な形態に変換することが可能である。
プロセッサ20の残りの出力信号には、もしあれば、対応する有声音声フレームに関する短期間周波数スペクトルを表すスペクトル成分の数値をワープするために使用されるワープ関数を示すワープ・コード信号Wが含まれる。プロセッサ20はまた、処理された音声フレームが有声音声と無声音声とのどちらを含んでいるかを表す信号、処理されたフレームに関する利得定数Gおよび処理されたフレームが有声音声の場合ピッチ期間の長さに関する信号Xを含む、慣用的な音声符号化システムで通常発生する他の出力信号をも発生する。
本発明による短期間周波数スペクトル・プロセッサ20の例示としての構成が図2に示される。図2を参照すると、受信されたディジタル化音声S(n)は分割器40によって固定した数Nのディジタル数値のフレームに分割される。処理されるj番目のフレームに対して、S(nj+i)、i=1、2、...、NについてN個のディジタル数値がピッチ検出器50とウィンドウ・プロセッサ55とに提供される。前に説明した非重複フレーム間隔は例示としての目的のみであって、重複フレーム間隔も本発明により使用可能であることが容易に理解されるだろう。
ピッチ検出器50は有声成分が音声信号のフレームに現れているかどうか、またフレームが無声音声を含むかどうかを判断する。有声音声成分を検出した場合、検出器50は対応するピッチ期間を決定する。ピッチ期間は実質上周期的な有声音声信号1サイクル中のディジタル化サンプルの数を示す。通常、ピッチ期間は約3msec.〜20msec.の長さを有するが、これは8.0KHzのサンプリング・レートに基づいて24〜160のディジタル・サンプルに対応する。
フレームが有声音声成分を含むかどうかを決定し、ピッチ期間の間隔を決定するための例示としての方法は、前掲書「音声信号のディジタル処理」、4.8、7.2、8.10.1節、150−157、372−378、447−450ページで説明されている。音声フレームの長期相関を調べることおよび/または音声フレームに線形予測分析を行って結果として生じた予測残差中のピッチ・インパルスのロケーションを識別することによってピッチ期間の間隔を決定することが可能である。ピッチ検出器50はまた、処理されるフレーム・シーケンスを含むサンプルのエネルギーに基づいて利得定数Gを決定する。この決定のための方法は発明の実現にとって重要ではない。利得定数Gを決定するための例示としての方法も前掲書「音声信号のディジタル処理」、8.2節、404−407ページに説明されている。
ウィンドウ・プロセッサ55は、本質的にはピッチ検出器50によって決定されるピッチ期間を示す信号Xに基づく持続期間中のピッチ期間であるウィンドウ関数を決定する。ウィンドウ・プロセッサ55は分割器40から受信したフレームのディジタル・サンプルを決定されたウィンドウ関数と掛け算してディジタル数値のシーケンスS (i)、i=1、...、Mを得るが、これは本質的には持続期間中のピッチ期間であり、ここでMは処理されたフレームjに関してウィンドウ関数によって得られたゼロでないサンプルを表している。通常望ましいウィンドウ関数は通常漸進的なロールオフを有する。その結果、プロセッサ55が望ましいシーケンスS (i)を得るためにピッチ期間より長い間隔をサポートすることが可能である。従って、こうしたウィンドウ関数から得られたディジタル数値はピッチ期間より長い持続期間に対応するが、そうした間隔も、本発明のこの説明ではピッチ期間間隔と呼ばれる。
さらに、ピッチ期間の開始から次のピッチ期間の開始までのサンプルのピッチ期間間隔を本質的に得るために、ディジタル化音声サンプルのフレーム・シーケンスに関して決定されたウィンドウ関数を整列させることが有利である。音声フレーム間隔に対して、例えば慣用の線形予測分析を使用して対応する発生した予測残差中に生じる対応するピッチ・インパルスを識別することによって、ピッチ検出器50が引き続くピッチ期間間隔の開始を識別することが可能である。
フレームjについてウィンドウ・プロセッサ55によって発生されるシーケンスS (i)はスペクトル・プロセッサ60に提供される。スペクトル・プロセッサ60は、シーケンスの離散的フーリエ変換(DFT)を行い、その結果生じる変換された係数の振幅を決定するなどして、ピッチ期間音声シーケンスS (i)の短期間周波数スペクトルの対応するスペクトルの振幅の数値A(i)、i=0、1、...、K−1を発生する。スペクトルの数値Kの数は、符号化のためにピッチ期間の短期間周波数スペクトルの特性を十分に表すために十分な周波数解像度を提供するように選択されるべきである。Kの数値を大きくすれば短期間周波数スペクトルの周波数解像度が改善される。通常128〜1024の適当な範囲のKの数値によって十分な周波数解像度が提供される。数値Kがピッチ期間音声シーケンスS (i)におけるサンプルの数より大きい場合、K−MゼロをDFT処理の前にシーケンスS (i)に追加することができる。
スペクトルの振幅のシーケンスA(i)は連続的、すなわち非離散的な短期間周波数スペクトルA(z)のサンプリングされたバージョンを表す。しかし、スペクトルの振幅のシーケンスA(i)はまた説明を容易にするために短期間周波数スペクトルとも呼ばれる。慣用DFTプロセッサは望ましいスペクトルの振幅の数値A(i)を発生するために使用可能である。しかし、望ましい振幅の成分に加えた位相成分は通常慣用DFTプロセッサによって発生し、本発明のこの特定の実施形態については必要ではない。従って、位相成分は本発明によれば必要ないので、直接振幅の数値を発生する他の変換がスペクトル・プロセッサ60のために使用可能である。また、高速フーリエ変換(FFT)プロセッサがスペクトル・プロセッサ60のために使用できる。例示としての音声信号のピッチ期間に関するスペクトルの振幅の数値A(i)の例示としてのシーケンスによって表される短期間周波数スペクトルA(z)の図が、以下説明される図3Aに示される。
さらに、フレームjの短期間周波数スペクトルの特性を表すスペクトルの振幅の数値のシーケンスA(i)を生じるための前に説明した方法は、例示としての目的のみであって、本発明の制限を意味するものではない。フレームjの短期間周波数スペクトルの特性を表すこうしたシーケンスを生じるために非常に多数の他の技術が使用可能であることが容易に理解されるだろう。
再び図2を参照すると、プロセッサ60によって発生するスペクトルの振幅の数値A(i)のシーケンスがその後スペクトル・ワーパ65に提供される。スペクトル・ワーパ65はシーケンスA(i)をワープして、スペクトルの振幅の数値A’(i)の周波数ワープ・シーケンスを発生する。シーケンスを発生する際、ワーパ65は、周波数中で、対応する合成音声の知覚品質を向上させる少なくとも1つの周波数範囲について対応するスペクトルの振幅の数値を広げる。同様の方法で、知覚的にあまり重要でない周波数範囲の特性を表すスペクトルの振幅は圧縮される。スペクトルの振幅の数値のこうした周波数の拡大と圧縮によって、実質上実行された線形予測分析が、知覚上有効な周波数範囲についてより多くの利用可能な符号化リソースを提供し、知覚上あまり重要でない周波数範囲についてより少ない符号化リソースを提供するようになる。
図3Bは、図3Aの短期間周波数スペクトルA(z)に基づくワープされたスペクトルの振幅によって特性を表される例示された周波数ワープ短期間周波数スペクトルA’(z)を示す。0〜Z およびZ 〜Z のシーケンスA(z)の例示としてのスペクトル範囲は、対応する合成音声中で知覚的に重要になりやすい比較的高いエネルギーおよび/または複数の比較的鋭い振幅のピークを有する。対照的に、Z 〜Z およびZ 〜f /2の周波数範囲は、知覚的にあまり重要でない比較的低いエネルギーと主として漸進的なピークを有する。従って、図3AのスペクトルA(z)を表す対応するスペクトルの振幅の数値A(i)は、図3Bに示されるワープされたスペクトルA’(z)を表す振幅の数値A’(i)に周波数ワープされる。その結果、図3Aの周波数Z 、Z およびZ は、それぞれ図3Bの周波数Z’ 、Z’ およびZ’ に写像される。従って、スペクトル・ワーパ65は、0〜Z およびZ 〜Z の知覚的により重要な範囲をより広い範囲0〜Z’ およびZ’ 〜Z’ に拡大し、知覚的にあまり重要でない範囲Z 〜Z およびZ 〜f /2を縮小された範囲Z’ 〜Z’ およびZ’ 〜f /2に圧縮する。
図3Aのスペクトルを表すスペクトルの振幅の数値A(i)をワープするためのスペクトル・ワーパ65の例示としての方法はまず、図3Bのワープされたスペクトルを表すワープされたスペクトルの振幅の数値A’(i)を達成するために、対応する合成音声の中で知覚的に多かれ少なかれ重要でありそうな周波数範囲を表す振幅の数値のグループを識別する。従って、ワーパ65は、図3Aに示すように知覚的に多かれ少なかれ重要なものとして識別される4つの周波数範囲に対応する振幅の数値の4つのグループを識別する。このグループには、周波数範囲0〜Z に関する振幅の数値A (i)、i=0、1、...aを含む第1グループ、周波数範囲Z 〜Z に関する振幅の数値A (i)、i=a+1、a+2、...bを含む第2グループ、周波数範囲Z 〜Z に関する振幅の数値A (i)、i=b+1、b+2、...cを含む第3グループおよび周波数範囲Z 〜f /2に関する振幅の数値A (i)、i=c+1、c+2、...k−1を含む第4グループが含まれる。以上の議論では、周波数範囲u〜vにはuは含まれるがvは除外される。
グループの振幅の数値の数を低減することによって、第2および第4の振幅の数値のグループA (i)およびA (i)によって表される周波数範囲Z 〜Z およびZ 〜f /2を圧縮することが可能である。例えば、こうしたグループの4つの連続する振幅の数値毎に3つを捨てることができる。さらに、こうした圧縮技術が使用されたならば、こうしたグループのための数値の数は、数が4の倍数になるように選択できる。また、こうしたグループのシーケンスの4つ毎の連続する振幅の数値を、4つの数値の平均である振幅を有する1つの数値によって交換できる。こうした技術によって、第2および第4グループについて、振幅の数値の数を4の因数により縮小できる。
同様の方法で、グループの振幅の数値の数を増大させることによって、第1および第3の振幅の数値のグループA (i)およびA (i)によって表される周波数範囲0〜Z およびZ 〜Z を拡張または拡大することが可能である。例えば、プロセッサ65はこうしたグループの2つの連続する数値の間毎に新しい振幅の数値を追加できる。その結果、第1および第3グループを表す振幅の数値の数は2倍になる。さらに、各追加された振幅の数値は、両隣の振幅の数値に等しいか、または隣の振幅の数値のある他の関係に基づいている。例えば、線形補間を使用して2つの隣り合う数値の算術的平均である数値を追加することが可能である。
ワープ・スペクトルの振幅の数値A’(i)、i=0、1、...、K’−1は4つのワープされたグループの振幅の数値を連結することによって得られる。ワープ・スペクトルの振幅の数値K’はスペクトルの振幅の数値Kの元の数とは異なる傾向がある。さらに、本発明によるワープ・スペクトルの振幅の数値A’(i)を発生させるために、特定のグループの圧縮のみ、またはそれ以外のグループの拡大のみを行うことが可能である。
これまで説明したワープ法は最初に離散的フーリエ変換を行ってディジタル化音声フレームS (n)の短期間周波数スペクトルの特性を表すスペクトルの振幅の数値A(i)を発生し、その後シーケンスA(i)中の特定の周波数範囲の特性を表すスペクトルの振幅の数値を増大または減少させて望ましいワープ・シーケンスA’(i)を生じる。しかし、本発明によれば、離散的フーリエ変換によって、強調すべき周波数範囲についてはより多くのスペクトルの振幅の数値を発生し、強調する必要のない周波数範囲についてはより少ないスペクトルの振幅の数値を発生することによってワープ・シーケンスA’(i)を有利に直接発生することが可能である。
さらに、有声音声フレーム中の短期間周波数スペクトルのスペクトル特性を拡大および圧縮するこれまで説明したワープ法は例示としての目的のみの区分線形ワープ関数に基づいている。周波数ワープは他の可逆的ワープ関数によっても行いうることが容易に理解されるだろう。例えば、対応する有声音声フレームについてスペクトルの振幅の数値のシーケンスA(i)のために使用される特定のワープ処理は変換のコードブックから選択できる。この場合、信号Wが図2のスペクトル・ワーパ65によって発生し、対応するフレームについてスペクトルの振幅の数値A(i)をワープするために使用されるコードブック変換の特定のインデックスを示す。信号Wは符号化された音声信号と共に復号器に伝送されるが、復号器は同様のコードブックと、受信された信号W中のインデックス番号によって示される対応する相補的逆ワープ変換エントリとを含む。さらに、例えばピッチ期間の長さといった現在または過去に処理された音声フレームの特定のプロパティに基づいてコードブック・エントリの選択を行うことが可能である。従って、信号Wはこうした技術を使用するとき省略できる。
スペクトル・ワーパ65が発生するワープ・シーケンス・スペクトルの振幅の数値A’(i)は、シーケンスA’(i)中の各数値に対して非線形変換を行って変換されたシーケンスA’’(i)を生じる非線形変成器70に提供される。例示としての非線形変換には数式A’’(i)=[A’(i)]が含まれるが、ここでNは正または負の整数または正でない小数である。従って、こうした非線形変換は、こうした振幅の数値に基づいてスペクトルの振幅の数値を増幅または減衰させる。例えば、N=−1のとき、A’(i)は、各ワープ・スペクトルの振幅の数値についてA’’(i)=1/A’(i)に変換され、次の線形予測分析器85で処理することによってシーケンスA’(i)をオール・ゼロ・スペクトルとして有効にモデル化する。
数値Nが負の場合、シーケンスA’’(i)によって表される変換されたスペクトルの線形予測分析によって、シーケンスA’(i)によって表されるスペクトルに関するオール・ゼロ・スペクトルの表示が有効に提供される。線形予測分析の次数が、30未満といったように比較的小さい場合、−1/Bに対応する数値Nを使用することが有利であることが多いが、ここでBは1より大きくスペクトルのダイナミックレンジを縮小する。スペクトルのダイナミックレンジのこうした縮小によって、より小さい次数のオール・ゼロ・フィルタによるスペクトルの連続モデル化を促進する時間応答を有効に短縮する。これまで非線形変換が負の数値Nについて説明されたが、1に等しくない正の数値Nを使用して、本発明による対応する全極スペクトルの表示を生じることもまた可能である。
これまで説明した非線形変換は固定変換であり、本発明によって符号化音声信号を復号化するための対応する復号器によって通常知られている。しかし、例えばチャネルから受信した符号化信号中に提供されるピッチ期間の長さXといった現在または過去に処理された音声フレームの特定の性質(プロパティ)に基づく数値Nによる非線形変換もまた可能である。非線形変換の数値Nも変換のコードブックから決定できる。この場合、対応するコードブックのインデックスは、図1のチャネル・コーダ30が発生する符号化信号に含まれる。さらに、A”(i)=[A’(i)]N(i)となるように、ワープされた振幅の数値のシーケンスA’(i)中の周波数範囲にわたる異なった数値Nによって非線形変換を行うことも可能であるが、ここで異なった数値N(i)は異なった数値iについて使用できる。
変成器70が発生する変換およびワープされたシーケンスA’’(i)は、別の周波数範囲に対して少なくとも1つの特定の周波数範囲の特性が向上したスペクトル表示を提供する。シーケンスA’’(i)のスペクトルの振幅の数値は二乗器75によって二乗されて対応する電力スペクトルの数値を生じ、それが逆離散的フーリエ変換(IDFT)プロセッサ80に提供される。IDFTプロセッサ80はその後、二乗されたスペクトルの振幅の数値A’’(i)、i=0、1、...、K’−1に基づいてK’個までの自己相関係数を発生する。FFTを使用してプロセッサ80のIDFTを行うことが可能である。
発生した自己相関係数はその後P番目の次数の線形予測分析器85に提供されるが、そこでは変換およびワープされたスペクトルの振幅の数値A’’(i)に対応するP個の線形予測係数(LPC)が発生する。その後、発生したLPCは変成器/量子化器90によって量子化され、係数シーケンスα 、α ...α を生じる。数値を量子化する前に、変成器/量子化器90が、発生したLPCを通常のLPCより量子化されやすいP個の数値の数学的に同等の集合にさらに変換することが有利である。プロセッサ90が使用する特定のLPC変換は本発明を実行する上で重要ではなく、例えば、慣用の偏相関(PARCOR)係数または線スペクトル対(LSP)係数への変換を含みうる。結果として生じる係数シーケンスα 、α ...α は符号器20によって処理されたフレーム・シーケンスの短期間周波数スペクトルを表す。
図2に示す短期間周波数スペクトル・プロセッサ20の例示としての実施形態はスペクトル・ワーパ65と非線形変成器70を特定の次数で使用して、音声信号の有声音声フレームの短期間周波数スペクトルの知覚符号化を改善する。しかし、こうした向上した特性はまた、スペクトル・ワーパ65と変成器70とを個別または異なった順序で使用しても達成可能である。
図1のコーダ1によって発生する対応する音声フレームに対する符号化信号を復号化するための例示としての復号器100が図4に示される。図4では、チャネル・符号化信号がチャネル復号器105によって検出される。チャネル復号器105は、フレームの有声/無声状態、利得定数G、信号W、量子化係数シーケンスα 、α ...α およびフレームが有声音声を含む場合ピッチ期間の長さXを含む、チャネル符号器30によって符号化された連続して受信される音声フレームに関する対応する信号を復号化する。処理される現在の音声フレームに関する係数シーケンスα 、α ...α と信号Wとは、以下図5に関してより詳細に説明される短期間周波数スペクトル復号器110に提供される。
短期間周波数スペクトル復号器110は、例えば、係数シーケンスα 、α ...α によって表される変換および/またはワープされた短期間周波数スペクトルの逆非線形変換および/またはスペクトル・ワープ処理に基づいて処理されたフレームに関する対応するオール・ゼロ・フィルタ係数a 、a 、...a を生じる。発生したフィルタ係数a 、a 、...a はその後、音声フレームに対応する合成音声のスペクトルを形成するスペクトル包絡線の特性を表すためにオール・ゼロ合成フィルタ115を形成するために提供される。
フィルタ115は係数a 、a 、...a を使用して処理される音声フレームに関する励起シーケンスのスペクトルを修正し、図1のオリジナル音声信号に対応する合成音声信号を生じる。励起シーケンスを発生するための特定の方法は本発明の実現によって重要ではなく、慣用の方法でよい。例えば、有声音声フレームに関する励起シーケンスを発生するための例示としての方法はピッチ期間の長さによって分離されたインパルスを発生するためのインパルス発生器120に依存すべきである。また、ガウス白色雑音発生器のような白色雑音発生器125が、合成音声信号の無声部分について必要な励起を発生するために使用できる。インパルス発生器120と白色雑音発生器125とに接続されたスイッチ130は、受信された音声フレーム情報に基づいて励起シーケンスに関する適当なシーケンスを構成するために、対応する出力を信号増幅器135に適用するために有声/無声状態信号によって制御される。各フレームについて、増幅器135による励起信号の増幅の振幅は、チャネル復号器105から受信されたフレームの利得定数Gに基づいている。
本発明による短期間周波数スペクトル復号器110の例示としての構成が図5に示される。図5の復号器の構成は、図2の短期符号器の構成と実質上逆の方法で動作する。図5では、処理される音声フレームに関する変換および量子化されたLPCに対応するチャネル復号化係数α 、α ...α は、シーケンスをLPCに逆に変換する逆変成器150に提供される。より詳細には、逆変成器150は図2の符号器20中の変成器/量子化器90によって行われたのと逆の変換を行う。従って、逆変成器150によって発生したLPCは、音声信号の符号化中に図2のLPC分析器85によって発生した信号に対応する。
逆変成器150によって発生したLPCは、ワープおよび変換された短期間周波数スペクトルを表す逆数のスペクトルの振幅の数値の対応する中間数値シーケンスを発生する、離散的なフーリエ変換器のようなスペクトル・プロセッサ160に提供される。
Figure 2007034326
Figure 2007034326
図4の変成器170によって使用される特定の非線形変換は、図2の変成器70によって行われる非線形変換の逆であるべきである。従って、例えば、非線形変成器70として平方根が使用される場合、プロセッサ170によって平方演算が行われるべきである。
Figure 2007034326
図4の逆スペクトル・ワーパ175はまた、例えば、スペクトルの振幅の数値のシーケンスを符号化するために使用されるスペクトル・ワープ関数のコードブック・インデックスを含むワープ信号Wを受信する。復号器の対応する相補的コードブックは、ワープ・インデックス信号Wによって示されるコードブック・エントリに、図1のコーダ1によって使用される操作と逆のスペクトル・ワープ操作を含むべきである。
これまで説明した信号Wは対応するコードブック・エントリを示すが、対応する音声フレームの短期間周波数スペクトルについて、別の方法で符号器によって行われる特定の利用されるスペクトル・ワープ操作を信号Wが示すことも可能である。また、符号化音声フレームに関して利用されるワープ関数が、例えばピッチ期間の長さといった音声フレームのプロパティに基づくとき、ワープ信号Wは省略できる。こうしたシステムでは、ある間隔のピッチ期間の長さを示す信号Xも逆ワーパ175に提供されるべきである。
動作の際、図2のスペクトル・ワーパ65が、図3Aに示す前に説明した例のように音声信号の符号化中にZ 〜Z の周波数範囲を表す合計スペクトル数値の割合を変更した場合、逆ワーパ175はその周波数範囲を表す振幅の数値を処理し、振幅の数値を縮小して実質上もとの割合に戻す。非常に多数の技術が、こうした逆スペクトル・ワープ操作を達成する処理のために使用できる。例えば、特定の周波数範囲の特性を表すスペクトルの振幅の数値の数を半分に縮小するために、逆ワーパ175は周波数範囲の特性を表すシーケンス中の他のすべてのスペクトルの数値を除去するか、そのシーケンス中の隣り合う数値の代わりに平均値を用いることができる。
Figure 2007034326
プロセッサ185によって発生される電力スペクトルの数値の逆数シーケンスは、K’’個までの対応する自己相関係数を発生するIDFTプロセッサ190に提供される。FFTを使用してプロセッサ190のIDFTを行うことが可能である。発生した自己相関係数は、処理される有声音声フレームの短期間周波数スペクトルの逆変換および逆ワープされたスペクトル特性に対応するH個の線形予測フィルタ係数a 、a ...a を発生するH次線形予測分析器195に提供される。こうした発生されたフィルタ係数は、こうした有声音声フレームに対応する合成音声のスペクトル包絡線を形成するための、図4に示すオール・ゼロ合成フィルタ115を形成するために使用可能である。
図5の例示としての短期間周波数スペクトル復号器110は特性を向上するために特定の順序の逆非線形変換およびスペクトル・ワープを利用するが、こうした向上した特性が逆変成器170および逆ワーパ175を個別または異なった順序で使用しても達成可能であることが容易に理解されるべきである。
図6Aは、図3Aおよび図3Bに関して前に説明した方法でスペクトル・ワープされ、25次LPC分析を使用して符号化された音声信号間隔に関する逆ワープされたスペクトルの振幅の例示としてのシーケンスを示す。図6Bは、スペクトル・ワープなしで慣用の25次LPC分析を使用して符号化された図3Aに示す同じ間隔のスペクトルの振幅を示す。図6Aでは、知覚的に重要な周波数範囲0〜Z およびZ 〜Z の特性を表す逆ワープ・スペクトル・パラメータが、その周波数範囲で、図6Bの対応するスペクトル・パラメータよりも図3Aのオリジナル・スペクトルにより近い振幅を表す。
本発明による音声信号の短期間周波数スペクトルを符号化するための方法が図1〜図6のボコーダ型音声コーダに関して説明された。しかし、本発明は、例えば、合成による分析符号化システムを含む他の種類の符号化システムでも使用可能である。本発明による例示としてのCELP合成による分析コーダ200と復号器300とがそれぞれ図6および図7に示される。図1および図7中の同様の構成要素は、説明を明瞭にするために、例えばA/D変換器15や短期間周波数スペクトル・コーダ20のように同じ参照番号を含む。同様に、図4および図8の同様の構成要素も、短期間周波数スペクトル復号器110やチャネル復号器105のように同じ参照番号を含む。
図7のCELPコーダ200を参照すると、マイクロホン5によって受信される音声パターンが、図1に関して前に説明されたようにフィルタおよびサンプラー10とA/D変換器15とによって処理され、ディジタル化音声シーケンスS(n)を発生する。ディジタル化音声シーケンスS(n)はその後短期間周波数スペクトル符号器20に提供され、そこでシーケンスS(n)の連続するフレームについて符号化された短期間周波数係数シーケンスα 、α ...α とワープ信号Wとが生じる。対応する音声フレームの短期間周波数スペクトルの特性を表す発生した係数シーケンスα 、α ...α とワープ信号Wは、符号化されてチャネル上で伝送または記憶するためにチャネル・コーダ30に提供される。符号化された短期間周波数スペクトル係数シーケンスα 、α ...α とワープ信号Wとのこの発生は、図1および図2に関して前に説明したものと実質上同一である。
図1および図7の符号器1および200の間の相違は、予測残差の符号化に関する。符号器200は長期間予測分析とコードブック励起エントリに基づいて予測残差を符号化するが、コーダ1は、有声音声に関する周期的インパルス列と無声音声に関する白色雑音との比較的単純なモデルに基づいて予測残差の符号化を行う。予測残差は図7で次の方法で符号化される。ディジタル化音声シーケンスS(n)はピッチ予測分析器205に提供され、そこでシーケンスS(n)の対応するフレームに基づいて対応する長期間フィルタ・タップ係数β 、β 、β と遅延Hが発生する。例示としてのピッチ予測分析器は、引用によって本明細書の記載に援用するB.S.Atal「低ビットレートにおける音声の予測符号化」、米国電気電子学会通信関係会報、第COM−30巻、600−614ページ、(1982年4月)により詳細に説明されている。対応するフレームに関する対応する発生した長期間フィルタ・タップ係数β 、β 、β と遅延Hをチャネル上で伝送または記憶するためチャネル・コーダ30に提供される。
さらに、各シーケンスが一連の乱数を含む、ランダム雑音状のコードワード・シーケンスの、1024といった固定した数を含む、確率的コードブックまたはコード記憶装置210が利用される。各乱数はフレームの持続期間と同等の持続期間に関する一連のパルスを表す。各コードワードは定数Gによって基準化されたシーケンサ220によってスケーラ215に適用される。
Figure 2007034326
長期間予測フィルタ225は、長期フィルタ・タップ係数β 、β 、β と遅延Hに基づく係数を利用する。例示としての長期間予測コーダは、前掲文献「低ビットレートにおける音声の予測符号化」でより詳細に説明されている。
各音声フレームについて、合成フィルタ230は、発生したスペクトル係数シーケンスα 、α ...α から短期間周波数スペクトル復号器110によって発生するフィルタ係数a 、a 、...a と符号器20によって発生するワープ信号Wとを使用する。復号器110に関する適当な復号器の動作は図4に関して前に説明されている。
Figure 2007034326
誤りシーケンスの数値はその後二乗器240によって二乗され、シーケンスに基づく平均値が平均器245によって決定される。
その後、ピーク・ピッカー250がシーケンサ220を制御して、コードブック210中のコードワードを順番付けし、実質上最小の平均二乗誤り信号を生じる適当なコードワードと利得Gの数値を選択する。決定されたコードブックのインデックスLと利得Gはその後、チャネル上で対応する音声信号フレームを符号化および伝送または記憶するためにチャネル・コーダ30に提供される。
Figure 2007034326
図8の復号器300は図7のコーダ200によって生じるCELP符号化フレームを復号化することができる。図8を参照すると、チャネル復号器105はチャネルから受信または読み出した符号化シーケンスを復号する。
Figure 2007034326
以上、本発明の多数の実施形態が詳細に説明されたが、本発明の教えから離れることなく多くの修正を行うことができる。こうした修正のすべては特許請求の範囲の各請求項の中に包含されるよう意図される。例えば、前に説明した実施形態はLPC分析を利用して非線形変換および/またはワープされたスペクトル・パラメータを符号化したが、こうした符号化は本発明による非常に多くの代替技術によって行うことができる。こうした代替技術には、周波数成分が対応する合成音声中に有する対応する知覚品質または精度に基づく符号化以外の方法によって短期間周波数スペクトルの周波数成分を符号化する技術が含まれる。
本発明による短期間周波数スペクトル符号器を利用する例示としてのボコーダの構成の略ブロック図である。 図1のボコーダで使用するための本発明による例示としての短期間周波数符号器の略ブロック図である。 図2の符号器によって生じるスペクトルの振幅の数値によって特徴づけられる例示としての短期間周波数スペクトルのグラフを示す図である。 図2の符号器によって生じるスペクトルの振幅の数値によって特徴づけられる例示としての短期間周波数スペクトルのグラフを示す図である。 本発明による短期間周波数スペクトル復号器を利用する例示としての音声復号器の構成の略ブロック図である。 図4の音声復号器で使用するための本発明による例示としての短期間周波数復号器の略ブロック図である。 図3Bで示されるワープ・スペクトルの振幅の数値に基づいて図4の復号器が発生する逆ワープ・スペクトルの振幅の数値によって表される例示としての短期間周波数スペクトルのグラフを示す図である。 図3Aで示されるスペクトルの振幅の数値に基づく復号化非ワープ・スペクトルの振幅の数値によって表される例示としての短期間周波数スペクトルのグラフを示す図である。 図2の符号器を利用する例示としてのコードブック励起線形予測(CELP)符号器の略ブロック図である。 図5の復号器を利用する例示としてのCELP復号器の略ブロック図である。

Claims (6)

  1. 音声信号を符号化して、符号化信号を発生するための方法であって、
    有声音声を表わす該音声信号のフレーム区間について、スペクトル振幅値の系列を発生するステップであって、該スペクトル振幅値の系列が該フレーム区間の短期間周波数スペクトルのスペクトル成分を特徴づけるものであり、該フレーム区間の少なくとも1つのピッチ期間のスペクトル成分に基づいて発生する処理がなされるようなステップと、
    該スペクトル振幅値の系列に非線形変換を施して、中間スペクトル値の系列を生成するステップであって、知覚的により重要なスペクトル成分についてより多くの符号化リソースを、また知覚的にあまり重要でないスペクトル成分に対してはより少ない符号化リソースを提供するように、該中間スペクトル値の系列における少なくとも1つの特定の周波数範囲が、別の周波数範囲に対して高められた特性を有するようになっているステップと、
    該中間スペクトル値の系列を符号化して、該フレーム区間について該符号化信号の少なくとも一部分を生成するステップと、を含むことを特徴とする方法。
  2. 請求項1に記載の方法において、
    該スペクトル振幅値の系列を発生するステップが、
    ピッチ周期を表わす該フレーム区間の一部分を識別する処理と、
    該フレーム区間の該識別された部分の離散フーリエ変換を行ない、スペクトル成分値の系列を発生する処理と、
    該スペクトル成分値のそれぞれの振幅を決定して、該フレーム区間について該スペクトル振幅値の系列を生成する処理とを含む方法。
  3. 音声信号の引き続く符号化フレーム区間を含む符号化音声信号を復号するための方法であって、
    有声音声を表わすフレーム区間の少なくとも一部分について、該フレーム区間の短期間周波数スペクトルのスペクトル成分を特徴づける中間スペクトル値の系列であって、少なくとも1つの特定の周波数範囲が別の周波数範囲に対して高められた特性を有するような中間スペクトル値の系列を発生するステップであって、該短期間周波数スペクトルが該フレーム区間において表わされる有声音声のピッチ期間に対応しているステップと、
    該中間スペクトル値の系列を逆非線形変換により処理して、該フレーム区間の有声部分についての短期間周波数スペクトルを特徴づけるスペクトル振幅値の系列を生成するステップと、を含むことを特徴とする方法。
  4. 音声信号の引き続く符号化フレーム区間を含む符号化音声信号を復号するための方法であって、
    有声音声を表わす符号化されたフレーム区間の少なくとも一部分について、該フレーム区間の短期間周波数スペクトルのスペクトル成分を特徴づける中間スペクトル値の系列であって、少なくとも1つの特定の周波数範囲が別の周波数範囲に対して高められた特性を有するような中間スペクトル値の系列を発生するステップと、
    該中間スペクトル値の系列を逆非線形変換により処理して、該フレーム区間の有声部分についての短期間周波数スペクトルを特徴づけるスペクトル振幅値の系列を生成するステップであって、該逆非線形変換が該フレーム区間における有声音声のピッチ期間の接続期間に基づくものであるステップと、を含むことを特徴とする方法。
  5. 音声信号に基づいて符号化信号を発生するためのコーダであって、
    該音声信号の有声音声を表わす少なくとも1つのフレーム区間について、このフレーム区間の短期間周波数スペクトルのスペクトル成分を特徴づけるスペクトル振幅値の系列を発生するためのスペクトル変換器であって、該フレーム区間における有声セグメントにおいて表わされる少なくとも1つのピッチ期間に基づいた変換(55、60)を行うよう構成されているスペクトルに変換器(10、15、40、50、55、60)と
    該スペクトル変換器に結合され、該スペクトル振幅値の系列に該非線形変換を施して中間スペクトル値の系列を生成するためのエンコーダであって、該中間スペクトル値の系列においては少なくとも1つの特定の周波数範囲が別の周波数範囲に対して高められた特性を有するようになっているエンコーダと、
    該エンコーダに結合され、該中間スペクトル値の系列を符号化して、該フレーム区間について該符号化信号の少なくとも一部分を生成するためのスペクトルコード(75、80、85、90)と、を含むことを特徴とするコーダ。
  6. 請求項5に記載のコーダにおいて、該スペクトル変換器が、該フレーム区間における区間を識別するためのウィンドウ・プロセッサ(55)およびピッチ検出器(50)と、
    該ウィンドウ・プロセッサに結合され、該フレーム区間について該スペクトル振幅値の系列を発生するための離散フーリエ変換器(60)とを含むコーダ。
JP2006271461A 1996-12-19 2006-10-03 音声コーダの方法とシステム Expired - Fee Related JP4912816B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/770615 1996-12-19
US08/770,615 US5839098A (en) 1996-12-19 1996-12-19 Speech coder methods and systems

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP9349864A Division JPH10207497A (ja) 1996-12-19 1997-12-19 音声コーダの方法とシステム

Publications (2)

Publication Number Publication Date
JP2007034326A true JP2007034326A (ja) 2007-02-08
JP4912816B2 JP4912816B2 (ja) 2012-04-11

Family

ID=25089164

Family Applications (2)

Application Number Title Priority Date Filing Date
JP9349864A Pending JPH10207497A (ja) 1996-12-19 1997-12-19 音声コーダの方法とシステム
JP2006271461A Expired - Fee Related JP4912816B2 (ja) 1996-12-19 2006-10-03 音声コーダの方法とシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP9349864A Pending JPH10207497A (ja) 1996-12-19 1997-12-19 音声コーダの方法とシステム

Country Status (4)

Country Link
US (2) US5839098A (ja)
EP (1) EP0852375B1 (ja)
JP (2) JPH10207497A (ja)
DE (1) DE69703233T2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3022462B2 (ja) * 1998-01-13 2000-03-21 興和株式会社 振動波の符号化方法及び復号化方法
GB2348342B (en) * 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7275030B2 (en) * 2003-06-23 2007-09-25 International Business Machines Corporation Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
KR20060067016A (ko) 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
WO2007037359A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
CN103717249B (zh) 2011-06-15 2017-03-22 克洛恩泰克制药股份公司 注射针和装置
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
CN109887519B (zh) * 2019-03-14 2021-05-11 北京芯盾集团有限公司 提高语音信道数据传输准确性的方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB533363A (en) * 1939-08-11 1941-02-12 Norton Co Improvements in and relating to the manufacture of abrasive articles
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
JPH0455899A (ja) 1990-06-25 1992-02-24 Nec Corp 音声信号符号化方式
US5226084A (en) 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
JPH06138896A (ja) 1991-05-31 1994-05-20 Motorola Inc 音声フレームを符号化するための装置および方法
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5343500A (en) * 1991-09-03 1994-08-30 At&T Bell Laboratories Non-linear encoder and decoder for information transmission through non-linear channels
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
JPH07111462A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置
JP2570603B2 (ja) 1993-11-24 1997-01-08 日本電気株式会社 音声信号伝送装置およびノイズ抑圧装置
US5715365A (en) 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JP3526613B2 (ja) 1994-04-27 2004-05-17 株式会社リコー 情報処理機器の消音装置
JP3465341B2 (ja) 1994-04-28 2003-11-10 ソニー株式会社 オーディオ信号符号化方法
JP3360423B2 (ja) 1994-06-21 2002-12-24 三菱電機株式会社 音声強調装置
KR100289733B1 (ko) 1994-06-30 2001-05-15 윤종용 디지탈 오디오 부호화 방법 및 장치
JP2943636B2 (ja) 1994-11-22 1999-08-30 ヤマハ株式会社 信号処理装置
JPH08147886A (ja) 1994-11-26 1996-06-07 Sanyo Electric Co Ltd メモリ制御装置、及び圧縮情報再生装置
JP3557674B2 (ja) 1994-12-15 2004-08-25 ソニー株式会社 高能率符号化方法及び装置
JPH08220199A (ja) 1995-02-13 1996-08-30 Casio Comput Co Ltd 電池寿命監視装置

Also Published As

Publication number Publication date
DE69703233D1 (de) 2000-11-09
JPH10207497A (ja) 1998-08-07
EP0852375B1 (en) 2000-10-04
US5839098A (en) 1998-11-17
JP4912816B2 (ja) 2012-04-11
DE69703233T2 (de) 2001-02-22
USRE43099E1 (en) 2012-01-10
EP0852375A1 (en) 1998-07-08

Similar Documents

Publication Publication Date Title
JP4912816B2 (ja) 音声コーダの方法とシステム
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
JP4005359B2 (ja) 音声符号化及び音声復号化装置
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
KR20090073253A (ko) 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
JPH0439679B2 (ja)
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3583945B2 (ja) 音声符号化方法
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
Vass et al. Adaptive forward-backward quantizer for low bit rate high-quality speech coding
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP2736157B2 (ja) 符号化装置
JP3552201B2 (ja) 音声符号化方法および装置
KR100205060B1 (ko) 정규 펄스 여기 방식을 이용한 celp 보코더의 피치검색 방법
JP3199128B2 (ja) 音声の符号化方法
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
KR100346732B1 (ko) 잡음코드북작성과그를이용한선형예측부호화/복호화방법및그장치
EP1212750A1 (en) Multimode vselp speech coder

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090324

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090624

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091203

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100121

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100716

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100722

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110609

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees