JP4567289B2 - Method and apparatus for tracking the phase of a quasi-periodic signal - Google Patents

Method and apparatus for tracking the phase of a quasi-periodic signal Download PDF

Info

Publication number
JP4567289B2
JP4567289B2 JP2002507369A JP2002507369A JP4567289B2 JP 4567289 B2 JP4567289 B2 JP 4567289B2 JP 2002507369 A JP2002507369 A JP 2002507369A JP 2002507369 A JP2002507369 A JP 2002507369A JP 4567289 B2 JP4567289 B2 JP 4567289B2
Authority
JP
Japan
Prior art keywords
phase
signal
periodic
previous frame
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002507369A
Other languages
Japanese (ja)
Other versions
JP2004502203A5 (en
JP2004502203A (en
Inventor
ダス、アミタバ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2004502203A publication Critical patent/JP2004502203A/en
Publication of JP2004502203A5 publication Critical patent/JP2004502203A5/ja
Application granted granted Critical
Publication of JP4567289B2 publication Critical patent/JP4567289B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
発明の背景
I.発明の分野
本発明は、概ね音声処理の分野、とくに準周期信号の位相を追跡するための方法および装置に関する。
【0002】
II.背景
ディジタル技術による音声(voice)の伝送は、とくに長距離のディジタル無線電話の応用において普及してきた。これにより、チャンネル上で送ることができる最少情報量を判断し、一方で再構成された音声の知覚品質を維持することに関心が生まれた。音声を単にサンプリングして、ディジタル形式にすることによって送るとき、従来のアナログ電話の音声品質を実現するには、毎秒64キロビット秒(kbps)のオーダのデータレートが必要である。しかしながら、音声解析を使用し、その後で適切にコード化し、伝送し、受信機において再合成をすることによって、データレートを相当に低減することができる。
【0003】
人間の音声の生成モデルに関係するパラメータを抽出することによって音声を圧縮する技術を採用したデバイスは、音声コーダと呼ばれている。音声コーダは、入力音声信号を時間のブロック、すなわち解析フレームに分割する。一般的に音声コーダはエンコーダとデコーダとを含む。エンコーダは、入力音声フレームを解析して、一定の関連するパラメータを抽出して、パラメータを二値表現、すなわち1組のビットまたは二値データパケットに量子化する。データパケットは通信チャンネル上で受信機およびデコーダへ送られる。デコーダはデータパケットを処理し、非量子化して(unquantize)パラメータを生成し、非量子化したパラメータを使用して音声フレームを再合成する。
【0004】
音声コーダの機能は、音声が本質的にもっている固有の冗長の全てを取去ることによって、ディジタル化された音声信号を低ビットレートの信号へ圧縮することである。ディジタル圧縮は、入力音声フレームを1組のパラメータで表わし、量子化を採用して、このパラメータを1組のビットで表わすことによって実現される。入力音声フレームが多数のビットNをもち、音声コーダによって生成されるデータパケットが多数のビットNをもつとき、音声コーダによって得られる圧縮係数は、C=N/Nである。デコードされた音声(speech)の高い音声品質(voice quality)を維持し、一方で目標の圧縮係数を得ることが課題とされている。音声コーダの性能は、(1)音声モデル、すなわち上述の解析および合成プロセスの組合せがどのくらい適切に行われるか、および(2)パラメータ量子化プロセスが1フレーム当りNビットの目標ビットレートでどのくらい適切に実行されるかに依存する。したがって音声モデルは、各フレームごとの小さい組のパラメータを使用して、音声信号の本質(essence)、すなわち目標の音声品質を得ることを目的としている。
【0005】
音声コーダは時間領域のコーダ、すなわち音声の小さいセグメント(一般的に5ミリ秒(millisecond, ms)のサブフレーム)を一度にコード化する高度な時間分解処理(time-resolution processing)を採用することによって時間領域の音声波形を得ることを試みる時間領域のコーダとして構成することができる。各サブフレームごとに、この技術において知られている種々のサーチアルゴリズムによって、コードブック空間から高精度の見本(representative)を見付ける。その代わりに、音声コーダは周波数領域のコーダとして構成されていてもよく、1組のパラメータを使用して入力音声フレームの短期間の音声スペクトルを捕らえて(解析)、対応する合成プロセスを採用して、スペクトルパラメータから音声波形を再現することを試みる。パラメータ量子化器は、文献(A Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992))に記載されている既知の量子化技術にしたがって、コードベクトルの記憶されている表現を使用してパラメータを表わすことによってそれらのパラメータを保存する。
【0006】
よく知られている時間領域の音声コーダは、CELP(Code Excited Linear Predictive)コーダであり、これはL.B. Rabiner & R.W. Schaferによる文献(Digital Processing of Speech Signals 396-453 (1978))に記載されており、ここでは参考文献として全体的にこれを取り上げている。CELPコーダでは、線形予測(linear prediction, LP)解析によって、短期間のフォルマントフィルタの係数を見付け、音声信号における短期間の相関関係、すなわち冗長を取去る。短期間の予測フィルタを入力音声フレームに適用して、LPの残余信号(residue signal)を生成し、このLPの残余信号をさらに長期間の予測フィルタパラメータおよび次の確率コードブックでモデル化して、量子化する。したがってCELPのコード化は、時間領域の音声波形をコード化するタスクを、LPの短期間のフィルタ係数をコード化するタスクおよびLPの残余をコード化するタスクの別々のタスクへ分ける。時間領域のコード化は、固定レート(すなわち、各フレームごとに、同数のビットNを使用するレート)で、または可変レート(すなわち、異なるビットレートが異なるタイプのフレームの内容に対して使用されるレート)で実行することができる。可変レートのコーダは、目標の品質を得るのに適したレベルまでコーデックパラメータをコード化するのに必要なビット量のみを使用することを試みる。例示的な可変レートのCELPのコーダは米国特許第5,414,796号に記載されており、これは本発明の譲受人に譲渡され、ここでは参考文献として全体的に取り上げている。
【0007】
CELPコーダのような時間領域のコーダは、通常は、フレームごとに多数のビットNに依存して、時間領域の音声波形の精度を保持する。このようなコーダは、通常はフレーム当りのビット数Nが比較的に多いとき(例えば、8キロビット秒以上)、優れた音声品質を伝える。しかしながら低ビットレート(4キロビット秒以下)では、時間領域のコーダは、使用可能なビット数が制限されているために、高品質で丈夫な性能を維持しない。低ビットレートではコードブック空間が制限されているので、従来の時間領域のコーダには備えられている波形を整合する能力を取去って、より高レートの市販のアプリケーションにおいてこのようなコーダを実行するのに成功した。
【0008】
現在、研究に対する関心および活発な商業上の要求が急激に高まり、中程度から低いビットレート(すなわち、2.4ないし4キロビット秒の範囲およびそれ以下)で動作する高品質の音声コーダを発展させた。応用分野には、無線電話通信、衛星通信、インターネット電話通信、種々のマルチメディアおよび音声ストリーミングアプリケーション、音声メール、並びに他の音声保存システムを含む。駆動力については、大きい容量が必要とされ、かつパケットが失われた情況下での丈夫な性能が要求されている。種々の最近の音声のコード化を標準化する努力は、低レートの音声コード化アルゴリズムの研究および発展を推進する別の直接的な駆動力に当てられている。低レートの音声コーダは、許容可能な適用バンド幅ごとに、より多くのチャンネル、すなわちユーザを生成し、低レートの音声コーダを適切なチャンネルコーディングの追加の層と結合して、コーダの全体的なビット予定値(bit budget)の仕様に適合させ、チャンネルを誤った情況のもとでも丈夫な性能を発揮させることができる。
【0009】
より低いビットレートでコード化するために、音声のスペクトル、すなわち周波数領域でコード化する種々の方法が開発され、この方法では音声信号は、時間にしたがって漸進的に変化するスペクトル(time-varying evolution of spectra)として解析される。例えば、R.J. McAulay & T.F. Quatieriによる文献(Sinusoidal Coding, in Speech Coding and Synthesis ch. 4 (W.B. Kleijin & K.K. Paliwal eds., 1995)参照。スペクトルコーダは、時間にしたがって変化する音声波形を精密にまねるのではなく、1組のスペクトルパラメータを使用して、音声の各入力フレームの短期間の音声スペクトルをモデル化、すなわち予測することを目的とする。スペクトルパラメータはコード化され、音声の出力フレームはデコードされたパラメータを使用して生成される。生成された合成された音声は、元の入力音声波形と整合しないが、同様の知覚品質を与える。この技術においてよく知られている周波数領域コーダの例には、マルチバンド励起コーダ(multiband excitation coder, MBE)、シヌソイド変換コーダ(sinusoidal transform coder, STC)、高調波コーダ(harmonic coder, HC)を含む。このような周波数領域のコーダは、低ビットレートで使用可能な少数のビットで正確に量子化できるコンパクトな組のパラメータをもつ高品質のパラメータモデルを与える。
【0010】
それにも関わらず、低ビットレートのコード化は、制限されたコード化分解能、すなわち制限されたコードブック空間に重大な制約を加えて、単一のコード化機構の効果を制限し、コーダが、等しい精度の種々の背景条件のもとで、種々のタイプの音声セグメントを表わすことができないようにしている。例えば、従来の低ビットレートの周波数領域のコーダは、音声フレームの位相情報を送らない。その代わりに、位相情報は、ランダムな人工的に生成された初期位相値および線形補間技術(linear interpolation technique)を使用することによって再構成される。例えば、H.Yang、他による文献(Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electronic Letters 856-57 (May 1993))参照。位相情報は人工的に生成されるので、シヌソイドの振幅は量子化−非量子化プロセスによって完全に保持されるときでも、周波数領域のコーダによって生成される出力音声は元の入力音声と整合しない(例えば、大半のパルスは同期しない)。したがって、周波数領域のコーダでは、例えば信号対雑音比(signal-to-noise ratio, SNR)または知覚のSNRのような、閉ループの性能尺度(performance measure)を採用することが難しいことが分かった。
【0011】
開ループのモード決定プロセスに関連して低レートの音声のコード化を行なうために、マルチモードコード化技術が採用された。1つのこのようなマルチモードコード化技術は、Amitava Das、他による文献(Multimode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch. 7 (W.B. Kleijin & K.K. Paliwal eds., 1995))に記載されている。従来のマルチモードコーダは異なるモード、すなわちコード化−デコード化アルゴリズムを、異なるタイプの入力音声フレームへ適用する。各モード、すなわちコード化−デコード化プロセスは、最も効率的なやり方で、例えば、有声音音声、無声音音声、または背景ノイズ(非音声(nonspeech))のような一定のタイプの音声セグメントを表わすために特化される。外部の開ループのモード決定機構は、入力音声フレームを検査して、何れのモードをフレームに適用するかに関して判断する。通常は、開ループのモード決定は、入力フレームから多数のパラメータを抽出して、一定の時間およびスペクトルの特性に関するパラメータを評価して、この評価に対するモード決定に基づくことによって行なわれる。したがってモード決定は、出力音声の抽出状態、すなわち出力音声が音声品質または他の性能尺度に関して入力音声にどのくらい近くなるかを前もって知ることなく行われる。
【0012】
上述に基づいて、位相情報をより精密に推定する低ビットレートの周波数領域のコーダを用意することが望ましい。マルチモードの混合領域のコーダを用意して、フレームの音声内容に基づいて、一定の音声フレームを時間領域でコード化し、他の音声フレームを周波数領域でコード化することがさらに好都合である。閉ループのコード化モード決定機構にしたがって、一定の音声フレームを時間領域でコード化して、他の音声フレームを周波数領域でコード化することができる混合領域のコーダを用意することが、なおいっそう望ましい。コーダによって生成された出力音声と、コーダへ入力された元の音声との時間の同期性を保証する閉ループのマルチモードの混合領域の音声コーダを用意することが、さらにいっそう望ましい。このような音声コーダは、本出願と共に出願された関係する出願(CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER)に記載されており、これは本発明の譲受人に譲渡され、ここでは参考文献として全面的に取り上げている。
【0013】
コーダによって生成された出力音声と、コーダへ入力された元の音声との時間の同期性を保証する方法を提供することがさらに望ましい。したがって、準周期信号の位相を正確に追跡する方法が必要とされている。
【0014】
本発明の概要
本発明は、準周期信号の位相を正確に追跡する方法に関する。したがって、本発明の1つの態様では、いくつかのフレーム中では周期的であり、他のフレーム中では非周期的である信号の位相を追跡するためのデバイスは、信号が周期的であるフレームについて信号の位相を推定するように構成されている論理と、推定された位相の性能を閉ループの性能尺度で監視するように構成されている論理と、信号が周期的であり、かつ推定された位相の性能が所定の閾値レベルより低いフレームについて信号の位相を測定するように構成されている論理とを含むことが好都合である。
【0015】
本発明の別の態様では、いくつかのフレーム中では周期的であり、他のフレーム中では非周期的である信号の位相を追跡する方法は、信号が周期的であるフレームについて信号の位相を推定するステップと、推定された位相の性能を閉ループの性能尺度で監視するステップと、信号が周期的であり、かつ推定された位相の性能が所定の閾値レベルより低いフレームについて信号の位相を測定するステップとを含むことが好都合である。
【0016】
本発明の別の態様では、いくつかのフレーム中では周期的であって、他のフレーム中では非周期的である信号の位相を追跡するデバイスは、信号が周期的であるフレームについて信号の位相を推定する手段と、推定された位相の性能を閉ループの性能尺度で監視する手段と、信号が周期的であり、かつ推定された位相の性能が所定の閾値レベルより低いフレームについて信号の位相を測定する手段とを含むことが好都合である。
【0017】
好ましい実施形態の詳細な記述
図1では、第1のエンコーダ10は、ディジタル形式の音声サンプルs(n)を受信し、サンプルs(n)をコード化して、伝送媒体12、すなわち通信チャンネル12上で第1のデコーダ14へ送る。デコーダ14はコード化された音声サンプルをデコードし、出力された音声信号SSYNTH(n)を合成する。反対方向で伝送するには、第2のエンコーダ16がディジタル形式の音声サンプルs(n)をコード化し、それを通信チャンネル18上で送る。第2のデコーダ20はコード化された音声サンプルを受信し、デコードし、合成された出力音声信号SSYNTH(n)を生成する。
【0018】
音声サンプルs(n)は、この技術において知られている種々の方法、例えばパルスコード変調(pulse code modulation, PMC)、コンパンドされたμ法、すなわちA法(companded μ-law, or A-law)を含む方法にしたがって、ディジタル形式にされて量子化された音声信号を表わしている。この技術において知られているように、音声サンプルs(n)は、各々が所定数のディジタル形式の音声サンプルs(n)を含む入力データのフレームへ編成される。例示的な実施形態では、8キロヘルツのサンプリングレートが採用され、各20ミリ秒のフレームは160サンプルを含んでいる。別途記載する実施形態では、データ伝送レートはフレームごとに8キロビット秒(フルレート)から4キロビット秒(2分の1レート)、2キロビット秒(4分の1レート)、1キロビット秒(8分の1レート)へ変化することが好都合である。その代わりに、他のデータレートを使用してもよい。ここで使用されているように、“フルレート(full rate)”または“高レート(high rate)”という用語は、通常は、8キロビット秒以上のデータレートを指し、“2分の1レート”または“低レート”という用語は、通常は、4キロビット秒以下のデータレートを指す。比較的に少ない音声情報を含むフレームに対して、より低いビットレートを選択的に採用できるので、データ伝送レートを変化させることが好都合である。当業者によって理解されるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。
【0019】
第1のエンコーダ10および第2のデコーダ20は共に第1の音声コーダ、すなわち音声コーデックを含む。同様に、第2のエンコーダ16および第1のデコーダ14は共に第2の音声コーダを含む。音声コーダはディジタル信号プロセッサ(digital signal processor, DSP)、特定用途向け集積回路(application-specific integrated circuit, ASIC)、離散的ゲート論理(discrete gate logic)、ファームウエア、または従来のプログラマブルソフトウエアモジュールおよびマイクロプロセッサで構成されていてもよいことが分かるであろう。ソフトウエアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書き込み可能な記憶媒体内にある。その代わりに、従来のプロセッサ、制御装置、または状態機械をマイクロプロセッサと置換してもよい。音声のコード化のために特別に設計されたASICの例は、本発明の譲受人に譲渡され、かつここでは参考文献として全面的に取り上げている米国特許第5,727,123号、および1994年2月16日に出願され、本発明の譲受人に譲渡され、かつここでは参考文献として全面的に取り上げている米国特許出願第08/197,417号(発明の名称:VOCODER ASIC)に記載されている。
【0020】
1つの実施形態にしたがって、図2に示されているように、音声コーダ内で使用できるマルチモードの混合領域の線形予測(mixed-domain linear prediction, MDLP)エンコーダ100は、モード決定モジュール102、ピッチ推定モジュール104、線形予測(linear prediction, LP)解析モジュール106、LP解析フィルタ108、LP量子化モジュール110、およびMDLP残余エンコーダ112を含む。入力音声フレームs(n)は、モード決定モジュール102、ピッチ推定モジュール104、LP解析モジュール106、およびLP解析フィルタ108へ供給される。モード決定モジュール102は、各入力音声フレームs(n)の周期性および他の抽出パラメータ、例えばエネルギー、スペクトルチルト、ゼロ交差レート、などに基づいて、モード指標IおよびモードMを生成する。周期性にしたがって音声フレームを分類する種々の方法は、米国特許出願第08/815,354号(発明の名称:METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING)に記載されており、これは1997年3月11日に出願され、本発明の譲受人に譲渡され、ここでは参考文献として全面的に取り上げている。このような方法は、米国電気通信工業会の業界暫定標準(Telecommunication Industry Association Industry Interim Standards)のTIA/EIA IS-127およびTIA/EIA IS-733にも採用されている。
【0021】
【数1】

Figure 0004567289
【0022】
【数2】
Figure 0004567289
【0023】
MDLP残余エンコーダ112を除いて、図2のエンコーダ100および図3のデコーダ200の種々のモジュールの動作および構成はこの技術において知られており、上述の米国特許第5,414,796号およびLB. Rabiner & R.W. Schaferによる文献(Digital Processing of Speech Signals 396-453 (1978))に記載されている。
【0024】
1つの実施形態にしたがって、MDLPエンコーダ(図示されていない)は、図4のフローチャートに示したステップを実行する。MDLPエンコーダは、図2のMDLP残余エンコーダ112であってもよい。ステップ300では、MDLPエンコーダは、モードMがフルレート(full rate, FR)であるか、4分の1レート(quarter rate, QR)であるか、または8分の1レート(eighth rate, ER)であるかを検査する。モードMがFR、QR、またはERであるときは、MDLPエンコーダはステップ302へ進む。ステップ302では、MDLPエンコーダは対応するレート(Mの値に依存して−FR,QR、またはER)を残余指標Iへ適用する。時間領域のコード化は、FRモードでは高精度で高レートのコード化であり、かつCELPのコード化であることが好都合であるが、この時間領域のコード化は、LPの残余フレーム、またはその代わりに音声フレームへ適用される。次にフレームは(ディジタル対アナログ変換および変調を含む別の信号処理の後で)送られる。1つの実施形態では、フレームは、予測誤差を表わすLP残余フレームである。代わりの実施形態では、フレームは、音声サンプルを表わす音声フレームである。
【0025】
他方で、ステップ300では、モードMがFR、QR、またはERでなかったとき(すなわち、モードMが2分の1レート(half rate, HR)であるとき)、MDLPエンコーダはステップ304へ進む。ステップ304では、スペクトルのコード化、好ましくは高調波のコード化を2分の1のレートでLP残余、またはその代わりに音声信号へ適用する。次にMDLPエンコーダはステップ306へ進む。ステップ306では、コード化された音声をデコードして、それを元の入力フレームと比較することによって、ひずみ尺度Dを得る。次にMDLPエンコーダは、ステップ308へ進む。ステップ308では、ひずみ尺度Dは所定の閾値Tと比較される。ひずみ尺度Dが閾値Tよりも大きいときは、2分の1レートのスペクトル的にコード化されたフレームについて、対応する量子化されたパラメータが変調されて、送られる。他方で、ひずみ尺度Dが閾値T以下であるときは、MDLPエンコーダはステップ310へ進む。ステップ310では、デコードされたフレームは、この時間領域においてフルレートで再びコード化される。従来の高レートで高精度のコード化アルゴリズム、例えば好ましくはCELPのコード化を使用してもよい。次に、フレームと関係するFRモードの量子化されたパラメータが変調されて、送られる。
【0026】
図5のフローチャートに示したように、次に1つの実施形態にしたがって閉ループのマルチモードのMDLPの音声コーダは、音声サンプルを処理して送る1組のステップにしたがう。ステップ400では、音声コーダは、連続するフレーム内の音声信号のディジタルサンプルを受信する。所与のフレームを受信すると、音声コーダはステップ402へ進む。ステップ402では、音声コーダはフレームのエネルギーを検出する。エネルギーはフレームの音声活動(speech activity)の尺度である。音声検出は、ディジタル形式の音声サンプルの振幅の平方を加算して、生成されたエネルギーを閾値と比較することによって行なわれる。1つの実施形態では、背景ノイズの変化レベルに基づいて閾値を採用する。例示的な可変閾値の音声活動検出器は、上述の米国特許第5,414,796号に記載されている。若干の無声音の音声は非常に低いエネルギーのサンプルであり、誤って背景ノイズとしてコード化されてしまうことがある。このようなことが発生するのを防ぐために、上述の米国特許第5,414,796号に記載されているように、低エネルギーサンプルのスペクトルのチルトを使用して、無声音の音声を背景ノイズと区別する。
【0027】
フレームのエネルギーを検出した後で、音声コーダはステップ404へ進む。ステップ404では、音声コーダは、音声情報を含んでいるかについてフレームを分類するのに、検出されたフレームエネルギーが十分であるかどうかを判断する。検出されたフレームエネルギーが所定の閾値レベルよりも低いときは、音声コーダはステップ406へ進む。ステップ406では、音声コーダは背景ノイズ(すなわち、非音声、または黙音)としてフレームをコード化する。1つの実施形態では、背景ノイズのフレームは、8分の1レート、すなわち1キロビット秒でコード化される時間領域である。ステップ404では、検出されたフレームのエネルギーが所定の閾値レベル以上であるとき、フレームは音声として分類され、音声コーダはステップ408へ進む。
【0028】
ステップ408では、音声コーダは、フレームが周期的であるかどうかを判断する。周期性を判断する種々の既知の方法には、例えばゼロ交差の使用および正規化された自動相関関数(normalized autocorrelation function, NACF)の使用を含む。とくに、ゼロ交差およびNACFを使用して、周期性を検出することは、米国出願第08/815,354号(発明の名称:METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING)に記載されており、これは1997年3月11日に出願され、本発明の譲受人に譲渡され、ここでは参考文献として全面的に取り上げている。さらに加えて、無声音の音声から有声音の音声を区別するのに使用される上述の方法は、米国電気通信工業会の業界暫定標準(Telecommunication Industry Association Industry Interim Standards)のTIA/EIA IS-127およびTIA/EIA IS-733に採用されている。ステップ408においてフレームが周期的でないと判断されるとき、音声コーダはステップ410へ進む。ステップ410では、音声コーダは、フレームを無声音の音声としてコード化する。1つの実施形態では、無声音の音声フレームは、4分の1レート、すなわち2キロビット秒でコード化される時間領域である。ステップ408では、フレームが周期的であると判断されるとき、音声コーダはステップ412へ進む。
【0029】
ステップ412では、音声コーダは、例えば上述の米国特許出願第08/815,354号に記載されているように、この技術において知られている周期性検出方法を使用して、フレームが十分に周期的であるかどうかを判断する。フレームが十分に周期性でないと判断されるときは、音声コーダはステップ414へ進む。ステップ414では、フレームは遷移音声(transition speech)(すなわち、無声音の音声から有声音の音声への遷移)として時間領域でコード化される。1つの実施形態では、遷移音声フレームはフルレート、すなわち8キロビット秒で時間領域でコード化される。
【0030】
音声コーダは、ステップ412においてフレームが十分に周期的であると判断すると、ステップ416へ進む。ステップ416では、音声コーダは有声音の音声としてフレームをコード化する。1つの実施形態では、有声音の音声フレームは、とくに2分の1レート、すなわち4キロビット秒でスペクトル的にコード化される。図7を参照して別途記載するように、有声音の音声フレームは、高調波のコーダでスペクトル的にコード化されることが好都合である。その代わりに、他のスペクトルコーダは、この技術において知られているように、例えばシヌソイド変換コーダ(sinusoidal transmission coder)またはマルチバンド励起コーダ(multiband excitation coder)として使用できることが好都合である。次に音声コーダはステップ418へ進む。ステップ418では、音声コーダはコード化された有声音の音声フレームをデコードする。次に音声コーダはステップ420へ進む。ステップ420では、デコードされた有声音の音声フレームを、このフレームの対応する入力音声サンプルと比較して、合成された音声のひずみ尺度を得て、2分の1レートの有声音音声のスペクトルコード化モデルが許容限度内で動作しているかどうかを判断する。次に音声コーダはステップ422へ進む。
【0031】
ステップ422では、音声コーダは、デコードされた有声音の音声フレームと、このフレームに対応する入力音声フレームとの誤差が所定の閾値より小さいかどうかを判断する。1つの実施形態では、この判断は、図6を参照して別途記載するやり方で行われる。コード化のひずみが所定の閾値よりも低いときは、音声コーダはステップ426へ進む。ステップ426では、音声コーダは、ステップ416のパラメータを使用して、フレームを有声音の音声として送る。ステップ422では、コード化のひずみが所定の閾値以上であるときは、音声コーダはステップ414へ進み、ステップ400において受信したディジタル形式の音声サンプルのフレームを遷移音声としてフルレートで時間領域でコード化する。
【0032】
ステップ400ないし410は開ループのコード化決定モードを含むことに注目すべきである。他方で、ステップ412ないし426は閉ループのコード化決定モードを含む。
【0033】
1つの実施形態では、図6に示したように、閉ループのマルチモードのMDLPの音声コーダはアナログ対ディジタルコンバータ(analog-to-digital converter, A/D)500を含み、A/D500はフレームバッファ502に接続され、フレームバッファ502は制御プロセッサ504に接続される。エネルギー計算器506、有声音音声の検出器508、背景ノイズエンコーダ510、高レートの時間領域エンコーダ512、および低レートのスペクトルエンコーダ514は制御プロセッサ504へ接続される。スペクトルデコーダ516はスペクトルエンコーダ514に接続され、誤差計算器518はスペクトルデコーダ516および制御プロセッサ504へ接続される。閾値比較器520は、誤差計算器518および制御プロセッサ504へ接続される。バッファ522はスペクトルエンコーダ514、スペクトルデコーダ516、および閾値比較器520へ接続される。
【0034】
図6の実施形態では、音声コーダの構成要素は、音声コーダ内にファームウエアまたは他のソフトウエア駆動モジュールとして構成されていることが好都合であり、音声コーダ自身はDSPまたはASIC内にあることが好都合である。当業者には、音声コーダの構成要素は、多数の他の既知のやり方で同様に適切に構成できることが分かるであろう。制御プロセッサ504はマイクロプロセッサであることが好都合であるが、制御装置、状態機械、または離散的論理と共に構成されていてもよい。
【0035】
図6のマルチモードのコーダでは、音声信号はA/D500へ供給される。A/D500はアナログ信号をディジタル形式の音声サンプルS(n)へ変換する。ディジタル形式の音声サンプルは、フレームバッファ502へ供給される。制御プロセッサ504は、フレームバッファ502からディジタル形式の音声サンプルを得て、それらをエネルギー計算器506へ供給する。エネルギー計算器506は、次の式にしたがって音声サンプルのエネルギーEを計算する:
【数3】
Figure 0004567289
【0036】
なお、フレームは20ミリ秒長であり、サンプリングレートは8キロヘルツである。計算されたエネルギーEは制御プロセッサ504へ送られる。
【0037】
制御プロセッサ504は、計算された音声エネルギーを音声活動(speech activity)の閾値と比較する。計算されたエネルギーが音声活動の閾値よりも小さいときは、制御プロセッサ504はディジタル形式の音声サンプルをフレームバッファ502から背景ノイズエンコーダ510へ送る。背景ノイズエンコーダ510は、背景ノイズの推定値を保持するために必要な最少数のビットを使用して、フレームをコード化する。
【0038】
計算されたエネルギーが音声活動の閾値以上であるときは、制御プロセッサ504はディジタル形式の音声サンプルをフレームバッファ502から有声音音声の検出器508へ方向付ける。有声音音声の検出器508は、音声フレームの周期性が、低ビットレートのスペクトルのコード化を使用して効率的なコード化を可能にするかどうかを判断する。音声フレーム内の周期性のレベルを判断する方法は、この技術においてよく知られており、例えば正規化された自動相関関数(normalized autocorrelation function, NACF)およびゼロ交差の使用を含む。これらの方法および他の方法は、上述の米国特許出願第08/815,354号に記載されている。
【0039】
有声音音声の検出器508は、スペクトルエンコーダ514が効率的にコード化するのに十分な周期性をもつ音声を音声フレームが含んでいるかどうかを示す信号を制御プロセッサ504へ供給する。有声音音声の検出器508が、音声フレームが十分な周期性を欠いていると判断するとき、制御プロセッサ504はディジタル形式の音声サンプルを高レートのエンコーダ512へ方向付け、エンコーダ512は所定の最大データレートで音声を時間領域でコード化する。1つの実施形態では、所定の最大データレートは8キロビット秒であり、高レートのエンコーダ512はCELPのコーダである。
【0040】
有声音音声の検出器508が最初に、音声信号が、スペクトルエンコーダ514が効率的にコード化するのに十分な周期性をもつと判断するとき、制御プロセッサ504は、フレームバッファ502からスペクトルエンコーダ514へディジタル形式の音声サンプルを方向付ける。例示的なスペクトルエンコーダは、図7を参照して別途詳しく記載する。
【0041】
【数4】
Figure 0004567289
【0042】
【数5】
Figure 0004567289
【0043】
計算されたMSEが許容範囲内であるときは、閾値比較器520は信号をバッファ522へ供給し、スペクトル的にコード化されたデータは音声コーダから出力される。他方で、MSEが許容限界内でないときは、閾値の比較器520は信号を制御プロセッサ504へ送り、制御プロセッサ504はディジタル形式のサンプルをフレームバッファ502から高レートの時間領域のエンコーダ512へ方向付ける。時間領域のエンコーダ512は、所定の最大レートでフレームをコード化し、バッファ522の内容は捨てられる。
【0044】
図6の実施形態では、採用されたスペクトルのコード化のタイプは高調波のコード化であり、これについては図7を参照して別途記載するが、代わりの実施形態では、シヌソイド変換のコード化またはマルチバンド励起のコード化のような、スペクトルのコード化のタイプであってもよい。マルチバンド励起のコード化の使用は、米国特許第5,195,166号に記載されており、シヌソイド変換のコード化の使用は、例えば米国特許第4,865,068号に記載されている。
【0045】
遷移フレーム、および位相ひずみ閾値が周期性パラメータ以下である有声音フレームでは、図6のマルチモードコーダはフルレート、すなわち8キロビット秒で、高レートの時間領域のコーダ512によって、CELPのコード化を採用することが好都合である。その代わりに、このようなフレームに対して、他の既知の形態の高レートの時間領域のコード化を使用してもよい。したがって、遷移フレーム(および十分に周期的でない有声音フレーム)は高い精度でコード化され、入力および出力における波形は適切に整合し、位相情報は適切に保持される。1つの実施形態では、マルチモードコーダは、閾値比較器520の判断と無関係に、閾値が周期性の尺度を越えている所定数の連続する有声音フレームを処理した後で、各フレームごとに2分の1レートのスペクトルのコード化からフルレートのCELPのコード化へスイッチする。
【0046】
制御プロセッサ504に関連して、エネルギー計算器506および有声音音声の検出器508は開ループのコード化決定を含むことに注意すべきである。対照的に、制御プロセッサ504に関連して、スペクトルエンコーダ514、スペクトルデコーダ516、誤差計算器518、閾値比較器520、およびバッファ522は閉ループのコード化決定を含む。
【0047】
図7を参照して記載した1つの実施形態では、スペクトルのコード化、好ましくは高調波のコード化を使用して、低ビットレートで十分に周期的な有声音フレームをコード化する。スペクトルコーダは、一般的に、周波数領域内の各音声フレームをモデル化してコード化することによって知覚的に重要なやり方で音声スペクトル特性の時間にしたがう漸進的変化(time-evolution)を保持することを試みるアルゴリズムとして規定される。このようなアルゴリズムの本質的な部分では、(1)スペクトルの解析またはパラメータの推定、(2)パラメータの量子化、(3)出力された音声波形とデコードされたパラメータとの合成を行う。したがって、1組のスペクトルパラメータをもつ短期間の音声スペクトルの重要な特性を保持し、デコードされたスペクトルパラメータを使用して、出力音声を合成することを目的とする。通常は、出力音声は、シヌソイドの重み付けされた和として合成される。シヌソイドの振幅、周波数、および位相は、解析中に推定されるスペクトルパラメータである。
【0048】
“合成による解析”はCELPのコード化においてよく知られた技術であるが、この技術はスペクトルのコード化には利用されていない。合成による解析がスペクトルコーダに適用されない主な理由は、初期位相の情報の損失によって、音声モデルが知覚の観点から適切に機能していても、合成された音声の平均二乗エネルギー(mean square energy, MSE)が高いからである。したがって、初期位相を正確に生成すると、音声サンプルと再構成された音声とを直接に比較して、音声モデルが音声フレームを正確にコード化しているかどうかを判断できるといった別の長所がある。
【0049】
スペクトルのコード化では、出力された音声フレームは次に示すように合成することができる:
S[n]=S[n]+Suv[n],n=1,2,...,N,
なお、Nは1フレーム当りのサンプル数であり、SおよびSuvは、それぞれ有声音成分および無声音成分である。シヌソイド和合成プロセス(sum-of-sinusoid synthesis process)は次の式に示すように有声音成分を生成する:
【数6】
Figure 0004567289
【0050】
振幅、周波数、および位相パラメータは、スペクトル解析プロセスによって入力フレームの短期間のスペクトルから推定される。無声音成分は、単一のシヌソイド和合成において有声音部分と一緒に生成されるか、または専用の無声音合成プロセスによって別々に計算され、Sへ再び加えられる。
【0051】
図7の実施形態では、高調波コーダと呼ばれる特定のタイプのスペクトルコーダを使用して、低ビットレートで十分に周期的な有声音フレームをスペクトル的にコード化する。高調波のコーダは、シヌソイド和としてフレームを特徴付け、フレームの小さいセグメントを解析する。シヌソイド和の中の各シヌソイドは、フレームのピッチFの整数倍の周波数をもつ。代わりの実施形態では、高調波のコーダ以外の特定のタイプのスペクトルコーダを使用し、各フレームに対するシヌソイド周波数は、0ないし2πの1組の実数から得られる。図7の実施形態では、和の中の各シヌソイドの振幅および位相が選択されることが好都合であり、その結果、図8のグラフによって示したように、和は1期間において信号と最良に整合する。高調波のコーダは一般的に外部の分類を採用し、各入力音声フレームは有声音または無声音として表示する。有声音フレームでは、シヌソイドの周波数は推定されたピッチ(F)の高調波に制限され、すなわちf=kFである。無声音の音声では、短期間のスペクトルのピークを使用して、シヌソイドを判断する。次の式に示すように、振幅および位相が補間されて、フレームにおいて漸進的変化をまねる:
【数7】
Figure 0004567289
【0052】
シヌソイドごとに送られるパラメータは振幅および周波数である。位相は送られないが、その代わりに、例えば準位相モデル(quadratic phase model)、または位相の従来の多項式表現を含むいくつかの既知の技術にしたがってモデル化される。
【0053】
図7に示されているように、高調波コーダはピッチ抽出器600を含み、ピッチ抽出器600はウインドウ処理論理602へ接続され、ウインドウ処理論理602は離散フーリエ変換(Discrete Fourier Transform, DFT)、および高調波解析論理604へ接続される。入力として音声サンプルS(n)を受信するピッチ抽出器600はは、DFTおよび高調波解析論理604へも接続される。DFTおよび高調波解析論理604は、残余エンコーダ606へ接続される。ピッチ抽出器600、DFTおよび高調波解析論理604、並びに残余エンコーダ606は、パラメータ量子化器608へそれぞれ接続される。パラメータ量子化器608はチャンネルエンコーダ610へ接続され、チャンネルエンコーダ610は送信機612へ接続される。送信機612は、例えば、符号分割多重アクセス(code division multiple access, CDMA)のような標準の無線周波数(radio-frequency, RF)のインターフェイスによって空中インターフェイス(over-the-air interface)上で、受信機614へ接続される。受信機614はチャンネルデコーダ616へ接続され、チャンネルデコーダ616は非量子化器618へ接続される。非量子化器618はシヌソイド和音声合成器620へ接続される。シヌソイド和音声合成器620へさらに接続されるのは位相推定器622であり、位相推定器622は入力として前フレーム情報を受信する。シヌソイド和音声合成器620は合成された音声出力SSYNTH(n)を生成するように構成されている。
【0054】
ピッチ抽出器600、ウインドウ処理論理602、DTFおよび高調波解析論理604、残余エンコーダ606、パラメータ量子化器608、チャンネルエンコーダ610、チャンネルデコーダ616、非量子化器618、シヌソイド和音声合成器620、並びに位相推定器622は、例えばファームウエアまたはソフトウエアモジュールを含む、当業者によく知られている種々の異なるやり方で構成することができる。送信機612および受信機614は、当業者には知られている対応する標準のRFの構成要素で実行されていてもよい。
【0055】
図7の高調波コーダでは、入力サンプルS(n)はピッチ抽出器600によって受信され、ピッチ抽出器600はピッチ周波数情報Fを抽出する。次にサンプルは、ウインドウ処理論理602によって適切なウインドウ処理関数によって乗算され、音声フレームの小さいセグメントの解析を可能にしている。ピッチ抽出器600によって供給されるピッチ情報を使用して、DFTおよび高調波解析論理604はサンプルのDFTを計算して、複合のスペクトル点を生成し、この複合のスペクトル点から、図8のグラフによって示されているように、高調波の振幅Aを抽出し、なお図8において、Lは高調波の合計数を示している。DFTは残余エンコーダ606へ供給され、残余エンコーダ606は音声情報(voicing information)Vを抽出する。
【0056】
パラメータは、図8に示されているように、周波数軸上の点を示し、Vがより高くなると、スペクトルは無声音の音声信号の特性を示し、最早高調波ではなくなることに注意すべきである。対照的に、点Vより低くなると、スペクトルは高調波であり、有声音の音声の特性を示す。
【0057】
,F,およびVの成分は、パラメータ量子化器608へ供給され、パラメータ量子化器608では情報を量子化する。量子化された情報はパケットの形態でチャンネルエンコーダ610へ供給され、チャンネルエンコーダ610では、例えばハーフレート、すなわち4キロビット秒のような低ビットレートでパケットを量子化する。パケットは送信機612へ供給され、送信機612はパケットを変調して、生成された信号を受信機614へ空中で(over the air)送る。受信機614は信号を受信して、復調して、コード化されたパケットをチャンネルデコーダ616へ送る。チャンネルデコーダ616はパケットをデコードして、デコードされたパケットを非量子化器618へ供給する。非量子化器618は情報を非量子化する。情報はシヌソイド和音声合成器620へ供給される。
【0058】
シヌソイド和音声合成器620は、S[n]についての上述の式にしたがって短期間の音声スペクトルをモデル化する複数のシヌソイドのモデリングを合成するように構成されている。シヌソイドfの周波数は、基本周波数Fの倍数または高調波であり、準周期的な(すなわち、遷移の)有声音の音声セグメントに対するピッチの周期性をもつ周波数である。
【0059】
さらに加えて、シヌソイド和の音声合成器620は位相推定器622から位相情報を受信する。位相推定器622は前フレームの情報、すなわち直前フレームについてのA,F,およびVのパラメータを受信する。位相推定器622は、前フレームの再構成されたNのサンプルも受信し、なおNはフレーム長(すなわち、Nは1フレーム当りのサンプル数)である。位相推定器622は、前フレームの情報に基づいて、フレームの初期位相を判断する。初期位相の判断は、シヌソイド和の音声合成器620へ供給される。現在のフレームに関する情報と、過去のフレーム情報に基いて位相推定器622によって行なわれた初期位相の計算とを基にして、シヌソイド和音声合成器620は上述のように音声フレームを生成する。
【0060】
既に記載したように、高調波のコーダは、前フレームの情報を使用して、位相がフレームからフレームへ線形に変化することを予測することによって、音声フレームを合成、すなわち再構成する。上述の合成モデルは、一般的に準位相モデルと呼ばれており、このような合成モデルでは、係数B(k)は、現在の有声音フレームの初期位相が合成されていることを表わしている。位相を判断するとき、従来の高調波のコーダは初期位相をゼロに設定するか、または初期位相値をランダムに、あるいは疑似ランダム生成方法を使用して生成する。位相をより正確に予測するために、位相推定器622は、直前のフレームが有声音の音声フレーム(すなわち、十分に周期的なフレーム)であるか、または遷移音声フレームであるかに依存して、初期位相を判断するための2つの可能な方法の一方を使用する。前フレームが有声音の音声フレームであったときは、このフレームの推定された最終位相値は、現在のフレームの初期位相値として使用される。他方で、前フレームが遷移フレームとして分類されたときは、現在のフレームの初期位相値は、前フレームのスペクトルから得られ、これは前フレームのデコーダ出力のDFTを行なうことによって得られる。したがって位相推定器622は、(遷移フレームである前フレームがフルレートで処理されたので)既に使用可能である正確な位相情報を使用できる。
【0061】
1つの実施形態では、閉ループのマルチモードのMDLPの音声コーダは、図9のフローチャート内に示されている音声処理ステップにしたがう。音声コーダは、最も適切なコード化モードを選択することによって、各入力音声フレームのLPの残余をコード化する。一定のモードは時間領域内でLPの残余、すなわち音声の残余をコード化し、一方で他のモードは周波数領域内でLPの残余、すなわち音声の残余を表わす。モードの組には、遷移フレームに対するフルレートの時間領域(Tモード);有声音フレームに対する2分の1レートの周波数領域(Vモード);無声音フレームに対する4分の1レートの時間領域(Uモード);およびノイズフレームに対する8分の1レートの時間領域(Nモード)がある。
【0062】
当業者には、図9に示したステップにしたがうことによって、音声信号または対応するLPの残余がコード化されることが分かるであろう。ノイズ、無声音、遷移、および有声音の音声の波形特性は、図10aのグラフにおいて時間関数として参照することができる。ノイズ、無声音、遷移、および有声音のLPの残余の波形特性は、図10bのグラフにおいて時間関数として参照することができる。
【0063】
ステップ700では、4つのモード(T、V、U,またはN)の何れか1つに関して、開ループのモード決定を行って、入力音声の残余S(n)へ適用する。Tモードが適用されるときは、ステップ702では、時間領域においてTモード、すなわちフルレートで音声の残余が処理される。Uモードが適用されるときは、ステップ704で、時間領域においてUモード、すなわち4分の1レートで音声の残余が処理される。Nモードが適用されるときは、ステップ706では、時間領域においてNモード、すなわち8分の1レートで音声の残余が処理される。Vモードが適用されるときは、ステップ708では、周波数領域においてVモードで、すなわち2分の1レートで音声の残余が処理される。
【0064】
ステップ710では、ステップ708でコード化された音声がデコードされ、入力音声の残余S(n)と比較され、性能尺度Dが計算される。ステップ712では、性能尺度Dが所定の閾値Tと比較される。性能尺度Dが閾値T以上であるときは、ステップ714では、ステップ708においてスペクトル的にコード化された音声の残余は送信を許可される。他方では、性能尺度Dが閾値Tよりも小さいときは、ステップ716では、入力音声の残余S(n)はTモードで処理される。別の実施形態では、性能尺度は計算されず、閾値は規定されない。その代わりに、所定数の音声残余フレームがVモードで処理された後で、次のフレームはTモードで処理される。
【0065】
図9に示した決定のステップでは、高ビットレートのTモードを必要なときだけ使用して、より低いビットレートのVモードで有声音の音声セグメントの周期性を活用することができ、一方でVモードが適切に実行されないときは、フルレートにスイッチすることによって品質の低下を防ぐことが好都合である。したがって、フルレートの音声品質に近づく非常に高い音声品質を、フルレートよりも相当に低い平均レートで生成することができる。さらに、選択された性能尺度および選ばれた閾値によって、目標の音声品質を制御することができる。
【0066】
Tモードへの“更新”は、モデル位相追跡を入力音声の位相追跡の近くに維持することによって、後でVモードを適用する動作を向上することができる。Vモードの性能が不適切であるときは、ステップ710および712の閉ループの性能検査はTモードへスイッチし、初期位相値を“リフレッシュ”して、モデルの位相追跡を元の入力音声位相追跡に再び近付けることによって、次のVモードの処理の性能を向上することができる。例えば、図11aないしcのグラフに示したように、開始から5番目のフレームは、使用されているPSNRのひずみ尺度によって証明されているように、Vモードで適切に働かない。その結果、閉ループの決定および更新がないときは、モデル化された位相追跡は元の入力音声位相追跡から相当に外れ、図11cに示したように、PSNRを相当に劣化する。さらに、Vモードで処理される次のフレームの性能は劣化する。しかしながら、閉ループの決定のもとでは、5番目のフレームは、図11aに示したように、Tモードの処理へスイッチされる。5番目のフレームの性能は、図11bに示したように、PSNRにおける向上によって証明されているように、更新によって相当に向上する。さらに加えて、Vモードのもとで処理される次のフレームの性能も向上する。
【0067】
図9に示した決定のステップでは、非常に正確な初期位相推定値を与えることによって、Vモードの表現品質を向上し、生成されたVモードの合成された音声の残余信号は元の入力音声の残余S(n)と正確に時間的に整合することを保証する。最初のVモードで処理された音声の残余セグメントにおける初期位相は、次に示すやり方で直前のデコードされたフレームから求められる。各高調波では、前フレームがVモードで処理されたときは、初期位相は前フレームの推定された最終位相に等しく設定される。各高調波では、前フレームがTモードで処理されたときは、初期位相は前フレームの実際の高調波の位相に等しく設定される。前フレームの実際の高調波の位相は、全ての前フレームを使用して過去のデコードされた残余のDFTをとることによって求められる。その代わりに、前フレームの実際の高調波の位相は、前フレームの種々のピッチ期間を処理することによって、ピッチが同期するやり方で、過去のデコードされたフレームのDFTをとることによって求められる。
【0068】
図12を参照して記載した1つの実施形態では、準周期信号Sの連続するフレームは解析論理800へ入力される。準周期信号Sは、例えば音声信号であってもよい。信号のいくつかのフレームは周期的であり、信号の他のフレームは無周期的、すなわち非周期的である。解析論理800は、信号の振幅を測定し、測定された振幅Aを出力する。さらに加えて、解析論理800は信号の位相を測定し、測定された位相Pを出力する。振幅Aは、合成論理802へ供給される。位相値POUTも合成論理802へ供給される。位相値POUTは推定された位相値Pであってもよく、その代わりに別途記載するように、位相値POUTは推定された位相値PESTであってもよい。合成論理802は信号を合成して、合成された信号PSYNTHを出力する。
【0069】
準周期信号Sは分類論理804へも供給され、分類論理804は信号を非周期的または周期的として分類する。信号の非周期的フレームでは、合成論理802へ供給される位相POUTは測定された位相Pに等しく設定される。信号の周期的フレームは、閉ループの位相推定論理806へ供給される。準周期信号Sも閉ループの位相推定論理806へ供給される。閉ループの位相推定論理806は位相を推定して、推定された位相PESTを出力する。推定された位相は初期位相値PINITに基づいて、閉ループの位相推定論理806へ入力される。前フレームが分類論理804によって周期的フレームとして分類されたときは、初期位相値は信号の前フレームの推定された最終位相値である。前フレームが分類論理804によって非周期的として分類されたときは、初期位相値は、前フレームの測定された位相値Pである。
【0070】
推定された位相値PESTは誤差計算論理808へ供給される。準周期信号Sも誤差計算論理808へ供給される。測定された位相Pも誤差計算論理808へ供給される。さらに加えて、誤差計算論理808は、合成論理802によって合成された合成信号PSYNTH'を受信する。合成論理802へ入力された位相、すなわちPOUTが推定された位相PESTに等しいとき、合成信号PSYNTH'は、合成論理によって合成された合成信号PSYNTHである。誤差計算論理808は、測定された位相値と推定された位相値とを比較することによって、ひずみ尺度、すなわち誤差尺度Eを計算する。代わりの実施形態では、誤差計算論理808は、準周期信号の入力フレームを準周期信号の合成フレームと比較することによって、ひずみ尺度、すなわち誤差尺度Eを計算する。
【0071】
ひずみ尺度Eは、比較論理810へ供給される。比較論理810は、ひずみ尺度Eを所定の閾値Tと比較する。ひずみ尺度Eが所定の閾値Tよりも大きいときは、測定された位相Pは、POUT、すなわち合成論理802に供給される位相値に等しく設定される。他方で、ひずみ尺度Eが所定の閾値T以下であるときは、推定された位相PESTは、POUT、すなわち合成論理802へ供給される位相値に等しく設定される。
【0072】
本明細書では、準周期信号の位相を追跡するための斬新な方法および装置を記載した。当業者には、ここに開示した実施形態に関係して記載した種々の例示的な論理ブロックおよびアルゴリズムのステップが、ディジタル信号プロセッサ(digital signal processor, DSP)、特定用途向け集積回路(application specific integrated circuit, ASIC)、離散的ゲートまたはトランジスタ論理、例えばレジスタおよびFIFOのような離散的ハードウエア構成要素、1組のファームウエア命令を実行するプロセッサ、または従来のプログラマブルソフトウエアモジュールおよびプロセッサで構成または実行できることが分かるであろう。プロセッサは、マイクロプロセッサであることが好都合であるが、その代わりに従来のプロセッサ、制御装置、マイクロプロセッサ、または状態機械であってもよい。ソフトウエアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書き込み可能な記憶媒体内にあってもよい。当業者にはさらに、上述の記述全体で参照したデータ、命令、コマンド、情報、信号、ビット、符号、およびチップが、電圧、電流、電磁波、磁界または磁粒、光の範囲または粒子(optical field or particles)、あるいはその組み合わせによって都合よく表わされることが分かるであろう。
【0073】
本明細書では、本発明の好ましい実施形態を示し、記載した。しかしながら、当業者の一人には、ここに記載した実施形態に対して、本発明の意図または技術的範囲から逸脱せずに多数の変更を加えられることが分かるであろう。したがって、本発明は、特許請求項にしたがうことを除いて制限されない。
【図面の簡単な説明】
【図1】 音声コーダによって各端部で終端している通信チャンネルのブロック図。
【図2】 マルチモードの混合領域の線形予測(mixed-domain linear prediction, MDLP)の音声コーダにおいて使用できるエンコーダのブロック図。
【図3】 マルチモードのMDLPの音声コーダにおいて使用できるデコーダのブロック図。
【図4】 図2のエンコーダにおいて使用できるMDLPエンコーダによって実行されるMDLPのコード化ステップを示すフローチャート。
【図5】 音声コード化決定プロセスを示すフローチャート。
【図6】 閉ループのマルチモードのMDLPの音声コーダのブロック図。
【図7】 図6のコーダまたは図2のエンコーダにおいて使用できるスペクトルコーダのブロック図。
【図8】 高調波コーダのシヌソイドの振幅を示す振幅対周波数のグラフ。
【図9】 マルチモードのMDLPの音声コーダにおけるモード決定プロセスを示すフローチャート。
【図10】 音声信号の振幅対時間のグラフ(図10a)および線形予測(linear prediction, LP)の残余振幅対時間のグラフ(図10b)。
【図11】 閉ループのコード化決定のもとでのレート/モード対フレーム指標のグラフ(図11a)、閉ループの決定のもとでの知覚の信号対雑音比(perceptual signal-to-noise ratio, PSNR)対フレーム指標のグラフ(図11b)、閉ループのコード化決定がないときのレート/モードおよびPSNRの両者対フレーム指標のグラフ(図11c)。
【図12】 準周期信号の位相を追跡するためのデバイスのブロック図。[0001]
Background of the Invention
I. Field of Invention
The present invention relates generally to the field of speech processing, and more particularly to a method and apparatus for tracking the phase of a quasi-periodic signal.
[0002]
II. background
The transmission of voice through digital technology has become widespread, especially in long-distance digital radiotelephone applications. This has generated interest in determining the minimum amount of information that can be sent on a channel while maintaining the perceived quality of the reconstructed speech. When voice is simply sampled and sent in digital form, data rates on the order of 64 kilobit seconds per second (kbps) are required to achieve the voice quality of conventional analog telephones. However, the data rate can be significantly reduced by using speech analysis and then properly encoding, transmitting and recombining at the receiver.
[0003]
A device that employs a technology for compressing speech by extracting parameters related to a human speech generation model is called a speech coder. The speech coder divides the input speech signal into blocks of time, ie analysis frames. In general, a speech coder includes an encoder and a decoder. The encoder parses the input speech frame, extracts certain relevant parameters, and quantizes the parameters into a binary representation, ie a set of bits or binary data packets. Data packets are sent over a communication channel to a receiver and a decoder. The decoder processes the data packet, unquantizes to generate parameters, and re-synthesizes the speech frame using the unquantized parameters.
[0004]
The function of the voice coder is to compress the digitized voice signal into a low bit rate signal by removing all of the inherent redundancy that the voice inherently has. Digital compression is implemented by representing an input speech frame with a set of parameters, employing quantization and representing the parameters with a set of bits. Input audio frame has many bits N i And the data packet generated by the voice coder has a number of bits N 0 The compression coefficient obtained by the speech coder is C r = N i / N 0 It is. The challenge is to maintain the high voice quality of the decoded speech while obtaining the target compression factor. The performance of the speech coder is: (1) how well the speech model, ie the combination of the analysis and synthesis processes described above, is performed, and (2) the parameter quantization process is N per frame. 0 Depends on how well the bit is executed at the target bit rate. The speech model is therefore aimed at obtaining the essence of the speech signal, ie the target speech quality, using a small set of parameters for each frame.
[0005]
Speech coders employ time-domain coders, ie, advanced time-resolution processing that encodes a small segment of speech (typically a millisecond, ms subframe) at a time. Can be configured as a time domain coder attempting to obtain a time domain speech waveform. For each subframe, a high-precision representative is found from the codebook space by various search algorithms known in the art. Instead, the speech coder may be configured as a frequency domain coder, using a set of parameters to capture (analyze) the short-term speech spectrum of the input speech frame and employ a corresponding synthesis process. Then, try to reproduce the speech waveform from the spectral parameters. The parameter quantizer uses a stored representation of the code vector to parameterize according to known quantization techniques described in the literature (A Gersho & RM Gray, Vector Quantization and Signal Compression (1992)). Save those parameters by representing them.
[0006]
A well-known time domain speech coder is the Code Excited Linear Predictive (CELP) coder, which is described in the literature by LB Rabiner & RW Schafer (Digital Processing of Speech Signals 396-453 (1978)). This is a general reference here. The CELP coder finds short-term formant filter coefficients by linear prediction (LP) analysis, and removes short-term correlations, ie, redundancy, in the speech signal. A short-term prediction filter is applied to the input speech frame to generate an LP residual signal, which is modeled with a longer-term prediction filter parameter and the following probability codebook: Quantize. Thus, CELP coding divides the task of coding the time-domain speech waveform into separate tasks: the task of coding the short-term filter coefficients of LP and the task of coding the remainder of LP. Time domain encoding is a fixed rate (ie, the same number of bits N for each frame). 0 Can be run at a variable rate (ie, the rate at which different bit rates are used for different types of frame content). A variable rate coder attempts to use only the amount of bits necessary to code the codec parameters to a level suitable to achieve the target quality. An exemplary variable rate CELP coder is described in US Pat. No. 5,414,796, which is assigned to the assignee of the present invention and is generally incorporated herein by reference.
[0007]
Time domain coders such as CELP coders typically have a number of bits N per frame. 0 Depending on the accuracy of the time-domain speech waveform. Such a coder usually has N bits per frame. 0 When it is relatively high (for example, 8 kbps or more), it conveys excellent voice quality. However, at low bit rates (below 4 kilobit seconds), time domain coders do not maintain high quality and robust performance due to the limited number of available bits. Because the codebook space is limited at low bit rates, it removes the ability to match the waveforms provided by traditional time domain coders and runs such coders in higher rate commercial applications. Succeeded to do.
[0008]
Currently, research interest and active commercial demands have increased rapidly, developing high quality speech coders that operate at moderate to low bit rates (ie, in the 2.4 to 4 kilobit second range and below). It was. Applications include wireless telephony, satellite communications, internet telephony, various multimedia and voice streaming applications, voice mail, and other voice storage systems. With respect to driving force, a large capacity is required, and robust performance is required under circumstances where packets are lost. The efforts to standardize various recent speech coding are devoted to another direct driving force that drives the research and development of low-rate speech coding algorithms. A low-rate speech coder generates more channels, or users, for each acceptable application bandwidth, and combines the low-rate speech coder with an additional layer of appropriate channel coding to make the overall coder It can be adapted to the specifications of the correct bit budget, and the channel can be made robust even under the wrong circumstances.
[0009]
In order to code at lower bit rates, various methods of coding the speech spectrum, ie in the frequency domain, have been developed, in which the speech signal is a time-varying evolution spectrum. of spectra). For example, see RJ McAulay & TF Quatieri's document (Sinusoidal Coding, in Speech Coding and Synthesis ch. 4 (WB Kleijin & KK Paliwal eds., 1995). Rather, it aims to model or predict the short-term speech spectrum of each input frame of speech using a set of spectral parameters, where the spectral parameters are coded and the speech output frame is decoded. The generated synthesized speech does not match the original input speech waveform, but provides similar perceptual quality.Examples of frequency domain coders well known in the art Multiband excitation coder (MBE), sinusoidal transform coder (STC), harmonic coder (harmon Such a frequency domain coder gives a high quality parameter model with a compact set of parameters that can be accurately quantized with a small number of bits available at low bit rates.
[0010]
Nevertheless, low bit rate coding adds significant constraints to limited coding resolution, i.e., limited codebook space, limiting the effectiveness of a single coding mechanism, Various types of speech segments cannot be represented under various background conditions of equal precision. For example, conventional low bit rate frequency domain coders do not send audio frame phase information. Instead, the phase information is reconstructed by using random artificially generated initial phase values and a linear interpolation technique. See, for example, H. Yang et al. (Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electronic Letters 856-57 (May 1993)). Since the phase information is artificially generated, the output speech produced by the frequency domain coder does not match the original input speech even when the sinusoid amplitude is fully preserved by the quantization-dequantization process ( For example, most pulses are not synchronized). Thus, it has been found difficult for frequency domain coders to employ closed-loop performance measures, such as signal-to-noise ratio (SNR) or perceptual SNR.
[0011]
Multi-mode coding techniques have been employed to perform low rate speech coding in connection with the open loop mode decision process. One such multimode coding technique is described in Amitava Das, et al. (Multimode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch. 7 (WB Kleijin & KK Paliwal eds., 1995)). Has been. Conventional multi-mode coders apply different modes, ie encoding-decoding algorithms, to different types of input speech frames. Each mode, ie the encoding-decoding process, represents a certain type of speech segment such as voiced speech, unvoiced speech, or background noise (nonspeech) in the most efficient manner. Specialized in. An external open loop mode decision mechanism examines the input speech frame to determine which mode to apply to the frame. Typically, open loop mode determination is performed by extracting a number of parameters from the input frame, evaluating parameters related to certain time and spectral characteristics, and based on the mode determination for this evaluation. Therefore, the mode decision is made without knowing in advance how the output speech is extracted, i.e., how close the output speech is to the input speech with respect to speech quality or other performance measure.
[0012]
Based on the above, it is desirable to provide a low bit rate frequency domain coder that more accurately estimates phase information. It is further advantageous to provide a multi-mode mixed domain coder that codes certain speech frames in the time domain and other speech frames in the frequency domain based on the speech content of the frame. It is even more desirable to have a mixed domain coder that can code certain speech frames in the time domain and code other speech frames in the frequency domain according to a closed loop coding mode determination mechanism. It is even more desirable to have a closed-loop multi-mode mixed domain speech coder that ensures time synchronism between the output speech generated by the coder and the original speech input to the coder. Such a voice coder is described in the related application filed with this application (CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER), which is assigned to the assignee of the present invention, here Is fully covered as a reference.
[0013]
It is further desirable to provide a method that ensures time synchrony between the output speech generated by the coder and the original speech input to the coder. Therefore, there is a need for a method that accurately tracks the phase of a quasi-periodic signal.
[0014]
Summary of the present invention
The present invention relates to a method for accurately tracking the phase of a quasi-periodic signal. Thus, in one aspect of the invention, a device for tracking the phase of a signal that is periodic in some frames and aperiodic in other frames is for a frame in which the signal is periodic. Logic configured to estimate the phase of the signal, logic configured to monitor the performance of the estimated phase on a closed-loop performance measure, and the signal is periodic and the estimated phase And logic configured to measure the phase of the signal for frames whose performance is below a predetermined threshold level.
[0015]
In another aspect of the invention, a method for tracking the phase of a signal that is periodic in some frames and non-periodic in other frames, includes: Estimating, monitoring the estimated phase performance on a closed loop performance measure, and measuring the phase of the signal for frames where the signal is periodic and the estimated phase performance is below a predetermined threshold level It is advantageous to include the steps of:
[0016]
In another aspect of the invention, a device that tracks the phase of a signal that is periodic in some frames and non-periodic in other frames is a signal phase for frames in which the signal is periodic. Means for estimating the estimated phase performance on a closed-loop performance measure, and the signal phase for frames where the signal is periodic and the estimated phase performance is below a predetermined threshold level. Advantageously including means for measuring.
[0017]
Detailed Description of the Preferred Embodiment
In FIG. 1, a first encoder 10 receives a digital audio sample s (n), encodes the sample s (n), and transmits it to the first decoder 14 on the transmission medium 12, ie the communication channel 12. send. The decoder 14 decodes the encoded audio sample and outputs the output audio signal S. SYNTH (N) is synthesized. For transmission in the opposite direction, the second encoder 16 encodes a digitally formatted audio sample s (n) and sends it over the communication channel 18. The second decoder 20 receives the encoded audio sample, decodes it, and combines it with the synthesized output audio signal S. SYNTH (N) is generated.
[0018]
The audio sample s (n) can be obtained by various methods known in the art, such as pulse code modulation (PMC), the compounded μ-method, ie, the A-law. ) Represents a speech signal that has been digitized and quantized according to a method including: As is known in the art, speech samples s (n) are organized into frames of input data, each containing a predetermined number of digitally formatted speech samples s (n). In the exemplary embodiment, a sampling rate of 8 kilohertz is employed and each 20 millisecond frame includes 160 samples. In the separately described embodiment, the data transmission rate is from 8 kilobit seconds (full rate) to 4 kilobit seconds (half rate), 2 kilobit seconds (quarter rate), 1 kilobit second (8 minutes) per frame. It is convenient to change to 1 rate). Instead, other data rates may be used. As used herein, the term “full rate” or “high rate” usually refers to a data rate of 8 kilobit seconds or more, “half rate” or The term “low rate” usually refers to a data rate of 4 kilobit seconds or less. It is advantageous to change the data transmission rate because a lower bit rate can be selectively employed for frames containing relatively little audio information. Other sampling rates, frame sizes, and data transmission rates may be used, as will be appreciated by those skilled in the art.
[0019]
Both the first encoder 10 and the second decoder 20 include a first speech coder or speech codec. Similarly, both the second encoder 16 and the first decoder 14 include a second speech coder. Voice coders can be digital signal processors (DSPs), application-specific integrated circuits (ASICs), discrete gate logic, firmware, or traditional programmable software modules and It will be appreciated that it may consist of a microprocessor. The software modules reside in RAM memory, flash memory, registers, or other forms of writable storage media known in the art. Alternatively, a conventional processor, controller, or state machine may be replaced with a microprocessor. An example of an ASIC specifically designed for speech coding is US Pat. No. 5,727,123, assigned to the assignee of the present invention and hereby fully incorporated by reference, and February 16, 1994. No. 08 / 197,417 (Title of Invention: VOCODER ASIC), filed daily, assigned to the assignee of the present invention, and here fully incorporated by reference.
[0020]
In accordance with one embodiment, a multi-mode mixed-domain linear prediction (MDLP) encoder 100 that can be used in a speech coder, as shown in FIG. It includes an estimation module 104, a linear prediction (LP) analysis module 106, an LP analysis filter 108, an LP quantization module 110, and an MDLP residual encoder 112. The input speech frame s (n) is supplied to the mode determination module 102, the pitch estimation module 104, the LP analysis module 106, and the LP analysis filter 108. The mode determination module 102 determines the mode index I based on the periodicity of each input speech frame s (n) and other extraction parameters such as energy, spectral tilt, zero crossing rate, etc. M And mode M. Various methods for classifying speech frames according to periodicity are described in US patent application Ser. No. 08 / 815,354 (invention name: METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING), which was published in March 1997. Filed on the 11th and assigned to the assignee of the present invention, which is hereby fully incorporated by reference. Such a method is also used in TIA / EIA IS-127 and TIA / EIA IS-733 of the Telecommunication Industry Association Industry Interim Standards.
[0021]
[Expression 1]
Figure 0004567289
[0022]
[Expression 2]
Figure 0004567289
[0023]
Except for the MDLP residual encoder 112, the operation and configuration of the various modules of the encoder 100 of FIG. 2 and the decoder 200 of FIG. 3 are known in the art and are described in US Pat. No. 5,414,796 and LB. (Digital Processing of Speech Signals 396-453 (1978)).
[0024]
According to one embodiment, an MDLP encoder (not shown) performs the steps shown in the flowchart of FIG. The MDLP encoder may be the MDLP residual encoder 112 of FIG. In step 300, the MDLP encoder determines whether mode M is full rate (FR), quarter rate (QR), or eighth rate (ER). Check for it. When mode M is FR, QR, or ER, the MDLP encoder proceeds to step 302. In step 302, the MDLP encoder sets the corresponding rate (-FR, QR or ER depending on the value of M) to the residual index I. R Apply to. The time-domain coding is advantageously high-precision, high-rate coding in the FR mode and CELP coding, but this time-domain coding is the LP residual frame, or its Instead, it is applied to the audio frame. The frame is then sent (after another signal processing including digital to analog conversion and modulation). In one embodiment, the frame is an LP residual frame that represents the prediction error. In an alternative embodiment, the frame is an audio frame that represents an audio sample.
[0025]
On the other hand, at step 300, when mode M is not FR, QR, or ER (ie, when mode M is half rate, HR), the MDLP encoder proceeds to step 304. In step 304, spectral coding, preferably harmonic coding, is applied to the LP residual, or alternatively to the speech signal at a rate of one half. The MDLP encoder then proceeds to step 306. In step 306, a distortion measure D is obtained by decoding the encoded speech and comparing it to the original input frame. The MDLP encoder then proceeds to step 308. In step 308, the strain measure D is compared to a predetermined threshold T. When the distortion measure D is greater than the threshold T, the corresponding quantized parameter is modulated and sent for a half-rate spectrally encoded frame. On the other hand, if the distortion measure D is less than or equal to the threshold T, the MDLP encoder proceeds to step 310. In step 310, the decoded frame is re-encoded at full rate in this time domain. Conventional high-rate and high-precision coding algorithms, such as preferably CELP coding, may be used. Next, the FR mode quantized parameters associated with the frame are modulated and sent.
[0026]
As shown in the flowchart of FIG. 5, a closed-loop multi-mode MDLP speech coder then follows a set of steps for processing and sending speech samples according to one embodiment. In step 400, the speech coder receives digital samples of the speech signal in successive frames. Upon receipt of a given frame, the voice coder proceeds to step 402. In step 402, the speech coder detects the energy of the frame. Energy is a measure of the speech activity of the frame. Speech detection is performed by adding the squares of the amplitudes of the speech samples in digital form and comparing the generated energy to a threshold value. In one embodiment, a threshold is employed based on the background noise change level. An exemplary variable threshold voice activity detector is described in the aforementioned US Pat. No. 5,414,796. Some unvoiced speech is a very low energy sample and may be erroneously encoded as background noise. To prevent this from happening, the silent tilt of the spectrum of low energy samples is used to distinguish unvoiced speech from background noise, as described in US Pat. No. 5,414,796 mentioned above.
[0027]
After detecting the energy of the frame, the speech coder proceeds to step 404. In step 404, the speech coder determines whether the detected frame energy is sufficient to classify the frame as containing speech information. If the detected frame energy is below a predetermined threshold level, the speech coder proceeds to step 406. In step 406, the voice coder encodes the frame as background noise (ie, non-voice or silence). In one embodiment, the background noise frame is a time domain encoded at 1/8 rate, or 1 kilobit second. In step 404, when the detected frame energy is greater than or equal to a predetermined threshold level, the frame is classified as speech and the speech coder proceeds to step 408.
[0028]
In step 408, the speech coder determines whether the frame is periodic. Various known methods of determining periodicity include, for example, the use of zero crossings and the use of normalized autocorrelation functions (NACF). In particular, detection of periodicity using zero crossings and NACF is described in US application Ser. No. 08 / 815,354 (invention: METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING). Filed on March 11, 1997, assigned to the assignee of the present invention, which is hereby fully incorporated by reference. In addition, the above-described method used to distinguish voiced speech from unvoiced speech is based on TIA / EIA IS-127 of the Telecommunication Industry Association Industry Interim Standards and TIA / EIA IS-127. Used in TIA / EIA IS-733. When it is determined at step 408 that the frame is not periodic, the speech coder proceeds to step 410. In step 410, the speech coder encodes the frame as unvoiced speech. In one embodiment, the voice frame of unvoiced sound is a time domain encoded at a quarter rate, ie, 2 kilobit seconds. In step 408, when the frame is determined to be periodic, the speech coder proceeds to step 412.
[0029]
In step 412, the speech coder uses a periodicity detection method known in the art, eg, as described in the above-mentioned US patent application Ser. No. 08 / 815,354, to ensure that the frame is sufficiently periodic. Determine if there is. If it is determined that the frame is not sufficiently periodic, the speech coder proceeds to step 414. In step 414, the frame is coded in the time domain as transition speech (ie, transition from unvoiced to voiced speech). In one embodiment, the transitional speech frames are encoded in the time domain at full rate, ie 8 kilobit seconds.
[0030]
If the voice coder determines in step 412 that the frame is sufficiently periodic, it proceeds to step 416. In step 416, the speech coder encodes the frame as voiced speech. In one embodiment, voiced speech frames are spectrally encoded, especially at a half rate, ie 4 kilobit seconds. As described separately with reference to FIG. 7, the voiced speech frame is advantageously spectrally encoded with a harmonic coder. Instead, other spectral coders can advantageously be used, for example as a sinusoidal transmission coder or a multiband excitation coder, as is known in the art. The voice coder then proceeds to step 418. In step 418, the speech coder decodes the encoded voiced speech frame. The voice coder then proceeds to step 420. In step 420, the decoded voice frame of the voiced sound is compared with the corresponding input voice sample of the frame to obtain a distortion measure of the synthesized voice to obtain a half-rate voiced voice spectral code. Determine whether the optimization model is operating within acceptable limits. The voice coder then proceeds to step 422.
[0031]
In step 422, the speech coder determines whether the error between the decoded voice frame of voiced sound and the input speech frame corresponding to this frame is less than a predetermined threshold. In one embodiment, this determination is made in the manner described separately with reference to FIG. If the coding distortion is below a predetermined threshold, the speech coder proceeds to step 426. In step 426, the speech coder uses the parameters of step 416 to send the frame as voiced speech. At step 422, if the coding distortion is greater than or equal to a predetermined threshold, the speech coder proceeds to step 414 and encodes the frame of the digital speech sample received at step 400 as a transition speech at full rate in the time domain. .
[0032]
Note that steps 400 through 410 include an open loop coding decision mode. On the other hand, steps 412 to 426 include a closed loop coding decision mode.
[0033]
In one embodiment, as shown in FIG. 6, a closed loop multi-mode MDLP speech coder includes an analog-to-digital converter (A / D) 500, where the A / D 500 is a frame buffer. The frame buffer 502 is connected to the control processor 504. Energy calculator 506, voiced speech detector 508, background noise encoder 510, high rate time domain encoder 512, and low rate spectral encoder 514 are connected to control processor 504. The spectrum decoder 516 is connected to the spectrum encoder 514, and the error calculator 518 is connected to the spectrum decoder 516 and the control processor 504. The threshold comparator 520 is connected to the error calculator 518 and the control processor 504. Buffer 522 is connected to spectrum encoder 514, spectrum decoder 516, and threshold comparator 520.
[0034]
In the embodiment of FIG. 6, the components of the voice coder are conveniently configured as firmware or other software-driven modules within the voice coder, and the voice coder itself may be within a DSP or ASIC. Convenient. Those skilled in the art will appreciate that the components of the speech coder can be similarly configured in a number of other known ways as well. The control processor 504 is conveniently a microprocessor, but may be configured with a controller, state machine, or discrete logic.
[0035]
In the multi-mode coder of FIG. 6, the audio signal is supplied to the A / D 500. The A / D 500 converts an analog signal into a digital audio sample S (n). The audio samples in digital form are supplied to the frame buffer 502. The control processor 504 obtains digital audio samples from the frame buffer 502 and provides them to the energy calculator 506. The energy calculator 506 calculates the energy E of the speech sample according to the following formula:
[Equation 3]
Figure 0004567289
[0036]
The frame is 20 milliseconds long and the sampling rate is 8 kilohertz. The calculated energy E is sent to the control processor 504.
[0037]
The control processor 504 compares the calculated speech energy with a speech activity threshold. When the calculated energy is less than the voice activity threshold, the control processor 504 sends digitally formatted voice samples from the frame buffer 502 to the background noise encoder 510. Background noise encoder 510 encodes the frame using the minimum number of bits necessary to hold an estimate of background noise.
[0038]
When the calculated energy is greater than or equal to the voice activity threshold, the control processor 504 directs the digital audio sample from the frame buffer 502 to the voiced audio detector 508. Voiced speech detector 508 determines whether the periodicity of the speech frame allows efficient coding using low bit rate spectral coding. Methods for determining the level of periodicity within a speech frame are well known in the art and include, for example, the use of normalized autocorrelation functions (NACF) and zero crossings. These and other methods are described in the aforementioned US patent application Ser. No. 08 / 815,354.
[0039]
Voiced speech detector 508 provides a signal to control processor 504 that indicates whether the speech frame contains speech with sufficient periodicity for spectral encoder 514 to efficiently encode. When the voiced speech detector 508 determines that the speech frame lacks sufficient periodicity, the control processor 504 directs the digitally formatted speech samples to the high rate encoder 512, which in turn has a predetermined maximum Encode speech in time domain at data rate. In one embodiment, the predetermined maximum data rate is 8 kilobit seconds and the high rate encoder 512 is a CELP coder.
[0040]
When voiced speech detector 508 first determines that the speech signal has sufficient periodicity for spectral encoder 514 to efficiently encode, control processor 504 may transmit spectral encoder 514 from frame buffer 502. Direct audio samples in digital form. An exemplary spectral encoder is described in further detail with reference to FIG.
[0041]
[Expression 4]
Figure 0004567289
[0042]
[Equation 5]
Figure 0004567289
[0043]
When the calculated MSE is within an acceptable range, the threshold comparator 520 provides a signal to the buffer 522 and the spectrally encoded data is output from the speech coder. On the other hand, if the MSE is not within acceptable limits, the threshold comparator 520 sends a signal to the control processor 504 which directs the digital format samples from the frame buffer 502 to the high rate time domain encoder 512. . The time domain encoder 512 encodes the frame at a predetermined maximum rate, and the contents of the buffer 522 are discarded.
[0044]
In the embodiment of FIG. 6, the type of spectral encoding employed is harmonic encoding, which will be described separately with reference to FIG. 7, but in an alternative embodiment, encoding of the sinusoid transform Or it may be a type of spectral coding, such as multi-band excitation coding. The use of multiband excitation coding is described in US Pat. No. 5,195,166, and the use of sinusoidal transform coding is described, for example, in US Pat. No. 4,865,068.
[0045]
For transitional frames and voiced frames whose phase distortion threshold is less than or equal to the periodicity parameter, the multimode coder of FIG. 6 employs CELP coding with a high rate time domain coder 512 at full rate, ie 8 kbps. Convenient to do. Instead, other known forms of high rate time domain coding may be used for such frames. Thus, transition frames (and voiced frames that are not sufficiently periodic) are coded with high accuracy, waveforms at the input and output are properly matched, and phase information is properly maintained. In one embodiment, the multimode coder, after processing a predetermined number of consecutive voiced frames whose threshold exceeds the periodicity measure, 2 for each frame, regardless of the decision of the threshold comparator 520. Switch from one-rate spectral coding to full-rate CELP coding.
[0046]
It should be noted that in connection with control processor 504, energy calculator 506 and voiced speech detector 508 include open loop coding decisions. In contrast, in connection with control processor 504, spectral encoder 514, spectral decoder 516, error calculator 518, threshold comparator 520, and buffer 522 include closed-loop coding decisions.
[0047]
In one embodiment described with reference to FIG. 7, spectral encoding, preferably harmonic encoding, is used to encode a sufficiently periodic voiced sound frame at a low bit rate. Spectral coders generally maintain time-evolution over time of speech spectral characteristics in a perceptually important manner by modeling and coding each speech frame in the frequency domain. Specified as an algorithm that tries to The essential parts of such an algorithm are (1) spectrum analysis or parameter estimation, (2) parameter quantization, and (3) synthesis of the output speech waveform and decoded parameters. Accordingly, it is intended to preserve the important characteristics of the short-term speech spectrum with a set of spectral parameters and to synthesize the output speech using the decoded spectral parameters. Normally, the output speech is synthesized as a weighted sum of sinusoids. The sinusoid amplitude, frequency, and phase are spectral parameters estimated during analysis.
[0048]
“Analysis by synthesis” is a well-known technique in CELP coding, but this technique has not been used for spectral coding. The main reason that synthesis analysis does not apply to spectrum coders is that the loss of the initial phase information causes the mean square energy, even if the speech model is functioning properly from a perceptual point of view. This is because MSE) is high. Thus, generating the initial phase correctly has another advantage in that it can directly compare the speech samples and the reconstructed speech to determine whether the speech model accurately encodes the speech frame.
[0049]
For spectral coding, the output speech frame can be synthesized as follows:
S [n] = S v [n] + S uv [n], n = 1, 2,. . . , N,
N is the number of samples per frame, and S v And S uv Are voiced sound components and unvoiced sound components, respectively. The sum-of-sinusoid synthesis process generates a voiced sound component as shown in the following equation:
[Formula 6]
Figure 0004567289
[0050]
Amplitude, frequency, and phase parameters are estimated from the short-term spectrum of the input frame by a spectral analysis process. The unvoiced sound component is generated together with the voiced sound part in a single sinusoidal sum synthesis or calculated separately by a dedicated unvoiced sound synthesis process, and S v Added again.
[0051]
In the embodiment of FIG. 7, a particular type of spectral coder called a harmonic coder is used to spectrally encode a sufficiently periodic voiced sound frame at a low bit rate. The harmonic coder characterizes the frame as a sinusoidal sum and analyzes small segments of the frame. Each sinusoid in the sinusoid sum is the frame pitch F 0 Has an integer multiple of. In an alternative embodiment, a specific type of spectral coder other than a harmonic coder is used, and the sinusoid frequency for each frame is derived from a set of real numbers from 0 to 2π. In the embodiment of FIG. 7, it is convenient that the amplitude and phase of each sinusoid in the sum is selected, so that the sum is best matched to the signal in one period, as shown by the graph of FIG. To do. Harmonic coders typically employ external classification, and each input speech frame is displayed as voiced or unvoiced. For voiced frames, the sinusoid frequency is estimated pitch (F 0 ), I.e. f k = KF 0 It is. In unvoiced speech, short-term spectral peaks are used to determine sinusoids. The amplitude and phase are interpolated to mimic the gradual change in the frame, as shown in the following equation:
[Expression 7]
Figure 0004567289
[0052]
The parameters sent for each sinusoid are amplitude and frequency. The phase is not sent, but instead is modeled according to several known techniques including, for example, a quadratic phase model, or a conventional polynomial representation of the phase.
[0053]
As shown in FIG. 7, the harmonic coder includes a pitch extractor 600 that is connected to windowing logic 602, which is a discrete Fourier transform (DFT), And to harmonic analysis logic 604. The pitch extractor 600 that receives the audio sample S (n) as input is also connected to the DFT and harmonic analysis logic 604. DFT and harmonic analysis logic 604 is connected to residual encoder 606. Pitch extractor 600, DFT and harmonic analysis logic 604, and residual encoder 606 are connected to parameter quantizer 608, respectively. Parameter quantizer 608 is connected to channel encoder 610, which is connected to transmitter 612. Transmitter 612 receives over an over-the-air interface with a standard radio-frequency (RF) interface, eg, code division multiple access (CDMA). Connected to machine 614. Receiver 614 is connected to channel decoder 616, which is connected to dequantizer 618. Dequantizer 618 is connected to sinusoidal sum speech synthesizer 620. Further connected to the sinusoidal sum speech synthesizer 620 is a phase estimator 622, which receives the previous frame information as an input. The sinusoidal sum speech synthesizer 620 generates a synthesized speech output S. SYNTH (N) is generated.
[0054]
Pitch extractor 600, windowing logic 602, DTF and harmonic analysis logic 604, residual encoder 606, parameter quantizer 608, channel encoder 610, channel decoder 616, non-quantizer 618, sinusoidal sum speech synthesizer 620, and The phase estimator 622 can be configured in a variety of different ways familiar to those skilled in the art including, for example, firmware or software modules. Transmitter 612 and receiver 614 may be implemented with corresponding standard RF components known to those skilled in the art.
[0055]
In the harmonic coder of FIG. 7, the input sample S (n) is received by the pitch extractor 600, which receives the pitch frequency information F. 0 To extract. The samples are then multiplied by an appropriate windowing function by windowing logic 602 to allow analysis of small segments of speech frames. Using the pitch information provided by the pitch extractor 600, the DFT and harmonic analysis logic 604 calculates the DFT of the sample to generate composite spectral points from which the graph of FIG. As shown by the harmonic amplitude A I In FIG. 8, L indicates the total number of harmonics. The DFT is supplied to a residual encoder 606, which performs voice information V. c To extract.
[0056]
V c The parameter indicates a point on the frequency axis as shown in FIG. c It should be noted that at higher, the spectrum is characteristic of an unvoiced speech signal and is no longer harmonic. In contrast, point V c At lower levels, the spectrum is harmonic and exhibits voiced voice characteristics.
[0057]
A I , F 0 , And V c Are supplied to the parameter quantizer 608, which quantizes the information. The quantized information is supplied to the channel encoder 610 in the form of a packet, and the channel encoder 610 quantizes the packet at, for example, a half rate, that is, a low bit rate such as 4 kilobit seconds. The packet is provided to transmitter 612, which modulates the packet and sends the generated signal to the receiver 614 over the air. Receiver 614 receives the signal, demodulates it, and sends the encoded packet to channel decoder 616. The channel decoder 616 decodes the packet and supplies the decoded packet to the non-quantizer 618. Dequantizer 618 dequantizes the information. The information is supplied to the sinusoidal sum speech synthesizer 620.
[0058]
The sinusoidal sum speech synthesizer 620 is configured to synthesize a plurality of sinusoidal modeling that models the short-term speech spectrum according to the above equation for S [n]. Sinusoid f k Is the fundamental frequency F 0 Is a frequency with a pitch periodicity for a quasi-periodic (ie, transitional) voiced speech segment.
[0059]
In addition, the sinusoidal sum speech synthesizer 620 receives phase information from the phase estimator 622. The phase estimator 622 receives the previous frame information, ie, A for the previous frame. I , F 0 , And V c Receive parameters. Phase estimator 622 also receives N reconstructed samples of the previous frame, where N is the frame length (ie, N is the number of samples per frame). The phase estimator 622 determines the initial phase of the frame based on the information of the previous frame. The determination of the initial phase is supplied to the sinusoidal sum speech synthesizer 620. Based on the information about the current frame and the calculation of the initial phase performed by the phase estimator 622 based on the past frame information, the sinusoidal sum speech synthesizer 620 generates a speech frame as described above.
[0060]
As already described, the harmonic coder uses the previous frame information to synthesize or reconstruct the speech frame by predicting that the phase will change linearly from frame to frame. The above synthesis model is generally called a quasi-phase model, and in such a synthesis model, the coefficient B 3 (K) indicates that the initial phase of the current voiced sound frame is synthesized. When determining the phase, a conventional harmonic coder sets the initial phase to zero, or generates the initial phase value randomly or using a pseudo-random generation method. To more accurately predict the phase, the phase estimator 622 depends on whether the previous frame is a voiced speech frame (ie, a sufficiently periodic frame) or a transitional speech frame. Use one of two possible methods to determine the initial phase. When the previous frame is a voiced voice frame, the estimated final phase value of this frame is used as the initial phase value of the current frame. On the other hand, when the previous frame is classified as a transition frame, the initial phase value of the current frame is obtained from the spectrum of the previous frame, which is obtained by performing a DFT of the decoder output of the previous frame. Thus, phase estimator 622 can use accurate phase information that is already available (since the previous frame, which is a transition frame, has been processed at full rate).
[0061]
In one embodiment, a closed loop multi-mode MDLP speech coder follows the speech processing steps shown in the flowchart of FIG. The speech coder encodes the LP remainder of each input speech frame by selecting the most appropriate coding mode. Certain modes encode LP residuals, i.e. speech residuals, in the time domain, while other modes represent LP residuals, i.e. speech residuals, in the frequency domain. Mode set includes full rate time domain for transition frames (T mode); half rate frequency domain for voiced frames (V mode); quarter rate time domain for unvoiced frames (U mode) And there is a 1/8 rate time domain (N mode) for noise frames.
[0062]
Those skilled in the art will appreciate that following the steps shown in FIG. 9 encodes the speech signal or the corresponding LP residue. The waveform characteristics of noise, unvoiced sounds, transitions, and voiced sounds can be referenced as a function of time in the graph of FIG. 10a. The residual waveform characteristics of the noise, unvoiced, transition, and voiced LPs can be referenced as a function of time in the graph of FIG. 10b.
[0063]
In step 700, an open-loop mode decision is made for any one of the four modes (T, V, U, or N) and applied to the residual S (n) of the input speech. When T mode is applied, in step 702, the residual of speech is processed in the time mode in T mode, i.e., full rate. When the U mode is applied, at step 704, the remainder of the speech is processed in the time domain in the U mode, ie, a quarter rate. When the N mode is applied, in step 706, the remainder of the speech is processed in the N mode, ie 1/8 rate, in the time domain. When the V mode is applied, in step 708, the residual audio is processed in the V mode in the frequency domain, i.e. at a half rate.
[0064]
In step 710, the speech encoded in step 708 is decoded and compared with the residual S (n) of the input speech and a performance measure D is calculated. In step 712, the performance measure D is compared to a predetermined threshold T. If the performance measure D is greater than or equal to the threshold T, then in step 714, the remainder of the spectrally encoded speech in step 708 is allowed to be transmitted. On the other hand, when the performance measure D is smaller than the threshold T, in step 716, the residual S (n) of the input speech is processed in the T mode. In another embodiment, no performance measure is calculated and no threshold is defined. Instead, after a predetermined number of audio residual frames have been processed in V mode, the next frame is processed in T mode.
[0065]
In the decision step shown in FIG. 9, the high bit rate T mode can be used only when needed to take advantage of the periodicity of voiced speech segments in the lower bit rate V mode, while When V mode is not performed properly, it is advantageous to prevent quality degradation by switching to full rate. Thus, very high voice quality approaching full rate voice quality can be generated at an average rate substantially lower than the full rate. Furthermore, the target voice quality can be controlled by the selected performance measure and the selected threshold.
[0066]
“Updating” to the T mode can improve the operation of applying the V mode later by keeping the model phase tracking close to the phase tracking of the input speech. When the V-mode performance is inadequate, the closed-loop performance check in steps 710 and 712 switches to T-mode and “refreshes” the initial phase value to make the model phase tracking the original input speech phase tracking. By approaching again, the processing performance of the next V mode can be improved. For example, as shown in the graphs of FIGS. 11a-c, the fifth frame from the start does not work properly in V mode, as evidenced by the PSNR distortion measure being used. As a result, when there is no closed-loop determination and update, the modeled phase tracking deviates significantly from the original input speech phase tracking, and degrades the PSNR considerably, as shown in FIG. 11c. Furthermore, the performance of the next frame processed in the V mode is degraded. However, under the closed loop decision, the fifth frame is switched to T-mode processing, as shown in FIG. 11a. The performance of the fifth frame is significantly improved by updating, as demonstrated by the improvement in PSNR, as shown in FIG. 11b. In addition, the performance of the next frame processed under the V mode is also improved.
[0067]
The decision step shown in FIG. 9 improves the V-mode representation quality by giving a very accurate initial phase estimate, and the generated V-mode synthesized speech residual signal is the original input speech. It is guaranteed to be exactly in time alignment with the remaining S (n). The initial phase in the remaining segment of speech processed in the first V mode is determined from the previous decoded frame in the following manner. At each harmonic, when the previous frame is processed in V mode, the initial phase is set equal to the estimated final phase of the previous frame. For each harmonic, when the previous frame is processed in T mode, the initial phase is set equal to the phase of the actual harmonic of the previous frame. The phase of the actual harmonics of the previous frame is determined by taking the past decoded residual DFT using all previous frames. Instead, the actual harmonic phase of the previous frame is determined by taking the DFT of the past decoded frame in a pitch-synchronized manner by processing the various pitch periods of the previous frame.
[0068]
In one embodiment described with reference to FIG. 12, successive frames of quasi-periodic signal S are input to analysis logic 800. The quasi-periodic signal S may be an audio signal, for example. Some frames of the signal are periodic and other frames of the signal are aperiodic, i.e. aperiodic. The analysis logic 800 measures the amplitude of the signal and outputs the measured amplitude A. In addition, the analysis logic 800 measures the phase of the signal and outputs the measured phase P. Amplitude A is provided to synthesis logic 802. Phase value P OUT Is also supplied to the synthesis logic 802. Phase value P OUT May be an estimated phase value P, instead, as will be described separately, the phase value P OUT Is the estimated phase value P EST It may be. The synthesis logic 802 synthesizes the signal and combines the signal P SYNTH Is output.
[0069]
Quasi-periodic signal S is also provided to classification logic 804, which classifies the signal as aperiodic or periodic. For non-periodic frames of the signal, the phase P supplied to synthesis logic 802 OUT Is set equal to the measured phase P. The periodic frame of the signal is provided to closed loop phase estimation logic 806. A quasi-periodic signal S is also provided to the closed loop phase estimation logic 806. The closed-loop phase estimation logic 806 estimates the phase and determines the estimated phase P EST Is output. The estimated phase is the initial phase value P INIT To the closed-loop phase estimation logic 806. When the previous frame is classified as a periodic frame by classification logic 804, the initial phase value is the estimated final phase value of the previous frame of the signal. When the previous frame is classified as aperiodic by the classification logic 804, the initial phase value is the measured phase value P of the previous frame.
[0070]
Estimated phase value P EST Is supplied to error calculation logic 808. A quasi-periodic signal S is also supplied to the error calculation logic 808. The measured phase P is also supplied to error calculation logic 808. In addition, the error calculation logic 808 is a composite signal P synthesized by the synthesis logic 802. SYNTH 'Receive. Phase input to synthesis logic 802, ie P OUT Is the estimated phase P EST Is equal to the composite signal P SYNTH 'Is a synthesized signal P synthesized by synthesis logic. SYNTH It is. Error calculation logic 808 calculates a distortion measure, or error measure E, by comparing the measured phase value with the estimated phase value. In an alternative embodiment, the error calculation logic 808 calculates a distortion measure, or error measure E, by comparing the input frame of the quasi-periodic signal with the composite frame of the quasi-periodic signal.
[0071]
Strain measure E is provided to comparison logic 810. Comparison logic 810 compares the strain measure E with a predetermined threshold T. When the strain measure E is greater than a predetermined threshold T, the measured phase P is P OUT That is, it is set equal to the phase value supplied to the synthesis logic 802. On the other hand, when the strain measure E is less than or equal to the predetermined threshold T, the estimated phase P EST Is P OUT That is, it is set equal to the phase value supplied to the synthesis logic 802.
[0072]
Herein, a novel method and apparatus for tracking the phase of a quasi-periodic signal has been described. Those skilled in the art will recognize that the various exemplary logic blocks and algorithm steps described in connection with the embodiments disclosed herein are digital signal processors (DSPs), application specific integrated circuits. circuit, ASIC), discrete gate or transistor logic, discrete hardware components such as registers and FIFOs, a processor that executes a set of firmware instructions, or a conventional programmable software module and processor. You will see that you can. The processor is conveniently a microprocessor, but may alternatively be a conventional processor, controller, microprocessor, or state machine. The software modules may be in RAM memory, flash memory, registers, or other forms of writable storage media known in the art. Those skilled in the art will further understand that the data, instructions, commands, information, signals, bits, symbols, and chips referenced throughout the above description are voltage, current, electromagnetic, magnetic or magnetic particles, optical ranges or particles. or particles), or a combination thereof, will be conveniently represented.
[0073]
Herein, preferred embodiments of the present invention have been shown and described. However, one of ordinary skill in the art appreciates that many modifications can be made to the embodiments described herein without departing from the spirit or scope of the invention. Accordingly, the invention is not limited except as according to the claims.
[Brief description of the drawings]
FIG. 1 is a block diagram of a communication channel that is terminated at each end by a voice coder.
FIG. 2 is a block diagram of an encoder that can be used in a multi-mode mixed-domain linear prediction (MDLP) speech coder.
FIG. 3 is a block diagram of a decoder that can be used in a multi-mode MDLP speech coder.
4 is a flowchart showing MDLP encoding steps performed by an MDLP encoder that can be used in the encoder of FIG. 2;
FIG. 5 is a flowchart showing a speech coding determination process.
FIG. 6 is a block diagram of a closed-loop multi-mode MDLP speech coder.
7 is a block diagram of a spectral coder that can be used in the coder of FIG. 6 or the encoder of FIG.
FIG. 8 is a graph of amplitude versus frequency showing the amplitude of the sinusoid of the harmonic coder.
FIG. 9 is a flowchart illustrating a mode determination process in a multi-mode MDLP speech coder.
FIG. 10 is a graph of speech signal amplitude vs. time (FIG. 10a) and linear prediction (LP) residual amplitude vs. time (FIG. 10b).
FIG. 11 is a graph of rate / mode versus frame index under closed-loop coding decision (FIG. 11a), perceptual signal-to-noise ratio, PSNR) vs. frame index graph (FIG. 11b), both rate / mode and PSNR vs. frame index graph without closed loop coding decision (FIG. 11c).
FIG. 12 is a block diagram of a device for tracking the phase of a quasi-periodic signal.

Claims (27)

いくつかのフレーム中では周期的であり、他のフレーム中では非周期的である信号の位相を位相追跡手段によって追跡する方法であって、
信号が周期的であるフレームについて信号の位相を推定するステップと、
推定された位相の性能を閉ループの性能尺度で監視するステップと、
信号が周期的であるフレームについて信号の位相を測定するステップと、
推定された位相の性能が所定の閾値レベルより低いときは、推定された位相である出力位相を与えるステップと、
推定された位相の性能が所定の閾値レベルより高いときは、測定された位相である出力位相を与えるステップとを含む方法。
A method of tracking the phase of a signal that is periodic in some frames and aperiodic in other frames by a phase tracking means ,
Estimating the phase of the signal for frames in which the signal is periodic;
Monitoring the estimated phase performance on a closed-loop performance measure;
Measuring the phase of the signal for frames where the signal is periodic;
Providing an output phase that is an estimated phase when the estimated phase performance is below a predetermined threshold level;
Providing an output phase that is a measured phase when the estimated phase performance is above a predetermined threshold level.
信号が非周期的であるフレームについて信号の位相を測定するステップをさらに含む請求項1記載の方法。  The method of claim 1, further comprising measuring the phase of the signal for frames in which the signal is aperiodic. 開ループの周期性の決定を使用して、所与のフレームについて信号が周期的であるか、または非周期的であるかを判断するステップをさらに含む請求項1記載の方法。  The method of claim 1, further comprising determining whether the signal is periodic or aperiodic for a given frame using an open loop periodicity determination. 推定するステップが、高調波モデルにしたがって位相の多項式表現を作成するステップを含む請求項1記載の方法。  The method of claim 1, wherein the estimating comprises creating a polynomial representation of the phase according to a harmonic model. 推定するステップが、前のフレームが周期的であったときは、初期位相値を、前のフレームの推定された最終位相値に等しく設定するステップを含む請求項1記載の方法。  The method of claim 1, wherein the estimating step comprises setting the initial phase value equal to the estimated final phase value of the previous frame when the previous frame was periodic. 推定するステップが、前のフレームが非周期的であったときは、初期位相値を、前のフレームの測定された位相値に等しく設定するステップを含む請求項1記載の方法。  The method of claim 1, wherein the step of estimating comprises setting the initial phase value equal to the measured phase value of the previous frame when the previous frame was aperiodic. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項6記載の方法。  7. The method of claim 6, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of the previous frame. 推定するステップが、前のフレームが周期的であり、かつ前のフレームの推定された位相の性能が所定の位相レベルより低かったときは、初期位相値を、前のフレームの測定された位相値に等しく設定するステップを含む請求項1記載の方法。  If the estimating step is periodic in the previous frame and the estimated phase performance of the previous frame is lower than the predetermined phase level, the initial phase value is determined as the measured phase value of the previous frame. The method of claim 1 including the step of setting equal to. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項8記載の方法。  9. The method of claim 8, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of the previous frame. いくつかのフレーム中では周期的であり、他のフレーム中では非周期である信号の位相を追跡するデバイスであって、
信号が周期的であるフレームについて信号の位相を推定する手段と、
推定された位相の性能を閉ループの性能尺度で監視する手段と、
信号が周期的であるフレームについて信号の位相を測定する手段と、
推定された位相の性能が所定の閾値レベルより低いときは、推定された位相である出力位相を与える手段と、
推定された位相の性能が所定の閾値レベルより高いときは、測定された位相である出力位相を与える手段とを含むデバイス。
A device that tracks the phase of a signal that is periodic in some frames and aperiodic in other frames,
Means for estimating the phase of the signal for frames in which the signal is periodic;
Means for monitoring the estimated phase performance on a closed loop performance measure;
Means for measuring the phase of the signal for frames in which the signal is periodic;
Means for providing an output phase that is an estimated phase when the estimated phase performance is below a predetermined threshold level;
Means for providing an output phase that is a measured phase when the estimated phase performance is higher than a predetermined threshold level.
信号が非周期的であるフレームについて信号の位相を測定する手段をさらに含む請求項10記載のデバイス。  The device of claim 10, further comprising means for measuring the phase of the signal for frames in which the signal is aperiodic. 開ループの周期性の決定を使用して、所与のフレームについて信号が周期的であるか、または非周期的であるかを判断する手段をさらに含む請求項10記載のデバイス。  11. The device of claim 10, further comprising means for determining whether the signal is periodic or aperiodic for a given frame using an open loop periodicity determination. 推定手段が、高調波のモデルにしたがって位相の多項式表現を作成する手段をさらに含む請求項10記載のデバイス。  11. The device of claim 10, wherein the estimating means further comprises means for creating a polynomial representation of the phase according to a harmonic model. 推定手段が、前のフレームが周期的であったときは、初期位相値を、前のフレームの推定された最終位相値に等しく設定する手段を含む請求項10記載のデバイス。  11. The device of claim 10, wherein the estimating means includes means for setting the initial phase value equal to the estimated final phase value of the previous frame when the previous frame was periodic. 推定手段が、前のフレームが非周期的であったときは、初期位相値を、前のフレームの測定された位相値に等しく設定する手段を含む請求項10記載のデバイス。  11. The device of claim 10, wherein the estimating means includes means for setting the initial phase value equal to the measured phase value of the previous frame when the previous frame was aperiodic. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項15記載の方法。  16. The method of claim 15, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of the previous frame. 推定手段が、前のフレームが周期的であり、かつ前のフレームについて推定された位相の性能が所定の閾値レベルよりも低かったときは、初期位相値を、前のフレームの測定された位相値に等しく設定する手段を含む請求項10記載のデバイス。  When the estimation means is periodic in the previous frame and the phase performance estimated for the previous frame is lower than a predetermined threshold level, the initial phase value is determined as the measured phase value of the previous frame. 11. A device as claimed in claim 10 including means for setting equal to. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項17記載のデバイス。  18. The device of claim 17, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of the previous frame. いくつかのフレーム中では周期的であり、他のフレーム中では非周期的である信号の位相を追跡するデバイスが、
信号が周期的であるフレームについて信号の位相を推定するように構成されている論理と、
推定された位相の性能を閉ループの性能尺度で監視するように構成されている論理と、
信号が周期的であるフレームについて信号の位相を測定するように構成されている論理と、
推定された位相の性能が所定の閾値レベルより低いときは、推定された位相である出力位相を与えるように構成されている論理と、
推定された位相の性能が所定の閾値レベルより高いときは、測定された位相である出力位相を与えるように構成されている論理とを含むデバイス。
A device that tracks the phase of a signal that is periodic in some frames and aperiodic in others
Logic configured to estimate the phase of the signal for frames where the signal is periodic;
Logic configured to monitor the estimated phase performance on a closed-loop performance measure;
Logic configured to measure the phase of the signal for frames where the signal is periodic;
Logic configured to provide an output phase that is an estimated phase when the estimated phase performance is below a predetermined threshold level; and
And a logic configured to provide an output phase that is a measured phase when the estimated phase performance is higher than a predetermined threshold level.
信号が非周期的であるフレームについて信号の位相を測定するように構成されている論理をさらに含む請求項19記載のデバイス。  20. The device of claim 19, further comprising logic configured to measure the phase of the signal for frames where the signal is aperiodic. 開ループの周期性の決定を使用して、所与のフレームについて信号が周期的であるか、または非周期的であるかを判断するように構成されている論理をさらに含む請求項19記載のデバイス。  20. The logic of claim 19, further comprising logic configured to determine whether the signal is periodic or aperiodic for a given frame using an open loop periodicity determination. device. 信号が周期的であるフレームについて信号の位相を推定するように構成されている論理が、高調波モデルにしたがって位相の多項式表現を作成するように構成されている論理を含む請求項19記載のデバイス。  20. The device of claim 19, wherein the logic configured to estimate the phase of the signal for a frame in which the signal is periodic includes logic configured to create a polynomial representation of the phase according to a harmonic model. . 信号が周期的であるフレームについて信号の位相を推定するように構成されている論理が、前のフレームが周期的であったときは、初期位相値を、前のフレームの推定された最終位相値に等しく設定するように構成されている論理を含む請求項19記載のデバイス。  If the logic configured to estimate the phase of the signal for a frame where the signal is periodic, but the previous frame was periodic, the initial phase value is the estimated final phase value of the previous frame 20. The device of claim 19, comprising logic configured to set equal to. 信号が周期的であるフレームについて信号の位相を推定するように構成されている論理が、前のフレームが非周期的であったときは、初期位相値を、前のフレームの測定された位相値に等しく設定するように構成されている論理を含む請求項19記載のデバイス。  If the logic configured to estimate the phase of the signal for a frame in which the signal is periodic, but the previous frame was aperiodic, the initial phase value is the measured phase value of the previous frame. 20. The device of claim 19, comprising logic configured to set equal to. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項24記載の方法。  The method of claim 24, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of a previous frame. 信号が周期的であるフレームについて信号の位相を推定するように構成されている論理が、前のフレームが周期的であり、かつ前のフレームの推定された位相の性能が所定の閾値レベルより低かったときは、初期位相値を、前のフレームの測定された位相値に等しく設定するように構成されている論理を含む請求項19記載のデバイス。  The logic configured to estimate the phase of the signal for frames where the signal is periodic indicates that the previous frame is periodic and the estimated phase performance of the previous frame is below a predetermined threshold level. 20. The device of claim 19 including logic configured to set the initial phase value equal to the measured phase value of the previous frame. 測定された位相値が、前のフレームの離散フーリエ変換(discrete Fourier transform, DFT)から得られる請求項26記載のデバイス。  27. The device of claim 26, wherein the measured phase value is obtained from a discrete Fourier transform (DFT) of a previous frame.
JP2002507369A 2000-02-29 2000-02-29 Method and apparatus for tracking the phase of a quasi-periodic signal Expired - Lifetime JP4567289B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2000/005141 WO2002003381A1 (en) 2000-02-29 2000-02-29 Method and apparatus for tracking the phase of a quasi-periodic signal

Publications (3)

Publication Number Publication Date
JP2004502203A JP2004502203A (en) 2004-01-22
JP2004502203A5 JP2004502203A5 (en) 2007-04-12
JP4567289B2 true JP4567289B2 (en) 2010-10-20

Family

ID=21741099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002507369A Expired - Lifetime JP4567289B2 (en) 2000-02-29 2000-02-29 Method and apparatus for tracking the phase of a quasi-periodic signal

Country Status (8)

Country Link
EP (1) EP1259955B1 (en)
JP (1) JP4567289B2 (en)
KR (1) KR100711040B1 (en)
CN (1) CN1262991C (en)
AU (1) AU2000233852A1 (en)
DE (1) DE60025471T2 (en)
HK (1) HK1055834A1 (en)
WO (1) WO2002003381A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811011B (en) * 2012-11-02 2017-05-17 富士通株式会社 Audio sine wave detection method and device
CN104347082B (en) * 2013-07-24 2017-10-24 富士通株式会社 String ripple frame detection method and equipment and audio coding method and equipment
EP2963645A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Calculator and method for determining phase correction data for an audio signal
CN108776319B (en) * 2018-04-25 2022-11-08 中国电力科学研究院有限公司 Optical fiber current transformer data accuracy self-diagnosis method and system
CN109917360A (en) * 2019-03-01 2019-06-21 吉林大学 A kind of irregular PRI estimation method of aliasing pulse

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JPH02288739A (en) * 1989-04-28 1990-11-28 Fujitsu Ltd Voice coding and decoding transmission system
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5787387A (en) 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3680374B2 (en) * 1995-09-28 2005-08-10 ソニー株式会社 Speech synthesis method
JPH10214100A (en) * 1997-01-31 1998-08-11 Sony Corp Voice synthesizing method
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JPH11224099A (en) * 1998-02-06 1999-08-17 Sony Corp Device and method for phase quantization

Also Published As

Publication number Publication date
DE60025471D1 (en) 2006-04-06
HK1055834A1 (en) 2004-01-21
KR100711040B1 (en) 2007-04-24
DE60025471T2 (en) 2006-08-24
CN1437746A (en) 2003-08-20
KR20020081352A (en) 2002-10-26
CN1262991C (en) 2006-07-05
JP2004502203A (en) 2004-01-22
AU2000233852A1 (en) 2002-01-14
EP1259955B1 (en) 2006-01-11
EP1259955A1 (en) 2002-11-27
WO2002003381A1 (en) 2002-01-10

Similar Documents

Publication Publication Date Title
JP4907826B2 (en) Closed-loop multimode mixed-domain linear predictive speech coder
US6640209B1 (en) Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
KR100895589B1 (en) Method and apparatus for robust speech classification
EP1279167B1 (en) Method and apparatus for predictively quantizing voiced speech
US6584438B1 (en) Frame erasure compensation method in a variable rate speech coder
KR100798668B1 (en) Method and apparatus for coding of unvoiced speech
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
JP2007534020A (en) Signal coding
KR100827896B1 (en) A predictive speech coder using coding scheme selection patterns to reduce sensitivity to frame errors
US6260017B1 (en) Multipulse interpolative coding of transition speech frames
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
US6449592B1 (en) Method and apparatus for tracking the phase of a quasi-periodic signal
JP4567289B2 (en) Method and apparatus for tracking the phase of a quasi-periodic signal
JP2011090311A (en) Linear prediction voice coder in mixed domain of multimode of closed loop

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100308

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100805

R150 Certificate of patent or registration of utility model

Ref document number: 4567289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term