JP4860860B2 - スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置 - Google Patents

スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置 Download PDF

Info

Publication number
JP4860860B2
JP4860860B2 JP2001511669A JP2001511669A JP4860860B2 JP 4860860 B2 JP4860860 B2 JP 4860860B2 JP 2001511669 A JP2001511669 A JP 2001511669A JP 2001511669 A JP2001511669 A JP 2001511669A JP 4860860 B2 JP4860860 B2 JP 4860860B2
Authority
JP
Japan
Prior art keywords
band
frequency
adjacent
bands
adjacent band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001511669A
Other languages
English (en)
Other versions
JP2003527622A (ja
JP2003527622A5 (ja
Inventor
マンジュナス、シャラス
デジャコ、アンドリュー・ピー
アナンタパドマナバーン、アラサニパライ・ケー
フアン、ペンジュン
チョイ、エディー・ルン・ティク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003527622A publication Critical patent/JP2003527622A/ja
Publication of JP2003527622A5 publication Critical patent/JP2003527622A5/ja
Application granted granted Critical
Publication of JP4860860B2 publication Critical patent/JP4860860B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は一般にスピーチ処理の分野に関し、とくにスピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置に関する。
【0002】
【従来の技術】
デジタル技術による音声の伝送は、とくに長距離およびデジタル無線電話適用において広まってきている。このために、再構成されたスピーチの知覚される品質を維持しながらチャンネルによって送信されることのできる最少量の情報を決定することに関心が持たれてきている。単にサンプリングしてデジタル化するだけでスピーチが送信された場合、通常のアナログ電話のスピーチ品質を達成するには64キロビット/秒(kbps)程度のデータレートが必要である。しかしながら、適切な符号化、伝送および受信機での再合成が後続するスピーチ解析を使用することによってデータレートを著しく減少させることが可能である。
【0003】
スピーチを圧縮する装置は多くの通信分野で使用されている。例示的な分野は無線通信である。無線通信の分野には、たとえば、コードレス電話、ページング、無線ローカルループ、セルラーおよびPCS電話システムのような無線電話、移動インターネットプロトコル(IP)電話、ならびに衛星通信システムを含む多くの適用がある。とくに重用な適用は移動加入者に対する無線電話である。
【0004】
たとえば、周波数分割多重アクセス(FDMA)、時分割多重アクセス(TDMA)および符号分割多元アクセス(CDMA)を含む無線通信システムに対する種々の無線インターフェースが開発されている。それと接続する際に、たとえば Advanced Mobile Phone Service(AMPS)、 Global System for Mobile Communications(GSM)および Interim Standard 95(IS−95)を含む種々の国内および国際規格が制定されている。例示的な無線電話通信システムは符号分割多元アクセス(CDMA)システムである。IS−95規格およびその派生物であるIS95A、ANSI J−STD−008、IS−95B、提案されている第3世代規格であるIS−95CおよびIS−2000等(ここでは、まとめてIS−95と呼ぶ)は、セルラーまたはPCS電話通信システムに対するCDMA無線インターフェースの使用を規定するために米国電気通信工業会(TIA)およびその他のよく知られている規格団体により公布されている。IS=95規格の使用にしたがって実質的に構成された例示的な無線通信システムは、その権利が本出願人に譲渡され、ここで参考文献とされている米国特許第 5,103,459号明細書および第 5,901,307号明細書に記載されている。
【0005】
人間の音声発生のモデルに関連のあるパラメータを抽出することによってスピーチを圧縮する技術を使用する装置はスピーチコーダと呼ばれている。スピーチコーダは入ってきたスピーチ信号を時間のブロック、すなわち解析フレームに分割する。スピーチコーダは一般にエンコーダおよびデコーダを含んでいる。エンコーダは入ってきたスピーチフレームを解析してある適切なパラメータを抽出し、その後そのパラメータを2進表示、すなわち1組のビットまたは2進データパケットに量子化する。そのデータパケットは通信チャンネルによって受信機およびデコーダに伝送される。デコーダはデータパケットを処理し、それらを量子化される前の形態に戻してパラメータを生成し、量子化される前の形態に戻されたパラメータを使用してスピーチフレームを再合成する。
【0006】
スピーチコーダの機能は、デジタル化されたスピーチ信号をスピーチに内在する固有の冗長性を全て除去することによって低ビットレートの信号に圧縮することである。デジタル圧縮は、入力スピーチフレームを1組のパラメータで表し、そのパラメータを1組のビットで表すために量子化を使用することによって行われる。入力スピーチフレームがいくつかのビットNi を有し、スピーチコーダにより生成されたデータパケットが多数のビットNo を有している場合、スピーチコーダによって得られる圧縮係数はCr =Ni /No である。問題は、ターゲットの圧縮係数を獲得しながら、復号されたスピーチの高い音声品質を保持することである。スピーチコーダの性能は(1)スピーチモデル、すなわち上述の解析および合成処理の組合せがどの程度良好に機能するか、および(2)パラメータ量子化処理がNo ビット/フレームのターゲットビットレートでどの程度良好に行われるかに依存する。したがって、スピーチモデルの目的は各フレームに対する少ないパラメータセットによりスピーチ信号の本質、すなわちターゲット音声品質を計算することである。
【0007】
スピーチ信号を表すのに適したパラメータセット(ベクトルを含む)のサーチはスピーチコーダの設計においておそらくもっとも重要である。良好なパラメータセットでは、知覚的に正確なスピーチ信号の再構成のために必要なシステム帯域幅が低くなる。ピッチ、信号パワー、スペクトルエンベロープ(またはフォルマント)、振幅スペクトル、および位相スペクトルはスピーチコーディングパラメータの例である。
【0008】
スピーチコーダは時間ドメインコーダとして構成されてもよく、この時間ドメインコーダは、スピーチの小さい[一般に5ミリ秒(ms)のサブフレーム]セグメントを一時に符号化するために高い時間分解能処理を使用することによって時間ドメインスピーチ波形を捕捉しようとする。各サブフレームに対して、技術的に知られている種々のサーチアルゴリズムにより、コードブックスペースから高精度の標本が見出される。その代わりに、スピーチコーダは周波数ドメインコーダとして構成されてもよく、この周波数ドメインコーダは、1組のパラメータ(解析)により入力スピーチフレームの短期間のスピーチスペクトルを捕捉し、対応した合成処理を使用してそのスペクトルパラメータからスピーチ波形を再生しようとする。パラメータ量子化装置は、文献[ A.Gersho & R.M.Gray,Vector Quantization and Signal Compression(1992) ]に記載されている既知の量子化技術にしたがって記憶されたコードベクトル表示でパラメータを表すことによってそれらを保存する。
【0009】
よく知られている時間ドメインスピーチコーダは、ここにおいて全文が参考文献とされている文献[ L.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signals 396-453(1978) ]に記載されているコード励起線形予測(CELP)コーダである。CELPコーダにおいて、スピーチ信号中の短期相関すなわち冗長は、短期フォルマントフィルタの係数を見出す線形予測(LP)解析によって除去される。短期予測フィルタを入来するスピーチフレームに適用することによりLP剰余信号が発生され、この信号は長期予測フィルタパラメータおよび後続的な統計的コードブックによりさらにモデル化され、量子化される。このようにして、CELPコーディングでは時間ドメインスピーチ波形を符号化するタスクがLP短期間フィルタ係数を符号化するタスクと、LP剰余を符号化するタスクとに分割される。時間ドメインコーディングは固定レートで行われる(すなわち、各フレームに対して同数のビットNo を使用して)か、あるいは可変レートで行われる(異なったタイプのフレーム内容に対して異なったビットレートが使用される)ことができる。可変レートコーダは、ターゲット品質を得るために十分なレベルにコーデックパラメータを符号化するために必要なビット量だけを使用することを試みる。例示的な可変レートCELPコーダは、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,414,796号明細書に記載されている。
【0010】
【発明が解決しようとする課題】
CELPコーダのような時間ドメインコーダは一般に、時間ドメインスピーチ波形の正確さを保存するためにフレーム当たりの大きいビット数No に依存する。このようなコーダは一般に、フレーム当たりのビット数No が比較的大きい(たとえば、8kbps以上)ならば優れた音声品質を伝送する。しかしながら、低いビットレート(4kbps以下)では、時間ドメインのコーダは利用可能なビット数が制限されるため、高品質で頑強な性能を保持することができない。低いビットレートでは、コードブックスペースが制限されるために、高レートの商業用での開発が成功している通常の時間ドメインコーダの波形整合能力が除去される。したがって、時間的な改善にもかかわらず、低いビットレートで動作する多くのCELPコーディングシステムは、一般に雑音として特徴付けられる知覚的に大きい歪みの影響を受ける。
【0011】
現在、中程度から低い(すなわち、2.4乃至4kbps以下の範囲の)ビットレートで動作する高品質のスピーチコーダを開発する研究への関心が高まっており、また商業的にも強く必要とされている。適用分野には、無線電話、衛星通信、インターネット電話、種々のマルチメディアおよび音声ストリーミング用、ボイスメールならびに他の音声記憶システムが含まれる。大容量に対する必要性と、パケット損失状況下における頑強な性能に対する要求がその推進力である。近年における種々のスピーチコーディング標準化の努力は、低レートのスピーチコーディングアルゴリズムの研究および開発を推し進めたもう1つの直接的な駆動力である。低レートのスピーチコーダは許容可能な適用帯域幅当たりのチャンネル、またはユーザ増加させ、適切なチャンネルコーディングの付加的な層と結合された低レートのスピーチコーダはコーダ仕様の全体的なビット収支に適合し、チャンネルエラー状態下において頑強な性能を得ることができる。
【0012】
スピーチを低ビットレートで効率的に符号化する1つの効果的な技術は、マルチモードコーディングである。例示的なマルチモードコーディング技術は、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許出願第09/217,341号明細書(“ VARIABLE RATE SPEECH CODING”, filed December 21,1998)に記載されている。通常のマルチモードコーダは、異なったタイプの入力スピーチフレームに対して異なったモード、すなわち符号化・復号アルゴリズムを適用する。各モード、すなわち符号化・復号処理は、たとえば有音声スピーチ、無音声スピーチ、移行スピーチ(有音声と無音声との間の)、および背景雑音(非スピーチ)のようなあるタイプのスピーチセグメントを最も効率的な方法で最適に表すようにカストマイズされる。外部の開ループモード決定メカニズムは入力スピーチフレームを検査し、そのフレームに適用すべきモードを決定する。開ループモード決定は一般に、入力フレームからある数のパラメータを抽出し、ある時間およびスペクトル特性に関してそのパラメータを評価し、モード決定をその評価に基づかせることによって行われる。
【0013】
2.4kbps程度のレートで動作するコーディングシステムは一般に本質的にパラメトリックである。すなわち、このようなコーディングシステムは、スピーチ信号のピッチ周期およびスペクトルエンベロープ(またはフォルマント)を規則的なインターバルで記述したパラメータを送信することによって動作する。これらのいわゆるパラメトリックコーダの例はLPボコーダシステムである。
【0014】
LPボコーダは、有音声スピーチ信号をピッチ周期当りの信号パルスでモデル化する。この基本的な技術は、とくにスペクトルエンベロープに関する伝送情報を含むように増強されてもよい。LPボコーダは一般に妥当な性能を提供するが、それらは典型的にバズとして特徴付けられる知覚的に著しい歪みを導入する可能性がある。
【0015】
近年、波形コーダおよびパラメトリックコーダの両者のハイブリッドであるコーダが出現してきた。これらのいわゆるハイブリッドコーダの例はプロトタイプ波形補間(PWI)スピーチコーディングシステムである。PWIスピーチコーディングシステムはまた、プロトタイプピッチ周期(PPP)スピーチコーダとして認識されることができる。PWIスピーチコーディングシステムは有音声スピーチをコード化する効率的な方法を提供する。PWIの基本概念は、代表的なピッチサイクル(プロトタイプ波形)を固定インターバルで抽出し、その記述を送信し、プロトタイプ波形間で補間を行うことによってスピーチ信号を再構成することである。PWI方法はLP残留信号またはスピーチ信号のいずれに関して行われてもよい。例示的なPWIまたはPPPスピーチコーダは、本出願人に権利が譲渡され、全文がここにおいて参考文献とされている米国特許出願第09/217,494号明細書(PERIODIC SPEECH CODING,filed December 21,1998 )に記載されている。別のPWIまたはPPPスピーチコーダは、米国特許第 5,884,253号明細書および文献[ W.Bastiaan Kleijn & Wolfgang Granzow“ Methods for Waveform Interpolation in Speech Coding, ”in 1 Digital Signal Processing 215-230(1991)] に記載されている。
【0016】
通常のスピーチコーダではスピーチの各フレーム中の各ピッチプロトタイプに対する位相情報が全て送信される。しかしながら、低ビットレートのスピーチコーダでは、できるだけ帯域幅を節約して使用することが望ましい。したがって、送信される位相情報を減少させる方法を提供することが有効である。それ故、送信されるフレーム当たりの位相パラメータが減少されるスピーチコーダが必要とされている。
【0017】
【課題を解決するための手段】
本発明は、送信されるフレーム当たりの位相情報が減少されるスピーチコーダに関する。したがって、本発明の1つの特徴において、スピーチコーダにおけるフレームのプロトタイプの周波数スペクトルを分割する方法は、周波数スペクトルを複数のセグメントに分割し、各セグメントに複数の帯域を割当て、各セグメントについてその複数の帯域に対する1組の帯域幅を設定するステップを有効に含んでいる。
【0018】
本発明の別の特徴において、フレームのプロトタイプの周波数スペクトルを分割するように構成されたスピーチコーダは、周波数スペクトルを複数のセグメントに分割する手段と、各セグメントに複数の帯域を割当てる手段と、各セグメントについてその複数の帯域に対する1組の帯域幅を設定する手段とを有効に備えている。
【0019】
本発明のさらに別の特徴において、スピーチコーダは、スピーチコーダによって処理されている現在のフレームからプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、プロトタイプ抽出装置に結合され、プロトタイプの周波数スペクトルを複数のセグメントに分割し、各セグメントに複数の帯域を割当て、各セグメントについてその複数の帯域に対する1組の帯域幅を設定するように構成されたプロトタイプ量子化装置とを有効に備えている。
【0020】
【発明の実施の形態】
以下に説明する例示的な実施形態は、CDMA無線インターフェースを使用するように構成された無線電話通信システムに属する。しかしながら、当業者は、本発明の特徴を使用するサブサンプリング方法および装置が当業者に知られている広範囲のテクノロジーを使用する種々の通信システムの任意のもので実施することが可能なことを認識するであろう。
図1に示されているように、CDMA無線電話システムは一般に、複数の移動加入者装置10と、複数の基地局12と、基地局制御装置(BSC)14と、および移動装置交換局(MSC)16とを含んでいる。MSC16は、通常の公衆交換電話網(PSTN)18とインターフェースするように構成されている。MSC16はまたBSC14とインターフェースするように構成されている。BSC14はバックホールラインによって基地局12に結合されている。バックホールラインは、たとえば、E1/T1、ATM、IP、PPP、フレームリレー、HDSL、ADSL、またはxDSL等を含むいくつかの既知のインターフェースの任意のものをサポートするように構成されている。2以上のBSC14がそのシステム内に存在していてもよいことが認識される。各基地局12は、無指向性アンテナまたは基地局12から半径方向の特定の方向に向けられたアンテナをそれぞれ含んでいる1以上のセクタ(示されていない)を含んでいることが有効である。その代わりに、各セクタは2個のダイバーシティ受信用アンテナを備えていてもよい。各基地局12は、複数の周波数割当てをサポートするように都合よく設計されることができる。セクタと周波数割当ての交差点をCDMAチャンネルと呼ぶことができる。基地局12はまた基地局トランシーバサブシステム(BTS)12として知られている。その代わりに“基地局”はBSC14および1以上のBTS12をまとめて呼ぶために工業的に使用されてもよい。BTS12はまた“セルサイト”12と呼ばれることもある。その代わりに、所定のBTS12の個々のセクタはセルサイトと呼ばれてもよい。移動加入者装置10は一般に、セルラーまたはPCS電話機10である。そのシステムは、IS−95規格にしたがって使用されるように構成されるのがよい。
【0021】
セルラー電話システムの一般的な動作中、基地局12は移動装置10のセットから逆方向リンク信号のセットを受信する。移動装置10は電話呼またはその他の通信を処理する。所定の基地局12によって受信された各逆方向リンク信号は、基地局12内で処理される。結果的に得られたデータはBSC14に転送される。BSC14は、基地局12間におけるソフトハンドオフの編成を含む呼リソース割当ておよび移動性管理機能を行う。BSC14はまた受信されたデータをMSC16に導き、そのMSC16はPSTN18とのインターフェース用の付加的な経路設定サービスを行う。同様に、PSTN18はMSC16とインターフェースし、MSC16はBSC14とインターフェースし、このBSC14が基地局12を制御して順方向リンク信号のセットを移動装置10のセットに送信する。
【0022】
図2に示されているように、第1のエンコーダ100 はデジタル化されたスピーチサンプルs(n)を受取り、伝送媒体102 すなわち通信チャンネル102 により第1のデコーダ104 に送信するためにそのサンプルを符号化する。デコーダ104 は符号化されたスピーチサンプルを復号し、出力スピーチ信号sSYNTH (n)を合成する。逆方向に送信するために第2のエンコーダ106 がデジタル化されたスピーチサンプルs(n)を符号化し、それが通信チャンネル108 で送信される。第2のデコーダ110 はその符号化されたスピーチサンプルを受取って復号し、合成された出力スピーチ信号sSYNTH (n)を発生させる。
【0023】
スピーチサンプルs(n)は、たとえば、パルス符号変調(PCM)、圧伸μ法則またはA法則を含む技術的に知られている種々の方式の任意のものにしたがってデジタル化されて量子化されたスピーチ信号を意味する。技術的に知られているように、スピーチサンプルs(n)は、各フレームが予め定められた数のデジタル化されたスピーチサンプルs(n)を含む入力データのフレームに構成される。例示的な実施形態において、160個のサンプルを含む20m秒のフレームによって8kHzのサンプリングレートが使用される。以下に説明する実施形態において、データ伝送レートは13.2kbps(フルレート)から6.2kbps(1/2レート)、2.6bps(1/4レート)、1bps(1/8レート)にフレーム単位で都合よく変更されてもよい。データ伝送レートの変更は有効である。それは、比較的少量のスピーチ情報を含むフレームに対して低いビットレートを選択的に使用することができるからである。当業者によって認識されるように、別のサンプリングレート、フレームサイズおよびデータ伝送レートを使用することができる。
【0024】
第1のエンコーダ100 と第2のデコーダ110 は第1のスピーチコーダ、すなわちスピーチコーデックを構成している。スピーチコーダは、スピーチ信号を送信するために、たとえば図1を参照して上述した加入者装置、BTS、またはBSCを含む任意の通信装置において使用されることができる。同様に第2のエンコーダ106 と第1のデコーダ104 は第2のスピーチコーダを構成している。当業者によって認識されるように、スピーチコーダはデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散型ゲート論理装置、ファームウェア、あるいは任意の通常のプログラム可能なソフトウェアモジュールおよびマイクロプロセッサにより構成されてもよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタまたはその他の任意の形態の技術的に知られている記憶媒体であることができる。その代わりに、任意の通常のプロセッサ、制御装置または状態マシンがマイクロプロセッサの代わりに使用されることができる。スピーチコーディングのためにとくに設計された例示的なASICは、それらの権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,727,123号明細書および米国特許出願第08/197,417号明細書(“VOCODER ASIC”,filed February 16 1994 )に記載されている。
【0025】
図3において、スピーチコーダにおいて使用されることのできるエンコーダ200 は、モード決定モジュール202 と、ピッチ評価モジュール204 と、LP解析モジュール206 と、LP解析フィルタ208 と、LP量子化モジュール210 と、および剰余量子化モジュール212 とを備えている。入力スピーチフレームs(n)はモード決定モジュール202 、ピッチ評価モジュール204 、LP解析モジュール206 、およびLP解析フィルタ208 に供給される。モード決定モジュール202 は、各入力スピーチフレームs(n)の特徴である周期性、エネルギ、信号対雑音比(SNR)、またはゼロ交差レートにとくに基づいてモード指標IM およびモードMを生成する。周期性にしたがってスピーチフレームを分類する種々の方法は、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,911,128号明細書に記載されている。このような方法はまた米国電気通信工業会の工業暫定規格TIA/EIA IS−127およびTIA/EIA IS−733に含まれている。例示的なモード決定方式はまた、上述の米国特許出願第09/217,341号明細書に記載されている。
【0026】
ピッチ評価モジュール204 は、各入力スピーチフレームs(n)に基づいてピッチ指標IP および遅延値P0 を生成する。LP解析モジュール206 は各入力スピーチフレームs(n)に関して線形予測解析を行ってLPパラメータaを発生させる。LPパラメータaはLP量子化モジュール210 に供給される。LP量子化モジュール210 はまたモードMを受取り、それによって量子化処理をモード依存方式で行う。LP量子化モジュール210 はLP指標ILPおよび量子化されたLPパラメータ:
【数1】
Figure 0004860860
を生成する。LP解析フィルタ208 は入力スピーチフレームs(n)に加えて、量子化されたLPパラメータ^aを受取る。LP解析フィルタ208 はLP剰余信号R[n]を発生し、これは入力スピーチフレームs(n)と量子化された線形予測されたパラメータ^aに基づいて再構成されたスピーチとの間のエラーを表す。LP剰余信号R[n]、モードMおよび量子化されたLPパラメータ^aは剰余量子化モジュール212 に供給される。これらの値に基づいて、剰余量子化モジュール212 は剰余指標IR および量子化された剰余信号^R[n]を生成する。
【0027】
図4において、スピーチコーダにおいて使用されることのできるデコーダ300 はLPパラメータデコードモジュール302 と、剰余デコードモジュール304 と、モードデコードモジュール306 と、およびLP合成フィルタ308 とを含んでいる。モードデコードモジュール306 はモード指標IM を受取って復号し、モードMをそこから発生させる。LPパラメータデコードモジュール302 はモードMとLP指標ILPを受取る。LPパラメータデコードモジュール302 は受取った値を復号して、量子化されたLPパラメータ^aを生成する。剰余デコードモジュール304 は剰余指標IR と、ピッチ指標I Pと、およびモード指標I Mとを受取る。剰余デコードモジュール304 は受取った値を復号して、量子化された剰余信号^R[n]を発生させる。量子化された剰余信号^R[n]および量子化されたLPパラメータ^aはLP合成フィルタ308 に供給され、このLP合成フィルタ308 が復号された出力スピーチ信号^s[n]をこれらから合成する。
【0028】
図3のエンコーダ300 および図4のデコーダ400 の種々のモジュールの動作および構成は技術的に知られており、上述した米国特許第 5,414,796号明細書および文献[L.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signal,396-453(1978)] に記載されている。
【0029】
図5のフローチャートに示されているように、1実施形態によるスピーチコーダは、スピーチサンプルを送信のために処理するときに1組のステップを行う。ステップ400 において、スピーチコーダはスピーチ信号のデジタルサンプルを連続したフレームで受取る。スピーチコーダは所定のフレームを受信することによってステップ402 に進む。ステップ402 において、スピーチコーダはそのフレームのエネルギを検出する。エネルギはフレームのスピーチアクティビティの尺度である。スピーチ検出はデジタル化されたスピーチサンプルの振幅の2乗を合計し、結果的に得られたエネルギをしきい値と比較することによって行われる。1実施形態では、しきい値は変化している背景雑音レベルに基づいて適合される。例示的な可変しきい値スピーチ活動検出器は、上述の米国特許第 5,414,796号明細書に記載されている。ある無音声スピーチ音は、誤って背景雑音として符号化される可能性のある著しく低いエネルギのサンプルである可能性が高い。これが発生しないようにするために、上述の米国特許第 5,414,796号明細書に記載されているように、無音声スピーチを背景雑音から弁別するために低エネルギサンプルのスペクトル傾斜が使用されてもよい。
【0030】
フレームのエネルギを検出した後、スピーチコーダはステップ404 に進む。ステップ404 において、スピーチコーダは、検出されたフレームがスピーチ情報を含むものとしてフレームを分類するのに十分なエネルギを有しているか否かを決定する。検出されたフレームのエネルギが予め定められたしきい値レベルより低い場合、スピーチコーダはステップ406 に進む。ステップ406 において、スピーチコーダはフレームを背景雑音(すなわち。非スピーチ、または沈黙)として符号化する。1実施形態では、背景雑音フレームは1/8レートすなわち1kbpsで符号化される。ステップ404 において、検出されたフレームのエネルギが予め定められたしきい値レベル以上である場合、そのフレームはスピーチとして分類され、スピーチコーダはステップ408 に進む。
【0031】
ステップ408 において、スピーチコーダは、そのフレームが無音声スピーチであるかどうかを決定する。すなわち、スピーチコーダはそのフレームの周期性を検査する。種々の既知の周期性決定方法には、たとえば、ゼロ交差の使用および正規化された自己相関関数(NACF)の使用が含まれている。とくにゼロ交差およびNACFを使用した周期性の検出は、米国特許第 5,911,128号明細書および米国特許出願第09/217,341号明細書に記載されている。さらに、有音声スピーチを無音声スピーチから弁別するために使用されている上記の方法は、米国電気通信工業会の暫定規格TIA/EIA IS−127およびTIA/EIA IS−733に含まれている。ステップ408 においてフレームが無音声スピーチであると決定された場合、スピーチコーダはステップ410 に進む。ステップ410 において、スピーチコーダはフレームを無音声スピーチとして符号化する。1実施形態において、無音声スピーチフレームは1/4レートすなわち2.6kbpsで符号化される。ステップ408 においてフレームが無音声スピーチではないと決定された場合、スピーチコーダはステップ412 に進む。
【0032】
ステップ412 において、スピーチコーダは、たとえば上記の米国特許第 5,911,128号明細書に記載されているような、技術的に知られている周期性決定方法を使用して、そのフレームが移行スピーチであるかどうかを決定する。そのフレームが移行スピーチであると決定された場合、スピーチコーダはステップ414 に進む。ステップ414 において、フレームは移行スピーチ(すなわち、無音声スピーチから有音声スピーチへの移行)として符号化される。1実施形態では、移行スピーチフレームは、本出願人にその権利が譲渡され、ここにおいて全文が参考文献とされている米国特許出願第09/307,294号明細書(MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES,filed May 7,1999)に記載されているマルチパルス補間符号化方法にしたがって符号化される。別の実施形態では、移行スピーチフレームはフルレート、すなわち13.2kbpsで符号化される。
【0033】
スピーチコーダは、ステップ412 においてフレームは移行スピーチではないと決定した場合、そのフレームを有音声スピーチとして符号化する。1実施形態において、有音声スピーチフレームは1/2レート、すなわち6.2kbpsで符号化されることができる。有音声スピーチフレームはフルレート、すなわち13.2kbpsで(8kのCELPコーダではフルレート、すなわち8kbpsで)符号化されることもできる。しかしながら、当業者に認識されるように、1/2レートで有音声フレームを符号化することにより、コーダは有音声フレームの定常状態の性質を利用することにより貴重な帯域幅を節約することが可能になる。さらに、有音声スピーチを符号化するために使用されるレートと関係なく、有音声スピーチは過去のフレームからの情報を使用して有効にコード化され、したがって、予測的に符号化されると言える。
【0034】
当業者は、スピーチ信号または対応したLP剰余のいずれも図5に示されているステップを行うことによって符号化されることができることを認識するであろう。雑音、無音声、移行および有音声スピーチの波形特性は、図6のAのグラフにおいて時間の関数として示されている。雑音、無音声、移行および有音声LP剰余の波形特性は、図6のBのグラフにおいて時間の関数として示されている。
【0035】
1実施形態において、プロトタイプピッチ周期(PPP)スピーチコーダ500 は図7に示されているように反転フィルタ502 と、プロトタイプ抽出装置504 と、プロトタイプ量子化装置506 と、プロトタイプの量子化から復元する装置508 と、補間/合成モジュール510 と、LPC合成モジュール512 とを備えている。スピーチコーダ500 はDSPの一部分として構成されると都合がよく、また、たとえばPCSまたはセルラー電話システムにおける加入者装置または基地局内、あるいは衛星システムにおける加入者装置またはゲートウェイ内等に設けられてもよい。
【0036】
スピーチコーダ500 において、nをフレーム数としてデジタル化されたスピーチ信号s(n)は、反転LPフィルタ502 に供給される。特定の実施形態では、フレーム長は20m秒である。反転フィルタの伝達関数A(z)は以下の式にしたがって計算される:
A(z)=1−a1 -1−a2 -2−…−ap -p
ここで、係数aI は、ここにおいて共に参考文献とされている米国特許第 5,414,796号明細書および米国特許出願第09/217,494号明細書に記載されているように既知の方法にしたがって選択された予め定められた値を有するフィルタタップである。数pは、反転LPフィルタ502 が予測のために使用している前のサンプルの数を示す。特定の実施形態において、pは10に設定されている。
【0037】
反転フィルタ502 はLP剰余信号r(n)をプロトタイプ抽出装置504 に供給する。プロトタイプ抽出装置504 はプロトタイプを現在のフレームから抽出する。このプロトタイプは、デコーダにおいてLP剰余信号を再構成するためにフレーム内に同様に位置された前のフレームからのプロトタイプが補間/合成モジュール510 により線形的に補間される現在のフレームの一部分である。
【0038】
プロトタイプ抽出装置504 はプロトタイプをプロトタイプ量子化装置506 に供給し、このプロトタイプ量子化装置506 は、技術的に知られている種々の量子化技術の任意のものにしたがってプロトタイプを量子化する。量子化された値は、ルックアップテーブル(示されていない)から得られてもよく、チャンネルによって送信するための遅延およびその他のコードブックパラメータを含むパケットに組立てられる。パケットは送信機(示されていない)に供給され、チャンネルによって受信機(示されていない)に送信される。反転LPフィルタ502 、プロトタイプ抽出装置504 およびプロトタイプ量子化装置506 は現在のフレームに関するPPP解析を行われたと言われる。
【0039】
受信機はパケットを受信し、そのパケットをプロトタイプ量子化装置508 に供給する。このプロトタイプ量子化装置508 は、種々の既知の技術の任意のものにしたがってパケットを量子化される前の状態に復元することができる。プロトタイプ量子化装置508 は、量子化される前の状態に戻されたプロトタイプを補間/合成モジュール510 に供給する。補間/合成モジュール510 は、現在のフレームのためにLP剰余信号を再構成するためにフレーム内に同様に位置された前のフレームからのプロトタイプをプロトタイプに補間する。補間およびフレーム合成は、米国特許第 5,884,253号明細書および上述された米国特許出願第09/217,494号明細書に記載されている既知の方法にしたがって都合よく行われる。
【0040】
補間/合成モジュール510 は、再構成されたLP剰余信号^r(n)をLPC合成モジュール512 に供給する。LPC合成モジュール512 はまた送信されたパケットから線形スペクトル対(LSP)値を受取り、これらの値は再構成されたLP剰余信号^r(n)についてLPCフィルタ処理を行って再構成されたスピーチ信号^s(n)を生成するために使用される。別の実施形態では、スピーチ信号^s(n)のLPC合成は、現在のフレームの補間/合成を行う前にプロトタイプに対して行われてもよい。プロトタイプ量子化復元装置508 、補間/合成モジュール510 およびLPC合成モジュール512 は現在のフレームのPPP解析を行われたと言われる。
【0041】
1実施形態において、図7のスピーチコーダ500 のようなPPPスピーチコーダは複数の周波数帯域Bを識別し、そのためにB個の線形位相シフトが計算される。その位相は、その権利が本出願人に譲渡された本出願の関連出願である米国特許出願(“ METHOD AND APPARATUS FOR SUBSAMPLING PHASE SPECTRUM INFORMATION”)に記載されている方法および装置にしたがって量子化される前にインテリジェントにサブサンプリングされてもよい。スピーチコーダは、処理されているフレームのプロトタイプの離散フーリエ級数(DFS)ベクトルを、DFS全体における高調波振幅の重要度に応じて可変的な幅を有する少数の帯域に分割し、それによって必要な量子化を比例的に減少することが有効である。0Hz乃至Fm Hz(Fmは処理されているプロトタイプの最大周波数である)までの周波数範囲全体はL個のセグメントに分割される。したがって、MがFm/Foに等しく、ここでFo Hzが基本周波数である多数の高調波Mが存在する。したがって、構成要素である振幅ベクトルおよび位相ベクトルを有するプロトタイプに対するDFSベクトルはM個の要素を有している。スピーチコーダは、b1 +b2 +b3 +…+bL がBと等しくなるようにb1 ,b2 ,b3 ,…,bL 帯域をL個のセグメントに予め割当てる。したがって、第1のセグメントにはb1 個の帯域があり、第2のセグメントにはb2 個の帯域があり、以下同様にL番目のセグメントにはbL 個の帯域が存在し、全周波数範囲内にB個の帯域が存在している。1実施形態において、全周波数範囲はゼロ乃至4000Hzであり、これは発声された人間の声の範囲である。
【0042】
1実施形態において、bi 個の帯域はL個のセグメントのi番目のセグメントにおいて均一に分配される。これは、i番目のセグメント中の周波数範囲をbi 個の等しい部分に分割することによって行われる。したがって、第1のセグメントはb1 個の等しい帯域に分割され、第2のセグメントはb2 個の等しい帯域に分割され、以下同様にL番目のセグメントはbL 個の等しい帯域に分割される。
【0043】
別の実施形態では、i番目のセグメント中のbi 個の帯域のそれぞれに対して、不均一に配置された帯域エッジの固定されたセットが選択される。これは、bi 個の帯域の任意のセットを選択することによって、あるいはi番目のセグメントに対するエネルギヒストグラムの全体的な平均をとることによって行われる。高密度のエネルギには狭い帯域が必要であり、低密度のエネルギはそれより広い帯域を使用する可能性がある。したがって、第1のセグメントはb1 個の固定された等しくない帯域に分割され、第2のセグメントはb2 個の固定された等しくない帯域に分割され、以下同様にL番目のセグメントはbL 個の固定された等しくない帯域に分割される。
【0044】
別の実施形態では、各サブバンド中のbi 個の帯域のそれぞれに対して、帯域エッジの可変的なセットが選択される。これは、合理的な低い値であるFb Hzに等しい帯域のターゲットの幅から始まることによって行われる。その後、以下のステップが行われる。カウンタnは1に設定される。その後、最も高い振幅値の周波数Fbm Hzおよび対応した高調波番号mb(Fbm/Foに等しい)を見出すために振幅ベクトルがサーチされる。このサーチは、前に設定された全ての帯域エッジによりカバーされた範囲(反復1乃至n−1に対応した)を除いて行われる。その後、bi 個の帯域中の第nの帯域に対する帯域エッジは高調波番号でmb−Fb/Fo/2およびmb+Fb/Fo/2に、またHzでFmb−Fb/2およびFmb+Fb/2にそれぞれ設定される。その後カウンタnはインクリメントされ、カウントnがbi を越えるまで、振幅ベクトルをサーチし、帯域エッジを設定するステップが繰返される。したがって、第1のセグメントはb1 個の変化する等しくない帯域に分割され、第2のセグメントはb2 個の変化する等しくない帯域に分割され、以下同様にL番目のセグメントはbL 個の変化する等しくない帯域に分割される。
【0045】
上記した実施形態では、隣接した帯域エッジ間のギャップを除去するために帯域がさらに細分化される。1実施形態において、低い周波数帯域の右側の帯域エッジおよび中程度に高い周波数帯域の左側の帯域エッジの両方がこの2つのエッジ間のギャップの中間で接するように拡張される(この場合、第2の帯域の左側に位置された第1の帯域の周波数は第2の帯域の周波数より低い)。これを行う1つの方法は、2つの帯域エッジをHz(および対応した高調波番号)でのそれらの平均値に設定することである。別の実施形態において、低い周波数帯域の右側の帯域エッジまたは中程度に高い周波数帯域の左側の帯域エッジのいずれか一方がHzで他方に等しく設定される(あるいは、他方の高調波番号の隣りの高調波数番号に設定される)。帯域エッジは、右側の帯域エッジで終了する帯域および左側の帯域エッジから始まる帯域中のエネルギ内容に応じて等しくされることが可能である。エネルギの多い帯域に対応した帯域エッジは不変のままにされることができ、一方他方の帯域エッジは変更されなければならない。その代わり、その中心におけるエネルギの集中度が高い帯域に対応した帯域エッジは変化させられることが可能であり、一方、他の帯域エッジは不変である。別の1実施形態では、上述した右側の帯域エッジおよび上述した左側の帯域エッジの両者がx対y比で等しくない距離だけ(Hzおよび高調波番号で)移動され、ここでxおよびyはそれぞれ左側の帯域エッジから始まる帯域の帯域エネルギおよび右側の帯域エッジで終了する帯域の帯域エネルギである。その代わり、xおよびyはそれぞれ右側の帯域エッジで終了する帯域の合計エネルギに対する中心高調波のエネルギの比、および左側の帯域エッジから始まる帯域の合計エネルギに対する中心高調波のエネルギの比であることができる。
【0046】
別の実施形態において、均一に分布された帯域がDFSベクトルのL個のセグメントのいくつかにおいて使用されることが可能であり、固定された不均一に分布された帯域がDFSベクトルのL個のセグメントの別のものにおいて使用されることができ、可変的な不均一に分布された帯域がDFSベクトルのL個のセグメントのさらに別のものにおいて使用されることができる。
【0047】
1実施形態において、図7のスピーチコーダ500 のようなPPPスピーチコーダは、プロトタイプピッチ周期の離散フーリエ級数(DFS)表現で周波数帯域を識別するために図8のフローチャートに示されているアルゴリズム手順を行う。帯域は基準プロトタイプのDFSに関する帯域についての整列または線形位相シフトを計算するために識別される。
【0048】
ステップ600 においてスピーチコーダは周波数帯域を識別するプロセスを開始する。その後、スピーチコーダはステップ602 に進む。ステップ602 において、スピーチコーダは基本周波数FoでプロトタイプのDFSを計算する。その後、スピーチコーダはステップ604 に進む。ステップ604 においてスピーチコーダは周波数範囲をL個のセグメントに分割する。1実施形態において、周波数範囲は0乃至4000Hzであり、これは発声された人間の音声の範囲である。その後、スピーチコーダはステップ606 に進む。
【0049】
ステップ606 において、スピーチコーダは、b1 +b2 +…+bL が帯域の合計数Bと等しくなるようにbL 個の帯域をL個のセグメントに割当て、そのためにB個の線形位相シフトが計算される。その後、スピーチコーダはステップ608 に進む。ステップ608 においてスピーチコーダはセグメントカウントiを1に等しくなるように設定する。その後スピーチコーダはステップ610 に進む。ステップ610 において、スピーチコーダは、帯域を各セグメントにおいて分配するための割当て方法を選択する。その後、スピーチコーダはステップ612 に進む。
【0050】
ステップ612 において、スピーチコーダは、帯域がステップ610 の帯域割当て方法によりセグメントにおいて均一に分配されたか否かを決定する。ステップ610 の帯域割当て方法により帯域がセグメントにおいて均一に分配された場合、スピーチコーダはステップ614 に進む。他方、ステップ610 の帯域割当て方法により帯域がセグメントにおいて均一に分配されなかった場合は、スピーチコーダはステップ616 に進む。
【0051】
ステップ614 において、スピーチコーダはi番目のセグメントをbi 個の等しい帯域に分割する。その後、スピーチコーダはステップ618 に進む。ステップ618 においてスピーチコーダはセグメントカウントiをインクリメントする。その後、スピーチコーダはステップ620 に進む。ステップ620 において、スピーチコーダは、セグメントカウントiがLより大きいか否かを決定する。セグメントカウントiがLより大きい場合、スピーチコーダはステップ622 に進む。他方、セグメントカウントiがL以下である場合には、スピーチコーダはステップ610 に戻って、次のセグメントに対する帯域割当て方法を選択する。ステップ622 において、スピーチコーダは帯域識別アルゴリズムを終了する。
【0052】
ステップ616 において、スピーチコーダは、固定された不均一な帯域がステップ610 の帯域割当て方法によりセグメントにおいて分配されたかどうかを決定する。固定された不均一な帯域がステップ610 の帯域割当て方法によりセグメントにおいて分配された場合、スピーチコーダはステップ624 に進む。他方、固定された不均一な帯域がステップ610 の帯域割当て方法によりセグメントにおいて分配されなかった場合、スピーチコーダはステップ626 に進む。
【0053】
ステップ624 において、スピーチコーダはi番目のセグメントをbi 個の等しくない予め設定された帯域に分割する。これは、上述した方法を使用して行われることができる。その後、スピーチコーダはステップ618 に進み、セグメントカウントiをインクリメントし、帯域が全周波数範囲において割当てられるまで各セグメントに対する帯域割当てを続行する。
【0054】
ステップ626 において、スピーチコーダは、帯域カウントnを1に等しく設定し、初期帯域幅をFb Hzに等しく設定する。その後、スピーチコーダはステップ628 に進む。ステップ628 において、スピーチコーダは1乃至n−1の範囲内の帯域に対する振幅を除外する。その後、スピーチコーダはステップ630 に進む。ステップ630 において、スピーチコーダは残りの振幅ベクトルを分類する。その後、スピーチコーダはステップ632 に進む。
【0055】
ステップ632 において、スピーチコーダは、最高の高調波番号mbを有する帯域の位置を決定する。その後、スピーチコーダはステップ634 に進む。ステップ634 において、スピーチコーダは、帯域エッジ間に含まれている高調波の合計数がFb/Foに等しいようにmbの付近に帯域エッジを設定する。その後、スピーチコーダはステップ636 に進む。
【0056】
ステップ636 において、スピーチコーダは帯域間のギャップを埋めるために隣接した帯域の帯域エッジを移動させる。その後、スピーチコーダはステップ638 に進む。ステップ638 において、スピーチコーダは帯域カウントnをインクリメントする。その後、スピーチコーダはステップ640 に進む。ステップ640 において、スピーチコーダは帯域カウントnがbi より大きいかどうかを決定する。帯域カウントnがbi より大きい場合、スピーチコーダはステップ618 に進んで、セグメントカウントiをインクリメントし、全ての周波数帯域にわたって帯域が割当てられるまで各セグメントに対する帯域割当てを続行する。他方、帯域カウントnがbi より大きくない場合には、スピーチコーダはステップ628 に戻って、セグメント中の次の帯域に対する幅を設定する。
【0057】
以上、位相スペクトル情報をサブサンプリングする新しい方法および装置を説明してきた。当業者は、ここに記載の実施形態と関連されて説明されている種々の例証的な論理ブロックおよびアルゴリズムのステップがデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散型ゲートまたはトランジスタ論理装置、たとえばレジスタおよびFIFO等の離散型ハードウェアコンポーネント、1組のファームウェア命令を実行するプロセッサ、あるいは任意の通常のプログラム可能なソフトウェアモジュールおよびプロセッサにより構成され、あるいは行われてもよいことを認識するであろう。プロセッサはマイクロプロセッサであると都合がよいが、別の実施形態ではプロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置、または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、あるいは任意の他の形態の技術的に知られている書込み可能記憶媒体内に設けられることができる。当業者はさらに、上記の説明で引用することのできるデータ、命令、コマンド、情報、信号、ビット、符号、およびチップは、電圧、電流、電磁波、磁界または粒子、あるいは光学フィールドまたは粒子、もしくはそれらの組合せで便利に表わされていることを認識するであろう。
【0058】
以上、本発明の好ましい実施形態を図示および説明してきた。しかしながら、当業者は、ここに開示されている実施形態に対する種々の変更が本発明の技術的範囲を逸脱することなく行われることが可能であることを認識するであろう。したがって、本発明は添付された請求の範囲によってのみ限定される。
【図面の簡単な説明】
【図1】 無線電話システムのブロック図。
【図2】 スピーチコーダによって各端末で終端される通信チャンネルのブロック図。
【図3】 エンコーダのブロック図。
【図4】 デコーダのブロック図。
【図5】 スピーチコーディング決定手順を示すフローチャート。
【図6】 スピーチ信号振幅対時間および線形予測(LP)剰余振幅対時間をそれぞれ示すグラフ。
【図7】 プロトタイプピッチ周期(PPP)スピーチコーダのブロック図。
【図8】 プロトタイプピッチ周期の離散フーリエ級数(DFS)表現で周波数帯域を識別するために図7のスピーチコーダのようなPPPスピーチコーダによって行われるアルゴリズム手順を示すフローチャート。

Claims (19)

  1. 入力されたスピーチフレームのプロトタイプの周波数スペクトル分割方法において、
    周波数スペクトルを複数のセグメントに分割し、
    各セグメントに複数の帯域を割当て、
    各セグメントに対して、それぞれのセグメントの複数の帯域について1組の帯域幅を設定するステップを含んでおり、前記設定するステップは、可変的な帯域幅を特定のセグメント中の複数の帯域に割当てるステップを含んでおり、前記割当てるステップは、
    ターゲット帯域幅を設定し、
    帯域内の最大高調波番号を決定するために、前に設定された全ての帯域エッジによってカバーされたサーチ範囲を除いて前記フレームのプロトタイプの振幅ベクトルを各帯域についてサーチし、
    各帯域に対して、帯域エッジ間に位置された高調波の合計数が基本周波数により除算された値のターゲット帯域幅に等しくなるように最大高調波番号の付近に帯域エッジを位置させ、
    隣接した帯域エッジ間のギャップを除去するステップを含んでいる方法。
  2. 前記除去するステップは、各ギャップについてそのギャップを囲んでいる
    隣接した帯域エッジを2つの隣接した帯域エッジの周波数値の平均に等しくなるように設定するステップを含んでいる請求項1記載の方法。
  3. 前記除去するステップは、各ギャップについて低いエネルギを有する帯域に対応した隣接した帯域エッジを、高いエネルギを有する帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定するステップを含んでいる請求項1記載の方法。
  4. 前記除去するステップは、各ギャップについて帯域の中心におけるエネルギの集中度が高い帯域に対応した隣接した帯域エッジを、帯域の中心におけるエネルギの集中度が低い帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定するステップを含んでいる請求項1記載の方法。
  5. 前記除去するステップは、各ギャップについて2つの隣接した帯域エッジの周波数値を調節するステップを含んでおり、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは高い周波数を有する隣接した帯域の帯域エネルギであり、yは低い周波数を有する隣接した帯域の帯域エネルギである請求項1記載の方法。
  6. 前記除去するステップは、各ギャップについて2つの隣接した帯域エッジの周波数値を調節するステップを含んでおり、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは低い周波数を有する隣接した帯域の合計エネルギに対する低い周波数を有する隣接した帯域の中心高調波のエネルギ比であり、yは高い周波数を有する隣接した帯域の合計エネルギに対する高い周波数を有する隣接した帯域の中心高調波のエネルギ比である請求項1記載の方法。
  7. 入力されたスピーチフレームのプロトタイプの周波数スペクトルを分割するように構成されたスピーチコーダにおいて、
    周波数スペクトルを複数のセグメントに分割する手段と、
    各セグメントに複数の帯域を割当てる手段と、
    各セグメントに対して、それぞれのセグメントの複数の帯域について1組の帯域幅を設定する手段とを具備しており、前記設定する手段は、可変的な帯域幅を特定のセグメント中の複数の帯域に割当てる手段を備えており、前記割当てる手段は、
    ターゲット帯域幅を設定する手段と、
    帯域内の最大高調波番号を決定するために、前に設定された全ての帯域エッジによってカバーされたサーチ範囲を除いて前記フレームのプロトタイプの振幅ベクトルを各帯域についてサーチする手段と、
    各帯域に対して、帯域エッジ間に位置された高調波の合計数が基本周波数により除算された値のターゲット帯域幅に等しくなるように最大高調波番号の付近に帯域エッジを位置させる手段と、
    隣接した帯域エッジ間のギャップを除去する手段とを備えているスピーコーダ。
  8. 前記除去する手段は、各ギャップについてそのギャップを囲んでいる隣接した帯域エッジを2つの隣接した帯域エッジの周波数値の平均に等しくなるように設定する手段を備えている請求項7記載のスピーチコーダ。
  9. 前記除去する手段は、各ギャップについて低いエネルギを有する帯域に対応した隣接した帯域エッジを、高いエネルギを有する帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定する手段を備えている請求項7記載のスピーチコーダ。
  10. 前記除去する手段は、各ギャップについて帯域の中心におけるエネルギの集中度が高い帯域に対応した隣接した帯域エッジを、帯域の中心におけるエネルギの集中度が低い帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定する手段を備えている請求項7記載のスピーチコーダ。
  11. 前記除去するステップは、各ギャップについて2つの隣接した帯域エッジの周波数値を調節する手段を備えており、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは高い周波数を有する隣接した帯域の帯域エネルギであり、yは低い周波数を有する隣接した帯域の帯域エネルギである請求項7記載のスピーチコーダ。
  12. 前記除去する手段は、各ギャップについて2つの隣接した帯域エッジの周波数値を調節する手段を備えており、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは低い周波数を有する隣接した帯域の合計エネルギに対する低い周波数を有する隣接した帯域の中心の高調波のエネルギ比であり、yは高い周波数を有する隣接した帯域の合計エネルギに対する高い周波数を有する隣接した帯域の中心の高調波のエネルギ比である請求項7記載のスピーチコーダ。
  13. スピーチコーダによって処理されている入力されたスピーチフレームからプロトタイプを抽出するように構成されているプロトタイプ抽出装置と、
    前記プロトタイプ抽出装置に結合され、前記プロトタイプの周波数スペクトルを複数のセグメントに分割し、各セグメントに複数の帯域を割当て、各セグメントについて、それぞれのセグメントの複数の帯域について1組の帯域幅を設定するように構成されたプロトタイプ量子化装置とを具備しており、前記プロトタイプ量子化装置はさらに、帯域幅のセットを可変的な帯域幅として特定のセグメント中の複数の帯域に対して設定するように構成されており、
    前記プロトタイプ量子化装置はさらに、ターゲット帯域幅を設定し、帯域内の最大高調波番号を決定するために、前に設定された全ての帯域エッジによってカバーされたサーチ範囲を除いてプロトタイプの振幅ベクトルを各帯域についてサーチし、各帯域に対して、帯域エッジ間に位置された高調波の合計数が基本周波数により除算された値のターゲット帯域幅に等しくなるように最大高調波番号の付近に帯域エッジを位置させ、隣接した帯域エッジ間のギャップを除去することによって可変的な帯域幅を設定するように構成されているスピーチコーダ。
  14. 前記プロトタイプ量子化装置はさらに、各ギャップについてそのギャップを囲んでいる隣接した帯域エッジを2つの隣接した帯域エッジの周波数値の平均に等しくなるように設定することによってギャップを除去するように構成されている請求項13記載のスピーチコーダ。
  15. 前記プロトタイプ量子化装置はさらに、各ギャップについて低いエネルギを有する帯域に対応した隣接した帯域エッジを、高いエネルギを有する帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定することによってギャップを除去するように構成されている請求項13記載のスピーチコーダ。
  16. 前記プロトタイプ量子化装置はさらに、各ギャップについて帯域の中心におけるエネルギの集中度が高い帯域に対応した隣接した帯域エッジを、帯域の中心におけるエネルギの集中度が低い帯域に対応した隣接した帯域エッジの周波数値に等しくなるように設定することによってギャップを除去するように構成されている請求項13記載のスピーチコーダ。
  17. 前記プロトタイプ量子化装置はさらに、各ギャップについて2つの隣接した帯域エッジの周波数値を調節することによってギャップを除去するように構成され、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは高い周波数を有する隣接した帯域の帯域エネルギであり、yは低い周波数を有する隣接した帯域の帯域エネルギである請求項13記載のスピーチコーダ。
  18. 前記プロトタイプ量子化装置はさらに、各ギャップについて2つの隣接した帯域エッジの周波数値を調節することによってギャップを除去するように構成され、隣接した帯域エッジの周波数値は、低い周波数を有する隣接した帯域エッジの周波数値の調節に関してx対yの比で調節されている高い周波数を有する帯域に対応し、ここでxは低い周波数を有する隣接した帯域の合計エネルギに対する低い周波数を有する隣接した帯域の中心高調波のエネルギ比であり、yは高い周波数を有する隣接した帯域の合計エネルギに対する高い周波数を有する隣接した帯域の中心高調波のエネルギ比である請求項13記載のスピーチコーダ。
  19. 入力されたスピーチフレームのプロトタイプの周波数スペクトルを分割するための複数の命令を含んでいるプロセッサ読み取り可能な媒体において、
    記複数の命令は、プロセッサに、
    周波数スペクトルを複数のセグメントに分割することと
    各セグメントに複数の帯域を割当てることと
    各セグメントに対して、それぞれのセグメントの複数の帯域について1組の帯域幅を設定することとを実行させることが可能であり、前記設定することは、可変的な帯域幅を特定のセグメント中の複数の帯域に割当てることを含んでおり、前記割当てることは、
    ターゲット帯域幅を設定し、
    帯域内の最大高調波番号を決定するために、前に設定された全ての帯域エッジによってカバーされたサーチ範囲を除いて前記フレームのプロトタイプの振幅ベクトルを各帯域についてサーチし、
    各帯域に対して、帯域エッジ間に位置された高調波の合計数が基本周波数により除算された値のターゲット帯域幅に等しくなるように最大高調波番号の付近に帯域エッジを位置させ、
    隣接した帯域エッジ間のギャップを除去することを含んでいる、プロセッサ読み取り可能な媒体。
JP2001511669A 1999-07-19 2000-07-18 スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置 Expired - Lifetime JP4860860B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/356,861 US6434519B1 (en) 1999-07-19 1999-07-19 Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
US09/356,861 1999-07-19
PCT/US2000/019603 WO2001006494A1 (en) 1999-07-19 2000-07-18 Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder

Publications (3)

Publication Number Publication Date
JP2003527622A JP2003527622A (ja) 2003-09-16
JP2003527622A5 JP2003527622A5 (ja) 2007-10-04
JP4860860B2 true JP4860860B2 (ja) 2012-01-25

Family

ID=23403272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001511669A Expired - Lifetime JP4860860B2 (ja) 1999-07-19 2000-07-18 スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置

Country Status (17)

Country Link
US (1) US6434519B1 (ja)
EP (1) EP1222658B1 (ja)
JP (1) JP4860860B2 (ja)
KR (1) KR100756570B1 (ja)
CN (1) CN1271596C (ja)
AT (1) ATE341073T1 (ja)
AU (1) AU6353700A (ja)
BR (1) BRPI0012543B1 (ja)
CA (1) CA2380992A1 (ja)
DE (1) DE60030997T2 (ja)
ES (1) ES2276690T3 (ja)
HK (1) HK1058427A1 (ja)
IL (1) IL147571A0 (ja)
MX (1) MXPA02000737A (ja)
NO (1) NO20020294L (ja)
RU (1) RU2002104020A (ja)
WO (1) WO2001006494A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819623B1 (ko) * 2000-08-09 2008-04-04 소니 가부시끼 가이샤 음성 데이터의 처리 장치 및 처리 방법
KR100383668B1 (ko) * 2000-09-19 2003-05-14 한국전자통신연구원 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
ATE320651T1 (de) * 2001-05-08 2006-04-15 Koninkl Philips Electronics Nv Kodieren eines audiosignals
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7275084B2 (en) * 2002-05-28 2007-09-25 Sun Microsystems, Inc. Method, system, and program for managing access to a device
US7130434B1 (en) 2003-03-26 2006-10-31 Plantronics, Inc. Microphone PCB with integrated filter
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US7860721B2 (en) * 2004-09-17 2010-12-28 Panasonic Corporation Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality
FR2884989A1 (fr) * 2005-04-26 2006-10-27 France Telecom Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
DE102007023683A1 (de) * 2007-05-22 2008-11-27 Cramer, Annette, Dr. Verfahren zur individuellen und gezielten Klangbeaufschlagung einer Person und Vorrichtung zur Durchführung des Verfahrens
CN102724518B (zh) * 2012-05-16 2014-03-12 浙江大华技术股份有限公司 一种高清视频信号传输方法与装置
US9224402B2 (en) * 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL76283A0 (en) * 1985-09-03 1986-01-31 Ibm Process and system for coding signals
ES2164640T3 (es) * 1991-08-02 2002-03-01 Sony Corp Codificador digital con asignacion dinamica de bits de cuantificacion.
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
DE4316297C1 (de) * 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Frequenzanalyseverfahren
US5574823A (en) 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5684926A (en) 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
FR2766032B1 (fr) 1997-07-10 1999-09-17 Matra Communication Codeur audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法

Also Published As

Publication number Publication date
NO20020294D0 (no) 2002-01-18
WO2001006494A1 (en) 2001-01-25
NO20020294L (no) 2002-02-22
CN1271596C (zh) 2006-08-23
JP2003527622A (ja) 2003-09-16
IL147571A0 (en) 2002-08-14
DE60030997D1 (de) 2006-11-09
KR100756570B1 (ko) 2007-09-07
EP1222658B1 (en) 2006-09-27
US6434519B1 (en) 2002-08-13
KR20020033736A (ko) 2002-05-07
RU2002104020A (ru) 2003-08-27
AU6353700A (en) 2001-02-05
DE60030997T2 (de) 2007-06-06
EP1222658A1 (en) 2002-07-17
ATE341073T1 (de) 2006-10-15
BRPI0012543B1 (pt) 2016-08-02
CN1451154A (zh) 2003-10-22
MXPA02000737A (es) 2002-08-20
BR0012543A (pt) 2003-07-01
HK1058427A1 (en) 2004-05-14
CA2380992A1 (en) 2001-01-25
ES2276690T3 (es) 2007-07-01

Similar Documents

Publication Publication Date Title
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
JP5037772B2 (ja) 音声発話を予測的に量子化するための方法および装置
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
US6324503B1 (en) Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
WO2001006493A1 (en) Spectral magnitude quantization for a speech coder
JP4860860B2 (ja) スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100825

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111104

R150 Certificate of patent or registration of utility model

Ref document number: 4860860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term