JP4860859B2 - 位相スペクトル情報をサブサンプリングする方法および装置 - Google Patents
位相スペクトル情報をサブサンプリングする方法および装置 Download PDFInfo
- Publication number
- JP4860859B2 JP4860859B2 JP2001511667A JP2001511667A JP4860859B2 JP 4860859 B2 JP4860859 B2 JP 4860859B2 JP 2001511667 A JP2001511667 A JP 2001511667A JP 2001511667 A JP2001511667 A JP 2001511667A JP 4860859 B2 JP4860859 B2 JP 4860859B2
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- frame
- speech coder
- phase
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000003595 spectral effect Effects 0.000 title description 9
- 239000013598 vector Substances 0.000 claims abstract description 106
- 230000010363 phase shift Effects 0.000 claims abstract description 32
- 238000013139 quantization Methods 0.000 claims description 70
- 238000004891 communication Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 13
- 230000002596 correlated effect Effects 0.000 claims 2
- 238000001228 spectrum Methods 0.000 abstract description 24
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000000354 decomposition reaction Methods 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- NLVFBUXFDBBNBW-PBSUHMDJSA-N tobramycin Chemical compound N[C@@H]1C[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N NLVFBUXFDBBNBW-PBSUHMDJSA-N 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
Description
【発明の属する技術分野】
本発明は一般にスピーチ処理の分野に関し、とくにスピーチコーダによって送信される位相スペクトル情報をサブサンプリングする方法および装置に関する。
【0002】
【従来の技術】
デジタル技術による音声の伝送は、とくに長距離およびデジタル無線電話適用において広まってきている。このために、再構成されたスピーチの知覚される品質を維持しながらチャンネルによって送信されることのできる最少量の情報を決定することに関心が持たれてきている。単にサンプリングしてデジタル化するだけでスピーチが送信された場合、通常のアナログ電話のスピーチ品質を達成するには64キロビット/秒(kbps)程度のデータレートが必要である。しかしながら、適切な符号化、伝送および受信機での再合成が後続するスピーチ解析を使用することによってデータレートを著しく減少させることが可能である。
【0003】
スピーチを圧縮する装置は多くの通信分野で使用されている。例示的な分野は無線通信である。無線通信の分野には、たとえば、コードレス電話、ページング、無線ローカルループ、セルラーおよびPCS電話システムのような無線電話、移動インターネットプロトコル(IP)電話、ならびに衛星通信システムを含む多くの適用がある。とくに重用な適用は移動加入者に対する無線電話である。
【0004】
たとえば、周波数分割多重アクセス(FDMA)、時分割多重アクセス(TDMA)および符号分割多元アクセス(CDMA)を含む無線通信システムに対する種々の無線インターフェースが開発されている。それと接続する際に、たとえば Advanced Mobile Phone Service(AMPS)、 Global System for Mobile Communications(GSM)および Interim Standard 95(IS−95)を含む種々の国内および国際規格が制定されている。例示的な無線電話通信システムは符号分割多元アクセス(CDMA)システムである。IS−95規格およびその派生物であるIS95A、ANSI J−STD−008、IS−95B、提案されている第3世代規格であるIS−95CおよびIS−2000等(ここでは、まとめてIS−95と呼ぶ)は、セルラーまたはPCS電話通信システムに対するCDMA無線インターフェースの使用を規定するために米国電気通信工業会(TIA)およびその他のよく知られている規格団体により公布されている。IS=95規格の使用にしたがって実質的に構成された例示的な無線通信システムは、その権利が本出願人に譲渡され、ここで参考文献とされている米国特許第 5,103,459号明細書および第 5,901,307号明細書に記載されている。
【0005】
人間の音声発生のモデルに関連のあるパラメータを抽出することによってスピーチを圧縮する技術を使用する装置はスピーチコーダと呼ばれている。スピーチコーダは入ってきたスピーチ信号を時間のブロック、すなわち解析フレームに分割する。スピーチコーダは一般にエンコーダおよびデコーダを含んでいる。エンコーダは入ってきたスピーチフレームを解析してある適切なパラメータを抽出し、その後そのパラメータを2進表示、すなわち1組のビットまたは2進データパケットに量子化する。そのデータパケットは通信チャンネルによって受信機およびデコーダに伝送される。デコーダはデータパケットを処理し、それらを量子化される前の形態に戻してパラメータを生成し、量子化される前の形態に戻されたパラメータを使用してスピーチフレームを再合成する。
【0006】
スピーチコーダの機能は、デジタル化されたスピーチ信号をスピーチに内在する固有の冗長性を全て除去することによって低ビットレートの信号に圧縮することである。デジタル圧縮は、入力スピーチフレームを1組のパラメータで表し、そのパラメータを1組のビットで表すために量子化を使用することによって行われる。入力スピーチフレームがいくつかのビットNi を有し、スピーチコーダにより生成されたデータパケットが多数のビットNo を有している場合、スピーチコーダによって得られる圧縮係数はCr =Ni /No である。問題は、ターゲットの圧縮係数を獲得しながら、復号されたスピーチの高い音声品質を保持することである。スピーチコーダの性能は(1)スピーチモデル、すなわち上述の解析および合成処理の組合せがどの程度良好に機能するか、および(2)パラメータ量子化処理がNo ビット/フレームのターゲットビットレートでどの程度良好に行われるかに依存する。したがって、スピーチモデルの目的は各フレームに対する少ないパラメータセットによりスピーチ信号の本質、すなわちターゲット音声品質を計算することである。
【0007】
スピーチ信号を表すのに適したパラメータセット(ベクトルを含む)の探索はスピーチコーダの設計においておそらくもっとも重要である。良好なパラメータセットでは、知覚的に正確なスピーチ信号の再構成のために必要なシステム帯域幅が低くなる。ピッチ、信号パワー、スペクトルエンベロープ(またはフォルマント)、振幅スペクトル、および位相スペクトルはスピーチコーディングパラメータの例である。
【0008】
スピーチコーダは時間ドメインコーダとして構成されてもよく、この時間ドメインコーダは、スピーチの小さい[一般に5ミリ秒(ms)のサブフレーム]セグメントを一時に符号化するために高い時間分解能処理を使用することによって時間ドメインスピーチ波形を捕捉しようとする。各サブフレームに対して、技術的に知られている種々のサーチアルゴリズムにより、コードブックスペースから高精度の標本が見出される。その代わりに、スピーチコーダは周波数ドメインコーダとして構成されてもよく、この周波数ドメインコーダは、1組のパラメータ(解析)により入力スピーチフレームの短期間のスピーチスペクトルを捕捉し、対応した合成処理を使用してそのスペクトルパラメータからスピーチ波形を再生しようとする。パラメータ量子化装置は、文献[ A.Gersho & R.M.Gray,Vector Quantization and Signal Compression(1992) ]に記載されている既知の量子化技術にしたがって記憶されたコードベクトル表示でパラメータを表すことによってそれらを保存する。
【0009】
よく知られている時間ドメインスピーチコーダは、ここにおいて全文が参考文献とされている文献[ L.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signals 396-453(1978) ]に記載されているコード励起線形予測(CELP)コーダである。CELPコーダにおいて、スピーチ信号中の短期相関すなわち冗長は、短期フォルマントフィルタの係数を見出す線形予測(LP)解析によって除去される。短期予測フィルタを入来するスピーチフレームに適用することによりLP剰余信号が発生され、この信号は長期予測フィルタパラメータおよび後続的な統計的コードブックによりさらにモデル化され、量子化される。このようにして、CELPコーディングでは時間ドメインスピーチ波形を符号化するタスクがLP短期間フィルタ係数を符号化するタスクと、LP剰余を符号化するタスクとに分割される。時間ドメインコーディングは固定レートで行われる(すなわち、各フレームに対して同数のビットNo を使用して)か、あるいは可変レートで行われる(異なったタイプのフレーム内容に対して異なったビットレートが使用される)ことができる。可変レートコーダは、ターゲット品質を得るために十分なレベルにコーデックパラメータを符号化するために必要なビット量だけを使用することを試みる。例示的な可変レートCELPコーダは、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,414,796号明細書に記載されている。
【0010】
【発明が解決しようとする課題】
CELPコーダのような時間ドメインコーダは一般に、時間ドメインスピーチ波形の正確さを保存するためにフレーム当たりの大きいビット数No に依存する。このようなコーダは一般に、フレーム当たりのビット数No が比較的大きい(たとえば、8kbps以上)ならば優れた音声品質を伝送する。しかしながら、低いビットレート(4kbps以下)では、時間ドメインのコーダは利用可能なビット数が制限されるため、高品質で頑強な性能を保持することができない。低いビットレートでは、コードブックスペースが制限されるために、高レートの商業用での開発が成功している通常の時間ドメインコーダの波形整合能力が除去される。したがって、時間的な改善にもかかわらず、低いビットレートで動作する多くのCELPコーディングシステムは、一般に雑音として特徴付けられる知覚的に大きい歪みの影響を受ける。
【0011】
現在、中程度から低い(すなわち、2.4乃至4kbps以下の範囲の)ビットレートで動作する高品質のスピーチコーダを開発する研究への関心が高まっており、また商業的にも強く必要とされている。適用分野には、無線電話、衛星通信、インターネット電話、種々のマルチメディアおよび音声ストリーミング用、ボイスメールならびに他の音声記憶システムが含まれる。大容量に対する必要性と、パケット損失状況下における頑強な性能に対する要求がその推進力である。近年における種々のスピーチコーディング標準化の努力は、低レートのスピーチコーディングアルゴリズムの研究および開発を推し進めたもう1つの直接的な駆動力である。低レートのスピーチコーダは許容可能な適用帯域幅当たりのチャンネル、またはユーザ増加させ、適切なチャンネルコーディングの付加的な層と結合された低レートのスピーチコーダはコーダ仕様の全体的なビット収支に適合し、チャンネルエラー状態下において頑強な性能を得ることができる。
【0012】
スピーチを低ビットレートで効率的に符号化する1つの効果的な技術は、マルチモードコーディングである。例示的なマルチモードコーディング技術は、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許出願第09/217,341号明細書(“ VARIABLE RATE SPEECH CODING”, filed December 21,1998)に記載されている。通常のマルチモードコーダは、異なったタイプの入力スピーチフレームに対して異なったモード、すなわち符号化・復号アルゴリズムを適用する。各モード、すなわち符号化・復号処理は、たとえば有音声スピーチ、無音声スピーチ、移行スピーチ(有音声と無音声との間の)、および背景雑音(非スピーチ)のようなあるタイプのスピーチセグメントを最も効率的な方法で最適に表すようにカストマイズされる。外部の開ループモード決定メカニズムは入力スピーチフレームを検査し、そのフレームに適用すべきモードを決定する。開ループモード決定は一般に、入力フレームからある数のパラメータを抽出し、ある時間およびスペクトル特性に関してそのパラメータを評価し、モード決定をその評価に基づかせることによって行われる。
【0013】
2.4kbps程度のレートで動作するコーディングシステムは一般に本質的にパラメトリックである。すなわち、このようなコーディングシステムは、スピーチ信号のピッチ周期およびスペクトルエンベロープ(またはフォルマント)を規則的なインターバルで記述したパラメータを送信することによって動作する。これらのいわゆるパラメトリックコーダの例はLPボコーダシステムである。
【0014】
LPボコーダは、有音声スピーチ信号をピッチ周期当りの信号パルスでモデル化する。この基本的な技術は、とくにスペクトルエンベロープに関する伝送情報を含むように増強されてもよい。LPボコーダは一般に妥当な性能を提供するが、それらは典型的にバズとして特徴付けられる知覚的に著しい歪みを導入する可能性がある。
【0015】
近年、波形コーダおよびパラメトリックコーダの両者のハイブリッドであるコーダが出現してきた。これらのいわゆるハイブリッドコーダの例はプロトタイプ波形補間(PWI)スピーチコーディングシステムである。PWIスピーチコーディングシステムはまた、プロトタイプピッチ周期(PPP)スピーチコーダとして認識されることができる。PWIスピーチコーディングシステムは有音声スピーチをコード化する効率的な方法を提供する。PWIの基本概念は、代表的なピッチサイクル(プロトタイプ波形)を固定インターバルで抽出し、その記述を送信し、プロトタイプ波形間で補間を行うことによってスピーチ信号を再構成することである。PWI方法はLP残留信号またはスピーチ信号のいずれに関して行われてもよい。例示的なPWIまたはPPPスピーチコーダは、本出願人に権利が譲渡され、全文がここにおいて参考文献とされている米国特許出願第09/217,494号明細書(PERIODIC SPEECH CODING,filed December 21,1998 )に記載されている。別のPWIまたはPPPスピーチコーダは、米国特許第 5,884,253号明細書および文献[ W.Bastiaan Kleijn & Wolfgang Granzow“ Methods for Waveform Interpolation in Speech Coding, ”in 1 Digital Signal Processing 215-230(1991)] に記載されている。
【0016】
多くの通常のスピーチコーダでは、所定のピッチプロトタイプの位相パラメータはエンコーダによってそれぞれ個々に量子化されて送信される。その代わり、位相パラメータは、帯域幅を保存するために量子化されたベクトルであってもよい。しかしながら、低ビットレートのスピーチコーダでは、満足できる音声品質を維持するために可能な最少数のビットを送信することが有効である。このために、いくつかの通常のスピーチコーダにおいて、位相パラメータはエンコーダにより全く送信されない可能性があり、またそのデコーダは再構成のために位相を使用しないか、あるいはある固定され、記憶された位相パラメータセットを使用する可能性がある。いずれの場合も、結果的に得られる音声品質は低下する可能性がある。したがって、位相スペクトル情報をエンコーダからデコーダに送信するために必要なエレメントの数を減少させ、それによって送信される位相情報を減少させる低ビットレートのスピーチコーダを提供することが望ましい。したがって、送信されるフレーム当たりの位相パラメータが減少されたスピーチコーダが必要とされている。
【0017】
【課題を解決するための手段】
本発明は、送信されるフレーム当たりの位相パラメータが減少されたスピーチコーダに関する。したがって、本発明の1つの特徴において、スピーチコーダにおいてフレームのプロトタイプを処理する方法は、基準プロトタイプの複数の位相パラメータを生成し、プロトタイプの複数の位相パラメータを発生させ、プロトタイプの位相パラメータを基準プロトタイプの位相パラメータと複数の周波数帯域において相関させるステップを有効に含んでいる。
【0018】
本発明の別の特徴において、スピーチコーダにおいてフレームのプロトタイプを処理する方法は、基準プロトタイプの複数の位相パラメータを生成し、プロトタイプに関連した複数の線形位相シフト値を発生させ、その位相パラメータとその線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって形成するステップを有効に含んでいる。
【0019】
本発明のさらに別の特徴において、スピーチコーダにおいてフレームのプロトタイプを処理する方法は、プロトタイプに関連した複数の円回転値を生成し、複数のバンドパス波形を複数の周波数帯域で発生させ、その複数のバンドパス波形が基準プロトタイプの複数の位相パラメータと関連させられ、複数のバンドパス波形を複数の円回転値に基づいて修正するステップを有効に含んでいる。
【0020】
本発明の別の特徴において、スピーチコーダは、フレームの基準プロトタイプの複数の位相パラメータを生成する手段と、現在のフレームの現在のプロトタイプの複数の位相パラメータを発生させる手段と、現在のプロトタイプの位相パラメータを基準プロトタイプの位相パラメータと複数の周波数帯域において相関させる手段とを有効に備えている。
【0021】
本発明のさらに別の特徴において、スピーチコーダは、フレームの基準プロトタイプの複数の位相パラメータを生成する手段と、現在のフレームの現在のプロトタイプに関連した複数の線形位相シフト値を発生させる手段と、位相パラメータと線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって形成する手段とを有効に備えている。
【0022】
本発明の別の特徴において、スピーチコーダは、現在のフレームの現在のプロトタイプに関連した複数の円回転値を生成する手段と、フレームの基準プロトタイプの複数の位相パラメータと関連した複数のバンドパス波形を複数の周波数帯域で発生させる手段と、複数のバンドパス波形を複数の円回転値に基づいて修正する手段とを有効に備えている。
【0023】
本発明の別の特徴において、スピーチコーダは、スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、プロトタイプ抽出装置に結合されており、フレームの基準プロトタイプの複数の位相パラメータを生成し、現在のプロトタイプの複数の位相パラメータを発生させ、現在のプロトタイプの位相パラメータを基準プロトタイプの位相パラメータと複数の周波数帯域において相関させるように構成されたプロトタイプ量子化装置とを有効に備えている。
【0024】
本発明のさらに別の特徴において、スピーチコーダは、スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、プロトタイプ抽出装置に結合されており、フレームの基準プロトタイプの複数の位相パラメータを生成し、現在のプロトタイプに関連した複数の線形位相シフト値を発生させ、その位相パラメータとその線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって構成するように構成されたプロトタイプ量子化装置とを有効に備えている。
【0025】
本発明の別の特徴において、スピーチコーダは、スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、プロトタイプ抽出装置に結合されており、現在のプロトタイプに関連した複数の円回転値を生成し、フレームの基準プロトタイプの複数の位相パラメータに関連している複数のバンドパス波形を発生させ、複数の円回転値に基づいて複数のバンドパス波形を修正するように構成されたプロトタイプ量子化装置とを有効に備えている。
【0026】
【発明の実施の形態】
以下に説明する例示的な実施形態は、CDMA無線インターフェースを使用するように構成された無線電話通信システムに属する。しかしながら、当業者は、本発明の特徴を使用するサブサンプリング方法および装置が当業者に知られている広範囲のテクノロジーを使用する種々の通信システムの任意のもので実施することが可能なことを認識するであろう。
図1に示されているように、CDMA無線電話システムは一般に、複数の移動加入者装置10と、複数の基地局12と、基地局制御装置(BSC)14と、および移動装置交換局(MSC)16とを含んでいる。MSC16は、通常の公衆交換電話網(PSTN)18とインターフェースするように構成されている。MSC16はまたBSC14とインターフェースするように構成されている。BSC14はバックホールラインによって基地局12に結合されている。バックホールラインは、たとえば、E1/T1、ATM、IP、PPP、フレームリレー、HDSL、ADSL、またはxDSL等を含むいくつかの既知のインターフェースの任意のものをサポートするように構成されている。2以上のBSC14がそのシステム内に存在していてもよいことが認識される。各基地局12は、無指向性アンテナまたは基地局12から半径方向の特定の方向に向けられたアンテナをそれぞれ含んでいる1以上のセクタ(示されていない)を含んでいることが有効である。その代わりに、各セクタは2個のダイバーシティ受信用アンテナを備えていてもよい。各基地局12は、複数の周波数割当てをサポートするように都合よく設計されることができる。セクタと周波数割当ての交差点をCDMAチャンネルと呼ぶことができる。基地局12はまた基地局トランシーバサブシステム(BTS)12として知られている。その代わりに“基地局”はBSC14および1以上のBTS12をまとめて呼ぶために工業的に使用されてもよい。BTS12はまた“セルサイト”12と呼ばれることもある。その代わりに、所定のBTS12の個々のセクタはセルサイトと呼ばれてもよい。移動加入者装置10は一般に、セルラーまたはPCS電話機10である。そのシステムは、IS−95規格にしたがって使用されるように構成されるのがよい。
【0027】
セルラー電話システムの一般的な動作中、基地局12は移動装置10のセットから逆方向リンク信号のセットを受信する。移動装置10は電話呼またはその他の通信を処理する。所定の基地局12によって受信された各逆方向リンク信号は、基地局12内で処理される。結果的に得られたデータはBSC14に転送される。BSC14は、基地局12間におけるソフトハンドオフの編成を含む呼リソース割当ておよび移動性管理機能を行う。BSC14はまた受信されたデータをMSC16に導き、そのMSC16はPSTN18とのインターフェース用の付加的な経路設定サービスを行う。同様に、PSTN18はMSC16とインターフェースし、MSC16はBSC14とインターフェースし、このBSC14が基地局12を制御して順方向リンク信号のセットを移動装置10のセットに送信する。
【0028】
図2に示されているように、第1のエンコーダ100 はデジタル化されたスピーチサンプルs(n)を受取り、伝送媒体102 すなわち通信チャンネル102 により第1のデコーダ104 に送信するためにそのサンプルを符号化する。デコーダ104 は符号化されたスピーチサンプルを復号し、出力スピーチ信号sSYNTH (n)を合成する。逆方向に送信するために第2のエンコーダ106 がデジタル化されたスピーチサンプルs(n)を符号化し、それが通信チャンネル108 で送信される。第2のデコーダ110 はその符号化されたスピーチサンプルを受取って復号し、合成された出力スピーチ信号sSYNTH (n)を発生させる。
【0029】
スピーチサンプルs(n)は、たとえば、パルス符号変調(PCM)、圧伸μ法則またはA法則を含む技術的に知られている種々の方式の任意のものにしたがってデジタル化されて量子化されたスピーチ信号を意味する。技術的に知られているように、スピーチサンプルs(n)は、各フレームが予め定められた数のデジタル化されたスピーチサンプルs(n)を含む入力データのフレームに構成される。例示的な実施形態において、160個のサンプルを含む20m秒のフレームによって8kHzのサンプリングレートが使用される。以下に説明する実施形態において、データ伝送レートは13.2kbps(フルレート)から6.2kbps(1/2レート)、2.6bps(1/4レート)、1bps(1/8レート)にフレーム単位で都合よく変更されてもよい。データ伝送レートの変更は有効である。それは、比較的少量のスピーチ情報を含むフレームに対して低いビットレートを選択的に使用することができるからである。当業者によって認識されるように、別のサンプリングレート、フレームサイズおよびデータ伝送レートを使用することができる。
【0030】
第1のエンコーダ100 と第2のデコーダ110 は第1のスピーチコーダ、すなわちスピーチコーデックを構成している。スピーチコーダは、スピーチ信号を送信するために、たとえば図1を参照して上述した加入者装置、BTS、またはBSCを含む任意の通信装置において使用されることができる。同様に第2のエンコーダ106 と第1のデコーダ104 は第2のスピーチコーダを構成している。当業者によって認識されるように、スピーチコーダはデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散型ゲート論理装置、ファームウェア、あるいは任意の通常のプログラム可能なソフトウェアモジュールおよびマイクロプロセッサにより構成されてもよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタまたはその他の任意の形態の技術的に知られている記憶媒体であることができる。その代わりに、任意の通常のプロセッサ、制御装置または状態マシンがマイクロプロセッサの代わりに使用されることができる。スピーチコーディングのためにとくに設計された例示的なASICは、それらの権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,727,123号明細書および米国特許出願第08/197,417号明細書(“VOCODER ASIC”,filed February 16 1994 )に記載されている。
【0031】
図3において、スピーチコーダにおいて使用されることのできるエンコーダ200 は、モード決定モジュール202 と、ピッチ評価モジュール204 と、LP解析モジュール206 と、LP解析フィルタ208 と、LP量子化モジュール210 と、および剰余量子化モジュール212 とを備えている。入力スピーチフレームs(n)はモード決定モジュール202 、ピッチ評価モジュール204 、LP解析モジュール206 、およびLP解析フィルタ208 に供給される。モード決定モジュール202 は、各入力スピーチフレームs(n)の特徴である周期性、エネルギ、信号対雑音比(SNR)、またはゼロ交差レートにとくに基づいてモード指標IM およびモードMを生成する。周期性にしたがってスピーチフレームを分類する種々の方法は、その権利が本出願人に譲渡され、全文がここにおいて参考文献とされている米国特許第 5,911,128号明細書に記載されている。このような方法はまた米国電気通信工業会の工業暫定規格TIA/EIA IS−127およびTIA/EIA IS−733に含まれている。例示的なモード決定方式はまた、上述の米国特許出願第09/217,341号明細書に記載されている。
【0032】
ピッチ評価モジュール204 は、各入力スピーチフレームs(n)に基づいてピッチ指標IP および遅延値P0 を生成する。LP解析モジュール206 は各入力スピーチフレームs(n)に関して線形予測解析を行ってLPパラメータaを発生させる。LPパラメータaはLP量子化モジュール210 に供給される。LP量子化モジュール210 はまたモードMを受取り、それによって量子化処理をモード依存方式で行う。LP量子化モジュール210 はLP指標ILPおよび量子化されたLPパラメータ:
【数1】
を生成する。LP解析フィルタ208 は入力スピーチフレームs(n)に加えて、量子化されたLPパラメータ^aを受取る。LP解析フィルタ208 はLP剰余信号R[n]を発生し、これは入力スピーチフレームs(n)と量子化された線形予測されたパラメータ^aに基づいて再構成されたスピーチとの間のエラーを表す。LP剰余信号R[n]、モードMおよび量子化されたLPパラメータ^aは剰余量子化モジュール212 に供給される。これらの値に基づいて、剰余量子化モジュール212 は剰余指標IR および量子化された剰余信号^R[n]を生成する。
【0033】
図4において、スピーチコーダにおいて使用されることのできるデコーダ300 はLPパラメータデコードモジュール302 と、剰余デコードモジュール304 と、モードデコードモジュール306 と、およびLP合成フィルタ308 とを含んでいる。モードデコードモジュール306 はモード指標IM を受取って復号し、モードMをそこから発生させる。LPパラメータデコードモジュール302 はモードMとLP指標ILPを受取る。LPパラメータデコードモジュール302 は受取った値を復号して、量子化されたLPパラメータ^aを生成する。剰余デコードモジュール304 は剰余指標IR と、ピッチ指標I Pと、およびモード指標I Mとを受取る。剰余デコードモジュール304 は受取った値を復号して、量子化された剰余信号^R[n]を発生させる。量子化された剰余信号^R[n]および量子化されたLPパラメータ^aはLP合成フィルタ308 に供給され、このLP合成フィルタ308 が復号された出力スピーチ信号^s[n]をこれらから合成する。
【0034】
図3のエンコーダ300 および図4のデコーダ400 の種々のモジュールの動作および構成は技術的に知られており、上述した米国特許第 5,414,796号明細書および文献[L.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signal,396-453(1978)] に記載されている。
【0035】
図5のフローチャートに示されているように、1実施形態によるスピーチコーダは、スピーチサンプルを送信のために処理するときに1組のステップを行う。ステップ400 において、スピーチコーダはスピーチ信号のデジタルサンプルを連続したフレームで受取る。スピーチコーダは所定のフレームを受信することによってステップ402 に進む。ステップ402 において、スピーチコーダはそのフレームのエネルギを検出する。エネルギはフレームのスピーチアクティビティの尺度である。スピーチ検出はデジタル化されたスピーチサンプルの振幅の2乗を合計し、結果的に得られたエネルギをしきい値と比較することによって行われる。1実施形態では、しきい値は変化している背景雑音レベルに基づいて適合される。例示的な可変しきい値スピーチ活動検出器は、上述の米国特許第 5,414,796号明細書に記載されている。ある無音声スピーチ音は、誤って背景雑音として符号化される可能性のある著しく低いエネルギのサンプルである可能性が高い。これが発生しないようにするために、上述の米国特許第 5,414,796号明細書に記載されているように、無音声スピーチを背景雑音から弁別するために低エネルギサンプルのスペクトル傾斜が使用されてもよい。
【0036】
フレームのエネルギを検出した後、スピーチコーダはステップ404 に進む。ステップ404 において、スピーチコーダは、検出されたフレームがスピーチ情報を含むものとしてフレームを分類するのに十分なエネルギを有しているか否かを決定する。検出されたフレームのエネルギが予め定められたしきい値レベルより低い場合、スピーチコーダはステップ406 に進む。ステップ406 において、スピーチコーダはフレームを背景雑音(すなわち。非スピーチ、または沈黙)として符号化する。1実施形態では、背景雑音フレームは1/8レートすなわち1kbpsで符号化される。ステップ404 において、検出されたフレームのエネルギが予め定められたしきい値レベル以上である場合、そのフレームはスピーチとして分類され、スピーチコーダはステップ408 に進む。
【0037】
ステップ408 において、スピーチコーダは、そのフレームが無音声スピーチであるかどうかを決定する。すなわち、スピーチコーダはそのフレームの周期性を検査する。種々の既知の周期性決定方法には、たとえば、ゼロ交差の使用および正規化された自己相関関数(NACF)の使用が含まれている。とくにゼロ交差およびNACFを使用した周期性の検出は、米国特許第 5,911,128号明細書および米国特許出願第09/217,341号明細書に記載されている。さらに、有音声スピーチを無音声スピーチから弁別するために使用されている上記の方法は、米国電気通信工業会の暫定規格TIA/EIA IS−127およびTIA/EIA IS−733に含まれている。ステップ408 においてフレームが無音声スピーチであると決定された場合、スピーチコーダはステップ410 に進む。ステップ410 において、スピーチコーダはフレームを無音声スピーチとして符号化する。1実施形態において、無音声スピーチフレームは1/4レートすなわち2.6kbpsで符号化される。ステップ408 においてフレームが無音声スピーチではないと決定された場合、スピーチコーダはステップ412 に進む。
【0038】
ステップ412 において、スピーチコーダは、たとえば上記の米国特許第 5,911,128号明細書に記載されているような、技術的に知られている周期性決定方法を使用して、そのフレームが移行スピーチであるかどうかを決定する。そのフレームが移行スピーチであると決定された場合、スピーチコーダはステップ414 に進む。ステップ414 において、フレームは移行スピーチ(すなわち、無音声スピーチから有音声スピーチへの移行)として符号化される。1実施形態では、移行スピーチフレームは、本出願人にその権利が譲渡され、ここにおいて全文が参考文献とされている米国特許出願第09/307,294号明細書(MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES,filed May 7,1999)に記載されているマルチパルス補間符号化方法にしたがって符号化される。別の実施形態では、移行スピーチフレームはフルレート、すなわち13.2kbpsで符号化される。
【0039】
スピーチコーダは、ステップ412 においてフレームは移行スピーチではないと決定した場合、そのフレームを有音声スピーチとして符号化する。1実施形態において、有音声スピーチフレームは1/2レート、すなわち6.2kbpsで符号化されることができる。有音声スピーチフレームはフルレート、すなわち13.2kbpsで(8kのCELPコーダではフルレート、すなわち8kbpsで)符号化されることもできる。しかしながら、当業者に認識されるように、1/2レートで有音声フレームを符号化することにより、コーダは有音声フレームの定常状態の性質を利用することにより貴重な帯域幅を節約することが可能になる。さらに、有音声スピーチを符号化するために使用されるレートと関係なく、有音声スピーチは過去のフレームからの情報を使用して有効にコード化され、したがって、予測的に符号化されると言える。
【0040】
当業者は、スピーチ信号または対応したLP剰余のいずれも図5に示されているステップを行うことによって符号化されることができることを認識するであろう。雑音、無音声、移行および有音声スピーチの波形特性は、図6のAのグラフにおいて時間の関数として示されている。雑音、無音声、移行および有音声LP剰余の波形特性は、図6のBのグラフにおいて時間の関数として示されている。
【0041】
1実施形態において、プロトタイプピッチ周期(PPP)スピーチコーダ500 は図7に示されているように反転フィルタ502 と、プロトタイプ抽出装置504 と、プロトタイプ量子化装置506 と、プロトタイプの量子化から復元する装置508 と、補間/合成モジュール510 と、LPC合成モジュール512 とを備えている。スピーチコーダ500 はDSPの一部分として構成されると都合がよく、また、たとえばPCSまたはセルラー電話システムにおける加入者装置または基地局内、あるいは衛星システムにおける加入者装置またはゲートウェイ内等に設けられてもよい。
【0042】
スピーチコーダ500 において、nをフレーム数としてデジタル化されたスピーチ信号s(n)は、反転LPフィルタ502 に供給される。特定の実施形態では、フレーム長は20m秒である。反転フィルタの伝達関数A(z)は以下の式にしたがって計算される:
A(z)=1−a1 z-1−a2 z-2−…−ap z-p,
ここで、係数aI は、ここにおいて共に参考文献とされている米国特許第 5,414,796号明細書および米国特許出願第09/217,494号明細書に記載されているように既知の方法にしたがって選択された予め定められた値を有するフィルタタップである。数pは、反転LPフィルタ502 が予測のために使用している前のサンプルの数を示す。特定の実施形態において、pは10に設定されている。
【0043】
反転フィルタ502 はLP剰余信号r(n)をプロトタイプ抽出装置504 に供給する。プロトタイプ抽出装置504 はプロトタイプを現在のフレームから抽出する。このプロトタイプは、デコーダにおいてLP剰余信号を再構成するためにフレーム内に同様に位置された前のフレームからのプロトタイプが補間/合成モジュール510 により線形的に補間される現在のフレームの一部分である。
【0044】
プロトタイプ抽出装置504 はプロトタイプをプロトタイプ量子化装置506 に供給し、このプロトタイプ量子化装置506 は図8を参照して以下に説明される技術にしたがってプロトタイプを量子化する。量子化された値は、ルックアップテーブル(示されていない)から得られてもよく、チャンネルによって送信するための遅延およびその他のコードブックパラメータを含むパケットに組立てられる。パケットは送信機(示されていない)に供給され、チャンネルによって受信機(示されていない)に送信される。反転LPフィルタ502 、プロトタイプ抽出装置504 およびプロトタイプ量子化装置506 は現在のフレームに関するPPP解析を行われたと言われる。
【0045】
受信機はパケットを受信し、そのパケットをプロトタイプ量子化装置508 に供給する。このプロトタイプ量子化装置508 は、図9を参照して以下に説明される技術にしたがってパケットを量子化される前の状態に戻す。プロトタイプ量子化装置508 は、量子化される前の状態に戻されたプロトタイプを補間/合成モジュール510 に供給する。補間/合成モジュール510 は、現在のフレームのためにLP剰余信号を再構成するためにフレーム内に同様に位置された前のフレームからのプロトタイプをプロトタイプに補間する。補間およびフレーム合成は、米国特許第 5,884,253号明細書および上述された米国特許出願第09/217,494号明細書に記載されている既知の方法にしたがって都合よく行われる。
【0046】
補間/合成モジュール510 は、再構成されたLP剰余信号^r(n)をLPC合成モジュール512 に供給する。LPC合成モジュール512 はまた送信されたパケットから線形スペクトル対(LSP)値を受取り、これらの値は再構成されたLP剰余信号^r(n)についてLPCフィルタ処理を行って再構成されたスピーチ信号^s(n)を生成するために使用される。別の実施形態では、スピーチ信号^s(n)のLPC合成は、現在のフレームの補間/合成を行う前にプロトタイプに対して行われてもよい。プロトタイプ量子化復元装置508 、補間/合成モジュール510 およびLPC合成モジュール512 は現在のフレームのPPP解析を行われたと言われる。
【0047】
1実施形態において、プロトタイプ量子化装置600 は、図8に示されている効率的な送信のためにインテリジェントサブサンプリングを使用してプロトタイプフェーズの量子化を行う。プロトタイプ量子化装置600 は、第1および第2の離散フーリエ級数(DFS)係数計算モジュール602 、604 、第1および第2の分解モジュール606 、608 、帯域識別モジュール610 、振幅ベクトル量子化装置612 、相関モジュール614 ならびに量子化装置616 を含んでいる。
【0048】
プロトタイプ量子化装置600 において、基準プロトタイプが第1のDFS係数計算モジュール602 に供給される。この第1のDFS係数計算モジュール602 は、以下説明するように基準プロトタイプに対するDFS係数を計算し、基準プロトタイプに対するDFS係数を第1の分解モジュール606 に供給する。この第1の分解モジュール606 は、以下説明するように基準プロトタイプに対するDFS係数を振幅および位相ベクトルに分解する。第1の分解モジュール606 は、その振幅および位相ベクトルを相関モジュール614 に供給する。
【0049】
現在のプロトタイプは、第2のDFS係数計算モジュール604 に供給される。この第2のDFS係数計算モジュール604 は、以下説明するように現在のプロトタイプに対するDFS係数を計算し、現在のプロトタイプに対するDFS係数を第2の分解モジュール608 に供給する。この第2の分解モジュール608 は、以下説明するように現在のプロトタイプに対するDFS係数を振幅および位相ベクトルに分解する。第2の分解モジュール608 は、その振幅および位相ベクトルを相関モジュール614 に供給する。
【0050】
第2の分解モジュール608 はまた、現在のプロトタイプに対する振幅および位相ベクトルを帯域識別モジュール610 に供給する。この帯域識別モジュール610 は以下説明するように相関させるために周波数帯域を識別し、帯域識別指標を相関モジュール614 に供給する。
【0051】
第2の分解モジュール608 はまた、現在のプロトタイプに対する振幅ベクトルを振幅ベクトル量子化装置612 に供給する。この振幅ベクトル量子化装置612 は以下説明するように現在のプロトタイプに対する振幅ベクトルを量子化し、送信のために振幅量子化パラメータを発生させる。特定の実施形態において、振幅ベクトル量子化装置612 は量子化された振幅値を帯域識別モジュール610 (この接続は簡明化のために図示されていない)および、または相関モジュール614 に供給する。
【0052】
相関モジュール614 は以下説明するように全ての周波数帯域において相関を行って、全ての帯域に対して最適線形位相シフトを決定する。別の実施形態では、以下説明するように全ての帯域に対して最適円回転を決定するために、相互相関がパンドパス信号に関して時間ドメインで行われる。相関モジュール614 は線形位相シフト値を量子化装置616 に供給する。別の実施形態では、相関モジュール614 は円回転値を量子化装置616 に供給する。量子化装置616 は以下説明するように受信された値を量子化して、送信のために位相量子化パラメータを発生させる。
【0053】
1実施形態において、プロトタイプの量子化から復元する装置700 は、図9に示されているようにDFSの構成要素である周波数帯域に関する線形シフトを使用してプロトタイプ位相スペクトルの再構成を行う。プロトタイプの量子化復元装置700 は、DFS係数計算モジュール702 と、反転DFS計算モジュール704 と、分解モジュール706 と、結合モジュール708 と、帯域識別モジュール710 と、振幅ベクトルを量子化から復元する装置712 と、構成モジュール714 と、および位相を量子化から復元する装置716 とを含んでいる。
【0054】
プロトタイプ量子化復元装置700 において、基準プロトタイプはDFS係数計算モジュール702 に供給される。DFS係数計算モジュール702 は以下説明するように基準プロトタイプに対するDFS係数を計算し、その基準プロトタイプに対するDFS係数を分解モジュール706 に供給する。分解モジュール706 は以下説明するようにその基準プロトタイプに対するDFS係数を振幅および位相ベクトルに分解する。分解モジュール706 は基準位相(すなわち、基準プロトタイプに対する位相ベクトル)を構成モジュール714 に供給する。
【0055】
位相量子化パラメータは、位相量子化復元装置716 により受取られる。位相量子化復元装置716 は以下に説明するように受取った位相量子化パラメータを量子化から復元し、線形位相シフト値を発生させる。この位相を量子化から復元する装置716 は線形位相シフト値を分解モジュール714 に供給する。
【0056】
振幅ベクトル量子化パラメータは、振幅ベクトル量子化復元装置712 により受取られる。振幅ベクトル量子化復元装置712 は以下説明するように受取った振幅量子化パラメータを量子化から復元し、量子化から復元された振幅値を発生させる。この振幅量子化復元装置712 は量子化から復元された振幅値を結合モジュール708 に供給する。振幅ベクトル量子化復元装置712 はまた量子化から復元された振幅値を帯域識別モジュール710 に供給する。帯域識別モジュール710 は以下説明するように結合のために周波数帯域を識別し、帯域識別指標を構成モジュール714 に供給する。
【0057】
構成モジュール714 は、以下説明するように基準位相および線形位相シフト値から修正された位相ベクトルを構成する。構成モジュール714 は修正された位相ベクトル値を結合モジュール708 に供給する。
【0058】
結合モジュール708 は以下説明するように量子化から復元された振幅値および位相値を結合し、再構成された修正されたDFS係数ベクトルを発生させる。結合モジュール708 は結合された振幅および位相ベクトルを反転DFS計算モジュール704 に供給する。反転DFS計算モジュール704 は以下説明するように再構成された修正されたDFS係数ベクトルの反転DFSを計算し、再構成された現在のプロトタイプを発生させる。
【0059】
1実施形態において、プロトタイプ量子化復元装置800 は、図9に示されているようにエンコーダにおけるプロトタイプ波形の構成要素であるバンドパス波形について時間ドメインで行われた円回転を使用してプロトタイプ位相スペクトルの再構成を行う。プロトタイプ量子化復元装置800 はDFS係数計算モジュール802 、バンドパス波形合計装置804 、分解モジュール806 、反転DFS/バンドパス信号生成モジュール808 、帯域識別モジュール810 、振幅ベクトル量子化復元装置812 、構成モジュール814 および位相量子化復元装置816 を含んでいる。
【0060】
プロトタイプ量子化復元装置800 において、基準プロトタイプはDFS係数計算モジュール802 に供給される。DFS係数計算モジュール802 は以下説明するように基準プロトタイプに対するDFS係数を計算し、基準プロトタイプに対するDFS係数を分解モジュール806 に供給する。分解モジュール806 は以下説明するように基準プロトタイプに対するDFS係数を振幅および位相ベクトルに分解する。分解モジュール806 は基準位相(すなわち、基準プロトタイプの位相ベクトル)を構成モジュール814 に供給する。
【0061】
位相量子化パラメータは、位相量子化復元装置816 によって受取られる。位相量子化復元装置816 は以下説明するように受取った位相量子化パラメータを量子化から復元し、円回転値を発生させる。位相量子化復元装置816 は円回転値を構成モジュール814 に供給する。
【0062】
振幅ベクトル量子化パラメータは、振幅ベクトル量子化復元装置812 によって受取られる。振幅ベクトル量子化復元装置812 は以下説明するように受取った振幅量子化パラメータを量子化から復元し、量子化から復元された振幅値を発生させる。振幅ベクトル量子化復元装置812 は量子化から復元された振幅値を反転DFS/バンドパス信号生成モジュール808 に供給する。振幅ベクトル量子化復元装置812 はまた量子化から復元された振幅値を帯域識別モジュール810 に供給する。帯域識別モジュール810 は以下説明するように結合のために周波数帯域を識別し、帯域識別指標を反転DFS/バンドパス信号生成モジュール808 に供給する。
【0063】
この反転DFS/バンドパス信号生成モジュール808 は各帯域に対する量子化から復元された振幅値と基準位相値を結合し、以下説明するように各帯域に対する反転DFSを使用してその結合からバンドパス信号を計算する。反転DFS/バンドパス信号生成モジュール808 は構成モジュール814 にバンドパス信号を供給する。
【0064】
構成モジュール814 は以下説明するように量子化から復元された円回転値を使用して各バンドパス信号を円回転させ、回転されたバンドパス信号を生成する。構成モジュール814 は修正された回転されたバンドパス信号をバンドパス波形合計装置804 に供給する。バンドパス波形合計装置804 は全てのバンドパス信号を合計して再構成されたプロトタイプを発生させる。
【0065】
図8のプロトタイプ量子化装置600 と図9のプロトタイプ量子化装置700 は正常動作で機能して、プロトタイプピッチ周期波形の位相スペクトルをそれぞれ符号化し、復号する。送信機/エンコーダ(図8)において、現在のフレームのプロトタイプsC (n)の位相スペクトルφk c はDFS表記:
【数2】
を使用して計算される。ここでCk c は現在のプロトタイプの複素DFS係数であり、ω0 c はプロトタイプsC (n)の正規化された基本周波数である。位相スペクトルφk c はDFSを構成する複素係数の角度である。基準プロトタイプの位相スペクトルφk r は同様の方法で計算され、Ck r およびφk r を与える。その代わりに、基準プロトタイプの位相スペクトルφk r は、基準プロトタイプを有するフレームが処理された後で記憶されたものであり、記憶装置から検索されるに過ぎない。特定の実施形態において、基準プロトタイプは前のフレームからのプロトタイプである。基準フレームおよび現在のフレームの両方からの両プロトタイプに対する複素DFSは、式:
【数3】
に示されているように振幅スペクトルおよび位相スペクトルの積として表されることができる。複素DFSもまたベクトルであるため、振幅スペクトルおよび位相スペクトルはベクトルであることを認識しなければならない。DFSベクトルの各要素は対応したプロトタイプの時間期間の逆数に等しい周波数の高調波である。最大周波数がFm Hz(少なくとも2Fm Hzのレートでサンプリングされた)であり、高調波振動数がFo Hzの信号に関して、M個の高調波が存在する。高調波の数MはFm/Foに等しい。したがって、各プロトタイプの位相スペクトルベクトルおよび振幅スペクトルベクトルはM個の要素から構成されている。
【0066】
現在のプロトタイプのDFSベクトルはB個の帯域幅に分割され、B個の各帯域幅に対応した時間信号はバンドパス信号である。帯域の数Bは高調波の数Mより少ないように制限される。B個のバンドパス時間信号を全て合計することによって元の現在のプロトタイプが得られる。同様に、基準プロトタイプに対するDFSベクトルもまた同数のB個の帯域に分割される。
【0067】
B個の各帯域に関して、基準プロトタイプに対応したバンドパス信号と現在のプロトタイプに対応したバンドパス信号との間で相互相関が行われる。相互相関は周波数ドメインのDFSベクトルに関して行われることができる:
【数4】
相互相関はまた式:
【数5】
にしたがって対応した時間ドメインのバンドパス信号に関して行われてもよい(たとえば、図10の量子化復元装置800 により)。ここでLは現在のプロトタイプのサンプルの長さであり、ω0 r およびω0 c はそれぞれ基準プロトタイプおよび現在のプロトタイプの正規化された基本周波数であり、ri はサンプルの円回転である。帯域bI に対応したバンドパス時間ドメイン信号Sbi r (n)およびSbi c (n)はそれぞれ次式で与えられる:
【数6】
【0068】
1実施形態において、式:
【数7】
で示されるようにCk c を得るために量子化された振幅ベクトル^Ak c が使用される。基準プロトタイプのバンドパスDFSベクトルの全ての可能な線形位相シフトに対して相互相関が行われる。その代わりに、基準プロトタイプのバンドパスDFSベクトルの全ての可能な線形位相シフトのサブセットに対して相互相関が行われてもよい。別の実施形態では、時間ドメインアプローチが使用され、基準プロトタイプのバンドパス時間信号の全ての可能な円回転に対して相互相関が行われる。1実施形態において、基準プロトタイプのバンドパス時間信号の全ての可能な円回転のサブセットに対して相互相関が行われてもよい。相互相関プロセスにより、B個の各帯域に対する相互相関の最大値に対応したB個の線形位相シフト(あるいは、時間ドメインにおいてバンドパス時間信号に関して相互相関が行われる実施形態では、B個の円回転)が発生される。その後、B個の線形位相シフト(あるいは別の実施形態では、B個の円回転)が量子化され、M個の元の位相スペクトルベクトル要素の代わりに位相スペクトルを表すものとして送信される。振幅スペクトルベクトルは別々に量子化され、送信される。したがって、基準プロトタイプのバンドパスDFSベクトル(またはバンドパス時間信号)は、現在のフレームのプロトタイプの対応したDFSベクトル(またはバンドパス時間信号)を符号化するためのコードブックとして都合よく機能する。したがって、位相情報を量子化して送信するために必要な要素の数は少なくなり、それによって結果的に位相情報のサブサンプリングが行われ、送信が効率的に行われる。これは、ビットが不十分なために、位相情報がその多量の位相要素によりほとんど量子化されず、あるいは位相情報が全く送信されず、その結果いずれも品質の低下を招いてしまう低ビットレートスピーチコーディングにおいてとくに有益である。上述した実施形態により、量子化すべき要素が少なくなるために、低ビットレートコーダは優れた音声品質を維持することが可能となる。
【0069】
受信機/デコーダ(図9)(および当業者に認識されるように、デコーダのエンコーダのコピー)において、B個の線形位相シフト値が基準プロトタイプのB帯域分割されたDFSベクトルのデコーダのコピーに適用され、修正されたプロトタイプDFS位相ベクトル:
【数8】
を発生させる。その後、修正されたDFSベクトルは受取られて復号された振幅スペクトルベクトルと修正されたプロトタイプDFS位相ベクトルの積として得られる。その後、再構成されたプロトタイプは修正されたDFSベクトルに関する反転DFS動作を使用して構成される。時間ドメインアプローチが使用される別の実施形態において、B個の各帯域に対する振幅スペクトルベクトルおよび同数のB個の帯域に対する基準プロトタイプの位相ベクトルが結合され、反転DFS動作がその結合に関して行われ、B個のバンドパス時間信号を発生させる。その後、B個のバンドパス時間信号はB個の円回転値を使用して円回転される。B個のバンドパス時間信号の全てが合計されて、再構成されたプロトタイプを発生させる。
【0070】
以上、位相スペクトル情報をサブサンプリングする新しい方法および装置を説明してきた。当業者は、ここに記載の実施形態と関連されて説明されている種々の例証的な論理ブロックおよびアルゴリズムのステップがデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散型ゲートまたはトランジスタ論理装置、たとえばレジスタおよびFIFO等の離散型ハードウェアコンポーネント、1組のファームウェア命令を実行するプロセッサ、あるいは任意の通常のプログラム可能なソフトウェアモジュールおよびプロセッサにより構成され、あるいは行われてもよいことを認識するであろう。プロセッサはマイクロプロセッサであると都合がよいが、別の実施形態ではプロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置、または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、あるいは任意の他の形態の技術的に知られている書込み可能記憶媒体内に設けられることができる。当業者はさらに、上記の説明で引用することのできるデータ、命令、コマンド、情報、信号、ビット、符号、およびチップは、電圧、電流、電磁波、磁界または粒子、あるいは光学フィールドまたは粒子、もしくはそれらの組合せで便利に表わされていることを認識するであろう。
【0071】
以上、本発明の好ましい実施形態を図示および説明してきた。しかしながら、当業者は、ここに開示されている実施形態に対する種々の変更が本発明の技術的範囲を逸脱することなく行われることが可能であることを認識するであろう。したがって、本発明は添付された請求の範囲によってのみ限定される。
【図面の簡単な説明】
【図1】 無線電話システムのブロック図。
【図2】 スピーチコーダによって各端末で終端される通信チャンネルのブロック図。
【図3】 エンコーダのブロック図。
【図4】 デコーダのブロック図。
【図5】 スピーチコーディング決定手順を示すフローチャート。
【図6】 スピーチ信号振幅対時間および線形予測(LP)剰余振幅対時間をそれぞれ示すグラフ。
【図7】 プロトタイプピッチ周期スピーチコーダのブロック図。
【図8】 図7のスピーチコーダで使用されることのできるプロトタイプ量子化装置のブロック図。
【図9】 図7のスピーチコーダで使用されることのできるプロトタイプの量子化から復元する装置のブロック図。
【図10】 図7のスピーチコーダで使用されることのできるプロトタイプの量子化から復元する装置のブロック図。
Claims (77)
- スピーチコーダにおけるフレームのプロトタイプを処理する方法において、
基準プロトタイプの複数の位相パラメータを生成し、
前記フレームのプロトタイプの複数の位相パラメータを発生させ、
前記フレームのプロトタイプの位相パラメータを基準プロトタイプの位相パラメータと複数の周波数帯域において相関させるステップを含んでおり、前記相関させるステップは前記フレームのプロトタイプに対する複数の適切な円回転値を発生させる、方法。 - 生成するステップは、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解するステップを含んでおり、前記発生させるステップは、前記フレームのプロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数を前記フレームのプロトタイプに対する振幅ベクトルおよび位相ベクトルに分解するステップを含んでいる請求項1記載の方法。
- 相関させるステップを行うべき周波数帯域を識別するステップをさらに含んでいる請求項1記載の方法。
- 前記フレームはスピーチフレームである請求項1記載の方法。
- 前記フレームは線形予測剰余のフレームである請求項1記載の方法。
- スピーチコーダにおけるフレームのプロトタイプを処理する方法において、
基準プロトタイプの複数の位相パラメータを生成し、
前記フレームのプロトタイプの複数の位相パラメータを発生させ、
前記フレームのプロトタイプの位相パラメータを基準プロトタイプの位相パラメータと複数の周波数帯域において相関させるステップを含んでおり、
相関させるステップは、前記フレームのプロトタイプに対する複数の適切な線形位相シフト値を発生させる、方法。 - 円回転値を量子化し、前記フレームのプロトタイプに対する複数の振幅パラメータを量子化するステップをさらに含んでいる請求項1記載の方法。
- スピーチコーダにおけるフレームのプロトタイプの処理方法において、
基準プロトタイプの複数の位相パラメータを生成し、
前記フレームのプロトタイプに関連した複数の線形位相シフト値を発生させ、
その位相パラメータとその線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって構成するステップを含んでいる、方法。 - 前記生成するステップは、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解するステップを含んでいる請求項8記載の方法。
- 構成するステップを行うべき周波数帯域を識別するステップをさらに含んでいる請求項8記載の方法。
- 前記フレームはスピーチフレームである請求項8記載の方法。
- 前記フレームは線形予測剰余のフレームである請求項8記載の方法。
- 前記発生させるステップにおいて、前記フレームのプロトタイプに関連した複数の量子化された位相パラメータを量子化される前の形態に戻すことによって、複数の線形位相シフト値を発生させる請求項8記載の方法。
- 前記フレームのプロトタイプに関連した複数の振幅量子化パラメータを量子化される前の形態に戻すことによって、複数の量子化される前の形態に戻された振幅パラメータを生成するステップをさらに含んでおり、識別するステップにおいて、帯域は複数の量子化される前の形態に戻された振幅パラメータに基づいて識別される請求項10記載の方法。
- 構成された位相ベクトルを前記フレームのプロトタイプと関連した複数の振幅パラメータと組合せて組合せベクトルを生成し、その組合せベクトルの逆離散フーリエ級数を計算して前記フレームのプロトタイプの再構成されたバージョンを生成するステップをさらに含んでいる請求項8記載の方法。
- スピーチコーダにおけるフレームのプロトタイプの処理方法において、
前記フレームのプロトタイプに関連した複数の円回転値を生成し、
複数のバンドパス波形を複数の周波数帯域において発生させ、その複数のバンドパス波形が基準プロトタイプの複数の位相パラメータと関連されており、
複数のバンドパス波形を複数の円回転値に基づいて修正するステップを含んでいる、方法。 - 発生させるステップを行うべき周波数帯域を識別するステップをさらに含んでいる請求項16記載の方法。
- 前記フレームはスピーチフレームである請求項16記載の方法。
- 前記フレームは線形予測剰余のフレームである請求項16記載の方法。
- 生成するステップにおいて、複数の円回転値を発生させるためにプロトタイプに関連した複数の量子化された位相パラメータが量子化される前の形態に戻される請求項16記載の方法。
- 前記フレームのプロトタイプに関連した複数の振幅量子化パラメータを量子化される前の形態に戻すことによって、複数の量子化される前の形態に戻された振幅パラメータを生成するステップをさらに含んでおり、識別するステップにおいて、帯域は複数の量子化される前の形態に戻された振幅パラメータに基づいて識別される請求項17記載の方法。
- 前記発生させるステップは、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解し、位相ベクトルを複数の量子化される前の形態に戻された振幅パラメータと組合せ、その位相ベクトルの逆離散フーリエ級数を計算して複数のバンドパス波形を発生させるステップを含んでいる請求項21記載の方法。
- 複数の修正されたバンドパス波形を合計してプロトタイプの再構成されたバージョンを生成するステップをさらに含んでいる請求項16記載の方法。
- フレームの基準プロトタイプの複数の位相パラメータを生成する手段と、
現在のフレームの現在のプロトタイプの複数の位相パラメータを発生させる手段と、
現在のプロトタイプの複数の位相パラメータを基準プロトタイプの複数の位相パラメータと複数の周波数帯域において相関させる手段とを具備し、前記相関させる手段は現在のプロトタイプに対する複数の適切な円回転値を発生させる、スピーチコーダ。 - 前記生成する手段は、基準プロトタイプに対する離散フーリエ級数係数を計算する手段と、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解する手段とを含んでおり、発生させる手段は、現在のプロトタイプに対する離散フーリエ級数係数を計算する手段と、その離散フーリエ級数係数をその現在のプロトタイプに対する振幅ベクトルおよび位相ベクトルに分解する手段とを備えている請求項24記載のスピーチコーダ。
- 複数の周波数帯域を識別する手段をさらに含んでいる請求項24記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項24記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項24記載のスピーチコーダ。
- フレームの基準プロトタイプの複数の位相パラメータを生成する手段と、
現在のフレームの現在のプロトタイプの複数の位相パラメータを発生させる手段と、
現在のプロトタイプの複数の位相パラメータを基準プロトタイプの複数の位相パラメータと複数の周波数帯域において相関させる手段とを具備し、
前記相関させる手段は、現在のプロトタイプに対する複数の適切な線形位相シフト値を発生させる、スピーチコーダ。 - 円回転値を量子化する手段と、現在のプロトタイプに対する複数の振幅パラメータを量子化する手段とをさらに含んでいる請求項24記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項24記載のスピーチコーダ。
- フレームの基準プロトタイプの複数の位相パラメータを生成する手段と、
現在のフレームの現在のプロトタイプに関連した複数の線形位相シフト値を発生させる手段と、
複数の位相パラメータと複数の線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって構成する手段とを具備しているスピーチコーダ。 - 前記生成する手段は、基準プロトタイプに対する離散フーリエ級数係数を計算する手段と、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解する手段とを具備している請求項32記載のスピーチコーダ。
- 複数の周波数帯域を識別する手段をさらに具備している請求項32記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項32記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項32記載のスピーチコーダ。
- 前記発生させる手段は、現在のプロトタイプに関連した複数の量子化された位相パラメータを量子化される前の形態に戻すことによって、複数の線形位相シフト値を発生させる手段を含んでいる請求項32記載のスピーチコーダ。
- 現在のプロトタイプに関連した複数の振幅量子化パラメータを量子化される前の形態に戻すことによって、複数の量子化される前の形態に戻された振幅パラメータを生成する手段をさらに含んでおり、識別する手段は、複数の量子化される前の形態に戻された振幅パラメータに基づいて複数の帯域を識別する手段を含んでいる請求項34記載のスピーチコーダ。
- 構成された位相ベクトルを現在のプロトタイプと関連した複数の振幅パラメータと組合せて組合せベクトルを生成する手段と、その組合せベクトルの逆離散フーリエ級数を計算して現在のプロトタイプの再構成されたバージョンを生成する手段とをさらに含んでいる請求項32記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項32記載のスピーチコーダ。
- 現在のフレームの現在のプロトタイプに関連した複数の円回転値を生成する手段と、
フレームの基準プロトタイプの複数の位相パラメータと関連した複数のバンドパス波形を複数の周波数帯域で発生させる手段と、
複数のバンドパス波形を複数の円回転値に基づいて修正する手段とを具備しているスピーチコーダ。 - 複数の周波数帯域を識別する手段をさらに含んでいる請求項41記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項41記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項41記載のスピーチコーダ。
- 前記生成する手段は、複数の円回転値を発生させるために現在のプロトタイプに関連した複数の量子化された位相パラメータを量子化される前の形態に戻す手段を含んでいる請求項41記載のスピーチコーダ。
- 現在のプロトタイプに関連した複数の振幅量子化パラメータを量子化される前の形態に戻すことによって、複数の量子化される前の形態に戻された振幅パラメータを生成する手段をさらに含んでおり、識別する手段は、複数の量子化される前の形態に戻された振幅パラメータに基づいて帯域を識別する手段を含んでいる請求項42記載のスピーチコーダ。
- 前記発生させる手段は、基準プロトタイプに対する離散フーリエ級数係数を計算する手段と、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解する手段と、位相ベクトルを複数の量子化される前の形態に戻された振幅パラメータと組合せる手段と、その位相ベクトルの逆離散フーリエ級数を計算して複数のバンドパス波形を発生させる手段とを含んでいる請求項46記載のスピーチコーダ。
- 複数の修正されたバンドパス波形を合計して現在のプロトタイプの再構成されたバージョンを生成する手段をさらに含んでいる請求項41記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項41記載のスピーチコーダ。
- スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、
プロトタイプ抽出装置に結合され、フレームの基準プロトタイプの複数の位相パラメータを生成し、現在のプロトタイプの複数の位相パラメータを発生させ、現在のプロトタイプの複数の位相パラメータを基準プロトタイプの複数の位相パラメータと複数の周波数帯域において相関させるように構成され、さらに現在のプロトタイプに対する複数の適切な円回転値を発生させるプロトタイプ量子化装置とを具備しているスピーチコーダ。 - プロトタイプ量子化装置はさらに、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解し、現在のプロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその現在のプロトタイプに対する振幅ベクトルおよび位相ベクトルに分解するように構成されている請求項50記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、複数の周波数帯域を識別するように構成されている請求項50記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項50記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項50記載のスピーチコーダ。
- スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、
プロトタイプ抽出装置に結合され、フレームの基準プロトタイプの複数の位相パラメータを生成し、現在のプロトタイプの複数の位相パラメータを発生させ、現在のプロトタイプの複数の位相パラメータを基準プロトタイプの複数の位相パラメータと複数の周波数帯域において相関させるように構成され、さらに、現在のプロトタイプに対する複数の適切な線形位相シフト値を発生させるように構成されているプロトタイプ量子化装置とを具備している、スピーチコーダ。 - プロトタイプ量子化装置はさらに、円回転値を量子化し、現在のプロトタイプに対する複数の振幅パラメータを量子化するように構成されている請求項50記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項50記載のスピーチコーダ。
- スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、
プロトタイプ抽出装置に結合され、フレームの基準プロトタイプの複数の位相パラメータを生成し、現在のプロトタイプに関連した複数の線形位相シフト値を発生させ、その位相パラメータとその線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって形成するように構成され、さらに、現在のプロトタイプに関連される複数の量子化された位相パラメータを量子化される前の形態に戻すことによって、複数の線形位相シフト値を発生させるように構成されているプロトタイプ量子化装置とを具備しているスピーチコーダ。 - プロトタイプ量子化装置はさらに、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解するように構成されている請求項58記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、複数の周波数帯域を識別するように構成されている請求項58記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項58記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項58記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、複数の量子化される前の形態に戻された振幅パラメータを生成するために現在のプロトタイプに関連した複数の振幅量子化パラメータをさらに量子化される前の形態に戻し、複数の量子化される前の形態に戻された振幅パラメータに基づいて複数の帯域を識別するように構成されている請求項60記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、位相ベクトルを現在のプロトタイプと関連した複数の振幅パラメータと組合せて組合せベクトルを生成し、その組合せベクトルの逆離散フーリエ級数を計算して現在のプロトタイプの再構成されたバージョンを生成するように構成されている請求項58記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項58記載のスピーチコーダ。
- スピーチコーダによって処理されている現在のフレームから現在のプロトタイプを抽出するように構成されたプロトタイプ抽出装置と、
プロトタイプ抽出装置に結合され、現在のプロトタイプに関連した複数の円回転値を生成し、フレームの基準プロトタイプの複数の位相パラメータに関連している複数のバンドパス波形を発生させ、複数の円回転値に基づいて複数のバンドパス波形を修正するように構成されているプロトタイプ量子化装置とを具備しているスピーチコーダ。 - プロトタイプ量子化装置はさらに、複数の周波数帯域を識別するように構成されている請求項66記載のスピーチコーダ。
- 現在のフレームはスピーチフレームである請求項66記載のスピーチコーダ。
- 現在のフレームは線形予測剰余のフレームである請求項66記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、複数の円回転値を発生させるために現在のプロトタイプに関連した複数の量子化された位相パラメータを量子化される前の形態に戻すように構成されている請求項66記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、複数の量子化される前の形態に戻された振幅パラメータを生成するために現在のプロトタイプに関連した複数の振幅量子化パラメータを量子化される前の形態に戻し、複数の量子化される前の形態に戻された振幅パラメータに基づいて周波数帯域を識別するように構成されている請求項67記載のスピーチコーダ。
- プロトタイプ量子化装置はさらに、基準プロトタイプに対する離散フーリエ級数係数を計算し、その離散フーリエ級数係数をその基準プロトタイプに対する振幅ベクトルおよび位相ベクトルに分解し、位相ベクトルを複数の量子化される前の形態に戻された振幅パラメータと組合せ、その位相ベクトルの逆離散フーリエ級数を計算して複数のバンドパス波形を発生させるように構成されている請求項71記載のスピーチコー
ダ。 - プロトタイプ量子化装置はさらに、複数の修正されたバンドパス波形を合計して現在のプロトタイプの再構成されたバージョンを生成するように構成されている請求項66記載のスピーチコーダ。
- スピーチコーダは、無線通信システムの加入者装置内に設けられている請求項66記載のスピーチコーダ。
- プロセッサに、
スピーチコーダにおけるフレームの基準プロトタイプの複数の位相パラメータを生成することと、
スピーチコーダにおける現在のフレームの現在のプロトタイプの複数の位相パラメータを発生させることと、
現在のプロトタイプの複数の位相パラメータを基準プロトタイプの複数の位相パラメータと複数の周波数帯域において相関させることとを実行させることが可能な命令を含んでおり、前記相関させることが実行可能である命令は、現在のプロトタイプに対する複数の適切な円回転値を発生させることが実行可能である命令を含んでいる、一過性ではないプロセッサ読取り可能な媒体。 - プロセッサに、
スピーチコーダにおけるフレームの基準プロトタイプの複数の位相パラメータを生成することと、
スピーチコーダにおける現在のフレームの現在のプロトタイプに関連した複数の線形位相シフト値を発生させることと、
複数の位相パラメータと複数の線形位相シフト値から位相ベクトルを複数の周波数帯域にわたって構成することとを実行させることが可能な命令を含んでいる、一過性ではないプロセッサ読取り可能な媒体。 - プロセッサに、
スピーチコーダにおける現在のフレームの現在のプロトタイプに関連した複数の円回転値を生成することと、
スピーチコーダにおけるフレームの基準プロトタイプの複数の位相パラメータと関連した複数のバンドパス波形を複数の周波数帯域で発生させることと、
複数のバンドパス波形を複数の円回転値に基づいて修正することとを実行させることが可能な命令を含んでいる、一過性ではないプロセッサ読取り可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/356,491 | 1999-07-19 | ||
US09/356,491 US6397175B1 (en) | 1999-07-19 | 1999-07-19 | Method and apparatus for subsampling phase spectrum information |
PCT/US2000/019601 WO2001006492A1 (en) | 1999-07-19 | 2000-07-18 | Method and apparatus for subsampling phase spectrum information |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007213061A Division JP4861271B2 (ja) | 1999-07-19 | 2007-08-17 | 位相スペクトル情報をサブサンプリングする方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003517157A JP2003517157A (ja) | 2003-05-20 |
JP2003517157A5 JP2003517157A5 (ja) | 2007-10-04 |
JP4860859B2 true JP4860859B2 (ja) | 2012-01-25 |
Family
ID=23401657
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001511667A Expired - Lifetime JP4860859B2 (ja) | 1999-07-19 | 2000-07-18 | 位相スペクトル情報をサブサンプリングする方法および装置 |
JP2007213061A Expired - Lifetime JP4861271B2 (ja) | 1999-07-19 | 2007-08-17 | 位相スペクトル情報をサブサンプリングする方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007213061A Expired - Lifetime JP4861271B2 (ja) | 1999-07-19 | 2007-08-17 | 位相スペクトル情報をサブサンプリングする方法および装置 |
Country Status (12)
Country | Link |
---|---|
US (3) | US6397175B1 (ja) |
EP (2) | EP1617416B1 (ja) |
JP (2) | JP4860859B2 (ja) |
KR (2) | KR100752001B1 (ja) |
CN (2) | CN1279510C (ja) |
AT (2) | ATE309600T1 (ja) |
AU (1) | AU6221600A (ja) |
BR (1) | BRPI0012537B1 (ja) |
DE (2) | DE60023913T2 (ja) |
ES (2) | ES2256022T3 (ja) |
HK (3) | HK1064196A1 (ja) |
WO (1) | WO2001006492A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US6789058B2 (en) * | 2002-10-15 | 2004-09-07 | Mindspeed Technologies, Inc. | Complexity resource manager for multi-channel speech processing |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
DE602004004950T2 (de) * | 2003-07-09 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren |
EP3561810B1 (en) * | 2004-04-05 | 2023-03-29 | Koninklijke Philips N.V. | Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
TWI358056B (en) * | 2005-12-02 | 2012-02-11 | Qualcomm Inc | Systems, methods, and apparatus for frequency-doma |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
HUE045991T2 (hu) * | 2013-02-05 | 2020-01-28 | Ericsson Telefon Ab L M | Hangkeret-elvesztés elrejtése |
ES2955962T3 (es) | 2015-09-25 | 2023-12-11 | Voiceage Corp | Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios |
CN107424616B (zh) * | 2017-08-21 | 2020-09-11 | 广东工业大学 | 一种相位谱去除掩模的方法与装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793000A (ja) * | 1993-09-27 | 1995-04-07 | Mitsubishi Electric Corp | 音声符号化装置 |
JPH10307599A (ja) * | 1997-03-10 | 1998-11-17 | Lucent Technol Inc | スプラインを使用する波形補間音声コーディング |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
EP0422232B1 (en) * | 1989-04-25 | 1996-11-13 | Kabushiki Kaisha Toshiba | Voice encoder |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
ES2225321T3 (es) | 1991-06-11 | 2005-03-16 | Qualcomm Incorporated | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5517595A (en) | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (ja) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08123494A (ja) * | 1994-10-28 | 1996-05-17 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置 |
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
IT1277194B1 (it) | 1995-06-28 | 1997-11-05 | Alcatel Italia | Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato |
US5701391A (en) * | 1995-10-31 | 1997-12-23 | Motorola, Inc. | Method and system for compressing a speech signal using envelope modulation |
WO1998005029A1 (en) * | 1996-07-30 | 1998-02-05 | British Telecommunications Public Limited Company | Speech coding |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
EP0987680B1 (en) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audio signal processing |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6754630B2 (en) | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6449592B1 (en) * | 1999-02-26 | 2002-09-10 | Qualcomm Incorporated | Method and apparatus for tracking the phase of a quasi-periodic signal |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
AU4072400A (en) * | 1999-04-05 | 2000-10-23 | Hughes Electronics Corporation | A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system |
-
1999
- 1999-07-19 US US09/356,491 patent/US6397175B1/en not_active Expired - Lifetime
-
2000
- 2000-07-18 EP EP05019543A patent/EP1617416B1/en not_active Expired - Lifetime
- 2000-07-18 KR KR1020077009507A patent/KR100752001B1/ko active IP Right Grant
- 2000-07-18 KR KR1020027000728A patent/KR100754580B1/ko active IP Right Grant
- 2000-07-18 CN CNB008130019A patent/CN1279510C/zh not_active Expired - Lifetime
- 2000-07-18 DE DE60023913T patent/DE60023913T2/de not_active Expired - Lifetime
- 2000-07-18 BR BRPI0012537A patent/BRPI0012537B1/pt active IP Right Grant
- 2000-07-18 EP EP00948764A patent/EP1204968B1/en not_active Expired - Lifetime
- 2000-07-18 AU AU62216/00A patent/AU6221600A/en not_active Abandoned
- 2000-07-18 ES ES00948764T patent/ES2256022T3/es not_active Expired - Lifetime
- 2000-07-18 JP JP2001511667A patent/JP4860859B2/ja not_active Expired - Lifetime
- 2000-07-18 AT AT00948764T patent/ATE309600T1/de not_active IP Right Cessation
- 2000-07-18 CN CNB031458505A patent/CN1290077C/zh not_active Expired - Lifetime
- 2000-07-18 AT AT05019543T patent/ATE379832T1/de not_active IP Right Cessation
- 2000-07-18 DE DE60037286T patent/DE60037286T2/de not_active Expired - Lifetime
- 2000-07-18 ES ES05019543T patent/ES2297578T3/es not_active Expired - Lifetime
- 2000-07-18 WO PCT/US2000/019601 patent/WO2001006492A1/en active IP Right Grant
-
2002
- 2002-02-01 US US10/066,073 patent/US6678649B2/en not_active Expired - Lifetime
- 2002-12-30 HK HK04106760A patent/HK1064196A1/xx unknown
- 2002-12-30 HK HK02109401.2A patent/HK1047816B/zh unknown
-
2003
- 2003-11-05 US US10/702,967 patent/US7085712B2/en not_active Expired - Lifetime
-
2006
- 2006-07-14 HK HK06107927A patent/HK1091583A1/xx not_active IP Right Cessation
-
2007
- 2007-08-17 JP JP2007213061A patent/JP4861271B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793000A (ja) * | 1993-09-27 | 1995-04-07 | Mitsubishi Electric Corp | 音声符号化装置 |
JPH10307599A (ja) * | 1997-03-10 | 1998-11-17 | Lucent Technol Inc | スプラインを使用する波形補間音声コーディング |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4861271B2 (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
KR100804461B1 (ko) | 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 | |
KR100898323B1 (ko) | 음성 코더용 스펙트럼 크기 양자화 방법 | |
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
US6324503B1 (en) | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions | |
KR100754591B1 (ko) | 음성 코더에서 목표 비트율을 유지하는 방법 및 장치 | |
JP4511094B2 (ja) | 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置 | |
JP4860860B2 (ja) | スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100825 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4860859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |