JP2005515486A - Celpによる音声符号間のトランスコーディング・スキーム - Google Patents
Celpによる音声符号間のトランスコーディング・スキーム Download PDFInfo
- Publication number
- JP2005515486A JP2005515486A JP2003558656A JP2003558656A JP2005515486A JP 2005515486 A JP2005515486 A JP 2005515486A JP 2003558656 A JP2003558656 A JP 2003558656A JP 2003558656 A JP2003558656 A JP 2003558656A JP 2005515486 A JP2005515486 A JP 2005515486A
- Authority
- JP
- Japan
- Prior art keywords
- celp
- destination
- mapping
- codec
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 127
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012856 packing Methods 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000005284 excitation Effects 0.000 claims description 119
- 238000013507 mapping Methods 0.000 claims description 112
- 239000013598 vector Substances 0.000 claims description 48
- 230000003044 adaptive effect Effects 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 34
- 239000000872 buffer Substances 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims 2
- 230000008859 change Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 238000007906 compression Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007907 direct compression Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
CELPによる圧縮音声ストリームをソース・コーデックからディスティネーション・コーデックにトランスコードする方法。この方法は、ソース・コーデック入力CELPビットストリームを、入力CELPビットストリームから少なくとも1つまたは複数のCELPパラメータをアンパックするように処理する段階と、ディスティネーション・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートを含む複数のディスティネーション・コーデック・パラメータのうちの1つまたは複数とソース・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートを含む複数のソース・コーデック・パラメータのうちの1つまたは複数との違いが存在する場合に複数のアンパックされたCELPパラメータのうちの1つまたは複数をソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに補間する段階とを含む。この方法は、ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを符号化する段階と、ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを少なくともパックすることによってディスティネーションCELPビットストリームを処理する段階とを含む。
Description
関連出願の相互参照
本出願は、同一出願人による出願であり、参照として本明細書に組み入れられる、2002年1月8日に出願された米国仮出願第60/347,270号、2002年3月12日に出願された米国仮出願第60/364,403号、2002年10月25日に出願された米国仮出願第60/421,446号、2002年10月25日に出願された米国仮出願第60/421,449号、および2002年10月25日に出願された米国仮出願第60/421,270号への優先権を主張する。
本出願は、同一出願人による出願であり、参照として本明細書に組み入れられる、2002年1月8日に出願された米国仮出願第60/347,270号、2002年3月12日に出願された米国仮出願第60/364,403号、2002年10月25日に出願された米国仮出願第60/421,446号、2002年10月25日に出願された米国仮出願第60/421,449号、および2002年10月25日に出願された米国仮出願第60/421,270号への優先権を主張する。
連邦の支援による研究または開発の下で行われた発明の権利に関する声明
該当なし
該当なし
コンパクト・ディスク上で提出される付録をリストした「シーケンス・リスト」、表、またはコンピュータ・プログラムの参照
該当なし
該当なし
発明の背景
本発明は、概して情報を処理する技術に関する。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
本発明は、概して情報を処理する技術に関する。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
符号化は、生信号(音声、画像、映像)を送信または記憶に適したフォーマットに変換するプロセスである。符号化では通常、大量の圧縮が行われるが、一般に顕著な信号処理を伴う。符号化の結果、所与の圧縮フォーマットによる符号化されたパラメータのビットストリーム(フレームのシーケンス)が得られる。圧縮は、信号をモデル化する様々な技術を用いて冗長な情報を統計的かつ知覚的に削除することによって行われる。したがって、符号化されたフォーマットを「圧縮フォーマット」または「パラメータ空間」と呼ぶ。デコーダは、圧縮されたビットストリームを取り出し、最初の信号を再生成する。音声符号化の場合、圧縮によって通常、情報が失われる。
様々な圧縮フォーマット間の変換プロセスおよび/またはすでに符号化された信号のビット・レートを低くするプロセスはトランスコーディングと呼ばれている。これを行うことによって、帯域幅を保存するか、または互換性のないクライアントおよび/またはサーバ装置同士を接続することができる。トランスコーディングは、トランスコーダが圧縮された信号にのみアクセスでき、元の信号にはアクセスできないという点で直接圧縮プロセスとは異なる。
トランスコーディングは、解凍プロセスとその後に続く再圧縮プロセスを有する「タンデム」などのブルート・フォース技術を用いて行うことができる。大量の処理が必要になることが多く、かつ信号を解凍し次いで再圧縮するために遅延が生じる可能性があるので、圧縮空間またはパラメータ空間におけるトランスコーディングを検討することができる。このようなトランスコーディングは、可能なかぎりパラメータ空間に残りつつ圧縮フォーマット同士のマッピングを行うことを目標とする。この場合、「スマート」トランスコーディングの精密なアルゴリズムが使用される。トランスコーディングは進歩しているが、トランスコーディング技術をさらに向上させることが望ましい。従来の技術の制限の詳細について、本明細書全体にわたり、特に以下に詳しく説明する。
発明の概要
本発明によれば、情報を処理する技術が提供される。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
本発明によれば、情報を処理する技術が提供される。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
特定の態様では、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。この装置は、ソース・コーデックから1つまたは複数のCELPパラメータを抽出するビットストリーム・アンパッキング・モジュールを有する。この装置は、ビットストリーム・アンパッキング・モジュールに結合されたインタポレータモジュールも有する。インタポレータモジュールは、ソース・コーデックおよびディスティネーション・コーデックの様々なフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レート同士を補間するようになっている。インタポレータモジュールにマッピング・モジュールが結合されている。マッピング・モジュールは、ソース・コーデックの1つまたは複数のCELPパラメータをディスティネーション・コーデックの1つまたは複数のCELPパラメータにマッピングするよう適合化されている。この装置は、マッピング・モジュールに結合されたディスティネーション・ビットストリーム・パッキング・モジュールを有する。ディスティネーション・ビットストリーム・パッキング・モジュールは、ディスティネーション・コーデックからの少なくとも1つまたは複数のCELPパラメータに基づいて少なくとも1つのディスティネーション出力CELPフレームを構成するよう適合化されている。少なくともディスティネーション・ビットストリーム・パッキング・モジュール、マッピング・モジュール、インタポレータモジュール、およびビットストリーム・アンパッキング・モジュールにコントローラが結合されている。好ましくは、コントローラは、1つまたは複数のモジュールの動作を監視するようになっており、1つまたは複数の外部アプリケーションから指示を受信するよう適合化されている。コントローラは、1つまたは複数の外部アプリケーションにステータス情報を与えるよう適合化されている。
他の特定の態様では、本発明は、CELPによる圧縮音声ストリームをソース・コーデックからディスティネーション・コーデックにトランスコードする方法を提供する。この方法は、ソース・コーデック入力CELPビットストリームを、入力CELPビットストリームから少なくとも1つまたは複数のCELPパラメータをアンパックするように処理する段階と、ディスティネーション・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートを含む複数のディスティネーション・コーデック・パラメータのうちの1つまたは複数とソース・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートを含む複数のソース・コーデック・パラメータのうちの1つまたは複数との違いが存在する場合に複数のアンパックされたCELPパラメータのうちの1つまたは複数をソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに補間する段階とを含む。この方法は、ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを符号化する段階と、ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを少なくともパックすることによってディスティネーションCELPビットストリームを処理する段階とを含む。
他の特定の態様では、本発明は、CELPによる圧縮音声ビットストリームをソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに処理する方法を提供する。この方法は、複数の制御信号のうちの制御信号をアプリケーション・プロセスから転送する段階と、少なくともアプリケーションからの制御信号に基づいて複数の異なるCELPマッピング戦略から1つのCELPマッピング戦略を選択する段階とを含む。この方法は、選択されたCELPマッピング戦略を用いてソース・コーデック・フォーマットの1つまたは複数のCELPパラメータをディスティネーション・コーデック・フォーマットの1つまたは複数のCELPパラメータにマッピングするマッピング・プロセスを実行する段階も含む。
さらに、本発明は、CELPによる圧縮音声ビットストリームをソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに処理するシステムを提供する。システムは、1つまたは複数のメモリを含む。このようなメモリは、アプリケーション・プロセスから複数の制御信号のうちの制御信号を受信するための1つまたは複数の符号を含んでよい。少なくともアプリケーションからの制御信号に基づいて複数の異なるCELPマッピング戦略から1つのCELPマッピング戦略を選択するための1つまたは複数の符号も含まれる1つまたは複数のメモリは、選択されたCELPマッピング戦略を用いてマッピング・プロセスを実行し、ソース・コーデック・フォーマットの1つまたは複数のCELPパラメータをディスティネーション・コーデック・フォーマットの1つまたは複数のCELPパラメータにマッピングするための1つまたは複数の符号も含む。態様に応じて、本発明と組み合わせることのできる、本明細書で説明する機能と本明細書外に記載されている機能を実行する他のコンピュータ符号があってもよい。
本発明を用いて多数の利益が得られる。態様に応じて、これらの利益のうちの1つまたは複数を得ることができる。
・トランスコーディング・プロセスの計算面の複雑さを低減させる。
・トランスコーディング・プロセスの遅延を少なくする。
・トランスコーディングが必要とするメモリの量を少なくする。
・ダイナミック・レート制御を導入する。
・埋め込み音声活動検出器によってサイレンス・フレームをサポートする。
・様々なパラメータ・マッピング戦略を使用できるフレームワークを提供する。
・現在および将来の、多様性CELPによるコーデックに適合する一般的なトランスコーディング・アーキテクチャを提供する。
・トランスコーディング・プロセスの計算面の複雑さを低減させる。
・トランスコーディング・プロセスの遅延を少なくする。
・トランスコーディングが必要とするメモリの量を少なくする。
・ダイナミック・レート制御を導入する。
・埋め込み音声活動検出器によってサイレンス・フレームをサポートする。
・様々なパラメータ・マッピング戦略を使用できるフレームワークを提供する。
・現在および将来の、多様性CELPによるコーデックに適合する一般的なトランスコーディング・アーキテクチャを提供する。
このトランスコーディングの発明はこれらの利益のうちの1つまたは複数を実現することができる。特定の態様では、トランスコーディング装置は以下のものを含む。
・入力された符号化CELPビットストリームからCELPパラメータを抽出するソースCELPパラメータ・アンパッキング・モジュール
・入力ソースCELPパラメータを、ソース・コーデックとディスティネーション・コーデックとのサブフレーム・サイズの違いに対応するディスティネーションCELPパラメータに変換するCELPパラメータインタポレータ。ソース・コーデックとディスティネーション・コーデックのサブフレーム・サイズが異なっている場合にパラメータ補間が使用される。
・CELPパラメータをインタポレータモジュールからディスティネーションCELPコーデック ・パラメータに変換するディスティネーションCELPパラメータ・マッピングおよびチューニング・エンジン
・マッピングされたCELPパラメータをディスティネーションCELP符号フォーマットにパックするディスティネーションCELP符号パッカー
・CELP間トランスコーディングにおける選択的な関数および特性を管理する高度特性マネージャ
・トランスコーディング・プロセス全体を監視するコントローラ
・トランスコーディング・プロセスのステータスを与えるステータス報告機能
・入力された符号化CELPビットストリームからCELPパラメータを抽出するソースCELPパラメータ・アンパッキング・モジュール
・入力ソースCELPパラメータを、ソース・コーデックとディスティネーション・コーデックとのサブフレーム・サイズの違いに対応するディスティネーションCELPパラメータに変換するCELPパラメータインタポレータ。ソース・コーデックとディスティネーション・コーデックのサブフレーム・サイズが異なっている場合にパラメータ補間が使用される。
・CELPパラメータをインタポレータモジュールからディスティネーションCELPコーデック ・パラメータに変換するディスティネーションCELPパラメータ・マッピングおよびチューニング・エンジン
・マッピングされたCELPパラメータをディスティネーションCELP符号フォーマットにパックするディスティネーションCELP符号パッカー
・CELP間トランスコーディングにおける選択的な関数および特性を管理する高度特性マネージャ
・トランスコーディング・プロセス全体を監視するコントローラ
・トランスコーディング・プロセスのステータスを与えるステータス報告機能
ソースCELPパラメータ・アンパッキング・モジュールは、フォーマット・フィルタおよびポスト・フィルタを有さない簡略化されたCELPデコーダである。
CELPパラメータインタポレータは、1つまたは複数のCELPパラメータに関する1組のインタポレータを含む。
ディスティネーションCELPパラメータ・マッピングおよびチューニング・モジュールは、パラメータ・マッピング戦略切換えモードと、以下のパラメータ・マッピング戦略、すなわち、CELPパラメータ直接空間マッピングのモジュール、励振空間マッピングにおける分析のモジュール、フィルタリング済み励振空間マッピングにおける分析のモジュールのうちの1つまたは複数とを含む。
本発明は、サブフレームごとにトランスコーディングを実行する。すなわち、(ソース圧縮情報の)トランスコーディング・システムによってフレームが受信されると、トランスコーダはそれに対する作用および出力サブフレームの作成を開始する。十分な数のサブフレームが作成された後、(ディスティネーション・フォーマットによる圧縮された情報の)フレームを生成し、通信が目的である場合には通信チャネルに送信することができる。記憶が目的である場合、必要に応じて生成されたフレームを記憶することができる。ソース・フォーマット標準によって定義されたフレームの持続時間とディスティネーション・フォーマット標準によって定義されたフレームの持続時間が同じである場合、単一の着信フレームは単一の発信フレームを生成し、そうでない場合、いずれかの入力フレームのバッファリング、または複数の出力フレームの生成が必要になる。各サブフレームの持続時間が異なる場合、サブフレーム・パラメータ同士の間の補間が必要になる。したがって、トランスコーディング動作は、4つの動作、すなわち、(1)ビットストリーム・アンパッキング、(2)ソースCELPパラメータのサブフレーム・バッファリングおよび補間、(3)ディスティネーションCELPパラメータのマッピングおよびチューニング、ならびに(4)出力フレームを作成する符号パッキングから成る。
したがって、フレームの受信時に、トランスコーダはビットストリームをアンパックし、フレーム内に含まれる各サブフレームごとにCELPパラメータを作成する(図10、ブロック(1))。関心対象のパラメータは、LPC係数、励振(適応的符号語および固定符号語から生成される)、およびピッチ・ラグである。良好な品質をもたらすより簡単な解決策の場合、必要なのは励振に対する復号だけであり、音声波形の完全な合成は必要とされないことに留意されたい。サブフレーム補間が必要である場合は、この点でスマート補間エンジン(図10、ブロック(2))によって行われる。
各サブフレームは今や、ディスティネーション・パラメータ・マッピングおよびチューニング・モジュール(図10、ブロック(5))による処理に適した形式である。短期LPCフィルタ係数は、励振CELPパラメータとは独立にマッピングされる。LSP擬似周波数空間における簡単な線形マッピングを用いてディスティネーション・コーデック用のLSP係数を作成することができる。励振CELPパラメータは、いくつかの方法でマッピングすることができ、したがって、計算面の複雑さを犠牲にして品質が良好な出力を得ることができる。本文献には3つのそのようなマッピング戦略が記載されており、これらの戦略はパラメータ・マッピングおよびチューニング戦略モジュール(図10、ブロック(4))の一部である。
・CELPパラメータ直接空間マッピング(DSM)
・励振空間ドメインにおける分析
・フィルタリングされた励振空間ドメインにおける分析
マッピングおよびチューニング戦略の選択は、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))によって行われる。
・CELPパラメータ直接空間マッピング(DSM)
・励振空間ドメインにおける分析
・フィルタリングされた励振空間ドメインにおける分析
マッピングおよびチューニング戦略の選択は、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))によって行われる。
この3つの方法は品質を犠牲にして計算面の負荷を低減させるので、多数の同時チャネルによって過負荷が生じる装置の場合に品質を適切に低下させるのに用いることができる。したがって、トランスコーダの性能は利用可能なリソースに適合させることができる。または、所望の品質および性能を与えるに過ぎない1つの戦略を用いてトランスコーディング・システムを構成することができる。このような場合、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))は組み込まれない。
この点で、ディスティネーション標準の必要に応じて、音声活動検出器(パラメータ空間で動作する)を用いて、アウトバウンド帯域幅を小さくすることもできる。
次いで、マッピングされたパラメータをディスティネーション・ビットストリーム・フォーマット・フレーム(図10、ブロック(7))にパックし、送信または記憶できるように生成することができる。
本発明は、CELPによる音声符号化標準同士の間のスマート・トランスコーディングを実行するのに用いられるアルゴリズムおよび方法をカバーする。本発明は、(より低いモードにトランスコーディングするか、または埋め込み音声活動検出器を通じてサイレンス・フレームを導入することによって)レート制御を実行する単一の標準内のトランスコーディングもカバーする。
トランスコーディングの手順全体は、トランスコーディングのステータスおよび外部指示に基づくコマンドを送信する制御モジュール(図10、ブロック(8))によって監視される。
本発明の装置は、様々なトランスコーディング要件に適合するために、選択的な特性および関数(図10、ブロック(6))を追加する機能を提供する。
本発明の他の特徴および利点は、以下の説明を添付の図面と共に検討したときに明らかになろう。図面では、各参照符号は各図全体にわたって同じ部品または同様の部品を指定する。
本発明の目的、特徴、および利点は、新規のものと考えられ、特に添付の特許請求の範囲に記載されている。構成と動作方法の両方に関する本発明は、他の目的および利点と共に、以下の説明を添付の図面と共に参照することによって理解することができる。
発明の詳細な説明
本発明によれば、情報を処理する技術が提供される。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
本発明によれば、情報を処理する技術が提供される。特に、本発明は、CELPフレームを、あるCELPに基づく標準から別のCELPに基づく標準に変換し、かつ/または単一の標準内で異なるモードに変換する方法および装置を提供する。本発明の詳細は、本明細書全体にわたり、特に以下に与えられる。
本発明は、CELP(符号励振線形予測)による符号化方法および標準同士の間のスマート・トランスコーディングを実行するのに用いられるアルゴリズムおよび方法をカバーする。国際電気通信連合(ITU)や欧州電気通信標準化委員会(ETSI)のような機関によって標準化されたCELP符号化方法が特に重要である。本発明は、(より低いモードにトランスコーディングするか、または埋め込み音声活動検出器を通じてサイレンス・フレームを導入することによって)レート制御を実行する単一の標準内のトランスコーディングもカバーする。
音声符号化技術は一般に、波形コーダ(たとえば、ITUの標準G.711、G.726、G.722)および合成分析(AbS)型コーダ(たとえば、ITUのG.723.1標準およびG.729標準、ETSIのGSM-AMR標準、および電気通信工業協会(ITA)のEVRC(Enhanced Variable-Rate Codec)標準、SMV(Selectable Mode Vocoder)標準)として分類することができる。波形コーダは、時間ドメインで動作し、音声サンプル同士の間の相関を利用するサンプル対応手法に基づく。合成分析手法は、ソースの簡略化されたモデル(声門)と、フレームごと(通常、10〜30msのフレーム・サイズが用いられる)に出力音声スペクトルを整形するフィルタ(声帯)によって人間の音声生成系の模倣を試みる。
合成分析型のコーダは、計算面の要件の増大を犠牲にして、低ビット・レートで高品質の音声を実現するために導入された。圧縮技術は、通信インタフェースにおけるリソースを節約する有意義な方法である。
数学的には、すべての音声コーデックは、デジタル・ドメイン表現
が得られるように一様にサンプリングされ量子化された一次元アナログ音声信号xa(t)から開始する。音声信号のサンプリング・レート
は通常、8kHzまたは16kHzであり、サンプリングされた信号は通常最大16ビットに量子化される。
が得られるように一様にサンプリングされ量子化された一次元アナログ音声信号xa(t)から開始する。音声信号のサンプリング・レート
は通常、8kHzまたは16kHzであり、サンプリングされた信号は通常最大16ビットに量子化される。
そして、CELPによるコーデックは、音声生成モデルを用いて、サンプリングされた音声x(n)とあるパラメータ空間θとのマッピングを行うアルゴリズムとみなすことができ、すなわち、CELPによるコーデックはデジタル音声を符号化し復号する。CELPによるすべてのアルゴリズムは、音声のフレーム(さらにいくつかのサブフレームに分割することができる)に作用する。コーデックによっては、音声フレームは互いに重なり合う。音声フレームは、ある時間nから始まる音声サンプルのベクトルとして定義することができ、すなわち、次式が成立し、
上式で、Lは音声フレームの長さ(サンプルの数)である。フレーム・インデックスiが線形関係によって第1のフレーム・サンプルnに関係付けされることに留意されたい。
上式で、Kは、フレーム同士の間に重なり合うサンプルの数である。
上式で、Lは音声フレームの長さ(サンプルの数)である。フレーム・インデックスiが線形関係によって第1のフレーム・サンプルnに関係付けされることに留意されたい。
上式で、Kは、フレーム同士の間に重なり合うサンプルの数である。
次に、圧縮(ロシー符号化)プロセスは、音声フレーム
をパラメータθiにマップする関数であり、復号プロセスは、パラメータθiから元の音声フレームの近似
へのマッピングを行う。デコーダによって作成された音声フレームは、最初に符号化された音声フレームと同一ではない。コーデック、つまりSは、入力音声に知覚的にできるだけ類似した出力音声を生成するように構成されており、すなわち、デコーダは、入力音声フレームと、パラメータを処理する際にデコーダによって生成されるフレームとの間のある知覚的基準測度を最大にするパラメータを生成しなければならない。
をパラメータθiにマップする関数であり、復号プロセスは、パラメータθiから元の音声フレームの近似
へのマッピングを行う。デコーダによって作成された音声フレームは、最初に符号化された音声フレームと同一ではない。コーデック、つまりSは、入力音声に知覚的にできるだけ類似した出力音声を生成するように構成されており、すなわち、デコーダは、入力音声フレームと、パラメータを処理する際にデコーダによって生成されるフレームとの間のある知覚的基準測度を最大にするパラメータを生成しなければならない。
一般に、入力からパラメータへのマッピングおよびパラメータから出力へのマッピングには、すべての以前の入力またはパラメータの知識が必要である。これは、たとえば、CELPによる方法によって用いられる適応的コードブックを構成する際にコーデックS内の状態を維持することによって実現することができる。エンコーダ状態とデコーダ状態は同期したままにしておかなければならない。これは、両方の側(エンコーダとデコーダ)が有するデータ、すなわち、パラメータに基づいて状態を更新するだけで実現される。図3は、エンコーダ、チャネル、およびデコーダの一般的なモデルを示している。
CELPによるモデルで使用されるフレーム・パラメータθiは、音声信号(物理的に、声帯、口、鼻腔、および唇に関係する)の短期予測に用いられる線形予測係数(LPC)と、適応的符号および固定符号で構成された励振信号とから成る。適応的符号は、音声中の長期ピッチ情報をモデル化するのに用いられる。符号(適応的符号および固定符号)は、特定のCELPコーデックに関して事前に定義されている関連するコードブックを有している。図1は、適応的コードブック・ベクトルおよび固定コードブック・ベクトルがゲイン因子によって独立にスケーリングされ、次いで同期音声を生成するように組み合わされフィルタリングされる。この音声は通常、モデルによって導入されたアーチファクトを除去するようにポスト・フィルタを通過させられる。
図2に示されているCELP符号化(分析)プロセスは、不要な周波数成分を除去するように音声信号を前処理し、ウィンドウ関数を適用し、その後短期LPCパラメータを抽出する段階とを含む。これは通常、レビンソン・ダービン・アルゴリズムを用いて行われる。LPCパラメータは、量子化およびサブフレーム補間を容易にするようにLSP(Line Spectral Pairs)に変換される。次いで、音声は残留励振信号を生成するように短期LPCフィルタによって逆フィルタリングされる。この残りは、品質を向上させるように知覚的に重み付けされ、分析され、音声のピッチの推定値が求められる。閉ループ合成分析法は最適なピッチを求めるのに求められる。ピッチが求められると、励振の適応的コードブック成分が残りから引算され、最適な固定符号語が求められる。エンコーダの内部メモリは、コーデック状態(適応的コードブックなど)の変更を反映するように更新される。
トランスコーディングの最も簡単な方法は、タンデム・トランスコーディングと呼ばれるブルート・フォース手法である。図4を参照されたい。この方法は、着信圧縮ビットを完全に復号し、合成音声を生成する。次いで、合成音声はターゲット標準に関して符号化される。この方法は、信号を再符号化する際に必要な計算量の多さと、音声波形の前フィルタリングおよび後フィルタリングによって導入される品質低下問題と、エンコーダのルック・アヘッド要件によって導入される潜在的な遅延との影響を受ける。
図5に示されているのと同様の「スマート」トランスコーディング方法が文献に記載されている。しかし、これらの方法は依然として、本質的に音声信号を再構成し、次いで顕著な作業を実行してLPCやピッチのような様々なCELPパラメータを抽出する方法である。すなわち、これらの方法は依然として、音声信号空間内で作用する。特に、すでにファーエンド・エンコーダ(圧縮フォーマットによって圧縮音声を生成した遠い端部にあるエンコーダ)によって元の音声に最適に一致させられている励振信号は、合成音声の生成にしか使用されない。次いで、合成音声を用いて新しい最適な励振が算出される。インパルス応答フィルタリング動作を閉ループ探索に組み込む要件のために、これは、計算量が非常に多い動作になる。図6は、米国特許第6,260,009B1号で用いられている方法を示している。探索回路によってターゲット信号として用いられる再構成された信号は、入力励振パラメータおよび出力量子化フォルマント・フィルタ係数から生成される。ソース・コーデックとディスティネーション・コーデックにおける量子化フォルマント・フィルタ係数の違いのために、この場合、探索回路のターゲット信号が劣化し、最終的にトランスコーディングによる出力音声品質が著しく低下する。図6を参照されたい。他の制限は本明細書全体、特に以下に記載されている。
図7によって示されている他の「スマート」トランスコーディング方法(米国特許出願第2002/0077812A1号)が公開されている。この方法は、CELPパラメータ同士の間の対話を無視して直接各CELPパラメータをマッピングすることによってトランスコーディングを実行する。この方法は、ソースCELPコーデックとディスティネーションCELPコーデックとの間に非常に制限された条件を必要とする特殊な場合にしか適用できない。たとえば、この方法では、代数CELP(ACELP)が必要であり、かつソース・コーデックとディスティネーション・コーデックの両方で同じサブフレーム・サイズが必要である。この方法によれば、CELPによるたいていのトランスコーディングでは、品質の良好な音声は生成されない。この方法は、1つのGSM-AMRモードにしか適しておらず、GSM-AMRにおけるすべてのモードをカバーしているわけではない。
本発明の方法および装置について以下に詳しく論じる。以下の説明では、説明の都合上、本発明を完全に理解していただくために多数の特定の詳細が記載されている。GSM-AMRおよびG.723.1の場合は、例示的な目的で一例として用いられている。本明細書で説明する方法は一般的な方法であり、任意の一対のCELPコーデック間のトランスコーディングに適用される。当業者には、本発明の要旨および範囲から逸脱せずに他の段階、構成、および配置を用いることができることが認識されよう。
本発明は、CELPによる音声符号化標準同士の間のスマート・トランスコーディングを実行するのに用いられるアルゴリズムおよび方法をカバーする。本発明は、(より低いモードにトランスコーディングするか、または埋め込み音声活動検出器を通じてサイレンス・フレームを導入することによって)レート制御を実行する単一の標準内のトランスコーディングもカバーする。以下の節では、本発明の詳細について論じる。
本発明は、サブフレームごとにトランスコーディングを実行する。すなわち、トランスコーディング・システムによってフレームが受信されると、トランスコーダはそのサブフレームに対する作用および出力サブフレームの作成を開始する。十分な数のサブフレームが作成された後、フレームを生成することができる。ソース・フォーマット標準によって定義されたフレームの持続時間とディスティネーション・フォーマット標準によって定義されたフレームの持続時間が同じである場合、1つの入力フレームは1つの出力フレームを生成し、そうでない場合、いずれかの入力フレームのバッファリング、または複数の出力フレームの生成が必要になる。各サブフレームの持続時間が異なる場合、サブフレーム・パラメータ同士の間の補間が必要になる。したがって、トランスコーディング動作は、4つの動作、すなわち、(1)ビットストリーム・アンパッキング、(2)ソースCELPパラメータのサブフレーム・バッファリングおよび補間、(3)ディスティネーションCELPパラメータのマッピングおよびチューニング、ならびに(4)出力フレームを作成する符号パッキングから成る(図8参照)。
図10は、本発明による、CELPによるコーデック・トランスコーディング装置の原則を示すブロック図である。このブロックは、ソース・ビットストリーム・アンパッキング・モジュール、スマート補間エンジン、パラメータ・マッピングおよびチューニング・モジュール、選択的な高度機特性モジュール、制御モジュール、およびディスティネーション・ビットストリーム・パッキング・モジュールを含んでいる。
パラメータ・マッピングおよびチューニング・モジュールは、マッピングおよびチューニング戦略切換えモジュールとパラメータ・マッピングおよびチューニング戦略モジュールを含んでいる。
トランスコーディング動作は制御モジュールによって監視される。
したがって、フレームが受信されると、トランスコーダはビットストリームをアンパックし、フレーム内に含まれている各サブフレームのCELPパラメータを作成する。関心対象のパラメータはLPC係数、励振(適応的符号語および固定符号語から生成される)、およびピッチ・ラグである。
必要なのは励振に対する復号だけであり、音声波形の完全な合成は必要とされないことに留意されたい。これによって、ソース・コーデック・ビットストリーム・アンパッキングの複雑さが著しく低減する。コードブック・ゲインおよび固定符号語も、CELPパラメータ直接空間マッピング(DSM)トランスコーディング戦略にとって重要である。サブフレーム補間が必要な場合にはこの点で行われる。
サブフレームは今や、図14に示されているディスティネーション・パラメータ・マッピングおよびチューニング・モジュールによる処理に適した形式である。短期LPCフィルタ係数は、励振CELPパラメータとは独立にマッピングされる。LSP擬似周波数空間における簡単な線形マッピングを用いてディスティネーション・コーデック用のLSP係数を作成することができる。より精密な非線形補間を用いることもできる。励振CELPパラメータは、いくつかの方法でマッピングすることができ、したがって、計算面の複雑さを犠牲にして品質が良好な出力を得ることができる。本文献には3つのそのようなマッピング戦略が記載されており、これらの戦略はパラメータ・マッピングおよびチューニング戦略モジュール(図10、ブロック(4))の一部である。
・CELPパラメータ直接空間マッピング(DSM)
・励振空間ドメインにおける分析
・フィルタリングされた励振空間ドメインにおける分析
マッピングおよびチューニング戦略の選択は、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))によって行われる。
・CELPパラメータ直接空間マッピング(DSM)
・励振空間ドメインにおける分析
・フィルタリングされた励振空間ドメインにおける分析
マッピングおよびチューニング戦略の選択は、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))によって行われる。
この3つの方法について以下の節で詳しく論じる。この3つの方法は品質を犠牲にして計算面の負荷を低減させるので、多数の同時チャネルによって過負荷が生じる装置の場合に品質を適切に低下させるのに用いることができる。したがって、トランスコーダの性能は利用可能なリソースに適合させることができる。または、所望の品質および性能を与えるに過ぎない1つの戦略を用いてトランスコーディング・システムを構成することができる。このような場合、マッピングおよびチューニング戦略切換えモジュール(図10、ブロック(3))は組み込まれない。
この点で、ディスティネーション標準の必要に応じて、音声活動検出器(パラメータ空間で動作する)を用いて、アウトバウンド帯域幅を小さくすることもできる。
パラメータ・マッピングおよびチューニング・モジュールの出力はディスティネーションCELPコーデック符号である。ディスティネーションCELPコーデック符号は、コーデックCELPフレーム・フォーマットによってディスティネーション・ビットストリーム・フレームにパックされる。このパッキング・プロセスは、出力ビットを、ディスティネーションCELPデコーダによって理解できるフォーマットに変換するのに必要である。用途が記憶である場合、ディスティネーションCELPパラメータをパックするか、または用途特有のフォーマットで記憶することができる。たとえば、パッキング・プロセスでビット・スクランブリングを実施するとき、各フレームがマルチメディア・プロトコルに従って転送される場合に、パッキング・プロセスを変更することもできる。
さらに、本発明の装置は、将来の信号処理機能またはモジュールを追加する機能を提供する。
サブフレーム補間
様々な標準が単一のドメインでそれぞれの異なる持続時間を表しているか、または異なるサンプリング・レートが使用されるときに、サブフレーム補間が必要になることがある。たとえば、G.723.1は持続時間が30ms(サブフレーム当たり7.5ms)のフレームを使用し、GSM-AMRは持続時間が20ms(サブフレーム当たり5ms)のフレームを使用する。このことは図9に示されている。サブフレーム補間は、2つの異なる種類のパラメータ、すなわち、(1)サンプル対応パラメータ(励振ベクトルや符号語ベクトルなど)および(2)サブフレーム・パラメータ(LSP係数やピッチ・ラグ推定値)に対して行われる。サンプル対応パラメータは、その互いに離散した時間インデックスを考慮し、ターゲット・サブフレーム内の適切な位置にコピーすることによってマッピングされる。様々なCELP標準によってそれぞれの異なるサンプル・レートが使用される場合にアップ・サンプリングまたはダウン・サンプリングが必要になることがある。サブフレーム・パラメータは、ターゲット・サブフレーム中の各パラメータの平滑化された推定値を生成するようにある補間関数によって補間される。スマート補間アルゴリズムは、音声トランスコーディングを計算性能に関してだけでなく、さらに重要なこととして音声品質に関して向上させることができる。簡単な補間関数は線形インタポレータである。
様々な標準が単一のドメインでそれぞれの異なる持続時間を表しているか、または異なるサンプリング・レートが使用されるときに、サブフレーム補間が必要になることがある。たとえば、G.723.1は持続時間が30ms(サブフレーム当たり7.5ms)のフレームを使用し、GSM-AMRは持続時間が20ms(サブフレーム当たり5ms)のフレームを使用する。このことは図9に示されている。サブフレーム補間は、2つの異なる種類のパラメータ、すなわち、(1)サンプル対応パラメータ(励振ベクトルや符号語ベクトルなど)および(2)サブフレーム・パラメータ(LSP係数やピッチ・ラグ推定値)に対して行われる。サンプル対応パラメータは、その互いに離散した時間インデックスを考慮し、ターゲット・サブフレーム内の適切な位置にコピーすることによってマッピングされる。様々なCELP標準によってそれぞれの異なるサンプル・レートが使用される場合にアップ・サンプリングまたはダウン・サンプリングが必要になることがある。サブフレーム・パラメータは、ターゲット・サブフレーム中の各パラメータの平滑化された推定値を生成するようにある補間関数によって補間される。スマート補間アルゴリズムは、音声トランスコーディングを計算性能に関してだけでなく、さらに重要なこととして音声品質に関して向上させることができる。簡単な補間関数は線形インタポレータである。
一例として、図9は、2つのG.723.1フレームと同じ音声信号持続時間を表すのに3つのGSM-AMRフレームが必要であることをしめしている。同様に、2つのG.723.1サブフレームごとに3つのGSM-AMRサブフレームが必要である。上述のように、2種類のパラメータ、すなわち、サブフレーム・ワイド・パラメータ(たとえば、LSP係数)およびサンプル対応パラメータ(たとえば、適応的符号語や固定符号語)がある。サブフレーム・パラメータは、θで示されており、互いに重なり合ったサブフレームの重み付き和を算出することによって線形に変換され、サンプル対応パラメータは、v[・]で示されており、適切なサンプルをコピーすることによって形成される。G.723.1サブフレームからGSM-AMRサブフレームに補間する場合、分析公式は以下のように示される。
上式で、i=0は第1のGSM-AMRフレームの第1のサブフレームであり、i=4は第2のGSM-AMRフレームの第1のサブフレームであり、以下同様である。図12はこのプロセスを示している。
上式で、i=0は第1のGSM-AMRフレームの第1のサブフレームであり、i=4は第2のGSM-AMRフレームの第1のサブフレームであり、以下同様である。図12はこのプロセスを示している。
LSPパラメータは、サブフレーム・ワイド・パラメータであり、擬似周波数ドメイン、すなわち、f=cos-1(q)において補間すべきである。これによって、品質のより優れた出力が得られる。他のサブフレーム・パラメータは、補間の前に変換する必要はない。
上記の分析公式が簡単な線形インタポレータから導かれることに留意されたい。この公式は、スプライン、正弦のような任意の適切な補間方式で置き換えることができる。さらに、各CELPパラメータ(LSP係数、ラグ、ピッチ・ゲイン、符号語ゲインなど)は、それぞれの異なる補間方式を用いて最良の知覚的品質を得ることができる。
LSP係数によるLSPパラメータ・マッピングおよび励振ベクトル較正
CELPによるほぼすべてのオーディオ・コーデックが同じ手法を用いてLPC係数を得ているが、依然としていくつかのささいな違いがある。これらの違いは、それぞれの異なるウィンドウ・サイズおよび形状、各サブフレームごとの異なるLPC補間、それぞれの異なるサブフレーム・サイズ、それぞれの異なるLPC量子化方式、ならびにそれぞれの異なる参照テーブルによる違いである。
CELPによるほぼすべてのオーディオ・コーデックが同じ手法を用いてLPC係数を得ているが、依然としていくつかのささいな違いがある。これらの違いは、それぞれの異なるウィンドウ・サイズおよび形状、各サブフレームごとの異なるLPC補間、それぞれの異なるサブフレーム・サイズ、それぞれの異なるLPC量子化方式、ならびにそれぞれの異なる参照テーブルによる違いである。
上述のサブフレーム補間法によってもたらされるオーディオ・トランスコーディング品質をさらに改善するために、トランスコーディングにおけるターゲット信号として用いられる励振ベクトルは、ソース・コーデックおよびディスティネーション・コーデックからのLPCデータを適用することによって較正されている。
以下の2つの方法を用いて知覚的品質を向上させることができる。
方法1:LSP係数の線形変換
LSP係数同士を変換する一般的な方法は以下の線形変換を介して行われる。
q'=Aq+b
上式で、q'は(擬似周波数ドメインにおける)ディスティネーションLSPベクトルであり、qはソース(元の)LSPベクトルであり、Aは線形変換行列であり、bはバイアス項である。最も簡単な場合には、AはID行列になり、bは零になる。GSM-AMR−G.723.1トランスコーダの態様の場合、GSM-AMRコーデックに用いられるDCバイアス項は、G.723.1コーデックによって用いられるDCバイアス項とは異なり、上記の数式のb項は違いを補うのに用いられる。
LSP係数同士を変換する一般的な方法は以下の線形変換を介して行われる。
q'=Aq+b
上式で、q'は(擬似周波数ドメインにおける)ディスティネーションLSPベクトルであり、qはソース(元の)LSPベクトルであり、Aは線形変換行列であり、bはバイアス項である。最も簡単な場合には、AはID行列になり、bは零になる。GSM-AMR−G.723.1トランスコーダの態様の場合、GSM-AMRコーデックに用いられるDCバイアス項は、G.723.1コーデックによって用いられるDCバイアス項とは異なり、上記の数式のb項は違いを補うのに用いられる。
方法2:LSP係数による励振ベクトル較正
復号されたソース励振ベクトルは、音声ドメインに変換されるように各サブフレーム内のソースLPC係数によって同期させられ、次いでトランスコーディングにおけるターゲット信号を形成するようにディスティネーション・コーデックの量子化されたLPパラメータを用いてフィルタリングされる。この較正は、選択的な較正であり、LPCパラメータの顕著な違いがある場合、知覚的音声品質を著しく向上させることができる。図13は、励振較正手法を示している。
復号されたソース励振ベクトルは、音声ドメインに変換されるように各サブフレーム内のソースLPC係数によって同期させられ、次いでトランスコーディングにおけるターゲット信号を形成するようにディスティネーション・コーデックの量子化されたLPパラメータを用いてフィルタリングされる。この較正は、選択的な較正であり、LPCパラメータの顕著な違いがある場合、知覚的音声品質を著しく向上させることができる。図13は、励振較正手法を示している。
パラメータ・マッピングおよびチューニング・モジュール
この節では、CELP励振パラメータをマッピングする3つの戦略について論じる。これらの戦略は、計算面の複雑さおよび出力品質の低いものから高いものへ順に提示される。本発明の趣旨は、励振を音声信号を再構成する必要なしに直接マッピングできることである。このことは、信号を短期インパルス応答によってフィルタリングする必要がないため、閉ループコードブック探索時に顕著な量の計算が節約されることを意味している。このマッピングがうまくいくのは、着信ビットストリームが、音声を生成するソースCELPコーデックによるすでに最適な励振を含んでいるからである。本発明はこのことを用いて、音声ドメインではなく励振ドメインで高速の探索を行う。
この節では、CELP励振パラメータをマッピングする3つの戦略について論じる。これらの戦略は、計算面の複雑さおよび出力品質の低いものから高いものへ順に提示される。本発明の趣旨は、励振を音声信号を再構成する必要なしに直接マッピングできることである。このことは、信号を短期インパルス応答によってフィルタリングする必要がないため、閉ループコードブック探索時に顕著な量の計算が節約されることを意味している。このマッピングがうまくいくのは、着信ビットストリームが、音声を生成するソースCELPコーデックによるすでに最適な励振を含んでいるからである。本発明はこのことを用いて、音声ドメインではなく励振ドメインで高速の探索を行う。
前述のように、3つの励振マッピング方法を有し、各々が連続的に高くなる性能を有すると、トランスコーダを利用可能な計算リソースに適合させることができる。
CELPパラメータ直接空間マッピング
この戦略は最も簡単なトランスコーディング方式である。マッピングは、ソース・パラメータとディスティネーション・パラメータとの間の物理的意味の類似性に基づくマッピングであり、トランスコーディングは、反復や探索なしに分析公式を用いて直接行われる。この方式の利点は、大量のメモリが必要とされず、消費されるMIPSがほぼ零であり、しかも、品質が低下するにもかかわらず、理解できる音声を生成できることである。本発明のCELPパラメータ直接空間マッピング法が、図7に示されている従来技術の装置とは異なることに留意されたい。この方法は、一般的であり、ソースおよびディスティネーションにおける異なるフレーム・サイズまたはサブフレーム・サイズ、異なるCELP符号に関して、CELPによるすべての種類のトランスコーディングに適用される。
この戦略は最も簡単なトランスコーディング方式である。マッピングは、ソース・パラメータとディスティネーション・パラメータとの間の物理的意味の類似性に基づくマッピングであり、トランスコーディングは、反復や探索なしに分析公式を用いて直接行われる。この方式の利点は、大量のメモリが必要とされず、消費されるMIPSがほぼ零であり、しかも、品質が低下するにもかかわらず、理解できる音声を生成できることである。本発明のCELPパラメータ直接空間マッピング法が、図7に示されている従来技術の装置とは異なることに留意されたい。この方法は、一般的であり、ソースおよびディスティネーションにおける異なるフレーム・サイズまたはサブフレーム・サイズ、異なるCELP符号に関して、CELPによるすべての種類のトランスコーディングに適用される。
励振空間ドメインにおける分析
この戦略は、適応的コードブックと固定コードブックの両方が探索され、ゲインが、CELP標準によって定義される通常の方法で推定されるが、これらが音声ドメインではなく励振ドメインで行われるという点で前述の方式よりも高度である。ピッチ寄与はまず、入力CELPサブフレームからのピッチを初期推定値として用いたローカル探索によって求められる。ピッチ寄与は、求められた後、励振から引算され、残りに最適に整合させることによって固定コードブックが求められる。タンデム手法に勝る利点は、開ループ・ピッチ推定値を、CELP標準によって使用される自動補正方法から算出する必要がなく、その代わりに、復号されたCELPサブフレームのピッチ・ラグから求められることである。さらに、探索は音声ドメインではなく励振ドメインで行われ、したがって、ピッチ探索およびコードブック探索時のインパルス応答フィルタリングは必要とされない。これによって、出力品質を損なわずに計算量が著しく節約される。
この戦略は、適応的コードブックと固定コードブックの両方が探索され、ゲインが、CELP標準によって定義される通常の方法で推定されるが、これらが音声ドメインではなく励振ドメインで行われるという点で前述の方式よりも高度である。ピッチ寄与はまず、入力CELPサブフレームからのピッチを初期推定値として用いたローカル探索によって求められる。ピッチ寄与は、求められた後、励振から引算され、残りに最適に整合させることによって固定コードブックが求められる。タンデム手法に勝る利点は、開ループ・ピッチ推定値を、CELP標準によって使用される自動補正方法から算出する必要がなく、その代わりに、復号されたCELPサブフレームのピッチ・ラグから求められることである。さらに、探索は音声ドメインではなく励振ドメインで行われ、したがって、ピッチ探索およびコードブック探索時のインパルス応答フィルタリングは必要とされない。これによって、出力品質を損なわずに計算量が著しく節約される。
フィルタリングされた励振空間ドメインにおける分析
この場合、LPパラメータは依然として、ソース・コーデックからディスティネーション・コーデックに直接マッピングされ、復号されたピッチ・ラグは、ディスティネーション・コーデックの開ループ・ピッチ推定値として使用される。閉ループ・ピッチ探索は依然として、励振ドメインで行われる。しかし、固定コードブックの探索は、フィルタリングされた励振空間ドメインで行われる。フィルタの種類、ターゲット・ベクトルが一方の探索の場合にこのドメインに変換されるか、それとも両方の探索の場合にこのドメインに変換されるかの選択は、所望の品質要件および複雑さ要件に依存する。
この場合、LPパラメータは依然として、ソース・コーデックからディスティネーション・コーデックに直接マッピングされ、復号されたピッチ・ラグは、ディスティネーション・コーデックの開ループ・ピッチ推定値として使用される。閉ループ・ピッチ探索は依然として、励振ドメインで行われる。しかし、固定コードブックの探索は、フィルタリングされた励振空間ドメインで行われる。フィルタの種類、ターゲット・ベクトルが一方の探索の場合にこのドメインに変換されるか、それとも両方の探索の場合にこのドメインに変換されるかの選択は、所望の品質要件および複雑さ要件に依存する。
不規則さを平滑化する低域フィルタ、ソース・コーデックとディスティネーション・コーデックにおける励振の特徴の違いを補うフィルタ、および知覚的に重要な信号の特徴を向上させるフィルタを含む様々なフィルタが適用可能である。利点は、重み付きLP合成フィルタを用いる標準符号化におけるターゲット信号の計算と異なり、このフィルタのパラメータ(順序、周波数強調/強調解除、移相)は完全に調整可能であることである。したがって、この戦略は、特定の一対のコード間のトランスコーディングの品質を向上させるように調整すると共に、品質を犠牲して複雑さを低減させるのを可能にする。
サイレンス・フレーム・トランスコーディングおよび生成
CELPによる標準によっては、無音声期間中の不連続伝送(DTX)および快適騒音生成(CNG)を可能にする音声活動検出器(VAD)を実施する標準がある。VADを用いると特定のビット・レートに関する顕著な利点が得られる。これらのフレーム間のトランスコーディングが必要であり、サイレンス・フレームがソース・コーデックによって生成されない場合にディスティネーション・コーデック用のサイレンス・フレームを生成する必要がある。通常、各フレームは、デコーダで適切な快適雑音を生成するパラメータから成っている。これらのパラメータは、簡単な代数法を用いてトランスコーディングすることができる。
CELPによる標準によっては、無音声期間中の不連続伝送(DTX)および快適騒音生成(CNG)を可能にする音声活動検出器(VAD)を実施する標準がある。VADを用いると特定のビット・レートに関する顕著な利点が得られる。これらのフレーム間のトランスコーディングが必要であり、サイレンス・フレームがソース・コーデックによって生成されない場合にディスティネーション・コーデック用のサイレンス・フレームを生成する必要がある。通常、各フレームは、デコーダで適切な快適雑音を生成するパラメータから成っている。これらのパラメータは、簡単な代数法を用いてトランスコーディングすることができる。
発明の実施例
以下の節では、G.723.1音声符号化標準およびGSM-AMR音声符号化標準に関する本発明の態様を示す。本発明は、これらの標準に制限されない。本発明は、CELPによるすべてのオーディオ符号化標準をカバーする。当業者には、CELPによる他の符号化標準同士のトランスコーディングにこれらの方法を適用するにはどうすべきかが認識されよう。好ましい態様について説明する前に、まずGSM-AMRコーデックおよびG.723.1コーデックについて簡単に説明しておく。
以下の節では、G.723.1音声符号化標準およびGSM-AMR音声符号化標準に関する本発明の態様を示す。本発明は、これらの標準に制限されない。本発明は、CELPによるすべてのオーディオ符号化標準をカバーする。当業者には、CELPによる他の符号化標準同士のトランスコーディングにこれらの方法を適用するにはどうすべきかが認識されよう。好ましい態様について説明する前に、まずGSM-AMRコーデックおよびG.723.1コーデックについて簡単に説明しておく。
GSM-AMRコーデック
GSM-AMRコーデックは、8つのソース・コーデックを12.2kbit/s、10.2kbit/s、7.95kbit/s、7.40kbit/s、6.70kbit/s、5.90kbit/s、5.15kbit/s、および4.75kbit/sと一緒に使用する。
GSM-AMRコーデックは、8つのソース・コーデックを12.2kbit/s、10.2kbit/s、7.95kbit/s、7.40kbit/s、6.70kbit/s、5.90kbit/s、5.15kbit/s、および4.75kbit/sと一緒に使用する。
このコーデックは、符号励振線形予測(CELP)符号化モデルに基づくコーデックである。第10オーダー線形予測(LP)合成フィルタ、または短期合成フィルタが用いられる。長期合成フィルタ、またはピッチ合成フィルタは、いわゆる適応的コードブック手法を用いて実施される。
CELP音声合成モデルでは、短期LP合成フィルタの入力における励振信号は、適応的コードブックおよび固定(革新的な)コードブックから得た2つの励振信号を足算することによって生成される。音声は、これらのコードブックからの2つの適切に選択されたベクトルを短期合成フィルタを通じて供給することによって合成される。コードブックにおける最適な励振シーケンスは、元の音声と合成された音声との誤差が、知覚的に重み付けされた歪み測度によって最小限に抑えられる合成分析探索手順を用いて選択される。合成分析探索技術に用いられる知覚的重み付けフィルタは、未量子化LPパラメータを使用する。
コーダは、サンプリング周波数8000サンプル/sにおける160個のサンプルに対応する20msの音声フレームに作用する。160個の音声サンプルごとに、音声信号が分析され、CELPモデルのパラメータ(LPフィルタ係数、適応的コードブックおよび固定コードブックのインデックスおよびゲイン)が抽出される。これらのパラメータは符号化され送信される。デコーダでは、これらのパラメータが復号され、再構成された抽出信号をLP合成フィルタを通してフィルタリングすることによって音声が合成される。
LP分析は、12.2kbit/sモードではフレーム当たり2回行われ、その他のモードでは1回行われる。12.2kbit/sモードの場合、2組のLPパラメータがライン・スペクトル・ペア(LSP)に変換され、38ビットによる分割行列量子化(SMQ)を用いて共に量子化される。他のモードの場合、1組のLPパラメータがライン・スペクトル・ペア(LSP)に変換され、ベクトルが、分割ベクトル量子化(SVQ)を用いて量子化される。
音声フレームは、それぞれ5msの4つのサブフレームに分割される(40個のサンプル)。適応的コードブックおよび固定コードブックはサブフレームごとに送信される。量子化LPパラメータおよび未量子化LPパラメータまたはそれらの補間バージョンは、サブフレームに応じて使用される。開ループ・ピッチ・ラグは、知覚的に重み付けされた音声信号に基づいて他のあらゆるサブフレームで推定される(推定がフレーム当たり1回行われる5.15kbit/sモードおよび4.75kbit/sモードを除く)。
次いで、以下の動作が各サブフレームに対して繰り返される。
・LP残りを重み付き合成フィルタを通してフィルタリングすることによってターゲット信号が算出される。フィルタの初期状態は、LP残りと励振との誤差をフィルタリングすることによって更新されている(これは、重み付き合成フィルタの零入力応答を重み付き音声信号から引算する一般的な手法と等価である)。
・重み付き合成フィルタのインパルス応答が算出される。
・次いで、ターゲット・インパルス応答を用いて、開ループ・ピッチ・ラグの周りを探索することによって、閉ループ・ピッチ分析が行われる(ピッチ・ラグおよびゲインが求められる)。(モードに応じて)サンプル分解能の6分の1または3分の1の分数ピッチが使用される。
・ターゲット信号が、適応的コードブック寄与(フィルタリングされた適応的符号ベクトル)を除去することによって更新され、この新しいターゲットは、固定代数コードブックの探索に用いられる(最適なイノベイション符号語が求められる)。
・適応的コードブックおよび固定コードブックのゲインは、それぞれ4ビットおよび5ビットでスカラ定量化されるか、6〜7ビットでベクトル量子化される(固定コードブック・ゲインに移動平均(MA)予測が適用される)。
・最後に、(求められた励振信号を用いて)フィルタ・メモリが更新され、次のサブフレームのターゲット信号が求められる。
・LP残りを重み付き合成フィルタを通してフィルタリングすることによってターゲット信号が算出される。フィルタの初期状態は、LP残りと励振との誤差をフィルタリングすることによって更新されている(これは、重み付き合成フィルタの零入力応答を重み付き音声信号から引算する一般的な手法と等価である)。
・重み付き合成フィルタのインパルス応答が算出される。
・次いで、ターゲット・インパルス応答を用いて、開ループ・ピッチ・ラグの周りを探索することによって、閉ループ・ピッチ分析が行われる(ピッチ・ラグおよびゲインが求められる)。(モードに応じて)サンプル分解能の6分の1または3分の1の分数ピッチが使用される。
・ターゲット信号が、適応的コードブック寄与(フィルタリングされた適応的符号ベクトル)を除去することによって更新され、この新しいターゲットは、固定代数コードブックの探索に用いられる(最適なイノベイション符号語が求められる)。
・適応的コードブックおよび固定コードブックのゲインは、それぞれ4ビットおよび5ビットでスカラ定量化されるか、6〜7ビットでベクトル量子化される(固定コードブック・ゲインに移動平均(MA)予測が適用される)。
・最後に、(求められた励振信号を用いて)フィルタ・メモリが更新され、次のサブフレームのターゲット信号が求められる。
20ms音声フレームごとに、4.75kbps、5.15kbps、5.90kbps、6.70kbps、7.40kbps、7.95kbps、10.2kbps、または12.2kbpsのビット・レートに対応する95ビット、103ビット、118ビット、134ビット、148ビット、159ビット、204ビット、または244ビットのビット割当てが生成される。
G.723.1コーデック
G.723.1コーダは、それに関連する2つのビット・レート、すなわち、5.3kbpsおよび6.3kbpsを有している。どちらのレートもエンコーダおよびデコーダの必須部分である。任意の30msフレーム境界で2つのレートを切り換えることが可能である。
G.723.1コーダは、それに関連する2つのビット・レート、すなわち、5.3kbpsおよび6.3kbpsを有している。どちらのレートもエンコーダおよびデコーダの必須部分である。任意の30msフレーム境界で2つのレートを切り換えることが可能である。
コーダは、線形予測合成分析符号化の原則に基づくものであり、知覚的に重み付けされた誤差信号を最小限に抑えようとする。エンコーダは、それぞれの240個のサンプルを有するブロック(フレーム)に作用する。これは、8kHzサンプリング・レートにおける30msecに等しい。各ブロックは、まず高域フィルタリングされてDC成分が除去され、次いでそれぞれ60個のサンプルを有する4つのサブフレームに分割される。サブフレームごとに、未処理の入力信号を用いて第10線形予測コーダ(LPC)フィルタが算出される。最後のサブフレームのLPCフィルタは、予測分割ベクトル量子化器(PSVQ)を用いて量子化される。未量子化LPC係数は、フレーム全体をフィルタリングし、知覚的に重み付けされた音声信号を得るのに用いられる短期知覚的重み付けフィルタを構成するのに用いられる。
2つのサブフレーム(120個のサンプル)ごとに、重み付けされた音声信号を用いて開ループ・ピッチ周期LOLが算出される。このピッチ推定は、120個のサンプルのブロックに対して行われる。ピッチ周期は、サンプル18個から142個までの範囲で探索される。
この点から、音声がサブフレーム当たり60個のサンプルに対して処理される。
すでに算出されている推定ピッチ周期を用いて、高調波雑音整形フィルタが構成される。LPC合成フィルタ、フォルマント知覚的重み付けフィルタ、および高調波雑音整形フィルタの組合せを用いてインパルス応答が生成される。次いで、インパルス応答はさらなる計算に用いられる。
ピッチ周期推定値LOLおよびインパルス応答を用いて、閉ループ・ピッチ予測値が算出される。第5オーダー・ピッチ予測値が用いられる。ピッチ周期は、開ループ・ピッチ推定値の周りの小さな差分値として算出される。次いで、ピッチ予測値の寄与が初期ターゲット・ベクトルから引算される。ピッチ周期と差分値はどちらもデコーダに送信される。
最後に、励振の非周期的成分が近似される。ビット・レートが高い場合、マルチパルス最大尤度量子化(MP-MLQ)励振が使用され、ビット・レートが低い場合、代数コードブック励振(ACELP)が使用される。
第1の態様−GSM-AMRから6.723.1
図17は、本発明の第1の態様によるGSM-AMRからG.723.1へのトランスコーダを示すブロック図である。GSM-AMRビットストリームは、最高レート・モード12.2kbps用の244ビット(31バイト)から最低レート・モード4.75kbpsコーデック用の95ビット(12バイト)までの長さの20msフレームから成っている。合計で8つのモードがある。8つのGSM-AMR動作モードの各々はそれぞれの異なるビットストリームを生成する。G.723.1フレームは、持続時間が30msであり、1.5GSM-AMRフレームから成るため、単一のG.723.1フレームを生成するには、2つのGSM-AMRフレームが必要である。次いで、第3のGSM-AMRフレームが到着したときに次のG.723.1フレームを生成することができる。したがって、3つのGSM-AMRフレームが処理されるたびに2つのG.723.1が生成される。
図17は、本発明の第1の態様によるGSM-AMRからG.723.1へのトランスコーダを示すブロック図である。GSM-AMRビットストリームは、最高レート・モード12.2kbps用の244ビット(31バイト)から最低レート・モード4.75kbpsコーデック用の95ビット(12バイト)までの長さの20msフレームから成っている。合計で8つのモードがある。8つのGSM-AMR動作モードの各々はそれぞれの異なるビットストリームを生成する。G.723.1フレームは、持続時間が30msであり、1.5GSM-AMRフレームから成るため、単一のG.723.1フレームを生成するには、2つのGSM-AMRフレームが必要である。次いで、第3のGSM-AMRフレームが到着したときに次のG.723.1フレームを生成することができる。したがって、3つのGSM-AMRフレームが処理されるたびに2つのG.723.1が生成される。
GSM-AMR音声生成モデルで短期フィルタによって使用される10個のLSPパラメータは、同じ技術を用いて、様々な動作モードに対してそれぞれの異なるビットストリーム・フォーマットで符号化される。LSPパラメータを再構成するアルゴリズムは、GSM-AMR標準の文献に記載されている。
各サブフレームごとに短期フィルタ・パラメータが生成された後、適応的符号語と固定(代数)符号語を組み合わせることによって励振ベクトルを形成する必要がある。適応的符号語は、6分の1分解能ピッチ・ラグ・パラメータまたは3分の1分解能ピッチ・ラグ・パラメータに基づいて60タップ補間フィルタを用いて構成される。次いで、固定符号語が標準の定義に応じて構成され、励振が次式のように形成される。
上式で、xは励振であり、vは補間された適応的符号語であり、cは固定符号ベクトルであり、
および
はそれぞれ、適応的符号ゲインおよび固定符号ゲインである。次いで、この励振は、GSM-AMRアンパッカーのメモリ状態を更新するために使用され、かつG.723.1ビットストリームによってマッピングのために使用される。
上式で、xは励振であり、vは補間された適応的符号語であり、cは固定符号ベクトルであり、
および
はそれぞれ、適応的符号ゲインおよび固定符号ゲインである。次いで、この励振は、GSM-AMRアンパッカーのメモリ状態を更新するために使用され、かつG.723.1ビットストリームによってマッピングのために使用される。
適応的符号語は、励振ベクトルの線形組合せを形成し、GSM-AMRアンパッカーによって生成されるターゲット励振信号x[]との最適な一致を求めることによって各サブフレームごとに求められる。この組合せは、5つの連続するラグにおける前の励振の重み付き和である。これは、以下の数式によって最もうまく説明がつく。
上式で、v[]は再構成された適応的符号語であり、u[]は前の励振バッファであり、Lは、(GSM-AMRアンパッキング・モジュールによって求められる)18から143の間(18と143を含む)の(整数)ピッチ・ラグであり、βjは、ゲインおよびラグ位相を決定するラグ重み付き値である。βj値のベクトル・テーブルは、適応的符号語v[]と励振ベクトルx[]との一致を最適化するように探索される。
上式で、v[]は再構成された適応的符号語であり、u[]は前の励振バッファであり、Lは、(GSM-AMRアンパッキング・モジュールによって求められる)18から143の間(18と143を含む)の(整数)ピッチ・ラグであり、βjは、ゲインおよびラグ位相を決定するラグ重み付き値である。βj値のベクトル・テーブルは、適応的符号語v[]と励振ベクトルx[]との一致を最適化するように探索される。
励振の適応的コードブック成分が求められた後、この成分が励振から引算され、残りを固定コードブックによって符号化することができる。各サブフレームごとの残り信号は次式のように算出される。
上式で、x2[]は固定コードブック探索のターゲットであり、x[]はGSM-AMRアンパッキングから導かれる励振であり、v[]は(補間されスケーリングされた)適応的符号語である。
上式で、x2[]は固定コードブック探索のターゲットであり、x[]はGSM-AMRアンパッキングから導かれる励振であり、v[]は(補間されスケーリングされた)適応的符号語である。
固定コードブックは、G.723.1コーデックの高レート・モードと低レート・モードとで異なる。高レートは、任意の位置で、偶数サブフレームについてはサブフレーム当たり6つのパルスを使用可能にし、奇数サブフレームについてはサブフレーム当たり5つのパルスを使用可能にする。低レート・モードは、制限された位置でサブフレーム当たり4つのパルスを使用可能にする代数コードブック(ACELP)を用いる。どちらのコードブックも格子フラグを用いて、符号語を1位置シフトすべきかどうかを示す。これらのコードブックは、標準で定義されている方法によって探索される。ただし、探索は音声ドメインではなく励振ドメインで行われるので、インパルス応答フィルタは使用されない。
コーデックの(永久)メモリは、各サブフレームの処理が完了したときに更新する必要がある。これは、まず前の励振バッファu[]を60サンプル分(すなわち、1サブフレーム分)シフトさせて最も古いサンプルを破棄し、次いで現在のサブフレームの励振をバッファの1番上の60個のサンプルにコピーすることによって行われる。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
すべてのマッピングされたパラメータは発信G.723.1ビットストリームとして符号化され、システムは次のフレームを処理する準備が完了する。
第2の態様−6.723.1からGSM-AMR
図18は、本発明の第2の態様によるG.723.1からGSM-AMRへのトランスコーダを示すブロック図である。G.723.1ビットストリームは、高レート(6.3kbps)コーデック用の長さ192ビット(24バイト)のフレーム、または低レート(5.3kbps)コーデック用の160ビット(20バイト)のフレームから成っている。各フレームは、非常に類似した構造を有し、固定コードブック・パラメータ表現のみが異なる。
図18は、本発明の第2の態様によるG.723.1からGSM-AMRへのトランスコーダを示すブロック図である。G.723.1ビットストリームは、高レート(6.3kbps)コーデック用の長さ192ビット(24バイト)のフレーム、または低レート(5.3kbps)コーデック用の160ビット(20バイト)のフレームから成っている。各フレームは、非常に類似した構造を有し、固定コードブック・パラメータ表現のみが異なる。
短期声帯フィルタをモデル化するのに用いられる10個のLSPパラメータは、高レートでも低レートでも同様に符号化され、G.723.1フレームのビット2から25まで抽出することができる。4番目のサブフレームのLSPのみが符号化され、フレーム同士の間の補間を用いて他の3つのサブフレームのLSPが再生される。符号化では、3つの参照テーブルと、これらのテーブルから導かれる3つのサブベクトルを連結することによって再構成されるLSPベクトルとが使用される。各テーブルは256個のベクトル・エントリを有し、最初の2つのテーブルは3要素サブベクトルを有し、最後のテーブルは4要素サブベクトルを有している。これらを組み合わせると、10要素LSPベクトルが得られる。
適応的符号語は、前の励振ベクトル同士を組み合わせることによって各サブフレームごとに求められる。この組合せは、5つの連続するラグにおける前の励振の重み付き和である。これは、以下の数式によって最もうまく説明がつく。
上式で、v[]は再構成された適応的符号語であり、u[]は前の励振バッファであり、Lは、18から143の間(18と143を含む)の(整数)ピッチ・ラグであり、βjは、ピッチ・ゲイン・パラメータによって求められるラグ重み付き値である。
上式で、v[]は再構成された適応的符号語であり、u[]は前の励振バッファであり、Lは、18から143の間(18と143を含む)の(整数)ピッチ・ラグであり、βjは、ピッチ・ゲイン・パラメータによって求められるラグ重み付き値である。
ラグ・パラメータLはビットストリームから直接抽出される。第1および第3のサブフレームはラグの全動的範囲を使用し、一方、第2および第4のサブフレームはラグを前のサブフレームからのずれとして使用する。ラグ重み付けパラメータβjはテーブル参照によって求められる。適応的符号語アンパッキングの結果として、以下の計算によって分数ピッチ・ラグおよび関連するゲインの近似を求めることができる。
固定コードブックは、G.723.1コーデックの高レート・モードと低レート・モードとで異なる。高レート・モードは、任意の位置で、偶数サブフレームについてはサブフレーム当たり6つのパルスを使用可能にし、奇数サブフレームについてはサブフレーム当たり5つのパルスを使用可能にする。低レート・モードは、制限された位置でサブフレーム当たり4つのパルスを使用可能にする代数コードブック(ACELP)を用いる。どちらのコードブックも格子フラグを用いて、符号語を1位置シフトすべきかどうかを示す。符号化されたビットストリームから符号語を生成するアルゴリズムは、G.723.1標準の文献に記載されている。
コーデックの(永久)メモリは、各サブフレームの処理が完了したときに更新する必要がある。これは、まず前の励振バッファu[]を60サンプル分(すなわち、1サブフレーム分)シフトさせて最も古いサンプルを破棄し、次いで現在のサブフレームの励振をバッファの1番上の60個のサンプルにコピーすることによって行われる。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
トランスコーダのGSM-AMRパラメータ・マッピング部は、上述のように補間されたCELPパラメータを取り出し、GSM-AMRパラメータ空間を探索するための基礎として使用する。LSPパラメータは単に受信されたまま符号化され、一方、他のパラメータ、すなわち励振およびピッチ・ラグは、GSM-AMR空間における局所探索用の推定値として使用される。以下の図は、トランスコーディングを完了するために各サブフレームに対して行う必要のある主要な動作を示している。
適応的符号語は、最大ラグ143までの前の励振のベクトルでターゲット励振との最良の一致を探索することによって形成される。ターゲット励振は、補間されたサブフレームから求められる。前の励振は、モードに応じて6分の1間隔または3分の1間隔によって補間することができる。最適なラグは、G.723.1アンパッキング・モジュールから求められるピッチ・ラグの周りの小さな領域を探索することによって求めることができる。この領域が探索されて最適な整数ラグが求められ、次いでラグの分数部を求めるように修正される。この手順では、24タップ補間フィルタを用いて部分探索が行われる。第1および第3のサブフレームは第2および第4のサブフレームと異なるように処理される。次いで、補間された適応的符号語v[]は次式のように形成される。
上式で、u[]は前の励振バッファであり、Lは(整数)ピッチ・ラグであり、tは6分の1分解能における分数ピッチ・ラグであり、b60は60タップ補間フィルタである。
上式で、u[]は前の励振バッファであり、Lは(整数)ピッチ・ラグであり、tは6分の1分解能における分数ピッチ・ラグであり、b60は60タップ補間フィルタである。
ピッチ・ゲインが算出され、ピッチ・ゲインは、符号化してデコーダに送信することができ、かつ固定コードブック・ターゲット・ベクトルを算出できるように量子化される。すべてのモードにおいて、ピッチ・ゲインは各サブフレームごとに同様に算出される。
上式で、gpは未量子化ピッチ・ゲインであり、xは適応的コードブック探索のターゲットであり、vは(補間された)適応的符号語ベクトルである。12.2kbpsモードおよび7.95kbpsモードでは適応的コードブック・ゲインと固定コードブック・ゲインが独立に量子化され、一方、他のモードでは、固定ゲインと適応的ゲインの連結量子化が使用される。
上式で、gpは未量子化ピッチ・ゲインであり、xは適応的コードブック探索のターゲットであり、vは(補間された)適応的符号語ベクトルである。12.2kbpsモードおよび7.95kbpsモードでは適応的コードブック・ゲインと固定コードブック・ゲインが独立に量子化され、一方、他のモードでは、固定ゲインと適応的ゲインの連結量子化が使用される。
励振の適応的コードブック成分が求められた後、この成分が励振から引算され、残りを固定コードブックによって符号化することができる。各サブフレームごとの残り信号は次式のように算出される。
上式で、x2[]は固定コードブック探索のターゲットであり、x[]は適応的コードブック探索のターゲットであり、
は量子化されたピッチ・ゲインであり、v[]は(補間された)適応的 である。
上式で、x2[]は固定コードブック探索のターゲットであり、x[]は適応的コードブック探索のターゲットであり、
は量子化されたピッチ・ゲインであり、v[]は(補間された)適応的 である。
固定コードブック探索は、適応的コードブック成分が削除された後に残り信号との最良の一致を求めるように構成される。このことは、無声音および適応的コードブックのプライミングにとって重要である。トランスコーディングに用いられるコードブック探索は、元の音声についてのかなりの分析がすでに行われているので、コーデックに用いられるコードブック探索よりも簡単である。さらに、コードブック探索が行われる信号は、合成された音声ではなく再構成された励振信号であり、したがって、すでに固定ブック符号化により適した構造を有している。
固定コードブックのゲインは、移動平均予測を用いて、前の4つのサブフレームのエネルギーに基づいて量子化される。実際のゲインと予測されるゲインとの補正係数が、(テーブル参照を介して)量子化され、デコーダに送信される。厳密な詳細は、GSR-AMR標準の文献に記載されている。
コーデックの(永久)メモリは、各サブフレームの処理が完了したときに更新する必要がある。これは、まず前の励振バッファu[]を40サンプル分(すなわち、1サブフレーム分)シフトさせて最も古いサンプルを破棄し、次いで現在のサブフレームの励振をバッファの1番上の40個のサンプルにコピーすることによって行われる。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
上式で、インデックスnは、現在のサブフレームの第1のサンプルに対して設定される。他のパラメータはすでに定義されている。
現在本発明の実施例と考えられているものを例示し説明したが、当業者には、本発明の真の範囲から逸脱せずに他の様々な修正を施すことができ、かつ均等物で置換できることが理解されよう。さらに、本明細書で説明する本発明の中心的な概念から逸脱せずに、特定の状況を本発明の教示に適合させるように多数の修正を施すことができる。
Claims (46)
- 以下を含む、CELPフレームをあるCELPに基づく標準から別のCELPに基づく標準に変換し、および/または単一の標準内で異なるモードに変換する装置:
ソース・コーデックから1つまたは複数のCELPパラメータを抽出するビットストリーム・アンパッキング・モジュール;
ビットストリーム・アンパッキング・モジュールに結合され、ソース・コーデックおよびディスティネーション・コーデックの様々なフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートの間を補間するよう適合化されているインタポレータ・モジュール;
インタポレータ・モジュールに結合され、ソース・コーデックの1つまたは複数のCELPパラメータをディスティネーション・コーデックの1つまたは複数のCELPパラメータにマッピングするよう適合化されているマッピング・モジュール;
マッピング・モジュールに結合され、ディスティネーション・コーデックからの少なくとも1つまたは複数のCELPパラメータに基づいて少なくとも1つのディスティネーション出力CELPフレームを構成するよう適合化されているディスティネーション・ビットストリーム・パッキング・モジュール;ならびに
少なくともディスティネーション・ビットストリーム・パッキング・モジュール、マッピング・モジュール、インタポレータ・モジュール、およびビットストリーム・アンパッキング・モジュールに結合され、1つまたは複数のモジュールの動作を監視するよう適合化されており、かつ1つまたは複数の外部アプリケーションから指示を受信するよう適合化されており、1つまたは複数の外部アプリケーションにステータス情報を与えるよう適合化されているコントローラ。 - コントローラが、単一のコントローラまたは複数のコントローラである、請求項1記載の装置。
- マッピング・モジュールおよびディスティネーション・ビットストリーム・パッキング・モジュールが、同じモジュール内にある、請求項1記載の装置。
- マッピング・モジュールが、単一のモジュールまたは複数のモジュールである、請求項1記載の装置。
- 補間モジュールが、単一のモジュールまたは複数のモジュールである、請求項1記載の装置。
- 以下を含む、ビットストリーム・アンパッキング・モジュールである、請求項1記載の装置:
ソースCELPコーデック入力フレーム内の1つまたは複数のCELPパラメータの第1のフォーマット内の情報を抽出するよう適合化されているビットストリーム・プロセッサ;
ビットストリーム・プロセッサに結合され、ソースCELPコーデック入力フレームから少なくとも情報を用いて1つまたは複数のLSP係数を出力するよう適合化されているLSP復号モジュール;
ビットストリーム・プロセッサに結合され、情報を復号してソースCELPコーデック入力フレームからピッチ・ラグ・パラメータおよびピッチ・ゲイン・パラメータを出力するよう適合化されている復号モジュール;
ビットストリーム・プロセッサに結合され、情報を復号して固定コードブック・ベクトルを出力するよう適合化されている固定コードブック復号モジュール;
ビットストリーム・プロセッサに結合され、情報を復号して適応的コードブック寄与ベクトルを出力するよう適合化されている適応的コードワード復号モジュール;ならびに
固定コードブック復号モジュールおよび適応的コードワード復号モジュールに結合され、少なくとも固定コードブック・ベクトルおよび適応的コードブック・ベクトルを用いて励振ベクトルを出力するよう適合化されている励振生成装置。 - 以下を含む、インタポレータ・モジュールである、請求項1記載の装置:
ソース・コーデックおよびディスティネーション・コーデックが異なるサブフレーム・サイズを有するときにソース・コーデックの1つまたは複数のLSP係数をディスティネーション・コーデックの1つまたは複数のLSP係数に変換するよう適合化されているLSPプロセス;
ソース・コーデックおよびディスティネーション・コーデックが異なるサブフレーム・サイズを有するときにソース・コーデックからのピッチ・ラグおよびピッチ・ゲインをディスティネーション・コーデックのピッチ・ラグおよびピッチ・ゲインに変換するよう適合化されている適応的コードブック・プロセス;ならびに
ソース・コーデックおよびディスティネーション・コーデックが異なるサブフレーム・サイズを有するときに補間のためにバッファリングする必要のある1つまたは複数のCELPパラメータを保持するよう適合化されているCELPパラメータ・バッファ。 - 以下を含む、パラメータ・マッピングおよびチューニング・モジュールである、請求項1記載の装置:
複数の戦略に基づいてCELPパラメータ・マッピング戦略を選択するよう適合化されているパラメータ・マッピングおよびチューニング戦略切換えモジュール;ならびに
1つまたは複数のディスティネーションCELPパラメータを出力するよう適合化されているパラメータ・マッピングおよびチューニング戦略モジュール。 - 以下を含む、複数の戦略である、請求項8記載の装置:
CELPパラメータ直接空間マッピング・モジュール;
フィルタリング済み励振空間ドメイン分析モジュール;および
励振空間ドメイン分析モジュール。 - 以下を含む、パラメータ・マッピングおよチューニング戦略モジュールである、請求項8記載の装置:
ディスティネーションLSP係数を符号化するLSP係数変換器;ならびに
ピッチ・ラグ、ゲイン、および励振ベクトルを含むCELP励振パラメータを補間から取り出し、符号化されたCELP励振パラメータを得るCELP励振マッピング・ユニット。 - 以下を含む、CELP励振マッピング・ユニットである、請求項10記載の装置:
分析公式を用いて、反復なしに、符号化されたディスティネーションCELPパラメータを作成するCELPパラメータ直接空間マッピング・モジュール;
励振空間ドメイン内を探索することによって符号化されたディスティネーションCELPパラメータを作成する励振空間ドメイン分析マッピング・モジュール;および
励振空間における適応的閉ループおよびフィルタリング済み励振空間における固定コードブックを探索することによって符号化されたディスティネーションCELPパラメータを作成するフィルタリング済み励振空間ドメイン分析マッピングモジュール。 - ディスティネーション・ビットストリーム・パッキング・モジュールは、各フレーム・パッキング機能が、ディスティネーションCELPコーダを含む複数のCELPコーダの1つである選択されたディスティネーションCELPコーダ用の複数のアプリケーションから事前に選択されたアプリケーションに適合することができる、複数のフレーム・パッキング機能を含む、請求項1記載の装置。
- 以下を含む、コントローラである、請求項1記載の装置:
外部の指示を受信し、かつ各信号処理モジュールを制御する制御ユニット;および
要求に応じてフレーム、カウント、エラーログなどのトランスコーディング情報を外部に送信するステータス・ユニット。 - 補間モジュールが、線形補間または非線形補間から選択することができる、請求項1記載の装置。
- 以下を含む、前記CELPパラメータ・バッファである、請求項7記載の装置:
次のサブフレームまたはフレームにおけるマッピングを待つ再構成された励振ベクトルを記憶するよう適合化されている励振ベクトル・バッファ;
次のサブフレームまたはフレームにおけるマッピングを待つ前補間LSP係数または後補間LSP係数を記憶するLSP係数バッファ;および
次のサブフレームまたはフレームにおけるマッピングを待つ前補間ピッチ・ラグ、ピッチ・ゲイン、コードブック・ゲイン、およびインデックスまたは後補間ピッチ・ラグ、ピッチ・ゲイン、コードブック・ゲイン、およびインデックスを記憶するCELP他のパラメータ・バッファ。 - 以下の段階を含む、CELPによる圧縮音声ビットストリームをソース・コーデックからディスティネーション・コーデックにトランスコードする方法:
ソース・コーデック入力CELPビットストリームを、入力CELPビットストリームから少なくとも1つまたは複数のCELPパラメータをアンパックするように処理する段階;
ディスティネーション・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、および/またはサンプリング・レートを含む複数のディスティネーション・コーデック・パラメータの1つまたは複数とソース・コーデック・フォーマットのフレーム・サイズ、サブフレーム・サイズ、またはサンプリング・レートを含む複数のソース・コーデック・パラメータの1つまたは複数との違いが存在する場合に複数のアンパックされたCELPパラメータの1つまたは複数をソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに補間する段階;
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを符号化する段階;ならびに
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを少なくともパックすることによってディスティネーションCELPビットストリームを処理する段階。 - 以下の段階を含む、ソース・コーデック入力の処理である、請求項16記載の方法:
入力ビットストリーム・フレームを、1つまたは複数のCELPパラメータに関連する情報に変換する段階;
情報を1つまたは複数のCELPパラメータに復号する段階;
少なくとも1つまたは複数のCELPパラメータに基づいて励振ベクトルを再構成する段階;および
CELPパラメータをインタポレータに出力する段階。 - 以下の段階を含む、インタポレータである、請求項16記載の方法:
ソース・コーデックからの1つまたは複数のLSP係数をディスティネーション・コーデックの1つまたは複数のLSP係数に補間する段階;
ソース・コーデックからのLSP係数以外のCELPパラメータをディスティネーション・コーデックの他のCELPパラメータに補間する段階;および
励振ベクトルが較正を必要としない場合に、ソース励振ベクトルを符号化プロセスに転送する段階。 - 線形変換プロセスを用いて1つまたは複数のLSP係数を変換する段階をさらに含む、請求項18記載の方法。
- 以下の段階をさらに含む、請求項18記載の方法:
少なくとも1つまたは複数のソース復号LPC係数を用いることによって、ソース・コーデック励振ベクトルを合成された音声ベクトルに変換する段階;
ディスティネーションLPC係数を量子化する段階;
少なくとも量子化されたディスティネーションLPC係数を用いることによって、合成された音声ベクトルを較正された励振ベクトルに変換する段階;および
較正された励振ベクトルを別のプロセスに転送する段階。 - 以下を含む、符号化である、請求項16記載の方法:
ディスティネーションLPC係数を量子化する段階;
パラメータ・マッピングおよびチューニング戦略切換えモジュールから制御信号に従って、以下のCELPマッピング戦略の1つを選択する段階。
・CELPパラメータ直接空間マッピング
・励振空間ドメイン分析
・フィルタリング済み励振空間ドメイン分析 - 以下の動作を含む、CELPパラメータ直接空間マッピングの動作である、請求項21記載の方法:
補間されたピッチ・ラグ・パラメータからピッチ・ラグを符号化する動作;
補間されたピッチ・ゲインパラメータからピッチ・ゲインを符号化する動作;
分析フォームから固定コードブックのインデックスを符号化する動作;および
固定コードブック・ゲイン・パラメータのゲインを符号化する動作。 - 以下の動作を含む、励振空間ドメイン分析マッピング動作である、請求項21記載の方法:
補間されたピッチ・ラグ・パラメータからピッチ・ラグを初期値として選択する動作;
励振空間における閉ループでピッチ・ラグを探索する動作;
励振空間においてピッチ・ゲインを探索する動作;
固定コードブック探索用のターゲット信号を構成する動作;
励振空間において固定コードブック・インデックスを探索する動作;
励振空間において固定コードブック・ゲインを探索する動作;および
前の励振ベクトルを更新する動作。 - 以下の動作を含む、フィルタリング済み励振空間ドメイン分析マッピング動作である、請求項21記載の方法:
補間されたピッチ・ラグ・パラメータからピッチ・ラグを初期値として選択する動作;
励振空間における閉ループでピッチ・ラグを探索する動作;
励振空間においてピッチ・ゲインを探索する動作;
固定コードブック探索用のターゲット信号を構成する動作;
フィルタリング済み励振空間において固定コードブック・インデックスを探索する動作;
フィルタリング済み励振空間において固定コードブック・ゲインを探索する動作;および
前の励振ベクトルを更新する動作。 - 選択が、上記の3つの戦略に制限されず、3つの戦略の組合せを新しいマッピング戦略として選択することができる、請求項21記載の方法。
- サイレンス・フレームをある音声符号化標準から別の音声符号化標準に高速に変換することのできるサイレンス・フレーム・トランスコーディング・ユニットが追加され、この場合、快適騒音パラメータのマッピングが含まれる、請求項1記載の装置。
- パラメータ・マッピングおよびチューニング・モジュールが、サイレンス・フレームを生成するためCELP空間におけるパラメータに基づいて音声/サイレンス判定を下す音声活動検出器から成る、請求項1記載の装置。
- 使用される励振マッピング戦略を変更し、それによって、利用可能な計算リソースに適合しかつ負荷の下で品質を適切に低下させる機構を提供するシステムが追加される、請求項1記載の装置。
- 励振マッピングが、音声信号ドメインに戻らずに行われる。
- 以下の段階を含む、CELPによる圧縮音声ビットストリームをソース・コーデックからディスティネーション・コーデック・フォーマットに処理する方法:
複数の制御信号からの制御信号をアプリケーション・プロセスから転送する段階;
少なくともアプリケーションからの制御信号に基づいて複数の異なるCELPマッピング戦略から1つのCELPマッピング戦略を選択する段階;および
選択されたCELPマッピング戦略を用いてソース・コーデック・フォーマットからの1つまたは複数のCELPパラメータをディスティネーション・コーデック・フォーマットの1つまたは複数のCELPパラメータにマッピングするマッピング・プロセスを実行する段階。 - 複数のCELPマッピング戦略が、
CELPパラメータ直接空間マッピング、または
励振空間ドメイン分析、または
フィルタリング済み励振空間ドメイン分析を含む、請求項30記載の方法。 - 1つのCELPマッピング戦略の選択が、セットアップ・プロセスまたは構成プロセス中に所定の用途用である、請求項30記載の方法。
- 複数のマッピング戦略の各々に結合された切換えモジュールで制御信号を受信する段階をさらに含む、請求項30記載の方法。
- 制御信号が、選択されるCELPマッピング戦略の計算リソース特性に基づいて設けられる、請求項30記載の方法。
- 複数のマッピング戦略の1つまたは複数が、メモリ内のライブラリに設けられている、請求項30記載の方法。
- 以下の段階をさらに含む、請求項31記載の方法:
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを符号化する段階;および
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを少なくともパックすることによってディスティネーションCELPビットストリームを処理する段階。 - パックされたディスティネーションCELPビットストリームをディスティネーション・コーデックに転送する段階をさらに含む、請求項36記載の方法。
- 以下を含む、CELPによる圧縮音声ビットストリームをソース・コーデック・フォーマットからディスティネーション・コーデック・フォーマットに処理するシステム:
アプリケーション・プロセスから複数の制御信号からの制御信号を受信するための1つまたは複数の符号;
少なくともアプリケーションからの制御信号に基づいて複数の異なるCELPマッピング戦略から1つのCELPマッピング戦略を選択するための1つまたは複数の符号;および
選択されたCELPマッピング戦略を用いてソース・コーデック・フォーマットからの1つまたは複数のCELPパラメータをディスティネーション・コーデック・フォーマットの1つまたは複数のCELPパラメータにマッピングするマッピング・プロセスを実行するための1つまたは複数の符号。 - 以下を含む、複数のCELPマッピング戦略である、請求項38記載のシステム;
CELPパラメータ直接空間マッピングに向けられる1つまたは複数の符号;または
励振空間ドメイン分析に向けられる1つまたは複数の符号;または
フィルタリング済み励振空間ドメイン分析に向けられる1つまたは複数の符号。 - 選択されるCELPマッピング戦略が、所定の用途用である、請求項38記載のシステム。
- 複数のマッピング戦略の各々に結合されたモジュールを切換える戦略で設けられる、制御信号の受信に向けられる1つまたは複数の符号をさらに含む、請求項38記載のシステム。
- 制御信号が、選択されるCELPマッピング戦略の計算リソース特性に基づいて設けられる、請求項38記載のシステム。
- 複数のマッピング戦略に向けられる1つまたは複数の符号が、メモリ内のライブラリに設けられている、請求項30記載の方法。
- 以下をさらに含む、請求項43記載のシステム:
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータの符号化に向けられる1つまたは複数の符号;および
ディスティネーション・コーデック用の1つまたは複数のCELPパラメータを少なくともパックすることによるディスティネーションCELPビットストリームの処理に向けられる1つまたは複数の符号。 - ディスティネーションCELPビットストリームのディスティネーション・コーデックへの転送に向けられる1つまたは複数の符号をさらに含む、請求項44記載のシステム。
- ディスティネーションCELPビットストリームの記憶位置への転送に向けられる1つまたは複数の符号をさらに含む、請求項44記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US34727002P | 2002-01-08 | 2002-01-08 | |
PCT/US2003/000649 WO2003058407A2 (en) | 2002-01-08 | 2003-01-08 | A transcoding scheme between celp-based speech codes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005515486A true JP2005515486A (ja) | 2005-05-26 |
Family
ID=23363030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003558656A Withdrawn JP2005515486A (ja) | 2002-01-08 | 2003-01-08 | Celpによる音声符号間のトランスコーディング・スキーム |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1464047A4 (ja) |
JP (1) | JP2005515486A (ja) |
KR (1) | KR20040095205A (ja) |
CN (1) | CN100527225C (ja) |
AU (1) | AU2003207498A1 (ja) |
WO (1) | WO2003058407A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010539528A (ja) * | 2007-09-11 | 2010-12-16 | ヴォイスエイジ・コーポレーション | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1735927B (zh) | 2003-01-09 | 2011-08-31 | 爱移通全球有限公司 | 用于高质量语音编码转换的方法和装置 |
KR100732659B1 (ko) | 2003-05-01 | 2007-06-27 | 노키아 코포레이션 | 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치 |
FR2867648A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
US20050258983A1 (en) * | 2004-05-11 | 2005-11-24 | Dilithium Holdings Pty Ltd. (An Australian Corporation) | Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications |
FR2871247B1 (fr) | 2004-06-04 | 2006-09-15 | Essilor Int | Lentille ophtalmique |
US20070250308A1 (en) * | 2004-08-31 | 2007-10-25 | Koninklijke Philips Electronics, N.V. | Method and device for transcoding |
FR2880724A1 (fr) * | 2005-01-11 | 2006-07-14 | France Telecom | Procede et dispositif de codage optimise entre deux modeles de prediction a long terme |
EP1955321A2 (en) * | 2005-11-30 | 2008-08-13 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | Efficient speech stream conversion |
WO2007072819A1 (ja) * | 2005-12-21 | 2007-06-28 | Nec Corporation | 符号変換装置及びそれに用いる符号変換方法並びにそのプログラム |
US7826536B2 (en) * | 2005-12-29 | 2010-11-02 | Nokia Corporation | Tune in time reduction |
EP1903559A1 (en) * | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
EP1933306A1 (en) * | 2006-12-14 | 2008-06-18 | Nokia Siemens Networks Gmbh & Co. Kg | Method and apparatus for transcoding a speech signal from a first code excited linear prediction (CELP) format to a second code excited linear prediction (CELP) format |
CN101459833B (zh) * | 2007-12-13 | 2011-05-11 | 安凯(广州)微电子技术有限公司 | 一种用于相似视频码流的转码方法及其转码装置 |
CN101572093B (zh) * | 2008-04-30 | 2012-04-25 | 北京工业大学 | 一种转码方法和装置 |
US8521520B2 (en) | 2010-02-03 | 2013-08-27 | General Electric Company | Handoffs between different voice encoder systems |
RU2665279C2 (ru) | 2013-06-21 | 2018-08-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ, реализующие улучшенные концепции для tcx ltp |
EP4336500A3 (en) | 2014-04-17 | 2024-04-03 | VoiceAge EVS LLC | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
CN104167210A (zh) * | 2014-08-21 | 2014-11-26 | 华侨大学 | 一种轻量级的多方会议混音方法和装置 |
CN117476022A (zh) * | 2022-07-29 | 2024-01-30 | 荣耀终端有限公司 | 声音编解码方法以及相关装置、系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5457685A (en) * | 1993-11-05 | 1995-10-10 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-speaker conferencing over narrowband channels |
JPH08146997A (ja) * | 1994-11-21 | 1996-06-07 | Hitachi Ltd | 符号変換装置および符号変換システム |
US5758256A (en) * | 1995-06-07 | 1998-05-26 | Hughes Electronics Corporation | Method of transporting speech information in a wireless cellular system |
US5995923A (en) | 1997-06-26 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for improving the voice quality of tandemed vocoders |
JP3235654B2 (ja) * | 1997-11-18 | 2001-12-04 | 日本電気株式会社 | 無線電話装置 |
US6260009B1 (en) * | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
JP2002229599A (ja) * | 2001-02-02 | 2002-08-16 | Nec Corp | 音声符号列の変換装置および変換方法 |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
KR100434275B1 (ko) * | 2001-07-23 | 2004-06-05 | 엘지전자 주식회사 | 패킷 변환 장치 및 그를 이용한 패킷 변환 방법 |
-
2003
- 2003-01-08 CN CNB038055198A patent/CN100527225C/zh not_active Expired - Fee Related
- 2003-01-08 KR KR10-2004-7010699A patent/KR20040095205A/ko not_active Application Discontinuation
- 2003-01-08 JP JP2003558656A patent/JP2005515486A/ja not_active Withdrawn
- 2003-01-08 EP EP03705707A patent/EP1464047A4/en not_active Withdrawn
- 2003-01-08 AU AU2003207498A patent/AU2003207498A1/en not_active Abandoned
- 2003-01-08 WO PCT/US2003/000649 patent/WO2003058407A2/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010539528A (ja) * | 2007-09-11 | 2010-12-16 | ヴォイスエイジ・コーポレーション | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 |
US8566106B2 (en) | 2007-09-11 | 2013-10-22 | Voiceage Corporation | Method and device for fast algebraic codebook search in speech and audio coding |
Also Published As
Publication number | Publication date |
---|---|
CN100527225C (zh) | 2009-08-12 |
KR20040095205A (ko) | 2004-11-12 |
WO2003058407A3 (en) | 2003-12-24 |
EP1464047A2 (en) | 2004-10-06 |
WO2003058407A2 (en) | 2003-07-17 |
AU2003207498A1 (en) | 2003-07-24 |
AU2003207498A8 (en) | 2003-07-24 |
EP1464047A4 (en) | 2005-12-07 |
CN1701353A (zh) | 2005-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6829579B2 (en) | Transcoding method and system between CELP-based speech codes | |
KR100837451B1 (ko) | 향상된 품질의 음성 변환부호화를 위한 방법 및 장치 | |
US6260009B1 (en) | CELP-based to CELP-based vocoder packet translation | |
JP6692948B2 (ja) | 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器 | |
JP2007537494A (ja) | 遠隔通信のためのマルチレート音声コーダにおける音声レート変換の方法及び装置 | |
JP2005515486A (ja) | Celpによる音声符号間のトランスコーディング・スキーム | |
JP2003044097A (ja) | 音声信号および音楽信号を符号化する方法 | |
US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
US7684978B2 (en) | Apparatus and method for transcoding between CELP type codecs having different bandwidths | |
JPH0341500A (ja) | 低遅延低ビツトレート音声コーダ | |
KR100480341B1 (ko) | 광대역 저전송률 음성 신호의 부호화기 | |
KR100703325B1 (ko) | 음성패킷 전송율 변환 장치 및 방법 | |
Bakır | Compressing English Speech Data with Hybrid Methods without Data Loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060106 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080711 |