JP2007523372A - エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品 - Google Patents
エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP2007523372A JP2007523372A JP2006553606A JP2006553606A JP2007523372A JP 2007523372 A JP2007523372 A JP 2007523372A JP 2006553606 A JP2006553606 A JP 2006553606A JP 2006553606 A JP2006553606 A JP 2006553606A JP 2007523372 A JP2007523372 A JP 2007523372A
- Authority
- JP
- Japan
- Prior art keywords
- excitation
- subbands
- group
- audio signal
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 230000005284 excitation Effects 0.000 claims abstract description 201
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000010295 mobile communication Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 description 22
- 238000007906 compression Methods 0.000 description 22
- 238000005259 measurement Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000023402 cell communication Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
本発明は、周波数バンドのオーディオ信号のフレームを入力する入力(201)、通話類オーディオ信号の第1の励起を行う少なくとも第1の励起ブロック(206)、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロック(207)を有するエンコーダ(200)に関する。エンコーダ(200)は、周波数バンドを、それぞれが上記周波数バンドより狭いバンド幅を持つ複数のサブバンドに分割するフィルタ(300)をさらに含む。エンコーダ(200)はまた、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起ブロック(206)と上記第2の励起ブロック(207)の中から1つの励起ブロックを選択する励起選択ブロック(203)を含む。本発明はまた、デバイス、システム、方法およびコンピュータプログラムの記憶媒体に関する。
Description
本発明は、入力信号が通話類または楽音類信号によって符号化モードが変化する通話およびオーディオの符号化(コーディング)に関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第1の励起を行う第1の励起ブロック、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロックを少なくとも有するエンコーダに関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第1の励起を行う第1の励起ブロック、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロックを少なくとも含むエンコーダを有するデバイスに関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第1の励起を行う第1の励起ブロック、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロックを少なくとも含むエンコーダを有するシステムに関する。
さらに、本発明は、周波数バンドのオーディオ信号を圧縮する方法に関し、第1の励起は通話類オーディオ信号に使用され、第2の励起は非通話類オーディオ信号に使用される。本発明はまた、通話類オーディオ信号の第1の励起と非通話類オーディオ信号の第2の励起の少なくとも2つの励起の中から励起を選択するために周波数バンドのオーディオ信号のフレームを分類するモジュールに関する。本発明はまた、周波数バンドのオーディオ信号を圧縮するマシン実行可能なステップを含むコンピュータプログラム製品に関し、本発明に係るコンピュータプログラム製品では、第1の励起は通話類オーディオ信号に使用され、第2の励起は非通話類オーディオ信号に使用される。
多くのオーディオ信号を処理するアプリケーションでは、オーディオ信号は圧縮され、オーディオ信号を処理する際の必要処理能力は低減されている。例えばディジタル通信システムでは、オーディオ信号は代表的にアナログ信号として捕らえられ、アナログからディジタル(A/D)へのコンバータにおいてディジタル化され、次いで符号化された後、移動局等のユーザ装置と基地局との間の無線空中線インタフェースを介して送信される。符号化の目的は、ディジタル信号を圧縮し、空中線インタフェースを介して最小のデータ量によりディジタル信号を送信し、同時に受容可能な信号品質レベルを維持することである。これは、無線空中線インタフェースを介する無線チャネル容量がセル通信ネットワークでは限られるので、特に重要である。ディジタル化オーディオ信号が後にオーディオ信号を再生するために記憶媒体に格納されるアプリケーションも存在する。
圧縮には非可逆圧縮、または可逆圧縮がある。非可逆圧縮では、幾らかの情報が圧縮中に失われ、圧縮信号からもとの信号を完全に再構築することはできない。可逆圧縮では、情報は常態では失われない。したがって、もとの信号は、圧縮信号から通常完全に再構築されることが可能である。
「オーディオ信号」の用語は、普通通話、楽音(非通話)あるいは両方を含む信号として理解される。通話と楽音の異なる性質により通話と楽音の双方に十分良好に動作する1つの圧縮アルゴリズムを設計することはむしろ困難になる。それゆえに、通話と楽音の双方に異なるアルゴリズムを設計し、オーディオ信号が通話類であるのか、楽音類であるのかを識別するある種の識別方法を使用し、識別に従い適切なアルゴリズムを選択することにより、問題の解決を図ることが多い。
全体として、通話と楽音、すなわち非通話信号とを純粋に分類することは困難なタスクである。必要な精度はアプリケーションにもっぱら依存する。幾つかのアプリケーションでは、通話認識の場合、または格納および取り出しを目的として正確に保管する場合等では、精度がさらに重大となる。一方、分類を利用して入力信号に最適な圧縮法を選択する場合、事情は少し異なる。この場合、通話に対して常に最適である圧縮法は存在せず、その一方で楽音、すなわち非通話信号に対して常に最適である別の方法も存在しないことがある。実際には、過渡通話の圧縮法が過渡楽音にも極めて有効であることはありうる。強音コンポーネントの楽音圧縮が音声通話セグメントに適しうることもありうる。したがって、これらの例では、通話と楽音とをただ純粋に分類する方法が、最良の圧縮法を選択する最適アルゴリズムを創出することはない。
通話は凡そ200Hzと3400Hzとの間にバンドが限られると考えられることが多い。アナログ通話信号をディジタル信号に変換するA/Dコンバータにより使用される代表的サンプリングレートは8kHzまたは16kHzのいずれかである。楽音、すなわち非通話信号は、通常の通話バンド幅をかなり上回る周波数コンポーネントを含むことがある。幾つかのアプリケーションでは、オーディオシステムは約20Hzから20,000kHzまでの間の周波数バンドを扱うことができることになっている。その種の信号に対するサンプルレートは変音を避けるために少なくとも40,000kHzであるべきである。本明細書では当然ながら、上記の値はただの非制限的例である。例えば幾つかのシステムでは、楽音信号に対する高域制限は約10,000kHzあるいはそれよりさらに低いこともある。
サンプリングされたディジタル信号は、次いで通常フレームバイフレームベースで符号化され、符号化に使用されるコーデックにより決まるビットレートのディジタルデータストリームになる。ビットレートが高ければ、より多くのデータが符号化され、入力フレームの表現がより正確になる。符号化オーディオ信号は次いで復号され、ディジタルからアナログ(D/A)へのコンバータを通って、できる限りもとの信号に近い信号に再構築される。
理想的なコーデックは、オーディオ信号をできるだけ少ないビットにより符号化し、それによりチャネル容量を最適化し、同時にできる限りもとのオーディオ信号に近い音のする復号オーディオ信号を生成する。実際、コーデックのビットレートと復号オーディオの品質との間には通常トレードオフが存在する。
現在、適応型マルチレート(adaptive multi−rate、AMR)コーデックや適応型マルチレート広帯域(adaptive multi−rate wideband、AMR−WB)コーデックなど、数多くの異なるコーデックがあり、これらはオーディオ信号の圧縮、符号化のために開発されている。AMRはGSM/EDGEおよびWCDMA通信ネットワークのために第3世代パートナシッププロジェクト(the Third Generation Partnership Project、3GPP)により開発された。さらに、AMRはパケット交換ネットワークにおいても使用されると考えられた。AMRは、代数的コード励起線形予測(Algebraic Code Excited Linear Prediction、ACELP)符号化に基づく。AMRおよびAMR−WBコーデックは、それぞれ8および9のアクティブビットレートを含み、また有音部検出(voice activity detection、VAD)および不連続伝送(discontinuous transmission、DTX)機能を含む。現在、AMRコーデックのサンプリングレートは8kHzであり、AMR−WBコーデックではサンプリングレートは16kHzである。上記のコーデックおよびサンプリングレートは非制限的な例にすぎないことは明らかである。
ACELP符号化は、信号ソースがどのように生成されるのかを示すモデルを使用して動作し、信号からモデルのパラメータを抽出する。より詳細には、ACELP符号化は人間の音声システムのモデルに基づいており、喉と口は線形フィルタとしてモデル化され、通話はフィルタを励起する空気の周期的振動により生成される。通話はフレームバイフレームベースでエンコーダにより分析され、各フレームに対してモデル化通話を表すパラメータのセットが生成され、エンコーダにより出力される。パラメータのセットは、フィルタの励起パラメータおよび係数以外に、他のパラメータを含むことが可能である。通話エンコーダからの出力は、入力通話信号のパラメトリック表現と呼ばれることが多い。パラメータのセットは、次いで適切に構成されたデコーダにより使用され、入力通話信号を再生する。
パルスのようなACELP励起によってよりよい品質が得られる或る入力信号もあるが、変換符号化励起(TCX)の方が最適である入力信号もある。ここでは、ACELP励起は、典型的な通話コンテンツを入力信号としてもっぱら使用され、TCX励起は、典型的な楽音を入力信号としてもっぱら使用されるものとする。しかしながら、これは常に真実ではなく、すなわち、通話信号には楽音類の部分があり、楽音信号には通話類の部分があるときもある。このアプリケーションにおける通話類信号を定義すると、大部分の通話がこの範疇に属し、いくらかの楽音もまたこの範疇に属する。その反対が楽音類信号の定義である。さらに、両方のクラスに属することができるという意味で中立的な通話信号部分および楽音信号部分がいくらか存在する。
励起の選択は幾つかの方法が可能である。最も複雑だが極めて良好な方法は、ACELPとTCX励起の双方の符号化を行い、次いで合成通話信号に基づき最良の励起を選択することである。この合成による分析タイプの方法は良い結果を生むが、アプリケーションによっては高度に複雑なため実際的でない。例えばこの方法では、SNRタイプのアルゴリズムが使用され、両励起により生成される品質を測定することが可能である。この方法は「総当たり(brute−force)」の方法と呼ばれることがあるが、その理由は異なる励起の全ての組み合わせを試行し、その後最良のものを選択するからである。それほど複雑でない方法は、前もって信号特性を分析し、次いで最良の励起を選択することにより一度だけ合成を実行することである。この方法もまた、品質と複雑性との間で妥協を行う事前選択と「総当たり」との組み合わせとなりうる。
図1は、従来技術の極めて複雑な分類によるエンコーダ100を単純化して示す図である。オーディオ信号が入力信号ブロック101に入力され、ここで信号がディジタル化され、フィルタリングされる。入力信号ブロック101は、ディジタル化およびフィルタリングされた信号からフレームも形成する。フレームは線形予測符号化(linear prediction coding、LPC)分析ブロック102に入力される。このブロック102は、フレームバイフレームのベースでディジタル化入力信号についてLPC分析を行い、入力信号に最も良く整合するようなパラメータセットを見つける。決定されたパラメータ(LPCパラメータ)は量子化され、エンコーダ100から出力される(109)。エンコーダ100はまた、LPC合成ブロック103、104により2つの出力信号を生成する。第1のLPC合成ブロック103はTCX励起ブロック105により生成される信号を使用して、TCX励起にとって最良の結果をもたらすコードベクトルを見つけるためにオーディオ信号を合成する。第2のLPC合成ブロック104は、ACELP励起ブロック106により生成される信号を使用して、ACELP励起にとって最良の結果をもたらすコードベクトルを見つけるためにオーディオ信号を合成する。励起選択ブロック107で、LPC合成ブロック103、104により生成される信号が比較され、最良(最適)の励起を与える励起方法の1つを決定する。選択された励起方法および選択された励起信号のパラメータに関する情報は、例えば量子化およびチャネルコーディング(符号化)ブロック108に送出された後、送信のためにエンコーダ100から信号として出力される(109)。
本発明の1つの目的は、信号の周波数情報を利用して通話類信号と楽音類信号を分類する改良された方法を提供することである。楽音類通話信号セグメントおよびその逆のものが存在し、いずれのクラスにも属することのできる信号セグメントが、通話および楽音に存在する。換言すれば、本発明は通話と楽音の間で純粋に分類をしない。しかしながら、本発明は、ある基準により入力信号を楽音類および通話類コンポーネントに類別する手段を規定する。分類情報は、例えば符号化モードを選択するマルチモードエンコーダにおいて使用されることが可能である。
本発明は、入力信号が幾つかの周波数バンドに分割され、低域周波数バンドと高域周波数バンドとの間の関係がこれらのバンドにおけるエネルギーレベルの変動と共に分析され、種々の分析ウインドウおよび決定閾値を使用して測定結果の計算あるいはこれらの測定結果の幾つかの異なる組み合わせの両方に基づいて、信号が楽音類、あるいは通話類に分類されるとの考えに基づいている。この情報は次いで、例えば分析信号の圧縮方法の選択に利用されることが可能である。
本発明に係るエンコーダは、周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタと、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うための少なくとも上記第1の励起ブロックおよび上記第2の励起ブロックの中から1つの励起ブロックを選択する励起選択ブロックとをさらに有することを主たる特徴とする。
本発明に係るデバイスは、上記エンコーダが周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタを含み、上記デバイスは、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起ブロックおよび上記第2の励起ブロックの中から1つの励起ブロックを選択する励起選択ブロックをさらに含むことを主たる特徴とする。
本発明に係るシステムは、上記エンコーダが周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタをさらに含み、上記システムは、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起ブロックおよび上記第2の励起ブロックの中から1つの励起ブロックを選択する励起選択ブロックをさらに含むことを主たる特徴とする。
本発明に係る方法は、周波数バンドが、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割され、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起および上記第2の励起の中から1つの励起が選択されることを主たる特徴とする。
本発明に係るモジュールは、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割される周波数バンドを示す情報を入力する入力と、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起ブロックおよび上記第2の励起ブロックの中から1つの励起ブロックを選択する励起選択ブロックとを有することを主たる特徴とする。
本発明に係るコンピュータプログラム製品は、周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するマシン実行可能なステップと、少なくとも1つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第1の励起および上記第2の励起の中から1つの励起を選択するマシンの実行可能なステップとをさらに含むことを主たる特徴とする。
このアプリケーションでは、「通話類」および「楽音類」を用語として定義し、本発明と通話および楽音の典型的な分類とを区別している。本発明に係るシステムでは、凡そ90%の通話は通話類として類別されるが、残りの通話信号は楽音類信号として規定されている。圧縮アルゴリズムの選択がこの分類に基づけば、楽音類信号はオーディオの品質を改善することが可能である。また典型的な楽音信号は、80から90%が楽音類信号に入りうるが、楽音信号の一部を通話類の範疇に分類することにより圧縮システムの音の信号品質を改善する。それゆえに、本発明は、従来技術の方法およびシステムと比較して利点を有する。本発明に係る分類方法を使用することにより、圧縮効率に大きく影響を与えることなく、再生音の品質を改善することが可能である。
前述の「総当たり」の手法に比較して、本発明は、2つの励起タイプの間の選択を行うような、はるかに簡潔な事前選択タイプの手法を提供する。本発明では、入力信号を複数の周波数バンドに分割し、複数の低域と高域の周波数バンドの間の関係を同時に分析し、例えばこれらのバンドのエネルギーレベルの変動を使用することもでき、信号を楽音類または通話類に分類する。
以下に、本発明の実施形態例によるエンコーダ200を、図2を参照してさらに詳細に説明する。エンコーダ200は、必要に際し入力信号をディジタル化、フィルタリングおよびフレーム化する入力ブロック201を含む。本明細書では当然ながら、入力ブロック201に入力される入力信号は、既に符号化処理に適する形式とすることが可能である。例えば、入力信号は早いステージでディジタル化し、メモリ媒体(図示されず)に格納しておけばよい。入力信号フレームは有音部検出ブロック(有音部ディテクタ)202に入力される。有音部検出ブロック202は複数のより狭いバンドの信号を出力し、この信号は励起選択ブロック203に入力される。励起選択ブロック203は信号を分析し、入力信号を符号化するのに最適な励起法を決定する。励起選択ブロック203は励起法の決定に従い選択手段205を制御する制御信号204を生成する。入力信号の現フレームの符号化に最良の励起法が第1の励起法であると決定されたならば、選択手段205が制御され、第1の励起ブロック206の信号を選択する。入力信号の現フレームの符号化に最良の励起法が第2の励起法であると決定されたならば、選択手段205が制御され、第2の励起ブロック207の信号を選択する。図2のエンコーダには、符号化処理のためには第1の励起ブロック206と第2の励起ブロック207のみしかないが、明らかにエンコーダ200において利用できる入力信号の符号化に使用される種々の励起法には3つ以上の異なる励起ブロックも存在しうる。
第1の励起ブロック206は、例えばTCX励起信号を生成し、第2の励起ブロック207は、例えばACELP励起信号を生成する。
LPC分析ブロック208は、フレームバイフレームベースでディジタル化入力信号に関するLPC分析を行い、入力信号と最も良く整合するようなパラメータセットを見つける。
LPCパラメータ210および励起パラメータ211は、例えば量子化およびチャネルコーディング(符号化)ブロック212において量子化および符号化され、その後、例えば通信ネットワーク704(図7)に送信される。しかしながら、パラメータの送信は必要ではなく、パラメータを、例えば記憶媒体に格納し、後のステージにおいて送信および/またはデコーディングのために取り出すことも可能である。
図3は、信号分析のためにエンコーダ200において使用することが可能なフィルタ300の一例を示す図である。フィルタ300は、例えばAMR−WBコーデックの有音部検出ブロックのフィルタバンクであり、独立のフィルタは必要ではなく、この目的に他のフィルタを使用することも可能である。フィルタ300は2つまたはそれ以上のフィルタブロック301を含み、入力信号を異なる周波数の2つまたはそれ以上のサブバンド信号に分割する。換言すれば、フィルタ300の各出力信号は、入力信号の一定の周波数バンドを表す。フィルタ300の出力信号は、励起選択ブロック203において使用され、入力信号の周波数の内容を決定することが可能である。
励起選択ブロック203は、フィルタバンク300の各出力のエネルギーレベルを評価し、これらのサブバンドのエネルギーレベルの変動と共に複数の低域と高域の周波数バンドとの関係を分析し、信号を楽音類または通話類に分類する。
本発明は、入力信号の周波数の内容を調べ、入力信号のフレームの励起法を選択することをベースにしている。以下では、入力信号の通話類または楽音類信号への分類と、これらの信号へのそれぞれACELPまたはTCX励起のいずれかの選択とに使用される実際的な例として、拡張AMR−WB(AMR−WB+)が使用される。しかしながら、本発明は、AMR−WBコーデックあるいはACELPおよびTCX励起法に制限されることはない。
拡張AMR−WB(AMR−WB+)コーデックでは、LP合成のための2つのタイプの励起が存在する。すなわち、ACELPパルスのような励起と変換符号化励起(TCX)である。ACELP励起は、もとの3GPPAMR−WB規格(3GPP TS26.190)において既に使用されるものと同じであり、TCXは改良され、拡張AMR−WBに実装されている。
拡張AMR−WBの例はAMR−WB VADフィルタバンクをベースとし、このフィルタバンクは各20msの入力フレームに対し、図3に示すように0から6、400Hzの周波数レンジに亘る12のサブバンドの信号エネルギーE(n)を生成する。フィルタバンクのバンド幅は常態では等しくなく、図3に見られるように種々のバンドで変化することがある。サブバンドの数も変化することがあり、サブバンドは一部重複することがある。次いで、各サブバンドのエネルギーレベルは、各サブバンドのエネルギーレベルE(n)をそのサブバンド幅(Hz)で除算することにより正規化され、各バンドの正規化EN(n)エネルギーレベルを生成する。ここで、nは0から11までのバンド数である。インデクス0は、図3に示す最低域のサブバンドを表している。
励起選択ブロック203では、エネルギーレベルの標準偏差は例えば2つのウインドウ、短いウインドウstdashort(n)と長いウインドウstdalong(n)を使用して12のサブバンドのそれぞれに対して計算される。AMR−WB+の場合、短いウインドウの長さは4フレームであり、長いウインドウは16フレームである。これらの計算では、現フレームの12のエネルギーレベルが過去の3または15フレームと共に使用され、これらの2つの標準偏差値を導出する。この計算に固有の特徴は有音部検出ブロック202が、通話が行われていることを示す213場合のみ計算が行われることである。これによって、特に長い通話休止の後アルゴリズムがより早く反応する。
次いで各フレームについて、12のフィルタバンク全てに対する平均標準偏差が長いウインドウと短いウインドウの両方に対して調べられ、平均標準偏差値stdashortとstdalongが創出される。
オーディオ信号のフレームについて、また低域周波数バンドと高域周波数バンドとの間の関係が計算される。AMR−WB+では、1から7の低域周波数サブバンドのエネルギーLevLが調べられ、エネルギーをこれらのサブバンド(Hz)の長さ(バンド幅)により除算して正規化される。8から11の高域周波数バンドに対して、高域周波数バンドのエネルギーが調べられ、それぞれ正規化され、LevHを創出する。この実施例では、最低域サブバンド0は通常多くのエネルギーを含み、計算を歪ませ、他のサブバンドの寄与を小さくしすぎるので、これらの計算に使用されないことに注意されたい。これらの測定結果から、関係LPH=LevL/LevHが定義される。さらに、各フレームに対して現行および過去の3LPHの値を使用して、移動平均LPHaが計算される。これらの計算の後、最近の値にやや多くの加重を設定することにより現行および過去の7つの移動平均LPHa値の加重和を使用することによって、現フレームの低域と高域周波数の関係の測定結果LPHaFが計算される。
本発明を実施して1つまたは少数の利用可能なサブバンドのみを分析することも可能である。
バックグラウンドノイズの評価レベルを各フィルタブロックの出力から減算し、対応するフィルタブロック301の最高域周波数を乗算したこれらのレベルを合算することにより現フレームに対するフィルタブロック301の平均レベルAVLも計算され、低域周波数サブバンドより比較的少ないエネルギーを含む高域周波数サブバンドのバランスを保つ。
各フィルタバンクブロック301のバックグラウンドノイズの評価を減算した全てのフィルタブロック301の現フレームの総エネルギーTotE0も計算される。
これらの測定結果を計算した後、例えば以下の方法を使用して、ACELPとTCX励起との間の選択がなされる。以下では、あるフラグが設定されると、競合を防止するため他のフラグはクリアされると想定される。まず、長いウインドウの平均標準偏差値stdalongが第1の閾値TH1、例えば0.4と比較される。標準偏差値stdalongが第1の閾値TH1より小さければ、TCX MODEフラグが設定される。そうでなければ、低域と高域周波数の関係の計算測定結果LPHaFは、第2の閾値TH2、例えば280と比較される。
低域と高域周波数の関係の計算測定結果LPHaFが、第2の閾値TH2より大きければ、TCX MODEフラグが設定される。そうでなければ、第1の閾値TH1を減算した標準偏差値stdalongの逆数が計算され、第1の定数C1、例えば5が計算された逆数の値に合算される。この総和は、次の式(1)に従って、低域と高域周波数の関係の計算測定結果LPHaFと比較される。
C1+(1/(stdalong−TH1))>LPHaF (1)
比較の結果が真であれば、TCX MODEフラグが設定される。比較の結果が真でなければ、標準偏差値stdalongは第1の被乗数M1(例えば−90)を乗算され、第2の定数C2(例えば120)が乗算結果に加えられる。この総和は、次の式(2)に従って、低域と高域周波数の関係の計算測定結果LPHaFと比較される。
M1*stdalong+C2<LPHaF (2)
この総和が、低域と高域周波数の関係の計算測定結果LPHaFより小さければ、ACELP MODEフラグが設定される。そうでなければ、UNCERTAIN MODEフラグが設定され、励起法が現フレームに対して未だ選択されえないことを示す。
以上に説明したステップの後、さらに調査が行われ、その後、現フレームに対する励起法が選択される。まず、ACELP MODEフラグまたはUNCERTAIN MODEフラグのいずれが設定されているか調べられ、現フレームに対するフィルタバンク301の平均計算レベルAVLが第3の閾値TH3(例えば2000)より大きければ、そこでTCX MODEフラグが設定され、ACELP MODEフラグおよびUNCERTAIN MODEフラグはクリアされる。
次に、UNCERTAIN MODEフラグが設定されていれば、長いウインドウに対する平均標準偏差値stdalongについて以上で行われたものと類似の評価が短いウインドウに対する平均標準偏差値stdashortについて行われるが、比較する定数と閾値に僅かに異なる値を使用する。短いウインドウに対する平均標準偏差値stdashortが第4の閾値TH4(例えば0.2)より小さければ、TCX MODEフラグが設定される。そうでなければ、第4の閾値TH4を減算した短いウインドウに対する標準偏差値stdashortの逆数が計算され、第3の定数C3(例えば2.5)が計算逆数値に合算される。この総和は、次の式(3)に従って、低域と高域周波数の関係の計算測定結果LPHaFと比較される。
C3+(1/(stdashort−TH4))>LPHaF (3)
比較の結果が真であれば、TCX MODEフラグが設定される。比較の結果が真でなければ、標準偏差値stdashortは第2の被乗数M2(例えば−90)を乗算され、第4の定数C4(例えば140)が乗算結果に加えられる。この総和は、次の式(4)に従って、低域と高域周波数の関係の計算測定結果LPHaFと比較される。
M2*stdashort+C4<LPHaF (4)
この総和が、低域と高域周波数の関係の計算測定結果LPHaFより小さければ、ACELP MODEフラグが設定される。そうでなければ、UNCERTAIN MODEフラグが設定され、励起法が現フレームに対して未だ選択されえないことを示す。
次のステージで、現フレームと前のフレームのエネルギーレベルが調べられる。現フレームの総エネルギーTotE0と前のフレームの総エネルギーTotE−1との間の割合が第5の閾値TH5(例えば25)より大きければ、ACELP MODEフラグが設定され、TCX MODEフラグおよびUNCERTAIN MODEフラグはクリアされる。
最後に、TCX MODEフラグまたはUNCERTAIN MODEフラグが設定されており、現フレームに対するフィルタバンク301の平均計算レベルAVLが第3の閾値TH3より大きく、現フレームの総エネルギーTotE0が第6の閾値TH6(例えば60)より小さければ、ACELP MODEフラグが設定される。
以上に説明した評価法が行われ、TCX MODEフラグが設定されれば、第1の励起法と第1の励起ブロック206が選択され、あるいはACELP MODEフラグが設定されれば、第2の励起法と第2の励起ブロック207が選択される。しかしながら、UNCERTAIN MODEフラグが設定されれば、評価法は選択を行うことができない。この場合、ACELPまたはTCXのいずれかが選択され、あるいは、さらにある分析が行われ、差異を生じさせなければならない。
本方法はまた、以下の擬似コード(〔数1〕)のように示されることが可能である。
分類の背後にある基本的概念は、図4、図5および図6に示される。図4は、楽音信号の低域と高域エネルギーコンポーネントとの間の関係の関数としてVADフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。各点は、楽音の種々の変動を含む長い楽音信号から調べられた20msのフレームに相当する。直線Aは、楽音信号エリヤの上界に凡そ相当するように適合されている、すなわち、本発明に係る方法では、直線Aの右側の点は楽音類信号として考慮されない。
また一方で、図5は、通話信号の低域と高域エネルギーコンポーネントとの間の関係の関数としてVADフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。各点は、通話の種々の変動および異なる通話者を含む長い通話信号から調べられた20msのフレームに相当する。曲線Bは、通話信号エリヤの下界を凡そ示すように適合されている、すなわち、本発明に係る方法では、曲線Bの左側の点は通話類として考慮されない。
図4に見られるように、大部分の楽音信号はほんの小さな標準偏差および分析周波数に対して比較的平坦な周波数分布を持つ。図5にプロットされた通話信号については、傾向が違い、標準偏差は大きく、低域周波数コンポーネントが多い。両信号を同じように図6にプロットし、曲線A、Bを楽音と通話信号の両方の領域の境界に整合するように適合させると、大部分の楽音信号と大部分の通話信号を異なる範疇に区分するのは極めて容易である。図の適合曲線A、Bは、上記の添付擬似コードに示されたものとまた同じである。図は単一の標準偏差および長いウインドウイングにより計算された高域に対する低域の周波数値のみを表示する。擬似コードはアルゴリズムを含み、このアルゴリズムは2つの異なるウインドウイングを使用し、したがって、図4、図5および図6に提示された2つの異なるバージョンのマッピングアルゴリズムを利用する。
図6の曲線A、Bで限定されたエリヤCは重複するエリヤを示し、楽音類および通話類信号を分類する手段がさらに通常必要とされることがある。信号変動に対し異なる長さの分析ウインドウを使用し、擬似コードの例においてなされるようにこれらの異なる測定結果を組み合わせることにより、エリヤCはより小さくされることが可能である。幾らかの重複は認められうるが、その理由は、ある楽音信号は通話に最適化された圧縮により効率的に符号化されることが可能であり、ある通話信号は楽音に最適化された圧縮により効率的に符号化されるからである。
以上に提示された例では、最適なACELP励起が、分析に次ぐ合成の使用により選択され、最良のACELP励起とTCX励起との間の選択が、事前選択によりなされる。
本発明は2つの異なる励起法を使用して以上に提示されたが、3つ以上の異なる励起法を使用し、その中からオーディオ信号の圧縮のための選択を行うことは可能である。フィルタ300が入力信号を以上に提示されたのとは異なる周波数バンドに分割することが可能であり、また周波数バンドの数は12とは異なってもよいことはまた明らかである。
図7は、本発明が適用されることのできるシステムの例を示す図である。本システムは、通話オーディオ信号および/または非通話オーディオ信号を生成する1つまたは複数のオーディオソース701を含む。オーディオ信号は、必要な場合A/Dコンバータ702によりディジタル信号に変換される。このディジタル信号は、送信デバイス700のエンコーダ200に入力され、エンコーダ200において本発明に従い圧縮が行われる。圧縮信号はまた、必要な場合エンコーダ200において送信のために量子化され、符号化(コーディング)される。送信機703、例えば移動通信デバイス700の送信機は、圧縮化され、符号化された信号を通信ネットワーク704に送信する。この信号は、通信ネットワーク704から受信デバイス706の受信機705により受信される。受信信号は、デコーディング、量子化解除、および解凍のために、受信機705からデコーダ707に転送される。デコーダ707は検出手段(圧縮ディテクタ)708を含み、エンコーダ200において現フレームに使用された圧縮法を判断する。デコーダ707は本判断に基づいて、現フレームの解凍のために第1の解凍手段(解凍器)709または第2の解凍手段(解凍器)710を選択する。ディジタル信号をアナログ信号に変換するために、解凍信号は解凍手段709、710からフィルタ711およびD/Aコンバータ712へ送信される。次いでアナログ信号は、例えば拡声器713においてオーディオに変換されることが可能である。
本発明は、種々の種類のシステム、特に従来技術のシステムよりさらに効率的な圧縮を達成する低速伝送において実施されることが可能である。本発明に係るエンコーダ200は、通信システムの種々の部分に適用されることが可能である。例えば、エンコーダ200は、限りのある処理能力を有する移動通信デバイスに適用されることが可能である。
本発明は以上に説明した実施形態にのみ制限されることはなく、添付の特許請求の範囲内において変更されることが可能であることは明らかである。
Claims (50)
- 周波数バンドのオーディオ信号のフレームを入力する入力(201)を有し、通話類オーディオ信号の第1の励起を行う第1の励起ブロック(206)、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロック(207)を少なくとも有するエンコーダであって、前記エンコーダは、
前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ(300)と、
少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第1の励起ブロック(206)および前記第2の励起ブロック(207)の中から1つの励起ブロックを選択する励起選択ブロック(203)とをさらに有することを特徴とするエンコーダ。 - 前記フィルタ(300)が、少なくとも1つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー(E(n))を示す情報を生成するフィルタブロック(301)を含み、前記励起選択ブロック(203)が、少なくとも1つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項1に記載のエンコーダ。
- 少なくとも第1のグループのサブバンドおよび第2のグループのサブバンドが規定され、前記第2のグループが前記第1のグループより高い周波数のサブバンドを含み、前記第1のグループのサブバンドの正規化信号エネルギー(LevL)と前記第2のグループのサブバンドの正規化信号エネルギー(LevH)との関係(LPH)が前記オーディオ信号の前記フレームに対して規定され、前記関係(LPH)が前記励起ブロック(206、207)の選択において使用されるようになっていることを特徴とする、請求項2に記載のエンコーダ。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、利用可能な前記サブバンドの中の1つまたは複数のサブバンドを含めないことを特徴とする、請求項3に記載のエンコーダ。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項4に記載のエンコーダ。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記励起選択ブロック(203)が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段、および、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段を含むことを特徴とする、請求項3、4または5に記載のエンコーダ。
- 前記フィルタ(300)が有音部ディテクタ(202)のフィルタバンクであることを特徴とする、請求項1から6のいずれか一項に記載のエンコーダ。
- 前記エンコーダが適応型マルチレート広帯域コーデック(AMR−WB)であることを特徴とする、請求項1から7のいずれか一項に記載のエンコーダ。
- 前記第1の励起が代数的コード励起線形予測励起(ACELP)であり、前記第2の励起が変換符号化励起(TCX)であることを特徴とする、請求項1から8のいずれか一項に記載のエンコーダ。
- 周波数バンドのオーディオ信号のフレームを入力する入力(201)を含み、通話類オーディオ信号の第1の励起を行う第1の励起ブロック(206)、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロック(207)を少なくとも含むエンコーダ(200)を有するデバイスであって、
前記エンコーダ(200)は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ(300)をさらに含み、
前記デバイスは、少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第1の励起ブロック(206)および前記第2の励起ブロック(207)の中から1つの励起ブロックを選択する励起選択ブロック(203)をさらに含むことを特徴とするデバイス。 - 前記フィルタ(300)が、少なくとも1つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー(E(n))を示す情報を生成するフィルタブロック(301)を含み、前記励起選択ブロック(203)が、少なくとも1つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項10に記載のデバイス。
- 少なくとも第1のグループのサブバンドおよび第2のグループのサブバンドが規定され、前記第2のグループが前記第1のグループより高い周波数のサブバンドを含み、前記第1のグループのサブバンドの正規化信号エネルギー(LevL)と前記第2のグループのサブバンドの正規化信号エネルギー(LevH)との関係(LPH)が前記オーディオ信号の前記フレームに対して規定され、前記関係(LPH)が前記励起ブロック(206、207)の選択において使用されるようになっていることを特徴とする、請求項11に記載のデバイス。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、利用可能な前記サブバンドの中の1つまたは複数のサブバンドを含めないことを特徴とする、請求項12に記載のデバイス。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項13に記載のデバイス。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記励起選択ブロック(203)が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段、および、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段を含むことを特徴とする、請求項12、13または14に記載のデバイス。
- 前記フィルタ(300)が有音部ディテクタ(202)のフィルタバンクであることを特徴とする、請求項10から15のいずれか一項に記載のデバイス。
- 前記エンコーダ(200)が適応型マルチレート広帯域コーデック(AMR−WB)であることを特徴とする、請求項10から16のいずれか一項に記載のデバイス。
- 前記第1の励起が代数的コード励起線形予測励起(ACELP)であり、前記第2の励起が変換符号化励起(TCX)であることを特徴とする、請求項10から17のいずれか一項に記載のデバイス。
- 前記デバイスが移動通信デバイスであることを特徴とする、請求項10から18のいずれか一項に記載のデバイス。
- 前記デバイスが、前記選択励起ブロック(206、207)により生成されるパラメータを含むフレームを、低ビットレートチャネルを通じて送信する送信機を含むことを特徴とする、請求項10から19のいずれか一項に記載のデバイス。
- 周波数バンドのオーディオ信号のフレームを入力する入力(201)を含み、通話類オーディオ信号の第1の励起を行う第1の励起ブロック(206)、および非通話類オーディオ信号の第2の励起を行う第2の励起ブロック(207)を少なくとも含むエンコーダ(200)を有するシステムであって、
前記エンコーダ(200)は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ(300)をさらに含み、
前記システムは、少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの前記励起を行うために、少なくとも前記第1の励起ブロック(206)および前記第2の励起ブロック(207)の中から1つの励起ブロックを選択する励起選択ブロック(203)をさらに含むことを特徴とするシステム。 - 前記フィルタ(300)が、少なくとも1つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー(E(n))を示す情報を生成するフィルタブロック(301)を含み、前記励起選択ブロック(203)が、少なくとも1つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項21に記載のシステム。
- 少なくとも第1のグループのサブバンドおよび第2のグループのサブバンドが規定され、前記第2のグループが前記第1のグループより高い周波数のサブバンドを含み、前記第1のグループのサブバンドの正規化信号エネルギー(LevL)と前記第2のグループのサブバンドの正規化信号エネルギー(LevH)との関係(LPH)が前記オーディオ信号の前記フレームに対して規定され、前記関係(LPH)が前記励起ブロック(206、207)の選択において使用されるようになっていることを特徴とする、請求項22に記載のシステム。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、利用可能な前記サブバンドの中の1つまたは複数のサブバンドを含めないことを特徴とする、請求項23に記載のシステム。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項24に記載のシステム。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記励起選択ブロック(203)が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段、および、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段を含むことを特徴とする、請求項23、24または25に記載のシステム。
- 前記フィルタ(300)が有音部ディテクタ(202)のフィルタバンクであることを特徴とする、請求項21から26のいずれか一項に記載のシステム。
- 前記エンコーダ(200)が適応型マルチレート広帯域コーデック(AMR−WB)であることを特徴とする、請求項21から27のいずれか一項に記載のシステム。
- 前記第1の励起が代数的コード励起線形予測励起(ACELP)であり、前記第2の励起が変換符号化励起(TCX)であることを特徴とする、請求項21から28のいずれか一項に記載のシステム。
- 前記システムが移動通信デバイスであることを特徴とする、請求項21から29のいずれか一項に記載のシステム。
- 前記システムが、前記選択励起ブロック(206、207)により生成されるパラメータを含むフレームを、低ビットレートチャネルを通じて送信する送信機を含むことを特徴とする、請求項21から30のいずれか一項に記載のシステム。
- 周波数バンドのオーディオ信号を圧縮する方法であって、
第1の励起が通話類オーディオ信号に使用され、第2の励起が非通話類オーディオ信号に使用され、
前記周波数バンドが、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割され、
少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第1の励起および前記第2の励起の中から1つの励起が選択されることを特徴とする、周波数バンドのオーディオ信号を圧縮する方法。 - 前記フィルタ(300)が、少なくとも1つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー(E(n))を示す情報を生成するフィルタブロック(301)を含み、前記励起選択ブロック(203)が、少なくとも1つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項32に記載の方法。
- 少なくとも第1のグループのサブバンドおよび第2のグループのサブバンドが規定され、前記第2のグループが前記第1のグループより高い周波数のサブバンドを含み、前記第1のグループのサブバンドの正規化信号エネルギー(LevL)と前記第2のグループのサブバンドの正規化信号エネルギー(LevH)との関係(LPH)が前記オーディオ信号の前記フレームに対して規定され、前記関係(LPH)が前記励起ブロック(206、207)の前記選択において使用されるようになっていることを特徴とする、請求項33に記載の方法。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、利用可能な前記サブバンドの中の1つまたは複数のサブバンドを含めないことを特徴とする、請求項34に記載の方法。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項35に記載の方法。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記励起選択ブロック(203)が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段、および、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段を含むことを特徴とする、請求項34、35または36に記載の方法。
- 前記フィルタ(300)が有音部ディテクタ(202)のフィルタバンクであることを特徴とする、請求項32から37のいずれか一項に記載の方法。
- 前記エンコーダ(200)が適応型マルチレート広帯域コーデック(AMR−WB)であることを特徴とする、請求項32から38のいずれか一項に記載の方法。
- 前記第1の励起が代数的コード励起線形予測励起(ACELP)であり、前記第2の励起が変換符号化励起(TCX)であることを特徴とする、請求項32から39のいずれか一項に記載の方法。
- 選択励起によって生成されるパラメータを含むフレームが、低ビットレートチャネルを通じて送信されることを特徴とする、請求項32から39のいずれか一項に記載の方法。
- 少なくとも通話類オーディオ信号の第1の励起および非通話類オーディオ信号の第2の励起の中から1つの励起を選択するために、周波数バンドのオーディオ信号のフレームを分類するモジュールであって、前記モジュールは、
前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割される前記周波数バンドを示す情報を入力する入力と、
少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの前記励起を行うために、前記少なくとも第1の励起ブロック(206)および前記第2の励起ブロック(207)の中から1つの励起ブロックを選択する励起選択ブロック(203)とを有することを特徴とするモジュール。 - 少なくとも第1のグループのサブバンドおよび第2のグループのサブバンドが規定され、前記第2のグループが前記第1のグループより高い周波数のサブバンドを含み、前記第1のグループのサブバンドの正規化信号エネルギー(LevL)と前記第2のグループのサブバンドの正規化信号エネルギー(LevH)との関係(LPH)が前記オーディオ信号の前記フレームに対して規定され、前記関係(LPH)が前記励起ブロック(206、207)の選択において使用されるようになっていることを特徴とする、請求項42に記載のモジュール。
- 利用可能な前記サブバンドの中の1つまたは複数のサブバンドが、前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、利用可能な前記サブバンドの中の1つまたは複数のサブバンドを含めないことを特徴とする、請求項43に記載のモジュール。
- 前記第1のグループのサブバンドおよび前記第2のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項44に記載のモジュール。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記励起選択ブロック(203)が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段、および、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段を含むことを特徴とする、請求項43、44または45に記載のモジュール。
- 周波数バンドのオーディオ信号を圧縮するためにマシン実行可能なステップを含むコンピュータプログラム製品であって、
第1の励起が通話類オーディオ信号に使用され、第2の励起が非通話類オーディオ信号に使用され、
前記コンピュータプログラム製品は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するマシン実行可能なステップと、
少なくとも1つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第1の励起および前記第2の励起の中から1つの励起を選択するマシン実行可能なステップとをさらに含むことを特徴とするコンピュータプログラム製品。 - 前記コンピュータプログラム製品が、少なくとも1つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー(E(n))を示す情報を生成するマシン実行可能なステップと、少なくとも1つのサブバンドの前記信号エネルギー情報を判断するマシン実行可能なステップとをさらに含むことを特徴とする、請求項47に記載のコンピュータプログラム製品。
- 第1の数のフレームと第2の数のフレームが規定され、前記第2の数が前記第1の数より大きく、前記コンピュータプログラム製品が、各サブバンドの現フレームを含む前記第1の数のフレームの信号エネルギーを使用して、第1の平均標準偏差値(stdashort)を計算する計算手段のためのマシン実行可能なステップと、各サブバンドの現フレームを含む前記第2の数のフレームの信号エネルギーを使用して、第2の平均標準偏差値(stdalong)を計算する計算手段のためのマシン実行可能なステップとをさらに含むことを特徴とする、請求項48に記載のコンピュータプログラム製品。
- 前記コンピュータプログラム製品が、前記第1の励起として代数的コード励起線形予測励起(ACELP)を実行するマシン実行可能なステップと、前記第2の励起として変形符号化励起(TCX)を実行するマシン実行可能なステップとをさらに含むことを特徴とする、請求項47から49のいずれか一項に記載のコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20045051A FI118834B (fi) | 2004-02-23 | 2004-02-23 | Audiosignaalien luokittelu |
PCT/FI2005/050035 WO2005081230A1 (en) | 2004-02-23 | 2005-02-16 | Classification of audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007523372A true JP2007523372A (ja) | 2007-08-16 |
Family
ID=31725817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006553606A Withdrawn JP2007523372A (ja) | 2004-02-23 | 2005-02-16 | エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品 |
Country Status (16)
Country | Link |
---|---|
US (1) | US8438019B2 (ja) |
EP (1) | EP1719119B1 (ja) |
JP (1) | JP2007523372A (ja) |
KR (2) | KR20080093074A (ja) |
CN (2) | CN103177726B (ja) |
AT (1) | ATE456847T1 (ja) |
AU (1) | AU2005215744A1 (ja) |
BR (1) | BRPI0508328A (ja) |
CA (1) | CA2555352A1 (ja) |
DE (1) | DE602005019138D1 (ja) |
ES (1) | ES2337270T3 (ja) |
FI (1) | FI118834B (ja) |
RU (1) | RU2006129870A (ja) |
TW (1) | TWI280560B (ja) |
WO (1) | WO2005081230A1 (ja) |
ZA (1) | ZA200606713B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011133637A (ja) * | 2009-12-24 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | 符号化方法、復号方法、符号化装置、復号装置及びプログラム |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
BRPI0707135A2 (pt) * | 2006-01-18 | 2011-04-19 | Lg Electronics Inc. | aparelho e método para codificação e decodificação de sinal |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
US7877253B2 (en) | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
US8380494B2 (en) * | 2007-01-24 | 2013-02-19 | P.E.S. Institute Of Technology | Speech detection using order statistics |
CN101647059B (zh) | 2007-02-26 | 2012-09-05 | 杜比实验室特许公司 | 增强娱乐音频中的语音的方法和设备 |
US8982744B2 (en) * | 2007-06-06 | 2015-03-17 | Broadcom Corporation | Method and system for a subband acoustic echo canceller with integrated voice activity detection |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
RU2010125221A (ru) * | 2007-11-21 | 2011-12-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) | Способ и устройство для обработки сигнала |
DE102008022125A1 (de) * | 2008-05-05 | 2009-11-19 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
US8340964B2 (en) * | 2009-07-02 | 2012-12-25 | Alon Konchitsky | Speech and music discriminator for multi-media application |
KR101615262B1 (ko) | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
KR101730356B1 (ko) | 2010-07-02 | 2017-04-27 | 돌비 인터네셔널 에이비 | 선택적인 베이스 포스트 필터 |
SG186950A1 (en) * | 2010-07-08 | 2013-02-28 | Fraunhofer Ges Forschung | Coder using forward aliasing cancellation |
BR112013020592B1 (pt) | 2011-02-14 | 2021-06-22 | Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. | Codec de áudio utilizando síntese de ruído durante fases inativas |
AR085361A1 (es) | 2011-02-14 | 2013-09-25 | Fraunhofer Ges Forschung | Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio |
CA2920964C (en) | 2011-02-14 | 2017-08-29 | Christian Helmrich | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
JP5934259B2 (ja) * | 2011-02-14 | 2016-06-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオコーデックにおけるノイズ生成 |
ES2458436T3 (es) | 2011-02-14 | 2014-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Representación de señal de información utilizando transformada superpuesta |
MX2013009344A (es) | 2011-02-14 | 2013-10-01 | Fraunhofer Ges Forschung | Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral. |
BR112013020324B8 (pt) | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
RU2586838C2 (ru) | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
CN102982804B (zh) * | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2013141638A1 (ko) * | 2012-03-21 | 2013-09-26 | 삼성전자 주식회사 | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 |
KR102446441B1 (ko) | 2012-11-13 | 2022-09-22 | 삼성전자주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN107424621B (zh) | 2014-06-24 | 2021-10-26 | 华为技术有限公司 | 音频编码方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2746039B2 (ja) * | 1993-01-22 | 1998-04-28 | 日本電気株式会社 | 音声符号化方式 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
ES2247741T3 (es) | 1998-01-22 | 2006-03-01 | Deutsche Telekom Ag | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640208B1 (en) | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
KR100367700B1 (ko) * | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
-
2004
- 2004-02-23 FI FI20045051A patent/FI118834B/fi active
-
2005
- 2005-02-16 KR KR1020087023376A patent/KR20080093074A/ko not_active Application Discontinuation
- 2005-02-16 CN CN201310059627.XA patent/CN103177726B/zh active Active
- 2005-02-16 RU RU2006129870/09A patent/RU2006129870A/ru not_active Application Discontinuation
- 2005-02-16 KR KR1020067019490A patent/KR100962681B1/ko active IP Right Grant
- 2005-02-16 JP JP2006553606A patent/JP2007523372A/ja not_active Withdrawn
- 2005-02-16 WO PCT/FI2005/050035 patent/WO2005081230A1/en active Application Filing
- 2005-02-16 ES ES05708203T patent/ES2337270T3/es active Active
- 2005-02-16 DE DE602005019138T patent/DE602005019138D1/de active Active
- 2005-02-16 CA CA002555352A patent/CA2555352A1/en not_active Abandoned
- 2005-02-16 BR BRPI0508328-1A patent/BRPI0508328A/pt not_active Application Discontinuation
- 2005-02-16 EP EP05708203A patent/EP1719119B1/en active Active
- 2005-02-16 AT AT05708203T patent/ATE456847T1/de not_active IP Right Cessation
- 2005-02-16 CN CNA2005800056082A patent/CN1922658A/zh active Pending
- 2005-02-16 AU AU2005215744A patent/AU2005215744A1/en not_active Abandoned
- 2005-02-21 TW TW094104984A patent/TWI280560B/zh not_active IP Right Cessation
- 2005-02-22 US US11/063,664 patent/US8438019B2/en active Active
-
2006
- 2006-08-14 ZA ZA200606713A patent/ZA200606713B/en unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011133637A (ja) * | 2009-12-24 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | 符号化方法、復号方法、符号化装置、復号装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
AU2005215744A1 (en) | 2005-09-01 |
CN1922658A (zh) | 2007-02-28 |
RU2006129870A (ru) | 2008-03-27 |
BRPI0508328A (pt) | 2007-08-07 |
FI20045051A0 (fi) | 2004-02-23 |
DE602005019138D1 (de) | 2010-03-18 |
ES2337270T3 (es) | 2010-04-22 |
TW200532646A (en) | 2005-10-01 |
KR100962681B1 (ko) | 2010-06-11 |
CN103177726A (zh) | 2013-06-26 |
CA2555352A1 (en) | 2005-09-01 |
ATE456847T1 (de) | 2010-02-15 |
US8438019B2 (en) | 2013-05-07 |
WO2005081230A1 (en) | 2005-09-01 |
EP1719119B1 (en) | 2010-01-27 |
KR20070088276A (ko) | 2007-08-29 |
US20050192798A1 (en) | 2005-09-01 |
EP1719119A1 (en) | 2006-11-08 |
ZA200606713B (en) | 2007-11-28 |
KR20080093074A (ko) | 2008-10-17 |
FI20045051A (fi) | 2005-08-24 |
TWI280560B (en) | 2007-05-01 |
CN103177726B (zh) | 2016-11-02 |
FI118834B (fi) | 2008-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1719119B1 (en) | Classification of audio signals | |
US7747430B2 (en) | Coding model selection | |
US8244525B2 (en) | Signal encoding a frame in a communication system | |
ES2762325T3 (es) | Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda | |
MXPA06009369A (es) | Clasificacion de señales de audio | |
MXPA06009370A (en) | Coding model selection | |
KR20070063729A (ko) | 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신단말기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090326 |