JP5325292B2

JP5325292B2 - 信号の異なるセグメントを分類するための方法および識別器

Info

Publication number: JP5325292B2
Application number: JP2011516981A
Authority: JP
Inventors: ギヨームフックス; シュテファンバイエル; イェンスヒルシュフェルト; ユールゲンヘレ; イェレミールコンテ; フレドリックナーゲル; ニコラウスレッテルバッハ; シュテファンヴァブニック; 嘉一横谷
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-11
Filing date: 2009-06-16
Publication date: 2013-10-23
Anticipated expiration: 2029-06-16
Also published as: KR20130036358A; US20110202337A1; RU2011104001A; AR072863A1; KR101281661B1; MX2011000364A; HK1158804A1; RU2507609C2; CA2730196A1; EP2301011B1; BRPI0910793B1; PT2301011T; CA2730196C; CN102089803A; KR101380297B1; ZA201100088B; PL2301011T3; TWI441166B; CO6341505A2; KR20110039254A

Description

本発明は、少なくとも第１のタイプおよび第２のタイプのセグメントを含む信号の異なるセグメントを分類するための方法に関する。本発明の実施例は、オーディオ符号化の分野、および、特に、オーディオ信号を符号化する上で音声（ｓｐｅｅｃｈ）／音楽識別に関する。

従来技術において、ＭＰ３またはＡＡＣのような周波数領域の符号化スキームが、公知である。これらの周波数領域エンコーダは、時間領域／周波数領域変換、量子化誤差が音響心理モジュールからの情報を用いて制御される量子化ステージ、および量子化されたスペクトル係数および対応するサイド情報がコード表を使用してエントロピー符号化される符号化ステージに基づく。

他方では、３ＧＰＰＴＳ２６．２９０において記載されているような、例えば、ＡＭＲ−ＷＢ＋のような音声処理に非常に適するエンコーダがある。そのような音声符号化スキームは、時間領域信号の線形予測フィルタリングを実行する。そのようなＬＰフィルタは、入力時間領域信号の線形予測分析から導出される。その後、結果として得るＬＰフィルタの係数は符号化され、そしてサイド情報として送信される。その処理は、線形予測符号化（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）として知られる。フィルタの出力において、予測残差信号、または励振信号としても知られる予測誤差信号は、ＡＣＥＬＰエンコーダの分析／合成ステージを用いて符号化されるか、または、あるいは、オーバーラップを伴うフーリエ変換を使用する変換エンコーダを用いて符号化される。ＡＣＥＬＰ符号化およびＴＣＸ符号化とも呼ばれる変換符号化励振コーディング（ＴｒａｎｓｆｏｒｍＣｏｄｅｄｅＸｃｉｔａｔｉｏｎｃｏｄｉｎｇ）の間の選択は、閉ループアルゴリズム、または開ループアルゴリズムを用いて行われる。

ＡＡＣ符号化スキームとスペクトル帯域幅多重化技術を組み合わせる高効率のＡＡＣ符号化のような周波数領域オーディオ符号化スキームも、用語“ＭＰＥＧサラウンド”の項目で知られるジョイントステレオまたはマルチチャンネル符号化ツールに組み合わされる。周波数領域符号化スキームは、音楽信号に対して低ビットレートにおいて高品質を示すという点で、有利である。しかしながら、低ビットレートにおける音声信号の品質は、問題を含む。

他方では、例えば、ＡＭＲ−ＷＢ＋のような音声エンコーダも、高周波強化ステージおよびステレオ機能性を有する。音声符号化スキームは、低ビットレートにおいてさえ、音声信号に対して高品質を示すが、低ビットレートにおいて音楽信号に対して低品質を示す。

前述の入手可能な符号化スキームを考慮して、そのいくつかは、音声の符号化に対して適しており、そして、他は、音楽の符号化に対して適しており、符号化するためのオーディオ信号の自動のセグメンテーションおよび分類が、多くのマルチメディアアプリケーションの重要なツールであって、オーディオ信号において生じている異なるクラス毎に対する適切な処理を選択するために使用されうる。アプリケーションの全体のパフォーマンスは、オーディオ信号の分類の信頼性に強く依存している。実際、誤った分類は、次のプロセスの不適合な選択および同調を起こす。

図６は、オーディオ信号の識別に依存する音声および音楽を別々に符号化するために使用される従来のコーダの設計を示す。コーダの設計は、例えば、技術仕様書である「拡張された適応多重レート−広帯域（ＡＭＲ−ＷＢ＋）のコーデック（ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ−Ｗｉｄｅｂａｎｄ（ＡＭＲ−ＷＢ＋）ｃｏｄｅｃ）」，３ＧＰＰＴＳ２６．２９０Ｖ６．３．０，２００５−０６において記載されているように、ＡＭＲ−ＷＢ＋である適切な音声エンコーダ１０２を含む音声符号化部１００を含む。さらに、コーダの設計は、例えば、映画および関連オーディオ情報の共通符号化（ＧｅｎｅｒｉｃＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏ）：先進的音響符号化（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）．国際標準１３８１８−７，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１動画専門家集団（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐ），１９９７において記載されているように、例えば、ＡＡＣ音楽エンコーダである音楽エンコーダ１０６を含む音楽符号化部１０４を含む。

エンコーダ１０２および１０６の出力は、マルチプレクサ１０８の入力に接続される。エンコーダ１０２および１０６の入力は、入力オーディオ信号を伝えている入力ライン１１０に選択的に接続可能である。入力オーディオ信号は、図６において概略的に示されるスイッチ１１２によって音声エンコーダ１０２または音楽エンコーダ１０６に選択的に適用され、そして、スイッチ制御部１１４によって制御される。加えて、コーダの設計は、その入力オーディオ信号を入力で受信し、スイッチ制御部１１４に制御信号を出力もする音声／音楽識別器１１６を含む。スイッチ制御部１１４は、さらに、モードインジケータ信号が、符号化信号と共に送られうるように、マルチプレクサ１０８の第２の入力に入力されるライン１１８におけるモードインジケータ信号を出力する。モードインジケータ信号は、例えば、デコーダにおいて識別がなされる必要がないように、モードインジケータビットと関連するデータブロックが、音声符号化または音楽符号化のどちらか一方を指し示す１ビットのみ有しうる。適切なスイッチ信号は、デコーダ側に符号化されたデータと共に提示されるモードインジケータビットに基づいてというよりむしろ、適切な音声または音楽デコーダに受信されおよび符号化されたデータを送るためのモードインジケータに基づいて発生しうる。

図６は、ライン１１０に適用されるデジタル的に音声および音楽信号を符号化するために使用される旧来のコーダの設計である。一般に、音声エンコーダは音声においてよい結果を出し、オーディオエンコーダは、音楽においてよい結果を出す。汎用符号化スキームは、入力信号の性質に従って１つのコーダからもう一方へ切り替えるマルチコーダシステムを用いて設計されうる。ここで、重要な課題は、スイッチング素子を動かす適切な入力信号の分類器を設計することである。分類器は、図６において示される音声／音楽識別器１１６である。通常、オーディオ信号の信頼性の高い分類は、高い遅延を導くが、一方では、遅延は、実時間アプリケーションにおいて重要なファクタである。

一般に、音声／音楽識別器によって導かれる全体のアルゴリズムに関する遅延は、実時間アプリケーションにおいて、スイッチ型コーダを使用しうるように、十分に低いこと、が要求される。

図７は、図６において示すようなコーダの設計における経験から得られた遅延を例示する。音声／音楽識別器が、例えば、フレームごと、すなわち、６４ミリ秒ごとに決定を供給すべきであるために、入力ライン１１０に適用された信号が、１６ｋＨｚのサンプリングレートで１０２４個のサンプルのフレームに基づき符号化されると仮定される。２つのエンコーダの間の移行は、例えば、国際公開２００８／０７１３５３Ａ２号公報において記載されるような方法で達成され、そして、音声／音楽識別器は、音声／音楽識別器のために必要とされる遅延を考慮することのない合計１６００個のサンプルにおいてスイッチ型デコーダのアルゴリズムに関する遅延を著しく増加させてはならない。さらに、音声／音楽の決定を、ＡＡＣブロックスイッチが決定する同じフレームに提供することが更に望ましい。状態は、２０４８個のサンプルの長さを有するＡＡＣロングブロック１２０を例示している図７において表現される。すなわち、ロングブロック１２０は、１０２４個のサンプルの２つのフレーム、１０２４個のサンプルの１つのフレームのＡＣＣショートブロック１２２、および１０２４個のサンプルの１つのフレームのＡＭＲ−ＷＢ＋スーパーフレーム１２４を含む。

図７において、ＡＡＣブロック−スイッチの決定および音声／音楽の決定は、同じ期間をカバーする１０２４個のサンプルのフレーム１２６および１２８に取り入れられる。２つの決定は、あるモードを他のモードに適切に作動ための時間遷移窓（ｔｉｍｅｔｒａｎｓｉｔｉｏｎｗｉｎｄｏｗｓ）において使用することができる符号化させるためのこの特定の位置で取り入れられる。その結果、５１２＋６４個のサンプルの最小限の遅延は、２つの決定によって導かれる。この遅延は、１６００個のサンプルの最小限の遅延を与えるＡＡＣＭＤＣＴを形成する５０％のオーバーラップによって生成された１０２４個のサンプルの遅延に追加されなければならない。従来のＡＡＣにおいて、ブロック−切り替えのみ提示され、そして遅延は、正確に１６００個のサンプルである。過渡信号が、フレーム１２６において検出される場合、この遅延は、ロングブロックからショートブロックに同時に切り替えるために必要である。変換長さのこの切り替えは、プリエコーアーティファクト（ｐｒｅ−ｅｃｈｏａｒｔｉｆａｃｔ）を回避するために望ましい。図７における復号化されたフレームは、どんな場合（ロングまたはショートブロック）においてもデコーダ側において、もとに戻されうる第１の全体フレームを表す。

音楽エンコーダとしてＡＡＣを使用するスイッチ型コーダにおいて、決定ステージからもたらされるスイッチ決定は、あまりに多くのさらなる遅延を元のＡＡＣ遅延に加えることを避けるべきである。追加の遅延は、決定ステージにおける信号分析のために必要とされる先読みフレーム１３２からもたらされる。従来の音声／音楽識別器は、先読みの約５００ｍｓを使用する一方、例えば、１６ｋＨｚのサンプリングレートにおいて、ＡＡＣ遅延は、１００ｍｓである。そして、それは、６００ｍｓの遅延を伴う切り替えられた符号化構造を結果として得る。合計の遅延は、もとのＡＡＣ遅延の６倍である。

上述の従来のアプローチは、新規な方法の必要が、異なるタイプのセグメントを含んでいる信号を識別するために存在するように、望まない遅延が導かれ、オーディオ信号の信頼性の高い分類に関して不利である。ここで、スイッチ型コーダが実時間アプリケーションにも代用されるように、識別器によって導かれる追加のアルゴリズムに関する遅延は、十分に低い。

Ｊ．ワングら著（Ｊ．Ｗａｎｇ，ｅｔ．ａｌ．）「階層的な偏った決定木を有するリアルタイム音声／音楽分類（Ｒｅａｌ−ｔｉｍｅｓｐｅｅｃｈ／ｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈａｈｉｅｒａｒｃｈｉｃａｌｏｂｌｉｑｕｅｄｅｃｉｓｉｏｎｔｒｅｅ）」，ＩＣＡＳＳＰ２００８，音響、音声および信号処理のＩＥＥＥ国際会議（ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ），２００８年３月３１から２００８年４月４日には、フレームの同数から導き出されたショートターム特性およびロングターム特性を使用する音声／音楽分類のためのアプローチを記載する。これらのショートターム特性およびロングターム特性は、信号を分類するために使用されるが、しかし、ショートターム特性の限られた性質だけが利用され、例えば、分類の反応性が利用されない。ただし、大部分のオーディオ符号化アプリケーションのための重要な役割を有する。

国際公開２００８／０７１３５３号公報

Ｊ．ワングら著（Ｊ．Ｗａｎｇ，ｅｔ．ａｌ．）「階層的な偏った決定木を有するリアルタイム音声／音楽分類（Ｒｅａｌ−ｔｉｍｅｓｐｅｅｃｈ／ｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈａｈｉｅｒａｒｃｈｉｃａｌｏｂｌｉｑｕｅｄｅｃｉｓｉｏｎｔｒｅｅ）」，ＩＣＡＳＳＰ２００８，音響、音声および信号処理のＩＥＥＥ国際会議（ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ），２００８年３月３１から２００８年４月４日

本発明の目的は、識別によって導かれるいかなる遅延も低く保つとともに、異なるタイプの信号セグメントにおいて識別するための改良された方法を提供することである。

この目的は、請求項１に記載の方法によって、および請求項１４に記載の識別器によって達成される。

本発明の一実施形態は、信号の異なるセグメントを分類するための方法を提供し、信号は、少なくとも第１のタイプおよび第２のタイプのセグメントを含み、方法は、
信号から抽出される少なくとも一つのショートターム特性に基づいて信号をショートターム分類し、ショートターム分類結果を供給するステップと、
信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて信号をロングターム分類し、ロングターム分類結果を供給するステップと、
信号のセグメントが、第１のタイプか、または第２のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるステップと、を含む。

本発明の他の実施形態は、識別器を提供し、
信号を受信し、信号から抽出される少なくとも一つのショートターム特性に基づいて、信号のショートターム分類結果を提供するために構成されるショートターム分類器であって、信号は、第１のタイプおよび第２のタイプを含む、ショートターム分類器と、
信号を受信し、信号から抽出される少なくとも一つのショートターム特性と少なくとも一つのロングターム特性に基づいて、信号のロングターム分類結果を提供するために構成されるロングターム分類器と、
信号のセグメントが、第１のタイプか、または第２のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるために構成される決定回路と、を含む。

本発明の実施形態は、ショートターム分析結果とロングターム分析結果との比較の結果に基づいて、出力信号を提供する。

本発明の実施形態は、音声もしくは非音声、または更なるクラスとして、オーディオ信号の異なる非オーバーラップの短時間セグメントを分類するためのアプローチに関する。アプローチは、２つの異なる分析ウィンドウ長さの間の特性の抽出およびそれらの統計の分析に基づく。第１のウィンドウは長く、主に過去に目を向ける。第１のウィンドウは、信号の分類のための信頼性は高いが、遅延決定クルー（ｄｅｌａｙｅｄｄｅｃｉｓｉｏｎｃｌｕｅ）を得るために使用される。第２のウィンドウは短く、主に、現時点または現在のセグメントにおいて処理されるセグメントを考慮する。第２のウィンドウは、瞬時決定クルー（ｉｎｓｔａｎｔａｎｅｏｕｓｄｅｃｉｓｉｏｎｃｌｕｅ）を得るために使用される。２つの決定クルーは、好ましくは、遅延クルーからのメモリ情報および瞬時クルーからの瞬間的な情報を得るヒステリシス決定を使用することによって、最適に組み合わされる。

本発明の実施形態は、２つの分類器が同じ特性の異なる統計を利用するように、ショートターム分類器およびロングターム分類器の両方において、ショートターム特性を使用する。ショートターム分類器は、瞬間的な情報のみを抽出する。なぜなら、それは、１つの特性のセットだけにアクセスするからである。例えば、それは、特性の意味を利用することができる。一方、ロングターム分類器は、いくつかの特性のセットにアクセスする。なぜなら、それはいくつかのフレームを考慮するからである。結果として、ロングターム分類器は、ショートターム分類器より多くのフレーム上の統計を利用することによって、より多くの特徴を利用することができる。例えば、ロングターム分類器は、時間の経過と共に特性の変化または特性の展開を利用することができる。このように、ロングターム分類器は、ショートターム分類器よりも多い情報を利用することができる。しかし、それは、遅延または待ち時間を導入する。しかしながら、遅延または待ち時間を導入するにもかかわらず、ロングターム特性は、ロングターム分類結果をより強固にし、そしてより信頼性を高くする。いくつかの実施形態において、ショートタームおよびロングターム分類器は、両方の分類器によって一度計算され、使用されうる同じショートターム特性を考慮することができる。このように、そのような実施形態において、ロングターム分類器は、ショートターム分類器から直接ショートターム特性を受信することができる。

新しいアプローチは、それにより、低遅延を導くと共に、強固な分類を得ることが可能である。従来のアプローチ以外の本発明の実施形態は、信頼性が高い決定を保つと共に、音声／音楽決定によって導かれる遅延を制限する。本発明の一実施形態において、先読みは、１０８ｍｓのみの全体の遅延を結果として得られる１２８個のサンプルに制限される。

本発明の実施例は、添付の図面を参照してその後詳述される。

図１は、本発明の実施形態による音声／音楽識別器のブロック図である。図２は、図１の識別器のロングタームおよびショートターム分類器によって使用される分析ウィンドウを例示する。図３は、図１の識別器において使用されるヒステリシス決定の例示である。図４は、本発明の実施形態による識別器を含む典型的な符号化スキームのブロック図である。図５は、図４の符号化スキームに対応する復号化スキームのブロック図である。図６は、オーディオ信号の識別に依存する音声および音楽を別々に符号化するために使用される従来のコーダの設計を示す。図７は、図６において示されるコーダの設計における経験から得られた遅延の例示である。

図１は、本発明の実施形態による音声／音楽識別器１１６のブロック図である。音声／音楽識別器１１６は、入力信号をその入力で受信するショートターム分類器１５０を含み、例えば、オーディオ信号は、音声および音楽のセグメントを含む。ショートターム分類器１５０は、ショートターム分類結果（瞬時決定クルー）を出力ライン１５２上に出力する。識別器１１６は、さらに、入力信号も受信し、ロングターム分類結果（遅延決定クルー）を出力ライン１５６上に出力するロングターム分類器１５４を含む。さらに、ヒステリシス決定回路１５８は、ライン１６０上に出力される音声／音楽決定信号を生成するための以下にさらに詳細に記載される、いわばショートターム分類器１５０およびロングターム分類器１５４からの出力信号の組み合せを提供され、そして、図６に関して記載されるようにいわば入力信号のセグメントの処理を更に制御するために使用される。すなわち、音声／音楽決定信号１６０は、音声エンコーダまたはオーディオエンコーダに分類されている入力信号セグメントを送るために使用されうる。

このように、本発明の実施形態によれば、２つの異なる分類器１５０および１５４は、入力ライン１１０を介してそれぞれの分類器に適用される入力信号に同時に使用される。２つの分類器は、ロングターム分類器１５４およびショートターム分類器１５０と呼ばれ、ここで、２つの分類器は、分析ウィンドウ上の動作における特性の統計の分析によって異なる。２つの分類器は、瞬時決定クルー（ＩＤＣ）および遅延決定クルー（ＤＤＣ）と呼ばれる出力信号１５２および１５６を供給する。ショートターム分類器１５０は、入力信号の性質についての瞬間の情報を捉えるための目的を有するショートターム特性に基づいてＩＤＣを生成する。それらは、急速に、そしていつでも変化することができる信号のショートターム属性に関連する。その結果、ショートターム特性は、反応が早く、そして全体の識別処理へ長い遅延を導入しないことが要求される。例えば、音声は、５−２０ｍｓの期間において準定常していると考慮されるので、ショートターム特性は、１６ｋＨｚでサンプルされる信号における１６ｍｓの各フレームで計算されうる。ロングターム分類器１５４は、（ロングターム特性）信号の長い観察から結果として得る特性に基づいてＤＤＣを生成して、従って、より信頼性の高い分類を達成することを可能にする。

図２は、図１において示されるロングターム分類器１５４およびショートターム分類器１５０によって使用される分析ウィンドウを例示する。１６ｋＨｚのサンプリングレートで１０２４個のサンプルのフレームであると仮定すれば、ロングタームクラシファイヤウィンドウ１６２の長さは、４＊１０２４＋１２８個のサンプルである。すなわち、ロングタームクラシファイヤウィンドウ１６２は、オーディオ信号の４つのフレームにまたがり、そして、追加の１２８個のサンプルは、その分析をするためにロングターム分類器１５４により必要とされる。「先読み」として参照されるこの追加の遅延は、引用符号１６４で図２において示される。図２は、また、１０２４＋１２８個のサンプルであるショートタームクラシファイヤウィンドウ１６６を示す。すなわち、ショートタームクラシファイヤウィンドウは、オーディオ信号の一つのフレームにまたがり、追加の遅延は、現在のセグメントを分析するために必要とされる。現在のセグメントは、音声／音楽決定がなされることを必要とするセグメントとして、１２８において示される。

図２において示されるロングタームクラシファイヤウィンドウは、音声の４Ｈｚのエネルギー変調特性を得るために、十分に長い。４Ｈｚのエネルギー変調は、適切であり、そして、例えば、（ＳｃｈｅｉｒｅｒＥ．ａｎｄＳｌａｎｅｙＭ．）「堅固な複数の特徴の音声／音楽識別器の構成および評価（ＣｏｎｓｔｒｕｃｔｉｏｎａｎｄＥｖａｌｕａｔｉｏｎｏｆａＲｏｂｕｓｔＭｕｌｔｉｆｅａｔｕｒｅＳｐｅｅｃｈ／ＭｕｓｉｃＤｉｓｃｒｉｍｉｎａｔｏｒ）」，ＩＣＡＳＳＰ’９７，ミュンヘン，１９９７によって使用される堅固な音声／音楽識別器において、従来から利用される音声の特徴を識別する。４Ｈｚのエネルギー変調は、長い時間のセグメントにおける信号の観察によってのみ抽出されうる特徴である。音声／音楽識別器によって導かれる追加の遅延は、１２８個のサンプルの先読み１６４に等しい。そして、それは、Ｈ．ヘルマンスキー著（Ｈ．Ｈｅｒｍａｎｓｋｙ）「音声の知覚的な線形予測（ｐｌｐ）分析（Ｐｅｒｃｅｐｔｉｖｅｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ（ｐｌｐ）ａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈ）」，（ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ），ｖｏｌ．８７，ｎｏ．４，１７３８−１７５２ページ，１９９０およびＨ．ヘルマンスキーら著（Ｈ．Ｈｅｒｍａｎｓｋｙ，ｅｔａｌ．）「音声の線形予測分析に基づく知覚（Ｐｅｒｃｅｐｔｕａｌｌｙｂａｓｅｄｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈ）」，ＩＣＡＳＳＰ５．５０９−５１２ページ，１９８５によって記載される知覚の線形予測分析のようなそれぞれの分析をさせるためにお互いの分類器１５０および１５４によって必要とされる。このように、図６において示されるようなエンコーダの設計における上述の実施形態の識別器を使用する場合、スイッチ型コーダ１０２および１０６の全体の遅延は、実時間アプリケーションのために十分に低い１０８ｍｓに等しい１６００＋１２８個のサンプルである。

次に、音声／音楽決定信号１６０を得るための識別器１１６の分類器１５０および１５４の出力信号１５２および１５６の結合を記載している図３を参照する。本発明の実施形態によると、遅延決定クルー（ＤＤＣ）および瞬時決定クルー（ＩＤＣ）は、ヒステリシス決定（Ｈｙｓｔｅｒｉｅｓｉｓｄｅｃｉｓｉｏｎ）を用いて組み合わされる。ヒステリシスプロセス（Ｈｙｓｔｅｒｉｓｉｓｐｒｏｃｅｓｓｅ）は、それらを安定させるために、後処理決定に広く使用される。図３は、音声／音楽決定信号が音声のセグメントまたは音楽のセグメントであるとして入力信号の現在の処理されたセグメントを指し示すべきかどうかを決定するために、ＤＤＣおよびＩＤＣの関数として２つの状態のヒステリシス決定を例示する。図３において、特性ヒステリシスサイクルが示され、ＩＤＣおよびＤＤＣは、値が−１と１の間であって、ここで、−１は、尤度が全体的に音楽のようであるという意味であり、そして１は、尤度が全体的に音声のようであるという意味である、というような方法で、分類器１５０および１５４によって規格化される。

決定は、例えば、後述するように関数Ｆ（ＩＤＣ，ＤＤＣ）の値に基づく。図３において、Ｆ１（ＩＤＣ，ＤＤＣ）は、Ｆ（ＩＤＣ，ＤＤＣ）が、音楽状態から音声状態に作動するために交差すべき閾値を示す。Ｆ２（ＩＤＣ，ＤＤＣ）は、Ｆ（ＩＤＣ，ＤＤＣ）が、音声状態から音楽状態に作動するために交差すべき閾値を示す。インデックスｎを有する現在のセグメントまたは現在のフレームのための最終決定Ｄ（ｎ）は、以下の擬似コードに基づいて算出されうる。

％擬似コード
Ｉｆ（Ｄ（ｎ−１）＝＝ｍｕｓｉｃ）
Ｉｆ（Ｆ（ＩＤＣ，ＤＤＣ）＜Ｆ１（ＩＤＣ，ＤＤＣ））
Ｄ（ｎ）＝＝ｍｕｓｉｃ
Ｅｌｓｅ
Ｄ（ｎ）＝＝ｓｐｅｅｃｈ
Ｅｌｓｅ
Ｉｆ（Ｆ（ＩＤＣ，ＤＤＣ）＞Ｆ２（ＩＤＣ，ＤＤＣ））
Ｄ（ｎ）＝＝ｓｐｅｅｃｈ
Ｅｌｓｅ
Ｄ（ｎ）＝＝ｍｕｓｉｃ
％擬似コードの終了

本発明の実施形態によれば、関数Ｆ（ＩＤＣ，ＤＤＣ）および上述の閾値は、以下の通りに設定される：

Ｆ（ＩＤＣ，ＤＤＣ）＝ＩＤＣ
Ｆ１（ＩＤＣ，ＤＤＣ）＝０．４−０．４＊ＤＤＣ
Ｆ２（ＩＤＣ，ＤＤＣ）＝−０．４−０．４＊ＤＤＣ

あるいは、以下の定義が使用されうる：

Ｆ（ＩＤＣ，ＤＤＣ）＝（２＊ＩＤＣ＋ＤＤＣ）／３
Ｆ１（ＩＤＣ，ＤＤＣ）＝−０．７５＊ＤＤＣ
Ｆ２（ＩＤＣ，ＤＤＣ）＝−０．７５＊ＤＤＣ

最後の定義を用いる場合、ヒステリシスサイクルは消滅し、そして、決定は、固有の適応できる閾値に基づくのみである。

本発明は、ヒステリシス決定に限られない。以下に、出力信号を得るための分析結果を組み合わせるための更なる実施形態が記載される。

シンプルな閾値処理は、ＤＤＣおよびＩＤＣの両方の特性を利用する方法の閾値とすることによって、ヒステリシス決定の代わりに使用されうる。ＤＤＣは、より信頼性を有する識別クルーであることを考慮される。なぜなら、それは、信号のより長い観察によってもたらされるからである。また、一方、ＤＤＣは、部分的に信号の過去の観測に基づいて計算される。値ＤＤＣと閾値０とを比較し、ＤＤＣ＞０の場合、音声のようであるとしてセグメントを分類し、それ以外は、音楽のようであると分類することによって、従来の分類器は、遅延決定を有する。本発明の一実施形態において、われわれは、ＩＤＣを利用することによって閾値処理を適応させることができ、より敏感な決定をすることができる。この目的のために、閾値は、以下の擬似コードに基づいて適応することができる：

％適応閾値処理の擬似コード
Ｉｆ（ＤＤＣ＞−０．５＊ＩＤＣ）
Ｄ（ｎ）＝＝ｓｐｅｅｃｈ
Ｅｌｓｅ
Ｄ（ｎ）＝＝ｍｕｓｉｃ
％適応閾値処理の終了

他の実施形態において、ＤＤＣは、ＩＤＣの信頼性をより高くするために使用されうる。ＩＤＣは、敏感であるが、ＤＤＣほど信頼性が高くないことが知られている。さらに、過去および現在のセグメントの間におけるＤＤＣの発展に目を向けることは、図２のフレーム１６６がセグメント１６２において算出されるＤＤＣに影響する他の表示を与えることができる。ＤＤＣ（ｎ）の表記は、ＤＤＣの現在の値に対して使用され、ＤＤＣ（ｎ−１）は、過去の値に対して使用される。ＤＤＣ（ｎ）およびＤＤＣ（ｎ−１）の両方の値を使用して、ＩＤＣは、以下に記載するように、決定木を使用することによって、より信頼性が高くなりうる：

％決定木の擬似コード
Ｉｆ（ＩＤＣ＞０＆＆ＤＤＣ（ｎ）＞０）
Ｄ（ｎ）＝ｓｐｅｅｃｈ
Ｅｌｓｅｉｆ（ＩＤＣ＜０＆＆ＤＤＣ（ｎ）＜０）
Ｄ（ｎ）＝ｍｕｓｉｃ
Ｅｌｓｅｉｆ（ＩＤＣ＞０＆＆ＤＤＣ（ｎ）−ＤＤＣ（ｎ−１）＞０）
Ｄ（ｎ）＝ｓｐｅｅｃｈ
Ｅｌｓｅｉｆ（ＩＤＣ＜０＆＆ＤＤＣ（ｎ）−ＤＤＣ（ｎ−１）＜０）
Ｄ（ｎ）＝ｍｕｓｉｃ
Ｅｌｓｅｉｆ（ＤＤＣ＞０）
Ｄ（ｎ）＝ｓｐｅｅｃｈ
Ｅｌｓｅ
Ｄ（ｎ）＝ｍｕｓｉｃ
％決定木の終了

上記の決定木において、両方のクルーが同じ尤度を示す場合、決定は直接行われる。２つのクルーが矛盾している表示を与える場合、我々は、ＤＤＣの進展を調べる。ＤＤＣ（ｎ）−ＤＤＣ（ｎ−１）の差が正である場合、我々は、現在のセグメントが音声のようであると推定しうる。そうでなければ、我々は、現在のセグメントが音楽のようであると推定しうる。この新規な表示が、ＩＤＣのように同じ傾向に進む場合、その後、最終決定が行われる。両方の試みが明確な決定を与えることに失敗する場合、ＩＤＣの信頼性は確認しえないので、決定は、遅延クルーＤＤＣのみを考慮することによって行われる。

以下に、本発明の実施形態によるそれぞれの分類器１５０および１５４がより詳細に記載される。

まず、最初に、ロングターム分類器１５４について考えると、それは、２５６のサンプルのサブフレームごとに一組の特性を抽出することにある点に留意する。Ｈ．ヘルマンスキー（Ｈ．Ｈｅｒｍａｎｓｋｙ）著，「音声の知覚線形予測（ｐｌｐ）分析（Ｐｅｒｃｅｐｔｉｖｅｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ（ｐｌｐ）ａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈ）」，アメリカ音響学会（ＪｏｕｒｎａｌｏｆＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ），第８７巻，ｎｏ．４，ｐｐ１７３８−１７５２，１９９０年、およびＨ．ヘルマンスキー（Ｈ．Ｈｅｒｍａｎｓｋｙ，ｅｔａｌ．）ら著，「音声の知覚的な線形予測分析（Ｐｅｒｃｅｐｔｕａｌｌｙｂａｓｅｄｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈ）」，ＩＣＡＳＳＰ５．５０９−５１２，１９８５年によって記載されるように、第１の特性は、知覚線形予測ケプストラム係数（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：ＰＬＰＣＣ）である。ＰＬＰＣＣは、人の聴覚推定を用いることによって、スピーカ分類法に対して効率的である。この特性は、音声および音楽を識別するために用いられ、そして、実際に、時間とともに特徴変化に目を向けることによって音声の音節の４Ｈｚの変調と同様に音声の特性フォルマントを識別することを可能にする。

しかしながら、より堅固にするために、ＰＬＰＣＣは、ピッチ情報を獲得することが可能である他の特性と組み合わされる。そして、それは、音声の他の重要な特徴であって、符号化において、重要な意味を持ちうる。実際、音声符号化は、入力信号が擬似単一周期信号であるという仮定に依存する。音声符号化スキームは、そのような信号に対して効率的である。一方、音声のピッチ特徴は、音楽コーダの多くの符号化効率を阻害する。音声の自然なビブラートを与えられる滑らかなピッチの遅延ばらつきは、高い符号化効率を得るために必要であるエネルギーを圧縮することができないために、音楽のコーダにおいて、周波数表現を構成する。

以下にピッチ特性が決定されうる。

声門パルスのエネルギー比率：
この特性は、声門パルスおよびＬＰＣ残留信号との間のエネルギー比率を計算する。声門パルスは、ピック−ピーキングアルゴリズム（ｐｉｃｋ−ｐｅａｋｉｎｇａｌｇｏｒｉｔｈｍ）を用いて、ＬＰＣ残留信号から抽出される。通常、有声音区間（ｖｏｉｃｅｄｓｅｇｍｅｎｔ）のＬＰＣ残留は、声門の振動から来ている大きなパルスのような構造を示す。特性は、有声音区間の間、高い。

ロングタームのゲイン予測：
通常、ロングターム予測の間、音声コーダ（例えば、拡張適応マルチレート・ワイドバンド（ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ−Ｗｉｄｅｂａｎｄ：ＡＭＲ−ＷＢ＋）コーデック，３ＧＰＰＴＳ２６．２９０Ｖ６．３．０，２００５−０６）において計算されるゲインである。この特性は、信号の周期性を測定し、そして、ピッチ遅延推定に基づく。

ピッチの遅延ばらつき：
最後のサブフレームと比較される場合、この特性は、現在のピッチ遅延推定の差を決定する。有声音声に対して、この特性は、低くなければならないが、ゼロではなく、そして、円滑に進展しなければならない。

ロングターム分類器が所要の一組の特性を抽出すると、統計的分類器は、これらの抽出された特徴に使用される。分類器は、最初、音声トレーニングセットおよび音楽トレーニングセット上の特性を抽出することによってトレーニングされる。抽出された特性は、両方のトレーニングセット上の平均値０および分散１に規格化される。各トレーニングセットに対して、抽出され、規格化された特性は、ロングタームクラシファイヤウィンドウの範囲内で収集され、そして、５つのガウシアン（ｆｉｖｅＧａｕｓｓｉａｎｓ）を用いる混合ガウス分布モデル（ＧａｕｓｓｉａｎｓＭｉｘｔｕｒｅＭｏｄｅｌ：ＧＭＭ）によってモデル化される。トレーニングシーケンスの終わりに、一組の規格化しているパラメータおよび二組のＧＭＭパラメータが得られ、そして保存される。

分類するフレームごとに、最初、特性は、規格化パラメータによって抽出されて、そして、規格化される。音声（ｌｌｄ＿ｓｐｅｅｃｈ）のための最大の尤度、および音楽（ｌｌｄ＿ｍｕｓｉｃ）のための最大の尤度は、音声クラスのＧＭＭおよび音楽クラスのＧＭＭをそれぞれ用いて抽出され、そして規格化された特性のために計算される。そして、遅延決定クルーＤＤＣは、以下のように計算される：

ＤＤＣ＝（ｌｌｄ＿ｓｐｅｅｃｈ−ｌｌｄ＿ｍｕｓｉｃ）／（ａｂｓ（ｌｌｄ＿ｍｕｓｉｃ）＋ａｂｓ（ｌｌｄ＿ｓｐｅｅｃｈ））

ＤＤＣは、−１と１との間で境界が示され、音声のための最大の尤度が音楽のための最大の尤度よりも高い（ｌｌｄ＿ｓｐｅｅｃｈ＞ｌｌｄ＿ｍｕｓｉｃ）場合、正である。

ショートターム分類器は、ショートタームの特性としてＰＬＰＣＣを使用する。ロングターム分類器以外で、この特性は、ウィンドウ１２８において分析されるのみである。この特性の統計は、５つのガウシアンを用いる混合ガウス分布モデル（ＧＭＭ）によってこの短期において利用される。２つのモデルは、音楽のための一方、および音声のための他方でトレーニングされる。２つのモデルがロングターム分類器のために得られるものとは異なることは、通知するものに値する。分類するフレームごとに、最初、ＰＬＰＣＣが抽出され、そして、音声（ｌｌｄ＿ｓｐｅｅｃｈ）のための最大の尤度および音楽（ｌｌｄ＿ｍｕｓｉｃ）のための最大の尤度が、音声クラスのＧＭＭおよび音楽クラスのＧＭＭをそれぞれ用いることで計算される。そして、瞬時決定クルー（ＩＤＣ）は、以下のように計算される：

ＩＤＣ＝（ｌｌｄ＿ｓｐｅｅｃｈ−ｌｌｄ＿ｍｕｓｉｃ）／（ａｂｓ（ｌｌｄ＿ｍｕｓｉｃ）＋ａｂｓ（ｌｌｄ＿ｓｐｅｅｃｈ））

ＩＤＣは−１と１との間で境界が示される。

このように、ショートターム分類器１５０は、特性（知覚線形予測ケプストラム係数：ＰＬＰＣＣ）に基づく信号のショートターム分類結果を生成し、そして、ロングターム分類器１５４は、同じ特性（知覚線形予測ケプストラム係数：ＰＬＰＣＣ）および上述した追加の特性（例えば、ピッチ特性）に基づく信号のロングターム分類結果を生成する。さらに、それがより長い観測窓にアクセスするとき、ロングターム分類器は、共通の特性（すなわち、ＰＬＰＣＣ）の異なる特徴を利用することができる。このように、ショートタームおよびロングタームの結果を組み合わせた上で、ショートタームの特性は、分類のために十分に考慮される。すなわち、その性質が十分に利用される。

それぞれの分類器１５０および１５４のための更なる実施形態が、以下により詳細に説明される。

この実施形態によるショートターム分類器によって分析されるショートターム特性は、前述の知覚線形予測ケプストラム係数（ＰＬＰＣＣ）に主に対応する。ＰＬＰＣＣは、ＭＦＣＣと同様に音声およびスピーカ（ｓｐｅａｋｅｒ）の認識において広く使用される。ＰＬＰＣＣは、維持される。なぜなら、それらは、大部分の最新の音声コーダで使用され、スイッチ型オーディオコーダにおいて既に実装される線形予測（ＬＰ）の機能性の大部分を共有するからである。ＬＰが抽出されたとき、ＰＬＰＣＣは、音声のフォルマント構造を抽出することができる。しかし、知覚的な考慮すべき問題に配慮することによって、ＰＬＰＣＣは、より多くの独立しているスピーカであり、言語情報をより的確に評価している。１６のオーダーが、１６ｋＨｚでサンプリングされた入力信号に使用される。

ＰＬＰＣＣとは別に、発声強さは、ショートターム特性として計算される。発声強さは、それだけで、真に識別していると考慮されず、特徴次元において、ＰＬＰＣＣに協同して有益となる。発声強さは、音声の有声および無声の発音のそれぞれに対応している少なくとも２つのクラスタでの特徴次元において取り出すことを可能にする。それは、異なるパラメータ、すなわち、ゼロクロスカウンター（ＺｅｒｏｃｏｒｏｓｓｉｎｇＸｏｕｎｔｅｒ：ｚｃ）、スペクトルの傾斜（ｓｐｅｃｔｒａｌｔｉｌｔ：ｔｉｌｔ）、（ｐｉｔｃｈｓｔａｂｉｌｉｔｙ：ｐｓ）および規格化されたピッチの相関（ｎｏｒｍａｌｉｚｅｄｃｏｒｒｅｌａｔｉｏｎ：ｎｃ）を使用するメリット演算に基づく。４つのパラメータ全ては、０は標準的な無声信号に対応し、１は標準的な有声信号に対応するという方法において、０と１との間で規格化される。この実施形態において、発声強さは、ミランイェリネック（ＭｉｌａｎＪｅｌｉｎｅｋ）およびレドワンサラミ（ＲｅｄｗａｎＳａｌａｍｉ）著「ｖｍｒ−ｗｂ規格における広帯域の音声符号化の進展（Ｗｉｄｅｂａｎｄｓｐｅｅｃｈｃｏｄｉｎｇａｄｖｎｃｅｓｉｎｖｍｒ−ｗｂｓｔａｎｄａｒｄ）」，ＩＥＥＥＴｒａｎｓ．ｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１５ｎｏ．４，ｐｐ１１６７−１１７９，２００７年５月に記載されるＶＭＲ−ＷＢ音声コーダにおいて使用される音声分類基準から着想される。それは、自己相関に基づく発展ピッチ追跡（ｅｖｏｌｖｅｄｐｉｔｃｈｔｒａｃｋｅｒ）に基づく。フレームインデックスｋのために、発声強さは、以下の式を有する：

ショートターム特性の識別能力は、分類器として、混合ガウス分布モデル（ＧＭＭ）によって評価される。２つのＧＭＭ（一つは音声クラスのため、他は音楽クラスのため）が適用される。混合数は、パフォーマンスに対する効果を評価するために変動させられる。表１は、異なる混合数に対する正解率を示す。決定は、４つの連続したフレームのセグメントごとに計算される。それから、全体の遅延は、切り替えられたオーディオ符号化に適している６４ｍｓに等しい。パフォーマンスは、混合数によって増加すると気づかされる。１−ＧＭＭと５−ＧＭＭとの間のギャップは、特に重要であり、音声のフォルマント表現は、１つのガウシアンによってのみ十分に定義されるにはあまりに複雑であるという事実によって説明されうる。

表１：ショートターム特性分類の正確さ（％）

次に、ロングターム分類器１５４について考えると、多くの研究（例えば、Ｍ．Ｊ．キャリー（Ｍ．Ｊ．Ｃａｒｅｙ）著「音声および音楽の識別のための特徴の比較（Ａｃｏｍｐａｒｉｓｏｎｏｆｆｅａｔｕｒｅｓｆｏｒｓｐｅｅｃｈａｎｄｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｉｏｎ）」，Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔｉｃ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＣＡＳＳＰ，ｖｏｌ．１２，ｐｐ１４９−１５２，１９９９年３月）はそれらの特性自体より多く識別しているために、統計特性の変化を考慮する。大まかな一般規則として、音楽は、より同じ状態が保たれていると考慮されることができ、通常、低い分散を示す。これに反して、信号が有声のセグメントと無声のセグメントとの間で周期的に変化する場合に、音声は、その目立った４Ｈｚのエネルギー変調によって容易に特徴づけられうる。さらに、異なる音素の連続は、音声の特性をより一定にしない。この実施形態において、２つのロングターム特性が考慮される。１つは、分散の計算結果に基づき、他は、音声のピッチ輪郭の演繹的知識に基づく。ロングターム特性は、低遅延ＳＭＤ（音声／音楽識別：ｓｐｅｅｃｈ／ｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｉｏｎ）に適している。

ＰＬＰＣＣの分散の変動は、最後のフレームを強調するために、いくつかのフレームをカバーしているオーバーラップ分析ウィンドウにおける一組のＰＬＰＣＣごとに分散を計算することから構成される。導かれた待ち時間を制限するために、分析ウィンドウは非対称であり、現在のフレームおよび過去の過程のみを考慮する。第１ステップにおいて、ＰＬＰＣＣの移動平均ｍａ_m（ｋ）は、以下に記載されるように、最後のＮフレームまで計算される：

ここで、ＰＬＰＣｍ（ｋ）は、ｋ番目のフレームから来ている係数Ｍの合計より多くのｍ番目のケプストラム係数である。そして、移動分散ｍｖ_m（ｋ）は以下のように定義される：

ここで、ｗは、本実施形態において、以下のように定義されるランプスロープ（ｒａｍｐｓｌｏｐｅ）である長さＮのウィンドウである：

移動分散は、最終的にケプストラム次元の平均値になる：

音声のピッチは、目立った性質を有し、そして、それらの一部は、長い分析ウィンドウにおいて観察されうるのみである。実際に、音声のピッチは、有声音区間の間、なだらかに変動しているが、あまり一定ではない。これに反して、音楽は、音符（ｎｏｔｅ）の全体の連続期間の間、非常に多くの場合一定ピッチを示し、そして、一時的現象の間、不意に変化する。ロングターム特性は、長期セグメントにおけるピッチ輪郭を観察することによって、この特徴を包含する。ピッチ輪郭パラメータｐｃ（ｋ）は以下のように定義される：

ここで、ｐ（ｋ）は、１６ＨｚでサンプルされるＬＰ残留信号におけるフレームインデックスｋで計算されるピッチ遅延である。ピッチ輪郭パラメータから、音声メリットｓｍ（ｋ）は、音声が、有声音区間の間、なだらかに変動するピッチ遅延を、そして、無声音区間の間、高周波数に向かって強いスペクトルの傾斜を示すことを要求するような方法で計算される：

ここで、ｎｃ（ｋ）、ｔｉｌｔ（ｋ）およびｖ（ｋ）は、上記（ショートターム分類器を参照）に定義される。そして、音声メリットは、上記で定義されるウィンドウｗによって重み付けされ、そして、最後のＮフレームでまとめられる：

ピッチ輪郭は、信号が音声またはオーディオ符号化に適しているという重要な表示でもある。実際、音声コーダは、主に時間領域で機能し、信号が、約５ｍｓの短い時間セグメントにおいて、倍音および準定常であると仮定する。このように、それらは、能率的に音声の自然なピッチ変動をモデル化することができる。これに反して、同じ変動が、長い分析ウィンドウにおいて線形変換を利用する一般のオーディオエンコーダの効率を阻害する。そして、信号の主要なエネルギーは、いくつかの変換された係数に拡張される。

ショートターム特性に関しては、また、ロングターム特性は、このことによりロングターム分類結果（ＤＤＣ）を得ている統計分類器を使用して評価される。２つの特性は、Ｎ＝２５フレーム（例えば、信号の過去の過程の４００ｍｓを考慮する）を使用して計算される。線形判別分析（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｔＡｎａｌｙｓｉｓ：ＬＤＡ）は、低減された一次元のスペースにおいて３−ＧＭＭを用いる前に、最初に適用される。４つの連続するフレームのセグメントを分類する場合、表２は、トレーニングおよびテストセットにおいて測定されるパフォーマンスを示す。

表２：ロングターム特性分類の正確さ（％）

本発明の実施形態による組み合わされた分類器システムは、それらが、それらの自己の特定の貢献を最終決定にもたらすとする方法により、ショートタームおよびロングターム特性を適切に組み合わせる。この目的のために、上述したように、ヒステリシス最終決定ステージが使用されうる。ここで、インスタント入力がＩＤＣまたはショートターム識別クルー（ｓｈｏｒｔ−ｔｅｒｍｄｉｓｃｒｉｍｉｎａｔｉｎｇｃｌｕｅ：ＳＴＤＣ）によってもたらされると共に、メモリ効果は、ＤＤＣまたはロングターム識別クルー（ｌｏｎｇ−ｔｅｒｍｄｉｄｃｒｉｍｉｎａｔｉｎｇｃｌｕｅ：ＬＴＤＣ）によって駆動される。２つのクルーは、図１において図示されるように、ロングタームおよびショートターム分類器の出力である。決定は、ＩＤＣに基づいて行われるが、状態変化を起動させている閾値を動的に制御するＤＤＣによって安定化される。

ロングターム分類器１５４は、３−ＧＭＭを受けてＬＤＡで前に定義されるロングタームおよびショートターム特性の両方を使用する。ＤＤＣは、最後の４×Ｋフレームを通じて計算される音声クラスおよび音楽クラスのロングタームクラシファイヤの尤度の対数的関数比率に等しい。考慮されるフレームの数は、最終決定において、多かれ少なかれメモリ効果を追加するために、パラメータＫを伴って変化することができる。これに反して、ショートターム分類器は、パフォーマンスおよび複雑さの間における良好な妥協を示す５−ＧＭＭでのショートターム特性のみを使用する。ＩＤＣは、最後の４フレームを通じて計算される音声クラスおよび音楽クラスのショートタームクラシファイヤの尤度の対数的関数比率に等しい。

発明のアプローチを評価するために、特に切り替えられたオーディオ符号化に対して、３種類の異なるパフォーマンスが評価された。第１の性能測定は、従来の音楽に対する音声（ＳｖＭ）のパフォーマンスである。それは、大きい一組の音楽および音声の項目を通じて評価される。第２の性能測定は、３秒ごとに交互に音声および音楽を有する大きい固有の項目において行われる。そして、識別精度は、音声前後音楽パフォーマンス（ＳａｂＭ）と呼ばれ、主に、システムの反応性を反映する。最後に、決定の安定度は、音楽項目の上の音声の大きい一組における分類を実行することによって評価される。音声および音楽の間のミキシングは、１つの項目から他の項目まで異なるレベルで行われる。そして、音楽に重なる音声（ＳｏＭ）のパフォーマンスは、フレームの合計数上で発生したクラススイッチの数の比率を計算することによって得られる。

ロングターム分類器およびショートターム分類器は、従来の１つの分類のアプローチを評価するための参照として使用される。ショートターム分類器は、低い安定度および全体の識別能力を有すると共に、良好な反応性を示す。一方、ロングターム分類器は、特に、４×Ｋのフレームの数を増加させることによって、決定の反応性を妥協することによって、より良い安定度および識別の作用を達成することができる。ちょうど従来のアプローチと比較される場合、本発明による組み合わされた分類器のシステムのパフォーマンスは、いくつかの利点を有する。１つの利点は、システムの反応性を維持すると共に、それが、音楽識別パフォーマンスに対して良好な純粋な音声を維持するということである。更なる利点は、反応性および安定度の間の良好なトレードオフである。

以下において、参照が、本発明の実施形態による識別器または決定ステージを含む典型的な符号化および復号化スキームを例示している図４および図５になされる。

図４において示される典型的な符号化スキームによれば、モノラル信号、ステレオ信号またはマルチチャネル信号は、共通の前処理ステージ２００に入力される。

共通の前処理ステージ２００は、ジョイントステレオ機能性、サラウンド機能性、および／または帯域幅拡張機能を有することができる。ステージ２００の出力において、１つ以上のスイッチ２０２に入力されるモノラルチャネル、ステレオチャネルまたはマルチチャネルがある。ステージ２００が２つ以上の出力を有する場合、すなわち、ステージ２００が、ステレオ信号またはマルチチャネル信号を出力する場合、スイッチ２０２は、ステージ２００の出力ごとに設けられている。模範となるように、ステレオ信号の第１チャネルは、音声チャネルでよく、そして、ステレオ信号の第２チャネルは、音楽チャネルでよい。この場合、決定ステージ２０４における決定は、同じ時刻で２つのチャネルの間で異なっていても良い。

スイッチ２０２は、決定ステージ２０４によって制御される。決定ステージは、本発明の実施形態による識別器を含み、そして入力として、ステージ２００に入力された信号、またはステージ２００によって出力された信号を受信する。あるいは、決定ステージ２０４は、モノラル信号、ステレオ信号もしくはマルチチャネル信号に含まれるか、またはそのような信号と少なくとも関係しているサイド情報も受信しうる。ここで、もともとモノラル信号、ステレオ信号またはマルチチャネル信号を作り出す場合に生成された情報が存在している。

ある実施形態において、決定ステージは、前処理ステージ２００を制御しない。そして、ステージ２０４および２００の間の矢印が存在しない。更なる実施形態において、ステージ２００における処理は、決定に基づくステージ２００における１以上のパラメータを設定するために、決定ステージ２０４によってある程度制御される。しかしながら、このことは、ステージ２００における主な機能性は、ステージ２０４における決定にかかわりなく作動中であるように、ステージ２００における一般的なアルゴリズムに影響しない。

決定ステージ２０４は、図４の上側のブランチで例示される周波数の符号化している部分２０６または図４の下側のブランチで例示されるＬＰＣ−領域符号化している部分２０８のいずれかにおいて、共通の前処理ステージの出力を供給するためにスイッチ２０２を作動させる。

ある実施形態において、スイッチ２０２は、２つの符号化ブランチ２０６，２０８の間で切り替わる。更なる実施形態において、第３の符号化ブランチもしくは同等の第４の符号化ブランチまたは更なる符号化ブランチのような付加的な符号化ブランチがありうる。３つの符号化ブランチを有する実施形態において、第３の符号化ブランチは、第２の符号化ブランチと類似しているが、第２のブランチ２０８における励振エンコーダ２１０と異なる励振エンコーダを含む。そのような実施形態において、第２のブランチは、ＬＰＣステージ２１２および例えばＡＣＥＬＰのような励振エンコーダ２１０に基づくコードブックを含み、そして、第３のブランチは、ＬＰＣステージおよびＬＰＣステージの出力信号のスペクトル表現において作用している励振エンコーダを含む。

周波数領域の符号化ブランチは、共通前処理ステージの出力信号をスペクトル領域に変換するために作動するスペクトル変換ブロック２１４を含む。スペクトル変換ブロックは、ＭＤＣＴアルゴリズム、ＱＭＦ、ＦＦＴアルゴリズム、ウェーブレット解析またはいくらかのフィルタバンクチャネルを有する精確にサンプルされるフィルタバンクのようなフィルタバンクを含むことができる。ここで、このフィルタバンクのサブバンド信号は、実数値信号、または虚数値信号である。スペクトル変換ブロック２１４の出力は、スペクトルオーディオエンコーダ２１６を使用して符号化され、ＡＡＣ符号化スキームから公知であるように、それは、処理ブロックを含むことができる。

下側の符号化ブランチ２０８は、２種類の信号を出力するＬＰＣ２１２のようなソースモデルアナライザを含む。一方の信号は、ＬＰＣ合成フィルタのフィルタ特性を制御するために使用されるＬＰＣ情報信号である。このＬＰＣ情報は、デコーダに送信される。他のＬＰＣステージ２１２の出力信号は、励振信号またはＬＰＣ領域信号であり、そして、それは、励振エンコーダ２１０に入力される。励振エンコーダ２１０は、ＣＥＬＰエンコーダ、ＡＣＥＬＰエンコーダまたはＬＰＣ領域信号を処理する他のいかなるエンコーダのようなソースフィルタモデルエンコーダによってもたらされる。

他の励振エンコーダの実装は、励振信号の変換符号化でもよい。このような実施形態においては、励振信号は、ＡＣＥＬＰコードブックメカニズムを使用して符号化されない。しかし、励振信号は、スペクトル表現に変換され、そして、フィルタバンクの場合にはサブバンド信号のようなスペクトル表現値、またはＦＦＴのような変換の場合には周波数係数がデータ圧縮を得るために符号化される。励振エンコーダのこの種の実装は、ＡＭＲ−ＷＢ＋から知られるＴＣＸ符号化モードである。

音楽信号は上側のブランチ２０６に入力され、音声信号は下側のブランチ２０８に入力されるというような方法で、決定ステージ２０４が音楽／音声識別を実行し、スイッチ２０２を制御するように、決定ステージ２０４における決定は信号に適応しうる。ある実施形態において、決定ステージ２０４は、その決定情報を出力ビットストリームに送り込む。その結果、デコーダは、正確なデコーディング動作を実行するためにこの決定情報を使用することができる。

そのようなデコーダは、図５において示される。送信の後、スペクトルオーディオエンコーダ２１６による信号出力は、スペクトルオーディオデコーダ２１８に入力される。スペクトルオーディオデコーダ２１８の出力は、時間領域コンバータ２２０に入力される。図４の励振エンコーダ２１０の出力は、ＬＰＣ領域信号を出力する励振デコーダ２２２に入力される。ＬＰＣ領域信号は、ＬＰＣ合成ステージ２２４に入力される。そして、それは、更なる入力として、ＬＰＣ分析ステージ２１２に対応することによって生成されるＬＰＣ情報を受信する。時間領域コンバータ２２０の出力および／またはＬＰＣ合成ステージ２２４の出力は、スイッチ２２６に入力される。スイッチ２２６は、例えば、決定ステージ２０４によって生成される、または例えば、元のモノラル信号、ステレオ信号、もしくはマルチチャネル信号のクリエイター（ｃｒｅａｔｏｒ）によって外部的に提供されるスイッチ制御信号を介して制御される。

スイッチ２２６の出力は、共通の後処理ステージ２２８にその後入力される完全なモノラル信号である。そして、それは、ジョイントステレオ処理または帯域幅拡張処理等を実行することができる。あるいは、スイッチの出力は、ステレオ信号またはマルチチャネル信号でもよい。処理が２つのチャネルへのチャネルの低減を含む場合、それはステレオ信号である。３つのチャネルへのチャネルの低減をする場合、または、全くチャネルを低減せずスペクトル帯域多重化のみが実行される場合、それは、マルチチャネル信号でさえあればよい。

共通の後処理ステージの特定の機能性に応じて、共通の後処理ステージ２２８が帯域幅拡張動作を実行する場合、信号をブロック２２８に入力するより大きな帯域幅を有するモノラル信号、ステレオ信号、またはマルチチャネル信号が出力される。

ある実施形態において、スイッチ２２６は、２つの復号化ブランチ２１８，２２０および２２２，２２４の間で切り替わる。更なる実施形態において、第３の復号化ブランチ、もしくは第４の復号化ブランチ、または更なる復号化ブランチのような付加的な復号化ブランチがありうる。３つの復号化ブランチを有する実施形態において、第３の復号化ブランチは、第２の復号化ブランチと類似しているが、第２のブランチ２２２，２２４における励振デコーダ２２２と異なる励振デコーダを含む。そのような実施形態において、第２のブランチは、ＬＰＣステージ２２４および例えばＡＣＥＬＰのような励振デコーダに基づくコードブックを含み、そして、第３のブランチは、ＬＰＣステージおよびＬＰＣステージ２２４の出力信号のスペクトル表現において作用している励振デコーダを含む。

他の実施形態において、共通の前処理ステージは、出力として、２以上のチャネルを有する信号である入力信号をダウンミックスすることによって生成される、ジョイントステレオパラメータおよびモノラル出力信号を生成するサラウンド／ジョイントステレオブロックを含む。一般に、ブロックの出力での信号は、より多くのチャネルを有する信号でもよいが、ダウンミキシング動作のため、ブロックの出力でのチャネルの数は、ブロックに入力されるチャネルの数よりも小さい。この実施形態において、周波数符号化ブランチは、スペクトル変換ステージを含み、その後量子化／符号化ステージに接続される。量子化／符号化ステージは、例えば、ＡＡＣエンコーダのような現在の周波数領域エンコーダとして知られるいずれかの機能性を含むことができる。さらに、量子化／符号化ステージにおける量子化動作は、周波数上の音響心理学的なマスキング閾値のような音響心理学的な情報を生成する音響心理学モジュールを介して制御される。ここで、この情報は、ステージに入力される。好ましくは、スペクトル変換は、ＭＤＣＴ演算を使用して行われるが、さらに好ましくは、タイムワープ（ｔｉｍｅ−ｗａｒｐｅｄ）ＭＤＣＴ演算が使用される。ここで、一般に、強さ、またはワープ強さは、ゼロおよび高いワープ強さとの間において制御されうる。ゼロワープ強さにおいて、ＭＤＣＴ演算は、公知技術の直接的な（ｓｔｒａｉｇｈｔ−ｆｏｒｗａｒｄ）ＭＤＣＴ演算である。ＬＰＣ領域エンコーダは、ピッチゲイン、ピッチ遅延および／またはコードブックインデックスおよびコードゲインのようなコードブック情報を算出しているＡＣＥＬＰコアを含む。

図のいくつかは、装置のブロック図を示すが、同時にこれらの図は、方法を示すことに留意されたい。ここで、ブロックの機能性は、方法のステップに対応する。

本発明の実施形態は、異なるセグメントまたはフレームを含むオーディオ入力信号に基づいて記載されていた。異なるセグメントまたはフレームは、音声情報または音楽情報に関連している。本発明は、そのような実施形態に制限されず、むしろ、信号の異なるセグメントを分類するアプローチは、３つ以上の異なるセグメントタイプを含むオーディオ信号にも適用され、少なくとも第１のタイプおよび第２のタイプのセグメントを含む。そして、それぞれは、異なる符号化スキームによって符号化されることが望ましい。このようなセグメントタイプの例は、以下の通りである：

− 定常／非定常セグメントは、異なるフィルタバンク、ウィンドウ、または符号化適合を使用することに役立ちうる。例えば、過渡信号は、純粋な正弦曲線が微細な周波数分解能フィルタバンクによって符号化されなければならない上に、微細な時間分解能フィルタバンクによって符号化されなければならない。
− 有声／無声：無声音区間があまりに多くのビットが無駄になることを別にすれば、有声音区間は、ＣＥＬＰのような音声コーダによってよく扱われる。パラメータ符号化は、より効率的である。
− 沈黙／活動：沈黙は、アクティブセグメントより少しのビットで符号化されうる。
− 調和的な／非調和的な：周波数領域における線形予測を使用して調和セグメント符号化のために使用することは有益である。

１つのブランチのみが処理される信号を受信し、他のブランチが信号を受信しないように、本発明の実施形態は、ブランチの間で切り替えるためにスイッチを使用する。しかしながら、別の実施形態において、スイッチは、処理ステージまたはブランチ（例えば、オーディオエンコーダおよび音声エンコーダ）の後に配置することもできる。その結果、両方のブランチは、並行して同じ信号を処理する。これらのブランチのうちの１つによって出力された信号は、例えば、出力ビットストリームに書き込まれるように、出力であるように選択される。

本発明の実施形態が、デジタル信号（そのセグメントは、特定のサンプリングレートで得られる定義済みの多数のサンプルによって決定される）に基づいて記載される一方、本発明は、そのような信号に限られず、むしろ、アナログ信号の特定の周波数範囲または期間によって決定されるセグメントにおけるアナログ信号にも適用できる。加えて、本発明の実施形態は、識別器に含んでいるエンコーダと組み合わせて記載されていた。基本的に、信号を分類するための本発明の実施形態によるアプローチは、異なる符号化スキームが、適切なデコーダに供給されうる符号化された信号を割り当てることによって分類される符号化された信号を受信しているデコーダに適用されうる。

本発明の方法のある実装要求に応じて、本発明の方法は、ハードウェアまたはソフトウェアに実装されうる。実装は、デジタル記録媒体を使用して実行され、特に、保存された電子的に読み込み可能な制御信号を有するディスク、ＤＶＤまたはＣＤが、本発明が実行されるプログラム可能なコンピュータシステムと協働する。従って、一般に、本発明は、機械読取可能な担持体に、ブログラムコードを保存するコンピュータプログラム製品である。コンピュータ上でコンピュータプログラム製品が稼動するとき、プログラムコードは、本発明を実行するように作動される。言い換えれば、したがって、本発明の方法は、コンピュータ上でコンピュータプログラムが稼動するとき、本発明の方法の少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

上述した実施形態は、本発明の原理を単に図示するだけである。処理の修正および変更並びに本明細書において記載されている詳細は、他の当業者にとって明らかなものと理解される。従って、近い将来の特許請求の範囲によってのみ限られ、そして、本明細書の記載および実施形態として示される具体的な詳細によって限られないという意図である。

上述した実施形態において、信号は、複数のフレームを含むように記載される。ここで、現在のフレームは、切り替え決定のために評価される。スイッチング決定のために評価される現在の信号のセグメントが、１つのフレームでありうるという点に留意されたい。しかしながら、本発明は、そのような実施形態に限られない。むしろ、信号のセグメントは、例えば２以上の複数のフレームを含むこともできる。

更に、上述した実施形態において、ショートターム分類器およびロングターム分類器の両方が、同じショートターム特性を使用した。例えば、ショートターム特性がショートタームまたはロングターム分類器のうちの１つによって算出することができ、そして、他の分類器に供給された場合、一度だけショートターム特性を算出するために、そしてシステムの複雑さを低減する異なる方法における２つの分類器によって同様に利用する必要があるような異なる理由のために、このアプローチは使用される。また、２つの分類器が共通の特性を共有するので、ロングターム分類結果における現在のフレームの貢献が、それをショートターム分類結果によってより容易に推定される場合、ショートタームおよびロングターム分類器の間の比較の結果はより関連しうる。

しかしながら、本発明は、そのようなアプローチに制限されず、そして、ロングターム分類器は、ショートターム分類器として同じショートターム特性を使用することに制限されない。すなわち、ショートターム分類器およびロングターム分類器の両方は、お互いに異なるそれらそれぞれのショートターム特性を算出することができる。

上述の実施形態が、ショートターム特性としてＰＬＰＣＣの使用に言及したが、他の特性が考慮されうる（例えば、ＰＬＰＣＣの変形）ことに留意されたい。

Claims

オーディオ信号の異なるセグメントを分類するための方法であって、前記オーディオ信号は、音声および音楽のセグメントを含み、前記方法は、
前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号をショートターム分類し（１５０）、そして、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示すショートターム分類結果（１５２）を供給するステップと、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントかまたは音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号をロングターム分類し、そして、前記オーディオ信号の現在のセグメントが、音声のセグメントか、または音楽のセグメントを指し示すロングターム分類結果（１５６）を供給するステップと、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号（１６０）を提供するために、前記ショートターム分類結果（１５２）および前記ロングターム分類結果（１５６）を組み合わせるステップ（１５８）と、
を含む、方法。
前記組み合わせるステップは、前記ショートターム分類結果（１５２）と前記ロングターム分類結果（１５６）との比較に基づいて前記出力信号を提供するステップを含む、請求項１に記載の方法。
前記少なくとも一つのショートターム特性は、分類される前記オーディオ信号の現在のセグメントを分析することによって得られ、
前記少なくとも一つのロングターム特性は、前記オーディオ信号の現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントを分析することによって得られる、請求項１または請求項２に記載の方法。
前記少なくとも一つのショートターム特性は、第１の長さおよび第１の分析方法の分析ウィンドウ（１６８）を分析することによって得られ、
前記少なくとも一つのロングターム特性は、第２の長さおよび第２の分析方法の分析ウィンドウ（１６２）を分析することによって得られ、前記第１の長さは、前記第２の長さよりも短く、そして、前記第１および前記第２の分析方法は異なる、請求項１ないし請求項３のいずれかに記載の方法。
前記第１の長さは、前記オーディオ信号の前記現在のセグメントにまたがり、前記第２の長さは、前記オーディオ信号の前記現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントにまたがり、そして、前記第１および前記第２の長さは、分析期間をカバーしている追加期間（１６４）を含む、請求項４に記載の方法。
前記ショートターム分類結果（１５２）および前記ロングターム分類結果（１５６）を組み合わせるステップ（１５８）は、組み合わされた結果に基づくヒステリシス決定を含み、ここで、前記組み合わされた結果は、前記ショートターム分類結果（１５２）および前記ロングターム分類結果（１５６）を含み、それぞれは定義済みの重み係数によって重み付けされる、請求項１ないし請求項５のいずれかに記載の方法。
前記オーディオ信号は、デジタル信号であり、そして、前記オーディオ信号のセグメントは、特定のサンプリングレートで得られる定義済みの数のサンプルを含む、請求項１ないし請求項６のいずれかに記載の方法。
前記少なくとも一つのショートターム特性はＰＬＰＣＣパラメータを含み、
前記少なくとも一つのロングターム特性はピッチ特徴情報を含む、請求項１ないし請求項７のいずれかに記載の方法。
ショートターム分類に使用される前記ショートターム特性およびロングターム分類に使用される前記ロングターム特性は同じか、異なる、請求項１ないし請求項８のいずれかに記載の方法。
音声および音楽のセグメントを含むオーディオ信号を処理するための方法であって、前記方法は、請求項１ないし請求項９のいずれかに記載の方法による前記オーディオ信号の現在のセグメントを分類するステップ（１１６）と、
前記分類するステップ（１１６）によって供給される前記出力信号（１６０）に依存し、第１の処理、または第２の処理により前記現在のセグメントを処理するステップ（１０２，２０６；１０６，２０８）と、
前記処理されたセグメントを出力するステップと、
を含む、方法。
前記セグメントが音声セグメントであることを前記出力信号（１６０）が指し示す場合、符号化されたセグメントを生成するために前記セグメントは音声エンコーダ（１０２）によって処理され、
前記セグメントが音楽セグメントであることを前記出力信号（１６０）が指し示す場合、前記符号化されたセグメントを生成するために前記セグメントは音楽エンコーダ（１０６）によって処理される、請求項１０に記載の方法。
前記セグメントの前記タイプを指し示す前記出力信号（１６０）から前記符号化されたセグメント、および情報を組み合わせるステップ（１０８）を更に含む、請求項１１に記載の方法。
コンピュータに、請求項１ないし請求項１２のいずれかに記載の方法を実行させるためのコンピュータプログラム。
識別器は、
オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号のショートターム分類結果（１５２）を供給するために構成されるショートターム分類器（１５０）であって、前記ショートターム分類結果（１５２）は、前記オーディオ信号の前記現在のセグメントが音声のセグメントまたは音楽のセグメントを指し示し、前記オーディオ信号は少なくとも音声および音楽のセグメントを含む、ショートターム分類器（１５０）と、
オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号のロングターム分類結果（１５６）を供給するために構成され、前記ロングターム分類結果（１５６）は、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示す、ロングターム分類器（１５４）と、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号（１６０）を供給するために、前記ショートターム分類結果（１５２）および前記ロングターム分類結果（１５６）を組み合わせるために構成される決定回路（１５８）と、
を含む、識別器。
前記決定回路（１５８）は、前記ショートターム分類結果（１５２）と前記ロングターム分類結果（１５６）との比較に基づいて前記出力信号を提供するために構成される、請求項１４に記載の識別器。
オーディオ信号を処理するための装置であって、前記装置は、
処理されるオーディオ信号を受信するために構成される入力（１１０）であって、前記オーディオ信号は、音声および音楽のセグメントを含む、前記入力（１１０）と、
音声のセグメントを処理するために構成される第１の処理ステージ（１００；２０６）と、
音楽のセグメントを処理するために構成される第２の処理ステージ（１０４；２０８）と、
前記入力に連結される請求項１４または請求項１５のいずれかに記載の識別器（１１６；２０４）と、
前記入力および前記第１および前記第２の処理ステージの間に連結され、そして、前記入力（１１０）からの前記オーディオ信号を前記識別器（１１６）からの前記出力信号（１６０）に依存する前記第１および前記第２の処理ステージのうちの一つに適用するために構成される切り替え装置（１１２；２０２）と、
を含む、装置。
オーディオエンコーダは、
請求項１６に記載の装置を含み、
前記第１の処理ステージ（１００；２０６）は音声エンコーダ（１０２；２１６）を含み、前記第２の処理ステージ（１０４；２０８）は音楽エンコーダ（１０６；２１０）を含む、オーディオエンコーダ。