JP2005173569A

JP2005173569A - オーディオ信号の分類装置及び方法

Info

Publication number: JP2005173569A
Application number: JP2004329133A
Authority: JP
Inventors: Silke Goronzy; ゴロンツィー、シルケ; Thomas Kemp; ケンプ、トーマス; Ralf Kompe; コンペ、ラルフ; Yin Hay Lam; インハイラム、; Krzysztof Marasek; マラセック、クルジーストフ; Raquel Tato; タト、ラケル
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-11-12
Filing date: 2004-11-12
Publication date: 2005-06-30
Also published as: US20050131688A1; EP1531478A1

Abstract

【課題】供給されるオーディオ信号が属するカテゴリー又は番組とは無関係に良好な平均的動作性能が得られるオーディオ信号分類装置及び方法を提供する。
【解決手段】オーディオ信号分類装置１は、オーディオ信号クリッピング手段２と、得られたオーディオクリップを所定のオーディオクラスに分類するクラス判別手段３とを備える。上述の課題は、オーディオ信号分類装置１において、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するクラス判別手段３により解決される。オーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。
【選択図】図１

Description

本発明は、独立請求項１乃至１３の各前文の特徴を備えるオーディオ信号の分類装置及び方法に関する。

インターネット上やデジタルビデオディスク（digital video disc）等の種々の記録媒体において利用可能な（サンプリングされたビデオ信号からなる）ビデオデータが増えつつある。更に、上述のビデオデータは、アナログ又はデジタルビデオ信号として膨大な数のテレステーション（telestation）により供給される。

ビデオデータは、音声、オーディオ、テキスト、画像物体のカラーパターン及び形状、これらの物体の動きを含む内容豊富な多面的情報源である。

現在、上述のビデオデータにおいて関心のあるセグメント（例えば、あるトピック、人物、イベント、プロット（plot）等）を検索する可能性が求められている。

原理的には、いずれのビデオ信号の場合も、主として一般的主題（general subject matter）について分類することができる。一般的主題は「カテゴリー」と呼ばれることが多い。

ビデオ信号がＴＶ放送である場合、上述の一般的主題（カテゴリー）は、例えばニュース、スポーツ、映画、記録映画等である。

本明細書では、１つの一般的主題（カテゴリー）に属する自己完結型ビデオ信号（self-contained video signal）を「番組（programme）」と呼ぶ。

例えば、各単一のテレビ番組（telecast）、各単一の長編映画、各単一のニュースマガジン、各単一のラジオドラマをそれぞれ番組と呼ぶ。

通常、各番組は、複数の自己完結型アクティビティ（activity、イベント（event））を含んでいる。この点に関して、ある最低の重要度を有する自己完結型アクティビティ（イベント）のみが考慮される。

一般的主題（カテゴリー）がニュースであり、番組がニュースマガジンである場合、例えば、自己完結型アクティビティは、上述のニュースマガジンに記載されている種々の寸評（notice）となる。一般的主題（カテゴリー）がスポーツであり、番組がフットボールの試合である場合、例えば、上述の自己完結型アクティビティは、キックオフ、ペナルティキック、スローイン等となる。

以下、何らかの番組に含まれ、最低の重要度を満たす上述の自己完結型アクティビティ（イベント）を「コンテンツ（contents）」と呼ぶ。

このように、各ビデオ信号は、まず、カテゴリー（一般的主題）について分類される。

各カテゴリー内において、ビデオ信号は番組（１カテゴリーに属する自己完結型ビデオ信号）について分類される。

番組は、更に、各コンテンツ（自己完結型アクティビティ（重要イベント））について分類される。

アナログビデオ信号の閲覧や概要把握（スキミング）を行うための従来のビデオテープレコーダのサンプル再生モードは、煩雑で融通性がない。この問題の理由は、ビデオ信号が、サンプルの線形ブロック（linear block）として扱われることである。検索機能（早送り及び早戻し以外の検索機能）は得られない。

この問題に対処するため、最近のビデオテープレコーダでは、記録動作を開始する度に手動又は自動でインデックスを設定し、ビデオ信号のシーケンスの自動認識を可能にしているものもある。上述のインデックスがビデオ信号のシーケンスを個々に識別するように構成されていないのは不利である。

一方、デジタルビデオディスクは、ビデオデータ（デジタル化ビデオ信号）を記録しており、デジタルビデオディスクの製造中にビデオデータにチャプタが添付されている。このチャプタは、通常は、筋書き（story line）の識別を可能とするだけである。特に、上述のチャプタによって、ビデオデータに含まれる、あるコンテンツ（最低の重要度を有する自己完結型アクティビティ／イベント）を識別することはできない。

また、近年、電子番組ガイド（electronic program guide：以下、ＥＰＧという。）システムが開発されている。

電子番組ガイド（ＥＰＧ）は、デジタルセットトップボックスや新型のテレビジョン受信機において使用され、各チャンネルで現在視聴可能な番組や放送予定の番組、及び、各番組の概要や解説をリストにするためのアプリケーションである。ＥＰＧは、印刷されたテレビ番組ガイドの電子版である。

通常、ＥＰＧにはリモートコントローラを用いてアクセスする。メニューが得られ、これによりユーザは、数時間から７日間先の放送予定の番組のリストを見ることができる。一般的なＥＰＧには、ペアレンタルコントロール（parental control）の設定、ペイパービュー番組の申込み、テーマ又はカテゴリーに基づく番組検索、ＶＣＲの番組録画設定等のオプションが含まれている。各デジタルテレビジョン受信機（ＤＴＶ）の製造業者は、独自のユーザインターフェース及び内容を有するＥＰＧを提供している。現在、ＥＰＧのフォーマットは、多くの場合、各プロバイダによって大きく異なっている。今までに開発された規格（例えば、ＭＨＰ規格）は、まだ実現されていない。

したがって、ＥＰＧに適したビデオデータは、通常、オーディオ信号、画像信号、情報信号からなる。ＥＰＧによって、番組及び各番組が属する一般的主題（カテゴリー）を識別するこは可能であるが、各番組に含まれる、あるコンテンツを識別することはできない。

ＥＰＧによって提供される情報は、ＥＰＧのプロバイダが手動で作成しなければならないことは、ＥＰＧの不利な点である。上述のように、これは非常に大変な作業であり、費用がかかる。更に、代表的なＥＰＧ情報は、全体として映画コンテンツに関する情報のみからなる。各映画を個々のコンテンツ（自己完結型アクティビティ／プロット）に細分化することはできない。

大量のビデオ信号を扱う問題の明らかな解決策として、各番組のビデオ信号をコンテンツに基づいて手動でセグメントに分割し、これらのセグメントに含まれるビデオ信号に関する詳細な情報を提供することが考えられる。

使用可能なビデオ信号には大量のビデオシーケンスが含まれているため、手動のセグメント分割では極めて時間がかかり、費用がかかる。このため、この手法は大量のビデオ信号の処理については実用的でない。

上述の問題を解決するため、近年、ビデオ信号の自動セグメント分割を行う手法が提案されている。

このようなビデオ信号の自動セグメントセグメント分割の考えられる適用領域として、例えば、デジタルビデオライブラリやインターネットがある。

ビデオ信号は少なくとも１つの画像信号と１以上のオーディオ信号からなることから、ビデオ信号の自動セグメント分割処理は、画像信号、オーディオ信号、又はこれらの両信号の解析に依存する。

以下、ビデオ信号におけるオーディオ信号の解析に焦点を置いたセグメント分割処理について、更に説明する。

この手法は、ビデオ信号におけるオーディオ信号に限定されるものではなく、物理的雑音以外のいずれのオーディオ信号にも用いることができることは明らかである。更に、この手法の全般的な考え方は、例えば、ビデオ信号における画像信号の解析等、他の種類の信号にも適用できる。

セグメント分割処理に関する既知の手法としては、ビデオ信号に含まれるオーディオ信号のクリッピング、自動分類、自動セグメント分割がある。

「クリッピング（Clipping）」は、オーディオ信号（及び対応するビデオ信号）を、更なる処理を行うのに適した長さのオーディオクリップ（及び対応するビデオクリップ）に分割するために行われる。オーディオクリップは、それぞれ、適切な量のオーディオ信号からなる。したがって、セグメント分割処理の精度は、上述のオーディオクリップの長さによって異なる。

「分類（Classification）」とは、オーディオ信号の発生源（例えば、音声、音楽、雑音、無音、話者の性別）に対して行う、オーディオ信号の未処理の区別（discrimination）を意味する。分類は、通常、オーディオクラス分類規則に基づく信号解析技術により行われる。したがって、分類の結果、オーディオ信号発生源に関して分割されたオーディオ信号シーケンスが得られる。

「セグメント分割（Segmentation）」とは、オーディオ信号（ビデオ信号）を、結合（cohesive）オーディオクリップからなる個々のシーケンスに分割することであり、各シーケンスには、そのシーケンスのオーディオ信号（ビデオ信号）のコンテンツ（最低重要度の自己完結型アクティビティ）が含まれる。セグメント分割は、通常、コンテンツ分類規則（content classifying rule）に基づいて行われる。

各コンテンツは、オーディオ信号に含まれるそれぞれの自己完結型アクティビティ／重要イベント（例えば、フットボールの試合におけるゴールやペナルティキック、あるいは、ニュースマガジンにおける種々のニュース）に属する全てのオーディオクリップにより構成される。

従来の技術に基づくオーディオ信号の自動セグメント分割を行うセグメント分割装置５０を図４に示す。

オーディオ信号６０に対するこのセグメント分割装置５０の効果を図５に示す。

セグメント分割装置５０は、オーディオ信号入力ポート５１を介して、未処理のオーディオ信号６０を供給するオーディオ信号入力手段５２を備えている。

この具体例では、上述の未処理のオーディオ信号６０は、ハードディスク５８において適切なビデオフォーマットで格納されているビデオ信号の一部を構成する。

あるいは、上述の未処理のオーディオ信号６０は、例えば、リアルタイム信号（例えば、従来のテレビチャンネルのオーディオ信号）であってもよい。

オーディオ信号入力手段５２により供給されるオーディオ信号６０は、オーディオ信号クリッピング手段５３に送られる。オーディオ信号クリッピング手段５３は、オーディオ信号６０（及び各ビデオ信号）を、所定の長さのオーディオクリップ６１（及び対応するビデオクリップ）に分割する。

オーディオ信号クリッピング手段５３により生成されたオーディオクリップ６１は、更に、クラス判別手段５４に送られる。

クラス判別手段５４は、オーディオクリップ６１に含まれているオーディオ信号６０の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいてオーディオクリップ６１を所定のオーディオクラス６２に弁別する。それによって、各オーディオクラス６２は、各オーディオクリップ６１に含まれるオーディオ信号の種類を識別する。ここで、用語「規則」は、オーディオクリップ６１のオーディオクラス６２への自動分類を可能にする命令又は規定を定義している。

オーディオクラス分類規則は、それぞれ、オーディオ信号の所定の音響特性の組合せを、ある種のオーディオ信号に割り当てる。

ここで、「無音」というオーディオ信号の種類を識別するオーディオクラス分類規則の音響特性は、例えば、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」及び「低ゼロクロス率（zero cross rate）」である。

この具体例では、無音（クラス１）、音声（クラス２）、喝采／拍手（クラス３）、音楽（クラス４）のそれぞれに対するオーディオクラスとそれに対応するオーディオクラス分類規則が設けられている。

上述のオーディオクラス分類規則は、クラス判別手段５４に記憶されている。

クラス判別手段５４により各オーディオクラス６２に分類されたオーディオクリップ６１は、セグメント分割手段５５に供給される。

セグメント分割手段５５には複数の所定のコンテンツ分類規則が記憶されている。各コンテンツ分類規則は、連続するオーディオクリップからなる特定のオーディオクラスシーケンスを、特定のコンテンツに対して割り当てる。

この具体例では、「フリーキック」（コンテンツ１）、「ゴール」（コンテンツ２）、「ファウル」（コンテンツ３）、「試合の終了」（コンテンツ４）のそれぞれについてのコンテンツ分類規則が設けられている。

オーディオ信号に含まれるコンテンツは、それぞれ、連続するオーディオクリップのシーケンスからなることは明らかである。これを図５中の構成要素（element）６３として示す。

各オーディオクリップをオーディオクラスに分類することができるため、オーディオ信号に含まれる各コンテンツも、連続オーディオクリップの対応するオーディオクラスのシーケンスからなる。

したがって、オーディオ信号に属する連続オーディオクリップの特定ののオーディオクラスシーケンスを、コンテンツ分類規則に属する連続オーディオクリップのオーディオクラスシーケンスと比較することにより、セグメント分割手段５５は、各オーディオクラスシーケンスに合致する規則を検出する。

その結果、上述の規則に割り当てられたコンテンツが、オーディオ信号に属する連続オーディオクリップの各シーケンスに割り当てられる。

このように、上述のコンテンツ分類規則に従って、セグメント分割手段５５は、判別手段５４により得られた分類済みオーディオ信号をコンテンツ６３（自己完結型アクティビティ）のシーケンスにセグメント分割する。

この具体例では、出力ファイル生成手段５６を用いて、オーディオ信号６０と、対応するビデオ信号と、対応するコンテンツ６３のシーケンスに関する情報とを含むビデオ出力ファイルを生成する。

この出力ファイルは、信号出力ポート５７を介してハードディスク５８に格納される。

ビデオ再生装置５９を用いて、ハードディスク５８に格納されているビデオ出力ファイルを再生することができる。

この具体例において、ビデオ再生装置５９は、更に、ビデオ出力ファイルに含まれるコンテンツ６３のシーケンスに関する情報に基づいて、ビデオ出力ファイルに含まれる個々のコンテンツの抽出又は選択を行うことが可能なデジタルビデオレコーダである。

このように、コンテンツについてのオーディオ信号のセグメント分割は、図４に示すセグメント分割装置５０により行われる。

オーディオデータの分類によく用いられる確率的信号モデルは、隠れマルコフモデルである。これについては、ローレンス・アール・ラビナー（Lawrence R. RABINER）によって１９８９年２月のＩＥＥＥで発表された予稿集「隠れマルコフモデルのチュートリア及び音声認識における選択された用途（A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition）」、Vol.77, No.2に詳細に説明されている。

音声、音楽、無音、性別についてのオーディオ分類のセグメント分割に関する異なる手法が、"Speech/Music/Silence and Gender Detection Algorithm" of Hadi HARB, Liming CHEN and Jean-Yves AULOGE published by the Lab. ICTT Dept. Mathematiques - Informatiques, ECOLE CENTRALE DE LYON. 36, avenue Guy de Collongue B.P. 163, 69131 ECULLY Cedex, Franceに開示されている。

一般に、上述の論文は、オーディオチャンネルを、音声、音楽、無音、雑音に分類することにより、場面のセグメント分割を改善することに関する。オーディオクラス判別について４つの手法が提案されている。すなわち、「モデルに基づく手法（model-based approach）」では、各オーディオクラスのモデルを生成し、これらのモデルは、ケプストラムやＭＦＣＣ等、オーディオデータの低いレベルの特性に基づくものである。「測量に基づくセグメント分割手法（metric-based segmentation approach）」では、隣接するウィンドウ間の距離を用いてセグメント分割を行う。「規則に基づく手法（rule-based approach）」では、各クラスについての個々の規則を作成し、これらの規則は、高い及び低いレベルの特性に基づくものである。そして、「デコーダに基づく手法（decoder-based approach）」では、音声認識システムの隠れマルコフモデルを用い、隠れマルコフモデルは音声信号のクラスを与えるようにトレーニング訓練されている。

更に、この論文では、「規則に基づく手法」に従って各クラスを記述する規則の生成を可能とする音声、音楽、無音の特性、及び、音声信号の性別を検出するための性別検出について詳細に説明している。

"Audio Feature Extraction and Analysis for Scene Segmentation and Classification" is disclosed by Zhu LIU and Yao WANG of the Polytechnic University Brooklyn, USA together with Tsuhan CHEN of the Carnegie Mellon University, Pittsburg, USAの論文は、ビデオデータのビデオシーン解析に関連オーディオ情報を用いて、広告放送（commercial）、バスケットボールの試合、フットボールの試合、ニュースリポート、天気予報という５種類のテレビ番組を判別することを説明している。

この論文によれば、オーディオデーダは複数のクリップに分割され、各クリップは複数のフレームからなる。

各クリップに含まれるオーディオデータの分類のため、ボリューム曲線、ピッチ曲線、帯域幅としての周波数範囲特性の解析からなる、低レベルオーディオ特性群が提案されている。

クラスタ化解析を用いて、種々のクラスの線形分離可能性を検査し、ビデオシーケンスを上述の５種類のテレビ番組に分離する。

この論文では、オーディオ識別の３つのレイヤが区別されている。すなわち、「低レベル音響特性レイヤ」では、オーディオ信号のラウドネス、ピッチ周期、帯域幅等、低レベル一般的特性を解析する。「中レベル音響シグネチャレイヤ」では、各音響信号をデータベースに格納されているシグネチャと比較することにより、特定の音を生成するオブジェクトを判定する。「高レベル意味モデル」では、種々のシーンタイプの音声（例えば、ニュースリポートや天気予報における音声のみで、広告放送における雑音の多い背景での音声は除く）の構造に関する既知の意味論的規則を用いる。

オーディオデータをオーディオメタパターンにセグメント分割するには、連続オーディオクリップのオーディオクラスシーケンスを用いる。

更に上述の方法の精度を高めるため、ビデオデータにおけるオーディオデータの解析と、ビデオデータに含まれるビジュアル情報（例えば、画像オブジェクトの各カラーパターンや形状）の解析とを組み合わせることが提案されている。

米国特許第６，１８５，５２７号は、後で情報を取り出すためにオーディオストリームにインデックスを付し、オーディオストリームの概要把握（スキミング）、要旨作成、概要を行うシステム及び方法を開示している。このシステム及び方法では、音声認識エンジンにより生成された適切な音声セグメントのみにインデックスが付されるように、特殊オーディオプレフィルタリングを用いる。具体的なインデックス付けの特徴についての開示があるが、これは、インデックスを付した後に単語指定のために使用する情報取り出しシステムの精度及び再呼び出しを改善するものである。上述の方法では、オーディオストリームを区間に分割し、各区間は１以上のセグメントからなる。１区間の各セグメントについて、そのセグメントが、特定範囲のゼロクロス率、特定範囲のエネルギ、特定範囲のスペクトルエネルギ集中等、１以上の所定のオーディオ特性を示しているか否かを判定する。オーディオ特性は、無音、音楽、音声、音楽を背景にした音声等の各オーディオイベントを表すことが発見的に判定される。また、区間群が、音声における連続する中断なしの音声、結論的考え、躊躇、強調等、発見的に予め定められたメタパターンに合致するか否かを判定し、区間分類及びメタパターン合致に基づいて、オーディオストリームにインデックスを付すが、後で情報を取り出す際の精度を改善するように、適切な特徴のみにインデックスを付す。また、後の再呼び出しを改善するため、音声認識エンジンにより生成された長い単語に代わる代替語に、それぞれ重みを付けてインデックスを付す。

このように、オーディオストリームの概要を自動的に与える、又は、オーディオストリームの要旨把握を得ることが特に提案されている。

自動音響セグメント分割からインデックスを生成するアルゴリズムについては、ダン・キンバー（Don KIMBER）、リン・ウィルコックス（Lynn WILCOX）著の論文 “Acoustic Segmentation for Audio Browsers（オーディオブラウザの音響セグメント分割）”に記載がある。これらのアルゴリズムは、隠れマルコフモデルを用いて、オーディオデータを種々の話者又は音響クラスに対応するセグメントに分割する。提案されている音響クラスのタイプとしては、音声、無音、笑い声、音声以外の音声、不要データがある。不要データは、他のクラスモデルにより明示的にモデル化されない、音声以外の音声として定義される。

ジョージ・ザネタキス（George TZANETAKIS）、ペリー・クック（Perry COOK）により、論文「マルシュアース：オーディオ解析の枠組み（MARSYAS: A framework for audio analysis）」において、既知の方法の実現例が提案されている。ここでは、クライアント／サーバアーキテクチャが使用されている。

既知のセグメント分割装置のクラス判別手段は良好な平均的動作性能を達成しているが、上述のクラス判別手段は、特定のカテゴリーに属するビデオ信号に適用した場合に失敗が多いことは問題である。

実際、既知のクラス判別手段は、各カテゴリーの特定の番組に属するビデオ信号に適用すると失敗することが多い。

これについて、以下の例により更に説明する。

既知のクラス判別手段は、「スポーツ」、「映画」、「記録映画」というカテゴリーに関するオーディオ信号を分類するときには平均的な結果を得るが、同じクラス判別手段で、「ニュース」のカテゴリーに属するオーディオ信号を分類するときには平均以下の動作性能となることがある。

また、既知のクラス判別手段は、「フットボール」、「ハンドボール」、「野球」という番組（これらはすべて「スポーツ」カテゴリーに属する）に関するオーディオ信号を分類するときには良好な結果を得るが、同じクラス判別手段で、「ゴルフ」という番組（これも「スポーツ」カテゴリーに属する）に関するオーディオ信号を分類するときには平均以下の動作性能となることがある。

更に、上述の問題はセグメント分割装置のセグメント分割手段にも当てはまる。

既知のセグメント分割装置のセグメント分割手段は、通常、良好な平均的動作性を達成する。

しかし、同じセグメント分割手段は、各カテゴリー又は各カテゴリーの特定番組に属するビデオ信号に適用されると失敗することが多い。

上述の例はクラス判別手段についてであるが、セグメント分割手段にも相応じて当てはある。

更に、オーディオ信号をコンテンツにセグメント分割するとき、連続オーディオクリップの、あるオーディオクラスシーケンスについては、通常、種々のコンテンツに対して割り当てることができることは重大な問題である。

例えば、「フットボール」という番組の「ゴール」というコンテンツについての連続オーディオクリップの連続オーディオクラスシーケンスは、「音声」−「無音」−「雑音」−「音声」となり、「ニュースマガジン」という番組の「告知」というコンテンツについての連続オーディオクリップの連続オーディオクラスシーケンスも、「音声」−「無音」−「雑音」−「音声」となる場合がある。したがって、この具体例では、対応するコンテンツを無条件に割り当てることはできない。

上述の問題を解決するため、従来の技術のセグメント分割装置の既知のセグメント分割手段は、通常、連続オーディオクリップの、あるオーディオクラスシーケンスに対するコンテンツ割り当てには、規則に基づく手法を採用している。

従来の技術に基づく各オーディオクラス／各コンテンツの可能なオーディオクラス分類規則／コンテンツ分類規則を求める判定処理は、使用済みの未処理のオーディオ信号と、判定処理を行う人物の個人的経験の両方によって異なる。したがって、判定処理は、通常、非常に困難であり、時間がかかるのに加えて主観的である。

更に、オーディオ信号が属する種々の番組や種々のカテゴリーの特殊性のすべてについて十分に考慮していないおそれがある。

本発明の目的は、上述の問題を解決するとともに、供給されるオーディオ信号が属するカテゴリー又は番組とは無関係に良好な平均的動作性能が得られるオーディオ信号分類装置及び方法を提供することである。

上述の目的は、独立請求項１の特徴付け部分の特徴により、請求項１の前文の特徴を備えるオーディオ信号分類装置において達成される。

更に、上述の目的は、独立請求項１３の特徴付け部分の特徴により、請求項１３の前文の特徴を備えるオーディオ信号分類方法により達成される。

従属請求項において更なる発展を示す。

本発明に係るオーディオ信号分類装置は、オーディオ信号をオーディオクリップに区分するオーディオ信号クリッピング手段と、上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、上記オーディオ信号クリッピング手段により得られた上記オーディオクリップを所定のオーディオクラスに分類するクラス判別手段とを備え、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。

本発明では、クラス判別手段は、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出し、オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。更に、クラス判別手段は、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングする。

強調すべき重要なことは、オーディオ信号クリッピング手段は、オーディオ信号を所定の長さのオーディオクリップに細分化する必要はなく、オーディオ信号内で好適量のオーディオ信号を有するオーディオ信号セグメントを定めるだけでよいということである。上記オーディオ信号セグメントを「オーディオクリップ」と呼ぶ。

このように、オーディオ信号クリッピング手段は、上記オーディオ信号セグメントを定めるメタデータファイルを生成するが、オーディオ信号自体はそのままである。

本発明では、所定の音響特性の組合せを、ある種のオーディオ信号に割り当てるオーディオクラス分類規則を使用することに基づいている。上記オーディオ信号の種類を「オーディオクラス」と呼ぶ。

本発明では、オーディオクラス信頼値は、クラス判別手段によりオーディオクラスに分類された各オーディオクリップについて算出される。

オーディオクリップのオーディオクラスへの分類はオーディオクラス分類規則により行われるので、上記オーディオクラス信頼値は、各オーディオクリップに対するオーディオクラス分類規則毎に算出することができる。

上記オーディオクラス信頼値を算出する簡単な方法として、例えば、各オーディオクリップの各オーディオ信号が合致した各オーディオクラス分類規則のパラメータの割合を判定することが考えられる。

上記オーディオクラス信頼値は、オーディオクリップをオーディオクラスに正しく分類する確率を示す。

このように、あるオーディオクラス分類規則により信頼度が高いとして分類されたオーディオクリップを容易に自動的に判定することができる。

上記オーディオクリップに含まれるオーディオ信号の音響特性を用いることにより、各オーディオクラス分類規則のための特定の好適なトレーニング信号が得られる。

このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則に対する装置自体のトレーニング信号を自動的に生成する。

オーディオクラス分類規則の上記トレーニング信号は現在処理中のオーディオ信号に基づいて生成されるので、上記トレーニング信号により、いずれのカテゴリー又は番組のオーディオ信号に対してもオーディオクラス分類規則を適応させることができる。

本発明に係るオーディオ信号分類装置の自動トレーニング能力により、種々の番組や種々のカテゴリーのオーディオ信号の特殊性のすべてを考慮することができる。このため、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で分類することができる。

更に、上記オーディオクラス分類規則は自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なオーディオクラス分類規則を求める判定処理が大幅に容易化される。

本発明の一実施例では、オーディオ信号分類装置は更に、クラス判別手段により得られる結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、分類済みのオーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割するセグメント分割手段を備え、セグメント分割手段によりセグメント分割された各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応する。更に、セグメント分割手段は、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出し、コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。また、セグメント分割手段は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。

この好ましい実施例は、上記オーディオクリップシーケンスのオーディオ信号に含まれる、あるコンテンツ（最低重要度を有する、ある番組に含まれる自己完結型アクティビティ）に対して、所定の連続オーディオクリップのオーディオクラスシーケンスを割り当てるコンテンツ分類規則を用いることに基づいている。

この実施例では、連続オーディオクリップの各セグメント分割オーディオクラスシーケンスを得るセグメント分割手段により、コンテンツ信頼値が算出される。

連続オーディオクリップのオーディオクラスシーケンスをコンテンツにセグメント分割することは、コンテンツ分類規則を用いて行われるので、連続オーディオクリップの各オーディオクラスシーケンスに対して各コンテンツ分類規則についてコンテンツ信頼値を算出することができる。

上記コンテンツ信頼値を算出する簡単な方法として、例えば、連続オーディオクリップの各オーディオクラスシーケンスが合致する各コンテンツ分類規則のパラメータの割合を判定することが考えられる。

上記コンテンツ信頼値は、連続オーディオクリップのオーディオクラスシーケンスをコンテンツに対して正しく割り当てる確率を示す。

このように、あるコンテンツ分類規則により高い信頼度でセグメント分割された連続オーディオクリップのオーディオクラスシーケンスを容易に自動的に判定することができる。

上記連続オーディオクリップのオーディオクラスシーケンスを用いることにより、各コンテンツ分類規則のための特定の好適なトレーニング信号が得られる。

このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、コンテンツ分類規則に対する装置自体のトレーニング信号を更に生成する。

コンテンツ分類規則の上記トレーニング信号は現在処理中のオーディオ信号に基づいて生成されるので、上記トレーニング信号により、いずれのカテゴリー又は番組のオーディオ信号に対してもコンテンツ分類規則を適応させることができる。

したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能でセグメント分割することができる。

更に、上記コンテンツ分類規則は自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なコンテンツ分類規則を求める判定処理が大幅に容易化される。

分類規則がニューロナルネットワークからなる場合、ニューロナルネットワークで使用される重みは、ニューロナルネットワークをトレーニングするように更新されることが好ましい。

更に、分類規則がガウス混合モデルからなる場合、ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータが、ガウス混合モデルをトレーニングするように調整されることが好ましい。

また、分類規則が決定木からなる場合、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問が、決定木をトレーニングするように調整されることが好ましい。

分類規則が隠れマルコフモデルからなる場合、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率が、隠れマルコフモデルをトレーニングするように調整されることが好ましい。

したがって、従来のパラメータの適応／調整を行うことにより、本発明の分類装置で、オーディオクラス分類規則及び／又はコンテンツ分類規則として好適な種々の分類規則をトレーニングすることができる。

好ましくは、本発明に係るオーディオ信号分類装置は、更に、オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割するとともに、対応するコンテンツを手動で割り当てるための第１のユーザ入力手段を備え、セグメント分割手段は、手動でセグメント分割されたオーディオ信号を用いて、各コンテンツ分類規則をトレーニングする。

また、本発明に係るオーディオ信号分類装置は、更に、オーディオクリップを対応するオーディオクラスに手動で分類するための第２のユーザ入力手段を備え、クラス判別手段は、上記手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。

このように、非常に特殊な種類のオーディオ信号を処理したことからトレーニングデータの自動生成に失敗した場合であっても、コンテンツ分類規則及び／又はオーディオクラス分類規則のトレーニングは可能である。

また、手動でセグメント分割／分類されたオーディオ信号を分類規則のトレーニング目的で使用することにより、オーディオ信号の例外的な特殊性をも考慮できるので、各分類規則の性能を更に改善することができる。

好ましくは、音響特性は、各オーディオ信号の帯域幅、及び／又は、セロクロス率、及び／又は、ボリューム、及び／又は、サブバンドエネルギ率、及び／又は、メルケプストラム成分、及び／又は、周波数重心（frequency centroid）、及び／又は、サブバンドエネルギ、及び／又は、ピッチ周期からなる。

オーディオ信号内の上記音響特性については、信頼性の高い検出を容易に行うことができる。

更に、上記音響特性により、オーディオクラス分類規則に基づいて、オーディオクリップに含まれるオーディオ信号を確実にオーディオクラスに分類することができる。

好ましくは、無音、音声、音楽、喝采及び拍手のそれぞれについて、所定のオーディオクラス分類規則が設けられている。

上記オーディオクラスは、オーディオ信号に含まれる音響特性に基づいて高精度に検出することができる。

また、上記オーディオクラスにより、コンテンツ分類規則に基づいて高い信頼性で、オーディオクラスシーケンスをコンテンツにセグメント分割することができる。

更に、オーディオ信号は、少なくともオーディオ信号と画像信号とにより構成されるビデオデータファイルの一部であることが好ましい。

また、セグメント分割手段は、オーディオ信号のコンテンツを解析することによりオーディオ信号における広告放送シーケンスを識別するとともに、広告放送シーケンスの前及び／又は広告放送シーケンスの後の結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングすることが好ましい。

オーディオ信号（例えば、ラジオ又はテレビ放送から抽出したオーディオ信号）においては、特別に興味を引くコンテンツの直前及び／又は直後に広告放送が配置されることが非常に多い。

このため、オーディオ信号における広告放送シーケンスを識別し、広告放送シーケンスの前後の結合オーディオクリップシーケンスを用いて各コンテンツ分類規則をトレーニングすることにより、各オーディオ信号における特別に興味を引くコンテンツを自動的に識別するコンテンツ分類規則を生成することができる。

本発明に係るオーディオ信号分類方法は、オーディオ信号をオーディオクリップに区分するステップと、上記オーディオクリップに含まれる上記オーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、上記オーディオクリップを所定のオーディオクラスに分類するステップであって、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表すステップと、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するステップであって、オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示すステップと、オーディオクラス信頼値が高いオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングするステップとを有する。

本発明の好ましい実施例では、オーディオ信号分類方法は更に、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、分類されたオーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割するステップであって、各結合オーディオクリップシーケンスは上記オーディオ信号に含まれるコンテンツに対応するステップと、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出するステップであって、コンテンツ信頼値は、各コンテンツが結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示すステップと、コンテンツ信頼値が高い結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングするステップとを有する。

好ましくは、オーディオ信号分類方法は更に、分類規則としてニューロナルネットワークを用いるステップと、上記ニューロナルネットワークをトレーニングするように、上記ニューロナルネットワークで使用される重みを更新するステップとを有する。

好ましくは、オーディオ信号分類方法は更に、分類規則としてガウス混合モデルを用いるステップと、上記ガウス混合モデルをトレーニングするように、上記ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータを適応させるステップとを有する。

更に、オーディオ信号分類方法は、分類規則として決定木を用いるステップと、上記決定木をトレーニングするように、上記決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を適応させるステップとを有することが好ましい。

また、オーディオ信号分類方法は更に、分類規則として隠れマルコフモデルを用いるステップと、上記隠れマルコフモデルをトレーニングするように、上記隠れマルコフモデルで使用される最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率を適応させるステップとを有することが好ましい。

好ましくは、オーディオ信号分類方法は更に、個々の結合オーディオクリップシーケンスに手動でセグメント分割されるとともに、対応するコンテンツに対して手動で割り当てられたオーディオ信号を用いて、上記各コンテンツ分類規則をトレーニングするステップを有する。

また、オーディオ信号分類方法は更に、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則をトレーニングするステップを有することが好ましい。

また、オーディオ信号分類方法は更に、上記オーディオ信号のコンテンツを解析することにより、上記オーディオ信号における広告放送シーケンスを識別するステップと、上記広告放送シーケンスの前又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則をトレーニングするステップとを有することが好ましい。

本発明は更に、請求項１３乃至２１のいずれか１項に記載の方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素（state element）からなるソフトウェア製品に関する。

以下の詳細な説明において、添付図面を参照して本発明を説明するが、図中の同じ参照符号は全図面において同じ部分を示す。

図１は、本発明の第１の好ましい実施例に係るオーディオ信号分類装置を示す。

この第１の好ましい実施例では、オーディオ信号分類装置１は、図示しないデジタルビデオレコーダに含まれる。

あるいは、オーディオ信号分類装置は、パーソナルコンピュータやワークステーション等、種々のデジタルオーディオ／ビデオ装置に含まれてもよく、また、別個の機器として提供されてもよい。

オーディオ信号分類装置１は、信号入力ポート９を介して信号を供給する信号入力手段７を備えている。

この具体例において、信号入力ポート９に供給された信号は、デジタルビデオレコーダのハードディスク５８に格納されているデジタルビデオデータファイルである。デジタルビデオデータファイルは、少なくともオーディオ信号と画像信号により構成されている。

また、信号入力ポート９に供給された信号は、従来のテレビチャンネルのリアルタイムビデオ信号であってもよい。

信号入力手段７は、信号入力ポート９に供給された信号を好適なフォーマットに変換する。

信号入力ポート９に供給されたデジタルビデオデータファイルに含まれるオーディオ信号は、信号入力手段７により読み出され、オーディオ信号クリッピング手段２に送られる。

オーディオ信号クリッピング手段２は、上述のオーディオ信号をオーディオクリップに区分する。

強調すべき重要なことは、オーディオ信号クリッピング手段２は、文字通りにオーディオ信号をオーディオクリップに細分化するのではなく、単にオーディオ信号内で好適量のオーディオ信号からなるオーディオ信号セグメントを定めるということである。

この具体例では、オーディオ信号クリッピング手段２は、オーディオ信号内で所定の長さのオーディオ信号セグメントを定めるメタデータを生成し、オーディオ信号自体はそのままである。以下、上述のオーディオ信号セグメントを「オーディオクリップ」と呼ぶ。

また、各オーディオクリップは、可変量のオーディオ信号により構成されてもよい。このように、オーディオクリップは可変長を有してもよい。

各クリップに含まれるオーディオ信号を、複数のフレーム、例えば、５１２サンプルに更に分割できることは、当業者にとって明らかである。この場合、連続するフレームを、それぞれの先行フレームに対して１８０サンプル分シフトすることが好ましい。この細分化により、各オーディオクリップに含まれるオーディオ信号の正確で容易な処理が可能となる。

オーディオ信号クリッピング手段２により得られたオーディオクリップは、更に、クラス判別手段３に送られる。

オーディオクリップに含まれるオーディオ信号の音響特性が、クラス判別手段３により解析される。

この実施例において、上述の音響特性は、各オーディオクリップに含まれるオーディオ信号の帯域幅、ゼロクロス率、ボリューム、サブバンドエネルギ率、メルケプストラム成分、周波数重心（frequency centroid）、サブバンドエネルギ、ピッチ周期からなる。

上述の音響特性の解析は、従来のいずれの方法によっても行うことができる。更に、上述の音響特性により、オーディオクラス分類規則に基づいて、オーディオクリップに含まれるオーディオ信号をオーディオクラスに確実に分類することが可能となる。

このように、所定のオーディオクラス分類規則を用いることにより、各オーディオクリップに含まれる音響特性に基づいて、クラス判別手段３によってオーディオクリップが所定のオーディオクラスに分類される。

クラス判別手段３に記憶されている上述の所定のオーディオクラス分類規則は、各オーディオクラスについて与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。

このように、オーディオクラス分類規則は、あるオーディオ信号の種類に対して、各オーディオクリップの所定の音響特性の組合せを割り当てる。

オーディオクラス分類規則の機能は、以下の例により、更に明らかとなる。

「無音」というオーディオ信号の種類を識別するオーディオクラス分類規則についての音響特性は、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」及び「低ゼロクロス率」とすることができる。

このように、低エネルギレベル及び低ゼロクロス率を有するオーディオ信号からなるオーディオクリップが、クラス判別手段３により判別された場合、「無音」というオーディオクラスが上述のオーディオクリップに対して割り当てられる。

この実施例において、無音、音声、音楽、喝采及び拍手のそれぞれについての所定のオーディオクラス分類規則が設けられている。上述のオーディオクラスは高精度に検出することができ、それに応じて分類されたオーディオデータについて信頼性の高いセグメント分割が可能となる。また、更なるオーディオクラス、例えば、雑音や男性／女性の音声を判定することもできる。

上述のオーディオクラス分類規則は、手動で分類されたオーディオ信号の経験的解析により生成され、クラス判別手段３に記憶される。

本発明によれば、クラス判別手段３は、更に、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出する。

上述のオーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。

この実施例において、上述のオーディオクラス信頼値は、各オーディオクリップのオーディオ信号が合致する各オーディオクラス分類規則のパラメータの割合を判定することにより算出される。

オーディオクラス信頼値の算出については、以下の例により更に明らかとなる。

この場合も、「無音」というオーディオクラスを識別するオーディオクラス分類規則についての音響特性は、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」と「低ゼロクロス率」とすることができる。

クラス判別手段３により、低エネルギレベル及び低ゼロクロス率を有するオーディオ信号からなるオーディオクリップに対して「無音」のオーディオクラスが割り当てられた場合、オーディオクラス分類規則のオーディオクラス信頼値は１００％となる。

一方、クラス判別手段３により、低エネルギレベル及び高ゼロクロス率を有するオーディオ信号からなるオーディオクリップに対して「無音」のオーディオクラスが割り当てられた場合、オーディオクラス分類規則のオーディオクラス信頼値は５０％にしかならない。

このように、上述のオーディオクラス信頼値は、オーディオクリップをオーディオクラスに正しく分類する確率を示す。

したがって、あるオーディオクラス分類規則により高い信頼度で分類されたオーディオクリップが判定される。

更に、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いることにより、クラス判別手段３は各オーディオクラス分類規則をトレーニングする。

この実施例では、オーディオクラス分類規則はニューロナルネットワークからなる。

上述のニューロナルネットワークは、クラス判別手段３により、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性に基づいて、ニューロナルネットワークで使用される重みを更新することによりトレーニングされる。

また、オーディオクラス分類規則がガウス混合モデルからなる場合、ガウス混合モデルをトレーニングするように、ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータを調整することが好ましい。

更に、オーディオクラス分類規則が決定木からなる場合、決定木をトレーニングするように、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を調整することが好ましい。

更に他の例では、オーディオクラス分類規則は隠れマルコフモデルからなる。この場合、隠れマルコフモデルをトレーニングするように、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率を調整することが好ましい。

したがって、本発明の分類装置１により、従来のパラメータの適応／調整を行うことで、オーディオクラス分類規則及び／又はコンテンツ分類規則として好適な種々の分類規則をトレーニングすることができる。

本発明は上述の分類規則に限定されるものではなく、トレーニング能力（例えば、パラメータ調整によるトレーニング能力）を有する分類規則であれば、いずれの分類規則も使用できることは、当業者にとって明らかである。

クラス判別手段３によるオーディオクラスへの分類後、分類されたオーディオクリップはセグメント分割手段４に送られる。

上述のセグメント分割手段４は、クラス判別手段３により得られた結合（連続）オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、オーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割する。セグメント分割手段によりセグメント分割された各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応している。

コンテンツは、ある最低の重要度を満たす番組のオーディオ信号に含まれる事後完結型アクティビティである。

ある番組のオーディオ信号に含まれるコンテンツの時間長は通常それぞれ異なる。このように、各コンテンツは、ある数の結合オーディオクリップを有している。

例えば、番組がニュースである場合、コンテンツはニュースで言及される種々の告知情報となる。例えば、番組がフットボールである場合、上述のコンテンツはキックオフ、ペナルティキック、スローイン、ゴール等となる。

上述のように、オーディオ信号に含まれるコンテンツは、それぞれ、連続オーディオクリップシーケンスからなる。各オーディオクリップはオーディオクラスに分類されるので、各コンテンツも連続オーディオクリップの対応するオーディオクラスシーケンスからなる。

したがって、各オーディオ信号のコンテンツに属する連続オーディオクリップのオーディオクラスシーケンスを、コンテンツ分類規則に属する連続オーディオクリップのオーディオクラスシーケンスと比較することにより、各コンテンツを識別するように適応したコンテンツ分類規則を求めることができる。

コンテンツ分類規則の機能については、以下の例により更に明らかとなる。

「ゴール」というコンテンツを識別するコンテンツ分類規則についての結合オーディオクリップのオーディオクラスシーケンスは、「音声」、「無音」、「喝采／拍手」、「無音」とすることができる。

このように、「音声」、「無音」、「喝采／拍手」、「無音」の結合オーディオクリップのオーディオクラスシーケンスが、セグメント分割手段４によりセグメント分割される場合、「ゴール」というコンテンツが上述のオーディオクリップシーケンスに割り当てられる。

この好ましい実施例では、セグメント分割手段４は、更に、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出する。上述のコンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。

更に、セグメント分割手段は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。

この実施例において、コンテンツ信頼値は、セグメント分割手段４により、各コンテンツ分類規則の特徴のうち、幾つの特徴が連続オーディオクリップの各オーディオクラスシーケンスと合致するかをカウントすることにより、連続オーディオクリップの各オーディオクラスシーケンスに対してコンテンツ分類規則毎に算出される。このように、上述のコンテンツ信頼値は、連続オーディオクリップのオーディオクラスシーケンスをコンテンツに対して正しく割り当てる確率を示す。

あるコンテンツ分類規則により高い信頼度でセグメント分割された連続オーディオクリップのオーディオクラスシーケンスを用いることにより、本発明のオーディオ分類装置１のセグメント分割手段４では、各コンテンツ分類規則について特に好適なトレーニング信号が得られる。

このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、各オーディオクラス分類規則及び各コンテンツ分類規則の両方について、装置自体のトレーニング信号を生成する。

オーディオクラス分類規則及びコンテンツ分類規則についての上述のトレーニング信号は、現在処理中のオーディオ信号に基づいて生成されるので、上述のトレーニング信号により、オーディオクラス分類規則及びコンテンツ分類規則をいずれのカテゴリー又は番組に対しても適応させることができる。

本発明に係るオーディオ信号分類装置１の自動トレーニング能力により、種々の番組及び種々のカテゴリーのオーディオ信号の特殊性のすべてを十分に考慮することができる。したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で分類及びセグメント分割を行うことができる。

更に、上述のオーディオクラス分類規則及び上述のコンテンツ分類規則は、それぞれ、自動的に生成されたトレーニング信号により自動的にトレーニングされるので、適用可能なオーディオクラス分類規則及びコンテンツ分類規則を求める判定処理が大幅に容易化される。

この好ましい実施例では、オーディオ信号分類装置１は、更に、第１のユーザ入力手段５と第２のユーザ入力手段６とを備えている。

第１のユーザ入力手段５はセグメント分割手段４に接続され、第２のユーザ入力手段６はクラス判別手段３に接続されている。

第１及び第２のユーザ入力手段５はいずれも、キーボード又はタッチスクリーン（図示せず）を備えている。

あるいは、第１及び第２のユーザ入力手段に、１つの共通のキーボード又はタッチスクリーンを用いてもよい。

第１のユーザ入力手段５は、オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割することや、対応するコンテンツを手動で割り当てることを可能にし、セグメント分割手段４は、上述の手動でセグメント分割されたオーディオ信号を用いて、各コンテンツ分類規則をトレーニングする。

第２のユーザ入力手段６は、オーディオクリップを対応するオーディオクラスに手動で分類するために設けられ、クラス判別手段３は、上述の手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。

このように、非常に特殊なタイプのオーディオ信号を処理したためにトレーニングデータの自動生成に失敗する場合でも、コンテンツ分類規則及び／又はオーディオクラス分類規則のトレーニングは可能である。

また、手動でセグメント分割／分類されたオーディオ信号を分類規則のトレーニング目的で使用することにより、オーディオ信号の例外的な特殊性をも考慮することができるので、各分類規則の性能を更に改善することができる。

セグメント分割手段４には、出力ポート１０を有する主ル力ファイル生成手段８が接続されている。

出力ファイル生成手段８は、信号入力手段７に供給されたオーディオ信号と、オーディオ信号に含まれる自己完結型イベントの開始時間、終了時間、コンテンツに関するデータとを含む出力ファイルを生成する。

更に、出力ファイル生成手段８は、出力ポート１０を介して出力ファイルをデジタルビデオレコーダのハードディスク５８に格納する。

また、出力ファイルを、例えばＤＶＤレコーダによりＤＶＤに書き込んでもよい。

また、上述のハードディスク５８は、例えば、パーソナルコンピュータの一部であってもよい。

この実施例において、ハードディスク５８は、更に、ハードディスク５８に格納されている出力ファイルを再生するデジタルビデオレコーダの再生手段５９に接続されている。

第１の実施例では、信号入力手段７、オーディオ信号クリッピング手段２、クラス判別手段３、セグメント分割手段４、出力ファイル生成手段８として、それぞれ別々のマイクロコンピュータが使用される。

また、信号入力手段７、オーディオ信号クリッピング手段２、クラス判別手段３、セグメント分割手段４、出力ファイル生成手段８として、１つの共通のμコンピュータを使用することもできる。

図２は、概略図に基づいて、本発明に係るオーディオ信号分類方法の機能を示す。

上述の方法は、本発明の上述の第１の好ましい実施例に係るオーディオ信号分類装置により行うことができるので、図１及び図２の両図を参照する。

第１のステップＳ１において、信号クリッピング手段２により未処理のオーディオ信号がオーディオクリップに区分される。

ステップＳ２において、オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、オーディオクリップが所定のオーディオクラスに分類される。ここで、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。

その後、ステップＳ３において、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、オーディオ信号が個々の結合オーディオクリップシーケンスにセグメント分割される。ここで、各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応する。

一方、ステップＳ４において、オーディオクリップに割り当てられたオーディオクラス毎にオーディオクラス信頼値が算出される。ここで、オーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。

続きステップＳ５において、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングする。また、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。

ステップＳ２、Ｓ４、Ｓ５は、クラス判別手段３によって実行される。

ステップＳ３と同時に、ステップＳ６において、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値が算出される。ここで、コンテンツ信頼値は、各コンテンツが、各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。

コンテンツ信頼値が算出された後、ステップＳ７において、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。個々の結合オーディオクリップシーケンスに手動でセグメント分割され、対応するコンテンツに対して手動で割り当てられたオーディオ信号を更に用いて、各コンテンツ分類規則をトレーニングする。

ステップＳ３、Ｓ６、Ｓ７は、セグメント分割手段４によって実行される。

ステップＳ２及びＳ３では、オーディオクラス分類規則及びコンテンツ分類規則として、ニューロナルネットワーク、ガウス混合モデル、決定木、又は隠れマルコフモデルを用いることができる。

これに応じて、ニューロナルネットワークで使用される重み、ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータ、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問、又は、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率を調整して、ステップＳ５及びＳ７で各分類規則をトレーニングすることができる。

図３は、本発明の第２の実施例に係るオーディオ信号分類装置を示す。

第２の実施例に係るオーディオ信号分類装置は、まず、音響特性解析手段３’を実現するために別個のマイクロコンピュータを設けた点で第１の実施例とは異なる。

音響特性解析手段３’は、上述の方法のステップＳ１を行うことにより、未処理のオーディオ信号１１をオーディオクリップにクリッピングする。更に、音響特性解析手段３’は、オーディオクリップに含まれる未処理のオーディオ信号１１の音響特性を解析する。

このように、この実施例では、オーディオ信号の音響特性の解析は、クラス判別手段３によってではなく、音響特性解析手段３’によって行われる。

図３に示すように、クラス判別手段３は、判別手段３１と、オーディオクラス信頼値算出部３３と、オーディオクラス分類規則トレーニング手段３４と、オーディオクラス分類規則記憶手段３２とを備えている。

判別手段３１は、オーディオクラス分類規則記憶手段３２に記憶された所定のオーディオクラス分類規則３５、３６、３７に基づいて、音響特性解析手段３’から得られたオーディオクリップを所定のオーディオクラスに弁別する。

この実施例では、未処理のオーディオ信号１１に含まれる種々の番組に対して、オーディオクラス分類規則３５、３６、３７からなる各規則セットが設けられている。オーディオクラス分類規則３５、３６、３７からなる各規則セットは、所定の番組用に特殊化される。

オーディオクラス信頼値算出部３３は、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出する。

高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いることにより、オーディオクラス分類規則トレーニング手段３４は、各オーディオクリップの判別に使用された各オーディオクラス分類規則３５をトレーニングする。上述の上述のトレーニングは、各オーディオクラス分類規則３５のパラメータを調整することにより行われる。

判別手段３により、区分及び分類済みのオーディオ信号１２が出力される。

この具体例では、上述の区分及び分類済みオーディオ信号１２は、更なる処理のためにハードディスク（図示せず）に一時的に格納される。また、上述の区分及び分類済みオーディオ信号１２を、そのままセグメント分割手段４に供給してもよい。

セグメント分割手段４は、セグメント分割実行手段４１と、コンテンツ信頼値算出部４３と、コンテンツ分類規則トレーニング手段４４と、コンテンツ分類規則記憶手段４２とを備えている。

セグメント分割実行手段４１は、コンテンツ分類規則記憶手段４２に記憶された所定のコンテンツ分類規則４５、４６、４７に基づいて、区分及び分類済みオーディオ信号１２を個々の結合オーディオクリップシーケンスにセグメント分割する。

この実施例では、種々の番組における未処理のオーディオ信号１１から得られる区分及び分類済みオーディオ信号１２について、コンテンツ分類規則４５、４６、４７からなる各セットが設けられている。コンテンツ分類規則４５、４６、４７からなる各セットは、所定の番組用に特殊化される。

コンテンツ信頼値算出部４３は、コンテンツに割り当てられた各結合オーディオクリップシーケンスについてコンテンツ信頼値を算出する。

高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いることにより、コンテンツ分類規則トレーニング手段４４は、各結合オーディオクリップシーケンスの判別に使用された各コンテンツ分類規則４５をトレーニングする。上述のトレーニングは、各コンテンツ分類規則４５のパラメータを調整することにより行われる。

対応してセグメント分割されたオーディオ信号１３が、セグメント分割手段４により出力される。この実施例において、上述のセグメント分割されたオーディオ信号１３は、対応するビデオ信号から別々にハードディスク（図示せず）に格納される。

このように、本発明の第２の実施例では、オーディオ信号分類装置は、オーディオクラス信頼値算出部３３及びコンテンツ信頼値算出部４３の出力とともに現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則３５、３６、３７及びコンテンツ分類規則４５、４６、４７のための、装置自体のトレーニング信号を自動的に生成する。

本発明の第２の実施例では、セグメント分割手段４のコンテンツ信頼値算出部４３は、更に、各オーディオ信号のコンテンツを解析することにより、区分及び分類済みオーディオ信号１２における広告放送シーケンスを識別するように適応している。

広告放送シーケンスがコンテンツ信頼値算出部４３により自動的に検出された場合、あるいは、ユーザにより手動で識別（及び入力）された場合、コンテンツ分類規則トレーニング手段４４は、その広告放送シーケンスの前及び／又は後の結合オーディオクリップシーケンスを用いて、各結合オーディオクリップシーケンスのセグメント分割に使用される各コンテンツ分類規則をトレーニングする。

セグメント分割手段４における、この更なる的特徴は、広告放送が通常は特別に興味深いコンテンツの直前及び／又は直後に配置されるという事実に基づいている。

したがって、オーディオ信号における広告放送シーケンスを識別し、その広告放送シーケンスの前及び／又は後の結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングすることにより、各オーディオ信号における特別に興味深いコンテンツを識別するコンテンツ分類規則を生成することができる。

区分及び分類済みオーディオ信号１２における広告放送シーケンスの検出は、セグメント分割実行手段４１により、又は、別の構成要素により、又は、ユーザによって行うことができる。

この実施例において、音響特性解析手段３’、判別手段３１、オーディオクラス信頼値算出部３３、オーディオクラス分類規則トレーニング手段３４として、それぞれ別々のマイクロコンピュータが設けられている。

あるいは、音響特性解析手段３’、判別手段３１、オーディオクラス信頼値算出部３３、オーディオクラス分類規則トレーニング手段３４として、１つの共通のマイクロコンピュータを使用することもできる。

更に、第２の実施例において、セグメント分割実行手段４１、コンテンツ信頼値算出部４３、コンテンツ分類規則トレーニング手段４４として、それぞれ別々のマイクロコンピュータが設けられている。

あるいは、セグメント分割実行手段４１、コンテンツ信頼値算出部４３、コンテンツ分類規則トレーニング手段４４として、１つの共通のマイクロコンピュータを使用することもできる。

また、この第２の実施例では、オーディオクラス分類規則記憶手段３２及びコンテンツ分類規則記憶手段４２として、それぞれ別々のＥＥＰＲＯＭが設けられている。

あるいは、オーディオクラス分類規則記憶手段３２及びコンテンツ分類規則記憶手段４２として、それぞれ別々のフラッシュメモリ又は１つの共通のハードディスクを使用することもできる。

図１及図３を明確にするため、電源、バッファメモリ等の補助的手段は図示を省略してある。

第１及び第２の実施例に係る本発明のオーディオ信号分類装置はいずれも、パーソナルコンピュータ又はワークステーションを使用して実現することができる。

本発明の第３の実施例（図示せず）によれば、上述の目的は、請求項１３乃至２１のいずれか１項に記載の方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素からなるソフトウェア製品により達成される。

現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則及びコンテンツ分類規則のための装置自体のトレーニング信号を自動的に生成することにより、本発明に係るオーディオ信号分類装置及び方法は、いずれのカテゴリー又は番組のオーディオ信号に対しても、オーディオクラス分類規則及びコンテンツ分類規則を適応させることができる。

このように、種々の番組及び種々のカテゴリーのオーディオ信号の特殊性のすべてが十分に考慮される。したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で信頼性の高い分類が可能である。

更に、上述のオーディオクラス分類規則及び上述のコンテンツ分類規則は、自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なオーディオクラス分類規則及びコンテンツ分類規則を求める判定処理が大幅に容易化される。

本発明の第１の好ましい実施例に係るオーディオ信号分類装置の構成を示すブロック図である。本発明に係るオーディオ信号分類方法の処理を示すフローチャート図である。本発明の第２の実施例に係るオーディオ信号分類装置の構成を示すブロック図である。従来の技術に基づくセグメント分割装置の構成を示すブロック図である。従来の技術に基づくセグメント分割装置のオーディオ信号に対する効果を概略的に示す図である。

Claims

オーディオ信号分類装置（１）において、
オーディオ信号（１１）をオーディオクリップに区分するオーディオ信号クリッピング手段（２）と、
上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則（３５、３６、３７）に基づいて、上記オーディオ信号クリッピング手段（２）により得られた該オーディオクリップを所定のオーディオクラスに分類するクラス判別手段（３）とを備え、
上記各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、該各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表し、
上記クラス判別手段（３）は、上記オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出し、該オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示し、
上記クラス判別手段（３）は、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、上記各オーディオクラス分類規則（３５、３６、３７）をトレーニングすることを特徴とするオーディオ信号分類装置。
更に、上記クラス判別手段（３）により得られる結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則（４５、４６、４７）に基づいて、分類済みのオーディオ信号（１２）を個々の結合オーディオクリップシーケンスにセグメント分割するセグメント分割手段（４）を備え、
上記セグメント分割手段（４）によりセグメント分割された各結合オーディオクリップシーケンスは、上記オーディオ信号に含まれるコンテンツに対応し、
上記セグメント分割手段（４）は、上記結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出し、該コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示し、
上記セグメント分割手段（４）は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングすることを特徴とする請求項１に記載のオーディオ信号分類装置。
上記オーディオクラス分類規則（３５、３６、３７、４５、４６、４７）は、ニューロナルネットワークからなり、
上記ニューロナルネットワークで使用される重みが、該ニューロナルネットワークをトレーニングするように更新されることを特徴とする請求項１又は２に記載のオーディオ信号分類装置。
上記オーディオクラス分類規則（３５、３６、３７、４５、４６、４７）は、ガウス混合モデルからなり、
上記ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータが、上記ガウス混合モデルをトレーニングするように調整されることを特徴とする請求項１乃至３のいずれか１項に記載のオーディオ信号分類装置。
上記オーディオクラス分類規則（３５、３６、３７、４５、４６、４７）は、決定木からなり、
上記決定木で使用される各リーフノードにおけるイベント継続時間に関する質問が、該決定木をトレーニングするように調整されることを特徴とする請求項１乃至４のいずれか１項に記載のオーディオ信号分類装置。
上記オーディオクラス分類規則（３５、３６、３７、４５、４６、４７）は、隠れマルコフモデルからなり、
上記隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率が、上記隠れマルコフモデルをトレーニングするように調整されることを特徴とする請求項１乃至５のいずれか１項に記載のオーディオ信号分類装置。
更に、上記オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割するとともに、対応するコンテンツを手動で割り当てるための第１のユーザ入力手段（５）を備え、
上記セグメント分割手段（４）は、上記手動でセグメント分割されたオーディオ信号を用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングすることを特徴とする請求項１乃至６のいずれか１項に記載のオーディオ信号分類装置。
更に、上記オーディオクリップを対応するオーディオクラスに手動で分類するための第２のユーザ入力手段（６）を備え、
上記クラス判別手段（３）は、上記手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則（３５、３６、３７）をトレーニングすることを特徴とする請求項１乃至７のいずれか１項に記載のオーディオ信号分類装置。
上記音響特性は、上記各オーディオ信号の帯域幅、及び／又は、セロクロス率、及び／又は、ボリューム、及び／又は、サブバンドエネルギ率、及び／又は、メルケプストラム成分、及び／又は、周波数重心、及び／又は、サブバンドエネルギ、及び／又は、ピッチ周期からなることを特徴とする請求項１乃至８のいずれか１項に記載のオーディオ信号分類装置。
無音、音声、音楽、喝采及び拍手のそれぞれについて、所定のオーディオクラス分類規則が与えられることを特徴とする請求項１乃至９のいずれか１項に記載のオーディオ信号分類装置。
上記オーディオ信号は、少なくともオーディオ信号と画像信号とにより構成されるビデオデータファイルの一部であることを特徴とする請求項１乃至１０のいずれか１項に記載のオーディオ信号分類装置。
上記セグメント分割手段（４）は、上記オーディオ信号のコンテンツを解析することにより上記オーディオ信号における広告放送シーケンスを識別するとともに、該広告放送シーケンスの前及び／又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングすることを特徴とする請求項１乃至１１のいずれか１項に記載のオーディオ信号分類装置。
オーディオ信号分類方法において、
オーディオ信号（１１）をオーディオクリップに区分するステップ（Ｓ１）と、
上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則（３５、３６、３７）に基づいて、該オーディオクリップを所定のオーディオクラスに分類するステップであって、該各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表すステップ（Ｓ２）と、
上記オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するステップであって、該オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示すステップ（Ｓ４）と、
高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、上記各オーディオクラス分類規則（３５、３６、３７）をトレーニングするステップ（Ｓ５）とを有するオーディオ信号分類方法。
更に、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則（４５、４６、４７）に基づいて、分類済みのオーディオ信号（１２）を個々の結合オーディオクリップシーケンスにセグメント分割するステップであって、該各結合オーディオクリップシーケンスは上記オーディオ信号に含まれるコンテンツに対応するステップ（Ｓ３）と、
上記結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出するステップであって、該コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示すステップ（Ｓ６）と、
高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングするステップ（Ｓ７）とを有する請求項１３に記載のオーディオ信号分類方法。
更に、上記分類規則（３５、３６、３７、４５、４６、４７）としてニューロナルネットワークを用いるステップと、
上記ニューロナルネットワークをトレーニングするように、該ニューロナルネットワークで使用される重みを更新するステップとを有する請求項１３又は１４に記載のオーディオ信号分類方法。
更に、上記分類規則（３５、３６、３７、４５、４６、４７）としてガウス混合モデルを用いるステップと、
上記ガウス混合モデルをトレーニングするように、該ガウス混合モデルで使用される最大尤度線形回帰変換及び／又は帰納的最大値のパラメータを適応させるステップとを有する請求項１３、１４又は１５のいずれか１項に記載のオーディオ信号分類方法。
更に、上記分類規則（３５、３６、３７、４５、４６、４７）として決定木を用いるステップと、
上記決定木をトレーニングするように、該決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を適応させるステップとを有する請求項１３乃至１６のいずれか１項に記載のオーディオ信号分類方法。
更に、上記分類規則（３５、３６、３７、４５、４６、４７）として隠れマルコフモデルを用いるステップと、
上記隠れマルコフモデルをトレーニングするように、該隠れマルコフモデルで使用される最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び／又は遷移確率を適応させるステップとを有する請求項１３乃至１７のいずれか１項に記載のオーディオ信号分類方法。
更に、個々の結合オーディオクリップシーケンスに手動でセグメント分割されるとともに、対応するコンテンツに対して手動で割り当てられたオーディオ信号を用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングするステップを有する請求項１３乃至１８のいずれか１項に記載のオーディオ信号分類方法。
更に、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則（３５、３６、３７）をトレーニングするステップを有する請求項１３乃至１９のいずれか１項に記載のオーディオ信号分類方法。
更に、上記オーディオ信号のコンテンツを解析することにより、上記オーディオ信号における広告放送シーケンスを識別するステップと、
上記広告放送シーケンスの前及び／又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則（４５、４６、４７）をトレーニングするステップとを有する請求項１３乃至２０のいずれか１項に記載のオーディオ信号分類方法。
請求項１３乃至２１のいずれか１項に記載のオーディオ信号分類方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素からなるソフトウェア製品。