JP2005173569A - オーディオ信号の分類装置及び方法 - Google Patents

オーディオ信号の分類装置及び方法 Download PDF

Info

Publication number
JP2005173569A
JP2005173569A JP2004329133A JP2004329133A JP2005173569A JP 2005173569 A JP2005173569 A JP 2005173569A JP 2004329133 A JP2004329133 A JP 2004329133A JP 2004329133 A JP2004329133 A JP 2004329133A JP 2005173569 A JP2005173569 A JP 2005173569A
Authority
JP
Japan
Prior art keywords
audio
class
audio signal
content
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004329133A
Other languages
English (en)
Inventor
Silke Goronzy
ゴロンツィー、シルケ
Thomas Kemp
ケンプ、トーマス
Ralf Kompe
コンペ、ラルフ
Yin Hay Lam
イン ハイ ラム、
Krzysztof Marasek
マラセック、クルジーストフ
Raquel Tato
タト、ラケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2005173569A publication Critical patent/JP2005173569A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】供給されるオーディオ信号が属するカテゴリー又は番組とは無関係に良好な平均的動作性能が得られるオーディオ信号分類装置及び方法を提供する。
【解決手段】オーディオ信号分類装置1は、オーディオ信号クリッピング手段2と、得られたオーディオクリップを所定のオーディオクラスに分類するクラス判別手段3とを備える。上述の課題は、オーディオ信号分類装置1において、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するクラス判別手段3により解決される。オーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。
【選択図】図1

Description

本発明は、独立請求項1乃至13の各前文の特徴を備えるオーディオ信号の分類装置及び方法に関する。
インターネット上やデジタルビデオディスク(digital video disc)等の種々の記録媒体において利用可能な(サンプリングされたビデオ信号からなる)ビデオデータが増えつつある。更に、上述のビデオデータは、アナログ又はデジタルビデオ信号として膨大な数のテレステーション(telestation)により供給される。
ビデオデータは、音声、オーディオ、テキスト、画像物体のカラーパターン及び形状、これらの物体の動きを含む内容豊富な多面的情報源である。
現在、上述のビデオデータにおいて関心のあるセグメント(例えば、あるトピック、人物、イベント、プロット(plot)等)を検索する可能性が求められている。
原理的には、いずれのビデオ信号の場合も、主として一般的主題(general subject matter)について分類することができる。一般的主題は「カテゴリー」と呼ばれることが多い。
ビデオ信号がTV放送である場合、上述の一般的主題(カテゴリー)は、例えばニュース、スポーツ、映画、記録映画等である。
本明細書では、1つの一般的主題(カテゴリー)に属する自己完結型ビデオ信号(self-contained video signal)を「番組(programme)」と呼ぶ。
例えば、各単一のテレビ番組(telecast)、各単一の長編映画、各単一のニュースマガジン、各単一のラジオドラマをそれぞれ番組と呼ぶ。
通常、各番組は、複数の自己完結型アクティビティ(activity、イベント(event))を含んでいる。この点に関して、ある最低の重要度を有する自己完結型アクティビティ(イベント)のみが考慮される。
一般的主題(カテゴリー)がニュースであり、番組がニュースマガジンである場合、例えば、自己完結型アクティビティは、上述のニュースマガジンに記載されている種々の寸評(notice)となる。一般的主題(カテゴリー)がスポーツであり、番組がフットボールの試合である場合、例えば、上述の自己完結型アクティビティは、キックオフ、ペナルティキック、スローイン等となる。
以下、何らかの番組に含まれ、最低の重要度を満たす上述の自己完結型アクティビティ(イベント)を「コンテンツ(contents)」と呼ぶ。
このように、各ビデオ信号は、まず、カテゴリー(一般的主題)について分類される。
各カテゴリー内において、ビデオ信号は番組(1カテゴリーに属する自己完結型ビデオ信号)について分類される。
番組は、更に、各コンテンツ(自己完結型アクティビティ(重要イベント))について分類される。
アナログビデオ信号の閲覧や概要把握(スキミング)を行うための従来のビデオテープレコーダのサンプル再生モードは、煩雑で融通性がない。この問題の理由は、ビデオ信号が、サンプルの線形ブロック(linear block)として扱われることである。検索機能(早送り及び早戻し以外の検索機能)は得られない。
この問題に対処するため、最近のビデオテープレコーダでは、記録動作を開始する度に手動又は自動でインデックスを設定し、ビデオ信号のシーケンスの自動認識を可能にしているものもある。上述のインデックスがビデオ信号のシーケンスを個々に識別するように構成されていないのは不利である。
一方、デジタルビデオディスクは、ビデオデータ(デジタル化ビデオ信号)を記録しており、デジタルビデオディスクの製造中にビデオデータにチャプタが添付されている。このチャプタは、通常は、筋書き(story line)の識別を可能とするだけである。特に、上述のチャプタによって、ビデオデータに含まれる、あるコンテンツ(最低の重要度を有する自己完結型アクティビティ/イベント)を識別することはできない。
また、近年、電子番組ガイド(electronic program guide:以下、EPGという。)システムが開発されている。
電子番組ガイド(EPG)は、デジタルセットトップボックスや新型のテレビジョン受信機において使用され、各チャンネルで現在視聴可能な番組や放送予定の番組、及び、各番組の概要や解説をリストにするためのアプリケーションである。EPGは、印刷されたテレビ番組ガイドの電子版である。
通常、EPGにはリモートコントローラを用いてアクセスする。メニューが得られ、これによりユーザは、数時間から7日間先の放送予定の番組のリストを見ることができる。一般的なEPGには、ペアレンタルコントロール(parental control)の設定、ペイパービュー番組の申込み、テーマ又はカテゴリーに基づく番組検索、VCRの番組録画設定等のオプションが含まれている。各デジタルテレビジョン受信機(DTV)の製造業者は、独自のユーザインターフェース及び内容を有するEPGを提供している。現在、EPGのフォーマットは、多くの場合、各プロバイダによって大きく異なっている。今までに開発された規格(例えば、MHP規格)は、まだ実現されていない。
したがって、EPGに適したビデオデータは、通常、オーディオ信号、画像信号、情報信号からなる。EPGによって、番組及び各番組が属する一般的主題(カテゴリー)を識別するこは可能であるが、各番組に含まれる、あるコンテンツを識別することはできない。
EPGによって提供される情報は、EPGのプロバイダが手動で作成しなければならないことは、EPGの不利な点である。上述のように、これは非常に大変な作業であり、費用がかかる。更に、代表的なEPG情報は、全体として映画コンテンツに関する情報のみからなる。各映画を個々のコンテンツ(自己完結型アクティビティ/プロット)に細分化することはできない。
大量のビデオ信号を扱う問題の明らかな解決策として、各番組のビデオ信号をコンテンツに基づいて手動でセグメントに分割し、これらのセグメントに含まれるビデオ信号に関する詳細な情報を提供することが考えられる。
使用可能なビデオ信号には大量のビデオシーケンスが含まれているため、手動のセグメント分割では極めて時間がかかり、費用がかかる。このため、この手法は大量のビデオ信号の処理については実用的でない。
上述の問題を解決するため、近年、ビデオ信号の自動セグメント分割を行う手法が提案されている。
このようなビデオ信号の自動セグメントセグメント分割の考えられる適用領域として、例えば、デジタルビデオライブラリやインターネットがある。
ビデオ信号は少なくとも1つの画像信号と1以上のオーディオ信号からなることから、ビデオ信号の自動セグメント分割処理は、画像信号、オーディオ信号、又はこれらの両信号の解析に依存する。
以下、ビデオ信号におけるオーディオ信号の解析に焦点を置いたセグメント分割処理について、更に説明する。
この手法は、ビデオ信号におけるオーディオ信号に限定されるものではなく、物理的雑音以外のいずれのオーディオ信号にも用いることができることは明らかである。更に、この手法の全般的な考え方は、例えば、ビデオ信号における画像信号の解析等、他の種類の信号にも適用できる。
セグメント分割処理に関する既知の手法としては、ビデオ信号に含まれるオーディオ信号のクリッピング、自動分類、自動セグメント分割がある。
「クリッピング(Clipping)」は、オーディオ信号(及び対応するビデオ信号)を、更なる処理を行うのに適した長さのオーディオクリップ(及び対応するビデオクリップ)に分割するために行われる。オーディオクリップは、それぞれ、適切な量のオーディオ信号からなる。したがって、セグメント分割処理の精度は、上述のオーディオクリップの長さによって異なる。
「分類(Classification)」とは、オーディオ信号の発生源(例えば、音声、音楽、雑音、無音、話者の性別)に対して行う、オーディオ信号の未処理の区別(discrimination)を意味する。分類は、通常、オーディオクラス分類規則に基づく信号解析技術により行われる。したがって、分類の結果、オーディオ信号発生源に関して分割されたオーディオ信号シーケンスが得られる。
「セグメント分割(Segmentation)」とは、オーディオ信号(ビデオ信号)を、結合(cohesive)オーディオクリップからなる個々のシーケンスに分割することであり、各シーケンスには、そのシーケンスのオーディオ信号(ビデオ信号)のコンテンツ(最低重要度の自己完結型アクティビティ)が含まれる。セグメント分割は、通常、コンテンツ分類規則(content classifying rule)に基づいて行われる。
各コンテンツは、オーディオ信号に含まれるそれぞれの自己完結型アクティビティ/重要イベント(例えば、フットボールの試合におけるゴールやペナルティキック、あるいは、ニュースマガジンにおける種々のニュース)に属する全てのオーディオクリップにより構成される。
従来の技術に基づくオーディオ信号の自動セグメント分割を行うセグメント分割装置50を図4に示す。
オーディオ信号60に対するこのセグメント分割装置50の効果を図5に示す。
セグメント分割装置50は、オーディオ信号入力ポート51を介して、未処理のオーディオ信号60を供給するオーディオ信号入力手段52を備えている。
この具体例では、上述の未処理のオーディオ信号60は、ハードディスク58において適切なビデオフォーマットで格納されているビデオ信号の一部を構成する。
あるいは、上述の未処理のオーディオ信号60は、例えば、リアルタイム信号(例えば、従来のテレビチャンネルのオーディオ信号)であってもよい。
オーディオ信号入力手段52により供給されるオーディオ信号60は、オーディオ信号クリッピング手段53に送られる。オーディオ信号クリッピング手段53は、オーディオ信号60(及び各ビデオ信号)を、所定の長さのオーディオクリップ61(及び対応するビデオクリップ)に分割する。
オーディオ信号クリッピング手段53により生成されたオーディオクリップ61は、更に、クラス判別手段54に送られる。
クラス判別手段54は、オーディオクリップ61に含まれているオーディオ信号60の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいてオーディオクリップ61を所定のオーディオクラス62に弁別する。それによって、各オーディオクラス62は、各オーディオクリップ61に含まれるオーディオ信号の種類を識別する。ここで、用語「規則」は、オーディオクリップ61のオーディオクラス62への自動分類を可能にする命令又は規定を定義している。
オーディオクラス分類規則は、それぞれ、オーディオ信号の所定の音響特性の組合せを、ある種のオーディオ信号に割り当てる。
ここで、「無音」というオーディオ信号の種類を識別するオーディオクラス分類規則の音響特性は、例えば、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」及び「低ゼロクロス率(zero cross rate)」である。
この具体例では、無音(クラス1)、音声(クラス2)、喝采/拍手(クラス3)、音楽(クラス4)のそれぞれに対するオーディオクラスとそれに対応するオーディオクラス分類規則が設けられている。
上述のオーディオクラス分類規則は、クラス判別手段54に記憶されている。
クラス判別手段54により各オーディオクラス62に分類されたオーディオクリップ61は、セグメント分割手段55に供給される。
セグメント分割手段55には複数の所定のコンテンツ分類規則が記憶されている。各コンテンツ分類規則は、連続するオーディオクリップからなる特定のオーディオクラスシーケンスを、特定のコンテンツに対して割り当てる。
この具体例では、「フリーキック」(コンテンツ1)、「ゴール」(コンテンツ2)、「ファウル」(コンテンツ3)、「試合の終了」(コンテンツ4)のそれぞれについてのコンテンツ分類規則が設けられている。
オーディオ信号に含まれるコンテンツは、それぞれ、連続するオーディオクリップのシーケンスからなることは明らかである。これを図5中の構成要素(element)63として示す。
各オーディオクリップをオーディオクラスに分類することができるため、オーディオ信号に含まれる各コンテンツも、連続オーディオクリップの対応するオーディオクラスのシーケンスからなる。
したがって、オーディオ信号に属する連続オーディオクリップの特定ののオーディオクラスシーケンスを、コンテンツ分類規則に属する連続オーディオクリップのオーディオクラスシーケンスと比較することにより、セグメント分割手段55は、各オーディオクラスシーケンスに合致する規則を検出する。
その結果、上述の規則に割り当てられたコンテンツが、オーディオ信号に属する連続オーディオクリップの各シーケンスに割り当てられる。
このように、上述のコンテンツ分類規則に従って、セグメント分割手段55は、判別手段54により得られた分類済みオーディオ信号をコンテンツ63(自己完結型アクティビティ)のシーケンスにセグメント分割する。
この具体例では、出力ファイル生成手段56を用いて、オーディオ信号60と、対応するビデオ信号と、対応するコンテンツ63のシーケンスに関する情報とを含むビデオ出力ファイルを生成する。
この出力ファイルは、信号出力ポート57を介してハードディスク58に格納される。
ビデオ再生装置59を用いて、ハードディスク58に格納されているビデオ出力ファイルを再生することができる。
この具体例において、ビデオ再生装置59は、更に、ビデオ出力ファイルに含まれるコンテンツ63のシーケンスに関する情報に基づいて、ビデオ出力ファイルに含まれる個々のコンテンツの抽出又は選択を行うことが可能なデジタルビデオレコーダである。
このように、コンテンツについてのオーディオ信号のセグメント分割は、図4に示すセグメント分割装置50により行われる。
オーディオデータの分類によく用いられる確率的信号モデルは、隠れマルコフモデルである。これについては、ローレンス・アール・ラビナー(Lawrence R. RABINER)によって1989年2月のIEEEで発表された予稿集「隠れマルコフモデルのチュートリア及び音声認識における選択された用途(A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition)」、Vol.77, No.2に詳細に説明されている。
音声、音楽、無音、性別についてのオーディオ分類のセグメント分割に関する異なる手法が、"Speech/Music/Silence and Gender Detection Algorithm" of Hadi HARB, Liming CHEN and Jean-Yves AULOGE published by the Lab. ICTT Dept. Mathematiques - Informatiques, ECOLE CENTRALE DE LYON. 36, avenue Guy de Collongue B.P. 163, 69131 ECULLY Cedex, Franceに開示されている。
一般に、上述の論文は、オーディオチャンネルを、音声、音楽、無音、雑音に分類することにより、場面のセグメント分割を改善することに関する。オーディオクラス判別について4つの手法が提案されている。すなわち、「モデルに基づく手法(model-based approach)」では、各オーディオクラスのモデルを生成し、これらのモデルは、ケプストラムやMFCC等、オーディオデータの低いレベルの特性に基づくものである。「測量に基づくセグメント分割手法(metric-based segmentation approach)」では、隣接するウィンドウ間の距離を用いてセグメント分割を行う。「規則に基づく手法(rule-based approach)」では、各クラスについての個々の規則を作成し、これらの規則は、高い及び低いレベルの特性に基づくものである。そして、「デコーダに基づく手法(decoder-based approach)」では、音声認識システムの隠れマルコフモデルを用い、隠れマルコフモデルは音声信号のクラスを与えるようにトレーニング訓練されている。
更に、この論文では、「規則に基づく手法」に従って各クラスを記述する規則の生成を可能とする音声、音楽、無音の特性、及び、音声信号の性別を検出するための性別検出について詳細に説明している。
"Audio Feature Extraction and Analysis for Scene Segmentation and Classification" is disclosed by Zhu LIU and Yao WANG of the Polytechnic University Brooklyn, USA together with Tsuhan CHEN of the Carnegie Mellon University, Pittsburg, USAの論文は、ビデオデータのビデオシーン解析に関連オーディオ情報を用いて、広告放送(commercial)、バスケットボールの試合、フットボールの試合、ニュースリポート、天気予報という5種類のテレビ番組を判別することを説明している。
この論文によれば、オーディオデーダは複数のクリップに分割され、各クリップは複数のフレームからなる。
各クリップに含まれるオーディオデータの分類のため、ボリューム曲線、ピッチ曲線、帯域幅としての周波数範囲特性の解析からなる、低レベルオーディオ特性群が提案されている。
クラスタ化解析を用いて、種々のクラスの線形分離可能性を検査し、ビデオシーケンスを上述の5種類のテレビ番組に分離する。
この論文では、オーディオ識別の3つのレイヤが区別されている。すなわち、「低レベル音響特性レイヤ」では、オーディオ信号のラウドネス、ピッチ周期、帯域幅等、低レベル一般的特性を解析する。「中レベル音響シグネチャレイヤ」では、各音響信号をデータベースに格納されているシグネチャと比較することにより、特定の音を生成するオブジェクトを判定する。「高レベル意味モデル」では、種々のシーンタイプの音声(例えば、ニュースリポートや天気予報における音声のみで、広告放送における雑音の多い背景での音声は除く)の構造に関する既知の意味論的規則を用いる。
オーディオデータをオーディオメタパターンにセグメント分割するには、連続オーディオクリップのオーディオクラスシーケンスを用いる。
更に上述の方法の精度を高めるため、ビデオデータにおけるオーディオデータの解析と、ビデオデータに含まれるビジュアル情報(例えば、画像オブジェクトの各カラーパターンや形状)の解析とを組み合わせることが提案されている。
米国特許第6,185,527号は、後で情報を取り出すためにオーディオストリームにインデックスを付し、オーディオストリームの概要把握(スキミング)、要旨作成、概要を行うシステム及び方法を開示している。このシステム及び方法では、音声認識エンジンにより生成された適切な音声セグメントのみにインデックスが付されるように、特殊オーディオプレフィルタリングを用いる。具体的なインデックス付けの特徴についての開示があるが、これは、インデックスを付した後に単語指定のために使用する情報取り出しシステムの精度及び再呼び出しを改善するものである。上述の方法では、オーディオストリームを区間に分割し、各区間は1以上のセグメントからなる。1区間の各セグメントについて、そのセグメントが、特定範囲のゼロクロス率、特定範囲のエネルギ、特定範囲のスペクトルエネルギ集中等、1以上の所定のオーディオ特性を示しているか否かを判定する。オーディオ特性は、無音、音楽、音声、音楽を背景にした音声等の各オーディオイベントを表すことが発見的に判定される。また、区間群が、音声における連続する中断なしの音声、結論的考え、躊躇、強調等、発見的に予め定められたメタパターンに合致するか否かを判定し、区間分類及びメタパターン合致に基づいて、オーディオストリームにインデックスを付すが、後で情報を取り出す際の精度を改善するように、適切な特徴のみにインデックスを付す。また、後の再呼び出しを改善するため、音声認識エンジンにより生成された長い単語に代わる代替語に、それぞれ重みを付けてインデックスを付す。
このように、オーディオストリームの概要を自動的に与える、又は、オーディオストリームの要旨把握を得ることが特に提案されている。
自動音響セグメント分割からインデックスを生成するアルゴリズムについては、ダン・キンバー(Don KIMBER)、リン・ウィルコックス(Lynn WILCOX)著の論文 “Acoustic Segmentation for Audio Browsers(オーディオブラウザの音響セグメント分割)”に記載がある。これらのアルゴリズムは、隠れマルコフモデルを用いて、オーディオデータを種々の話者又は音響クラスに対応するセグメントに分割する。提案されている音響クラスのタイプとしては、音声、無音、笑い声、音声以外の音声、不要データがある。不要データは、他のクラスモデルにより明示的にモデル化されない、音声以外の音声として定義される。
ジョージ・ザネタキス(George TZANETAKIS)、ペリー・クック(Perry COOK)により、論文「マルシュアース:オーディオ解析の枠組み(MARSYAS: A framework for audio analysis)」において、既知の方法の実現例が提案されている。ここでは、クライアント/サーバアーキテクチャが使用されている。
既知のセグメント分割装置のクラス判別手段は良好な平均的動作性能を達成しているが、上述のクラス判別手段は、特定のカテゴリーに属するビデオ信号に適用した場合に失敗が多いことは問題である。
実際、既知のクラス判別手段は、各カテゴリーの特定の番組に属するビデオ信号に適用すると失敗することが多い。
これについて、以下の例により更に説明する。
既知のクラス判別手段は、「スポーツ」、「映画」、「記録映画」というカテゴリーに関するオーディオ信号を分類するときには平均的な結果を得るが、同じクラス判別手段で、「ニュース」のカテゴリーに属するオーディオ信号を分類するときには平均以下の動作性能となることがある。
また、既知のクラス判別手段は、「フットボール」、「ハンドボール」、「野球」という番組(これらはすべて「スポーツ」カテゴリーに属する)に関するオーディオ信号を分類するときには良好な結果を得るが、同じクラス判別手段で、「ゴルフ」という番組(これも「スポーツ」カテゴリーに属する)に関するオーディオ信号を分類するときには平均以下の動作性能となることがある。
更に、上述の問題はセグメント分割装置のセグメント分割手段にも当てはまる。
既知のセグメント分割装置のセグメント分割手段は、通常、良好な平均的動作性を達成する。
しかし、同じセグメント分割手段は、各カテゴリー又は各カテゴリーの特定番組に属するビデオ信号に適用されると失敗することが多い。
上述の例はクラス判別手段についてであるが、セグメント分割手段にも相応じて当てはある。
更に、オーディオ信号をコンテンツにセグメント分割するとき、連続オーディオクリップの、あるオーディオクラスシーケンスについては、通常、種々のコンテンツに対して割り当てることができることは重大な問題である。
例えば、「フットボール」という番組の「ゴール」というコンテンツについての連続オーディオクリップの連続オーディオクラスシーケンスは、「音声」−「無音」−「雑音」−「音声」となり、「ニュースマガジン」という番組の「告知」というコンテンツについての連続オーディオクリップの連続オーディオクラスシーケンスも、「音声」−「無音」−「雑音」−「音声」となる場合がある。したがって、この具体例では、対応するコンテンツを無条件に割り当てることはできない。
上述の問題を解決するため、従来の技術のセグメント分割装置の既知のセグメント分割手段は、通常、連続オーディオクリップの、あるオーディオクラスシーケンスに対するコンテンツ割り当てには、規則に基づく手法を採用している。
従来の技術に基づく各オーディオクラス/各コンテンツの可能なオーディオクラス分類規則/コンテンツ分類規則を求める判定処理は、使用済みの未処理のオーディオ信号と、判定処理を行う人物の個人的経験の両方によって異なる。したがって、判定処理は、通常、非常に困難であり、時間がかかるのに加えて主観的である。
更に、オーディオ信号が属する種々の番組や種々のカテゴリーの特殊性のすべてについて十分に考慮していないおそれがある。
本発明の目的は、上述の問題を解決するとともに、供給されるオーディオ信号が属するカテゴリー又は番組とは無関係に良好な平均的動作性能が得られるオーディオ信号分類装置及び方法を提供することである。
上述の目的は、独立請求項1の特徴付け部分の特徴により、請求項1の前文の特徴を備えるオーディオ信号分類装置において達成される。
更に、上述の目的は、独立請求項13の特徴付け部分の特徴により、請求項13の前文の特徴を備えるオーディオ信号分類方法により達成される。
従属請求項において更なる発展を示す。
本発明に係るオーディオ信号分類装置は、オーディオ信号をオーディオクリップに区分するオーディオ信号クリッピング手段と、上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、上記オーディオ信号クリッピング手段により得られた上記オーディオクリップを所定のオーディオクラスに分類するクラス判別手段とを備え、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。
本発明では、クラス判別手段は、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出し、オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。更に、クラス判別手段は、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングする。
強調すべき重要なことは、オーディオ信号クリッピング手段は、オーディオ信号を所定の長さのオーディオクリップに細分化する必要はなく、オーディオ信号内で好適量のオーディオ信号を有するオーディオ信号セグメントを定めるだけでよいということである。上記オーディオ信号セグメントを「オーディオクリップ」と呼ぶ。
このように、オーディオ信号クリッピング手段は、上記オーディオ信号セグメントを定めるメタデータファイルを生成するが、オーディオ信号自体はそのままである。
本発明では、所定の音響特性の組合せを、ある種のオーディオ信号に割り当てるオーディオクラス分類規則を使用することに基づいている。上記オーディオ信号の種類を「オーディオクラス」と呼ぶ。
本発明では、オーディオクラス信頼値は、クラス判別手段によりオーディオクラスに分類された各オーディオクリップについて算出される。
オーディオクリップのオーディオクラスへの分類はオーディオクラス分類規則により行われるので、上記オーディオクラス信頼値は、各オーディオクリップに対するオーディオクラス分類規則毎に算出することができる。
上記オーディオクラス信頼値を算出する簡単な方法として、例えば、各オーディオクリップの各オーディオ信号が合致した各オーディオクラス分類規則のパラメータの割合を判定することが考えられる。
上記オーディオクラス信頼値は、オーディオクリップをオーディオクラスに正しく分類する確率を示す。
このように、あるオーディオクラス分類規則により信頼度が高いとして分類されたオーディオクリップを容易に自動的に判定することができる。
上記オーディオクリップに含まれるオーディオ信号の音響特性を用いることにより、各オーディオクラス分類規則のための特定の好適なトレーニング信号が得られる。
このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則に対する装置自体のトレーニング信号を自動的に生成する。
オーディオクラス分類規則の上記トレーニング信号は現在処理中のオーディオ信号に基づいて生成されるので、上記トレーニング信号により、いずれのカテゴリー又は番組のオーディオ信号に対してもオーディオクラス分類規則を適応させることができる。
本発明に係るオーディオ信号分類装置の自動トレーニング能力により、種々の番組や種々のカテゴリーのオーディオ信号の特殊性のすべてを考慮することができる。このため、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で分類することができる。
更に、上記オーディオクラス分類規則は自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なオーディオクラス分類規則を求める判定処理が大幅に容易化される。
本発明の一実施例では、オーディオ信号分類装置は更に、クラス判別手段により得られる結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、分類済みのオーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割するセグメント分割手段を備え、セグメント分割手段によりセグメント分割された各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応する。更に、セグメント分割手段は、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出し、コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。また、セグメント分割手段は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。
この好ましい実施例は、上記オーディオクリップシーケンスのオーディオ信号に含まれる、あるコンテンツ(最低重要度を有する、ある番組に含まれる自己完結型アクティビティ)に対して、所定の連続オーディオクリップのオーディオクラスシーケンスを割り当てるコンテンツ分類規則を用いることに基づいている。
この実施例では、連続オーディオクリップの各セグメント分割オーディオクラスシーケンスを得るセグメント分割手段により、コンテンツ信頼値が算出される。
連続オーディオクリップのオーディオクラスシーケンスをコンテンツにセグメント分割することは、コンテンツ分類規則を用いて行われるので、連続オーディオクリップの各オーディオクラスシーケンスに対して各コンテンツ分類規則についてコンテンツ信頼値を算出することができる。
上記コンテンツ信頼値を算出する簡単な方法として、例えば、連続オーディオクリップの各オーディオクラスシーケンスが合致する各コンテンツ分類規則のパラメータの割合を判定することが考えられる。
上記コンテンツ信頼値は、連続オーディオクリップのオーディオクラスシーケンスをコンテンツに対して正しく割り当てる確率を示す。
このように、あるコンテンツ分類規則により高い信頼度でセグメント分割された連続オーディオクリップのオーディオクラスシーケンスを容易に自動的に判定することができる。
上記連続オーディオクリップのオーディオクラスシーケンスを用いることにより、各コンテンツ分類規則のための特定の好適なトレーニング信号が得られる。
このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、コンテンツ分類規則に対する装置自体のトレーニング信号を更に生成する。
コンテンツ分類規則の上記トレーニング信号は現在処理中のオーディオ信号に基づいて生成されるので、上記トレーニング信号により、いずれのカテゴリー又は番組のオーディオ信号に対してもコンテンツ分類規則を適応させることができる。
したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能でセグメント分割することができる。
更に、上記コンテンツ分類規則は自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なコンテンツ分類規則を求める判定処理が大幅に容易化される。
分類規則がニューロナルネットワークからなる場合、ニューロナルネットワークで使用される重みは、ニューロナルネットワークをトレーニングするように更新されることが好ましい。
更に、分類規則がガウス混合モデルからなる場合、ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータが、ガウス混合モデルをトレーニングするように調整されることが好ましい。
また、分類規則が決定木からなる場合、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問が、決定木をトレーニングするように調整されることが好ましい。
分類規則が隠れマルコフモデルからなる場合、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率が、隠れマルコフモデルをトレーニングするように調整されることが好ましい。
したがって、従来のパラメータの適応/調整を行うことにより、本発明の分類装置で、オーディオクラス分類規則及び/又はコンテンツ分類規則として好適な種々の分類規則をトレーニングすることができる。
好ましくは、本発明に係るオーディオ信号分類装置は、更に、オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割するとともに、対応するコンテンツを手動で割り当てるための第1のユーザ入力手段を備え、セグメント分割手段は、手動でセグメント分割されたオーディオ信号を用いて、各コンテンツ分類規則をトレーニングする。
また、本発明に係るオーディオ信号分類装置は、更に、オーディオクリップを対応するオーディオクラスに手動で分類するための第2のユーザ入力手段を備え、クラス判別手段は、上記手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。
このように、非常に特殊な種類のオーディオ信号を処理したことからトレーニングデータの自動生成に失敗した場合であっても、コンテンツ分類規則及び/又はオーディオクラス分類規則のトレーニングは可能である。
また、手動でセグメント分割/分類されたオーディオ信号を分類規則のトレーニング目的で使用することにより、オーディオ信号の例外的な特殊性をも考慮できるので、各分類規則の性能を更に改善することができる。
好ましくは、音響特性は、各オーディオ信号の帯域幅、及び/又は、セロクロス率、及び/又は、ボリューム、及び/又は、サブバンドエネルギ率、及び/又は、メルケプストラム成分、及び/又は、周波数重心(frequency centroid)、及び/又は、サブバンドエネルギ、及び/又は、ピッチ周期からなる。
オーディオ信号内の上記音響特性については、信頼性の高い検出を容易に行うことができる。
更に、上記音響特性により、オーディオクラス分類規則に基づいて、オーディオクリップに含まれるオーディオ信号を確実にオーディオクラスに分類することができる。
好ましくは、無音、音声、音楽、喝采及び拍手のそれぞれについて、所定のオーディオクラス分類規則が設けられている。
上記オーディオクラスは、オーディオ信号に含まれる音響特性に基づいて高精度に検出することができる。
また、上記オーディオクラスにより、コンテンツ分類規則に基づいて高い信頼性で、オーディオクラスシーケンスをコンテンツにセグメント分割することができる。
更に、オーディオ信号は、少なくともオーディオ信号と画像信号とにより構成されるビデオデータファイルの一部であることが好ましい。
また、セグメント分割手段は、オーディオ信号のコンテンツを解析することによりオーディオ信号における広告放送シーケンスを識別するとともに、広告放送シーケンスの前及び/又は広告放送シーケンスの後の結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングすることが好ましい。
オーディオ信号(例えば、ラジオ又はテレビ放送から抽出したオーディオ信号)においては、特別に興味を引くコンテンツの直前及び/又は直後に広告放送が配置されることが非常に多い。
このため、オーディオ信号における広告放送シーケンスを識別し、広告放送シーケンスの前後の結合オーディオクリップシーケンスを用いて各コンテンツ分類規則をトレーニングすることにより、各オーディオ信号における特別に興味を引くコンテンツを自動的に識別するコンテンツ分類規則を生成することができる。
本発明に係るオーディオ信号分類方法は、オーディオ信号をオーディオクリップに区分するステップと、上記オーディオクリップに含まれる上記オーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、上記オーディオクリップを所定のオーディオクラスに分類するステップであって、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表すステップと、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するステップであって、オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示すステップと、オーディオクラス信頼値が高いオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングするステップとを有する。
本発明の好ましい実施例では、オーディオ信号分類方法は更に、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、分類されたオーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割するステップであって、各結合オーディオクリップシーケンスは上記オーディオ信号に含まれるコンテンツに対応するステップと、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出するステップであって、コンテンツ信頼値は、各コンテンツが結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示すステップと、コンテンツ信頼値が高い結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングするステップとを有する。
好ましくは、オーディオ信号分類方法は更に、分類規則としてニューロナルネットワークを用いるステップと、上記ニューロナルネットワークをトレーニングするように、上記ニューロナルネットワークで使用される重みを更新するステップとを有する。
好ましくは、オーディオ信号分類方法は更に、分類規則としてガウス混合モデルを用いるステップと、上記ガウス混合モデルをトレーニングするように、上記ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータを適応させるステップとを有する。
更に、オーディオ信号分類方法は、分類規則として決定木を用いるステップと、上記決定木をトレーニングするように、上記決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を適応させるステップとを有することが好ましい。
また、オーディオ信号分類方法は更に、分類規則として隠れマルコフモデルを用いるステップと、上記隠れマルコフモデルをトレーニングするように、上記隠れマルコフモデルで使用される最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率を適応させるステップとを有することが好ましい。
好ましくは、オーディオ信号分類方法は更に、個々の結合オーディオクリップシーケンスに手動でセグメント分割されるとともに、対応するコンテンツに対して手動で割り当てられたオーディオ信号を用いて、上記各コンテンツ分類規則をトレーニングするステップを有する。
また、オーディオ信号分類方法は更に、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則をトレーニングするステップを有することが好ましい。
また、オーディオ信号分類方法は更に、上記オーディオ信号のコンテンツを解析することにより、上記オーディオ信号における広告放送シーケンスを識別するステップと、上記広告放送シーケンスの前又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則をトレーニングするステップとを有することが好ましい。
本発明は更に、請求項13乃至21のいずれか1項に記載の方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素(state element)からなるソフトウェア製品に関する。
以下の詳細な説明において、添付図面を参照して本発明を説明するが、図中の同じ参照符号は全図面において同じ部分を示す。
図1は、本発明の第1の好ましい実施例に係るオーディオ信号分類装置を示す。
この第1の好ましい実施例では、オーディオ信号分類装置1は、図示しないデジタルビデオレコーダに含まれる。
あるいは、オーディオ信号分類装置は、パーソナルコンピュータやワークステーション等、種々のデジタルオーディオ/ビデオ装置に含まれてもよく、また、別個の機器として提供されてもよい。
オーディオ信号分類装置1は、信号入力ポート9を介して信号を供給する信号入力手段7を備えている。
この具体例において、信号入力ポート9に供給された信号は、デジタルビデオレコーダのハードディスク58に格納されているデジタルビデオデータファイルである。デジタルビデオデータファイルは、少なくともオーディオ信号と画像信号により構成されている。
また、信号入力ポート9に供給された信号は、従来のテレビチャンネルのリアルタイムビデオ信号であってもよい。
信号入力手段7は、信号入力ポート9に供給された信号を好適なフォーマットに変換する。
信号入力ポート9に供給されたデジタルビデオデータファイルに含まれるオーディオ信号は、信号入力手段7により読み出され、オーディオ信号クリッピング手段2に送られる。
オーディオ信号クリッピング手段2は、上述のオーディオ信号をオーディオクリップに区分する。
強調すべき重要なことは、オーディオ信号クリッピング手段2は、文字通りにオーディオ信号をオーディオクリップに細分化するのではなく、単にオーディオ信号内で好適量のオーディオ信号からなるオーディオ信号セグメントを定めるということである。
この具体例では、オーディオ信号クリッピング手段2は、オーディオ信号内で所定の長さのオーディオ信号セグメントを定めるメタデータを生成し、オーディオ信号自体はそのままである。以下、上述のオーディオ信号セグメントを「オーディオクリップ」と呼ぶ。
また、各オーディオクリップは、可変量のオーディオ信号により構成されてもよい。このように、オーディオクリップは可変長を有してもよい。
各クリップに含まれるオーディオ信号を、複数のフレーム、例えば、512サンプルに更に分割できることは、当業者にとって明らかである。この場合、連続するフレームを、それぞれの先行フレームに対して180サンプル分シフトすることが好ましい。この細分化により、各オーディオクリップに含まれるオーディオ信号の正確で容易な処理が可能となる。
オーディオ信号クリッピング手段2により得られたオーディオクリップは、更に、クラス判別手段3に送られる。
オーディオクリップに含まれるオーディオ信号の音響特性が、クラス判別手段3により解析される。
この実施例において、上述の音響特性は、各オーディオクリップに含まれるオーディオ信号の帯域幅、ゼロクロス率、ボリューム、サブバンドエネルギ率、メルケプストラム成分、周波数重心(frequency centroid)、サブバンドエネルギ、ピッチ周期からなる。
上述の音響特性の解析は、従来のいずれの方法によっても行うことができる。更に、上述の音響特性により、オーディオクラス分類規則に基づいて、オーディオクリップに含まれるオーディオ信号をオーディオクラスに確実に分類することが可能となる。
このように、所定のオーディオクラス分類規則を用いることにより、各オーディオクリップに含まれる音響特性に基づいて、クラス判別手段3によってオーディオクリップが所定のオーディオクラスに分類される。
クラス判別手段3に記憶されている上述の所定のオーディオクラス分類規則は、各オーディオクラスについて与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。
このように、オーディオクラス分類規則は、あるオーディオ信号の種類に対して、各オーディオクリップの所定の音響特性の組合せを割り当てる。
オーディオクラス分類規則の機能は、以下の例により、更に明らかとなる。
「無音」というオーディオ信号の種類を識別するオーディオクラス分類規則についての音響特性は、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」及び「低ゼロクロス率」とすることができる。
このように、低エネルギレベル及び低ゼロクロス率を有するオーディオ信号からなるオーディオクリップが、クラス判別手段3により判別された場合、「無音」というオーディオクラスが上述のオーディオクリップに対して割り当てられる。
この実施例において、無音、音声、音楽、喝采及び拍手のそれぞれについての所定のオーディオクラス分類規則が設けられている。上述のオーディオクラスは高精度に検出することができ、それに応じて分類されたオーディオデータについて信頼性の高いセグメント分割が可能となる。また、更なるオーディオクラス、例えば、雑音や男性/女性の音声を判定することもできる。
上述のオーディオクラス分類規則は、手動で分類されたオーディオ信号の経験的解析により生成され、クラス判別手段3に記憶される。
本発明によれば、クラス判別手段3は、更に、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出する。
上述のオーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。
この実施例において、上述のオーディオクラス信頼値は、各オーディオクリップのオーディオ信号が合致する各オーディオクラス分類規則のパラメータの割合を判定することにより算出される。
オーディオクラス信頼値の算出については、以下の例により更に明らかとなる。
この場合も、「無音」というオーディオクラスを識別するオーディオクラス分類規則についての音響特性は、各オーディオクリップに含まれるオーディオ信号の「低エネルギレベル」と「低ゼロクロス率」とすることができる。
クラス判別手段3により、低エネルギレベル及び低ゼロクロス率を有するオーディオ信号からなるオーディオクリップに対して「無音」のオーディオクラスが割り当てられた場合、オーディオクラス分類規則のオーディオクラス信頼値は100%となる。
一方、クラス判別手段3により、低エネルギレベル及び高ゼロクロス率を有するオーディオ信号からなるオーディオクリップに対して「無音」のオーディオクラスが割り当てられた場合、オーディオクラス分類規則のオーディオクラス信頼値は50%にしかならない。
このように、上述のオーディオクラス信頼値は、オーディオクリップをオーディオクラスに正しく分類する確率を示す。
したがって、あるオーディオクラス分類規則により高い信頼度で分類されたオーディオクリップが判定される。
更に、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いることにより、クラス判別手段3は各オーディオクラス分類規則をトレーニングする。
この実施例では、オーディオクラス分類規則はニューロナルネットワークからなる。
上述のニューロナルネットワークは、クラス判別手段3により、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性に基づいて、ニューロナルネットワークで使用される重みを更新することによりトレーニングされる。
また、オーディオクラス分類規則がガウス混合モデルからなる場合、ガウス混合モデルをトレーニングするように、ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータを調整することが好ましい。
更に、オーディオクラス分類規則が決定木からなる場合、決定木をトレーニングするように、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を調整することが好ましい。
更に他の例では、オーディオクラス分類規則は隠れマルコフモデルからなる。この場合、隠れマルコフモデルをトレーニングするように、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率を調整することが好ましい。
したがって、本発明の分類装置1により、従来のパラメータの適応/調整を行うことで、オーディオクラス分類規則及び/又はコンテンツ分類規則として好適な種々の分類規則をトレーニングすることができる。
本発明は上述の分類規則に限定されるものではなく、トレーニング能力(例えば、パラメータ調整によるトレーニング能力)を有する分類規則であれば、いずれの分類規則も使用できることは、当業者にとって明らかである。
クラス判別手段3によるオーディオクラスへの分類後、分類されたオーディオクリップはセグメント分割手段4に送られる。
上述のセグメント分割手段4は、クラス判別手段3により得られた結合(連続)オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、オーディオ信号を個々の結合オーディオクリップシーケンスにセグメント分割する。セグメント分割手段によりセグメント分割された各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応している。
コンテンツは、ある最低の重要度を満たす番組のオーディオ信号に含まれる事後完結型アクティビティである。
ある番組のオーディオ信号に含まれるコンテンツの時間長は通常それぞれ異なる。このように、各コンテンツは、ある数の結合オーディオクリップを有している。
例えば、番組がニュースである場合、コンテンツはニュースで言及される種々の告知情報となる。例えば、番組がフットボールである場合、上述のコンテンツはキックオフ、ペナルティキック、スローイン、ゴール等となる。
上述のように、オーディオ信号に含まれるコンテンツは、それぞれ、連続オーディオクリップシーケンスからなる。各オーディオクリップはオーディオクラスに分類されるので、各コンテンツも連続オーディオクリップの対応するオーディオクラスシーケンスからなる。
したがって、各オーディオ信号のコンテンツに属する連続オーディオクリップのオーディオクラスシーケンスを、コンテンツ分類規則に属する連続オーディオクリップのオーディオクラスシーケンスと比較することにより、各コンテンツを識別するように適応したコンテンツ分類規則を求めることができる。
コンテンツ分類規則の機能については、以下の例により更に明らかとなる。
「ゴール」というコンテンツを識別するコンテンツ分類規則についての結合オーディオクリップのオーディオクラスシーケンスは、「音声」、「無音」、「喝采/拍手」、「無音」とすることができる。
このように、「音声」、「無音」、「喝采/拍手」、「無音」の結合オーディオクリップのオーディオクラスシーケンスが、セグメント分割手段4によりセグメント分割される場合、「ゴール」というコンテンツが上述のオーディオクリップシーケンスに割り当てられる。
この好ましい実施例では、セグメント分割手段4は、更に、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出する。上述のコンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。
更に、セグメント分割手段は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。
この実施例において、コンテンツ信頼値は、セグメント分割手段4により、各コンテンツ分類規則の特徴のうち、幾つの特徴が連続オーディオクリップの各オーディオクラスシーケンスと合致するかをカウントすることにより、連続オーディオクリップの各オーディオクラスシーケンスに対してコンテンツ分類規則毎に算出される。このように、上述のコンテンツ信頼値は、連続オーディオクリップのオーディオクラスシーケンスをコンテンツに対して正しく割り当てる確率を示す。
あるコンテンツ分類規則により高い信頼度でセグメント分割された連続オーディオクリップのオーディオクラスシーケンスを用いることにより、本発明のオーディオ分類装置1のセグメント分割手段4では、各コンテンツ分類規則について特に好適なトレーニング信号が得られる。
このように、本発明に係るオーディオ信号分類装置は、現在処理中のオーディオ信号に基づいて、各オーディオクラス分類規則及び各コンテンツ分類規則の両方について、装置自体のトレーニング信号を生成する。
オーディオクラス分類規則及びコンテンツ分類規則についての上述のトレーニング信号は、現在処理中のオーディオ信号に基づいて生成されるので、上述のトレーニング信号により、オーディオクラス分類規則及びコンテンツ分類規則をいずれのカテゴリー又は番組に対しても適応させることができる。
本発明に係るオーディオ信号分類装置1の自動トレーニング能力により、種々の番組及び種々のカテゴリーのオーディオ信号の特殊性のすべてを十分に考慮することができる。したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で分類及びセグメント分割を行うことができる。
更に、上述のオーディオクラス分類規則及び上述のコンテンツ分類規則は、それぞれ、自動的に生成されたトレーニング信号により自動的にトレーニングされるので、適用可能なオーディオクラス分類規則及びコンテンツ分類規則を求める判定処理が大幅に容易化される。
この好ましい実施例では、オーディオ信号分類装置1は、更に、第1のユーザ入力手段5と第2のユーザ入力手段6とを備えている。
第1のユーザ入力手段5はセグメント分割手段4に接続され、第2のユーザ入力手段6はクラス判別手段3に接続されている。
第1及び第2のユーザ入力手段5はいずれも、キーボード又はタッチスクリーン(図示せず)を備えている。
あるいは、第1及び第2のユーザ入力手段に、1つの共通のキーボード又はタッチスクリーンを用いてもよい。
第1のユーザ入力手段5は、オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割することや、対応するコンテンツを手動で割り当てることを可能にし、セグメント分割手段4は、上述の手動でセグメント分割されたオーディオ信号を用いて、各コンテンツ分類規則をトレーニングする。
第2のユーザ入力手段6は、オーディオクリップを対応するオーディオクラスに手動で分類するために設けられ、クラス判別手段3は、上述の手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。
このように、非常に特殊なタイプのオーディオ信号を処理したためにトレーニングデータの自動生成に失敗する場合でも、コンテンツ分類規則及び/又はオーディオクラス分類規則のトレーニングは可能である。
また、手動でセグメント分割/分類されたオーディオ信号を分類規則のトレーニング目的で使用することにより、オーディオ信号の例外的な特殊性をも考慮することができるので、各分類規則の性能を更に改善することができる。
セグメント分割手段4には、出力ポート10を有する主ル力ファイル生成手段8が接続されている。
出力ファイル生成手段8は、信号入力手段7に供給されたオーディオ信号と、オーディオ信号に含まれる自己完結型イベントの開始時間、終了時間、コンテンツに関するデータとを含む出力ファイルを生成する。
更に、出力ファイル生成手段8は、出力ポート10を介して出力ファイルをデジタルビデオレコーダのハードディスク58に格納する。
また、出力ファイルを、例えばDVDレコーダによりDVDに書き込んでもよい。
また、上述のハードディスク58は、例えば、パーソナルコンピュータの一部であってもよい。
この実施例において、ハードディスク58は、更に、ハードディスク58に格納されている出力ファイルを再生するデジタルビデオレコーダの再生手段59に接続されている。
第1の実施例では、信号入力手段7、オーディオ信号クリッピング手段2、クラス判別手段3、セグメント分割手段4、出力ファイル生成手段8として、それぞれ別々のマイクロコンピュータが使用される。
また、信号入力手段7、オーディオ信号クリッピング手段2、クラス判別手段3、セグメント分割手段4、出力ファイル生成手段8として、1つの共通のμコンピュータを使用することもできる。
図2は、概略図に基づいて、本発明に係るオーディオ信号分類方法の機能を示す。
上述の方法は、本発明の上述の第1の好ましい実施例に係るオーディオ信号分類装置により行うことができるので、図1及び図2の両図を参照する。
第1のステップS1において、信号クリッピング手段2により未処理のオーディオ信号がオーディオクリップに区分される。
ステップS2において、オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則に基づいて、オーディオクリップが所定のオーディオクラスに分類される。ここで、各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表す。
その後、ステップS3において、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則に基づいて、オーディオ信号が個々の結合オーディオクリップシーケンスにセグメント分割される。ここで、各結合オーディオクリップシーケンスは、オーディオ信号に含まれるコンテンツに対応する。
一方、ステップS4において、オーディオクリップに割り当てられたオーディオクラス毎にオーディオクラス信頼値が算出される。ここで、オーディオクラス信頼値は、各オーディオクラスが、各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示す。
続きステップS5において、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、各オーディオクラス分類規則をトレーニングする。また、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、各オーディオクラス分類規則をトレーニングする。
ステップS2、S4、S5は、クラス判別手段3によって実行される。
ステップS3と同時に、ステップS6において、結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値が算出される。ここで、コンテンツ信頼値は、各コンテンツが、各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示す。
コンテンツ信頼値が算出された後、ステップS7において、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングする。個々の結合オーディオクリップシーケンスに手動でセグメント分割され、対応するコンテンツに対して手動で割り当てられたオーディオ信号を更に用いて、各コンテンツ分類規則をトレーニングする。
ステップS3、S6、S7は、セグメント分割手段4によって実行される。
ステップS2及びS3では、オーディオクラス分類規則及びコンテンツ分類規則として、ニューロナルネットワーク、ガウス混合モデル、決定木、又は隠れマルコフモデルを用いることができる。
これに応じて、ニューロナルネットワークで使用される重み、ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータ、決定木で使用される各リーフノードにおけるイベント継続時間に関する質問、又は、隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率を調整して、ステップS5及びS7で各分類規則をトレーニングすることができる。
図3は、本発明の第2の実施例に係るオーディオ信号分類装置を示す。
第2の実施例に係るオーディオ信号分類装置は、まず、音響特性解析手段3’を実現するために別個のマイクロコンピュータを設けた点で第1の実施例とは異なる。
音響特性解析手段3’は、上述の方法のステップS1を行うことにより、未処理のオーディオ信号11をオーディオクリップにクリッピングする。更に、音響特性解析手段3’は、オーディオクリップに含まれる未処理のオーディオ信号11の音響特性を解析する。
このように、この実施例では、オーディオ信号の音響特性の解析は、クラス判別手段3によってではなく、音響特性解析手段3’によって行われる。
図3に示すように、クラス判別手段3は、判別手段31と、オーディオクラス信頼値算出部33と、オーディオクラス分類規則トレーニング手段34と、オーディオクラス分類規則記憶手段32とを備えている。
判別手段31は、オーディオクラス分類規則記憶手段32に記憶された所定のオーディオクラス分類規則35、36、37に基づいて、音響特性解析手段3’から得られたオーディオクリップを所定のオーディオクラスに弁別する。
この実施例では、未処理のオーディオ信号11に含まれる種々の番組に対して、オーディオクラス分類規則35、36、37からなる各規則セットが設けられている。オーディオクラス分類規則35、36、37からなる各規則セットは、所定の番組用に特殊化される。
オーディオクラス信頼値算出部33は、オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出する。
高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いることにより、オーディオクラス分類規則トレーニング手段34は、各オーディオクリップの判別に使用された各オーディオクラス分類規則35をトレーニングする。上述の上述のトレーニングは、各オーディオクラス分類規則35のパラメータを調整することにより行われる。
判別手段3により、区分及び分類済みのオーディオ信号12が出力される。
この具体例では、上述の区分及び分類済みオーディオ信号12は、更なる処理のためにハードディスク(図示せず)に一時的に格納される。また、上述の区分及び分類済みオーディオ信号12を、そのままセグメント分割手段4に供給してもよい。
セグメント分割手段4は、セグメント分割実行手段41と、コンテンツ信頼値算出部43と、コンテンツ分類規則トレーニング手段44と、コンテンツ分類規則記憶手段42とを備えている。
セグメント分割実行手段41は、コンテンツ分類規則記憶手段42に記憶された所定のコンテンツ分類規則45、46、47に基づいて、区分及び分類済みオーディオ信号12を個々の結合オーディオクリップシーケンスにセグメント分割する。
この実施例では、種々の番組における未処理のオーディオ信号11から得られる区分及び分類済みオーディオ信号12について、コンテンツ分類規則45、46、47からなる各セットが設けられている。コンテンツ分類規則45、46、47からなる各セットは、所定の番組用に特殊化される。
コンテンツ信頼値算出部43は、コンテンツに割り当てられた各結合オーディオクリップシーケンスについてコンテンツ信頼値を算出する。
高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いることにより、コンテンツ分類規則トレーニング手段44は、各結合オーディオクリップシーケンスの判別に使用された各コンテンツ分類規則45をトレーニングする。上述のトレーニングは、各コンテンツ分類規則45のパラメータを調整することにより行われる。
対応してセグメント分割されたオーディオ信号13が、セグメント分割手段4により出力される。この実施例において、上述のセグメント分割されたオーディオ信号13は、対応するビデオ信号から別々にハードディスク(図示せず)に格納される。
このように、本発明の第2の実施例では、オーディオ信号分類装置は、オーディオクラス信頼値算出部33及びコンテンツ信頼値算出部43の出力とともに現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則35、36、37及びコンテンツ分類規則45、46、47のための、装置自体のトレーニング信号を自動的に生成する。
本発明の第2の実施例では、セグメント分割手段4のコンテンツ信頼値算出部43は、更に、各オーディオ信号のコンテンツを解析することにより、区分及び分類済みオーディオ信号12における広告放送シーケンスを識別するように適応している。
広告放送シーケンスがコンテンツ信頼値算出部43により自動的に検出された場合、あるいは、ユーザにより手動で識別(及び入力)された場合、コンテンツ分類規則トレーニング手段44は、その広告放送シーケンスの前及び/又は後の結合オーディオクリップシーケンスを用いて、各結合オーディオクリップシーケンスのセグメント分割に使用される各コンテンツ分類規則をトレーニングする。
セグメント分割手段4における、この更なる的特徴は、広告放送が通常は特別に興味深いコンテンツの直前及び/又は直後に配置されるという事実に基づいている。
したがって、オーディオ信号における広告放送シーケンスを識別し、その広告放送シーケンスの前及び/又は後の結合オーディオクリップシーケンスを用いて、各コンテンツ分類規則をトレーニングすることにより、各オーディオ信号における特別に興味深いコンテンツを識別するコンテンツ分類規則を生成することができる。
区分及び分類済みオーディオ信号12における広告放送シーケンスの検出は、セグメント分割実行手段41により、又は、別の構成要素により、又は、ユーザによって行うことができる。
この実施例において、音響特性解析手段3’、判別手段31、オーディオクラス信頼値算出部33、オーディオクラス分類規則トレーニング手段34として、それぞれ別々のマイクロコンピュータが設けられている。
あるいは、音響特性解析手段3’、判別手段31、オーディオクラス信頼値算出部33、オーディオクラス分類規則トレーニング手段34として、1つの共通のマイクロコンピュータを使用することもできる。
更に、第2の実施例において、セグメント分割実行手段41、コンテンツ信頼値算出部43、コンテンツ分類規則トレーニング手段44として、それぞれ別々のマイクロコンピュータが設けられている。
あるいは、セグメント分割実行手段41、コンテンツ信頼値算出部43、コンテンツ分類規則トレーニング手段44として、1つの共通のマイクロコンピュータを使用することもできる。
また、この第2の実施例では、オーディオクラス分類規則記憶手段32及びコンテンツ分類規則記憶手段42として、それぞれ別々のEEPROMが設けられている。
あるいは、オーディオクラス分類規則記憶手段32及びコンテンツ分類規則記憶手段42として、それぞれ別々のフラッシュメモリ又は1つの共通のハードディスクを使用することもできる。
図1及図3を明確にするため、電源、バッファメモリ等の補助的手段は図示を省略してある。
第1及び第2の実施例に係る本発明のオーディオ信号分類装置はいずれも、パーソナルコンピュータ又はワークステーションを使用して実現することができる。
本発明の第3の実施例(図示せず)によれば、上述の目的は、請求項13乃至21のいずれか1項に記載の方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素からなるソフトウェア製品により達成される。
現在処理中のオーディオ信号に基づいて、オーディオクラス分類規則及びコンテンツ分類規則のための装置自体のトレーニング信号を自動的に生成することにより、本発明に係るオーディオ信号分類装置及び方法は、いずれのカテゴリー又は番組のオーディオ信号に対しても、オーディオクラス分類規則及びコンテンツ分類規則を適応させることができる。
このように、種々の番組及び種々のカテゴリーのオーディオ信号の特殊性のすべてが十分に考慮される。したがって、いずれのカテゴリー又は番組に属するオーディオ信号であっても、良好な平均的動作性能で信頼性の高い分類が可能である。
更に、上述のオーディオクラス分類規則及び上述のコンテンツ分類規則は、自動的に生成されたトレーニング信号によりトレーニングされるので、適用可能なオーディオクラス分類規則及びコンテンツ分類規則を求める判定処理が大幅に容易化される。
本発明の第1の好ましい実施例に係るオーディオ信号分類装置の構成を示すブロック図である。 本発明に係るオーディオ信号分類方法の処理を示すフローチャート図である。 本発明の第2の実施例に係るオーディオ信号分類装置の構成を示すブロック図である。 従来の技術に基づくセグメント分割装置の構成を示すブロック図である。 従来の技術に基づくセグメント分割装置のオーディオ信号に対する効果を概略的に示す図である。

Claims (22)

  1. オーディオ信号分類装置(1)において、
    オーディオ信号(11)をオーディオクリップに区分するオーディオ信号クリッピング手段(2)と、
    上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則(35、36、37)に基づいて、上記オーディオ信号クリッピング手段(2)により得られた該オーディオクリップを所定のオーディオクラスに分類するクラス判別手段(3)とを備え、
    上記各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、該各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表し、
    上記クラス判別手段(3)は、上記オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出し、該オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示し、
    上記クラス判別手段(3)は、高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、上記各オーディオクラス分類規則(35、36、37)をトレーニングすることを特徴とするオーディオ信号分類装置。
  2. 更に、上記クラス判別手段(3)により得られる結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則(45、46、47)に基づいて、分類済みのオーディオ信号(12)を個々の結合オーディオクリップシーケンスにセグメント分割するセグメント分割手段(4)を備え、
    上記セグメント分割手段(4)によりセグメント分割された各結合オーディオクリップシーケンスは、上記オーディオ信号に含まれるコンテンツに対応し、
    上記セグメント分割手段(4)は、上記結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出し、該コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示し、
    上記セグメント分割手段(4)は、高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングすることを特徴とする請求項1に記載のオーディオ信号分類装置。
  3. 上記オーディオクラス分類規則(35、36、37、45、46、47)は、ニューロナルネットワークからなり、
    上記ニューロナルネットワークで使用される重みが、該ニューロナルネットワークをトレーニングするように更新されることを特徴とする請求項1又は2に記載のオーディオ信号分類装置。
  4. 上記オーディオクラス分類規則(35、36、37、45、46、47)は、ガウス混合モデルからなり、
    上記ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータが、上記ガウス混合モデルをトレーニングするように調整されることを特徴とする請求項1乃至3のいずれか1項に記載のオーディオ信号分類装置。
  5. 上記オーディオクラス分類規則(35、36、37、45、46、47)は、決定木からなり、
    上記決定木で使用される各リーフノードにおけるイベント継続時間に関する質問が、該決定木をトレーニングするように調整されることを特徴とする請求項1乃至4のいずれか1項に記載のオーディオ信号分類装置。
  6. 上記オーディオクラス分類規則(35、36、37、45、46、47)は、隠れマルコフモデルからなり、
    上記隠れマルコフモデルで使用される、最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率が、上記隠れマルコフモデルをトレーニングするように調整されることを特徴とする請求項1乃至5のいずれか1項に記載のオーディオ信号分類装置。
  7. 更に、上記オーディオ信号を個々の結合オーディオクリップシーケンスに手動でセグメント分割するとともに、対応するコンテンツを手動で割り当てるための第1のユーザ入力手段(5)を備え、
    上記セグメント分割手段(4)は、上記手動でセグメント分割されたオーディオ信号を用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングすることを特徴とする請求項1乃至6のいずれか1項に記載のオーディオ信号分類装置。
  8. 更に、上記オーディオクリップを対応するオーディオクラスに手動で分類するための第2のユーザ入力手段(6)を備え、
    上記クラス判別手段(3)は、上記手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則(35、36、37)をトレーニングすることを特徴とする請求項1乃至7のいずれか1項に記載のオーディオ信号分類装置。
  9. 上記音響特性は、上記各オーディオ信号の帯域幅、及び/又は、セロクロス率、及び/又は、ボリューム、及び/又は、サブバンドエネルギ率、及び/又は、メルケプストラム成分、及び/又は、周波数重心、及び/又は、サブバンドエネルギ、及び/又は、ピッチ周期からなることを特徴とする請求項1乃至8のいずれか1項に記載のオーディオ信号分類装置。
  10. 無音、音声、音楽、喝采及び拍手のそれぞれについて、所定のオーディオクラス分類規則が与えられることを特徴とする請求項1乃至9のいずれか1項に記載のオーディオ信号分類装置。
  11. 上記オーディオ信号は、少なくともオーディオ信号と画像信号とにより構成されるビデオデータファイルの一部であることを特徴とする請求項1乃至10のいずれか1項に記載のオーディオ信号分類装置。
  12. 上記セグメント分割手段(4)は、上記オーディオ信号のコンテンツを解析することにより上記オーディオ信号における広告放送シーケンスを識別するとともに、該広告放送シーケンスの前及び/又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングすることを特徴とする請求項1乃至11のいずれか1項に記載のオーディオ信号分類装置。
  13. オーディオ信号分類方法において、
    オーディオ信号(11)をオーディオクリップに区分するステップ(S1)と、
    上記オーディオクリップに含まれるオーディオ信号の音響特性を解析することにより、所定のオーディオクラス分類規則(35、36、37)に基づいて、該オーディオクリップを所定のオーディオクラスに分類するステップであって、該各オーディオクラスについて所定のオーディオクラス分類規則が与えられ、各オーディオクラスは、対応するオーディオクリップに含まれるオーディオ信号の種類を表すステップ(S2)と、
    上記オーディオクリップに割り当てられた各オーディオクラスのオーディオクラス信頼値を算出するステップであって、該オーディオクラス信頼値は、各オーディオクラスが各オーディオクリップに含まれるオーディオ信号の種類を正しく特徴付けているか否かの尤度を示すステップ(S4)と、
    高いオーディオクラス信頼値を有するオーディオクラスのオーディオクリップの音響特性を用いて、上記各オーディオクラス分類規則(35、36、37)をトレーニングするステップ(S5)とを有するオーディオ信号分類方法。
  14. 更に、結合オーディオクリップのオーディオクラスシーケンスを解析することにより、所定のコンテンツ分類規則(45、46、47)に基づいて、分類済みのオーディオ信号(12)を個々の結合オーディオクリップシーケンスにセグメント分割するステップであって、該各結合オーディオクリップシーケンスは上記オーディオ信号に含まれるコンテンツに対応するステップ(S3)と、
    上記結合オーディオクリップシーケンスに割り当てられた各コンテンツのコンテンツ信頼値を算出するステップであって、該コンテンツ信頼値は、各コンテンツが各結合オーディオクリップシーケンスを正しく特徴付けているか否かの尤度を示すステップ(S6)と、
    高いコンテンツ信頼値を有する結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングするステップ(S7)とを有する請求項13に記載のオーディオ信号分類方法。
  15. 更に、上記分類規則(35、36、37、45、46、47)としてニューロナルネットワークを用いるステップと、
    上記ニューロナルネットワークをトレーニングするように、該ニューロナルネットワークで使用される重みを更新するステップとを有する請求項13又は14に記載のオーディオ信号分類方法。
  16. 更に、上記分類規則(35、36、37、45、46、47)としてガウス混合モデルを用いるステップと、
    上記ガウス混合モデルをトレーニングするように、該ガウス混合モデルで使用される最大尤度線形回帰変換及び/又は帰納的最大値のパラメータを適応させるステップとを有する請求項13、14又は15のいずれか1項に記載のオーディオ信号分類方法。
  17. 更に、上記分類規則(35、36、37、45、46、47)として決定木を用いるステップと、
    上記決定木をトレーニングするように、該決定木で使用される各リーフノードにおけるイベント継続時間に関する質問を適応させるステップとを有する請求項13乃至16のいずれか1項に記載のオーディオ信号分類方法。
  18. 更に、上記分類規則(35、36、37、45、46、47)として隠れマルコフモデルを用いるステップと、
    上記隠れマルコフモデルをトレーニングするように、該隠れマルコフモデルで使用される最終オーディオクラス数が与えられた場合の特定オーディオクラスの事前確率及び/又は遷移確率を適応させるステップとを有する請求項13乃至17のいずれか1項に記載のオーディオ信号分類方法。
  19. 更に、個々の結合オーディオクリップシーケンスに手動でセグメント分割されるとともに、対応するコンテンツに対して手動で割り当てられたオーディオ信号を用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングするステップを有する請求項13乃至18のいずれか1項に記載のオーディオ信号分類方法。
  20. 更に、対応するオーディオクラスに手動で分類されたオーディオクリップを用いて、上記各オーディオクラス分類規則(35、36、37)をトレーニングするステップを有する請求項13乃至19のいずれか1項に記載のオーディオ信号分類方法。
  21. 更に、上記オーディオ信号のコンテンツを解析することにより、上記オーディオ信号における広告放送シーケンスを識別するステップと、
    上記広告放送シーケンスの前及び/又は後の結合オーディオクリップシーケンスを用いて、上記各コンテンツ分類規則(45、46、47)をトレーニングするステップとを有する請求項13乃至20のいずれか1項に記載のオーディオ信号分類方法。
  22. 請求項13乃至21のいずれか1項に記載のオーディオ信号分類方法を実行できるような移動端末のデータ処理手段により処理される一連の状態要素からなるソフトウェア製品。
JP2004329133A 2003-11-12 2004-11-12 オーディオ信号の分類装置及び方法 Pending JP2005173569A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03026046A EP1531478A1 (en) 2003-11-12 2003-11-12 Apparatus and method for classifying an audio signal

Publications (1)

Publication Number Publication Date
JP2005173569A true JP2005173569A (ja) 2005-06-30

Family

ID=34429357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004329133A Pending JP2005173569A (ja) 2003-11-12 2004-11-12 オーディオ信号の分類装置及び方法

Country Status (3)

Country Link
US (1) US20050131688A1 (ja)
EP (1) EP1531478A1 (ja)
JP (1) JP2005173569A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007121456A (ja) * 2005-10-25 2007-05-17 Sony Corp 情報処理装置、情報処理方法、およびプログラム
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8581700B2 (en) 2006-02-28 2013-11-12 Panasonic Corporation Wearable device
JP2014511165A (ja) * 2011-03-04 2014-05-12 クゥアルコム・インコーポレイテッド 類似のサウンド環境においてモバイルデバイスを識別するための方法および装置
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP4239109B2 (ja) 2006-10-20 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
WO2008091947A2 (en) * 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
EP1975866A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for recommending content items
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
GB2451419A (en) * 2007-05-11 2009-02-04 Audiosoft Ltd Processing audio data
EP2101501A1 (en) * 2008-03-10 2009-09-16 Sony Corporation Method for recommendation of audio
WO2010019831A1 (en) 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
JP2010152081A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 話者適応装置及びそのプログラム
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US8233999B2 (en) * 2009-08-28 2012-07-31 Magix Ag System and method for interactive visualization of music properties
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012098425A1 (en) * 2011-01-17 2012-07-26 Nokia Corporation An audio scene processing apparatus
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US20130006633A1 (en) * 2011-07-01 2013-01-03 Qualcomm Incorporated Learning speech models for mobile device users
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
JP6140579B2 (ja) * 2012-09-05 2017-05-31 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US20150310869A1 (en) * 2012-12-13 2015-10-29 Nokia Corporation Apparatus aligning audio signals in a shared audio scene
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US10381042B2 (en) * 2014-11-14 2019-08-13 Samsung Electronics Co., Ltd. Method and system for generating multimedia clip
US10068445B2 (en) * 2015-06-24 2018-09-04 Google Llc Systems and methods of home-specific sound event detection
US10585121B2 (en) * 2016-09-12 2020-03-10 Tektronix, Inc. Recommending measurements based on detected waveform type
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN110189769B (zh) * 2019-05-23 2021-11-19 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN113488055B (zh) * 2020-04-28 2024-03-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
WO2023154395A1 (en) * 2022-02-14 2023-08-17 Worcester Polytechnic Institute Methods for verifying integrity and authenticity of a printed circuit board

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
DE19929462A1 (de) * 1999-06-26 2001-02-22 Philips Corp Intellectual Pty Verfahren zum Training eines automatischen Spracherkenners
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
DE60217484T2 (de) * 2001-05-11 2007-10-25 Koninklijke Philips Electronics N.V. Schätzung der signalleistung in einem komprimierten audiosignal
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007121456A (ja) * 2005-10-25 2007-05-17 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US7738982B2 (en) 2005-10-25 2010-06-15 Sony Corporation Information processing apparatus, information processing method and program
US8581700B2 (en) 2006-02-28 2013-11-12 Panasonic Corporation Wearable device
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
JP2014511165A (ja) * 2011-03-04 2014-05-12 クゥアルコム・インコーポレイテッド 類似のサウンド環境においてモバイルデバイスを識別するための方法および装置
US9143571B2 (en) 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US9911436B2 (en) 2013-09-02 2018-03-06 Honda Motor Co., Ltd. Sound recognition apparatus, sound recognition method, and sound recognition program

Also Published As

Publication number Publication date
US20050131688A1 (en) 2005-06-16
EP1531478A1 (en) 2005-05-18

Similar Documents

Publication Publication Date Title
JP2005173569A (ja) オーディオ信号の分類装置及び方法
US8635065B2 (en) Apparatus and method for automatic extraction of important events in audio signals
US6819863B2 (en) System and method for locating program boundaries and commercial boundaries using audio categories
KR101109023B1 (ko) 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
EP1531626B1 (en) Automatic summarisation for a television programme suggestion engine based on consumer preferences
JP4300697B2 (ja) 信号処理装置及び方法
US8068719B2 (en) Systems and methods for detecting exciting scenes in sports video
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
KR20050014866A (ko) 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법
WO2007004110A2 (en) System and method for the alignment of intrinsic and extrinsic audio-visual information
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
US7962330B2 (en) Apparatus and method for automatic dissection of segmented audio signals
US20060224616A1 (en) Information processing device and method thereof
JP3757719B2 (ja) 音響データ分析方法及びその装置
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
Iwan et al. Temporal video segmentation: detecting the end-of-act in circus performance videos
CN101355673B (zh) 信息处理装置和信息处理方法
EP1542206A1 (en) Apparatus and method for automatic classification of audio signals
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP4884163B2 (ja) 音声分類装置
Jain et al. Audio-Visual Contents Based Movies Characterization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110628