JP2005518001A - モジュール式インテリジェントマルチメディア解析システム - Google Patents

モジュール式インテリジェントマルチメディア解析システム Download PDF

Info

Publication number
JP2005518001A
JP2005518001A JP2003502745A JP2003502745A JP2005518001A JP 2005518001 A JP2005518001 A JP 2005518001A JP 2003502745 A JP2003502745 A JP 2003502745A JP 2003502745 A JP2003502745 A JP 2003502745A JP 2005518001 A JP2005518001 A JP 2005518001A
Authority
JP
Japan
Prior art keywords
algorithm
classification
data
task
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003502745A
Other languages
English (en)
Inventor
イニング・デン
エレナ・テシク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2005518001A publication Critical patent/JP2005518001A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ファイルクラスの割り振りに関して高レベルの信頼性を提供する。
【解決手段】 デジタル画像等の非テキスト対象データ14をカテゴリ分けするシステムおよび方法は、コンテンツベースデータおよびメタデータ16を利用して分類タスクの結果を決定する。分類システム10は、アルゴリズム関数を含む特定の関数を実行するように構成されたモジュールをシステム10に対して統合または削除する。分類システム10のシステム判定モジュールは、(1)タスクツリー構成内に配置された複数の分類タスクを有するタスク構成要素と、(2)分類タスクにアルゴリズムを選択するアルゴリズム構成要素と、(3)アルゴリズムそれぞれにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素と、(4)ある配置のタスクツリーおよび分類タスクを構築し、その配置を変更する学習構成要素とを含む。

Description

本発明は、包括的に非テキスト対象データの分類に関し、特に、クラスラベルを使用して対象データをカテゴリ分けするシステムおよび方法に関する。
消費者用途(たとえば、デジタルカメラおよびインターネットベースのサポート)におけるイメージング技術の普及に伴い、デジタル化された写真アルバム、およびビデオファイル等、他のマルチメディアコンテンツをパーソナルコンピュータ(PC)に格納することがますます一般的になってきている。
マルチメディアコンテンツをカテゴリ分けするにはいくつかの手法が知られている。
一手法は、初期のイベントから最も新しいイベントへと年代順にコンテンツ(たとえば、画像)を編成するというものである。
別の手法は、バカンスまたは好きなペット等、関心のある話題でコンテンツを編成するというものである。
カテゴリ分けするコンテンツの数が比較的少ないものと仮定すると、ボリュームを容易に管理することができるため、2つの手法のいずれの利用も実用的である。
あまり従来的ではない手法では、カテゴリ分けが、編成するマルチメディアのコンテンツを解析するイネーブリング技術を用いて実行される。
この手法は、カテゴリ分けする画像を含むコンテンツのボリュームがかなり大きい場合があるビジネスおよび企業に有用でありうる。
コンテンツ解析技術を利用して画像をカテゴリ分けする代表的な手段は、画像の属性を記述するクラスラベル(すなわち、意味論的な記述)を使用してデータを識別するというものである。
適宜分類により、サーチソフトウェアは、識別されたクラスラベルとクエリを突き合わせることによって画像を効果的にサーチすることができる。
一例として、ハワイのサンディ(sandy)ビーチに沿った日没の画像の分類としては、クラスラベル日没、ビーチ、およびハワイを挙げることができる。
分類に続き、これら記述のいずれか1つを、サーチ動作中にクエリとして入力することができる。
デジタル画像、ビデオ、およびオーディオの各ファイルの分類をよりよくするため、コンテンツベース処理に多大な研究努力が払われてきた。
コンテンツベース処理では、アルゴリズムまたはアルゴリズムのセットが実施されてファイルのコンテンツが解析され、それによって適当な識別クラスをファイルに関連付けることができる。
コンテンツ類似度、色分散比較、およびコントラスト解析を行うことができる。
色分散解析の場合、ブロックベースのカラーヒストグラム相関方法を連続した画像間で実行して、イベント境界での画像の色類似度を求めることができる。
他の種類のコンテンツベース処理では、屋内/屋外の分類、都市/風景の分類、日没/日中の分類、顔検出分類等の決定が可能である。
不都合なことに、多くのコンテンツベースのアルゴリズムは、多種多様な画像属性を有する写真品質画像を分類するには適していない。
さらに、多くの研究グループは、各属性に対応する画像カテゴリの大半を分類することが可能な、完全なシステムを構築するに十分な資源を保有していない。
むしろ、研究グループが構築できるのは、少数の属性にのみ焦点を合わせた少数分類方法に焦点を合わせたシステムのみである。
たとえば、色、テクスチャ、形状、動き等、多くの視覚的特徴記述子がMPEG−7において標準化されているが、コンテンツベース処理では少数の記述子しか利用されていない。
必要とされるのは、ファイルクラスの割り振りに関して高レベルの信頼性を提供するファイルカテゴリ分けシステムおよび方法である。
[発明の概要]
本発明は、記述的なクラスラベル(すなわち、意味論的な記述または「記述子」)に基づいて非テキスト対象データをカテゴリ分けするシステムおよび方法である。
本システムはシステムモジュールおよび非システムモジュールを有し、より効果的な分類関数を提供する新しいモジュールをシステムに統合することができるとともに、あまり効果的ではない分類関数を提供する既存のモジュールをシステムから削除することができる。
分類システムの中心にはシステム判定モジュールがあり、システム判定モジュールは、(1)順次推移決定木に配置された複数の分類タスクを実行するタスク構成要素と、(2)分類タスクそれぞれにアルゴリズムを選択するアルゴリズム構成要素と、(3)アルゴリズムそれぞれにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素と、(4)データファイルセット内のクラスの割り振り頻度に基づいて、分類タスクの構成を変更する学習構成要素と、を含む。
分類システムは、システムウェブサービスモジュール、システムインタフェースモジュール、およびシステム入出力モジュールも含み、これらはすべて主に通信目的で利用される。
さらに、分類システムは、複数の相互交換可能な非システムモジュールを含む。
各非システムモジュールは、分類タスクの数学的関数を実行するサブアルゴリズムルーチンを含む。
分類方式は、記録装置によって非テキスト対象データを取り込むことから始まる。
装置がデジタルカメラである好ましい実施形態では、デジタル画像ファイルが取り込まれ、非テキスト対象データの取り込み中の記録装置を取り巻く状況条件(たとえば、日時)に特有のメタデータが記録される。
画像ファイルは、画像にタスクツリー構成中の順次推移決定木中の一連の分類タスクを受けさせることによって、選択されたクラスに基づいてカテゴリ分けされる。
推移の順序は、システム判定モジュールのタスク構成要素によって決定される。
特定画像の記述として選択されたクラスラベルが、編成および後でその画像のサーチが行われるときのクエリ突き合わせに利用される。
分類タスクは、クラスを画像に割り振るべきか否かを判定するアルゴリズムを呼び出す、タスクツリー内のノードである。
コンテンツベースの解析、メタデータ解析、またはこれら2つの組み合わせを利用して、画像は、タスクツリーの各ノードにおいて、特定のクラスを画像に関連付ける(identify)ことができるか否かを判定する分類タスクを受ける。
各分類タスクは、アルゴリズム構成要素から選択されるアルゴリズムを含む。
本発明の一態様では、アルゴリズム選択肢の中からの選択が、タスクツリー内のそれまでのノードでのそれまでの判定に基づいて行われるアルゴリズム選択肢を有する分類タスクがある。
たとえば、画像が顔の特徴を含むか否かを判定する顔検出アルゴリズム選択肢があってよい。
画像が屋外シーンであるということがすでに判定されている場合、屋外シーンで顔の特徴を検出するに最も適した顔検出アルゴリズムが選択される。
各分類タスクに対応するアルゴリズムは、複数のサブアルゴリズムルーチンを含む。
各サブアルゴリズムルーチンは非システムモジュール内に格納される。
どのサブアルゴリズムルーチンを実行するかの選択は、システム判定モジュールのサブアルゴリズム構成要素によって決定される。
特定の分類クラスにクラスを識別することは、
(1)後続する解析に適したデータ空間に変換するサブアルゴリズムルーチンを画像に受けさせること、
(2)特徴作用素サブアルゴリズムルーチンを実行することであって、それにより対象画像の背景色に対応する値を推定する等、特徴作用素データを導き出す、実行すること、および
(3)ベイズ解析、ニューラルネットワーク解析、隠れマルコフモデル(HMM)等の分類サブアルゴリズムルーチンを利用して、特徴付けられたデータを分類すること、
を含む。
サブアルゴリズムルーチンは、システムインタフェースモジュールの制御構成要素を通して実行される。
後続するノードで使用する可能性があるサブアルゴリズムルーチンの中間結果、ならびに識別されたクラスが、システムインタフェースモジュールのデータ構成要素に格納される。
システム判定モジュールの学習構成要素により、順次推移決定木が確立される。
学習構成要素は命令およびフィードバックを収集して、オンライン実施中およびオフライントレーニング中の両方でデータマイニングにおいて見つけられる相関パターン技法の利用を含め、その他の3つの構成要素(すなわち、タスク構成要素、アルゴリズム構成要素、およびサブアルゴリズム構成要素)の規則を構築する。
分類システムの利点の1つは、任意の既存の関数が古くなった場合、より効果的な分類関数を有する新しいモジュールを分類システムに統合することが可能であり、したがってシステムを破棄する必要がないことである。
さらに、モジュール式の構造と、システムモジュールおよび非システムモジュールの間の接続性を提供することにより、システムは異なる場所で実施することが可能である。
[詳細な説明]
図1を参照すると、分類システム10は、非テキスト対象データ14のファイルおよび関連するメタデータ16のタグラインの両方を取り込む少なくとも1台の記録装置12を含む。
対象データおよびメタデータはモジュール式インテリジェントマルチメディア解析システム(MIMAS)18に転送されて、非テキスト対象データに関連するクラスラベル(すなわち、意味論的な記述)が識別される。
一実施形態では、非テキスト対象データは、デジタルカメラ22によって取り込まれるデジタル化された画像ファイル20である。
代替として、対象データはビデオレコーダ24によって取り込まれるビデオファイルである。
ファイルは、当分野において既知の手段(アルゴリズム)を使用して解析するために、データブロックに分割される。
非テキスト対象データ14の各ファイルとともに、非テキスト対象データの取り込み中の記録装置12を取り巻く状況条件(たとえば、日時)に特定のメタデータが記録される。
MIMAS18による分類は、デジタル信号処理(DSP)26を非テキスト対象データに適用すること、およびメタデータを考慮すること、を含む。
好ましい実施形態は非テキスト対象データ14をデジタル化画像として識別するが、アナログ記録装置からの非テキストアナログベースのデータを含む他の形態の取り込みデータも、以下に詳細に述べる技法を使用して分類することができる。
当分野において既知の手段により、アナログベースのデータは処理に先立ってデジタル化される。
対象データの取り込み中のアナログ記録装置を取り巻く状況条件に特定のメタデータは、操作者により手動で記録し入力することができる。
図2は、ユーザ28から分類要求(たとえば、対象画像)を受け入れるとともに、ユーザに結果(すなわち、クラスラベル)を返送するに先立って要求を解析するように構成されたMIMAS18を示す。
MIMASは、システムモジュールおよび非システムモジュールを含むモジュール式構造を有し、このモジュール式構造では、より効果的な分類関数を有する新しいモジュールをMIMASに統合することができるとともに、あまり効果的ではない分類関数を有する既存のモジュールをMIMASから削除することができる。
システムモジュールは、判定モジュール30、インタフェースモジュール32、ウェブサービスモジュール34、およびメディア入出力モジュール36を含む。
システム判定モジュール30はMIMASの主要構成要素であるため、補助的な機能を有するモジュール32、34、および36について最初に考察する。
システムインタフェースモジュール32は、すべてのモジュール間でデータ通信および伝送を行えるようにする。
システムインタフェースモジュールはデータ構成要素38および制御構成要素40を含む。
データ構成要素38は、対象データ、サブアルゴリズムルーチンの中間結果、および識別されたクラスについての格納およびメモリの管理を提供する。
制御構成要素40は、特定のサブアルゴリズムルーチンが常駐する非システムモジュール42を見つけ、サブアルゴリズムルーチンを指示して実行し、サブアルゴリズムルーチンに関連する値を判定モジュール30に返す。
システムウェブサービスモジュール34は、インターネットを通してエンドユーザから分類要求を受け入れ、結果をユーザに返送するに先立ってデータを解析することにより、フロントエンドユーザインタフェースをMIMAS18に提供する。
ウェブサービスモジュールは、開発者が新しいモジュールをMIMASに追加するためのバックエンドインタフェースを提供する。
システムメディア入出力モジュール36は、モジュール間でデータを読み書きすることによってファイル入出力を管理する。
MIMAS18は、複数の相互交換可能な非システムモジュール42も含む。
各非システムモジュールは、分類アルゴリズムにおけるサブアルゴリズムルーチンを含む。
MIMAS18の中心にはシステム判定モジュール30があり、システム判定モジュール30は、(1)順次推移決定木に配置された複数の分類タスクを実行するタスク構成要素44と、(2)各分類タスクにアルゴリズムを選択するアルゴリズム構成要素46と、(3)各アルゴリズムにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素48と、(4)データファイルセット内のクラスの割り振り頻度に基づいて、ある配置の分類タスク、アルゴリズム、およびサブアルゴリズムルーチンを構築し、またその配置を変更する学習構成要素50と、を含む。
図3を参照すると、分類方式は非テキスト対象データの取り込みから始まる。
記録装置12がデジタルカメラ22である実施形態では、デジタル画像ファイル20が、関連するメタデータ16とともに取り込まれる。
コンテンツベースデータ、メタデータ、またはこれら2つの組み合わせを利用して、データは、タスクツリー52内の操作によって決定される分類を受ける。
各分類タスクは、図2のシステム判定モジュール30のアルゴリズム構成要素46から選択されたアルゴリズムを含む。
図3のタスクツリー52を参照すると、画像20および添付されるメタデータ16が、第1順で屋外分類タスク54を受け、画像が屋外シーンの特徴を示しているか、それとも屋内シーンの特徴を示しているかが判定される。
各分類タスクはタスクノードに対応し、各タスクは3つの考えられる結果、すなわち性質状態(すなわち、はい56、いいえ58、または不明60)を有する。
しかしタスクは、2つのみの結果間の選択に制限してもよく、または4つ以上の考えられる結果を有してもよい。
判定ノードの結果がはいの場合、2つのイベントが続く。
第1に、画像に特定の値が関連付けられる。
ノード54の場合、値は屋外クラスに対応する。
第2に、画像が次の分類タスク、この場合では空分類タスク62に向けられる。
タスク62は、すでに関連付けられた屋外クラスに加えて、画像に空クラスを関連付けることができるか否かを判定する。
空分類タスク62によって画像が空を含むと判定された場合、日没分類タスク66が続く。
画像20が日没を含む場合、顔検出分類タスク66が続く。
分類方式は、タスクツリー52の「底」に達するまで続けられる。
解析を受ける画像には、複数のクラスを関連付けることができる。
タスクツリー52では、対象画像20に屋外クラス、空クラス、日没クラス、および顔クラスを関連付けることができる。
可能なクラスの数は、タスクツリーの分類方式の推移性によって決まる。
屋外分類タスク54に戻り、結果がいいえ58の場合、画像20に屋外クラスは関連付けられない。
続けて、画像は次の分類タスク、この場合では家屋分類タスク68に進み、画像が家屋を含むか否かが判定される。
家屋分類クラス68の結果がはいの場合、画像に家屋クラスが関連付けられる。
さらに、顔検出分類タスク70が続き、画像20が顔も含むか否かが検出される。
再び屋外分類タスク54に戻り、アルゴリズムの結果が不明60であると判定される(すなわち、タスク54の解析で、画像20が屋内で撮影されたものか、それとも屋外で撮影されたものかを判定することができない)場合、画像20のカテゴリ分けは考えられる第3の分類タスク72に向けられる。
このタスクはデフォルト(たとえば、画像が屋内環境のものであるか否かの判定専用のアルゴリズムを適用すること)であってもよく、または環境に関して中立的な判定ノードであってもよい。
図3のツリー52の実施態様では、図2のアルゴリズム構成要素46が、所与の分類タスク(すなわち、タスクノード)で実行するアルゴリズムを選択し、そのタスクでアルゴリズム処理を実行する。
単一タスクノードで2つ以上のアルゴリズムを利用することもできる。
アルゴリズム構成要素は、前の結果の情報等の要因に基づいて選択を行う。
したがって、1つの顔検出アルゴリズムを1種類のカメラに利用し、別の種類のカメラが対象画像の生成に使用された場合は異なる顔検出アルゴリズムを利用し、またカメラの種類に関して先験情報がない場合はデフォルトの顔検出アルゴリズムを利用してよい。
同様に、画像が屋外シーンのものであると判定された場合は第1の顔検出アルゴリズムを使用し、屋内シーンの場合は第2の顔検出アルゴリズムを使用してよい。
図4を参照して説明するように、アルゴリズムルックアップテーブル74は、各アルゴリズムについての情報要件を格納する際に使用することができる。
アルゴリズムルックアップテーブル74は、顔検出に特有のアルゴリズムセットを含む。
各アルゴリズムは別個であり、図3のタスクツリー52を通しての推移中に得られる先験情報に依存しうる。
たとえば、第2の顔検出アルゴリズムは、画像が日没を含んでいるため、顔検出分類タスク66に最も適したものとして識別される。
第3の顔検出アルゴリズムは、画像が家屋内部を含んでいるため、顔検出分類タスク70に最も適している。
最後に、第1の顔検出アルゴリズムは、どの分類子がそれまで指定されたかについての先験的な情報がまったくない状態の、最初の順序での最初の分類タスクである、顔検出分類タスクにおいて実施されるデフォルトアルゴリズムである。
アルゴリズムルックアップテーブルは、手動で、またはツリー構造中の各タスクノードのパフォーマンス情報を収集する、図2の学習構成要素50により更新することができる。
各分類タスクに対応するアルゴリズムは、複数のサブアルゴリズムルーチンを含む。
各サブアルゴリズムルーチンは、図2の非システムモジュール42内に格納されている。
実施するサブアルゴリズムルーチンの選択は、システム判定モジュール30のサブアルゴリズム構成要素48によって決定される。
たとえば、日没を有する屋外シーンがある画像の検出に適用可能な図4の第2の顔検出アルゴリズムは、データ変換、特徴作用素、および分類を含む複数のサブアルゴリズムルーチンを含む。
これらサブルーチンの1つは、別のアルゴリズムの構成要素であっても、または続くタスクで利用されるアルゴリズムであってよい。
サブルーチンの指定に加えて、サブアルゴリズム構成要素は、サブアルゴリズムルーチンの結果を図2のデータ構成要素38に格納する。
すなわち、同じ動作が再び実行される場合、サブアルゴリズム構成要素は後に再使用可能な中間結果を格納する。
図5は、データ変換サブアルゴリズムルーチン78の中間結果、特徴作用素サブアルゴリズムルーチン80の中間結果、および仮言的な分類サブアルゴリズムルーチン82に対応する値を格納する記憶領域を有するサブアルゴリズムルックアップテーブル76を示す。
結果は、後に必要になるという保証なしで自動的に格納される。
図6は、分類タスクのクラスを識別するプロセスの流れ図を示す。
すなわち、分類タスクのアルゴリズムを実施する際、クラスを識別するために、一連のステップまたはサブアルゴリズムルーチンが行われる。
ステップ84において、画像20がデータ変換サブアルゴリズムルーチンを受け、他の変換サブアルゴリズムルーチンからの画像データまたは結果が、画像特徴をより容易に探索することができる、適したデータ空間に変換される。
代表的なデータ変換サブアルゴリズムルーチンとしては、離散コサイン変換(DCT)、離散フーリエ変換(DFT)、ウェーブレット変換、色空間変換、ノイズフィルタリング、関心領域、エッジ検出、マルチ解像度手法等が挙げられる。
ステップ86において、ステップ84からの変換済データは特徴作用素サブアルゴリズムルーチンを受け、画像20に固有の特徴を決定する特徴作用素データが導き出される。
コンテンツ類似度、色分散比較、およびコントラスト解析を実行することができる。
これらサブアルゴリズムルーチンの多くは、ヒストグラム、積率、平均、およびしきい値等、データの統計学的分布を利用する。
画像ブロックに再構成されたピクセルデータを特徴ベクトルとして直接使用することができる。
一例として、ブロックベースのカラーヒストグラム相関サブルーチンを連続した画像間で実行して、画像シーケンスの色分散解析のためのイベント境界における画像の色の類似度を求めることができる。
ステップ88において、ステップ86からの特徴データが、ベイズ解析、ニューラルネットワーク解析、隠れマルコフモデル(HMM)、最尤(ML)法、遺伝的アルゴリズム、サポートベクトルマシン(SVM)、および多次元スケーリング等の分類サブアルゴリズムルーチンを利用して分類され、対象画像20に関連付けることのできるクラスが生成される。
図2に戻り、図2のシステム判定モジュール30の学習構成要素50が命令およびフィードバックを収集して、システム判定モジュール30のその他の3つの構成要素(すなわち、タスク構成要素44、アルゴリズム構成要素46、およびサブアルゴリズム構成要素48)の規則を構築する。
オフライントレーニングに加えて、学習構成要素は実際の使用期間中(すなわち、最初にタスクツリーを構成する処理後も)アクティブである。
学習構成要素は、システムパフォーマンスおよびその他の3つの構成要素44、46、および48からのフィードバックに基づいて、タスクツリーの分類タスクを監督・変更する。
学習構成要素は、入力対象画像へのクラスの割り振り頻度のカウントを保持する。
識別されるクラスの発生頻度に大幅な変更がある場合、学習構成要素は、それに従ってタスクの階層構造を変更し更新する。
さらに、負のフィードバック(すなわち、いいえの結果)を判定ノードにおいて受け取る分類タスクがある場合、学習構成要素は負のフィードバックを格納し、最終的に変更をツリー構造に組み込むことができる。
図2のタスク構成要素44の場合、順次推移決定木を決定する学習構成要素50によるタスクツリーの構築がまず、図7に示すように、トレーニング画像セット90から作成される。
タスクツリーおよびある分類タスクから次の分類タスクに導くパスに関する規則が、相関パターン技法を用いて構築される。
学習段階中、記録装置12(たとえば、デジタルカメラ22)を使用して、トレーニング画像セット90を取り込むとともに、メタデータ16を記録することができる。
トレーニング画像セット90は、以下の3つの方法の少なくとも1つに基づいて分類タスクを順次推移に並べるために使用される:(1)コンテンツベースの解析、(2)メタデータ解析、および(3)外部ユニットまたは人である操作者による少なくとも1つのクラスの指定。
各トレーニング画像には、画像のコンテンツおよび/または画像の取り込み中の記録装置12を取り巻く操作状況に関連するメタデータに応じて、少なくとも1つのクラスが関連付けられる。
図7のトレーニング画像セット90は限られた数のトレーニング画像のみを示しているが、タスクツリー内の順次推移決定木を作成するためのトレーニング画像ははるかに多数存在するであろう。
さらに、セットは多様なコンテンツの画像およびメタデータを含むであろう。
図8は、トレーニング画像1、2、3、4、・・・のセットおよび対応するクラスを有するトレーニング画像テーブル92を示す。
この例では、トレーニング画像1はクラスacdgfを含む。
クラス発生の統計学的確率の計算は学習プロセスのこの時点では行われていないため、クラスは特定の順序になっていない。
一例として、クラスaは屋外を表すことができ、cは砂を表すことができ、dは手を表すことができ、gはビーチを表すことができ、fは顔を表すことができる。
タスクツリーの順次推移の順序は、トレーニング画像セット90に関連する各種クラスの頻度分布を利用することによって決定される。
図9を参照すると、頻度分布テーブル94は、トレーニング画像セットに関連するすべてのクラスの頻度カウントを反映する。
発生の順序はafedgmc・・・である。
頻度分布は、発生カウントの最も高いものから発生カウントの最も低いものまで各クラスをランク付けすることによって導き出される。
例示的な実施形態では、クラスaは、トレーニング画像セット内で最も頻繁に出現することから最も高いカウントを有する。
クラスaに続くのはクラスfである。
ランク付けは、最後のクラスの位置が決定されるまで続けられる。
タスクツリーを形成する学習プロセスでの次のステップは、セット中のトレーニング画像それぞれのクラスをランク付けすることである。
すなわち、図8中のトレーニング画像1、2、3、4、・・・毎に、その画像に識別されたクラスがある順序に並べられる。
画像の列挙された識別子の順序は、より頻繁に現れるクラスが存在する場合に、列挙された特定のクラスが存在する統計学的確率に基づく。
すなわち、条件に他のクラスの有無が含まれる条件付き確率が計算される。
結果得られる順序テーブル96の一例を図10に示す。
「第1順」列98には、トレーニング画像毎に順序中の最初のクラスが識別される。
列98中で、識別された第1順のクラスには下線が付いている。
第1順クラスを選択するプロセスは、単に図9のテーブル94中の頻度カウントの参照であることができる。
したがって、クラスaが、クラスaにより表される特徴を含む各画像の第1順クラスとなる。
一方、特定の画像がクラスaの画像特徴を含まない場合、その画像が対応する特徴を含むならば、第1順クラスはクラスfになる。
例において、トレーニング画像1および4はクラスaをそれぞれの第1順クラスとして有するが、トレーニング画像2および3はクラスfをそれぞれの第1順クラスとして有する。
列98中の各リストの残りのクラスは特の順序になっていない。
列100において、第2順のクラスが条件付き確率に基づいて計算される。
ここでも、頻度パターン技法を採用することができる。
トレーニング画像1、2、3、4、・・・毎に、画像の第1順のクラスがある場合、第2順のクラスは、列挙される統計学的確率が最も高いクラスである。
「第2順」列100において、第1順および第2順のクラスは下線付きで示されているが、残りのクラスは特定の順序を有していない。
第3順クラスは、第1順および第2順のクラスが存在する場合、存在する統計学的確率が最も高い、リスト中のクラスである。
プロセスは、各リスト中のすべてのクラスが条件付き確率に基づいて並べられるまで続けられる。
図10において、最終順を列102に示す。
図11は、条件付き確率の部分的なテーブル104を示す。
行106中、クラスaに関連する特徴を含む画像の頻度パターンが、トレーニング画像セットに検出された頻度パターンを反映して列挙される。
行108は、クラスaおよびfを含む画像の頻度パターンを示す。
異なる行も、図9の頻度分布テーブル94と同じようにして決定される。
順序にいくらかの不一致が見られるが、この不一致は説明できるものである。
たとえば、クラスa、f、およびdがそれぞれ屋外、顔、および手という特徴に対応する場合、クラスdが、行106(顔を含むか否かに関わらず、すべての屋外画像を考慮する)よりも行108(屋外で撮影された、顔を含む画像のみを考慮する)においてより高くランク付けされていることを理解することができる。
図9、図10、および図11を参照して説明したテーブルを構築するにあたり行われる学習は、図12に示すもの等、効果的なタスクツリー110の設計に使用することができる。
タスクツリーは最も頻繁に現れるクラスaから始まる。
aが「真」の場合、次のタスクはf分類タスクであり、これは図11のテーブル104中の行106と一致する。
一方、aが「いいえ」の場合でも次のタスクはf分類タスクであるが、異なる「fアルゴリズム」を使用することができ、後続パターンは異なる。
図2のアルゴリズム構成要素46の場合、学習構成要素50は各分類タスクに最適なアルゴリズムを選択する。
一例として図4を参照すると、特定の第1、第2、および第3の顔検出アルゴリズムが、特定の環境(すなわち、デフォルト、日没、または家屋内部)内での顔検出に最も適しているものとして識別される。
特定の環境に対応する特定の顔検出アルゴリズムの識別は、操作者により手動で、または各分類タスクのパフォーマンス情報を収集する自動学習技法により実行・更新することができる。
さらに、学習構成要素50は各アルゴリズムに最適なサブアルゴリズムルーチンを識別する。
識別は、分類サブアルゴリズムルーチンステップ88において識別された学習サブアルゴリズムルーチンを利用して、図6のデータ変換サブアルゴリズムルーチンステップ84および特徴作用素サブアルゴリズムルーチンステップ86の後の学習ステップ(図示せず)において行われる。
ここでも、アルゴリズムのサブアルゴリズムルーチンの識別は、操作者により手動で、または各アルゴリズムのパフォーマンス情報を収集する自動学習技法により実行・更新することができる。
非テキスト対象データをカテゴリ分けする分類システムの動作を図13に順次示す。
ステップ112において、タスクツリー110を利用した順次推移決定木がMIMAS18によって生成される。
タスクツリーは複数のノードを含み、各ノードは分類タスクを実行するように構成される。
各分類タスクは、コンテンツ解析および/またはメタデータ解析に基づいてクラスが対象データに割り振られるか否かを判定する。
ステップ114において、解析のために、分類システムが非テキスト対象データおよびメタデータを受け取る。
ステップ116において、対象データが、ステップ112によって決定された順次推移決定木に沿ってデータを推移させることによって解析される。
非テキスト対象データを取り込むとともにメタデータを記録する記録装置、および本発明による対象データを分類するモジュール式インテリジェントマルチメディア解析システム(MIMAS)を含む分類システムのブロック図である。 システムモジュールおよび非システムモジュールを含むモジュール式構造を有する図1のMIMASの概略図である。 順次推移決定木に利用されるタスク構成要素のタスクツリーの概略図である。 顔検出に特有のアルゴリズムセットのアルゴリズムルックアップテーブルの図である。 中間結果および分類タスクに対応する値を格納する格納モジュールを有するサブアルゴリズムルックアップテーブルの図である。 分類タスクのクラスを識別するプロセスの流れ図である。 トレーニング画像セットから順次推移決定木を作成する学習構成要素のブロック図である。 図7のトレーニング画像セットおよび各画像に特定の対応クラスを有するトレーニング画像テーブルの図である。 図7のトレーニング画像セットに関連するすべてのクラスの頻度分布を有する頻度分布テーブルの図である。 図7のトレーニング画像の分類タスクの順序を示す、結果得られる順序テーブルの図である。 分類タスクの順序を示す部分的なテーブルの図である。 順次推移決定木を有するタスクツリーの概略図である。 非テキストデータをカテゴリ分けするプロセスの流れ図である。
符号の説明
10・・・分類システム、
12・・・記録装置、
14・・・対象データ、
16・・・メタデータ、
18・・・モジュール式インテリジェントマルチメディア解析システム(MIMAS)、20・・・画像ファイル、
22・・・デジタルカメラ、
24・・・ビデオレコーダ、
26・・・デジタル信号処理(DSP)、
28・・・ユーザ、
30・・・判定モジュール、
32・・・インタフェースモジュール、
34・・・ウェブサービス、
36・・・メディア入出力、
38・・・データ構成要素、
40・・・制御構成要素、
42・・・非システムモジュール、
44・・・タスク、
46・・・アルゴリズム、
48・・・サブアルゴリズム、
50・・・学習、

Claims (10)

  1. 非テキスト対象データ(14)のファイルを分類するシステムであって、システム判定モジュール(30)を備え、該システム判定モジュール(30)は、
    (a)順次推移決定木(112)に配置された複数の分類タスク(54、62、64、66、68、および70)を有するタスク構成要素(44)であって、前記順次推移決定木(112)はクラスを割り振る複数の分類ノードを含み、該分類ノードの少なくともいくつかは、前記順次推移決定木(112)において複数の次の分類ノード選択肢のいずれに遭遇するかを決定するアルゴリズムを含むタスク構成要素(44)と、
    (b)前記分類タスク(54、62、64、66、68、および70)それぞれにアルゴリズムを選択するアルゴリズム構成要素(46)であって、前記アルゴリズムは、コンテンツベースデータを処理するコンテンツベースの解析およびメタデータ(16)を処理するメタデータ解析のうちの少なくとも一方を実行するように構成されるアルゴリズム構成要素(46)と、
    (c)前記アルゴリズムに少なくとも1つのサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素(48)であって、前記サブアルゴリズムルーチンは前記アルゴリズムの前記選択に基づいて選択されるサブアルゴリズム構成要素(48)と、
    (d)前記クラスが前記非テキスト対象データ(14)のファイルに割り振られる頻度の決定に従って、前記分類タスク(54、62、64、66、68、および70)の配置を変更する学習構成要素(50)と
    を備えた非テキスト対象データのファイルを分類するシステム。
  2. 前記システム判定モジュール(30)に、インターネットアクセスを提供するシステムウェブサービスモジュール(34)
    をさらに備えた
    請求項1に記載の非テキスト対象データのファイルを分類するシステム。
  3. 複数のシステムモジュール(30、34、および36)および非システムモジュール(42)の間に通信を提供するシステムインタフェースモジュール(32)
    をさらに備え、
    前記システムモジュール(30、34、および36)の1つは、前記システム判定モジュール(30)である
    請求項1または2記載の非テキスト対象データのファイルを分類するシステム。
  4. 前記非システムモジュール(42)はそれぞれ、
    少なくとも1つの前記サブアルゴリズムルーチン(78、80、および82)
    を含む
    請求項1〜3のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  5. 前記システムインタフェースモジュール(32)は、
    前記非テキスト対象データ(14)の複数の前記ファイルの分類に関連するデータを格納するデータ構成要素(38)と、
    前記サブアルゴリズムルーチン(78、80、および82)を実行する少なくとも1つの制御構成要素(40)と
    をさらに含む
    請求項1〜3のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  6. 前記非テキスト対象データ(14)を複数のモジュール(30、32、34、および42)の間で読み書きすることによって、前記データ(14)の分類に関連するデータを管理するメディア入出力モジュール(36)
    をさらに備えた請求項1〜5のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  7. 前記学習構成要素(50)は、
    前記分類タスクそれぞれにアルゴリズムを識別するとともに、該アルゴリズムに少なくとも1つのサブアルゴリズムルーチン(78、80、および82)を識別するように構成される
    請求項1〜3,6のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  8. 前記コンテンツベースデータを取り込むとともに、前記メタデータ(16)を記録するように構成されたデータ取り込み装置(12)
    をさらに備え、
    前記コンテンツベースデータは、前記対象データのファイルのコンテンツ情報に対応し、
    前記メタデータ(16)は、前記対象データ(14)の取り込み中の前記取り込み装置(12)の状況的環境データに対応する
    請求項1〜7のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  9. 前記タスク構成要素(44)は、
    前記順次推移決定木(112)を通して前記ファイルを推移させるように構成され、
    少なくとも部分的に、前記順次推移決定木(112)においてそれまで遭遇した前記分類ノードにおけるそれまでの判定に基づいて、前記順次推移決定木(112)において次の分類ノード選択肢のいずれに遭遇するかを決定する手段
    を含む
    請求項1〜3,6,8のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
  10. 前記学習構成要素(50)は、
    前記順次推移決定木(112)を確立するように構成され、
    自動処理技法を使用して前記分類ノードの従属配置を定める手段を含み、前記ノードはそれぞれ前記ファイルを分類するクラスに関連する
    請求項1〜3,6,8のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
JP2003502745A 2001-06-05 2002-05-31 モジュール式インテリジェントマルチメディア解析システム Pending JP2005518001A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/875,434 US20020183984A1 (en) 2001-06-05 2001-06-05 Modular intelligent multimedia analysis system
PCT/US2002/017825 WO2002099703A2 (en) 2001-06-05 2002-05-31 Modular intelligent multimedia analysis system

Publications (1)

Publication Number Publication Date
JP2005518001A true JP2005518001A (ja) 2005-06-16

Family

ID=25365794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003502745A Pending JP2005518001A (ja) 2001-06-05 2002-05-31 モジュール式インテリジェントマルチメディア解析システム

Country Status (6)

Country Link
US (2) US20020183984A1 (ja)
EP (1) EP1419458A2 (ja)
JP (1) JP2005518001A (ja)
AU (1) AU2002305841A1 (ja)
TW (1) TWI223171B (ja)
WO (1) WO2002099703A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007317168A (ja) * 2006-03-30 2007-12-06 Sony France Sa ハイブリッドオーディオビジュアル分類システム及び方法
JP2009527930A (ja) * 2006-01-13 2009-07-30 ニュー ジャージー インスティテュート オブ テクノロジー 周波数領域係数差分に少なくとも部分的に基づいてマーク付き画像を識別する方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6882793B1 (en) 2000-06-16 2005-04-19 Yesvideo, Inc. Video processing system
US6977679B2 (en) 2001-04-03 2005-12-20 Hewlett-Packard Development Company, L.P. Camera meta-data for content categorization
US7496528B2 (en) * 2001-12-27 2009-02-24 Proto Labs, Inc. Automated quoting of molds and molded parts
US7904501B1 (en) 2002-07-23 2011-03-08 Accenture Global Services Limited Community of multimedia agents
US8140569B2 (en) * 2003-05-29 2012-03-20 Microsoft Corporation Dependency network based model (or pattern)
FR2844079B1 (fr) * 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US8724140B2 (en) * 2004-10-08 2014-05-13 Bell And Howell, Llc Print stream processing module optimizer for document processing
WO2006112652A1 (en) * 2005-04-18 2006-10-26 Samsung Electronics Co., Ltd. Method and system for albuming multimedia using albuming hints
JP4944391B2 (ja) * 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
US8214310B2 (en) * 2005-05-18 2012-07-03 International Business Machines Corporation Cross descriptor learning system, method and program product therefor
WO2007010187A1 (en) * 2005-07-22 2007-01-25 British Telecommunications Public Limited Company Data handling system
US8442841B2 (en) * 2005-10-20 2013-05-14 Matacure N.V. Patient selection method for assisting weight loss
US8224017B2 (en) * 2006-01-13 2012-07-17 New Jersey Institute Of Technology Method for identifying marked content
US7925080B2 (en) * 2006-01-13 2011-04-12 New Jersey Institute Of Technology Method for identifying marked images based at least in part on frequency domain coefficient differences
BRPI0605994B1 (pt) * 2006-09-29 2019-08-06 Universidade Estadual De Campinas - Unicamp Processo de randomização progressiva para análise e raciocínio em multimídia
US20080089591A1 (en) * 2006-10-11 2008-04-17 Hui Zhou Method And Apparatus For Automatic Image Categorization
US8023747B2 (en) * 2007-02-09 2011-09-20 New Jersey Institute Of Technology Method and apparatus for a natural image model based approach to image/splicing/tampering detection
TWI417804B (zh) * 2010-03-23 2013-12-01 Univ Nat Chiao Tung 樂曲分類方法及樂曲分類系統
US9641572B1 (en) 2012-05-17 2017-05-02 Google Inc. Generating a group photo collection
US10691743B2 (en) * 2014-08-05 2020-06-23 Sri International Multi-dimensional realization of visual content of an image collection
TWI591573B (zh) 2016-08-25 2017-07-11 Auxiliary recommended methods
US20190156200A1 (en) * 2017-11-17 2019-05-23 Aivitae LLC System and method for anomaly detection via a multi-prediction-model architecture
CN110659125A (zh) * 2018-06-28 2020-01-07 杭州海康威视数字技术股份有限公司 一种分析任务执行方法、装置、系统及电子设备
CN109101547B (zh) * 2018-07-05 2021-11-12 北京泛化智能科技有限公司 用于野生动物的管理方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901360A (en) * 1987-10-23 1990-02-13 Hughes Aircraft Company Gated architecture for computer vision machine
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
EP0693200B1 (de) * 1993-04-10 1997-07-09 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Verfahren zur klassifizierung von objekten
US5793888A (en) * 1994-11-14 1998-08-11 Massachusetts Institute Of Technology Machine learning apparatus and method for image searching
US5872865A (en) * 1995-02-08 1999-02-16 Apple Computer, Inc. Method and system for automatic classification of video images
US5778384A (en) * 1995-12-22 1998-07-07 Sun Microsystems, Inc. System and method for automounting and accessing remote file systems in Microsoft Windows in a networking environment
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5719960A (en) * 1996-06-26 1998-02-17 Canon Kabushiki Kaisha System for dispatching task orders into a user network and method
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US5920856A (en) * 1997-06-09 1999-07-06 Xerox Corporation System for selecting multimedia databases over networks
US6278961B1 (en) * 1997-07-02 2001-08-21 Nonlinear Solutions, Inc. Signal and pattern detection or classification by estimation of continuous dynamical models
US6269353B1 (en) * 1997-11-26 2001-07-31 Ishwar K. Sethi System for constructing decision tree classifiers using structure-driven induction
US6396963B2 (en) * 1998-12-29 2002-05-28 Eastman Kodak Company Photocollage generation and modification
US6977679B2 (en) * 2001-04-03 2005-12-20 Hewlett-Packard Development Company, L.P. Camera meta-data for content categorization

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527930A (ja) * 2006-01-13 2009-07-30 ニュー ジャージー インスティテュート オブ テクノロジー 周波数領域係数差分に少なくとも部分的に基づいてマーク付き画像を識別する方法
JP4920045B2 (ja) * 2006-01-13 2012-04-18 ニュー ジャージー インスティチュート オブ テクノロジー 周波数領域係数差分に少なくとも部分的に基づいてマーク付き画像を識別する方法
JP2007317168A (ja) * 2006-03-30 2007-12-06 Sony France Sa ハイブリッドオーディオビジュアル分類システム及び方法

Also Published As

Publication number Publication date
EP1419458A2 (en) 2004-05-19
WO2002099703A3 (en) 2004-03-18
WO2002099703A2 (en) 2002-12-12
TWI223171B (en) 2004-11-01
US20020183984A1 (en) 2002-12-05
US20070094226A1 (en) 2007-04-26
AU2002305841A1 (en) 2002-12-16

Similar Documents

Publication Publication Date Title
JP2005518001A (ja) モジュール式インテリジェントマルチメディア解析システム
US20020140843A1 (en) Camera meta-data for content categorization
JP5934653B2 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
US9672217B2 (en) System and methods for generation of a concept based database
JP5576384B2 (ja) データ処理装置
US8107689B2 (en) Apparatus, method and computer program for processing information
EP1999753B1 (en) Video abstraction
CN110235138A (zh) 用于外观搜索的系统和方法
US20070195344A1 (en) System, apparatus, method, program and recording medium for processing image
US8170343B2 (en) Method and system for searching images with figures and recording medium storing metadata of image
EP2005364A2 (en) Image classification based on a mixture of elliptical color models
EP2168064A1 (en) System and method of saving digital content classified by person-based clustering
Blasch et al. Dynamic data-driven application system (DDDAS) for video surveillance user support
Pigeau et al. Building and tracking hierarchical geographical & temporal partitions for image collection management on mobile devices
Mai et al. Content-based image retrieval system for an image gallery search application
CN112115281A (zh) 数据检索方法、装置及存储介质
JP2007304771A (ja) 被写体認識装置、被写体認識プログラム、および画像検索サービス提供方法
Ciocca et al. Supervised and unsupervised classification post-processing for visual video summaries
Ardizzone et al. Multifeature image and video content-based storage and retrieval
CN112287153B (zh) 图像搜寻方法、装置、系统及可编程逻辑器件
US20230394081A1 (en) Video classification and search system to support customizable video highlights
Dias Optimized video retrieval for interior vehicle monitoring
Dai Class-based image representation for Kansei retrieval considering semantic tolerance relation
JP2000339352A (ja) 知覚的顕在特徴に基づく画像のアーカイブ及び検索
Ley Mai et al. Content-based Image Retrieval System for an Image Gallery Search Application.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080801