JP2005518001A

JP2005518001A - モジュール式インテリジェントマルチメディア解析システム

Info

Publication number: JP2005518001A
Application number: JP2003502745A
Authority: JP
Inventors: イニング・デン; エレナ・テシク
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2001-06-05
Filing date: 2002-05-31
Publication date: 2005-06-16
Also published as: EP1419458A2; WO2002099703A3; WO2002099703A2; TWI223171B; US20020183984A1; US20070094226A1; AU2002305841A1

Abstract

【課題】ファイルクラスの割り振りに関して高レベルの信頼性を提供する。
【解決手段】デジタル画像等の非テキスト対象データ１４をカテゴリ分けするシステムおよび方法は、コンテンツベースデータおよびメタデータ１６を利用して分類タスクの結果を決定する。分類システム１０は、アルゴリズム関数を含む特定の関数を実行するように構成されたモジュールをシステム１０に対して統合または削除する。分類システム１０のシステム判定モジュールは、（１）タスクツリー構成内に配置された複数の分類タスクを有するタスク構成要素と、（２）分類タスクにアルゴリズムを選択するアルゴリズム構成要素と、（３）アルゴリズムそれぞれにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素と、（４）ある配置のタスクツリーおよび分類タスクを構築し、その配置を変更する学習構成要素とを含む。

Description

本発明は、包括的に非テキスト対象データの分類に関し、特に、クラスラベルを使用して対象データをカテゴリ分けするシステムおよび方法に関する。

消費者用途（たとえば、デジタルカメラおよびインターネットベースのサポート）におけるイメージング技術の普及に伴い、デジタル化された写真アルバム、およびビデオファイル等、他のマルチメディアコンテンツをパーソナルコンピュータ（ＰＣ）に格納することがますます一般的になってきている。
マルチメディアコンテンツをカテゴリ分けするにはいくつかの手法が知られている。
一手法は、初期のイベントから最も新しいイベントへと年代順にコンテンツ（たとえば、画像）を編成するというものである。
別の手法は、バカンスまたは好きなペット等、関心のある話題でコンテンツを編成するというものである。
カテゴリ分けするコンテンツの数が比較的少ないものと仮定すると、ボリュームを容易に管理することができるため、２つの手法のいずれの利用も実用的である。

あまり従来的ではない手法では、カテゴリ分けが、編成するマルチメディアのコンテンツを解析するイネーブリング技術を用いて実行される。
この手法は、カテゴリ分けする画像を含むコンテンツのボリュームがかなり大きい場合があるビジネスおよび企業に有用でありうる。
コンテンツ解析技術を利用して画像をカテゴリ分けする代表的な手段は、画像の属性を記述するクラスラベル（すなわち、意味論的な記述）を使用してデータを識別するというものである。
適宜分類により、サーチソフトウェアは、識別されたクラスラベルとクエリを突き合わせることによって画像を効果的にサーチすることができる。
一例として、ハワイのサンディ(sandy)ビーチに沿った日没の画像の分類としては、クラスラベル日没、ビーチ、およびハワイを挙げることができる。
分類に続き、これら記述のいずれか１つを、サーチ動作中にクエリとして入力することができる。

デジタル画像、ビデオ、およびオーディオの各ファイルの分類をよりよくするため、コンテンツベース処理に多大な研究努力が払われてきた。
コンテンツベース処理では、アルゴリズムまたはアルゴリズムのセットが実施されてファイルのコンテンツが解析され、それによって適当な識別クラスをファイルに関連付けることができる。
コンテンツ類似度、色分散比較、およびコントラスト解析を行うことができる。
色分散解析の場合、ブロックベースのカラーヒストグラム相関方法を連続した画像間で実行して、イベント境界での画像の色類似度を求めることができる。
他の種類のコンテンツベース処理では、屋内／屋外の分類、都市／風景の分類、日没／日中の分類、顔検出分類等の決定が可能である。

不都合なことに、多くのコンテンツベースのアルゴリズムは、多種多様な画像属性を有する写真品質画像を分類するには適していない。
さらに、多くの研究グループは、各属性に対応する画像カテゴリの大半を分類することが可能な、完全なシステムを構築するに十分な資源を保有していない。
むしろ、研究グループが構築できるのは、少数の属性にのみ焦点を合わせた少数分類方法に焦点を合わせたシステムのみである。
たとえば、色、テクスチャ、形状、動き等、多くの視覚的特徴記述子がＭＰＥＧ−７において標準化されているが、コンテンツベース処理では少数の記述子しか利用されていない。

必要とされるのは、ファイルクラスの割り振りに関して高レベルの信頼性を提供するファイルカテゴリ分けシステムおよび方法である。

［発明の概要］
本発明は、記述的なクラスラベル（すなわち、意味論的な記述または「記述子」）に基づいて非テキスト対象データをカテゴリ分けするシステムおよび方法である。
本システムはシステムモジュールおよび非システムモジュールを有し、より効果的な分類関数を提供する新しいモジュールをシステムに統合することができるとともに、あまり効果的ではない分類関数を提供する既存のモジュールをシステムから削除することができる。
分類システムの中心にはシステム判定モジュールがあり、システム判定モジュールは、（１）順次推移決定木に配置された複数の分類タスクを実行するタスク構成要素と、（２）分類タスクそれぞれにアルゴリズムを選択するアルゴリズム構成要素と、（３）アルゴリズムそれぞれにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素と、（４）データファイルセット内のクラスの割り振り頻度に基づいて、分類タスクの構成を変更する学習構成要素と、を含む。

分類システムは、システムウェブサービスモジュール、システムインタフェースモジュール、およびシステム入出力モジュールも含み、これらはすべて主に通信目的で利用される。
さらに、分類システムは、複数の相互交換可能な非システムモジュールを含む。
各非システムモジュールは、分類タスクの数学的関数を実行するサブアルゴリズムルーチンを含む。

分類方式は、記録装置によって非テキスト対象データを取り込むことから始まる。
装置がデジタルカメラである好ましい実施形態では、デジタル画像ファイルが取り込まれ、非テキスト対象データの取り込み中の記録装置を取り巻く状況条件（たとえば、日時）に特有のメタデータが記録される。
画像ファイルは、画像にタスクツリー構成中の順次推移決定木中の一連の分類タスクを受けさせることによって、選択されたクラスに基づいてカテゴリ分けされる。
推移の順序は、システム判定モジュールのタスク構成要素によって決定される。
特定画像の記述として選択されたクラスラベルが、編成および後でその画像のサーチが行われるときのクエリ突き合わせに利用される。

分類タスクは、クラスを画像に割り振るべきか否かを判定するアルゴリズムを呼び出す、タスクツリー内のノードである。
コンテンツベースの解析、メタデータ解析、またはこれら２つの組み合わせを利用して、画像は、タスクツリーの各ノードにおいて、特定のクラスを画像に関連付ける(identify)ことができるか否かを判定する分類タスクを受ける。
各分類タスクは、アルゴリズム構成要素から選択されるアルゴリズムを含む。
本発明の一態様では、アルゴリズム選択肢の中からの選択が、タスクツリー内のそれまでのノードでのそれまでの判定に基づいて行われるアルゴリズム選択肢を有する分類タスクがある。
たとえば、画像が顔の特徴を含むか否かを判定する顔検出アルゴリズム選択肢があってよい。
画像が屋外シーンであるということがすでに判定されている場合、屋外シーンで顔の特徴を検出するに最も適した顔検出アルゴリズムが選択される。

各分類タスクに対応するアルゴリズムは、複数のサブアルゴリズムルーチンを含む。
各サブアルゴリズムルーチンは非システムモジュール内に格納される。
どのサブアルゴリズムルーチンを実行するかの選択は、システム判定モジュールのサブアルゴリズム構成要素によって決定される。
特定の分類クラスにクラスを識別することは、
（１）後続する解析に適したデータ空間に変換するサブアルゴリズムルーチンを画像に受けさせること、
（２）特徴作用素サブアルゴリズムルーチンを実行することであって、それにより対象画像の背景色に対応する値を推定する等、特徴作用素データを導き出す、実行すること、および
（３）ベイズ解析、ニューラルネットワーク解析、隠れマルコフモデル（ＨＭＭ）等の分類サブアルゴリズムルーチンを利用して、特徴付けられたデータを分類すること、
を含む。

サブアルゴリズムルーチンは、システムインタフェースモジュールの制御構成要素を通して実行される。
後続するノードで使用する可能性があるサブアルゴリズムルーチンの中間結果、ならびに識別されたクラスが、システムインタフェースモジュールのデータ構成要素に格納される。

システム判定モジュールの学習構成要素により、順次推移決定木が確立される。
学習構成要素は命令およびフィードバックを収集して、オンライン実施中およびオフライントレーニング中の両方でデータマイニングにおいて見つけられる相関パターン技法の利用を含め、その他の３つの構成要素（すなわち、タスク構成要素、アルゴリズム構成要素、およびサブアルゴリズム構成要素）の規則を構築する。

分類システムの利点の１つは、任意の既存の関数が古くなった場合、より効果的な分類関数を有する新しいモジュールを分類システムに統合することが可能であり、したがってシステムを破棄する必要がないことである。
さらに、モジュール式の構造と、システムモジュールおよび非システムモジュールの間の接続性を提供することにより、システムは異なる場所で実施することが可能である。

［詳細な説明］
図１を参照すると、分類システム１０は、非テキスト対象データ１４のファイルおよび関連するメタデータ１６のタグラインの両方を取り込む少なくとも１台の記録装置１２を含む。
対象データおよびメタデータはモジュール式インテリジェントマルチメディア解析システム（ＭＩＭＡＳ）１８に転送されて、非テキスト対象データに関連するクラスラベル（すなわち、意味論的な記述）が識別される。
一実施形態では、非テキスト対象データは、デジタルカメラ２２によって取り込まれるデジタル化された画像ファイル２０である。
代替として、対象データはビデオレコーダ２４によって取り込まれるビデオファイルである。

ファイルは、当分野において既知の手段（アルゴリズム）を使用して解析するために、データブロックに分割される。
非テキスト対象データ１４の各ファイルとともに、非テキスト対象データの取り込み中の記録装置１２を取り巻く状況条件（たとえば、日時）に特定のメタデータが記録される。
ＭＩＭＡＳ１８による分類は、デジタル信号処理（ＤＳＰ）２６を非テキスト対象データに適用すること、およびメタデータを考慮すること、を含む。

好ましい実施形態は非テキスト対象データ１４をデジタル化画像として識別するが、アナログ記録装置からの非テキストアナログベースのデータを含む他の形態の取り込みデータも、以下に詳細に述べる技法を使用して分類することができる。
当分野において既知の手段により、アナログベースのデータは処理に先立ってデジタル化される。
対象データの取り込み中のアナログ記録装置を取り巻く状況条件に特定のメタデータは、操作者により手動で記録し入力することができる。

図２は、ユーザ２８から分類要求（たとえば、対象画像）を受け入れるとともに、ユーザに結果（すなわち、クラスラベル）を返送するに先立って要求を解析するように構成されたＭＩＭＡＳ１８を示す。
ＭＩＭＡＳは、システムモジュールおよび非システムモジュールを含むモジュール式構造を有し、このモジュール式構造では、より効果的な分類関数を有する新しいモジュールをＭＩＭＡＳに統合することができるとともに、あまり効果的ではない分類関数を有する既存のモジュールをＭＩＭＡＳから削除することができる。
システムモジュールは、判定モジュール３０、インタフェースモジュール３２、ウェブサービスモジュール３４、およびメディア入出力モジュール３６を含む。
システム判定モジュール３０はＭＩＭＡＳの主要構成要素であるため、補助的な機能を有するモジュール３２、３４、および３６について最初に考察する。

システムインタフェースモジュール３２は、すべてのモジュール間でデータ通信および伝送を行えるようにする。
システムインタフェースモジュールはデータ構成要素３８および制御構成要素４０を含む。
データ構成要素３８は、対象データ、サブアルゴリズムルーチンの中間結果、および識別されたクラスについての格納およびメモリの管理を提供する。
制御構成要素４０は、特定のサブアルゴリズムルーチンが常駐する非システムモジュール４２を見つけ、サブアルゴリズムルーチンを指示して実行し、サブアルゴリズムルーチンに関連する値を判定モジュール３０に返す。

システムウェブサービスモジュール３４は、インターネットを通してエンドユーザから分類要求を受け入れ、結果をユーザに返送するに先立ってデータを解析することにより、フロントエンドユーザインタフェースをＭＩＭＡＳ１８に提供する。
ウェブサービスモジュールは、開発者が新しいモジュールをＭＩＭＡＳに追加するためのバックエンドインタフェースを提供する。
システムメディア入出力モジュール３６は、モジュール間でデータを読み書きすることによってファイル入出力を管理する。

ＭＩＭＡＳ１８は、複数の相互交換可能な非システムモジュール４２も含む。
各非システムモジュールは、分類アルゴリズムにおけるサブアルゴリズムルーチンを含む。

ＭＩＭＡＳ１８の中心にはシステム判定モジュール３０があり、システム判定モジュール３０は、（１）順次推移決定木に配置された複数の分類タスクを実行するタスク構成要素４４と、（２）各分類タスクにアルゴリズムを選択するアルゴリズム構成要素４６と、（３）各アルゴリズムにサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素４８と、（４）データファイルセット内のクラスの割り振り頻度に基づいて、ある配置の分類タスク、アルゴリズム、およびサブアルゴリズムルーチンを構築し、またその配置を変更する学習構成要素５０と、を含む。

図３を参照すると、分類方式は非テキスト対象データの取り込みから始まる。
記録装置１２がデジタルカメラ２２である実施形態では、デジタル画像ファイル２０が、関連するメタデータ１６とともに取り込まれる。
コンテンツベースデータ、メタデータ、またはこれら２つの組み合わせを利用して、データは、タスクツリー５２内の操作によって決定される分類を受ける。
各分類タスクは、図２のシステム判定モジュール３０のアルゴリズム構成要素４６から選択されたアルゴリズムを含む。

図３のタスクツリー５２を参照すると、画像２０および添付されるメタデータ１６が、第１順で屋外分類タスク５４を受け、画像が屋外シーンの特徴を示しているか、それとも屋内シーンの特徴を示しているかが判定される。
各分類タスクはタスクノードに対応し、各タスクは３つの考えられる結果、すなわち性質状態（すなわち、はい５６、いいえ５８、または不明６０）を有する。
しかしタスクは、２つのみの結果間の選択に制限してもよく、または４つ以上の考えられる結果を有してもよい。
判定ノードの結果がはいの場合、２つのイベントが続く。
第１に、画像に特定の値が関連付けられる。
ノード５４の場合、値は屋外クラスに対応する。
第２に、画像が次の分類タスク、この場合では空分類タスク６２に向けられる。
タスク６２は、すでに関連付けられた屋外クラスに加えて、画像に空クラスを関連付けることができるか否かを判定する。
空分類タスク６２によって画像が空を含むと判定された場合、日没分類タスク６６が続く。
画像２０が日没を含む場合、顔検出分類タスク６６が続く。
分類方式は、タスクツリー５２の「底」に達するまで続けられる。

解析を受ける画像には、複数のクラスを関連付けることができる。
タスクツリー５２では、対象画像２０に屋外クラス、空クラス、日没クラス、および顔クラスを関連付けることができる。
可能なクラスの数は、タスクツリーの分類方式の推移性によって決まる。

屋外分類タスク５４に戻り、結果がいいえ５８の場合、画像２０に屋外クラスは関連付けられない。
続けて、画像は次の分類タスク、この場合では家屋分類タスク６８に進み、画像が家屋を含むか否かが判定される。
家屋分類クラス６８の結果がはいの場合、画像に家屋クラスが関連付けられる。
さらに、顔検出分類タスク７０が続き、画像２０が顔も含むか否かが検出される。

再び屋外分類タスク５４に戻り、アルゴリズムの結果が不明６０であると判定される（すなわち、タスク５４の解析で、画像２０が屋内で撮影されたものか、それとも屋外で撮影されたものかを判定することができない）場合、画像２０のカテゴリ分けは考えられる第３の分類タスク７２に向けられる。
このタスクはデフォルト（たとえば、画像が屋内環境のものであるか否かの判定専用のアルゴリズムを適用すること）であってもよく、または環境に関して中立的な判定ノードであってもよい。

図３のツリー５２の実施態様では、図２のアルゴリズム構成要素４６が、所与の分類タスク（すなわち、タスクノード）で実行するアルゴリズムを選択し、そのタスクでアルゴリズム処理を実行する。
単一タスクノードで２つ以上のアルゴリズムを利用することもできる。
アルゴリズム構成要素は、前の結果の情報等の要因に基づいて選択を行う。
したがって、１つの顔検出アルゴリズムを１種類のカメラに利用し、別の種類のカメラが対象画像の生成に使用された場合は異なる顔検出アルゴリズムを利用し、またカメラの種類に関して先験情報がない場合はデフォルトの顔検出アルゴリズムを利用してよい。
同様に、画像が屋外シーンのものであると判定された場合は第１の顔検出アルゴリズムを使用し、屋内シーンの場合は第２の顔検出アルゴリズムを使用してよい。
図４を参照して説明するように、アルゴリズムルックアップテーブル７４は、各アルゴリズムについての情報要件を格納する際に使用することができる。

アルゴリズムルックアップテーブル７４は、顔検出に特有のアルゴリズムセットを含む。
各アルゴリズムは別個であり、図３のタスクツリー５２を通しての推移中に得られる先験情報に依存しうる。
たとえば、第２の顔検出アルゴリズムは、画像が日没を含んでいるため、顔検出分類タスク６６に最も適したものとして識別される。
第３の顔検出アルゴリズムは、画像が家屋内部を含んでいるため、顔検出分類タスク７０に最も適している。
最後に、第１の顔検出アルゴリズムは、どの分類子がそれまで指定されたかについての先験的な情報がまったくない状態の、最初の順序での最初の分類タスクである、顔検出分類タスクにおいて実施されるデフォルトアルゴリズムである。
アルゴリズムルックアップテーブルは、手動で、またはツリー構造中の各タスクノードのパフォーマンス情報を収集する、図２の学習構成要素５０により更新することができる。

各分類タスクに対応するアルゴリズムは、複数のサブアルゴリズムルーチンを含む。
各サブアルゴリズムルーチンは、図２の非システムモジュール４２内に格納されている。
実施するサブアルゴリズムルーチンの選択は、システム判定モジュール３０のサブアルゴリズム構成要素４８によって決定される。
たとえば、日没を有する屋外シーンがある画像の検出に適用可能な図４の第２の顔検出アルゴリズムは、データ変換、特徴作用素、および分類を含む複数のサブアルゴリズムルーチンを含む。
これらサブルーチンの１つは、別のアルゴリズムの構成要素であっても、または続くタスクで利用されるアルゴリズムであってよい。

サブルーチンの指定に加えて、サブアルゴリズム構成要素は、サブアルゴリズムルーチンの結果を図２のデータ構成要素３８に格納する。
すなわち、同じ動作が再び実行される場合、サブアルゴリズム構成要素は後に再使用可能な中間結果を格納する。
図５は、データ変換サブアルゴリズムルーチン７８の中間結果、特徴作用素サブアルゴリズムルーチン８０の中間結果、および仮言的な分類サブアルゴリズムルーチン８２に対応する値を格納する記憶領域を有するサブアルゴリズムルックアップテーブル７６を示す。
結果は、後に必要になるという保証なしで自動的に格納される。

図６は、分類タスクのクラスを識別するプロセスの流れ図を示す。
すなわち、分類タスクのアルゴリズムを実施する際、クラスを識別するために、一連のステップまたはサブアルゴリズムルーチンが行われる。
ステップ８４において、画像２０がデータ変換サブアルゴリズムルーチンを受け、他の変換サブアルゴリズムルーチンからの画像データまたは結果が、画像特徴をより容易に探索することができる、適したデータ空間に変換される。
代表的なデータ変換サブアルゴリズムルーチンとしては、離散コサイン変換（ＤＣＴ）、離散フーリエ変換（ＤＦＴ）、ウェーブレット変換、色空間変換、ノイズフィルタリング、関心領域、エッジ検出、マルチ解像度手法等が挙げられる。

ステップ８６において、ステップ８４からの変換済データは特徴作用素サブアルゴリズムルーチンを受け、画像２０に固有の特徴を決定する特徴作用素データが導き出される。
コンテンツ類似度、色分散比較、およびコントラスト解析を実行することができる。
これらサブアルゴリズムルーチンの多くは、ヒストグラム、積率、平均、およびしきい値等、データの統計学的分布を利用する。
画像ブロックに再構成されたピクセルデータを特徴ベクトルとして直接使用することができる。
一例として、ブロックベースのカラーヒストグラム相関サブルーチンを連続した画像間で実行して、画像シーケンスの色分散解析のためのイベント境界における画像の色の類似度を求めることができる。

ステップ８８において、ステップ８６からの特徴データが、ベイズ解析、ニューラルネットワーク解析、隠れマルコフモデル（ＨＭＭ）、最尤（ＭＬ）法、遺伝的アルゴリズム、サポートベクトルマシン（ＳＶＭ）、および多次元スケーリング等の分類サブアルゴリズムルーチンを利用して分類され、対象画像２０に関連付けることのできるクラスが生成される。

図２に戻り、図２のシステム判定モジュール３０の学習構成要素５０が命令およびフィードバックを収集して、システム判定モジュール３０のその他の３つの構成要素（すなわち、タスク構成要素４４、アルゴリズム構成要素４６、およびサブアルゴリズム構成要素４８）の規則を構築する。
オフライントレーニングに加えて、学習構成要素は実際の使用期間中（すなわち、最初にタスクツリーを構成する処理後も）アクティブである。
学習構成要素は、システムパフォーマンスおよびその他の３つの構成要素４４、４６、および４８からのフィードバックに基づいて、タスクツリーの分類タスクを監督・変更する。
学習構成要素は、入力対象画像へのクラスの割り振り頻度のカウントを保持する。
識別されるクラスの発生頻度に大幅な変更がある場合、学習構成要素は、それに従ってタスクの階層構造を変更し更新する。
さらに、負のフィードバック（すなわち、いいえの結果）を判定ノードにおいて受け取る分類タスクがある場合、学習構成要素は負のフィードバックを格納し、最終的に変更をツリー構造に組み込むことができる。

図２のタスク構成要素４４の場合、順次推移決定木を決定する学習構成要素５０によるタスクツリーの構築がまず、図７に示すように、トレーニング画像セット９０から作成される。
タスクツリーおよびある分類タスクから次の分類タスクに導くパスに関する規則が、相関パターン技法を用いて構築される。
学習段階中、記録装置１２（たとえば、デジタルカメラ２２）を使用して、トレーニング画像セット９０を取り込むとともに、メタデータ１６を記録することができる。

トレーニング画像セット９０は、以下の３つの方法の少なくとも１つに基づいて分類タスクを順次推移に並べるために使用される：（１）コンテンツベースの解析、（２）メタデータ解析、および（３）外部ユニットまたは人である操作者による少なくとも１つのクラスの指定。
各トレーニング画像には、画像のコンテンツおよび／または画像の取り込み中の記録装置１２を取り巻く操作状況に関連するメタデータに応じて、少なくとも１つのクラスが関連付けられる。

図７のトレーニング画像セット９０は限られた数のトレーニング画像のみを示しているが、タスクツリー内の順次推移決定木を作成するためのトレーニング画像ははるかに多数存在するであろう。
さらに、セットは多様なコンテンツの画像およびメタデータを含むであろう。

図８は、トレーニング画像１、２、３、４、・・・のセットおよび対応するクラスを有するトレーニング画像テーブル９２を示す。
この例では、トレーニング画像１はクラスａｃｄｇｆを含む。
クラス発生の統計学的確率の計算は学習プロセスのこの時点では行われていないため、クラスは特定の順序になっていない。
一例として、クラスａは屋外を表すことができ、ｃは砂を表すことができ、ｄは手を表すことができ、ｇはビーチを表すことができ、ｆは顔を表すことができる。

タスクツリーの順次推移の順序は、トレーニング画像セット９０に関連する各種クラスの頻度分布を利用することによって決定される。
図９を参照すると、頻度分布テーブル９４は、トレーニング画像セットに関連するすべてのクラスの頻度カウントを反映する。
発生の順序はａｆｅｄｇｍｃ・・・である。
頻度分布は、発生カウントの最も高いものから発生カウントの最も低いものまで各クラスをランク付けすることによって導き出される。
例示的な実施形態では、クラスａは、トレーニング画像セット内で最も頻繁に出現することから最も高いカウントを有する。
クラスａに続くのはクラスｆである。
ランク付けは、最後のクラスの位置が決定されるまで続けられる。

タスクツリーを形成する学習プロセスでの次のステップは、セット中のトレーニング画像それぞれのクラスをランク付けすることである。
すなわち、図８中のトレーニング画像１、２、３、４、・・・毎に、その画像に識別されたクラスがある順序に並べられる。
画像の列挙された識別子の順序は、より頻繁に現れるクラスが存在する場合に、列挙された特定のクラスが存在する統計学的確率に基づく。
すなわち、条件に他のクラスの有無が含まれる条件付き確率が計算される。
結果得られる順序テーブル９６の一例を図１０に示す。
「第１順」列９８には、トレーニング画像毎に順序中の最初のクラスが識別される。
列９８中で、識別された第１順のクラスには下線が付いている。
第１順クラスを選択するプロセスは、単に図９のテーブル９４中の頻度カウントの参照であることができる。
したがって、クラスａが、クラスａにより表される特徴を含む各画像の第１順クラスとなる。
一方、特定の画像がクラスａの画像特徴を含まない場合、その画像が対応する特徴を含むならば、第１順クラスはクラスｆになる。
例において、トレーニング画像１および４はクラスａをそれぞれの第１順クラスとして有するが、トレーニング画像２および３はクラスｆをそれぞれの第１順クラスとして有する。
列９８中の各リストの残りのクラスは特の順序になっていない。

列１００において、第２順のクラスが条件付き確率に基づいて計算される。
ここでも、頻度パターン技法を採用することができる。
トレーニング画像１、２、３、４、・・・毎に、画像の第１順のクラスがある場合、第２順のクラスは、列挙される統計学的確率が最も高いクラスである。
「第２順」列１００において、第１順および第２順のクラスは下線付きで示されているが、残りのクラスは特定の順序を有していない。

第３順クラスは、第１順および第２順のクラスが存在する場合、存在する統計学的確率が最も高い、リスト中のクラスである。
プロセスは、各リスト中のすべてのクラスが条件付き確率に基づいて並べられるまで続けられる。
図１０において、最終順を列１０２に示す。

図１１は、条件付き確率の部分的なテーブル１０４を示す。
行１０６中、クラスａに関連する特徴を含む画像の頻度パターンが、トレーニング画像セットに検出された頻度パターンを反映して列挙される。
行１０８は、クラスａおよびｆを含む画像の頻度パターンを示す。
異なる行も、図９の頻度分布テーブル９４と同じようにして決定される。
順序にいくらかの不一致が見られるが、この不一致は説明できるものである。
たとえば、クラスａ、ｆ、およびｄがそれぞれ屋外、顔、および手という特徴に対応する場合、クラスｄが、行１０６（顔を含むか否かに関わらず、すべての屋外画像を考慮する）よりも行１０８（屋外で撮影された、顔を含む画像のみを考慮する）においてより高くランク付けされていることを理解することができる。

図９、図１０、および図１１を参照して説明したテーブルを構築するにあたり行われる学習は、図１２に示すもの等、効果的なタスクツリー１１０の設計に使用することができる。
タスクツリーは最も頻繁に現れるクラスａから始まる。
ａが「真」の場合、次のタスクはｆ分類タスクであり、これは図１１のテーブル１０４中の行１０６と一致する。
一方、ａが「いいえ」の場合でも次のタスクはｆ分類タスクであるが、異なる「ｆアルゴリズム」を使用することができ、後続パターンは異なる。

図２のアルゴリズム構成要素４６の場合、学習構成要素５０は各分類タスクに最適なアルゴリズムを選択する。
一例として図４を参照すると、特定の第１、第２、および第３の顔検出アルゴリズムが、特定の環境（すなわち、デフォルト、日没、または家屋内部）内での顔検出に最も適しているものとして識別される。
特定の環境に対応する特定の顔検出アルゴリズムの識別は、操作者により手動で、または各分類タスクのパフォーマンス情報を収集する自動学習技法により実行・更新することができる。

さらに、学習構成要素５０は各アルゴリズムに最適なサブアルゴリズムルーチンを識別する。
識別は、分類サブアルゴリズムルーチンステップ８８において識別された学習サブアルゴリズムルーチンを利用して、図６のデータ変換サブアルゴリズムルーチンステップ８４および特徴作用素サブアルゴリズムルーチンステップ８６の後の学習ステップ（図示せず）において行われる。
ここでも、アルゴリズムのサブアルゴリズムルーチンの識別は、操作者により手動で、または各アルゴリズムのパフォーマンス情報を収集する自動学習技法により実行・更新することができる。

非テキスト対象データをカテゴリ分けする分類システムの動作を図１３に順次示す。
ステップ１１２において、タスクツリー１１０を利用した順次推移決定木がＭＩＭＡＳ１８によって生成される。
タスクツリーは複数のノードを含み、各ノードは分類タスクを実行するように構成される。
各分類タスクは、コンテンツ解析および／またはメタデータ解析に基づいてクラスが対象データに割り振られるか否かを判定する。
ステップ１１４において、解析のために、分類システムが非テキスト対象データおよびメタデータを受け取る。
ステップ１１６において、対象データが、ステップ１１２によって決定された順次推移決定木に沿ってデータを推移させることによって解析される。

非テキスト対象データを取り込むとともにメタデータを記録する記録装置、および本発明による対象データを分類するモジュール式インテリジェントマルチメディア解析システム（ＭＩＭＡＳ）を含む分類システムのブロック図である。システムモジュールおよび非システムモジュールを含むモジュール式構造を有する図１のＭＩＭＡＳの概略図である。順次推移決定木に利用されるタスク構成要素のタスクツリーの概略図である。顔検出に特有のアルゴリズムセットのアルゴリズムルックアップテーブルの図である。中間結果および分類タスクに対応する値を格納する格納モジュールを有するサブアルゴリズムルックアップテーブルの図である。分類タスクのクラスを識別するプロセスの流れ図である。トレーニング画像セットから順次推移決定木を作成する学習構成要素のブロック図である。図７のトレーニング画像セットおよび各画像に特定の対応クラスを有するトレーニング画像テーブルの図である。図７のトレーニング画像セットに関連するすべてのクラスの頻度分布を有する頻度分布テーブルの図である。図７のトレーニング画像の分類タスクの順序を示す、結果得られる順序テーブルの図である。分類タスクの順序を示す部分的なテーブルの図である。順次推移決定木を有するタスクツリーの概略図である。非テキストデータをカテゴリ分けするプロセスの流れ図である。

符号の説明

１０・・・分類システム、
１２・・・記録装置、
１４・・・対象データ、
１６・・・メタデータ、
１８・・・モジュール式インテリジェントマルチメディア解析システム（ＭＩＭＡＳ）、２０・・・画像ファイル、
２２・・・デジタルカメラ、
２４・・・ビデオレコーダ、
２６・・・デジタル信号処理（ＤＳＰ）、
２８・・・ユーザ、
３０・・・判定モジュール、
３２・・・インタフェースモジュール、
３４・・・ウェブサービス、
３６・・・メディア入出力、
３８・・・データ構成要素、
４０・・・制御構成要素、
４２・・・非システムモジュール、
４４・・・タスク、
４６・・・アルゴリズム、
４８・・・サブアルゴリズム、
５０・・・学習、

Claims

非テキスト対象データ（１４）のファイルを分類するシステムであって、システム判定モジュール（３０）を備え、該システム判定モジュール（３０）は、
（ａ）順次推移決定木（１１２）に配置された複数の分類タスク（５４、６２、６４、６６、６８、および７０）を有するタスク構成要素（４４）であって、前記順次推移決定木（１１２）はクラスを割り振る複数の分類ノードを含み、該分類ノードの少なくともいくつかは、前記順次推移決定木（１１２）において複数の次の分類ノード選択肢のいずれに遭遇するかを決定するアルゴリズムを含むタスク構成要素（４４）と、
（ｂ）前記分類タスク（５４、６２、６４、６６、６８、および７０）それぞれにアルゴリズムを選択するアルゴリズム構成要素（４６）であって、前記アルゴリズムは、コンテンツベースデータを処理するコンテンツベースの解析およびメタデータ（１６）を処理するメタデータ解析のうちの少なくとも一方を実行するように構成されるアルゴリズム構成要素（４６）と、
（ｃ）前記アルゴリズムに少なくとも１つのサブアルゴリズムルーチンを選択するサブアルゴリズム構成要素（４８）であって、前記サブアルゴリズムルーチンは前記アルゴリズムの前記選択に基づいて選択されるサブアルゴリズム構成要素（４８）と、
（ｄ）前記クラスが前記非テキスト対象データ（１４）のファイルに割り振られる頻度の決定に従って、前記分類タスク（５４、６２、６４、６６、６８、および７０）の配置を変更する学習構成要素（５０）と
を備えた非テキスト対象データのファイルを分類するシステム。
前記システム判定モジュール（３０）に、インターネットアクセスを提供するシステムウェブサービスモジュール（３４）
をさらに備えた
請求項１に記載の非テキスト対象データのファイルを分類するシステム。
複数のシステムモジュール（３０、３４、および３６）および非システムモジュール（４２）の間に通信を提供するシステムインタフェースモジュール（３２）
をさらに備え、
前記システムモジュール（３０、３４、および３６）の１つは、前記システム判定モジュール（３０）である
請求項１または２記載の非テキスト対象データのファイルを分類するシステム。
前記非システムモジュール（４２）はそれぞれ、
少なくとも１つの前記サブアルゴリズムルーチン（７８、８０、および８２）
を含む
請求項１〜３のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記システムインタフェースモジュール（３２）は、
前記非テキスト対象データ（１４）の複数の前記ファイルの分類に関連するデータを格納するデータ構成要素（３８）と、
前記サブアルゴリズムルーチン（７８、８０、および８２）を実行する少なくとも１つの制御構成要素（４０）と
をさらに含む
請求項１〜３のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記非テキスト対象データ（１４）を複数のモジュール（３０、３２、３４、および４２）の間で読み書きすることによって、前記データ（１４）の分類に関連するデータを管理するメディア入出力モジュール（３６）
をさらに備えた請求項１〜５のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記学習構成要素（５０）は、
前記分類タスクそれぞれにアルゴリズムを識別するとともに、該アルゴリズムに少なくとも１つのサブアルゴリズムルーチン（７８、８０、および８２）を識別するように構成される
請求項１〜３，６のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記コンテンツベースデータを取り込むとともに、前記メタデータ（１６）を記録するように構成されたデータ取り込み装置（１２）
をさらに備え、
前記コンテンツベースデータは、前記対象データのファイルのコンテンツ情報に対応し、
前記メタデータ（１６）は、前記対象データ（１４）の取り込み中の前記取り込み装置（１２）の状況的環境データに対応する
請求項１〜７のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記タスク構成要素（４４）は、
前記順次推移決定木（１１２）を通して前記ファイルを推移させるように構成され、
少なくとも部分的に、前記順次推移決定木（１１２）においてそれまで遭遇した前記分類ノードにおけるそれまでの判定に基づいて、前記順次推移決定木（１１２）において次の分類ノード選択肢のいずれに遭遇するかを決定する手段
を含む
請求項１〜３，６，８のいずれかに記載の非テキスト対象データのファイルを分類するシステム。
前記学習構成要素（５０）は、
前記順次推移決定木（１１２）を確立するように構成され、
自動処理技法を使用して前記分類ノードの従属配置を定める手段を含み、前記ノードはそれぞれ前記ファイルを分類するクラスに関連する
請求項１〜３，６，８のいずれかに記載の非テキスト対象データのファイルを分類するシステム。