JP4719224B2

JP4719224B2 - マルチモーダル識別のための客観評価に基づいた識別器組み合わせ

Info

Publication number: JP4719224B2
Application number: JP2007545535A
Authority: JP
Inventors: イワノフ，ユーリー; セレ，トーマス，アール．
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-12-06
Filing date: 2005-12-05
Publication date: 2011-07-06
Anticipated expiration: 2025-12-05
Also published as: WO2006062863A3; US7742641B2; US20060120609A1; WO2006062863A2; JP2008525869A

Description

本願は、米国特許仮出願番号第60/633,997号（出願日：２００４年１２月６日）発明の名称：「Using Component Features for Face Recognition」，米国特許出願番号第60/634,383号（出願日：２００４年１２月７日）発明の名称：「Error Weighted Classifier Combination for Multi-modal Human Identification」，および米国実用新案（出願番号不明）（出願日：２００５年１２月２日）考案の名称：「Confidence Weighted Classifier Combination for Multi-Modal Identification」の利益を請求するものであり、前記出願のすべての記載をここに引用するものである。

本発明は識別システムに関し、詳細には、信頼度による客観評価に基づいた識別器の組み合わせを用いたマルチモーダル識別を行う技術に関する。

近年、マルチモーダル識別システムはますます普及しつつあり、特に、不特定環境下で応用されている（ロボット工学やビデオ監視等）。ここでのマルチモーダルとは、識別に用いられる複数のデータ源のことをいい、データ源とは、識別対象物に関する異なる特徴となり得るものである。

例えば、人物の場合ならば、顔、背丈、体格、歩容、声等の各種特徴により特定が可能である。しかし、これらの特徴は、人物の認識全般への寄与（overall contribution）の仕方は互いに等しいものではない。例えば、識別作業においては、顔や声の特徴は極めて区別しやすく、歩容や体格などの他の特徴は区別し難い。区別しやすい特徴のみをクラス分けすることで高い識別率が達成可能であるにせよ、このような特徴だけを観察できる状況は比較的稀である。例えば、監視ビデオに写った顔の画像の場合、人物がカメラに十分に接近した場合のみで識別に利用可能である。同様に、人の音声の場合も、実際に人物が言葉をしゃべった場合のみで識別に利用可能であるのだが、むしろ、区別し難い特徴のほうが多く含まれているものである。

パターン認識では、所定のクラス分けシステムの認識率を向上させるために複数の識別器を設けることができる。総和則（sum rule）積分則（product rule）などの代替組み合せで用いられる各種規則について様々な比較が行われているが、特に、識別器が相互に組み合わされている場合は積分則が最適であり、そうでない場合は総和（あるいは平均）則が好ましい。順位統計の規則（例えば、最小／最大）は、はずれ値に対しては総和則よりもローバストであるため、誤差変動についてそれほど改善をもたらすものではない。

そこで求められるのが、識別器を組み合わせる構成を有するマルチモーダル認証システムである。

本発明の１つの実施形態は、複数のマルチクラス識別器の予測値を用いたマルチクラス識別器の組み合わせ方法に係る。この方法では、クラスごとの重み付けにより各マルチクラス識別器の予測値の重み付けを行い、２つ以上のマルチクラス識別器からの重み付けされた予測値を組み合わせることで共同予測を生成する。この方法は、対象シーンから１つ以上の音声ストリームおよび１つ以上の映像ストリームを含む特徴ストリームを生成し、１つ以上の特徴ストリームで捉えた第１の対象特徴を第１のマルチクラス識別器を使ってクラス分けし、１つ以上の特徴ストリームで捉えた第２の対象特徴を第２のマルチクラス識別器を使ってクラス分けする予備ステップをさらに含む。このような場合には、対象シーンに存在する対象物の検出に反応して特徴ストリームの生成が開始され、各特徴ストリームについて、タイムスタンプ、ファイル名、記録状態および現在のシステムのパラメータの少なくとも１つを含む記録を生成し、これを記憶装置に記憶する。特定の実施形態によっては、クラスごとの重み付けは、信頼度を使って各識別器の出力に重み付けをおこなうことで行われ、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものである。
特定の構成によっては、クラスごとの重み付けは下式に基づいて行われる。

別の特定の構成によっては、クラスごとの重み付けは下式に基づいて行われる。

さらに、別の特定の構成によっては、トレーニング用データのサブセットについて１つ以上のマルチクラス識別器をトレーニングし、このトレーニング用データのサブセットの残りについて信頼度を算出するような予備ステップをさらに含んでもよい。この場合、クラスごとの重み付けは、さらに、算出した信頼度により１つ以上の識別器の出力についても重み付けを行う。識別器の予測値の組み合わせは、例えば、多数決、出力の総和、出力の積の１つ以上の組み合わせ規則を用いて行ってもよい。

本発明の別の実施形態は、プロセッサにより実行された場合に、前記プロセッサが、複数のマルチクラス識別器の予測値を使ってマルチクラス識別器の組み合わせ処理を実行するような指令が符号化されたマシン読み取り可能な媒体（例えば、ＣＤ、フレキシブルディスク、サーバ、メモリスティック、ＨＤＤなど）を提供する。この組み合わせ処理は、例えば、前記の方法に類似するもの、またはその変形であってもよい。

さらに、本発明の別の実施形態は、マルチクラス識別器の組み合わせシステムに係る。このシステムは、複数のマルチクラス識別器を備えており、各識別器において１つ以上の特徴ストリームで捉えた対象特徴を分類する。このシステムは、識別器の出力を組み合わせて共同予測を生成する組み合わせモジュールを備えており、このモジュールにおいて、各マルチクラス識別器の予測値を組み合わせる前に、クラスごとの重み付け手法に基づいて各マルチクラス識別器の予測値について重み付けを行う。このシステムは、さらに、対象シーンから１つ以上の音声ストリームおよび１つ以上の映像ストリームを含んでいる特徴ストリームを生成するデータログサブシステムを備えており、このデータログサブシステムは、この対象シーンに存在する対象物の検出に反応して特徴ストリームの生成を開始する。このデータログサブシステムは、このシステムにアクセス可能であり、記憶された特徴ストリームのラベル付けをするラベル付けサブシステムを備える。このシステムは、特徴ストリームを記憶するための記憶装置と、各特徴ストリームについて、タイムスタンプ、ファイル名、記録状態、現在のシステムのパラメータの１つ以上を含む記録を生成し、これを記憶装置に記憶するＤＢ管理部を備えていてもよい。特定の構成によっては、トレーニング用データのサブセットについて識別器をトレーニングし、このトレーニング用データのサブセットの残りについて信頼度を算出し、組み合わせモジュールを用いたクラスごとの重み付けには、算出した信頼度により前記識別器の出力を重み付けるものも含む。別の特定の実施形態によっては、クラスごとの重み付けは、信頼度を使って各識別器の出力に重み付けをおこなうことで行われ、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものである。
特定の構成によっては、組み合わせモジュールにより行われるクラスごとの重み付けは下式に基づいて行われる。

別の特定の構成によっては、組み合わせモジュールにより行われるクラスごとの重み付けは下式に基づいて行われる。

このシステムの機能は、ソフトウェア（例えば、１つ以上のコンピュータ読取り可能な媒体に符号化された実行可能な指令など）、ハードウェア（例えば、ゲートレベルなど）、ファームウェア（例えば、ルーチンを備えた１つ以上のマイクロコントローラなど）、あるいはこれらの組み合わせ、もしくはこの他の適当な手段により実装可能である。

ここに記載される特徴および特長はすべて包含される必要はなく、特に、当業者であれば図や説明に照らして、さらなる特徴および特長を追加することが可能であることは明らかである。さらに、本明細書中の説明で用いられた文言は、読みやすさや例示的な目的から主に用いられたものであり、本発明の主題の範囲を限定するものではない。

識別器の組み合わせを利用したマルチモーダル識別に関する技術について開示する。

［概観］
前記の通り、（従来の認証技術を用いて）より区別しやすい特徴（例えば、顔や音声）をクラス分けすることで高い認識率を達成できたとしても、現実的にこのような特徴だけを観察できる状況は比較的稀である。本発明の各種実施形態によれば、識別器を組み合わせる構成のマルチモーダルな識別方法を利用することで、区別し難い特徴やその他の利用できない特徴などからも識別値を抽出することが可能となる。

識別器組み合わせ手法を、自律した対象物（例えば、人物やシステム）からのマルチモーダルな入力に応用することは、多数の非自明的な挑戦を意味する。図１は、ある人物のビデオクリップから抽出した音声特徴および映像特徴を集めたものであり、前記の非自明的な挑戦を示すものである。より詳細には、図１は、これらの特徴を時間軸に配置したストリームで示したものであり、ストリーム中に存在する特徴を色で表している。図に示すように、すべてのストリームにおいて、前記の特徴が結びついた状態で同時に出現することは比較的まれであるが、１つの流れを通じて少なくとも１つの特徴が間隔を置いて存在している。したがって、確かさの度合いに変動はあるものの、ほとんどの場合で人物（あるいはこの他の対象物）を識別することが可能である。

本発明の１つの実施形態では、音声およびまたは映像の情報源から取得した特徴ストリームを、複数の識別器を組み合わせてクラス分けを行うようなマルチモーダル識別システムを提供する。この識別器の組み合わせ手法を利用して信頼度に変動がある識別器からの出力を組み合わせる場合において、ローバストな方法により、従来の「識別器ごと」ではなく、（あるいは、これと組み合わせて）「クラスごと」に信頼度を組み込んだ客観評価（重み付け）を行うものである。この重み付け手法は、所定の時間に存在するすべての特徴を認識するのではなく、識別すべきか否かを判断するものである。このような特徴ストリームには、対象物（人物、車両、その他の物体など）を識別するのに区別し易い特徴と区別し難い特徴と含んでいるものである。本発明の実施形態の構成によっては、略ベイジアン法の組み合わせ手法を用いて個々の識別器からの出力を組み合わせる。

このようなシステムでは、測定可能なデータが使用可能であるならば、対象物の識別予測を瞬時に行うことができる。つまり、解析中の映像の画像フレームごとに最低でも１つの予測値を得ることができることになる。本発明の実施形態の構成によっては、システムを利用契約型の複数のマシンに分散して特徴識別器を個別に動作させる。かかる分散構成により、コンピュータのアーキテクチャやＯＳ（Operating System）に関係なく異なるコンピュータネットワーク間で好適にシステムを運用することができる。

本発明の開示において明らかであるように、本システムは様々な用途において利用可能である。例えば、本システムを自律歩行ロボットに応用することも可能であり、これにより、ロボットに、やり取りをする人物（あるいは、やり取りや観察が可能な他の対象物）を識別する能力を付与できる。本システムでは、ロボットが対象者の顔を見たり、声を聞いたり、あるいは暗闇の部屋の隅に人物のシルエットを観察した場合など、様々な環境下で対象物を識別するために使用可能な情報を用いる。同様に、本システムは、オンラインの人物認証システムなどのバイオメトリック用途にも利用可能である。いずれにおいても、その状況で入手可能なあらゆる情報から対象物を識別できるシステムが可能となり、これにより人間の知覚・行動システムの持続性にアプローチすることが可能となる。

［システム構成］
図２は、本発明の１つの実施形態に係るマルチモーダル識別システムの構成を示すブロック図である。本システムは、データ収集、ラベル付け、トレーニング／クラス分けの３つのモードで動作するが、各々については順次後述する。

図２に示す通り、本システムは、データログサブシステム、クラス分けサブシステム、ラベル付けサブシステムから構成される。本システムは、カメラ２１０およびマイクロフォン２１５（例えば、従来型のビデオカメラやミッドレンジ型ワイドピックアップ対応マイクロフォンなど）からの入力を受ける。１つの実施形態においては、カメラ２１０とマイクロフォン２１５のどちらも（監視用途等で）固定された状態で備えられている。あるいは、カメラ２１０とマイクロフォン２１５を（自律歩行ロボット用途等で）移動可能としてもよい。さらに、複数台のカメラ２１０およびまたはマイクロフォン２１５を用いて、複数の入力ストリームを構成してもよい。このような実施形態の場合は、音声／映像のストリームペアにそれぞれクラス分けサブシステム（図２参照）を備えてもよい。あるいは、高速スイッチング技術（例えば、音声およびまたは映像の各ストリームと１つの識別器サブシステムの間のデジタルスイッチングを同時に行う）や、多重技術（例えば、音声およびまたは映像の各出力ストリームにタグを付与して多重化されたストリームを区別できるようにすることにより、識別器サブシステムが連続的に各ストリームを処理する）を用いることで、音声／映像のストリームペアのすべてが１つのクラス分けサブシステムを共有するようにしてもよい。

カメラ２１０からの入力は検出器２０５を介して行われるのだが、この検出器２０５は、フレーム内に人物や他の対象物が存在するか否かを判断するものである。検出器２０５は、従来の検出手段を組み合わせて判断を行う。例えば、検出モジュール２０５は、激しい動作の領域を示すバウンディング・ボックスのアスペクト比を見積もったり、この動作用域で顔の検出を行ったりするようにプログラムされているか、あるいはそのような構成を備えたものである。このような実施形態の１つに係る検出器２０５は、次の文献に記載されるような顔の検出を行うように構成されている：「Categorization by Learning and Combining Object Parts」， B. Heisele, T. Serre, M. Pontil, T. Vetter, T. Poggio （最新版「Neural Information Processing Systems」ｐ１２３９−１２４５，バンクーバー，カナダ，２００２年より）。なお、前記文献の全ての内容は、ここに、参照により取り入れられている。一方もしくは両方の検出状態が良好に報告されると、検出器２０５は、（図２に示すように、例えば、各ストリーミングパス（streaming pathway）のリレーやこの他のスイッチを起動させて）ストリーム処理を開始させる。

本実施形態では、ビデオクリップのストリーミングをビデオレコーダ２２５により記録し、オーディオクリップのストリーミングをオーディオレコーダ２２０により記録する（例えば、各レコーダは従来技術により実装してもよい）。記録したクリップはＤＢ（database）管理部２３０を介して、記憶装置２７０（例えば、情報の記憶や検索のためのＳＱＬデータベースやこの他の記憶設備）に記憶する。特定の実施形態によっては、オーディオクリップおよびまたはビデオクリップを同時に記憶して、ＤＢ管理部２３０において、タイムスタンプ、ファイル名、記録状態および現在のシステムのパラメータなどを含む記録を生成し、これを記憶装置２７０に記憶する。なお、ＤＢ管理部２３０および記憶装置２７０は、従来あるいはカスタムのＤＢ技術を用いてそれぞれ実装してもよい。

図２に示す通り、各ストリームは、クラス分けサブシステムに含まれる各特徴識別器のセットに対してもそれぞれ送信される。これらの特徴識別器は、ストリーム内に取り込まれた入力データをクラス分けするように構成されており、例えば、既存のクラスモデルを用いてクラス分けしてもよいし、この他の適当なクラス分け手法を用いて行ってもよい。このような特定の実施形態では、これらの識別器は、人物を識別するのに用いられる。前記の識別器のセットには、（映像ストリームを検索する）高さ識別器２３５、衣服識別器２４０および顔面識別器２４５と、（音声ストリームを検索する）音声識別器２５０および話者識別器２５５が含まれる。前記の各識別器は、従来またはカスタムのクラス分け手法を用いて実装してもよい。

前記の各識別器からの出力は組み合わせモジュール２６０に送信される。１つの実施形態では、この組み合わせモジュール２６０は、後述する略ベイジアン法の識別器組み合わせ技術を用いて、各識別器からの出力を共同予測（joint prediction）にまとめるようにプログラムされているか、あるいはそのような構成を備えている。各識別器からの予測値によって、本システムの連続した出力が形成される。この出力には、映像の各フレーム内の既知対象物（本システムに係る個人や対象物など）のセットに関する事後確率分散も含まれる。通常、識別力の弱い特徴を扱う識別器の場合、精度が極めて低くなるものである。このように識別器の精度の低下は、雑音測定などの識別器の外部パラメータや、所定の方法で呈示される固有の不適切さ（intrinsic inadequacy）などで判定される。例えば、個々の対象物の高さを特徴区別の尺度とする場合、その中の何人かが同じ高さであれば、高さ識別器２３５にとっては、本質的に同じものに見えるはずである。本発明の実施形態では、このような固有の不適切さをトレーニング用データから測定し、識別器からの組み合わせ出力を重み付けする信頼度を割当てるのに用いるような識別に利用する。このような方法を用いれば、極めてローバストな識別システムではあるが、音声と映像の入力データの組み合わせに利用可能であり、これにより、マルチな識別機能をシステムにもたらすことができる。

オーディオクリップとビデオクリップはデータ量が大きくなる可能性があるため、ラベル付けサブシステムを用いて各クリップにラベルを付与して管理してもよい。図３は、ラベル付けサブシステムのユーザーインターフェース（User Interface、以下ＵＩという）の画面の画像である。このラベル付けサブシステムは、ラベリングツール２７５とクエリエンジン２８０とを使って動作させる。図３に示す実施形態においては、ユーザは、ラベル付けサブシステムを使って記憶装置２７０からクリップを検索し、これをレビューすることができ、特定の「実験」（あるいはこの他にもグループ化など）を割り当てたりすることもできる。ここでいう「実験」や「グループ」とは、各クリップに付与されるラベルの集まりであり、クリップをトレーニング（Training：Trn）、テスト（Testing：Tst）、検証（Validating：VaI）、無視（Ignored：Ign）のいずれかに用いるように割り当てることができる。ユーザは、ＵＩ内の「グループビルダ」や「割り当てコントロール」をラベリングツール２７５とともに使って、ラベルが付与されたクリップのグループを構築したり、このようなクリップに所望のラベルを割り当てたりすることができる。ＵＩの「ＤＢアクセスコントロール」は、クエリエンジン２８０と共働して、ＤＢアクセスＵＩが通常行うような処理を行う。「クリップパラメータ」はＵＩにおいて定義可能で、これにより記憶装置２７０に記憶されているクリップの特定のサブセットにアクセスすることができる。例えば、ユーザは、目的のクリップの日時範囲を検索するように設定でき、また、フラグを設定して所定の割り当て（トレーニング、検証、テスト、無視）がなされているクリップを検索することもできる。ユーザは、所望のクリップパラメータを設定すると、ＵＩの「ロード（Load）」ボタンと「セーブ（Save）」ボタンによりクエリエンジン２８０を起動させて記憶装置２７０にアクセスし、所望のクリップパラメータを検索する。さらに、必要に応じて検索結果を保存する。検索したクリップは、各クリップを「再生コントロール」に関連付けた状態でＵＩに表示される。そして、ユーザは、この「再生コントロール」を使ってクリップを再生すると、ビデオクリップがレビュー画面に表示される。ラベル付けサブシステムの機能を実装する方法としては、多数存在する公知あるいはカスタムのＵＩ技術およびＤＢアクセス技術を用いて行うことができるため、本発明においては、この方法を特定の構成に限定する意図はない（本発明の実施形態によってはＵＩを用いない場合もある）。

［信頼度を組み込んだベイジアン法による識別器組み合わせ］
前記の通り、組み合わせモジュール２６０は、本発明の実施形態に係る、略ベイジアン法による識別器組み合わせ手法を用いて複数の識別器からの出力を１つの共同予測にまとめるように構成されている。

通常、どんなによくトレーニングされた識別器であってもトレーニングデータのいくつかで誤ったクラス分けを犯すものである。このような分類ミスは混同行列（Confusion Matrix）の形で反映させることができる。混同行列は、特定の識別器におけるクラスの近似を表すものであり、トレーニングによって識別できるようになる。例えば、識別器２４５は、様々な顔クラスを識別できるようにトレーニングされているのだが、この場合の混同行列とは、顔識別器２４５における顔クラスの近似を示す。混同行列とは、あるデータセットにおいて識別器が有する固有誤差の分布に関する経験値を示すものである。この特定の実施形態によれば、組み合わせモジュール２６０により行われる識別器の組み合わせは、組み合わせ規則を適用する前に、まず、混同行列から求めた予測信頼度を用いて各識別器の出力に重み付けする。

より詳しく説明すると、あるシーンでの特徴xのセットは、複数の異なる観察チャンネルから入手できる予測値を示している。

観察全体を示すxについての識別器システムの出力であるωは、周辺分布で表すことができる。

式３が示す本質は、各識別器の予測値に対して、クラス全体での誤差分布に応じた重み付けがなされていることである。この処理が実際に意味することは、識別器のスコアに信頼度を掛けて、あるクラスについての識別器の確かさを考慮した補正スコアを求めることである。このような組み合わせ手法は、混同行列が実際の識別情報と近似するものであるのだから、精度が概ね良好な識別器の出力に著しい影響を及ぼすものであってはならない。反対に、識別器にシステム上の欠陥がある場合、例えば、クラス２のサンプルについてクラス１のサンプルに誤りがある場合には、検証セットにおける誤差の数に比例して、クラス１に関する識別器の予測値がクラス２に偏ることになる。精度のよい識別器であれば、他の識別器と組み合わせた場合であっても運用に影響を受けないだけでなく、クラス２により重い重み付けを行うとともに、他の識別器には重み付けを行わないようにして精度を確保する。これは、従来の「識別器ごと」に重み付けを行うパラダイム（つまり、個々のクラスの性能に関係なく、識別器すべてに対して重み付けを行う従来手法）によるものではなく、「クラスごと」に重み付けを行う手法によるものである。

かかる分布は、トレーニング用データの検証サブセットについて識別器をテストすることで求めることができる。そして、式３に示す個々の識別器の予測値を周辺化することで、組み合わせの規則を導くことが可能であり、式５のように示すことができる。

後者は、混同行列から求めることができる経験量である。したがって、経験誤差の分布に基づいて、識別器の出力を組み合わせる前に個々の出力について重み付けする方法が可能となる。

このモデルは、識別器の組み合わせ手法の一般的な枠組みを構築するものであるため、ここから識別器を組み合わせる方法を各種導くことも可能である。出力の組み合わせ方法の事例としては、多数決（voting）、出力総和（sum of outputs）、出力積（product of outputs）の３つがある。全体として、出力積が他の２つの方法を若干しのいでいる。なお、「Combining Multiple Classifiers by Averaging or by Multiplying ?」， D. M. J. Tax, M. V. Breukelen, R. P. W. Duin, およびJ. Kittler （Pattern Recognition 33: ｐ１４７５−１４７８, ２０００年）という文献には、総和則と積分則の有効性を示す構成が記載されている。なお、前記文献の全ての内容は、ここに、参照により取り入れられている。

例えば、重み付き積（weighted product）の規則は：

ここで、Ｚは正規化定数である。

式３、４、５に表される重み付け手法では、各識別器からクラス確率を入手できることを前提としている。したがって、サポートベクタマシン（Support Vector Machine、以下ＳＶＭ）などの識別モデルを用いる場合には小さな問題が存在する。つまり、前記式の直接法においては、ＳＶＭが出力するのは確率ではなく、むしろ、判別関数の値である。しかしながら、これらの値あるいは「スコア」に式７のｓｏｆｔｍａｘ関数（Softmax Function）を適用することで確率に変換することができる。

なお、前記の変換は、誤差率が最小の識別器のクラス分け決定に変更を加えるために用いるのではなく、このような識別器を、ここで述べるような確率の枠組み内で処理できるようにするために用いる。

［分散型マルチモーダル識別システム］
図４は、本発明の実施形態に係る構成を有する分散型マルチモーダル識別システムのブロック図である。この分散型システムはフルスケール化が可能であり、映像ストリームの入力を扱う多数の映像特徴抽出器（例えば、４０５や４１０など）と、音声ストリームの入力を扱う音声特徴抽出器（例えば、４１５など）とを備えている。１つ以上の識別器は、ネットワーク抽象化レイヤ（Network Abstraction Layer，以下ＮＡＬという）４２０を介して、各特徴抽出器に接続されて動作する。特にこの実施形態では、映像特徴抽出器４０５が、識別器４２５および４３０に接続され、さらに映像特徴抽出器４１５が識別器４４０に接続される。

各識別器（４２５、４３０、４３５、４４０など）は、必要に応じて、ローカルまたはリモート装置上でプラグインモジュールとして実装・運用が可能である。このような構成では、システムが稼働中であっても、無限の特徴識別器を容易に取り込むことができる。本システムでは、ＵＩを使って識別器（４２５、４３０、４３５、４４０など）を、トレーニング、検証、クラス分けなどの各種モードで動作させることが可能であり、このときに識別器をトレーニングしたり遠隔操作したりできる。なお、図４のネットワーク構成は「記入」方式に基づいている。

より詳細に説明すると、システムは、特定種類の特徴（例えば、鼻などの顔領域）を求める記入式のリクエストを受けると、動作していない場合にはこの特徴に対応する抽出モジュール（４０５、４１０、４１５など）をインスタンス化する。（例えば、音声およびまたは映像の入力ストリームから検出して）対応の特徴モジュールが入手できた場合には、特徴抽出器はただちにＮＡＬ４２０を介してすべてのユーザにこの特徴を配信する。なお、このＮＡＬ４２０は、従来のネットワーク技術により実装可能である。１つの実施形態において、ＮＡＬ４２０は、ＰＶＭライブラリ（Parallel Virtual Machine Library）を用いて実装可能であることが、「A Users' Guide and Tutorial for Networked Parallel Computing」， A. Geist, A. Beguelin, J. Dongarra, W. Jiang, R. Manchek, および V. Sunderam (PVM: Parallel Virtual Machine, MIT Press, Cambridge, MA, １９９４年)という文献に記載されている。なお、前記文献の全ての内容は、ここに、参照により取り入れられている。

１つ以上の識別器から結果が入手可能であり、（例えば、図２において説明したような）組み合わせモジュール２６０によりこれらの結果を収集できる場合には、結果の収集を行う。なお、各識別器からの出力は、ネットワーク４２０やこの他の適切な手段（例えば、各識別器から組み合わせモジュールへ直接接続するような手段）を介して組み合わせモジュールに提供するようにしてもよい。このように構成することで、システムを高いフレームレートで動作させることが可能となり、システム全体の出力が、セット内の識別器ごとに行われる煩雑な計算の影響を受けずにすむ。

図５は、本発明の実施形態に係る構成の分類器サブシステムの動作中のＵＩ画面を示す例である。ユーザは「データ選択コントロール」を使って、ホストシステムの選択や、すでに動作中の（および記憶装置２７０に記憶された）ビデオクリップ群およびまたはオーディオクリップ群についてのグループの選択やテストの選択を行うことができる。また、本システムはライブ入力も可能であり、リアルタイムでクリップを識別することができる。図５の画面の例では、システムのモードはクラス分けモードであり、（ＵＩの「特徴選択コントロール」に示されるように）高さ（Height）、色（Color）、声（Voice）および顔構成（Face Comp）の４つの特徴ストリームを受信中であることが分かる。ＵＩの当該識別器のインジケータが有効になっていることで、ユーザが設定した「特徴選択コントロール」でどの識別器が有効になっているかが一目で分かるようになっている。左側の４つの棒グラフは、ユーザが選択した前記４つの特徴に対応する４つの識別器からの出力を示すものである。ＵＩは各種コントロール（例えば、スライドつまみ等）を備えているため、識別器のパラメータを最適化するように調節ができる。右側の棒グラフは、組み合わせモジュール２６０による対象者の識別の共同予測をグラフ化したものである。さらに、ＵＩには特徴を抽出したクリップを確認する「レビュー画面」や、解析目的から映像品質を最適に調整するための「映像フィルタパラメータ」（例えば、「動き閾値（Motion threshold）」や「背景減衰（Background decay）」など）を含んでいる。本発明の開示に照らして理解されるように、「ストリームコントロール」、「設定コントロール（カメラ（Camera）やフォーマット（Format）の設定など）」、「モードコントロール（トレーニング（Train）、ロード（Load）、検証（Validate）、停止（Stop）、終了（Exit）など）」あるいはこの他のＵＩの機能を使って、ユーザは、システムについてインタラクティブな制御を行うことができる。

［実装］
前記の通り、本識別システムは、（例えば、映像およびまたは音声の入力ストリームからの）ライブ入力により動作するように構成されている。ここで、システムを評価するために、トレーニング、検証、テスト用の音声および映像のデータシーケンスを含む拡張データセットの収集を試みた。データは、オフィス環境の６人から数週間に渡って収集した。固定カメラ（一対のステレオカメラ）と遠距離マイクロフォンを用いた（システムを図２に示すような監視用セッティングのように実装してもよい）。前記の通り、（入力ストリームからの）特徴により数個のチャンネルを形成して、組み合わせモジュール２６０で識別器の出力を組み合わせる段階に至るまで、これらを個別に処理する。この実装例では、音声から入手可能な特徴と映像から入手可能な特徴の２つのグループからなる特徴を得た。ここでの対象物は、映像と音声のいずれにおいても捉えることのできた人物である。

音声の識別については、よく知られているメル周波数ケプストラム係数（Mel Frequency Cepstral Coefficients、以下ＭＦＣＣという）を用いた。以下のプロセスによりこれらの係数を得た。まず、スライドウィンドウ（フレーム）を１００Ｈｚにてオーバーラッピングさせて、４０個のメル周波数係数（Mel Frequency Coefficients、以下ＭＦＣという）を得た。次に、このＭＦＣセットに離散コサイン変換を行って、ケプストラム係数（ＭＦＣＣ）に変換する。周波数スペクトラムの下半分にパワーの大半が集中して大きなエネルギーを有するフレームのみに映像特徴のタグを付与して後述の識別ステップに含まれるようにした。膨大な量の音声サンプルを取得した後、収集したメル・スケール・ケプストラム係数のセットについて、ガウス混合分布に基づく識別器をトレーニングしてもよい。

話者識別器２５５：音声特徴から人物をクラス分けするために、８つの構成を混合して人物をモデル化する。この話者識別器は、簡単なパワーテストをパスしたＭＦＣＣを収集することについてトレーニングとテストを行うことができる。特定の実施形態の例では、ガウスカーネルＳＶＭを用いてオンラインの話者識別器２５５の実装を行った。

音声識別器２５０：顔の検出はできるものの、識別器からのスコアが一貫して低い場合には、名前や他の音声特徴などを手がかりに人物を積極的に導き出すようにシステムを構成することができる。所定の時間枠内で音声ストリーム中に大きなエネルギーを検出した場合、ユーザが名前やその他の音声例を発して返答したと想定する。１つの実施形態においては、このユーザの応答に対応するＭＦＣＣのシーケンスを取得し、単純な動的時間伸縮法（Dynamic Time Warp）のシーケンス一致アルゴリズムを用いて数１０人分の名前を収めた話し言葉辞書と照合する。音声識別器２５０は、動作中に識別器の組み合わせに用いる必要はなく、ラベリングツール２７５を使って仮ラベルを付して、後の処理において用いるようにしてもよい。

映像の識別については、まず、映像の特徴を抽出するには、カメラの画像から人物を検出することから始まる。人物の検出は、一連の単純なルールにのっとって行われる。例えば、３つ以上のフレーム内に明確な動きが存在し、光源状態が十分に安定し、（図５に示すような）バウンディング・ボックスの囲みのアスペクト比が所定値であり、さらに、バウンディング・ボックス内に顔のようなオブジェクトが存在する、といったルールである。このような条件が満たされると、あらかじめ設定した通りに（オーディオレコーダ２２０やビデオレコーダ２２５による）録画、録音を開始するようにしてもよい。次に、抽出したデータを所定の識別器に送り、適応型背景差分処理によりバイナリマスク化して映像の特徴を抽出する。次のような手法を用いて、画像の人物を浮き上がらせ、家具や壁に映った人物の影を除去してもよい。まず、得られたバイナリマスクを縦に総和し、得られたノンゼロ値（non-zero value）のヒストグラムからピークを求めて、これを所定閾値未満の値になるまで外側に伸ばす。こうして求めた範囲を水平位置の目安やバウンディング・ボックスの範囲として使う。

顔識別器２４５：映像ストリームの各フレームについて、バウンディング・ボックス領域で顔の検出を行う。人物が存在する場合には、対象物を含んでいるバウンディング・ボックスをスキャンして顔の検出を行い、見つかった場合には、識別のために顔だけをさらに小さい枠で囲んで画像から抽出する。Ｋ人の顔からなるラベル付けされたデータセットについて、例えば、ＳＶＭＦｕのパッケージやこの他の適切な顔識別アルゴリズムを使って、Ｋｏｎｅ−ｖｓ−ａｌｌ法の二次多項式ＳＶＭ識別器をトレーニングすることもできる。

高さ識別器２３５：１対のステレオカメラを使うことで奥行きの区分化が可能となり、対象物との距離や寸法などを測定することができるため、特に移動用途において有用である。また、１台のカメラのみを用いてもよく、この場合はカメラをキャリブレーションした上で固定用途に用いる。いずれにせよ、人物の本当の背丈は、カメラ画像のバウンディング・ボックスの垂直方向の距離とボトム位置から算出することができる。キャリブレーションにより、内部パラメータＡ（焦点距離および原点）と、シーンの既知位置に関するカメラ座標系の回転と平行移動を決定する外部パラメータＲおよびｔとにアクセスできるようにする。

カメラの傾斜角度に起因するバウンディング・ボックスの補正と、画像・地面の同形異義性パラメータの算出誤差に起因する基面補正を行うことができる。これらの算出から、対象者が観察されるトレーニング用画像のすべてからガウス分布を対象者ごとに算出し、これを後のクラス分け処理に用いる。高さの算出には従来の手法を用いてもよい。

衣服識別器２４０：１日のうちで、個々の人物は衣服を着替えないものと想定した上で、上半身と下半身それぞれ個別にヒストグラムを使って、個々の人物の衣服の好みを把握することができる。このような実施形態においては、ＨＳＶ色空間の画像中に存在する人物の形の色調成分および色彩成分からヒストグラムを算出する。このような場合、色調成分と色彩成分とにそれぞれ３２ｂｉｎと２４ｂｉｎを割り当てる。画像から人物のシルエットを抽出し、肌色のピクセルを除去して、区別できないようにする。それから、この画像を上下部分がそれぞれ重なり合うように２分割し、色調成分と色彩成分のヒストグラムをそれぞれ構築する。ヒストグラムは対象ごとにラベルが付され、毎日平均化して、人物ごとに上部分と下部分の平均ヒストグラムを１つずつ毎日作成する。ある人物についてのヒストグラムの集まりを、Ｋ−ｍｅａｎｓ法（Ｋ＝５）により最終的にクラスター化して、Ｋのプロトタイプを含んだ衣服モデルを求める。クラス分けの段階で、正規化相互相関法を使って入力画像から算出したヒストグラムを、記憶してあるモデルと比較して、最近接モデルのラベルを用いて人物を識別する。なお、この他の衣服識別手法を用いてもよい。

映像シーケンスの各フレームについて、現在のフレームに特徴が認められない識別器には確率０を割り当てる。残りの識別器には均等に重み付けを行う。加えて、顔識別器に対しては、顔検出器の出力の強さに比例して重み付けを行うようにする。なお、直接的な識別器の組み合わせ、および本発明の実施形態に係る信頼度による客観評価に基づく識別器の組み合わせで用いられる多数決、総和、積の組み合わせ規則による結果は、先の米国特許出願番号第60/634,383号仮出願の図６および７に例示されている。

ここに記載されるシステムは、多様な処理環境において実装可能である。１つの事例においては、ＰＶＭライブラリバージョン３．４．３を用いてシステムを実装しており、様々な構成からなる複数の装置を１つの大規模なバーチャル装置にシームレスに統合している。識別システムのモジュール（例えば、組み合わせモジュールやこの他の重み付けおよび組み合わせ手段、識別器、および特徴抽出器など）を、例えば、ソフトウェア（例えば、Ｃ、Ｃ＋＋、この他のオブジェクト指向の指令セットなど）により実装することが可能である。
この実装事例では、組み合わせモジュール２６０をＷｉｎｄｏｗｓＸＰ^(R)（あるいは、ＭＡＣ^(R) ＯＳやＬｉｎｕｘ^(R) ＯＳなどのＯＳ）搭載のデュアルプロセッサ（ペンティアム^(R)４１．３ＧＨｚ以上など）コンピュータ上で毎秒１５フレームで動作させた。所望する用途の特殊性（例えば、特徴ストリームの複雑さ、所望のｆｐｓ、所望の実装コストなど）に応じて、この他の処理環境においても実装可能であることは、本発明の開示に照らして明らかである。ホストシステムは、音声・映像データの取得、バーチャル装置の管理およびデータベース運用のみならず、特徴抽出器のすべてを動作させる機能を有する。（ソフトウェア等に実装した）各識別器を、構成が類似する異なる装置上で個別に実行させることができるが、特定の構成によっては、話者識別器の実装が容易なＬｉｎｕｘ^(R)ＯＳ上で動作させることも可能である。繰り返すが、本発明は（ＯＳを含めた）多様かつ適切な処理環境で利用可能であり、特定のものに限定されない。前記した通り、識別結果は１５ｆｐｓで出力され、対象物（例えば、人物など）がシステムの「ビュー」（視覚的ビューおよびまたは聴覚的ビューを含む）に存在したときの約９８％の時間内において利用可能なものであった。

［方法］
ここに記載される組み合わせ手法の性能はセット単位のテストで測定されるのだが、このようなテストは、通常、次のようなステップで構成される：トレーニング用データ、検証用データ、テスト用データをそれぞれ生成し；ベースとなる識別器をトレーニングし；識別器アンサンブルを生成し；誤差率を算出する。

トレーニング用データ、検証用データ、テスト用データの生成：トレーニング用データ、検証用データ、テスト用データは、従来の手法あるいはカスタム手法により生成できる。１つの具体事例としては、（音声およびまたは画像等の）入力ストリームからすべてのトレーニング用データおよびテスト用データを手動介入なしに自動抽出してもよい。トレーニング用データおよびテスト用データの事例については、先の米国特許出願番号第60/634,383号仮出願の図３および５に示されている。トレーニング用データのセットは、例えば（例えば、コンピュータモデル化された）合成データ、（人間の顔などの）実際の画像データ、あるいは合成データと実データとの組み合わせであってもよい。合成データを識別器のトレーニングに用い、実データを識別器のテストに用いることができる。別の特定の実装事例では、ランダムな方法および共分散的手法を使って、データセットを５つの２次元ガウス分布から取り出す。ランダム手法は正規分布N ([0, 0]^T, 3 * I)から導かれ、共分散は、ウィッシャート分布W (I, 3)（単位共分散、自由度３度）から導かれたサンプルである。このようなサンプルデータのセットは、先の米国特許出願番号第60/634,383号仮出願に示されている。

基本識別器のトレーニング：本発明の開示において明らかであるように、識別器はこの他の構成（例えば、単クラスおよびまたは複クラスなど）であっても実装可能であるが、ここでは、５クラスの識別器について信頼度の重み付けによりトレーニングを行うものと仮定する。識別器は、トレーニング用データのセットおよび検証用データのセットの両方を用いてトレーニングできる。あるいは、トレーニング用データのセットのみで識別器をトレーニングすることも可能であり、この場合には、検証用データのセットは混同行列の算出のみに用いる。さらに、本開示において明らかであるように、特定の実施形態によっては、重み付けされた識別器Ｎ個を１セットとしてトレーニングする。これらの識別器のトレーニングに用いるトレーニング用データを９０％と１０％に分ける（本開示において明らかであるように、別の実施形態においては異なるパーセンテージでもよい）。より詳細には、まず、各識別器をトレーニング用データのうち９０％のサブセットについてトレーニングさせる。次に、残り１０％のトレーニング用データについて信頼度を算出する。テスト用データをクラス分けした後、（前記の式３または式４から）求めた分布により各スコアの重み付けを行う。これにより得られた出力を、多数決、積、総和などの組み合わせ規則に従って組み合わせてもよい。なお、ここでは識別器を二次の多項式カーネルを有するＳＶＭとして実装すると仮定する。識別器は、例えば、ＳＶＭＦｕパッケージ等を用いてトレーニングやテストを行うことができる。

識別器アンサンブルの生成：識別器の平均値をランダムに摂動してアンサンブルを生成することができる。なお、この他にも識別器のアンサンブルを生成する方法が可能であることは本開示により明らかである。

誤差率の算出：テスト用データセットについて識別器アンサンブルの性能を算出する。前記のように、従来の「識別器ごと」ではなく、（あるいはこれを併用した）「クラスごと」の信頼度重み付けによる客観評価手法により、識別システムの性能を向上させることができる。識別器スコアのセット（事後確率）がある場合には、スコアが閾値未満のサンプルを除外した事後値の全範囲で閾値を変化させることができる。残りのポイントについての誤差率を算出し、これをデータセットの当該分数にプロットする。テスト用データセットは、前記の通り、対象物（人物や物など）の画像およびまたは音声を所定の記録装置を使って取得することで生成できる。テスト用データセットのサブセット（例えば１０％）をトレーニング用データに割り当てて、当該セットの残りのサブセット（例えば９０％）について再トレーニングさせたシステムを評価することで、従来の重み付け手法と比較して、識別率が向上した。さらに、個々の識別器を再トレーニングすることなく、当該テスト用データセットのサブセット（例えば１０％）について識別器の重み付けを再算出した場合にも性能が向上した。つまり、トレーニング用データセットを拡張させたもの（例えば、トレーニング用データセット＋対象のテスト用データセットのサブセット（顔識別器のトレーニング用の顔実画像やこの他の対象のテスト用データなど））について識別器を再トレーニングすることで、識別器システムの性能を向上させることができる。また、個別に識別器に変更を加えることなく識別器の重み付けを再算出することで性能が向上する。したがって、ここに記載するように、信頼度を組み込んだ重み付けアルゴリズム（confidence-based weighting algorithm）を用いて、例えば、識別器すべてを再トレーニングするには時間がかかりすぎて不可能な場合などの用途においても、オンライン学習を実施することが可能となる。

図６は、本発明の実施形態に係る客観評価に基づく識別器の組み合わせによるマルチモーダルな識別方法を示している。この方法は、例えば、図２から図５を参照して説明したシステムを用いて実施することができる。前記の通り、システムの機能は、プロセッサの適切な環境においてソフトウェアを実行させることにより実現される。しかしながら、この他の実施形態では、ハードウェア（例えば、ゲートレベルやＡＳＩＣなど）やファームウェア（例えば、マイクロフォンおよびまたはカメラからのデータを入力するためのＩ／Ｏ機能を備えたマイクロコントローラ、特徴抽出を実行するルーチン、クラス分け、信頼度を組み込んだ重み付け、あるいは前記の通りにこれらを組み合わせたもの）によっても実現可能である。

本方法では、まず、１つ以上の音声ストリームと１つ以上の映像ストリームを含んだ複数の特徴ストリームを生成する（Ｓ６０５）。この場合、生成された特徴ストリームは映像または音声のみであってもよい。映像（または他の画像）、音声のいずれから取得した特徴であっても本発明の実施形態によって多種多様なクラスに分けることが可能である。

次に、特徴ストリームを（例えばデータベースなどに）記憶する（Ｓ６１０）。前記で説明した通り、データベースシステムを用いて、タイムスタンプ、ファイル名、記録状態および現在のシステムのパラメータの少なくとも１つを含んだ記録を（特徴ストリームごとに）生成し、これを記憶装置に記憶する。次に、１つ以上の特徴ストリームにおいて捉えた複数の対象特徴をクラス分けする（Ｓ６１５）。このとき、あらゆるクラス分け手法を用いて対象物の予測や識別を行う。

さらに、前記で説明したようなクラスごとの重み付けの手法に従って各予測値について重み付けを行う（Ｓ６２０）。特定の実施形態によっては、まず、トレーニング用データのサブセットについて識別器をトレーニングし、それから、トレーニング用データの残りのサブセットに基づいて信頼度を算出してもよい。この場合、（例えば、組み合わせモジュール２６０により実行される）クラスごとの重み付け手法には、前記の算出で得られた信頼度により識別器を重み付けすることも含まれる。いずれの場合においても本方法では、さらに、個別に重み付けした予測を共同予測として組み合わせる（Ｓ６２５）。この共同予測を使って、対象物が人物、物、出来事のいずれであろうとも、特徴ストリームに含まれるこの対象物を特定することができる。

本発明の実施形態に関する前記の説明は、例示的に説明するためになされたものであり、本発明を開示されたままの形態に限定するものではなく、開示さらも分かるように、様々な修正や変更が可能である。本発明の範囲は、このような詳細な説明により限定されるものではなく、むしろ添付の特許請求の範囲により限定されるべきである。

ある人物のビデオクリップから抽出した音声特徴および映像特徴を集めて時間軸に配置したストリームで示したものであり、ストリーム中の特徴の存在を色で表している。本発明の１つの実施形態に係るマルチモーダル識別システムの構成を示すブロック図である。本発明の実施形態に係る構成を有するラベル付けサブシステムのユーザーインターフェースの画面画像を示す図である。本発明の実施形態に係る構成を有する分散型マルチモーダル識別システムのブロック図である。本発明の実施形態に係る構成を有する分類器サブシステムの動作中のＵＩ画面を示す例である。本発明の実施形態に係る客観評価に基づく識別器の組み合わせによるマルチモーダルな識別方法を示す図である。

Claims

１つ以上のプロセッサと、
各々が、前記１つ以上のプロセッサの１つで実行され、１つ以上の特徴ストリームにおいて捉えた対象の特徴をクラス分けする複数のマルチクラス識別器と、
各識別器からの予測値にクラスごとの重み付け手法に従って重み付けを行った後に、前記識別器の出力を組み合わせて共同予測を生成する組み合わせモジュールと、
を備え、
前記組み合わせモジュールによるクラスごとの重み付けは下式に基づいて行われることを特徴とするマルチクラス識別器の組み合わせシステム。
前記システムにアクセス可能であり、ユーザが選択したラベル付け手法に従って記憶された特徴ストリームにラベル付けを行うラベル付けサブシステムをさらに備えることを特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
前記特徴ストリームを記憶する記憶装置と、
前記特徴ストリームの各々について、タイムスタンプ、ファイル名、記録状態および現在のシステムのパラメータの１つ以上を含む記録を生成し、この記録を前記記憶装置に記憶するデータベース管理部と、
をさらに備えることを特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
対象のシーンから１つ以上の音声ストリームおよび１つ以上の映像ストリームを含む前記特徴ストリームを生成するデータログサブシステムをさらに備えることを特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
前記データログサブシステムは、前記対象のシーンに存在する対象物の検出に応答して、特徴ストリームの生成を開始するような検出器を備えることを特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
トレーニング用データのサブセットについて識別器をトレーニングし、
前記トレーニング用データのサブセットの残りに基づいて信頼度を算出し、さらに、
前記組み合わせモジュールにより実行されるクラスごとの重み付けには、この算出した信頼度により前記識別器の出力を重み付けすることが含まれること
を特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
組み合わせモジュールによるクラスごとの重み付けは、信頼度を使った各識別器の出力の重み付けに基づき、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものである
ことを特徴とする請求項１に記載のマルチクラス識別器の組み合わせシステム。
クラスごとの重み付け手法により各マルチクラス識別器の予測値の重み付けを行い、
複数のマルチクラス識別器からの重み付けした予測値を組み合わせ、
前記クラスごとの重み付けは下式に基づいて行われる、
諸ステップを実行するプロセッサを使用することを特徴とする複数のマルチクラス識別器の予測値を用いたマルチクラス識別器の組み合わせ方法。
前記特徴ストリームを記憶し、
タイムスタンプ、ファイル名、記録状態、現在のシステムのパラメータの少なくとも１つを含む記録を特徴ストリームごとに生成し、この記録を記憶装置に記憶する予備ステップをさらに備える
ことを特徴とする請求項８に記載のマルチクラス識別器の組み合わせ方法。
対象のシーンから１つ以上の音声ストリームおよび１つ以上の映像ストリームを含む特徴ストリームを生成し、
第１のマルチクラス識別器を用いて１つ以上の特徴ストリームにおいて捉えた第１の対象の特徴をクラス分けし、
第２のマルチクラス識別器を用いて１つ以上の特徴ストリームにおいて捉えた第２の対象の特徴をクラス分けする予備ステップをさらに備える
ことを特徴とする請求項８に記載のマルチクラス識別器の組み合わせ方法。
前記対象のシーンに存在する対象物の検出に応答して前記特徴ストリームの生成を開始すること
を特徴とする請求項１０に記載のマルチクラス識別器の組み合わせ方法。
クラスごとの重み付けは、信頼度により各識別器の出力を重み付けすることに基づいて行われるとともに、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものであること
を特徴とする請求項８に記載のマルチクラス識別器の組み合わせ方法。
トレーニング用データのサブセットについて１つ以上のマルチクラス識別器をトレーニングし、
前記トレーニング用データのサブセットの残りについて信頼度を算出し、さらに、前記クラスごとの重み付けには、この算出した信頼度により１つ以上の前記識別器の出力を重み付けすることが含まれる予備ステップをさらに備えること
を特徴とする請求項８に記載のマルチクラス識別器の組み合わせシステム。
第１のマルチクラス識別器を使って１つ以上の特徴ストリームにおいて捉えた第１の対象特徴をクラス分けする手段と、
第２のマルチクラス識別器を使って１つ以上の特徴ストリームにおいて捉えた第２の対象特徴をクラス分けする手段と、
クラスごとの重み付けにより各マルチクラス識別器の予測値を重み付けする手段と、
第１および第２のマルチクラス識別器からの重み付けされた予測を組み合わせて共同予測を生成する手段を実行するプロセッサからなり、
前記クラスごとの重み付けは下式に基づいて行われること
を特徴とするマルチクラス識別器の組み合わせシステム。
プロセッサにより実行された場合に、前記プロセッサが、複数のマルチクラス識別器の予測値を使ってマルチクラス識別器の組み合わせ処理を実行するような指令を符号化したコンピュータ読み取り可能な媒体であって、
クラスごとの重み付け手法により各マルチクラス識別器の予測値の重み付けを行い、
複数のマルチクラス識別器からの重み付けされた予測値を組み合わせて共同予測を生成し、
前記クラスごとの重み付けは下式に基づいて行われること
を特徴とするコンピュータ読み取り可能な媒体。
１つ以上のプロセッサと、
各々が、前記１つ以上のプロセッサの１つで実行され、１つ以上の特徴ストリームにおいて捉えた対象の特徴をクラス分けする複数のマルチクラス識別器と、
各識別器からの予測値にクラスごとの重み付け手法に従って重み付けを行った後に、前記識別器の出力を組み合わせて共同予測を生成する組み合わせモジュールと、
を備え、
前記組み合わせモジュールによるクラスごとの重み付けは下式に基づいて行われることを特徴とするマルチクラス識別器の組み合わせシステム。
クラスごとの重み付け手法により各マルチクラス識別器の予測値の重み付けを行い、
複数のマルチクラス識別器からの重み付けした予測値を組み合わせ、
前記クラスごとの重み付けは下式に基づいて行われる、
諸ステップを実行するプロセッサを使用することを特徴とする複数のマルチクラス識別器の予測値を用いたマルチクラス識別器の組み合わせ方法。
プロセッサにより実行された場合に、前記プロセッサが、複数のマルチクラス識別器の予測値を使ってマルチクラス識別器の組み合わせ処理を実行するような指令を符号化したコンピュータ読み取り可能な媒体であって、
クラスごとの重み付け手法により各マルチクラス識別器の予測値の重み付けを行い、
複数のマルチクラス識別器からの重み付けされた予測値を組み合わせて共同予測を生成し、
前記クラスごとの重み付けは下式に基づいて行われること
を特徴とするコンピュータ読み取り可能な媒体。