JP6823449B2

JP6823449B2 - 画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品（サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム）

Info

Publication number: JP6823449B2
Application number: JP2016246240A
Authority: JP
Inventors: シャラスチャンドラ、ウマパシラオ、パンカンティ; アーヴィンド、クマール; ヤヌシュ、マレツキ; カウス、バン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-12-31
Filing date: 2016-12-20
Publication date: 2021-02-03
Anticipated expiration: 2036-12-20
Also published as: US9870503B2; GB2547752A; CN106934337A; US10025981B2; JP2017120631A; US20180121723A1; GB2547752B; DE102016222036A1; GB201621726D0; CN106934337B; US20170193294A1

Description

本開示は、機械ビジョンに関し、より詳細には、サッカディック・ビジョン（saccadicvision）に対して構成されるコンピュータ・ビジョン・システムに関する。

多くの機械学習手法は、画像内のオブジェクトを、画像内のすべての画素の並列処理により認識するように努める。これらの方法は、計算的に不経済であり得る。

本発明の課題は、画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品を提供することである。

本発明の例示的な実施形態によれば、画像検出デバイスを動作させる方法は、画像を受信するステップと、画像を複数のパッチに分割するステップと、複数のパッチのパッチをグループ化するステップと、画像の複数のパッチを通るサッカディック・パス（saccadic path）のセットを生成するステップと、クラスタ−方向シーケンスを、各々のサッカディック・パスに対して生成するステップと、新しい画像内のオブジェクトを識別するためのポリシー機能を、クラスタ−方向シーケンスの組合せを使用して生成するステップと、画像検出デバイスを、ポリシー機能を使用して動作させて、新しい画像内のオブジェクトを識別するステップとを含む。

本発明の例示的な実施形態によれば、画像検出デバイスを動作させる方法は、画像を受信するステップと、画像を複数のパッチに分割するステップと、クラスタ−方向シーケンスを、調査されることになる複数のサッカディック・パスの各々に対して生成するステップであって、複数のサッカディック・パスはポリシー・マトリックスにより与えられる、生成するステップと、画像内のオブジェクトを、クラスタ−方向シーケンスを使用して識別するステップとを含む。

本明細書では、アクションを「促進すること」は、アクションを実行すること、アクションをより容易にすること、アクションを実行する一助となること、または、アクションを実行させることを含む。したがって例としてであって、限定としてではなく、１つのプロセッサ上で実行する命令は、リモート・プロセッサ上で実行する命令により実行されるアクションを促進することを、アクションを実行させる、または、実行することになるアクションの助力となるための、適切なデータまたはコマンドを送信することにより行い得る。誤解を避けるために、アクタがアクションを、アクションを実行すること以外により促進する場合、アクションはそれでも、何らかのエンティティ、またはエンティティの組合せにより実行される。

本発明、またはその要素の、１つまたは複数の実施形態は、指示する方法ステップを実行するためのコンピュータ使用可能プログラム・コードを伴うコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品の形式で実装され得る。さらに、本発明、またはその要素の、１つまたは複数の実施形態は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作可能である、少なくとも１つのプロセッサとを含む、システム（または装置）の形式で実装され得る。その上さらに、別の態様では、本発明、またはその要素の、１つまたは複数の実施形態は、本明細書で説明する方法ステップの１つまたは複数を実行するための手段の形式で実装され得るものであり、手段は、（ｉ）ハードウェア・モジュール、（ｉｉ）コンピュータ可読記憶媒体（または、複数個のそのような媒体）に記憶され、ハードウェア・プロセッサ上で実装されるソフトウェア・モジュール、または、（ｉｉｉ）（ｉ）および（ｉｉ）の組合せを含み得るものであり、（ｉ）〜（ｉｉｉ）の任意のものが、本明細書で論述する特定の技法を実装する。

本発明の技法は、実質的に有益な技術的効果を提供し得る。例えば１つまたは複数の実施形態は、以下の利点の１つまたは複数を提供し得る。
・コンテキストに依存する、関連性のあるオブジェクトの迅速な識別
・各々のフレームが明確に以前のものに関係付けられる、ビデオでのような、一連のフレームを通しての１つまたは複数のオブジェクトの時間的な追尾
・画像の部分的な処理のみによる、より低いエネルギー

本発明のこれらおよび他の、特徴および利点は、付随する図面とともに読むことになる、本発明の例示的な実施形態の以下の詳細な説明から明らかとなろう。

本発明の好ましい実施形態を、付随する図面を参照して、下記でより詳細に説明する。

本発明の例示的な実施形態による、ポリシー機能をトレーニングするための方法を示すフロー図である。本発明の例示的な実施形態による、トレーニング画像およびパッチ・マップを示す図である。本発明の例示的な実施形態による、画像の例示的な符号化を示す図である。本発明の例示的な実施形態による、トレーニング画像およびクラスタＩＤマップを示す図である。本発明の例示的な実施形態による、トレーニング画像、クラスタ表現、および再構築を示す図である。本発明の例示的な実施形態による、例示的なパス、方向符号化、およびサッカディック・パス符号化を示す図である。本発明の例示的な実施形態による、トレーニング画像、例示的なサッカディック・パス、クラスタＩＤ、サッカディック・パス符号化、およびクラスタ・シーケンス符号化を示す図である。本発明の例示的な実施形態による、ポリシー機能を使用して画像を分析するための方法を示すフロー図である。本発明の例示的な実施形態による、サッカディック・パスを誘導するための学習されるポリシーを使用する試験セット正確度の、ランダムに選定される方向性ステップと対比してのグラフである。本発明の例示的な実施形態による、シーケンス頻度テーブルの図である。本発明の例示的な実施形態による、シーケンス頻度テーブルの図である。本発明の例示的な実施形態による、試験セットに関するコンピュータ・ビジョン・システムの正確度のグラフである。本発明の実施形態による、トレーニング方法のフロー図である。本発明の例示的な実施形態による、ポリシー機能を使用して画像を分析するための方法を具現化する例示的なコンピュータ・システムを図示するブロック図である。

本発明の例示的な実施形態によれば、オブジェクトを認識することに対して構成される、サッカディック・ビジョンに対するポリシーが開発される。ポリシーの目標は、画像の連続的な部分がアンカバード（uncovered）である際に、追尾する最適な方向に関する誘導を提供して、関心のあるオブジェクトを識別する公算を高くすることである。

本発明の実施形態によれば、コンピュータ・ビジョン・システムは、画像内のオブジェクトを識別することを、画像の内部の初期位置で開始し、画像を通るパスを決定することにより行うものであり、その場合パスは、オブジェクトの識別情報を識別するために使用される。本発明の実施形態によれば、画像のコンテキストがさらに考慮される場合があり、そのコンテキストは、以前の観測、および、探索されているものに対する目標を含み得る。コンピュータ・ビジョン・システムは、コンテキストに依存する、関連性のあるオブジェクトの迅速な識別、各々のフレームが明確に以前のものに関係付けられる、ビデオでのような、一連のフレームを通しての１つまたは複数のオブジェクトの時間的な追尾、および、画像の部分的な処理のみによる、より低いエネルギーを含む利点を有する、サッカディック・ビジョンに対して構成される。

本発明の例示的な実施形態によれば、ポリシー機能をトレーニングするための方法１００は、トレーニング・セット内の各々の画像を、パッチと称する、いくつかのより小さなサブ画像に分割するステップ１０１を含む。パッチは、互いに重なる場合がある（明瞭性のためにここでは示されない）。図２で示されるように画像２０１は、１６個のパッチ、および、２０２として示される対応するpatchIDに分割される。

本発明の少なくとも１つの実施形態では、異なるパッチは、異なるサイズを有する。パッチは、異なるサイズであり得るものであり、そのことは、同じ画像が、異なるサイズを設定されるパッチを必然的に含んで、異なる分解能で処理される場合があるという意味でのものであり、または同じ画像において、その場合例えば、より大きな中心のパッチが、より小さな周辺のパッチにより包囲される場合がある。

ブロック１０２で、トレーニング・セット内のパッチの大きなサンプリングのスパース表現が生成される。スパース表現は、スパース・オート・エンコーダにより生成され得る。表現は、隠れ層でのユニットを含み、継続的に変動する値を有する。例えば図３は、２５６０個の代表的なパッチに対する１００ユニット・スパース表現を含む、図２の画像の符号化３０１を示す。符号化３０１では、白い斑点が、より高い値を指示する。

ブロック１０３で、パッチは、パッチを離散的なクラスタにグループ化するようにクラスタリングされる。本発明の実施形態によれば、クラスタリングは、ｋ平均クラスタリング・アルゴリズムを使用して実行され得る。図４および図５で示される１つの例では、クラスタが、スパース表現を３２個のクラスタに、ｋ平均クラスタリングおよび対応するクラスタＩＤを使用してグループ化することにより見出される。言い換えれば、図４および図５はマイクロ・サッカード・ポリシーを例解する。図４は、トレーニング画像４０１のある決まったクラスタに対応するクラスタＩＤ４０２を示す。図５は、トレーニング画像５０１、クラスタ表現５０２、および、クラスタ表現を使用するパッチの例示的な再構築５０３を例解する。

ブロック１０４で、すべての画像に適用され得る、サッカディック・パスのセットが生成される（６０１、図６を確認されたい）。これは、画像内のすべての可能なパス（例えば、小さな画像では実現可能である）、またはそれらのサブセット（例えば、大きな画像に対して、より適する）であり得る。各々のパスは、[(patchID 1)(direction 1)(patchID 2)(direction 2)(patchID3)...(direction n)(patchID n+1)]などのフォーマットで符号化され、その場合、ｎ個のステップのサッカードに対して、patchID iは、ステップｉでのパッチの場所であり、direction iは、パッチｉからパッチｉ＋１への方向である。方向は、例えば６０２として示されるように符号化され得るものであり、その場合、上方向が「２」に対応する、右方向が「４」に対応する、などとなる。６０２の例示的な方向性符号化を使用して、パス６０１を符号化することが、patchID ６、１０、１１、および１２、ならびにdirection ４、６、および６を含むサッカディック・パス符号化６０３をもたらす。

ブロック１０５で、トレーニング・セット、例えば７０１内の各々の画像が、セット内のサッカディック・パスの各々を使用してスキャンされる。各々のサッカディック・パスに対して、例えば７０２は、以降はクラスタ−方向シーケンス７０４と称する、patchIDが、画像内で見出されるclusterID（７０３を確認されたい）により置換されるシーケンスを創出する。[(clusterID 1)(direction 1)(clusterID 2)(direction 2)(clusterID3)...(direction n)(clusterID n+1)]

ブロック１０６で、sequenceIDによってラベリングされ得る、各々のそのようなシーケンスに対して、システムは、画像ラベルであって、それに対してそのシーケンスが見出された画像ラベルを記録および集計する。このプロセスは、以降はシーケンス−頻度テーブル（例えば、テーブル１０００、図１０を確認されたい）と称する、各々のsequenceIDと、そのシーケンスが各々の画像ラベルに対して発生した頻度とを伴うテーブルを創出する。最も顕著なシーケンスは、１つのみの、または小さな数の画像ラベルに対する高い頻度を伴うものである。顕著および非顕著なシーケンスの例が、テーブル１０００で示される。ハイライト表示された行１００１は、数字５に対して、他の数字に対してよりはるかに頻繁に発生する、顕著なシーケンスを示す。

本発明の実施形態によれば、sequenceIDは、そのシーケンスが過去に遭遇したクラス／オブジェクトすべてに関連付けられる。そのシーケンスが特定のクラス／オブジェクトに関して見られた頻度が、シーケンス−頻度テーブルで与えられる。sequenceIDは、一意的なクラス／オブジェクトに関連付けられることが、そのクラス／オブジェクトがその特定のシーケンスにより一意的に識別可能である場合に行われ得る。

ブロック１０７で、シーケンス−頻度テーブルは、連続的なパッチがアンカバードである際に方向選定を誘導し得る、ポリシー・マトリックスとして記憶されるポリシー機能を生成するために使用される。ポリシー機能は、所与のクラスタで開始するすべてのクラスタ−方向シーケンスを先読みで捜すことにより創出される。各々のそのような所与のクラスタに対して、ポリシー機能は、各々の可能な方向を調査し、それを、そのクラスタ−方向組合せで開始するあらゆる可能なサッカディック・パスを通して再帰的に追尾する。ポリシー機能は次いで、その方向に対するスコアを、そのクラスタ−方向開始による各々のシーケンスに対する正しい識別の公算の頻度重み付き平均をとることにより計算する。ポリシー・マトリックスは再帰的に生成されるので、[clusterID-direction-clusterID ...]の連続的な組合せに対するスコアが、さらにポリシー・マトリックスに記憶され、そのことは、連続的なパッチがアンカバードであり、新しい情報が取得される際に、スコアが順応することを可能とする。

ブロック１０８で、新しい画像が、試験セットで提示される（フロー８００、図８を確認されたい）。本発明の実施形態によれば、試験画像内の初期パッチが、画像内の顕著な特徴を識別するために、ランダムに、さもなければ、既知の技法を使用して選定される（８０１）。試験画像の選定されたパッチで開始して、パッチの近隣のグループが、反復して選択される。ブロック８０２で、選択されたパッチが属するクラスタが識別される。ブロック８０３で、試験画像の正しい識別または認識の公算に関連付けられる確信度が評価される。連続的なパッチが選択される際に、選択されたパッチに起因する新しい情報が、８０６で、新しい、または更新された方向を生成するために、ポリシー・マトリックスへの入力として使用され得る。方向は、次に選択されることになるパッチを指す（さらに、図６を確認されたい）。パッチは、正しい認識の容認可能な公算が達成される（ブロック８０３を確認されたい）、または、サッカードの最大数に達してしまう（ブロック８０４を確認されたい）まで、連続的に選択される。ブロック８０６で、ポリシー・マトリックスが、新しい、または更新された方向を生成するために使用される。正しい認識の公算が達成される、または、サッカードの最大数に達してしまうと、システムは、試験画像の画像クラスを識別する。

画像の識別は確信度に関連付けられるということ、および、識別は、確信度がしきい値確信度を満たすと行われるということを理解すべきである。しきい値確信度は、主題の専門家によりあらかじめ決定される、デフォルトにセットされる、トレーニング・セッションの間にセットされる、その他である場合がある。

本発明の実施形態によれば、システムはオンライン学習モードを有し、そのモードではポリシー・マトリックスが、そのポリシーを、それが試験セットで行う各々の新しい観測の成果に基づいて調整する。

図９は、本発明の例示的な実施形態による、サッカディック・パスを誘導するための学習されるポリシーを使用する試験セット正確度（９０２）の、ランダムに選定される方向性ステップ（９０３）と対比してのグラフ９００である。

本発明の１つまたは複数の実施形態によれば、画像を識別する方法（図１３を確認されたい）では、コンピュータ・システムは、ブロック１３０１で、試験セット内の新しい画像を受信する。以前に決定されたサッカディック・パス（例えば、トレーニングの間に決定するもの）のセットが、試験画像に適用される。各々のサッカディック・パスに対して、コンピュータ・システムは、ブロック１３０２で、patchIDが、画像内で見出されるclusterIDにより置換されるシーケンスを創出する。各々のシーケンスに対して、コンピュータ・システムは、ブロック１３０３で、シーケンスがトレーニング・セット内の各々の画像に対して発生した頻度を、シーケンス−頻度テーブルを使用して検索し、以前に遭遇しなかったシーケンスを破棄する。見出された各々のシーケンスに対して、コンピュータ・システムは、ブロック１３０４で、頻度を正規化して、認識クラス内の各々のオブジェクトに対する確率を与え、これらの確率の平均をとり、場合によっては、各々のシーケンスを、シーケンスの顕著性、および、発生のその総合的な頻度を反映する因子により重み付けする。多数のサッカードにわたる情報を組み合わせることにより、コンピュータ・システムは、ブロック１３０５で、受信された画像の画像クラスを識別する。

図１２、グラフ１２００で示される正確度を伴う、ラベル「９」（１１０１）を伴う試験画像に適用されるシーケンス頻度テーブル１１００のサンプル行、および、すべての行にわたる正規化された総和が、図１１で示される。

概括

本発明の実施形態によれば、方法は、まとめると画像の分類につながる、画像内の特定の顕著な特徴を識別することを、顕著な特徴のセットが、高い確率を伴って、一意的なクラスを識別し得るかどうかを判定することにより決定する。分類は、他のクラスの段階的除外によって行われる。クラスの例は、９つのMNIST数字（手書き数字のMixed National Institute ofStandards and Technology database）、または、ImageNet（WordNet階層によって組織化される画像データベース）内の画像クラス、例えば猫、犬、飛行機、その他を含む。

１つの例示的な実装形態では、入力画像を与えられると、方法は、開始パッチをオープンし、それがある種類の動物であるということを認知するが、充分な確信度を伴って、どの動物であるかは分からない。ポリシー・マトリックスは、動物の頭を含むと考えられる画像のある決まった小部分の中心に向かって捜すように方法を誘導するものであり、そのことは、１つまたは複数のタイプの動物を除外する助けになる（例えば、方法は、鳥を除外するが、犬、猫、および馬を除外しないことが可能である）。ポリシー・マトリックスに基づいて方法は、次の鑑別する顕著な特徴は耳であるということを理解し、方法は、上方に進んで、耳を含むと考えられる画像の小部分を調べる。この追加的な情報を与えられると、方法は、高い確信度を伴って、画像が犬の類であるということを認識するが、依然として何の品種かは分からない。それが犬であると判断することの認定は、そのポリシー・マトリックスを顧慮することを必然的に含むものであり、そのポリシー・マトリックスは、処理されている、または「見られている」特定のシーケンスが、すべての過去の例において、犬と分類されていたということを見出すものである。再びポリシー・マトリックスを顧慮して、方法は、犬のクラスの内部で、ジャーマン・シェパードまたはプードルなどの品種の間で鑑別することが可能である、犬のより細かい特徴を求めてどこを捜すべきかを知る。クラスは、階層内の粒度の任意のレベル、例えば動物、犬、プードル、その他であってよい。

本開示の実施形態の方法論は特に、電子デバイスまたは代替的システムでの使用に良好に適したものであり得る。したがって本発明の実施形態は、全体的にハードウェアの実施形態、または、ソフトウェアおよびハードウェアの態様を組み合わせる実施形態の形式をとり得るものであり、それらの実施形態はすべて一般的に、本明細書では「プロセッサ」、「回路」、「モジュール」、または「システム」と称する場合がある。

さらに、本明細書で説明する方法の任意のものは、サッカディック・ビジョン能力を有するコンピュータ・システムを提供する追加的なステップを含み得るということに留意すべきである。さらにコンピュータ・プログラム製品は、別個のソフトウェア・モジュールのシステムへの提供を含めて、本明細書で説明する１つまたは複数の方法ステップを実行するために実行されるように適合させたコードを伴う有形のコンピュータ可読記録可能記憶媒体を含み得る。

図１４を参照すると、図１４は、本発明の実施形態による、サッカディック・ビジョン能力（図１を確認されたい）を有するコンピュータ・システムを具現化する例示的なコンピュータ・システムを図示するブロック図である。図１４で示されるコンピュータ・システムは、プロセッサ１４０１、メモリ１４０２、ディスプレイ１４０３、入力デバイス１４０４（例えば、キーボード）、ネットワーク・インターフェイス（Ｉ／Ｆ）１４０５、媒体Ｉ／Ｆ１４０６、および、信号源、例えばカメラ、ハード・ドライブ（ＨＤ）、外部メモリ・デバイス、その他などの媒体１４０７を含む。

異なる用途では、図１４で示される構成要素の一部は省略され得る。図１４で示される全体のシステムは、一般的には媒体１４０７に記憶される、コンピュータ可読命令により制御される。ソフトウェアは、ネットワーク（図では示されない）からダウンロードされ、媒体１４０７に記憶される場合がある。代替的に、ネットワークからダウンロードされるソフトウェアは、メモリ１４０２内にロードされ、ソフトウェアにより決定される機能を完了するように、プロセッサ１４０１により実行される場合がある。

プロセッサ１４０１は、本開示で説明する１つまたは複数の方法論を実行するように構成され得るものであり、本開示の例示的な実施形態は、上記の図で示され、本明細書で説明されている。本発明の実施形態はルーチンとして実装され得るものであり、そのルーチンは、メモリ１４０２に記憶され、媒体１４０７からの信号を処理するためにプロセッサ１４０１により実行される。したがってコンピュータ・システムは、本開示のルーチンを実行する時に専用コンピュータ・システムになる、汎用コンピュータ・システムである。

図１４で説明するコンピュータ・システムは、本開示による方法をサポートすることが可能であるが、このシステムは単に、コンピュータ・システムの１つの例である。当業者であれば、他のコンピュータ・システム設計が、本発明の実施形態を実装するために使用され得るということを理解するはずである。

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるための、コンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体（または、複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または、前述のものの任意の適した組合せであり得るが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリー・スティック（Ｒ）、フロッピィ（Ｒ）・ディスク、命令が記録されるパンチ・カードまたは溝内の一段高い構造などの機械的に符号化されるデバイス、および、前述のものの任意の適した組合せを含む。コンピュータ可読記憶媒体を、本明細書では、本質的には、電波もしくは他の自由伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または、電線を介して伝送される電気信号などの、一時的な信号であると解釈すべきではない。

本明細書で説明するコンピュータ可読プログラム命令は、それぞれのコンピューティング／処理デバイスにコンピュータ可読記憶媒体から、あるいは、外部コンピュータまたは外部記憶デバイスに、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せを介してダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備え得る。各々のコンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスが、コンピュータ可読プログラム命令をネットワークから受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイスの内部のコンピュータ可読記憶媒体での記憶のために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態セッティング・データ、または、１つもしくは複数のプログラミング言語の任意の組合せで書き表される、ソース・コードもしくはオブジェクト・コードのいずれかであり得るものであり、それらのプログラミング言語は、Smalltalk（Ｒ）、Ｃ＋＋、または類するものなどのオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上で、および部分的にリモート・コンピュータ上で、または、全体的にリモート・コンピュータもしくはサーバ上で実行し得る。後の方のシナリオではリモート・コンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介して接続され得るものであり、または接続は、外部コンピュータに対して（例えば、インターネットを介して、インターネット・サービス・プロバイダを使用して）行われ得る。一部の実施形態では、例えば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ）を含む電子回路網が、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電子回路網をパーソナライズすることにより、コンピュータ可読プログラム命令を実行し得る。

本発明の態様を、本明細書では、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の、フローチャート例解またはブロック図あるいはその両方を参照して説明している。フローチャート例解またはブロック図あるいはその両方の各々のブロック、および、フローチャート例解またはブロック図あるいはその両方でのブロックの組合せは、コンピュータ可読プログラム命令により実装され得るということが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定される機能／行為を実装するための手段を創出するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はさらには、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定される機能／行為の態様を実装する命令を含む製造品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに、特定の様式で機能するように指図するものであってもよい。

コンピュータ可読プログラム命令はさらには、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定される機能／行為を実装するように、コンピュータ実装プロセスを生み出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図でのフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を例解するものである。この点に関して、フローチャートまたはブロック図での各々のブロックは、指定される論理機能を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または小部分を表し得る。一部の代替的実装形態では、ブロックで記される機能は、図で記される順序から外れて行われる場合がある。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行される場合があり、またはブロックは時には、必然的に含まれる機能性に依存して、逆の順序で実行される場合がある。ブロック図またはフローチャート例解あるいはその両方の各々のブロック、および、ブロック図またはフローチャート例解あるいはその両方でのブロックの組合せは、指定される機能もしくは行為を実行する、または、専用ハードウェアおよびコンピュータ命令の組合せを実行する、専用ハードウェア・ベースのシステムにより実装され得るということが、さらに留意されよう。

本明細書で使用する専門用語は、単に特定の実施形態の説明を目的とするものであり、本発明について限定的であることは意図されない。本明細書では単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈で明確に別段に指示しない限り、複数形もまた含むことが意図される。用語「備える（３人称単数現在形）」または「備える（現在分詞形）」あるいはその両方は、本明細書で使用する時は、説述する特徴、整数、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を指定するが、１つまたは複数の、他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはその組合せの、存在または追加を排除しないということが、さらに理解されよう。

下記の特許請求の範囲での、すべてのミーンズ・プラス・ファンクションまたはステップ・プラス・ファンクションの要素の、対応する構造、材料、行為、および均等物は、具体的に請求するように、他の請求する要素と組み合わせて機能を実行するための、任意の構造、材料、または行為を含むことが意図される。本発明の説明は、例解および説明の目的のために提示したが、網羅的であること、または、開示されている形式での本発明に限定されることは意図されない。多くの変更および変形が、本発明の範囲および趣旨から逸脱することなく、当業者には明らかとなろう。実施形態は、本発明の原理、および実際的な用途を最良に解説するために、ならびに、他の当業者が、企図される特定の使用に適するような様々な変更を伴う様々な実施形態のために、本発明を理解することを可能にするために、選定および説明されたものである。

２０１画像
２０２ patchID
３０１符号化
４０１トレーニング画像
４０２クラスタＩＤ
５０１トレーニング画像
５０２クラスタ表現
５０３クラスタ表現を使用するパッチの例示的な再構築
６０１パス
６０３サッカディック・パス符号化
７０１トレーニング・セット
７０４クラスタ−方向シーケンス
１４０１プロセッサ
１４０２メモリ
１４０３ディスプレイ
１４０４入力デバイス
１４０５ネットワーク・インターフェイス（Ｉ／Ｆ）
１４０６媒体Ｉ／Ｆ
１４０７媒体

Claims

画像検出デバイスを動作させる方法であって、
画像を受信するステップと、
前記画像を複数のパッチに分割するステップと、
前記複数のパッチのパッチをグループ化するステップと、
前記画像の前記複数のパッチを通るサッカディック・パスのセットを生成するステップと、
クラスタ−方向シーケンスを、各々のサッカディック・パスに対して生成するステップと、
新しい画像内のオブジェクトを識別するためのポリシー機能を、前記クラスタ−方向シーケンスの組合せを使用して生成するステップと、
前記画像検出デバイスを、前記ポリシー機能を使用して動作させて、前記新しい画像内のオブジェクトを識別するステップと
を含む、方法。
前記グループ化を実行することに先行して前記複数のパッチのスパース表現を生成するステップをさらに含む、請求項１に記載の方法。
前記クラスタ−方向シーケンスの前記組合せを生成するステップをさらに含む、請求項１に記載の方法。
シーケンス−頻度テーブルをインスタンス化するステップと、
前記シーケンス−頻度テーブルを前記クラスタ−方向シーケンスによって設定するステップであって、前記シーケンス−頻度テーブルは、前記クラスタ−方向シーケンスに現れる異なるシーケンスに対する集計を与える、前記設定するステップと
をさらに含む、請求項３に記載の方法。
前記新しい画像のパッチを通して方向選定を誘導するためのポリシー・マトリックスとして、前記ポリシー機能を前記画像検出デバイスのメモリに記憶するステップをさらに含む、請求項１に記載の方法。
画像検出デバイスを動作させる方法であって、
画像を受信するステップと、
前記画像を複数のパッチに分割するステップと、
クラスタ−方向シーケンスを、調査されることになる複数のサッカディック・パスの各々に対して生成するステップであって、前記複数のサッカディック・パスはポリシー・マトリックスにより与えられる、前記生成するステップと、
前記画像内のオブジェクトを、前記クラスタ−方向シーケンスを使用して識別するステップと
を含む、方法。
前記クラスタ−方向シーケンスを、調査されることになる前記複数のサッカディック・パスの各々に対して生成するステップは、
前記ポリシー・マトリックスにより定義される、前記画像が各々のクラスに属するという公算を割り当てるステップと、
前記画像内の前記オブジェクトを、前記クラスタ−方向シーケンスにわたる前記公算の平均を使用して識別するステップと
をさらに含む、請求項６に記載の方法。
前記公算の少なくとも１つを重み付けするステップをさらに含む、請求項７に記載の方法。
前記重み付けは、前記ポリシー・マトリックスにより定義される、所与のクラスに対する、前記ポリシー・マトリックス内の前記クラスタ−方向シーケンスの発生の総合的な頻度を使用する、請求項８に記載の方法。
複数のサッカードからの結果をプールするステップをさらに含む、請求項６に記載の方法。
画像検出デバイスを動作させるためのコンピュータ・プログラムを記憶する記憶媒体であって、前記コンピュータ・プログラムは、コンピュータに請求項１ないし１０のいずれか１項に記載の方法を実行させるためのプログラムである、記憶媒体。
画像検出デバイスを動作させるためのコンピュータ・プログラムであって、コンピュータに請求項１ないし１０のいずれか１項に記載の方法を実行させるためのプログラム。