JP6823449B2 - 画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品(サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム) - Google Patents

画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品(サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム) Download PDF

Info

Publication number
JP6823449B2
JP6823449B2 JP2016246240A JP2016246240A JP6823449B2 JP 6823449 B2 JP6823449 B2 JP 6823449B2 JP 2016246240 A JP2016246240 A JP 2016246240A JP 2016246240 A JP2016246240 A JP 2016246240A JP 6823449 B2 JP6823449 B2 JP 6823449B2
Authority
JP
Japan
Prior art keywords
image
cluster
sequence
computer
patches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016246240A
Other languages
English (en)
Other versions
JP2017120631A (ja
Inventor
シャラスチャンドラ、ウマパシラオ、パンカンティ
アーヴィンド、クマール
ヤヌシュ、マレツキ
カウス、バン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2017120631A publication Critical patent/JP2017120631A/ja
Application granted granted Critical
Publication of JP6823449B2 publication Critical patent/JP6823449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)

Description

本開示は、機械ビジョンに関し、より詳細には、サッカディック・ビジョン(saccadicvision)に対して構成されるコンピュータ・ビジョン・システムに関する。
多くの機械学習手法は、画像内のオブジェクトを、画像内のすべての画素の並列処理により認識するように努める。これらの方法は、計算的に不経済であり得る。
本発明の課題は、画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品を提供することである。
本発明の例示的な実施形態によれば、画像検出デバイスを動作させる方法は、画像を受信するステップと、画像を複数のパッチに分割するステップと、複数のパッチのパッチをグループ化するステップと、画像の複数のパッチを通るサッカディック・パス(saccadic path)のセットを生成するステップと、クラスタ−方向シーケンスを、各々のサッカディック・パスに対して生成するステップと、新しい画像内のオブジェクトを識別するためのポリシー機能を、クラスタ−方向シーケンスの組合せを使用して生成するステップと、画像検出デバイスを、ポリシー機能を使用して動作させて、新しい画像内のオブジェクトを識別するステップとを含む。
本発明の例示的な実施形態によれば、画像検出デバイスを動作させる方法は、画像を受信するステップと、画像を複数のパッチに分割するステップと、クラスタ−方向シーケンスを、調査されることになる複数のサッカディック・パスの各々に対して生成するステップであって、複数のサッカディック・パスはポリシー・マトリックスにより与えられる、生成するステップと、画像内のオブジェクトを、クラスタ−方向シーケンスを使用して識別するステップとを含む。
本明細書では、アクションを「促進すること」は、アクションを実行すること、アクションをより容易にすること、アクションを実行する一助となること、または、アクションを実行させることを含む。したがって例としてであって、限定としてではなく、1つのプロセッサ上で実行する命令は、リモート・プロセッサ上で実行する命令により実行されるアクションを促進することを、アクションを実行させる、または、実行することになるアクションの助力となるための、適切なデータまたはコマンドを送信することにより行い得る。誤解を避けるために、アクタがアクションを、アクションを実行すること以外により促進する場合、アクションはそれでも、何らかのエンティティ、またはエンティティの組合せにより実行される。
本発明、またはその要素の、1つまたは複数の実施形態は、指示する方法ステップを実行するためのコンピュータ使用可能プログラム・コードを伴うコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品の形式で実装され得る。さらに、本発明、またはその要素の、1つまたは複数の実施形態は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作可能である、少なくとも1つのプロセッサとを含む、システム(または装置)の形式で実装され得る。その上さらに、別の態様では、本発明、またはその要素の、1つまたは複数の実施形態は、本明細書で説明する方法ステップの1つまたは複数を実行するための手段の形式で実装され得るものであり、手段は、(i)ハードウェア・モジュール、(ii)コンピュータ可読記憶媒体(または、複数個のそのような媒体)に記憶され、ハードウェア・プロセッサ上で実装されるソフトウェア・モジュール、または、(iii)(i)および(ii)の組合せを含み得るものであり、(i)〜(iii)の任意のものが、本明細書で論述する特定の技法を実装する。
本発明の技法は、実質的に有益な技術的効果を提供し得る。例えば1つまたは複数の実施形態は、以下の利点の1つまたは複数を提供し得る。
・コンテキストに依存する、関連性のあるオブジェクトの迅速な識別
・各々のフレームが明確に以前のものに関係付けられる、ビデオでのような、一連のフレームを通しての1つまたは複数のオブジェクトの時間的な追尾
・画像の部分的な処理のみによる、より低いエネルギー
本発明のこれらおよび他の、特徴および利点は、付随する図面とともに読むことになる、本発明の例示的な実施形態の以下の詳細な説明から明らかとなろう。
本発明の好ましい実施形態を、付随する図面を参照して、下記でより詳細に説明する。
本発明の例示的な実施形態による、ポリシー機能をトレーニングするための方法を示すフロー図である。 本発明の例示的な実施形態による、トレーニング画像およびパッチ・マップを示す図である。 本発明の例示的な実施形態による、画像の例示的な符号化を示す図である。 本発明の例示的な実施形態による、トレーニング画像およびクラスタIDマップを示す図である。 本発明の例示的な実施形態による、トレーニング画像、クラスタ表現、および再構築を示す図である。 本発明の例示的な実施形態による、例示的なパス、方向符号化、およびサッカディック・パス符号化を示す図である。 本発明の例示的な実施形態による、トレーニング画像、例示的なサッカディック・パス、クラスタID、サッカディック・パス符号化、およびクラスタ・シーケンス符号化を示す図である。 本発明の例示的な実施形態による、ポリシー機能を使用して画像を分析するための方法を示すフロー図である。 本発明の例示的な実施形態による、サッカディック・パスを誘導するための学習されるポリシーを使用する試験セット正確度の、ランダムに選定される方向性ステップと対比してのグラフである。 本発明の例示的な実施形態による、シーケンス頻度テーブルの図である。 本発明の例示的な実施形態による、シーケンス頻度テーブルの図である。 本発明の例示的な実施形態による、試験セットに関するコンピュータ・ビジョン・システムの正確度のグラフである。 本発明の実施形態による、トレーニング方法のフロー図である。 本発明の例示的な実施形態による、ポリシー機能を使用して画像を分析するための方法を具現化する例示的なコンピュータ・システムを図示するブロック図である。
本発明の例示的な実施形態によれば、オブジェクトを認識することに対して構成される、サッカディック・ビジョンに対するポリシーが開発される。ポリシーの目標は、画像の連続的な部分がアンカバード(uncovered)である際に、追尾する最適な方向に関する誘導を提供して、関心のあるオブジェクトを識別する公算を高くすることである。
本発明の実施形態によれば、コンピュータ・ビジョン・システムは、画像内のオブジェクトを識別することを、画像の内部の初期位置で開始し、画像を通るパスを決定することにより行うものであり、その場合パスは、オブジェクトの識別情報を識別するために使用される。本発明の実施形態によれば、画像のコンテキストがさらに考慮される場合があり、そのコンテキストは、以前の観測、および、探索されているものに対する目標を含み得る。コンピュータ・ビジョン・システムは、コンテキストに依存する、関連性のあるオブジェクトの迅速な識別、各々のフレームが明確に以前のものに関係付けられる、ビデオでのような、一連のフレームを通しての1つまたは複数のオブジェクトの時間的な追尾、および、画像の部分的な処理のみによる、より低いエネルギーを含む利点を有する、サッカディック・ビジョンに対して構成される。
本発明の例示的な実施形態によれば、ポリシー機能をトレーニングするための方法100は、トレーニング・セット内の各々の画像を、パッチと称する、いくつかのより小さなサブ画像に分割するステップ101を含む。パッチは、互いに重なる場合がある(明瞭性のためにここでは示されない)。図2で示されるように画像201は、16個のパッチ、および、202として示される対応するpatchIDに分割される。
本発明の少なくとも1つの実施形態では、異なるパッチは、異なるサイズを有する。パッチは、異なるサイズであり得るものであり、そのことは、同じ画像が、異なるサイズを設定されるパッチを必然的に含んで、異なる分解能で処理される場合があるという意味でのものであり、または同じ画像において、その場合例えば、より大きな中心のパッチが、より小さな周辺のパッチにより包囲される場合がある。
ブロック102で、トレーニング・セット内のパッチの大きなサンプリングのスパース表現が生成される。スパース表現は、スパース・オート・エンコーダにより生成され得る。表現は、隠れ層でのユニットを含み、継続的に変動する値を有する。例えば図3は、2560個の代表的なパッチに対する100ユニット・スパース表現を含む、図2の画像の符号化301を示す。符号化301では、白い斑点が、より高い値を指示する。
ブロック103で、パッチは、パッチを離散的なクラスタにグループ化するようにクラスタリングされる。本発明の実施形態によれば、クラスタリングは、k平均クラスタリング・アルゴリズムを使用して実行され得る。図4および図5で示される1つの例では、クラスタが、スパース表現を32個のクラスタに、k平均クラスタリングおよび対応するクラスタIDを使用してグループ化することにより見出される。言い換えれば、図4および図5はマイクロ・サッカード・ポリシーを例解する。図4は、トレーニング画像401のある決まったクラスタに対応するクラスタID402を示す。図5は、トレーニング画像501、クラスタ表現502、および、クラスタ表現を使用するパッチの例示的な再構築503を例解する。
ブロック104で、すべての画像に適用され得る、サッカディック・パスのセットが生成される(601、図6を確認されたい)。これは、画像内のすべての可能なパス(例えば、小さな画像では実現可能である)、またはそれらのサブセット(例えば、大きな画像に対して、より適する)であり得る。各々のパスは、[(patchID 1)(direction 1)(patchID 2)(direction 2)(patchID3)...(direction n)(patchID n+1)]などのフォーマットで符号化され、その場合、n個のステップのサッカードに対して、patchID iは、ステップiでのパッチの場所であり、direction iは、パッチiからパッチi+1への方向である。方向は、例えば602として示されるように符号化され得るものであり、その場合、上方向が「2」に対応する、右方向が「4」に対応する、などとなる。602の例示的な方向性符号化を使用して、パス601を符号化することが、patchID 6、10、11、および12、ならびにdirection 4、6、および6を含むサッカディック・パス符号化603をもたらす。
ブロック105で、トレーニング・セット、例えば701内の各々の画像が、セット内のサッカディック・パスの各々を使用してスキャンされる。各々のサッカディック・パスに対して、例えば702は、以降はクラスタ−方向シーケンス704と称する、patchIDが、画像内で見出されるclusterID(703を確認されたい)により置換されるシーケンスを創出する。[(clusterID 1)(direction 1)(clusterID 2)(direction 2)(clusterID3)...(direction n)(clusterID n+1)]
ブロック106で、sequenceIDによってラベリングされ得る、各々のそのようなシーケンスに対して、システムは、画像ラベルであって、それに対してそのシーケンスが見出された画像ラベルを記録および集計する。このプロセスは、以降はシーケンス−頻度テーブル(例えば、テーブル1000、図10を確認されたい)と称する、各々のsequenceIDと、そのシーケンスが各々の画像ラベルに対して発生した頻度とを伴うテーブルを創出する。最も顕著なシーケンスは、1つのみの、または小さな数の画像ラベルに対する高い頻度を伴うものである。顕著および非顕著なシーケンスの例が、テーブル1000で示される。ハイライト表示された行1001は、数字5に対して、他の数字に対してよりはるかに頻繁に発生する、顕著なシーケンスを示す。
本発明の実施形態によれば、sequenceIDは、そのシーケンスが過去に遭遇したクラス/オブジェクトすべてに関連付けられる。そのシーケンスが特定のクラス/オブジェクトに関して見られた頻度が、シーケンス−頻度テーブルで与えられる。sequenceIDは、一意的なクラス/オブジェクトに関連付けられることが、そのクラス/オブジェクトがその特定のシーケンスにより一意的に識別可能である場合に行われ得る。
ブロック107で、シーケンス−頻度テーブルは、連続的なパッチがアンカバードである際に方向選定を誘導し得る、ポリシー・マトリックスとして記憶されるポリシー機能を生成するために使用される。ポリシー機能は、所与のクラスタで開始するすべてのクラスタ−方向シーケンスを先読みで捜すことにより創出される。各々のそのような所与のクラスタに対して、ポリシー機能は、各々の可能な方向を調査し、それを、そのクラスタ−方向組合せで開始するあらゆる可能なサッカディック・パスを通して再帰的に追尾する。ポリシー機能は次いで、その方向に対するスコアを、そのクラスタ−方向開始による各々のシーケンスに対する正しい識別の公算の頻度重み付き平均をとることにより計算する。ポリシー・マトリックスは再帰的に生成されるので、[clusterID-direction-clusterID ...]の連続的な組合せに対するスコアが、さらにポリシー・マトリックスに記憶され、そのことは、連続的なパッチがアンカバードであり、新しい情報が取得される際に、スコアが順応することを可能とする。
ブロック108で、新しい画像が、試験セットで提示される(フロー800、図8を確認されたい)。本発明の実施形態によれば、試験画像内の初期パッチが、画像内の顕著な特徴を識別するために、ランダムに、さもなければ、既知の技法を使用して選定される(801)。試験画像の選定されたパッチで開始して、パッチの近隣のグループが、反復して選択される。ブロック802で、選択されたパッチが属するクラスタが識別される。ブロック803で、試験画像の正しい識別または認識の公算に関連付けられる確信度が評価される。連続的なパッチが選択される際に、選択されたパッチに起因する新しい情報が、806で、新しい、または更新された方向を生成するために、ポリシー・マトリックスへの入力として使用され得る。方向は、次に選択されることになるパッチを指す(さらに、図6を確認されたい)。パッチは、正しい認識の容認可能な公算が達成される(ブロック803を確認されたい)、または、サッカードの最大数に達してしまう(ブロック804を確認されたい)まで、連続的に選択される。ブロック806で、ポリシー・マトリックスが、新しい、または更新された方向を生成するために使用される。正しい認識の公算が達成される、または、サッカードの最大数に達してしまうと、システムは、試験画像の画像クラスを識別する。
画像の識別は確信度に関連付けられるということ、および、識別は、確信度がしきい値確信度を満たすと行われるということを理解すべきである。しきい値確信度は、主題の専門家によりあらかじめ決定される、デフォルトにセットされる、トレーニング・セッションの間にセットされる、その他である場合がある。
本発明の実施形態によれば、システムはオンライン学習モードを有し、そのモードではポリシー・マトリックスが、そのポリシーを、それが試験セットで行う各々の新しい観測の成果に基づいて調整する。
図9は、本発明の例示的な実施形態による、サッカディック・パスを誘導するための学習されるポリシーを使用する試験セット正確度(902)の、ランダムに選定される方向性ステップ(903)と対比してのグラフ900である。
本発明の1つまたは複数の実施形態によれば、画像を識別する方法(図13を確認されたい)では、コンピュータ・システムは、ブロック1301で、試験セット内の新しい画像を受信する。以前に決定されたサッカディック・パス(例えば、トレーニングの間に決定するもの)のセットが、試験画像に適用される。各々のサッカディック・パスに対して、コンピュータ・システムは、ブロック1302で、patchIDが、画像内で見出されるclusterIDにより置換されるシーケンスを創出する。各々のシーケンスに対して、コンピュータ・システムは、ブロック1303で、シーケンスがトレーニング・セット内の各々の画像に対して発生した頻度を、シーケンス−頻度テーブルを使用して検索し、以前に遭遇しなかったシーケンスを破棄する。見出された各々のシーケンスに対して、コンピュータ・システムは、ブロック1304で、頻度を正規化して、認識クラス内の各々のオブジェクトに対する確率を与え、これらの確率の平均をとり、場合によっては、各々のシーケンスを、シーケンスの顕著性、および、発生のその総合的な頻度を反映する因子により重み付けする。多数のサッカードにわたる情報を組み合わせることにより、コンピュータ・システムは、ブロック1305で、受信された画像の画像クラスを識別する。
図12、グラフ1200で示される正確度を伴う、ラベル「9」(1101)を伴う試験画像に適用されるシーケンス頻度テーブル1100のサンプル行、および、すべての行にわたる正規化された総和が、図11で示される。
概括
本発明の実施形態によれば、方法は、まとめると画像の分類につながる、画像内の特定の顕著な特徴を識別することを、顕著な特徴のセットが、高い確率を伴って、一意的なクラスを識別し得るかどうかを判定することにより決定する。分類は、他のクラスの段階的除外によって行われる。クラスの例は、9つのMNIST数字(手書き数字のMixed National Institute ofStandards and Technology database)、または、ImageNet(WordNet階層によって組織化される画像データベース)内の画像クラス、例えば猫、犬、飛行機、その他を含む。
1つの例示的な実装形態では、入力画像を与えられると、方法は、開始パッチをオープンし、それがある種類の動物であるということを認知するが、充分な確信度を伴って、どの動物であるかは分からない。ポリシー・マトリックスは、動物の頭を含むと考えられる画像のある決まった小部分の中心に向かって捜すように方法を誘導するものであり、そのことは、1つまたは複数のタイプの動物を除外する助けになる(例えば、方法は、鳥を除外するが、犬、猫、および馬を除外しないことが可能である)。ポリシー・マトリックスに基づいて方法は、次の鑑別する顕著な特徴は耳であるということを理解し、方法は、上方に進んで、耳を含むと考えられる画像の小部分を調べる。この追加的な情報を与えられると、方法は、高い確信度を伴って、画像が犬の類であるということを認識するが、依然として何の品種かは分からない。それが犬であると判断することの認定は、そのポリシー・マトリックスを顧慮することを必然的に含むものであり、そのポリシー・マトリックスは、処理されている、または「見られている」特定のシーケンスが、すべての過去の例において、犬と分類されていたということを見出すものである。再びポリシー・マトリックスを顧慮して、方法は、犬のクラスの内部で、ジャーマン・シェパードまたはプードルなどの品種の間で鑑別することが可能である、犬のより細かい特徴を求めてどこを捜すべきかを知る。クラスは、階層内の粒度の任意のレベル、例えば動物、犬、プードル、その他であってよい。
本開示の実施形態の方法論は特に、電子デバイスまたは代替的システムでの使用に良好に適したものであり得る。したがって本発明の実施形態は、全体的にハードウェアの実施形態、または、ソフトウェアおよびハードウェアの態様を組み合わせる実施形態の形式をとり得るものであり、それらの実施形態はすべて一般的に、本明細書では「プロセッサ」、「回路」、「モジュール」、または「システム」と称する場合がある。
さらに、本明細書で説明する方法の任意のものは、サッカディック・ビジョン能力を有するコンピュータ・システムを提供する追加的なステップを含み得るということに留意すべきである。さらにコンピュータ・プログラム製品は、別個のソフトウェア・モジュールのシステムへの提供を含めて、本明細書で説明する1つまたは複数の方法ステップを実行するために実行されるように適合させたコードを伴う有形のコンピュータ可読記録可能記憶媒体を含み得る。
図14を参照すると、図14は、本発明の実施形態による、サッカディック・ビジョン能力(図1を確認されたい)を有するコンピュータ・システムを具現化する例示的なコンピュータ・システムを図示するブロック図である。図14で示されるコンピュータ・システムは、プロセッサ1401、メモリ1402、ディスプレイ1403、入力デバイス1404(例えば、キーボード)、ネットワーク・インターフェイス(I/F)1405、媒体I/F1406、および、信号源、例えばカメラ、ハード・ドライブ(HD)、外部メモリ・デバイス、その他などの媒体1407を含む。
異なる用途では、図14で示される構成要素の一部は省略され得る。図14で示される全体のシステムは、一般的には媒体1407に記憶される、コンピュータ可読命令により制御される。ソフトウェアは、ネットワーク(図では示されない)からダウンロードされ、媒体1407に記憶される場合がある。代替的に、ネットワークからダウンロードされるソフトウェアは、メモリ1402内にロードされ、ソフトウェアにより決定される機能を完了するように、プロセッサ1401により実行される場合がある。
プロセッサ1401は、本開示で説明する1つまたは複数の方法論を実行するように構成され得るものであり、本開示の例示的な実施形態は、上記の図で示され、本明細書で説明されている。本発明の実施形態はルーチンとして実装され得るものであり、そのルーチンは、メモリ1402に記憶され、媒体1407からの信号を処理するためにプロセッサ1401により実行される。したがってコンピュータ・システムは、本開示のルーチンを実行する時に専用コンピュータ・システムになる、汎用コンピュータ・システムである。
図14で説明するコンピュータ・システムは、本開示による方法をサポートすることが可能であるが、このシステムは単に、コンピュータ・システムの1つの例である。当業者であれば、他のコンピュータ・システム設計が、本発明の実施形態を実装するために使用され得るということを理解するはずである。
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるための、コンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体(または、複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または、前述のものの任意の適した組合せであり得るが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリー・スティック(R)、フロッピィ(R)・ディスク、命令が記録されるパンチ・カードまたは溝内の一段高い構造などの機械的に符号化されるデバイス、および、前述のものの任意の適した組合せを含む。コンピュータ可読記憶媒体を、本明細書では、本質的には、電波もしくは他の自由伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または、電線を介して伝送される電気信号などの、一時的な信号であると解釈すべきではない。
本明細書で説明するコンピュータ可読プログラム命令は、それぞれのコンピューティング/処理デバイスにコンピュータ可読記憶媒体から、あるいは、外部コンピュータまたは外部記憶デバイスに、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せを介してダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備え得る。各々のコンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスが、コンピュータ可読プログラム命令をネットワークから受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイスの内部のコンピュータ可読記憶媒体での記憶のために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態セッティング・データ、または、1つもしくは複数のプログラミング言語の任意の組合せで書き表される、ソース・コードもしくはオブジェクト・コードのいずれかであり得るものであり、それらのプログラミング言語は、Smalltalk(R)、C++、または類するものなどのオブジェクト指向プログラミング言語、および、「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上で、および部分的にリモート・コンピュータ上で、または、全体的にリモート・コンピュータもしくはサーバ上で実行し得る。後の方のシナリオではリモート・コンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介して接続され得るものであり、または接続は、外部コンピュータに対して(例えば、インターネットを介して、インターネット・サービス・プロバイダを使用して)行われ得る。一部の実施形態では、例えば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路網が、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電子回路網をパーソナライズすることにより、コンピュータ可読プログラム命令を実行し得る。
本発明の態様を、本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の、フローチャート例解またはブロック図あるいはその両方を参照して説明している。フローチャート例解またはブロック図あるいはその両方の各々のブロック、および、フローチャート例解またはブロック図あるいはその両方でのブロックの組合せは、コンピュータ可読プログラム命令により実装され得るということが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定される機能/行為を実装するための手段を創出するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はさらには、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定される機能/行為の態様を実装する命令を含む製造品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに、特定の様式で機能するように指図するものであってもよい。
コンピュータ可読プログラム命令はさらには、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定される機能/行為を実装するように、コンピュータ実装プロセスを生み出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図でのフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を例解するものである。この点に関して、フローチャートまたはブロック図での各々のブロックは、指定される論理機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または小部分を表し得る。一部の代替的実装形態では、ブロックで記される機能は、図で記される順序から外れて行われる場合がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行される場合があり、またはブロックは時には、必然的に含まれる機能性に依存して、逆の順序で実行される場合がある。ブロック図またはフローチャート例解あるいはその両方の各々のブロック、および、ブロック図またはフローチャート例解あるいはその両方でのブロックの組合せは、指定される機能もしくは行為を実行する、または、専用ハードウェアおよびコンピュータ命令の組合せを実行する、専用ハードウェア・ベースのシステムにより実装され得るということが、さらに留意されよう。
本明細書で使用する専門用語は、単に特定の実施形態の説明を目的とするものであり、本発明について限定的であることは意図されない。本明細書では単数形「a」、「an」、および「the」は、文脈で明確に別段に指示しない限り、複数形もまた含むことが意図される。用語「備える(3人称単数現在形)」または「備える(現在分詞形)」あるいはその両方は、本明細書で使用する時は、説述する特徴、整数、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を指定するが、1つまたは複数の、他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはその組合せの、存在または追加を排除しないということが、さらに理解されよう。
下記の特許請求の範囲での、すべてのミーンズ・プラス・ファンクションまたはステップ・プラス・ファンクションの要素の、対応する構造、材料、行為、および均等物は、具体的に請求するように、他の請求する要素と組み合わせて機能を実行するための、任意の構造、材料、または行為を含むことが意図される。本発明の説明は、例解および説明の目的のために提示したが、網羅的であること、または、開示されている形式での本発明に限定されることは意図されない。多くの変更および変形が、本発明の範囲および趣旨から逸脱することなく、当業者には明らかとなろう。実施形態は、本発明の原理、および実際的な用途を最良に解説するために、ならびに、他の当業者が、企図される特定の使用に適するような様々な変更を伴う様々な実施形態のために、本発明を理解することを可能にするために、選定および説明されたものである。
201 画像
202 patchID
301 符号化
401 トレーニング画像
402 クラスタID
501 トレーニング画像
502 クラスタ表現
503 クラスタ表現を使用するパッチの例示的な再構築
601 パス
603 サッカディック・パス符号化
701 トレーニング・セット
704 クラスタ−方向シーケンス
1401 プロセッサ
1402 メモリ
1403 ディスプレイ
1404 入力デバイス
1405 ネットワーク・インターフェイス(I/F)
1406 媒体I/F
1407 媒体

Claims (12)

  1. 画像検出デバイスを動作させる方法であって、
    画像を受信するステップと、
    前記画像を複数のパッチに分割するステップと、
    前記複数のパッチのパッチをグループ化するステップと、
    前記画像の前記複数のパッチを通るサッカディック・パスのセットを生成するステップと、
    クラスタ−方向シーケンスを、各々のサッカディック・パスに対して生成するステップと、
    新しい画像内のオブジェクトを識別するためのポリシー機能を、前記クラスタ−方向シーケンスの組合せを使用して生成するステップと、
    前記画像検出デバイスを、前記ポリシー機能を使用して動作させて、前記新しい画像内のオブジェクトを識別するステップと
    を含む、方法。
  2. 前記グループ化を実行することに先行して前記複数のパッチのスパース表現を生成するステップをさらに含む、請求項1に記載の方法。
  3. 前記クラスタ−方向シーケンスの前記組合せを生成するステップをさらに含む、請求項1に記載の方法。
  4. シーケンス−頻度テーブルをインスタンス化するステップと、
    前記シーケンス−頻度テーブルを前記クラスタ−方向シーケンスによって設定するステップであって、前記シーケンス−頻度テーブルは、前記クラスタ−方向シーケンスに現れる異なるシーケンスに対する集計を与える、前記設定するステップと
    をさらに含む、請求項3に記載の方法。
  5. 前記新しい画像のパッチを通して方向選定を誘導するためのポリシー・マトリックスとして、前記ポリシー機能を前記画像検出デバイスのメモリに記憶するステップをさらに含む、請求項1に記載の方法。
  6. 画像検出デバイスを動作させる方法であって、
    画像を受信するステップと、
    前記画像を複数のパッチに分割するステップと、
    クラスタ−方向シーケンスを、調査されることになる複数のサッカディック・パスの各々に対して生成するステップであって、前記複数のサッカディック・パスはポリシー・マトリックスにより与えられる、前記生成するステップと、
    前記画像内のオブジェクトを、前記クラスタ−方向シーケンスを使用して識別するステップと
    を含む、方法。
  7. 前記クラスタ−方向シーケンスを、調査されることになる前記複数のサッカディック・パスの各々に対して生成するステップは、
    前記ポリシー・マトリックスにより定義される、前記画像が各々のクラスに属するという公算を割り当てるステップと、
    前記画像内の前記オブジェクトを、前記クラスタ−方向シーケンスにわたる前記公算の平均を使用して識別するステップと
    をさらに含む、請求項6に記載の方法。
  8. 前記公算の少なくとも1つを重み付けするステップをさらに含む、請求項7に記載の方法。
  9. 前記重み付けは、前記ポリシー・マトリックスにより定義される、所与のクラスに対する、前記ポリシー・マトリックス内の前記クラスタ−方向シーケンスの発生の総合的な頻度を使用する、請求項8に記載の方法。
  10. 複数のサッカードからの結果をプールするステップをさらに含む、請求項6に記載の方法。
  11. 画像検出デバイスを動作させるためのコンピュータ・プログラムを記憶する記憶媒体であって、前記コンピュータ・プログラムは、コンピュータに請求項1ないし10のいずれか1項に記載の方法を実行させるためのプログラムである、記憶媒体
  12. 画像検出デバイスを動作させるためのコンピュータ・プログラムであって、コンピュータに請求項1ないし10のいずれか1項に記載の方法を実行させるためのプログラム。
JP2016246240A 2015-12-31 2016-12-20 画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品(サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム) Active JP6823449B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/985596 2015-12-31
US14/985,596 US9870503B2 (en) 2015-12-31 2015-12-31 Visual object and event detection and prediction system using saccades

Publications (2)

Publication Number Publication Date
JP2017120631A JP2017120631A (ja) 2017-07-06
JP6823449B2 true JP6823449B2 (ja) 2021-02-03

Family

ID=58284443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016246240A Active JP6823449B2 (ja) 2015-12-31 2016-12-20 画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品(サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム)

Country Status (5)

Country Link
US (2) US9870503B2 (ja)
JP (1) JP6823449B2 (ja)
CN (1) CN106934337B (ja)
DE (1) DE102016222036A1 (ja)
GB (1) GB2547752B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157235A (zh) * 2015-04-03 2016-11-23 阿里巴巴集团控股有限公司 图片合成方法、装置及即时通信方法、图片合成服务器
US9870503B2 (en) 2015-12-31 2018-01-16 International Business Machines Corporation Visual object and event detection and prediction system using saccades
US10890968B2 (en) * 2018-05-07 2021-01-12 Apple Inc. Electronic device with foveated display and gaze prediction
CN109308460B (zh) * 2018-09-06 2021-04-02 深兰科技(上海)有限公司 物品检测方法、系统及计算机可读存储介质
CN109360191B (zh) * 2018-09-25 2020-06-12 南京大学 一种基于变分自编码器的图像显著性检测方法
CN109858352B (zh) * 2018-12-26 2020-09-18 华中科技大学 一种基于压缩感知与改进多尺度网络的故障诊断方法
CN110245660B (zh) * 2019-06-03 2022-04-22 西北工业大学 基于显著性特征融合的网页扫视路径预测方法
CN110298303B (zh) * 2019-06-27 2022-03-25 西北工业大学 一种基于长短时记忆网络扫视路径学习的人群识别方法
US11379733B2 (en) * 2019-07-10 2022-07-05 International Business Machines Corporation Detecting and predicting object events from images
CN112378382B (zh) * 2020-10-13 2022-09-16 歌尔光学科技有限公司 一种视觉检测系统的控制方法、装置和视觉检测系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061086A (en) * 1997-09-11 2000-05-09 Canopular East Inc. Apparatus and method for automated visual inspection of objects
CN101398902B (zh) * 2008-09-27 2012-07-04 宁波新然电子信息科技发展有限公司 一种自然手写阿拉伯字母联机识别方法
US8340435B2 (en) * 2009-06-11 2012-12-25 California Institute Of Technology Method and system for object recognition search
US8942466B2 (en) * 2010-08-26 2015-01-27 Brain Corporation Sensory input processing apparatus and methods
JP6098318B2 (ja) * 2013-04-15 2017-03-22 オムロン株式会社 画像処理装置、画像処理方法、画像処理プログラムおよび記録媒体
CN103761531B (zh) * 2014-01-20 2016-04-06 西安理工大学 基于形状轮廓特征的稀疏编码车牌字符识别方法
US9870503B2 (en) 2015-12-31 2018-01-16 International Business Machines Corporation Visual object and event detection and prediction system using saccades
US10133955B2 (en) * 2015-12-31 2018-11-20 Adaptive Computation, Llc Systems and methods for object recognition based on human visual pathway

Also Published As

Publication number Publication date
US9870503B2 (en) 2018-01-16
GB2547752A (en) 2017-08-30
CN106934337A (zh) 2017-07-07
US10025981B2 (en) 2018-07-17
JP2017120631A (ja) 2017-07-06
US20180121723A1 (en) 2018-05-03
GB2547752B (en) 2018-01-24
DE102016222036A1 (de) 2017-07-06
GB201621726D0 (en) 2017-02-01
CN106934337B (zh) 2020-12-15
US20170193294A1 (en) 2017-07-06

Similar Documents

Publication Publication Date Title
JP6823449B2 (ja) 画像検出デバイスを動作させる方法およびコンピュータ・プログラム製品(サッカードを使用する視覚オブジェクトおよびイベントの検出および予測システム)
US10417501B2 (en) Object recognition in video
US20210110196A1 (en) Deep Learning Network for Salient Region Identification in Images
CN109635838B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
EP3223237B1 (en) Systems and methods for detecting and tracking a marker
WO2020042895A1 (en) Device and method of tracking poses of multiple objects based on single-object pose estimator
KR101607934B1 (ko) 전염병 모니터링 방법 및 이를 이용한 시스템, 이를 수행하기 위한 기록매체
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
US20170330320A1 (en) Systems and methods for automatic detection and quantification of pathology using dynamic feature classification
US10423852B1 (en) Text image processing using word spacing equalization for ICR system employing artificial neural network
WO2020000876A1 (zh) 用于生成模型的方法和装置
WO2014210334A1 (en) Machine learning enchanced by human measurements
Monteiro et al. A de-identification pipeline for ultrasound medical images in DICOM format
US10943697B2 (en) Determining information based on an analysis of images and video
CN111046956A (zh) 遮挡图像检测方法、装置、电子设备及存储介质
JP7480811B2 (ja) サンプル分析の方法、電子装置、コンピュータ可読記憶媒体、及びコンピュータプログラム
CN107133629B (zh) 图片分类方法、装置和移动终端
GB2602581A (en) Automatic detection and replacement of identifying information in images using machine learning
WO2021169642A1 (zh) 基于视频的眼球转向确定方法与系统
CN116188392A (zh) 图像处理方法、计算机可读存储介质以及计算机终端
Mar et al. Cow detection and tracking system utilizing multi-feature tracking algorithm
CN111967529B (zh) 识别方法、装置、设备及系统
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
Yang et al. Characteristics and prevalence of fake social media profiles with AI-generated faces
CN111062436B (zh) 蟑螂交配行为的分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210108

R150 Certificate of patent or registration of utility model

Ref document number: 6823449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150