JP7351941B2 - 画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法 - Google Patents

画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法 Download PDF

Info

Publication number
JP7351941B2
JP7351941B2 JP2021578061A JP2021578061A JP7351941B2 JP 7351941 B2 JP7351941 B2 JP 7351941B2 JP 2021578061 A JP2021578061 A JP 2021578061A JP 2021578061 A JP2021578061 A JP 2021578061A JP 7351941 B2 JP7351941 B2 JP 7351941B2
Authority
JP
Japan
Prior art keywords
layer
input image
pooling layer
average pooling
important features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021578061A
Other languages
English (en)
Other versions
JP2022540070A (ja
Inventor
タイシュナー マイケル
シウボタル ボグダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everseen Ltd
Original Assignee
Everseen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everseen Ltd filed Critical Everseen Ltd
Publication of JP2022540070A publication Critical patent/JP2022540070A/ja
Application granted granted Critical
Publication of JP7351941B2 publication Critical patent/JP7351941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Description

本開示は、一般に人工知能に関し、より具体的には、画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法に関する。さらに、本開示は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品に関し、ソフトウェア製品は、画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。
一般的に、技術の進歩に伴い、コンピュータは人々の日常生活での使用が増加している。これには、通信、教育、サービス産業などの分野でのコンピュータの使用を含むがこれらに限定されないパーソナルコンピューティングアプリケーションのためのコンピュータの使用だけでなく、社会的利益に関係する他の商業的および非商業的目的のためのコンピュータの使用も含まれる。コンピュータのそのような使用は、例えば、防衛、医学、科学研究などを含むことができる。具体的には、前述の分野で使用が増加しているコンピューティング分野は、人工知能、機械学習、マシンビジョンである。
たとえば、自動運転システム(自動運転車など)の分野では、自動運転が可能な車両の周囲のオブジェクトの検出のためにマシンビジョンおよび人工知能が使用されており、これにより車両が安全に、便利に、そして確実にオブジェクトを避けてナビゲートすることを可能にする。別の例では、人の動きを検出し、かつ識別することができるセンサーを有するデバイスが、国境地域周辺などの防衛用途でますます使用されている。このようなデバイスは、その中のマシンビジョンおよび人工知能を使用して、国境に不法に侵入している可能性のある人々に関連し得る潜在的な脅威を検出する。
通常、前述の人工知能、機械学習、およびマシンビジョンシステムは、環境内のオブジェクト(人間や動物など)の存在を検出するためだけでなく、環境内のオブジェクトによって実行されるアクションを識別するためにも使用される。たとえば、人工知能システムは、オブジェクトによって実行されるアクションを識別するために畳み込みニューラルネットワークを使用し得る。しかしながら、このような畳み込みニューラルネットワークは、その使用法に基づいて異なる数のフィルタ、または複数の冗長層を必要とする場合があり、これにより、オブジェクトに関連付けられたアクションの決定が遅くなり、効果をなくしてしまう。
したがって、前述の議論に照らして、環境内のオブジェクトによって実行されるアクションを識別するために、畳み込みニューラルネットワークを使用する従来の人工知能システムに関連する欠点を克服する必要がある。
本開示は、入力画像内のオブジェクトによって実行されるアクションを決定するための改善されたシステムを提供することを目的とする。
さらに、本開示は、入力画像内のオブジェクトによって実行されるアクションを決定するための改善された方法を提供することを目的とする。
さらに、本開示は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品を提供することを目的とし、ソフトウェア製品は、入力画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。
第1の態様によれば、本開示の一実施形態は、入力画像内のオブジェクトによって実行されるアクションを決定するためのシステムを提供する。このシステムは、1つまたは複数の命令を格納するためのメモリと、メモリに通信可能に結合され、メモリ内の1つまたは複数の命令を実行するように構成されたプロセッサとを含み、プロセッサは畳み込みニューラルネットワーク(CNN)を使用する。CNNは、入力画像に対応する1つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージを含み、各初期ステージは、第1の層および残差ブロックを含み、第1の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される。CNNは、抽出された重要な特徴を1つまたは複数の事前定義されたクラスに分類するための最終ステージを含み、最終ステージは、グローバル平均プーリング層および緻密層で構成される。
第2の態様によれば、本開示の一実施形態は、入力画像内のオブジェクトによって実行されるアクションを決定するためのシステムを提供する。この方法は、入力画像を受信すること、および入力画像を畳み込みニューラルネットワーク(CNN)に提供することを含む。CNNは、入力画像に対応する1つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージを含み、各初期ステージは、第1の層および残差ブロックを含み、第1の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される。CNNは、抽出された重要な特徴を1つまたは複数の事前定義されたクラスに分類するための最終ステージを含み、最終ステージは、グローバル平均プーリング層および緻密層で構成される。
第3の態様によれば、本開示の一実施形態は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品を提供し、ソフトウェア製品は、入力画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。
本開示は、畳み込みニューラルネットワークを使用することによって画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法を提供することを目的とし、畳み込みニューラルネットワークは、限られた数の層、一定数のフィルタ、および画像のダウンサイジングを使用し、そうすることにより、画像内のオブジェクトによって実行されるアクションの決定に関連する速度、精度、および信頼性を向上させる。
本開示の特徴は、添付の特許請求の範囲によって定義されるように本開示の範囲から逸脱することなく、様々な組合せで組み合わせることができることを理解されたい。
以上の発明の概要および例示的な実施形態の以下の詳細な説明は、添付図面と併せて読むとよりよく理解される。本開示を説明する目的のために、開示の例示的な構造が、図面において示される。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。
ここで、本開示の実施形態は、以下の図を参照して、例としてのみ説明される。
本開示の様々な実施形態を実施することができる環境を示す図である。 本開示の一実施形態による、少なくとも1つの画像内のオブジェクトによって実行されるアクションを決定するための畳み込みニューラルネットワーク(CNN)を示す図である。 本開示の一実施形態による、少なくとも1つの画像内のオブジェクトによって実行されるアクションを決定するための畳み込みニューラルネットワーク(CNN)を示す図である。 本開示の一実施形態による、少なくとも1つの画像内のオブジェクトによって実行されるアクションを決定する方法のステップの図である。
添付図面において、下線のある番号は、下線のある番号が配置されているアイテム、または下線のある番号が隣接しているアイテムを表すために使用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられる矢印に添えられている場合に、下線のない番号は、矢印が指す一般的なアイテムを識別するために使用される。
以下の詳細な説明は、本開示の実施形態およびそれらを実装することができる方法を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。
概要において、本開示の実施形態は、画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法に関する。
図1は、本開示の様々な実施形態を実施することができる環境100を示す。環境100は、通信ネットワーク104を介して互いに通信可能に結合された、イメージングデバイス101、およびアクション分類システム102を含む。通信ネットワーク104は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク(LAN)、無線LAN接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含み得る。
イメージングデバイス101は、ビデオストリームをキャプチャするように構成される。本開示の一実施形態では、イメージングデバイス101は、セルフチェックアウトシステム(SCO)を含む小売チェックアウトプロセスの1つまたは複数の画像をキャプチャするように構成される。オプションとして、イメージングデバイス101は、インターネットプロトコル(IP)カメラ、パンチルトズーム(PTZ)カメラ、熱画像カメラ、または赤外線カメラを含むが、これらに限定されない。
アクション分類システム102は、イメージングデバイス101によってキャプチャされた人間のアクションおよび人間のアクティビティの画像を1つまたは複数の事前定義されたクラスに分類するように構成される。
アクション分類システム102は、中央処理装置(CPU)106、操作パネル108、およびメモリ110を含む。CPU106は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル108およびメモリ110などの様々な構成要素の動作を制御する他の回路である。CPU106は、例えば、メモリ110などの揮発性または不揮発性メモリに格納されているか、またはそうでなければCPU106に提供されるソフトウェア、ファームウェア、および/または他の命令を実行し得る。CPU106は、1つまたは複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル108およびメモリ110に接続し得る。本開示の一実施形態では、CPU106は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックプロセシングユニット(GPU)サーバソフトウェアを含み得る。
操作パネル108は、アクション分類システム102のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとり得る。操作パネル108は、選択された機能、プリファレンス、および/または認証に関連する1または複数のユーザからの入力を受信し得、視覚的および/または聴覚的に入力を提供および/または受信し得る。
メモリ110は、アクション分類システム102の動作を管理する際にCPU106によって使用される命令および/またはデータを格納することに加えて、アクション分類システム102の1または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報(例えば、ユーザ名/パスワードのペア)、ユーザプリファレンス、および他のユーザ固有の情報を含み得る。CPU106は、このデータにアクセスして、操作パネル108およびメモリ110の動作に関連する制御機能(例えば、1または複数の制御信号の送信および/または受信)を提供するのを支援し得る。
図2A~2Bは、本開示の一実施形態による、アクション分類システム102のCPU106のブロック図を示す。
CPU106は、ビデオストリームの各フレームを分析して、少なくとも1つの関心のあるアクション領域を決定するように動作可能な畳み込みニューラルネットワーク(CNN)200を使用し、少なくとも1つの関心のある領域は少なくとも1つのオブジェクトを含む。一例では、少なくとも1つのオブジェクトは、人、衣料品、食料品、財布などのオブジェクトであり得、1つまたは複数のアクションは、そのポケットから財布を取り出す人、列を歩いている人、クレジットカードをスワイプする人などを含み得る。CNN200は、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスにSCOスキャン領域(関心のあるアクション領域のスキャン)のビデオの画像フレームを分類するように訓練され得る。各クラスの画像フレームの分類の基準を以下に述べる。
手-画像フレームは人間の手を示す。
手の中にあるオブジェクト-画像フレームはユーザの手の中にあるオブジェクトを示す。
オブジェクト-画像フレームはオブジェクトのみを示す。
身体部分-画像フレームは人間の身体の部分を示す。
空のスキャナ-画像フレームは空のスキャナのみを示す。
本開示の一実施形態では、CNN200は、第1から第6のステージ204aから204fまで(以下では、まとめてステージ204と称する)で構成される。CNN200は、畳み込み層、すなわち、それらの入力に畳み込みを適用する層で部分的に構成されるニューラルネットワークを指す。さらに、当業者には、CNN200のステージの数が6を超え得ることは明らかであろう。本明細書で言及されるCNN200は、主に、少なくとも1つの関心のある領域内の少なくとも1つのオブジェクトを分類するために使用される、訓練された深層人工ニューラルネットワークとして定義される。特に、それらは、顔、個人、道路標識などを識別することができるアルゴリズムである。本明細書で使用される「ニューラルネットワーク」という用語は、処理要素の高度に相互接続されたネットワークを含むことができ、それぞれ、オプションでローカルメモリに関連付けられる。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」などとすることができる。さらに、ニューロンは、入力もしくは1つまたは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力もしくはさらに1つまたは複数の他のニューロンに送信することができる。
本開示の一実施形態では、CNN200の各ステージ204は、いくつかの層で構成される。一例では、各ステージ204は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される第1の層を含む。最大および平均プーリング層は、対応する入力をダウンサンプリングするように構成され、次いで、次の層のサイズを縮小する。各ステージ204について、第1の層以外の層は、対応する残差ブロックを形成する。
本開示の一実施形態では、第1のステージ204aは、畳み込み層205a、ならびにバッチ正規化層206a、正規化線形ユニット(RELU)層208a、別の畳み込み層210a、バッチ正規化層212a、別のRELU層214a、およびさらに別の畳み込み層216aを含む第1の残差ブロックを含む。残りの第2から第5のステージ204bから204eまでの層は、図2Aおよび2Bに関して自明であり、簡潔にするために、本明細書で再度説明する必要はない。
CNN200では、各畳み込み層は、分類タスクをサポートするための特徴的なローカル機能を見つけるために使用される畳み込みカーネルのグループを指す。従来の画像処理パイプラインでは、畳み込みカーネルは手作りされ、特徴抽出ステップとして元の画像から応答マップを取得する。たとえば、SobelカーネルまたはPrewittカーネルを使用してエッジ情報を抽出し、一方でGaussian平滑化カーネルを使用してノイズが低減されたぼやけた画像を取得する。CNNパイプラインでは、畳み込みカーネルがランダムに初期化され、進化して顕著性を学習し、最終的な分類パフォーマンスを向上させる。特徴マップのスタックは、層とカーネル間の畳み込み演算によって計算される。各畳み込み層204a、210a、および216aは、ストライド値1を使用する。
さらに、CNN200では、最大プーリング層205bおよび205eのそれぞれは、非線形関数を使用して、対応する以前の畳み込み層によって生成された特徴マップをダウンサンプリングする。CNN200のコンテキストでは、最大プーリングはCNN200を薄くし、畳み込みの代わりに使用される(最も重要なピクセルを抽出し、正則化の形態として機能することによって)。正則化は、少なくとも1つの画像内でオブジェクトによって実行されるアクションを決定するために高い重要度を有する複数のピクセルを抽出することを含む。
さらに、CNN200では、平均プーリング層205cおよび205dのそれぞれが、凝縮された形で情報をエンコードするために使用される。一例では、平均プーリング層205cおよび205dは、入力を長方形のプーリング領域に分割し、高い重要度を有する複数のピクセルの平均値を計算することによって、ダウンサンプリングを実行する。
さらに、CNN200では、バッチ正規化層206aから206eまでのそれぞれは、バッチ平均を減算し、バッチ標準偏差で除算することによって、以前の活性化層の出力を正規化する。
さらに、CNN200において、RELU214aから214eのそれぞれは、活性化関数を使用するためのコンピューティングプログラムまたはルーチンのコレクションを指し、これらは、少なくとも1つの画像に対応する重要な特徴を使用して得られる半波整流に類似している。
動作中、第1から第5のステージ204aから204eは、入力画像から重要な特徴を抽出するように構成される。本明細書で使用される「重要な特徴」という用語は、少なくとも1つの入力画像におけるピクセル特性の1つまたは複数の変化を指す。各ピクセルに関して使用される「ピクセル特性」という用語は、ピクセルのサイズ、ピクセルの色、および/またはピクセルの解像度を指す。具体的には、特徴抽出プロセスは、少なくとも1つの画像から所望の特徴のセットが抽出されるまで繰り返し実行される。
本開示の一実施形態では、第6のステージ204fは、以前の第1のステージから第5のステージ204aから204eまでの出力(特徴)に基づいて実際の決定を行う分類ステージである。第6のステージ204fは、グローバル平均プーリング層218および緻密層220を使用して、少なくとも1つの画像内でオブジェクトによって実行されるアクションを決定する。グローバル平均プーリング層218は、3次元テンソルの空間次元を縮小するために使用され、緻密層220は、すべての入力が重みによってすべての出力に接続される線形動作を含む(したがって、n_inputs×n_outputsの重みがある)。緻密層220は、CNN200の共通の特徴であり、各ニューロンは、対応する以前の層のすべてのニューロンに完全に接続される。グローバル平均プーリング層218は、ダウンサンプリングを実行するために非線形関数を使用する。一例では、第6のステージ204fは、入力画像を次の5つのクラス、すなわち、手、手+オブジェクト、オブジェクト、身体部分、空のスキャナ、のうちの1つに分類する。
本開示の様々な実施形態において、CNN200は、その畳み込み層全体にわたって一定数のフィルタを使用し、CNN200がいくつかの残差ブロックをスキップすることを可能にするストライド1のみを使用する畳み込み層を含む残差ブロックを使用する。CNN200は、最大/平均プーリング層を定期的に適用し、すべての層でフィルタの数を一定に保つことにより、次元削減メカニズムを活用する。一般的な方法は、各次元削減動作の後にフィルタの数を2倍にすることだが、一定の値を持つことによって、ネットワークの幅をトレーニングのハイパーパラメータとして機能させることができる。
CNN200は非常に薄い層を持ち、全体的に軽量(140000のトレーニング可能なパラメータ)であり、128x128カラー画像で5つのクラス(手、手+オブジェクト、オブジェクト、身体部分、空のスキャナ)の画像を分類するタスクで、ResNetまたはDenseNet(17000000-58000000のトレーニング可能なパラメータ)に基づく任意の他の微調整されたカスタムアーキテクチャとほぼ同じように機能することができる。この利点は、低いメモリフットプリント(約450mb)、および他のシステムより3から5倍速い推論時間という形でもたらされる。
CNN200は、次の2つの重要な原則を活用する。
-深層残差ネットワークでのアイデンティティマッピングを含む、2つの畳み込み層を有する完全事前活性化残差ブロック。
-大きな学習率を使用したニューラルネットワークの非常に高速なトレーニングを含む、超収束。
図3を参照すると、本開示の実施形態による、少なくとも1つの画像内のオブジェクトによって実行されるアクションを決定する方法300のステップが示されている。ステップ302において、アクションを実行するオブジェクトを含む少なくとも1つの画像が受信される。ステップ304において、畳み込みニューラルネットワークへの少なくとも1つの画像が提供される。ステップ306において、少なくとも1つの画像に対応する重要な特徴が、畳み込みニューラルネットワークに関連する畳み込み層、最大プーリング層、および平均プーリング層を使用することによって抽出される。ステップ308において、少なくとも1つの画像に対応する重要な特徴は、少なくとも1つの画像内のオブジェクトによって実行されるアクションを決定するために、グローバル平均プーリング層および緻密層を使用することによって分類される。
ステップ302から308は単なる例示であり、1つまたは複数のステップが追加され、1つまたは複数のステップが除去され、または1つまたは複数のステップが本明細書の特許請求の範囲から逸脱することなく異なる順序で提供される、他の代替も提供されることができる。一例では、この方法は、畳み込みニューラルネットワークに関連する複数の畳み込み層、最大プーリング層、および平均プーリング層を使用することによって、少なくとも1つの画像に対応する重要な特徴を繰り返し抽出することを含む。別の例では、この方法は、重要な特徴を抽出した後、バッチ正規化層および正規化線形ユニットを含む少なくとも1つの残差ブロックを使用することを含む。別の例では、最大プーリング層、平均プーリング層、またはグローバル平均プーリング層は、非線形関数を使用して、少なくとも1つの画像のダウンサンプリングを実行する。さらに別の例では、この方法は、最大プーリング層を使用することによって少なくとも1つの画像を正則化することを含み、正則化は、少なくとも1つの画像内でオブジェクトによって実行されるアクションを決定するために高い重要度を有する複数のピクセルを抽出することを含む。一例では、この方法は、平均プーリング層を使用して、凝縮された形で少なくとも1つの画像内の情報をエンコードすることを含む。別の例では、この方法は、各層が複数の人工ニューロンを含み、緻密層の複数の人工ニューロンのそれぞれが、グローバル平均プーリング層の複数の人工ニューロンに接続されていることを含む。さらに別の例では、この方法は、畳み込み層によってストライド値1を使用することを含む。
用語「a」および「an」および「the」ならびに本開示を記載するコンテキストでの(特に以下の特許請求の範囲のコンテキストでの)同様の参照の使用は、本明細書で他に示されない限りまたはコンテキストによって明確に矛盾しない限り、単数形および複数形の両方をカバーすると解釈されるべきである。用語「備える(comprising)」、「有する(having)」、「含む(including)」、および「包含する(compling)」は、他に注記されていない限り、限定されない用語として解釈されるべきである(すなわち、「含むが、それらに限定されない」を意味する)。本明細書における値の範囲の記載は、本明細書で他に示されない限り、その範囲内にある各々の別個の値を個々に指す簡略方法としての役割を果たすことが意図されるにすぎず、各々の別個の値は、それが本明細書で個々に記載されたように本明細書に組み込まれる。本明細書で説明される全ての方法は、本明細書で他に示されない限り、またはコンテキストによって明確に矛盾しない限り、任意の適切な順序で実行され得る。本明細書で提供される任意の及び全ての例、または例示的な言語(例えば、「など」)の使用は、本開示をより良く示すことを意図しているに過ぎず、特許請求の範囲に記載のない限り、本開示の範囲に限定を課すものではない。本明細書のいずれの言語も、本開示の実施にとって必須として任意の請求されていない要素を示すものと解釈されるべきではない。
前述の発明の実施形態への変更は、添付の特許請求の範囲によって定義される発明の範囲から逸脱することなく可能である。本開示を説明し、特許請求するために使用される「含む」、「備える」、「組み込む」、「からなる」、「有する」、「である」などの表現は、非排他的な方法で解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素も存在することを可能にする。単数形への言及も、複数形に関連していると解釈されるべきである。添付の特許請求の範囲で括弧内に含まれる数字は、特許請求の範囲の理解を助けることを意図しており、これらの特許請求の範囲によって請求される主題を限定するものと解釈されるべきではない。

Claims (15)

  1. 入力画像内でオブジェクトによって実行されるアクションを決定するためのシステムであって、
    1つまたは複数の命令を格納するためのメモリと、
    前記メモリに通信可能に結合され、前記メモリ内の1つまたは複数の命令を実行するように構成されたプロセッサであって、
    前記入力画像に対応する1つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージであって、各初期ステージは、第1の層および残差ブロックを含み、前記第1の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される、初期ステージと、
    前記抽出された重要な特徴を1つまたは複数の事前定義されたクラスに分類するための最終ステージであって、グローバル平均プーリング層および緻密層で構成される最終ステージと
    を含む畳み込みニューラルネットワーク(CNN)を使用するプロセッサと
    を含み、
    前記最大プーリング層、前記平均プーリング層、および前記グローバル平均プーリング層のそれぞれは、前記対応する入力画像のダウンサンプリングを実行するために非線形関数を使用し、各畳み込み層は、同じサイズの一定数のフィルタを使用する、システム。
  2. 前記事前定義された数の初期ステージは、前記入力画像に対応する前記重要な特徴を繰り返し抽出するように構成される、請求項1に記載のシステム。
  3. 前記各残差ブロックは、少なくとも1つのバッチ正規化層、少なくとも1つの正規化線形ユニット、および一定数のフィルタの少なくとも1つの畳み込み層を含む、請求項1に記載のシステム。
  4. 前記入力画像は、1から30の範囲の画像を含む、請求項1に記載のシステム。
  5. 前記最大プーリング層は、前記入力画像内の前記オブジェクトによって実行される前記アクションを決定するために高い重要度を有する複数のピクセルを抽出するように構成される、請求項1に記載のシステム。
  6. 前記平均プーリング層は、凝縮された形で前記入力画像内の情報をエンコードするように構成される、請求項1に記載のシステム。
  7. 各層は複数の人工ニューロンを含み、前記緻密層の各人工ニューロンは前記グローバル平均プーリング層の各人工ニューロンに接続されている、請求項1に記載のシステム。
  8. 入力画像内のオブジェクトによって実行されるアクションを決定するための方法であって、
    前記入力画像を受信することと、
    前記入力画像を畳み込みニューラルネットワーク(CNN)に提供することであって、前記CNNは、
    前記入力画像に対応する1つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージであって、各初期ステージは、第1の層および残差ブロックを含み、前記第1の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される、初期ステージと、
    前記抽出された重要な特徴を1つまたは複数の事前定義されたクラスに分類するための最終ステージであって、グローバル平均プーリング層および緻密層で構成される最終ステージと
    を含むことと
    を含み、
    前記最大プーリング層、前記平均プーリング層、および前記グローバル平均プーリング層のそれぞれは、前記対応する入力画像のダウンサンプリングを実行するために非線形関数を使用し、各畳み込み層は、同じサイズの一定数のフィルタを使用する、方法。
  9. 前記入力画像に対応する前記1つまたは複数の重要な特徴を繰り返し抽出することをさらに含む、請求項に記載の方法。
  10. 各残差ブロックは、少なくとも1つのバッチ正規化層、少なくとも1つの正規化線形ユニット、および一定数のフィルタの少なくとも1つの畳み込み層を含む、請求項に記載の方法。
  11. 前記入力画像は、1から30の範囲の画像を含む、請求項に記載の方法。
  12. 前記入力画像内の前記オブジェクトによって実行される前記アクションを決定するために高い重要度を有する複数のピクセルを抽出することをさらに含む、請求項に記載の方法。
  13. 前記平均プーリング層を使用して、凝縮された形で前記入力画像内の情報をエンコードすることをさらに含む、請求項に記載の方法。
  14. 各層は複数の人工ニューロンを含み、前記緻密層の各人工ニューロンは前記グローバル平均プーリング層の各人工ニューロンに接続されている、請求項に記載の方法。
  15. 機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品であって、請求項に記載の方法を実施するためにコンピューティングハードウェア上で実行可能であるソフトウェア製品。
JP2021578061A 2019-07-01 2020-05-12 画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法 Active JP7351941B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/458,286 US11151412B2 (en) 2019-07-01 2019-07-01 Systems and methods for determining actions performed by objects within images
US16/458,286 2019-07-01
PCT/IB2020/054486 WO2021001701A1 (en) 2019-07-01 2020-05-12 Systems and methods for determining actions performed by objects within images

Publications (2)

Publication Number Publication Date
JP2022540070A JP2022540070A (ja) 2022-09-14
JP7351941B2 true JP7351941B2 (ja) 2023-09-27

Family

ID=70857212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021578061A Active JP7351941B2 (ja) 2019-07-01 2020-05-12 画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法

Country Status (11)

Country Link
US (1) US11151412B2 (ja)
EP (1) EP3994604A1 (ja)
JP (1) JP7351941B2 (ja)
KR (1) KR20220010560A (ja)
CN (1) CN114008692A (ja)
AU (1) AU2020300066B2 (ja)
BR (1) BR112021024279A2 (ja)
CA (1) CA3141695A1 (ja)
CO (1) CO2021016316A2 (ja)
MX (1) MX2021015602A (ja)
WO (1) WO2021001701A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11992322B2 (en) * 2021-03-30 2024-05-28 Ionetworks Inc. Heart rhythm detection method and system using radar sensor
CN113908362B (zh) * 2021-10-13 2022-05-17 南方医科大学珠江医院 基于大数据的ecmo护理质量控制方法及系统
KR102655767B1 (ko) 2023-01-12 2024-04-05 국립공주대학교 산학협력단 쪽파를 함유하는 닭튀김의 제조방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053031A1 (en) 2016-09-14 2018-03-22 Kla-Tencor Corporation Convolutional neural network-based mode selection and defect classification for image fusion
JP2018106437A (ja) 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法
JP2019020820A (ja) 2017-07-12 2019-02-07 株式会社日立製作所 映像認識システム
JP2019096179A (ja) 2017-11-27 2019-06-20 ホーチキ株式会社 行動監視システム
JP2019096006A (ja) 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US10559111B2 (en) * 2016-06-23 2020-02-11 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US10706350B1 (en) * 2017-08-11 2020-07-07 Facebook, Inc. Video analysis using convolutional networks
US20200210767A1 (en) * 2017-09-08 2020-07-02 The General Hospital Corporation Method and systems for analyzing medical image data using machine learning
US11734955B2 (en) * 2017-09-18 2023-08-22 Board Of Trustees Of Michigan State University Disentangled representation learning generative adversarial network for pose-invariant face recognition
US10692244B2 (en) * 2017-10-06 2020-06-23 Nvidia Corporation Learning based camera pose estimation from images of an environment
SG11201912745WA (en) * 2017-10-16 2020-01-30 Illumina Inc Deep learning-based splice site classification
KR102416048B1 (ko) * 2017-10-16 2022-07-04 일루미나, 인코포레이티드 변이체 분류를 위한 심층 컨볼루션 신경망
US11263525B2 (en) * 2017-10-26 2022-03-01 Nvidia Corporation Progressive modification of neural networks
EP3901833A1 (en) * 2018-01-15 2021-10-27 Illumina, Inc. Deep learning-based variant classifier
US20190236440A1 (en) * 2018-01-31 2019-08-01 Pin-Han Ho Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture
US11507800B2 (en) * 2018-03-06 2022-11-22 Adobe Inc. Semantic class localization digital environment
EP3547211B1 (en) * 2018-03-30 2021-11-17 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
US11315570B2 (en) * 2018-05-02 2022-04-26 Facebook Technologies, Llc Machine learning-based speech-to-text transcription cloud intermediary
CN108776807A (zh) * 2018-05-18 2018-11-09 复旦大学 一种基于可跳层双支神经网络的图像粗细粒度分类方法
CN108921022A (zh) * 2018-05-30 2018-11-30 腾讯科技(深圳)有限公司 一种人体属性识别方法、装置、设备及介质
US11010902B2 (en) * 2018-06-04 2021-05-18 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
CN108830211A (zh) * 2018-06-11 2018-11-16 厦门中控智慧信息技术有限公司 基于深度学习的人脸识别方法及相关产品
US11034357B2 (en) * 2018-09-14 2021-06-15 Honda Motor Co., Ltd. Scene classification prediction
CN114502061B (zh) * 2018-12-04 2024-05-28 巴黎欧莱雅 使用深度学习的基于图像的自动皮肤诊断
US11049310B2 (en) * 2019-01-18 2021-06-29 Snap Inc. Photorealistic real-time portrait animation
US10691980B1 (en) * 2019-04-18 2020-06-23 Siemens Healthcare Gmbh Multi-task learning for chest X-ray abnormality classification
US10873456B1 (en) * 2019-05-07 2020-12-22 LedgerDomain, LLC Neural network classifiers for block chain data structures
WO2020236993A1 (en) * 2019-05-21 2020-11-26 Magic Leap, Inc. Hand pose estimation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053031A1 (en) 2016-09-14 2018-03-22 Kla-Tencor Corporation Convolutional neural network-based mode selection and defect classification for image fusion
JP2018106437A (ja) 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法
JP2019020820A (ja) 2017-07-12 2019-02-07 株式会社日立製作所 映像認識システム
JP2019096006A (ja) 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法
JP2019096179A (ja) 2017-11-27 2019-06-20 ホーチキ株式会社 行動監視システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山下 隆義,イラストで学ぶ ディープラーニング 改訂第2版,改訂第2版,日本,株式会社講談社,2018年11月19日,P.11-125

Also Published As

Publication number Publication date
KR20220010560A (ko) 2022-01-25
AU2020300066A1 (en) 2021-12-09
AU2020300066B2 (en) 2023-02-02
US11151412B2 (en) 2021-10-19
WO2021001701A1 (en) 2021-01-07
BR112021024279A2 (pt) 2022-01-11
JP2022540070A (ja) 2022-09-14
CA3141695A1 (en) 2021-01-07
EP3994604A1 (en) 2022-05-11
MX2021015602A (es) 2022-01-31
CN114008692A (zh) 2022-02-01
CO2021016316A2 (es) 2022-01-17
US20210004641A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
US11741736B2 (en) Determining associations between objects and persons using machine learning models
JP7351941B2 (ja) 画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法
CN107766786B (zh) 活性测试方法和活性测试计算设备
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
CN111402130B (zh) 数据处理方法和数据处理装置
US20200012923A1 (en) Computer device for training a deep neural network
KR101082878B1 (ko) 홍채 영상 복원 방법
EP3857440A1 (en) Method and apparatus for processing video stream
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
US11385526B2 (en) Method of processing image based on artificial intelligence and image processing device performing the same
JP2018077807A (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
KR102674065B1 (ko) 인공지능 기반의 노이즈 제거에 따른 이미지 구축을 통한 불량 검출 시스템 및 방법
CN106471440A (zh) 基于高效森林感测的眼睛跟踪
CN112487844A (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
Okawara et al. Action recognition from a single coded image
Panda et al. Encoder and decoder network with ResNet-50 and global average feature pooling for local change detection
CN113065575A (zh) 一种图像处理方法及相关装置
US10902247B1 (en) Quantized transition change detection for activity recognition
WO2022179599A1 (zh) 一种感知网络及数据处理方法
KR20230077560A (ko) 전시관 맞춤형 서비스 제공 장치 및 이의 제어 방법
Paul Ijjina Human fall detection in depth-videos using temporal templates and convolutional neural networks
Schwarz et al. Gait recognition with densePose energy images
Yang et al. An Indoor localization method of image matching based on deep learning
Yu et al. A Real-Time Hand Gesture Recognition System on Raspberry Pi: A Deep Learning-Based Approach
JP2021086275A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230320

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230914

R150 Certificate of patent or registration of utility model

Ref document number: 7351941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150