JP2023542469A - キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識 - Google Patents
キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識 Download PDFInfo
- Publication number
- JP2023542469A JP2023542469A JP2023509508A JP2023509508A JP2023542469A JP 2023542469 A JP2023542469 A JP 2023542469A JP 2023509508 A JP2023509508 A JP 2023509508A JP 2023509508 A JP2023509508 A JP 2023509508A JP 2023542469 A JP2023542469 A JP 2023542469A
- Authority
- JP
- Japan
- Prior art keywords
- keypoint
- processors
- identifying
- computer
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 57
- 230000000694 effects Effects 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 230000002123 temporal effect Effects 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 241000282412 Homo Species 0.000 description 10
- 239000010410 layer Substances 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/426—Graphical representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識は、1つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことを含む。1つまたは複数のプロセッサは、機械学習技術を使用して時間シーケンス内の画像フレームのそれぞれにおける第1および第2のキーポイントを識別する。第1のキーポイントは画像フレームの時間シーケンス内の物体に関連し、第2のキーポイントは物体と相互作用する個人に関連する。1つまたは複数のプロセッサは、第1のキーポイントを第2のキーポイントと結合し、この結合から時空間特徴を抽出し、時空間特徴を使用して、相互作用活動を認識できる分類モデルをトレーニングする。
Description
本発明は一般に人工知能(AI)の分野に関し、より詳細には、機械学習技術を使用したキーポイント検出に基づく自動化された相互作用活動(interactive activity)認識のための方法、システム、およびコンピュータ・プログラム製品に関する。
相互作用活動認識システムは、コンピュータが写真またはビデオ内の人々の行動を理解するために重要である。これらのシステムは、多くの分野で使用することができる。たとえば、製造および保守プロセスにおいて、相互作用活動認識システムを実装して、操作ミスを識別することによって、特定の機械の使用を改善することができる。しかしながら、人間と物体との間の相互作用活動は複雑であり、関連するアクションを認識することは困難な作業であり得る。
相互作用活動認識のための方法を提供することによって、従来技術の欠点を克服し、追加の利点を提供する。この方法は、1つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、1つまたは複数のプロセッサによって、時間シーケンス内の画像フレームのそれぞれにおける第1のキーポイントおよび第2のキーポイントを識別することと、を含む。第1のキーポイントは画像フレームの時間シーケンス内の物体に関連し、第2のキーポイントは物体と相互作用する個人に関連する。1つまたは複数のプロセッサは、第1のキーポイントを第2のキーポイントと結合し、結合された第1のキーポイントおよび第2のキーポイントから時空間特徴を抽出する。1つまたは複数のプロセッサは、抽出された時空間特徴に基づいて、個人と物体との間の相互作用活動を認識するための分類モデルをトレーニングする。
本開示の他の実施形態は、上述の方法に基づく相互作用活動認識のためのコンピュータ・プログラム製品を提供する。
本開示の他の実施形態は、上述の方法に基づく相互作用活動認識のためのコンピュータ・システムを提供する。
以下の詳細な説明は、例として与えており、本発明をそれだけに限定するものではないが、添付の図面と併せて最もよく理解されよう。
図面は必ずしも縮尺通りではない。図面は単なる概略図であり、本発明の特定のパラメータを表現することを意図したものではない。図面は本発明の典型的な実施形態のみを描写することを意図したものである。図面において、同様の番号付けは同様の要素を表す。
特許請求する構造および方法の詳細な実施形態を本明細書に開示するが、開示した実施形態が、様々な形態で具現化され得る特許請求する構造および方法を単に例示するものであることは理解されよう。しかしながら、本発明は多くの異なる形態で具現化され得、本明細書に記載した例示的な実施形態に限定されるものと解釈されるべきではない。本説明では、提示した実施形態を不必要に曖昧にしないように、よく知られている特徴および技術の詳細を省略し得る。
人間によって実行される複雑な相互作用活動の認識は、たとえば、人間とロボットとの相互作用の監視システム、セキュリティ、スポーツ・バイオメカニクスなどの多くの適用例で重要な役割を果たす。相互作用活動認識システムは、日々の活動を自動的に分析し、適切な応答を提供するために、望ましくない場合がある人間と機械との相互作用を検出することが可能でなければならない。そのような望ましくない相互作用には、たとえば人間が機械を操作している場合などの、危険であり得る相互作用が含まれ得る。
それらの適用例の多くは、関心のある特徴の空間定位から恩恵を受け得る。これらの関心のある特徴は、「キーポイント」と呼ばれることがよくある。キーポイント検出は、典型的には、関心のある特徴を定義する画像内の空間位置もしくは点、または所与の時刻における画像内の顕著な特徴(すなわち、時空間特徴)の同時検出を伴う。キーポイント検出の望ましい特性には、正確な定位、シフト、回転、スケール、明るさの変化に対する不変性、ノイズに対するロバスト性、高い再現性などが含まれ得る。
しかしながら、人間は日常的に自身の意図(たとえば、実行する作業など)に応じて様々なタイプの物体と様々な方法で相互作用するので、実行された相互作用活動の検出および認識は非常に困難なタスクになる。
したがって、本発明の実施形態は、キーポイント検出に基づいて相互作用活動を自動的に認識するための方法、システム、およびコンピュータ・プログラム製品を提供する。以下に説明する例示的な実施形態は、とりわけ、ビデオ録画から画像フレームのシーケンスを取り込み、機械学習技術を使用して各画像フレーム内の相互作用活動に関連するキーポイントを検出し、検出されたキーポイント(たとえば、物体のキーポイントおよび人間のキーポイント)を結合し、結合されたキーポイントを、時空間特徴を決定するために使用されるグラフ畳み込みネットワークの入力として使用し、決定された時空間特徴を使用して、相互作用活動を認識および分類できる分類モデルをトレーニングするためのシステム、方法、およびコンピュータ・プログラム製品を提供する。
したがって、本発明の実施形態は、深層学習アルゴリズムを使用して、利用可能なビデオ録画から相互作用活動を自動的に認識および分類するシステムおよびコンピュータ実装方法を提供することによって、人工知能の技術分野を改善する能力を有する。本発明の実施形態は、人間と特定の物体との間の相互作用を正確に認識して、改善され得るアクションを決定し得る。たとえば、誤って操作されている製造施設内の機器は、運転上または安全上の問題を引き起こし得る。他の例には、プレーヤーのスキルまたはテクニックを最適化するための、スポーツに関する身体動作の分析が含まれ得る。両方の状況において、自動化された相互作用活動認識のための提案方法は、事前にユーザの承認を得て、データを収集および分析して、最適ではない人間のメカニクス(mechanics)を検出し、修正アクションを実行できるようにする通知を生成することができる。
図1を参照すると、本開示の一実施形態による、例示的なネットワーク化されたコンピュータ環境100が示されている。図1は一実施形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆していない。特許請求の範囲に記載した本発明の範囲から逸脱することなく、図示した環境への多くの変更が当業者によって加えられ得る。
ネットワーク化されたコンピュータ環境100は、クライアント・コンピュータ102と、通信ネットワーク110とを含み得る。クライアント・コンピュータ102は、データ・ストレージ・デバイス106と、相互作用活動認識プログラム108を実行可能なプロセッサ104とを含み得る。クライアント・コンピュータ102は、たとえば、モバイル・デバイス、電話(スマートフォンを含む)、パーソナル・デジタル・アシスタント、ネットブック、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、またはネットワークにアクセス可能な任意のタイプのコンピューティング・デバイスであり得る。
ネットワーク化されたコンピュータ環境100はまた、データ・ストレージ・デバイス120と、ソフトウェア・プログラム112を実行可能なプロセッサ118とを有するサーバ・コンピュータ114を含み得る。いくつかの実施形態では、サーバ・コンピュータ114は、リソース管理サーバ、Webサーバ、またはデータを送受信可能な他の任意の電子デバイスであり得る。他の実施形態では、サーバ・コンピュータ114は、クラウド・コンピューティング環境などで複数のコンピュータをサーバ・システムとして利用するサーバ・コンピューティング・システムを表し得る。
クライアント・コンピュータ102上で実行される相互作用活動認識プログラム108は、通信ネットワーク110を介して、サーバ・コンピュータ114上で実行されるソフトウェア・プログラム112と通信し得る。図4を参照して説明するように、クライアント・コンピュータ102およびサーバ・コンピュータ114は、内部コンポーネントおよび外部コンポーネントを含み得る。
ネットワーク化されたコンピュータ環境100は、複数のクライアント・コンピュータ102およびサーバ・コンピュータ114を含み得、そのうちの1つのみを示している。通信ネットワーク110は、本開示の実施形態による様々なタイプの通信ネットワーク、たとえば、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、公衆交換電話網(PSTN:public switched telephone network)、セルラーもしくはモバイル・データ・ネットワーク(たとえば、第3もしくは第4世代の携帯電話移動通信によって提供される無線インターネット)、構内電話交換機(PBX:private branch exchange)、それらの任意の組み合わせ、またはクライアント・コンピュータ102とサーバ・コンピュータ114との間の通信をサポートする接続およびプロトコルの任意の組み合わせなどを含み得る。通信ネットワーク110は、有線、無線、または光ファイバ接続を含み得る。当業者に知られているように、ネットワーク化されたコンピュータ環境100は、図示していない追加のコンピューティング・デバイス、サーバ、または他のデバイスを含み得る。
本明細書で単一のインスタンスとして説明しているコンポーネント、動作、または構造に関して、複数のインスタンスが提供され得る。様々なコンポーネント、動作、およびデータ・ストア間の境界は多少恣意的なものであり、特定の動作は特定の例示的な構成のコンテキストで示している。機能の他の割り当てが想定され、本発明の範囲内に入り得る。一般に、例示的な構成において別個のコンポーネントとして提示している構造および機能は、結合された構造またはコンポーネントとして実装され得る。同様に、単一のコンポーネントとして提示している構造および機能は、別個のコンポーネントとして実装され得る。これらおよび他の変形、修正、追加、および改良は、本発明の範囲内に含まれ得る。
図2Aを参照すると、本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのシステム200が示されている。図2Bは、図2Aと同時に説明するシステム200の例示的な実装である。
一実施形態によれば、自動化された相互作用活動認識のためのシステム200は、画像取り込みモジュール212、キーポイント検出モジュール214、特徴抽出モジュール218、および相互作用活動分類モジュール220を含む。画像取り込みモジュール212は、光学機器からビデオまたは画像を取り込む。一実施形態では、光学機器はビデオ・カメラなどとすることができる。具体的には、画像取り込みモジュール212は、光学機器(図示せず)によって取り込まれたビデオ録画から画像フレームのシーケンス240(図2B)を取り出すことが可能である。録画されたビデオから画像フレームのシーケンス240を取り出す処理は、任意の知られている画像処理ツールを使用して実行することができる。たとえば、画像を多次元配列に変換するOpenCv(R)(オープン・ソースのコンピュータ・ビジョン・ライブラリ)などのソフトウェア・ライブラリを使用して、画像フレームのシーケンス240を取り出すことができる。
任意のデータ収集(たとえば、写真、ビデオなど)は、オプトインおよびオプトアウト機能を用いて、ユーザの同意を得て行われることに留意されたい。当業者に知られているように、オプトインおよびオプトアウト機能は一般に、ユーザが参加ステータスを変更する(すなわち、データ収集を承諾または拒否する)ことができる方法に関連している。いくつかの実施形態では、オプトインおよびオプトアウト機能は、クライアント・コンピュータ102で利用可能なソフトウェア・アプリケーションを含むことができる。さらに、ユーザは自身の情報の収集または使用の停止を選択することができる。いくつかの実施形態では、データが収集されるたびにユーザに通知することができる。収集されたデータは保護され、ユーザの同意なしに誰とも共有されないことが想定される。ユーザはいつでもデータ収集を停止することができる。
ビデオから画像フレームのシーケンス240を抽出した後、キーポイント検出モジュール214は、画像フレームのシーケンス240に存在する人間および物体に関連する関心のある特徴または点(すなわち、キーポイント)を識別する。具体的には、キーポイント検出モジュールは、取り出された画像フレームのシーケンス240からの各画像フレーム内の物体250に関連するキーポイントを識別する。続いて、キーポイント検出モジュール214は、取り出された画像フレームのシーケンス240からの各画像フレーム内の人間(または個人)260に関連するキーポイントを識別する。
一実施形態によれば、物体の関心点を決定するように事前にトレーニングされた畳み込みニューラル・ネットワーク(CNN)を使用して物体のキーポイント252を決定することができる。当業者に知られているように、CNNは、入力(すなわち、画像)を分析し、クラスまたは入力が特定のクラスである確率を出力することが可能な、画像認識および分類のための深層学習ニューラル・ネットワークのクラスである。一実施形態では、YOLO(C)(You Only Look Once)またはFaster R-CNNあるいはその両方などのCNNベースのリアルタイム物体検出モデルを使用して、画像フレームのシーケンス240内の特定の物体(たとえば、物体250)のバウンディング・ボックスを検出し、物体のキーポイント252を識別することができる。事前にラベル付けされたデータを使用して、物体のキーポイントを識別するようにCNNベースの検出モデルをトレーニングすることができる。
同様に、既存の技術を使用して人間のキーポイント262を決定することができる。たとえば、OpenPoseなどの画像およびビデオ内の複数人姿勢検出(multi-person pose detection)のためのリアルタイムの方法を使用して、人間のキーポイント262を決定することができる。当業者に知られているように、これらのリアルタイムの複数人検出方法は、単一の画像上で人間の体、手、顔、および足のキーポイントを一緒に検出することができる。
場合によっては、遮蔽されたキーポイントが画像フレームのシーケンス240に存在し(たとえば、見えにくいまたはカメラで捕捉されないキーポイント)、従来のキーポイント決定システムでは気付かれない場合がある。この問題を回避するために、システム200は、画像フレームのシーケンス240における各画像フレームの前後を使用して現存する遮蔽された(人間または物体の)キーポイントを決定する。具体的には、キーポイント検出モジュールは、キーポイント検出処理で追跡アルゴリズムを使用して、画像フレームのシーケンス240内のn番目のフレームおよび(n+1)番目のフレームの間の関係を決定する。人間または物体のキーポイントが(n+1)番目のフレームで遮蔽されている場合、遮蔽されたキーポイントの位置は、キーポイントが見えるまたは遮られていないn番目のフレームでの同じキーポイントの位置に基づいて決定することができる。
物体のキーポイント252および人間のキーポイント262は結合され、特徴抽出モジュール218の入力として使用される。特徴抽出モジュール218は、相互作用活動分類モジュール220の分類モデルをトレーニングするために使用することができる時空間特徴を抽出するグラフ畳み込みニューラル・ネットワーク(GCN:Graph Convolutional Neural Network)からなる。時空間特徴は、決定された物体および人間のキーポイント252、262にそれぞれ対応する空間および時間の両方にわたって収集されたデータに関連する。
当業者に知られているように、GCNは、グラフに関する機械学習のための非常に強力なニューラル・ネットワーク・アーキテクチャを含む画像分類方法を提供する。具体的には、GCNは、ピクセルで構成される画像ではなく、グラフに対して畳み込みを実行する。たとえば、CNNモデルは、画像フレームのシーケンス240から最も重要な情報を抽出してシーケンスを分類し、GCNモデルは、グラフ上でフィルタを通過させて、グラフ内のノードを分類するのに役立ち得る重要な頂点およびエッジ(すなわち、キーポイント)を探す。具体的には、GCNモデルは、非ユークリッド構造データ(たとえば、画像)をより効率的に処理することができ、トポロジ的な接続データ構造上により多くの適用空間(application space)を提供することが可能である。GCNモデルからの結果は最終的な物体および人間のキーポイントを含み、これらは相互作用活動分類モジュール220の分類モデルの入力として使用される。
抽出された時空間特徴は、相互作用活動分類モジュール220の分類モデルに入力される。一実施形態によれば、相互作用活動分類モジュール220は、抽出された時空間特徴に基づいて、人間と物体との間の相互作用の最適な分類を出力または生成する。相互作用活動分類モジュール220の分類モデルは、入力データ(すなわち、画像フレームのシーケンス240から抽出されたキーポイントに関連する時空間特徴)から学習する教師あり学習アルゴリズムを使用し、そしてこの学習を使用して人間と物体との間の新しい相互作用活動を分類する。
いくつかの実施形態では、相互作用活動分類モジュール220の分類モデルは、トレーニング・データセットに基づいて、人間と物体との間の不所望の相互作用活動を認識し、通常と異なる相互作用アクションについて通知する警告を生成することができる。
図3を参照すると、本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのコンピュータ実装方法のステップを示すフローチャートが示されている。
処理はステップ302において、複数の画像フレームを受け取ることによって開始する。上記で説明したように、複数の画像フレームは、ビデオ録画から抽出された画像フレームのシーケンスに対応する。ステップ304において、CNNベースのモデルを使用して、物体に関連する関心点に対応する第1のキーポイント(たとえば、図2Bの物体250および物体のキーポイント252)が検出される。一実施形態によれば、CNNベースのモデルは、第1の(物体)キーポイントを認識するように事前にトレーニングされている。
同様に、ステップ306において、受け取られた複数の画像フレーム内で、物体と相互作用する人間または個人に関連する関心点に対応する第2のキーポイントが検出される。第2のまたは人間のキーポイントは、画像およびビデオにおける複数人姿勢検出のための最新のリアルタイムの方法を使用して検出される。
遮蔽されたまたは隠れたキーポイントが存在する実施形態では、図2Aを参照して上記で説明したように、提案方法は各画像フレームの前後を使用して現存する遮蔽された(人間または物体あるいはその両方の)キーポイントを決定する。
ステップ308において、第1の(物体の)キーポイントと第2の(人間の)キーポイントとが結合され、ステップ310において、図2Aの特徴抽出モジュール218のGCNモデルの入力として使用される。具体的には、ステップ308において、所定の時間窓Nが設定され、その時間窓Nに対応する第1および第2のキーポイントが選択され、結合されて、ステップ310においてGCNモデルの入力として使用される。次いで、対応する時間窓Nに対するGCNモデルの出力を使用して、分類モデル(たとえば、図2Aの相互作用活動分類モジュール220の分類モデル)をトレーニングし得る。ステップ312において、トレーニングされた分類モデルに基づいて、人間と物体との間の相互作用活動の認識を実行することができる。言い換えれば、図2Aを参照して上述したように、GCNモデルの出力(すなわち、結合されたキーポイントの関連する時空間特徴)を使用して、(相互作用)分類モデルに供給する。
いくつかの実施形態では、提案方法は、相互作用活動を不所望のものまたは最適ではないものとして認識することに基づいて、人間と物体との間の検出された通常と異なる相互作用を通知する警告を生成することができる。これは、製造プロセスまたはセキュリティ・システムで特に役立ち得る。
したがって、本発明の実施形態は、画像フレームの時間シーケンスから検出されたキーポイントに基づいて人間と物体との間の相互作用活動を認識および分類するための方法、システム、およびコンピュータ・プログラム製品を提供する。提案した実施形態では機械学習アルゴリズムを使用して、人間および物体のキーポイントを正確に認識および分類し、次いでこれらを使用して相互作用活動認識のための分類モデルをトレーニングすることができる。提案した実施形態は、製造プロセス、セキュリティ・システム、保守システムなどを含む、人間と物体との間の活動の認識が必要とされる多くの実際の適用例に有用であり得る。
図4を参照すると、本開示の一実施形態による、図1のネットワーク化されたコンピュータ環境100のクライアント・コンピュータ102およびサーバ・コンピュータ114のコンポーネントのブロック図が示されている。図4は一実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆していないことを理解されたい。図示した環境への多くの変更が加えられ得る。
クライアント・コンピュータ102およびサーバ・コンピュータ114は、1つまたは複数のプロセッサ402、1つまたは複数のコンピュータ可読RAM404、1つまたは複数のコンピュータ可読ROM406、1つまたは複数のコンピュータ可読記憶媒体408、デバイス・ドライバ412、読み取り/書き込みドライブまたはインターフェース414、ネットワーク・アダプタまたはインターフェース416を含み得、これらは全て通信ファブリック418を介して相互接続される。通信ファブリック418は、プロセッサ(たとえば、マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、およびシステム内の他の任意のハードウェア・コンポーネントの間でデータまたは制御情報あるいはその両方を受け渡しするために設計された任意のアーキテクチャで実装され得る。
1つまたは複数のオペレーティング・システム410および1つまたは複数のアプリケーション・プログラム411は、プロセッサ402のうちの1つまたは複数によって、それぞれのRAM404(典型的にはキャッシュ・メモリを含む)のうちの1つまたは複数を介して実行するために、コンピュータ可読記憶媒体408のうちの1つまたは複数に記憶される。図示の実施形態では、コンピュータ可読記憶媒体408のそれぞれは、内蔵ハード・ドライブの磁気ディスク・ストレージ・デバイス、CD-ROM、DVD、メモリー・スティック(R)、磁気テープ、磁気ディスク、光ディスク、半導体ストレージ・デバイス、たとえば、RAM、ROM、EPROM、フラッシュ・メモリ、またはコンピュータ・プログラムおよびデジタル情報を記憶できる他の任意のコンピュータ可読有形ストレージ・デバイスであり得る。
クライアント・コンピュータ102およびサーバ・コンピュータ114はまた、1つまたは複数のポータブル・コンピュータ可読記憶媒体426に対して読み書きを行うためのR/Wドライブまたはインターフェース414を含み得る。クライアント・コンピュータ102およびサーバ・コンピュータ114上のアプリケーション・プログラム411は、ポータブル・コンピュータ可読記憶媒体426のうちの1つまたは複数に記憶され、それぞれのR/Wドライブまたはインターフェース414を介して読み取られ、それぞれのコンピュータ可読記憶媒体408にロードされ得る。
クライアント・コンピュータ102およびサーバ・コンピュータ114はまた、ネットワーク428への接続のために、ネットワーク・アダプタまたはインターフェース416、たとえば、TCP/IPアダプタ・カードまたは無線通信アダプタなど(OFDMA技術を使用する40無線通信アダプタなど)を含み得る。クライアント・コンピュータ102およびサーバ・コンピュータ114上のアプリケーション・プログラム411は、ネットワーク(たとえば、インターネット、ローカル・エリア・ネットワーク、または他のワイド・エリア・ネットワークもしくは無線ネットワーク)およびネットワーク・アダプタまたはインターフェース416を介して、外部コンピュータまたは外部ストレージ・デバイスからコンピューティング・デバイスにダウンロードされ得る。プログラムは、ネットワーク・アダプタまたはインターフェース416からコンピュータ可読記憶媒体408にロードされ得る。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。
クライアント・コンピュータ102およびサーバ・コンピュータ114はまた、ディスプレイ画面420、キーボードまたはキーパッド422、およびコンピュータ・マウスまたはタッチパッド424を含み得る。デバイス・ドライバ412は、画像化のためにディスプレイ画面420に、キーボードもしくはキーパッド422に、コンピュータ・マウスもしくはタッチパッド424に、または英数字入力およびユーザ選択の圧力感知のためにディスプレイ画面420に、あるいはそれらの組み合わせにインターフェースする。デバイス・ドライバ412、R/Wドライブまたはインターフェース414、およびネットワーク・アダプタまたはインターフェース416は、(コンピュータ可読記憶媒体408またはROM406あるいはその両方に記憶された)ハードウェアおよびソフトウェアを含み得る。
本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやりとりによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース(たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つのデプロイメント・モデルとを含み得る。
特徴は以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス:能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム(たとえば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル(たとえば、国、州、またはデータセンター)では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性:能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウド・システムは、サービスのタイプ(たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。
サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、Webブラウザ(たとえば、Webベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント(たとえば、ホスト・ファイアウォール)を限定的に制御する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念(たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など)を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術(たとえば、クラウド間の負荷分散のためのクラウド・バースティング)によって結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を合成したものである。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図5を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示のように、クラウド・コンピューティング環境50は1つまたは複数のクラウド・コンピューティング・ノード10を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード10は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組み合わせを提供することが可能になる。図5に示したコンピューティング・デバイス54A~Nのタイプは例示的なものにすぎないことを意図しており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続(たとえば、Webブラウザを使用)あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。
ここで図6を参照すると、クラウド・コンピューティング環境50(図5)によって提供される機能的抽象化レイヤのセットが示されている。図6に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことを意図しており、本発明の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る。
一例では、管理レイヤ80は、下記の機能を提供し得る。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定82は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル83は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA)の計画および履行85は、SLAに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ分析処理94、取引処理95、ならびにキーポイント検出に基づく自動化された相互作用活動認識のシステム96を含む。
本明細書に記載のプログラムは、それらが本発明の特定の実施形態で実装される場合の用途に基づいて識別している。しかしながら、本明細書のいかなる特定のプログラム名称も便宜上使用しているにすぎず、したがって、本発明が、そのような名称によって識別または含意あるいはその両方が行われる任意の特定の用途での使用のみに限定されるべきではないということを理解されたい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、またはコードの一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得ることにも留意されたい。たとえば、関与する機能に応じて、連続して示した2つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリー・スティック(R)、フロッピー(R)・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Smalltalk(R)、C++などの物体指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたは物体・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。最後のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為の態様を実装する命令を含む製造品を構成するようにし得る。
また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為が実装されるようなコンピュータ実装処理を生成し得る。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した2つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。
開示した方法のステップならびに開示したシステムおよび環境のコンポーネントは数字および文字を使用して順次的または連続的に識別しているが、そのような番号付けまたは文字付けは、そのようなステップが列挙した順序で実行されなければならないことを示すものではなく、方法のステップの明確な参照を容易にするために提供しているにすぎない。さらに、本方法のステップは、それらの説明した機能を実行するために並行して実行され得る。
本発明の様々な実施形態の説明は、例示の目的で提示してきたが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、または市場に見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選んだ。
Claims (20)
- 相互作用活動認識のためのコンピュータ実装方法であって、
1つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第1のキーポイントを識別することであって、前記第1のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別することと、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第2のキーポイントを識別することであって、前記第2のキーポイントは前記物体と相互作用する個人に関連する、前記識別することと、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを前記第2のキーポイントと結合することと、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントから時空間特徴を抽出することと、
前記1つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングすることと、
を含む、コンピュータ実装方法。 - 前記第1のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク(CNN)ベースの検出モデルを使用すること
をさらに含む、請求項1に記載の方法。 - 前記1つまたは複数のプロセッサによって、前記第1のキーポイントを識別するように前記CNNベースの検出モデルをトレーニングするために事前にラベル付けされたデータを使用すること
をさらに含む、請求項2に記載の方法。 - 前記第2のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用すること
をさらに含む、請求項1に記載の方法。 - 前記結合された第1のキーポイントおよび第2のキーポイントから前記時空間特徴を抽出することは、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク(GCN)モデルへの入力として使用することであって、前記GCNモデルの結果は最終的な第1のキーポイントおよび最終的な第2のキーポイントを含む、前記使用すること
をさらに含む、請求項1に記載の方法。 - 前記1つまたは複数のプロセッサによって、前記時空間特徴を前記分類モデルに供給すること
をさらに含む、請求項1に記載の方法。 - 前記1つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第3のキーポイントを識別すること
をさらに含む、請求項1に記載の方法。 - 前記第3のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのn番目のフレームと(n+1)番目のフレームとの間の関係を決定することであって、前記(n+1)番目のフレームにおける前記第3のキーポイントの位置は、前記第3のキーポイントが見える前記n番目のフレームにおける前記第3のキーポイントの位置に基づいて決定される、前記決定すること
をさらに含む、請求項7に記載の方法。 - 相互作用活動認識のためのコンピュータ・システムであって、
1つまたは複数のプロセッサと、1つまたは複数のコンピュータ可読メモリと、1つまたは複数のコンピュータ可読有形ストレージ・デバイスと、プログラム命令と、を含み、前記プログラム命令は前記1つまたは複数のメモリのうちの少なくとも1つを介して前記1つまたは複数のプロセッサのうちの少なくとも1つによって実行するために前記1つまたは複数のストレージ・デバイスのうちの少なくとも1つに記憶され、前記コンピュータ・システムは方法を実行することが可能であり、前記方法は、
1つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第1のキーポイントを識別することであって、前記第1のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別することと、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第2のキーポイントを識別することであって、前記第2のキーポイントは前記物体と相互作用する個人に関連する、前記識別することと、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを前記第2のキーポイントと結合することと、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントから時空間特徴を抽出することと、
前記1つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングすることと、
を含む、コンピュータ・システム。 - 前記第1のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク(CNN)ベースの検出モデルを使用すること
をさらに含む、請求項9に記載のコンピュータ・システム。 - 前記1つまたは複数のプロセッサによって、前記第1のキーポイントを識別するように前記CNNベースの検出モデルをトレーニングするために事前にラベル付けされたデータを使用すること
をさらに含む、請求項10に記載のコンピュータ・システム。 - 前記第2のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用すること
をさらに含む、請求項9に記載のコンピュータ・システム。 - 前記結合された第1のキーポイントおよび第2のキーポイントから前記時空間特徴を抽出することは、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク(GCN)モデルへの入力として使用することであって、前記GCNモデルの結果は最終的な第1のキーポイントおよび最終的な第2のキーポイントを含む、前記使用すること
をさらに含む、請求項9に記載のコンピュータ・システム。 - 前記1つまたは複数のプロセッサによって、前記時空間特徴を前記分類モデルに供給すること
をさらに含む、請求項9に記載のコンピュータ・システム。 - 前記1つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第3のキーポイントを識別すること
をさらに含む、請求項9に記載のコンピュータ・システム。 - 前記第3のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのn番目のフレームと(n+1)番目のフレームとの間の関係を決定することであって、前記(n+1)番目のフレームにおける前記第3のキーポイントの位置は、前記第3のキーポイントが見える前記n番目のフレームにおける前記第3のキーポイントの位置に基づいて決定される、前記決定すること
をさらに含む、請求項15に記載のコンピュータ・システム。 - 相互作用活動認識のためのコンピュータ・プログラム製品であって、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含み、前記プログラム命令は、
1つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すプログラム命令と、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第1のキーポイントを識別するプログラム命令であって、前記第1のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別するプログラム命令と、
前記1つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第2のキーポイントを識別するプログラム命令であって、前記第2のキーポイントは前記物体と相互作用する個人に関連する、前記識別するプログラム命令と、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを前記第2のキーポイントと結合するプログラム命令と、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントから時空間特徴を抽出するプログラム命令と、
前記1つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングするプログラム命令と、
を含む、コンピュータ・プログラム製品。 - 前記第1のキーポイントを識別することおよび前記第2のキーポイントを識別することは、
前記1つまたは複数のプロセッサによって、前記第1のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク(CNN)ベースの検出モデルを使用することと、
前記1つまたは複数のプロセッサによって、前記第2のキーポイントを識別するために画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用することと、
をさらに含む、請求項17に記載のコンピュータ・プログラム製品。 - 前記結合された第1のキーポイントおよび第2のキーポイントから前記時空間特徴を抽出することは、
前記1つまたは複数のプロセッサによって、前記結合された第1のキーポイントおよび第2のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク(GCN)モデルへの入力として使用することであって、前記GCNモデルの結果は最終的な第1のキーポイントおよび最終的な第2のキーポイントを含む、前記使用すること
をさらに含む、請求項17に記載のコンピュータ・プログラム製品。 - 前記1つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第3のキーポイントを識別することをさらに含み、前記第3のキーポイントを識別することは、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのn番目のフレームと(n+1)番目のフレームとの間の関係を決定することであって、前記(n+1)番目のフレームにおける前記第3のキーポイントの位置は、前記第3のキーポイントが見える前記n番目のフレームにおける前記第3のキーポイントの位置に基づいて決定される、前記決定することを含む、
請求項17に記載のコンピュータ・プログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/035,722 | 2020-09-29 | ||
US17/035,722 US11514605B2 (en) | 2020-09-29 | 2020-09-29 | Computer automated interactive activity recognition based on keypoint detection |
PCT/CN2021/106777 WO2022068320A1 (en) | 2020-09-29 | 2021-07-16 | Computer automated interactive activity recognition based on keypoint detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023542469A true JP2023542469A (ja) | 2023-10-10 |
Family
ID=80821369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023509508A Pending JP2023542469A (ja) | 2020-09-29 | 2021-07-16 | キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11514605B2 (ja) |
JP (1) | JP2023542469A (ja) |
CN (1) | CN116097322A (ja) |
DE (1) | DE112021004329T5 (ja) |
GB (1) | GB2614840B (ja) |
WO (1) | WO2022068320A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3757888A1 (en) * | 2019-06-27 | 2020-12-30 | Koninklijke Philips N.V. | Multi-task deep learning method for a neural network for automatic pathology detection |
US20230117686A1 (en) * | 2021-10-14 | 2023-04-20 | Outward, Inc. | Interactive image generation |
CN115719518B (zh) * | 2023-01-10 | 2023-06-20 | 浙江壹体科技有限公司 | 一种基于嵌入式平台的行为识别方法、系统、设备及介质 |
CN115834433B (zh) * | 2023-02-17 | 2023-05-12 | 杭州沄涞科技有限公司 | 基于物联网技术的数据处理方法及系统 |
CN116796021B (zh) * | 2023-08-28 | 2023-12-05 | 上海任意门科技有限公司 | 图像检索方法、系统、电子设备和介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345627B (zh) | 2013-07-23 | 2016-03-30 | 清华大学 | 动作识别方法和装置 |
CN104881881B (zh) * | 2014-02-27 | 2018-04-10 | 株式会社理光 | 运动对象表示方法及其装置 |
US10242266B2 (en) | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
CN105930767B (zh) | 2016-04-06 | 2019-05-17 | 南京华捷艾米软件科技有限公司 | 一种基于人体骨架的动作识别方法 |
CN106022213B (zh) | 2016-05-04 | 2019-06-07 | 北方工业大学 | 一种基于三维骨骼信息的人体动作识别方法 |
CN107239728B (zh) | 2017-01-04 | 2021-02-02 | 赛灵思电子科技(北京)有限公司 | 基于深度学习姿态估计的无人机交互装置与方法 |
WO2018126323A1 (en) | 2017-01-06 | 2018-07-12 | Sportlogiq Inc. | Systems and methods for behaviour understanding from trajectories |
US10503978B2 (en) | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
EP3467707B1 (en) | 2017-10-07 | 2024-03-13 | Tata Consultancy Services Limited | System and method for deep learning based hand gesture recognition in first person view |
US10796452B2 (en) * | 2017-12-03 | 2020-10-06 | Facebook, Inc. | Optimizations for structure mapping and up-sampling |
US10586350B2 (en) * | 2017-12-03 | 2020-03-10 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
US10572723B2 (en) | 2017-12-07 | 2020-02-25 | Futurewei Technologies, Inc. | Activity detection by joint human and object detection and tracking |
US10628667B2 (en) * | 2018-01-11 | 2020-04-21 | Futurewei Technologies, Inc. | Activity recognition method using videotubes |
CN108388876B (zh) | 2018-03-13 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置以及相关设备 |
US11106902B2 (en) | 2018-03-13 | 2021-08-31 | Adobe Inc. | Interaction detection model for identifying human-object interactions in image content |
US20200020165A1 (en) * | 2018-07-12 | 2020-01-16 | Bao Tran | Smart device |
CN108985259B (zh) * | 2018-08-03 | 2022-03-18 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
US10600334B1 (en) * | 2018-12-11 | 2020-03-24 | NEX Team Inc. | Methods and systems for facilitating interactive training of body-eye coordination and reaction time |
US11045705B2 (en) * | 2019-03-19 | 2021-06-29 | NEX Team Inc. | Methods and systems for 3D ball trajectory reconstruction |
US11074438B2 (en) * | 2019-10-01 | 2021-07-27 | Toyota Research Institute, Inc. | Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision |
US11302110B2 (en) * | 2020-02-28 | 2022-04-12 | Honda Motor Co., Ltd. | Pedestrian action recognition and localization using RGB images |
US11625646B2 (en) * | 2020-04-06 | 2023-04-11 | Huawei Cloud Computing Technologies Co., Ltd. | Method, system, and medium for identifying human behavior in a digital video using convolutional neural networks |
-
2020
- 2020-09-29 US US17/035,722 patent/US11514605B2/en active Active
-
2021
- 2021-07-16 JP JP2023509508A patent/JP2023542469A/ja active Pending
- 2021-07-16 DE DE112021004329.3T patent/DE112021004329T5/de active Pending
- 2021-07-16 GB GB2305407.5A patent/GB2614840B/en active Active
- 2021-07-16 CN CN202180051785.3A patent/CN116097322A/zh active Pending
- 2021-07-16 WO PCT/CN2021/106777 patent/WO2022068320A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US11514605B2 (en) | 2022-11-29 |
DE112021004329T5 (de) | 2023-06-07 |
CN116097322A (zh) | 2023-05-09 |
GB202305407D0 (en) | 2023-05-31 |
WO2022068320A1 (en) | 2022-04-07 |
GB2614840A (en) | 2023-07-19 |
GB2614840B (en) | 2024-05-15 |
US20220101556A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10593118B2 (en) | Learning opportunity based display generation and presentation | |
US10990810B2 (en) | Automated facial recognition detection | |
JP2023542469A (ja) | キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識 | |
US11488014B2 (en) | Automated selection of unannotated data for annotation based on features generated during training | |
US11275972B2 (en) | Image classification masking | |
CN114384997A (zh) | 传感器不可知姿势检测 | |
US10798037B1 (en) | Media content mapping | |
US11721099B2 (en) | Cloud based active commissioning system for video analytics | |
US10013622B2 (en) | Removing unwanted objects from a photograph | |
US20190392039A1 (en) | Cognitively identifying favorable photograph qualities | |
JP2023539222A (ja) | 決定論的学習映像シーン検出 | |
US11663851B2 (en) | Detecting and notifying for potential biases in artificial intelligence applications | |
US20220044105A1 (en) | Training multimodal representation learning model on unnanotated multimodal data | |
JP7416718B2 (ja) | 音声およびビデオ・マルチメディアの修正および提示 | |
US11093743B2 (en) | Intelligent personalization of operations of an image capturing device | |
US11164037B2 (en) | Object instance ambiguity resolution | |
US11854264B2 (en) | Speculative actions based on predicting negative circumstances | |
WO2022188599A1 (en) | Selective redaction of images | |
JP2024518875A (ja) | 動作コマンド境界 | |
US20220188347A1 (en) | Digital semantic structure conversion | |
US20220067546A1 (en) | Visual question answering using model trained on unlabeled videos | |
US11295543B2 (en) | Object detection in an image | |
US20220188676A1 (en) | Inference model optimization | |
US11526544B2 (en) | System for object identification | |
US20220284634A1 (en) | Surrounding assessment for heat map visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231212 |