JP2023542469A

JP2023542469A - キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識

Info

Publication number: JP2023542469A
Application number: JP2023509508A
Authority: JP
Inventors: チャン、ダン; チャン、ホンビン; シン、チャオ; リュウ、シュエピン; ペン、ジーシン; カイ、ヂオ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-29
Filing date: 2021-07-16
Publication date: 2023-10-10
Also published as: US11514605B2; DE112021004329T5; CN116097322A; GB202305407D0; WO2022068320A1; GB2614840A; GB2614840B; US20220101556A1

Abstract

キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識は、１つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことを含む。１つまたは複数のプロセッサは、機械学習技術を使用して時間シーケンス内の画像フレームのそれぞれにおける第１および第２のキーポイントを識別する。第１のキーポイントは画像フレームの時間シーケンス内の物体に関連し、第２のキーポイントは物体と相互作用する個人に関連する。１つまたは複数のプロセッサは、第１のキーポイントを第２のキーポイントと結合し、この結合から時空間特徴を抽出し、時空間特徴を使用して、相互作用活動を認識できる分類モデルをトレーニングする。

Description

本発明は一般に人工知能（ＡＩ）の分野に関し、より詳細には、機械学習技術を使用したキーポイント検出に基づく自動化された相互作用活動（interactive activity）認識のための方法、システム、およびコンピュータ・プログラム製品に関する。

相互作用活動認識システムは、コンピュータが写真またはビデオ内の人々の行動を理解するために重要である。これらのシステムは、多くの分野で使用することができる。たとえば、製造および保守プロセスにおいて、相互作用活動認識システムを実装して、操作ミスを識別することによって、特定の機械の使用を改善することができる。しかしながら、人間と物体との間の相互作用活動は複雑であり、関連するアクションを認識することは困難な作業であり得る。

相互作用活動認識のための方法を提供することによって、従来技術の欠点を克服し、追加の利点を提供する。この方法は、１つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、１つまたは複数のプロセッサによって、時間シーケンス内の画像フレームのそれぞれにおける第１のキーポイントおよび第２のキーポイントを識別することと、を含む。第１のキーポイントは画像フレームの時間シーケンス内の物体に関連し、第２のキーポイントは物体と相互作用する個人に関連する。１つまたは複数のプロセッサは、第１のキーポイントを第２のキーポイントと結合し、結合された第１のキーポイントおよび第２のキーポイントから時空間特徴を抽出する。１つまたは複数のプロセッサは、抽出された時空間特徴に基づいて、個人と物体との間の相互作用活動を認識するための分類モデルをトレーニングする。

本開示の他の実施形態は、上述の方法に基づく相互作用活動認識のためのコンピュータ・プログラム製品を提供する。

本開示の他の実施形態は、上述の方法に基づく相互作用活動認識のためのコンピュータ・システムを提供する。

以下の詳細な説明は、例として与えており、本発明をそれだけに限定するものではないが、添付の図面と併せて最もよく理解されよう。

本開示の一実施形態による、ネットワーク化されたコンピュータ環境を示すブロック図である。本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのシステムを示す図である。本開示の一実施形態による、図２Ａのキーポイント検出に基づく自動化された相互作用活動認識のためのシステムの例示的な実装を示す図である。本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのコンピュータ実装方法のステップを示すフローチャートである。本開示の一実施形態による、コンピュータ・システムの内部および外部コンポーネントのブロック図である。本開示の一実施形態による、例示的なクラウド・コンピューティング環境のブロック図である。本開示の一実施形態による、図５の例示的なクラウド・コンピューティング環境の機能レイヤのブロック図である。

図面は必ずしも縮尺通りではない。図面は単なる概略図であり、本発明の特定のパラメータを表現することを意図したものではない。図面は本発明の典型的な実施形態のみを描写することを意図したものである。図面において、同様の番号付けは同様の要素を表す。

特許請求する構造および方法の詳細な実施形態を本明細書に開示するが、開示した実施形態が、様々な形態で具現化され得る特許請求する構造および方法を単に例示するものであることは理解されよう。しかしながら、本発明は多くの異なる形態で具現化され得、本明細書に記載した例示的な実施形態に限定されるものと解釈されるべきではない。本説明では、提示した実施形態を不必要に曖昧にしないように、よく知られている特徴および技術の詳細を省略し得る。

人間によって実行される複雑な相互作用活動の認識は、たとえば、人間とロボットとの相互作用の監視システム、セキュリティ、スポーツ・バイオメカニクスなどの多くの適用例で重要な役割を果たす。相互作用活動認識システムは、日々の活動を自動的に分析し、適切な応答を提供するために、望ましくない場合がある人間と機械との相互作用を検出することが可能でなければならない。そのような望ましくない相互作用には、たとえば人間が機械を操作している場合などの、危険であり得る相互作用が含まれ得る。

それらの適用例の多くは、関心のある特徴の空間定位から恩恵を受け得る。これらの関心のある特徴は、「キーポイント」と呼ばれることがよくある。キーポイント検出は、典型的には、関心のある特徴を定義する画像内の空間位置もしくは点、または所与の時刻における画像内の顕著な特徴（すなわち、時空間特徴）の同時検出を伴う。キーポイント検出の望ましい特性には、正確な定位、シフト、回転、スケール、明るさの変化に対する不変性、ノイズに対するロバスト性、高い再現性などが含まれ得る。

しかしながら、人間は日常的に自身の意図（たとえば、実行する作業など）に応じて様々なタイプの物体と様々な方法で相互作用するので、実行された相互作用活動の検出および認識は非常に困難なタスクになる。

したがって、本発明の実施形態は、キーポイント検出に基づいて相互作用活動を自動的に認識するための方法、システム、およびコンピュータ・プログラム製品を提供する。以下に説明する例示的な実施形態は、とりわけ、ビデオ録画から画像フレームのシーケンスを取り込み、機械学習技術を使用して各画像フレーム内の相互作用活動に関連するキーポイントを検出し、検出されたキーポイント（たとえば、物体のキーポイントおよび人間のキーポイント）を結合し、結合されたキーポイントを、時空間特徴を決定するために使用されるグラフ畳み込みネットワークの入力として使用し、決定された時空間特徴を使用して、相互作用活動を認識および分類できる分類モデルをトレーニングするためのシステム、方法、およびコンピュータ・プログラム製品を提供する。

したがって、本発明の実施形態は、深層学習アルゴリズムを使用して、利用可能なビデオ録画から相互作用活動を自動的に認識および分類するシステムおよびコンピュータ実装方法を提供することによって、人工知能の技術分野を改善する能力を有する。本発明の実施形態は、人間と特定の物体との間の相互作用を正確に認識して、改善され得るアクションを決定し得る。たとえば、誤って操作されている製造施設内の機器は、運転上または安全上の問題を引き起こし得る。他の例には、プレーヤーのスキルまたはテクニックを最適化するための、スポーツに関する身体動作の分析が含まれ得る。両方の状況において、自動化された相互作用活動認識のための提案方法は、事前にユーザの承認を得て、データを収集および分析して、最適ではない人間のメカニクス（mechanics）を検出し、修正アクションを実行できるようにする通知を生成することができる。

図１を参照すると、本開示の一実施形態による、例示的なネットワーク化されたコンピュータ環境１００が示されている。図１は一実施形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆していない。特許請求の範囲に記載した本発明の範囲から逸脱することなく、図示した環境への多くの変更が当業者によって加えられ得る。

ネットワーク化されたコンピュータ環境１００は、クライアント・コンピュータ１０２と、通信ネットワーク１１０とを含み得る。クライアント・コンピュータ１０２は、データ・ストレージ・デバイス１０６と、相互作用活動認識プログラム１０８を実行可能なプロセッサ１０４とを含み得る。クライアント・コンピュータ１０２は、たとえば、モバイル・デバイス、電話（スマートフォンを含む）、パーソナル・デジタル・アシスタント、ネットブック、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、またはネットワークにアクセス可能な任意のタイプのコンピューティング・デバイスであり得る。

ネットワーク化されたコンピュータ環境１００はまた、データ・ストレージ・デバイス１２０と、ソフトウェア・プログラム１１２を実行可能なプロセッサ１１８とを有するサーバ・コンピュータ１１４を含み得る。いくつかの実施形態では、サーバ・コンピュータ１１４は、リソース管理サーバ、Ｗｅｂサーバ、またはデータを送受信可能な他の任意の電子デバイスであり得る。他の実施形態では、サーバ・コンピュータ１１４は、クラウド・コンピューティング環境などで複数のコンピュータをサーバ・システムとして利用するサーバ・コンピューティング・システムを表し得る。

クライアント・コンピュータ１０２上で実行される相互作用活動認識プログラム１０８は、通信ネットワーク１１０を介して、サーバ・コンピュータ１１４上で実行されるソフトウェア・プログラム１１２と通信し得る。図４を参照して説明するように、クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４は、内部コンポーネントおよび外部コンポーネントを含み得る。

ネットワーク化されたコンピュータ環境１００は、複数のクライアント・コンピュータ１０２およびサーバ・コンピュータ１１４を含み得、そのうちの１つのみを示している。通信ネットワーク１１０は、本開示の実施形態による様々なタイプの通信ネットワーク、たとえば、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネットなどのワイド・エリア・ネットワーク（ＷＡＮ）、公衆交換電話網（ＰＳＴＮ：public switched telephone network）、セルラーもしくはモバイル・データ・ネットワーク（たとえば、第３もしくは第４世代の携帯電話移動通信によって提供される無線インターネット）、構内電話交換機（ＰＢＸ：private branch exchange）、それらの任意の組み合わせ、またはクライアント・コンピュータ１０２とサーバ・コンピュータ１１４との間の通信をサポートする接続およびプロトコルの任意の組み合わせなどを含み得る。通信ネットワーク１１０は、有線、無線、または光ファイバ接続を含み得る。当業者に知られているように、ネットワーク化されたコンピュータ環境１００は、図示していない追加のコンピューティング・デバイス、サーバ、または他のデバイスを含み得る。

本明細書で単一のインスタンスとして説明しているコンポーネント、動作、または構造に関して、複数のインスタンスが提供され得る。様々なコンポーネント、動作、およびデータ・ストア間の境界は多少恣意的なものであり、特定の動作は特定の例示的な構成のコンテキストで示している。機能の他の割り当てが想定され、本発明の範囲内に入り得る。一般に、例示的な構成において別個のコンポーネントとして提示している構造および機能は、結合された構造またはコンポーネントとして実装され得る。同様に、単一のコンポーネントとして提示している構造および機能は、別個のコンポーネントとして実装され得る。これらおよび他の変形、修正、追加、および改良は、本発明の範囲内に含まれ得る。

図２Ａを参照すると、本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのシステム２００が示されている。図２Ｂは、図２Ａと同時に説明するシステム２００の例示的な実装である。

一実施形態によれば、自動化された相互作用活動認識のためのシステム２００は、画像取り込みモジュール２１２、キーポイント検出モジュール２１４、特徴抽出モジュール２１８、および相互作用活動分類モジュール２２０を含む。画像取り込みモジュール２１２は、光学機器からビデオまたは画像を取り込む。一実施形態では、光学機器はビデオ・カメラなどとすることができる。具体的には、画像取り込みモジュール２１２は、光学機器（図示せず）によって取り込まれたビデオ録画から画像フレームのシーケンス２４０（図２Ｂ）を取り出すことが可能である。録画されたビデオから画像フレームのシーケンス２４０を取り出す処理は、任意の知られている画像処理ツールを使用して実行することができる。たとえば、画像を多次元配列に変換するＯｐｅｎＣｖ（Ｒ）（オープン・ソースのコンピュータ・ビジョン・ライブラリ）などのソフトウェア・ライブラリを使用して、画像フレームのシーケンス２４０を取り出すことができる。

任意のデータ収集（たとえば、写真、ビデオなど）は、オプトインおよびオプトアウト機能を用いて、ユーザの同意を得て行われることに留意されたい。当業者に知られているように、オプトインおよびオプトアウト機能は一般に、ユーザが参加ステータスを変更する（すなわち、データ収集を承諾または拒否する）ことができる方法に関連している。いくつかの実施形態では、オプトインおよびオプトアウト機能は、クライアント・コンピュータ１０２で利用可能なソフトウェア・アプリケーションを含むことができる。さらに、ユーザは自身の情報の収集または使用の停止を選択することができる。いくつかの実施形態では、データが収集されるたびにユーザに通知することができる。収集されたデータは保護され、ユーザの同意なしに誰とも共有されないことが想定される。ユーザはいつでもデータ収集を停止することができる。

ビデオから画像フレームのシーケンス２４０を抽出した後、キーポイント検出モジュール２１４は、画像フレームのシーケンス２４０に存在する人間および物体に関連する関心のある特徴または点（すなわち、キーポイント）を識別する。具体的には、キーポイント検出モジュールは、取り出された画像フレームのシーケンス２４０からの各画像フレーム内の物体２５０に関連するキーポイントを識別する。続いて、キーポイント検出モジュール２１４は、取り出された画像フレームのシーケンス２４０からの各画像フレーム内の人間（または個人）２６０に関連するキーポイントを識別する。

一実施形態によれば、物体の関心点を決定するように事前にトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ）を使用して物体のキーポイント２５２を決定することができる。当業者に知られているように、ＣＮＮは、入力（すなわち、画像）を分析し、クラスまたは入力が特定のクラスである確率を出力することが可能な、画像認識および分類のための深層学習ニューラル・ネットワークのクラスである。一実施形態では、ＹＯＬＯ（Ｃ）（You Only Look Once）またはＦａｓｔｅｒＲ－ＣＮＮあるいはその両方などのＣＮＮベースのリアルタイム物体検出モデルを使用して、画像フレームのシーケンス２４０内の特定の物体（たとえば、物体２５０）のバウンディング・ボックスを検出し、物体のキーポイント２５２を識別することができる。事前にラベル付けされたデータを使用して、物体のキーポイントを識別するようにＣＮＮベースの検出モデルをトレーニングすることができる。

同様に、既存の技術を使用して人間のキーポイント２６２を決定することができる。たとえば、ＯｐｅｎＰｏｓｅなどの画像およびビデオ内の複数人姿勢検出（multi-person pose detection）のためのリアルタイムの方法を使用して、人間のキーポイント２６２を決定することができる。当業者に知られているように、これらのリアルタイムの複数人検出方法は、単一の画像上で人間の体、手、顔、および足のキーポイントを一緒に検出することができる。

場合によっては、遮蔽されたキーポイントが画像フレームのシーケンス２４０に存在し（たとえば、見えにくいまたはカメラで捕捉されないキーポイント）、従来のキーポイント決定システムでは気付かれない場合がある。この問題を回避するために、システム２００は、画像フレームのシーケンス２４０における各画像フレームの前後を使用して現存する遮蔽された（人間または物体の）キーポイントを決定する。具体的には、キーポイント検出モジュールは、キーポイント検出処理で追跡アルゴリズムを使用して、画像フレームのシーケンス２４０内のｎ番目のフレームおよび（ｎ＋１）番目のフレームの間の関係を決定する。人間または物体のキーポイントが（ｎ＋１）番目のフレームで遮蔽されている場合、遮蔽されたキーポイントの位置は、キーポイントが見えるまたは遮られていないｎ番目のフレームでの同じキーポイントの位置に基づいて決定することができる。

物体のキーポイント２５２および人間のキーポイント２６２は結合され、特徴抽出モジュール２１８の入力として使用される。特徴抽出モジュール２１８は、相互作用活動分類モジュール２２０の分類モデルをトレーニングするために使用することができる時空間特徴を抽出するグラフ畳み込みニューラル・ネットワーク（ＧＣＮ：Graph Convolutional Neural Network）からなる。時空間特徴は、決定された物体および人間のキーポイント２５２、２６２にそれぞれ対応する空間および時間の両方にわたって収集されたデータに関連する。

当業者に知られているように、ＧＣＮは、グラフに関する機械学習のための非常に強力なニューラル・ネットワーク・アーキテクチャを含む画像分類方法を提供する。具体的には、ＧＣＮは、ピクセルで構成される画像ではなく、グラフに対して畳み込みを実行する。たとえば、ＣＮＮモデルは、画像フレームのシーケンス２４０から最も重要な情報を抽出してシーケンスを分類し、ＧＣＮモデルは、グラフ上でフィルタを通過させて、グラフ内のノードを分類するのに役立ち得る重要な頂点およびエッジ（すなわち、キーポイント）を探す。具体的には、ＧＣＮモデルは、非ユークリッド構造データ（たとえば、画像）をより効率的に処理することができ、トポロジ的な接続データ構造上により多くの適用空間（application space）を提供することが可能である。ＧＣＮモデルからの結果は最終的な物体および人間のキーポイントを含み、これらは相互作用活動分類モジュール２２０の分類モデルの入力として使用される。

抽出された時空間特徴は、相互作用活動分類モジュール２２０の分類モデルに入力される。一実施形態によれば、相互作用活動分類モジュール２２０は、抽出された時空間特徴に基づいて、人間と物体との間の相互作用の最適な分類を出力または生成する。相互作用活動分類モジュール２２０の分類モデルは、入力データ（すなわち、画像フレームのシーケンス２４０から抽出されたキーポイントに関連する時空間特徴）から学習する教師あり学習アルゴリズムを使用し、そしてこの学習を使用して人間と物体との間の新しい相互作用活動を分類する。

いくつかの実施形態では、相互作用活動分類モジュール２２０の分類モデルは、トレーニング・データセットに基づいて、人間と物体との間の不所望の相互作用活動を認識し、通常と異なる相互作用アクションについて通知する警告を生成することができる。

図３を参照すると、本開示の一実施形態による、キーポイント検出に基づく自動化された相互作用活動認識のためのコンピュータ実装方法のステップを示すフローチャートが示されている。

処理はステップ３０２において、複数の画像フレームを受け取ることによって開始する。上記で説明したように、複数の画像フレームは、ビデオ録画から抽出された画像フレームのシーケンスに対応する。ステップ３０４において、ＣＮＮベースのモデルを使用して、物体に関連する関心点に対応する第１のキーポイント（たとえば、図２Ｂの物体２５０および物体のキーポイント２５２）が検出される。一実施形態によれば、ＣＮＮベースのモデルは、第１の（物体）キーポイントを認識するように事前にトレーニングされている。

同様に、ステップ３０６において、受け取られた複数の画像フレーム内で、物体と相互作用する人間または個人に関連する関心点に対応する第２のキーポイントが検出される。第２のまたは人間のキーポイントは、画像およびビデオにおける複数人姿勢検出のための最新のリアルタイムの方法を使用して検出される。

遮蔽されたまたは隠れたキーポイントが存在する実施形態では、図２Ａを参照して上記で説明したように、提案方法は各画像フレームの前後を使用して現存する遮蔽された（人間または物体あるいはその両方の）キーポイントを決定する。

ステップ３０８において、第１の（物体の）キーポイントと第２の（人間の）キーポイントとが結合され、ステップ３１０において、図２Ａの特徴抽出モジュール２１８のＧＣＮモデルの入力として使用される。具体的には、ステップ３０８において、所定の時間窓Ｎが設定され、その時間窓Ｎに対応する第１および第２のキーポイントが選択され、結合されて、ステップ３１０においてＧＣＮモデルの入力として使用される。次いで、対応する時間窓Ｎに対するＧＣＮモデルの出力を使用して、分類モデル（たとえば、図２Ａの相互作用活動分類モジュール２２０の分類モデル）をトレーニングし得る。ステップ３１２において、トレーニングされた分類モデルに基づいて、人間と物体との間の相互作用活動の認識を実行することができる。言い換えれば、図２Ａを参照して上述したように、ＧＣＮモデルの出力（すなわち、結合されたキーポイントの関連する時空間特徴）を使用して、（相互作用）分類モデルに供給する。

いくつかの実施形態では、提案方法は、相互作用活動を不所望のものまたは最適ではないものとして認識することに基づいて、人間と物体との間の検出された通常と異なる相互作用を通知する警告を生成することができる。これは、製造プロセスまたはセキュリティ・システムで特に役立ち得る。

したがって、本発明の実施形態は、画像フレームの時間シーケンスから検出されたキーポイントに基づいて人間と物体との間の相互作用活動を認識および分類するための方法、システム、およびコンピュータ・プログラム製品を提供する。提案した実施形態では機械学習アルゴリズムを使用して、人間および物体のキーポイントを正確に認識および分類し、次いでこれらを使用して相互作用活動認識のための分類モデルをトレーニングすることができる。提案した実施形態は、製造プロセス、セキュリティ・システム、保守システムなどを含む、人間と物体との間の活動の認識が必要とされる多くの実際の適用例に有用であり得る。

図４を参照すると、本開示の一実施形態による、図１のネットワーク化されたコンピュータ環境１００のクライアント・コンピュータ１０２およびサーバ・コンピュータ１１４のコンポーネントのブロック図が示されている。図４は一実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆していないことを理解されたい。図示した環境への多くの変更が加えられ得る。

クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４は、１つまたは複数のプロセッサ４０２、１つまたは複数のコンピュータ可読ＲＡＭ４０４、１つまたは複数のコンピュータ可読ＲＯＭ４０６、１つまたは複数のコンピュータ可読記憶媒体４０８、デバイス・ドライバ４１２、読み取り／書き込みドライブまたはインターフェース４１４、ネットワーク・アダプタまたはインターフェース４１６を含み得、これらは全て通信ファブリック４１８を介して相互接続される。通信ファブリック４１８は、プロセッサ（たとえば、マイクロプロセッサ、通信およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、およびシステム内の他の任意のハードウェア・コンポーネントの間でデータまたは制御情報あるいはその両方を受け渡しするために設計された任意のアーキテクチャで実装され得る。

１つまたは複数のオペレーティング・システム４１０および１つまたは複数のアプリケーション・プログラム４１１は、プロセッサ４０２のうちの１つまたは複数によって、それぞれのＲＡＭ４０４（典型的にはキャッシュ・メモリを含む）のうちの１つまたは複数を介して実行するために、コンピュータ可読記憶媒体４０８のうちの１つまたは複数に記憶される。図示の実施形態では、コンピュータ可読記憶媒体４０８のそれぞれは、内蔵ハード・ドライブの磁気ディスク・ストレージ・デバイス、ＣＤ－ＲＯＭ、ＤＶＤ、メモリー・スティック（Ｒ）、磁気テープ、磁気ディスク、光ディスク、半導体ストレージ・デバイス、たとえば、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、フラッシュ・メモリ、またはコンピュータ・プログラムおよびデジタル情報を記憶できる他の任意のコンピュータ可読有形ストレージ・デバイスであり得る。

クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４はまた、１つまたは複数のポータブル・コンピュータ可読記憶媒体４２６に対して読み書きを行うためのＲ／Ｗドライブまたはインターフェース４１４を含み得る。クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４上のアプリケーション・プログラム４１１は、ポータブル・コンピュータ可読記憶媒体４２６のうちの１つまたは複数に記憶され、それぞれのＲ／Ｗドライブまたはインターフェース４１４を介して読み取られ、それぞれのコンピュータ可読記憶媒体４０８にロードされ得る。

クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４はまた、ネットワーク４２８への接続のために、ネットワーク・アダプタまたはインターフェース４１６、たとえば、ＴＣＰ／ＩＰアダプタ・カードまたは無線通信アダプタなど（ＯＦＤＭＡ技術を使用する４０無線通信アダプタなど）を含み得る。クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４上のアプリケーション・プログラム４１１は、ネットワーク（たとえば、インターネット、ローカル・エリア・ネットワーク、または他のワイド・エリア・ネットワークもしくは無線ネットワーク）およびネットワーク・アダプタまたはインターフェース４１６を介して、外部コンピュータまたは外部ストレージ・デバイスからコンピューティング・デバイスにダウンロードされ得る。プログラムは、ネットワーク・アダプタまたはインターフェース４１６からコンピュータ可読記憶媒体４０８にロードされ得る。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。

クライアント・コンピュータ１０２およびサーバ・コンピュータ１１４はまた、ディスプレイ画面４２０、キーボードまたはキーパッド４２２、およびコンピュータ・マウスまたはタッチパッド４２４を含み得る。デバイス・ドライバ４１２は、画像化のためにディスプレイ画面４２０に、キーボードもしくはキーパッド４２２に、コンピュータ・マウスもしくはタッチパッド４２４に、または英数字入力およびユーザ選択の圧力感知のためにディスプレイ画面４２０に、あるいはそれらの組み合わせにインターフェースする。デバイス・ドライバ４１２、Ｒ／Ｗドライブまたはインターフェース４１４、およびネットワーク・アダプタまたはインターフェース４１６は、（コンピュータ可読記憶媒体４０８またはＲＯＭ４０６あるいはその両方に記憶された）ハードウェアおよびソフトウェアを含み得る。

本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやりとりによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース（たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つのデプロイメント・モデルとを含み得る。

特徴は以下の通りである。

オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。

ブロード・ネットワーク・アクセス：能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム（たとえば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。

リソース・プーリング：プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル（たとえば、国、州、またはデータセンター）では位置を特定可能であり得るという点で位置非依存の感覚がある。

迅速な弾力性：能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。

測定されるサービス：クラウド・システムは、サービスのタイプ（たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービス・モデルは以下の通りである。

ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、Ｗｅｂブラウザ（たとえば、Ｗｅｂベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント（たとえば、ホスト・ファイアウォール）を限定的に制御する。

デプロイメント・モデルは以下の通りである。

プライベート・クラウド：クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。

コミュニティ・クラウド：クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念（たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など）を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。

パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術（たとえば、クラウド間の負荷分散のためのクラウド・バースティング）によって結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）を合成したものである。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図５を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。図示のように、クラウド・コンピューティング環境５０は１つまたは複数のクラウド・コンピューティング・ノード１０を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはそれらの組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード１０は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境５０は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組み合わせを提供することが可能になる。図５に示したコンピューティング・デバイス５４Ａ～Ｎのタイプは例示的なものにすぎないことを意図しており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続（たとえば、Ｗｅｂブラウザを使用）あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。

ここで図６を参照すると、クラウド・コンピューティング環境５０（図５）によって提供される機能的抽象化レイヤのセットが示されている。図６に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことを意図しており、本発明の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング・コンポーネント６６が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化レイヤ７０は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５が提供され得る。

一例では、管理レイヤ８０は、下記の機能を提供し得る。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定８２は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル８３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。

ワークロード・レイヤ９０は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ分析処理９４、取引処理９５、ならびにキーポイント検出に基づく自動化された相互作用活動認識のシステム９６を含む。

本明細書に記載のプログラムは、それらが本発明の特定の実施形態で実装される場合の用途に基づいて識別している。しかしながら、本明細書のいかなる特定のプログラム名称も便宜上使用しているにすぎず、したがって、本発明が、そのような名称によって識別または含意あるいはその両方が行われる任意の特定の用途での使用のみに限定されるべきではないということを理解されたい。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、またはコードの一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得ることにも留意されたい。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリー・スティック（Ｒ）、フロッピー（Ｒ）・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などの物体指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたは物体・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。最後のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為の態様を実装する命令を含む製造品を構成するようにし得る。

また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為が実装されるようなコンピュータ実装処理を生成し得る。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

開示した方法のステップならびに開示したシステムおよび環境のコンポーネントは数字および文字を使用して順次的または連続的に識別しているが、そのような番号付けまたは文字付けは、そのようなステップが列挙した順序で実行されなければならないことを示すものではなく、方法のステップの明確な参照を容易にするために提供しているにすぎない。さらに、本方法のステップは、それらの説明した機能を実行するために並行して実行され得る。

本発明の様々な実施形態の説明は、例示の目的で提示してきたが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、または市場に見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選んだ。

Claims

相互作用活動認識のためのコンピュータ実装方法であって、
１つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第１のキーポイントを識別することであって、前記第１のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別することと、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第２のキーポイントを識別することであって、前記第２のキーポイントは前記物体と相互作用する個人に関連する、前記識別することと、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを前記第２のキーポイントと結合することと、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントから時空間特徴を抽出することと、
前記１つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングすることと、
を含む、コンピュータ実装方法。
前記第１のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ）ベースの検出モデルを使用すること
をさらに含む、請求項１に記載の方法。
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを識別するように前記ＣＮＮベースの検出モデルをトレーニングするために事前にラベル付けされたデータを使用すること
をさらに含む、請求項２に記載の方法。
前記第２のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用すること
をさらに含む、請求項１に記載の方法。
前記結合された第１のキーポイントおよび第２のキーポイントから前記時空間特徴を抽出することは、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク（ＧＣＮ）モデルへの入力として使用することであって、前記ＧＣＮモデルの結果は最終的な第１のキーポイントおよび最終的な第２のキーポイントを含む、前記使用すること
をさらに含む、請求項１に記載の方法。
前記１つまたは複数のプロセッサによって、前記時空間特徴を前記分類モデルに供給すること
をさらに含む、請求項１に記載の方法。
前記１つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第３のキーポイントを識別すること
をさらに含む、請求項１に記載の方法。
前記第３のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのｎ番目のフレームと（ｎ＋１）番目のフレームとの間の関係を決定することであって、前記（ｎ＋１）番目のフレームにおける前記第３のキーポイントの位置は、前記第３のキーポイントが見える前記ｎ番目のフレームにおける前記第３のキーポイントの位置に基づいて決定される、前記決定すること
をさらに含む、請求項７に記載の方法。
相互作用活動認識のためのコンピュータ・システムであって、
１つまたは複数のプロセッサと、１つまたは複数のコンピュータ可読メモリと、１つまたは複数のコンピュータ可読有形ストレージ・デバイスと、プログラム命令と、を含み、前記プログラム命令は前記１つまたは複数のメモリのうちの少なくとも１つを介して前記１つまたは複数のプロセッサのうちの少なくとも１つによって実行するために前記１つまたは複数のストレージ・デバイスのうちの少なくとも１つに記憶され、前記コンピュータ・システムは方法を実行することが可能であり、前記方法は、
１つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すことと、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第１のキーポイントを識別することであって、前記第１のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別することと、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第２のキーポイントを識別することであって、前記第２のキーポイントは前記物体と相互作用する個人に関連する、前記識別することと、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを前記第２のキーポイントと結合することと、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントから時空間特徴を抽出することと、
前記１つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングすることと、
を含む、コンピュータ・システム。
前記第１のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ）ベースの検出モデルを使用すること
をさらに含む、請求項９に記載のコンピュータ・システム。
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを識別するように前記ＣＮＮベースの検出モデルをトレーニングするために事前にラベル付けされたデータを使用すること
をさらに含む、請求項１０に記載のコンピュータ・システム。
前記第２のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用すること
をさらに含む、請求項９に記載のコンピュータ・システム。
前記結合された第１のキーポイントおよび第２のキーポイントから前記時空間特徴を抽出することは、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク（ＧＣＮ）モデルへの入力として使用することであって、前記ＧＣＮモデルの結果は最終的な第１のキーポイントおよび最終的な第２のキーポイントを含む、前記使用すること
をさらに含む、請求項９に記載のコンピュータ・システム。
前記１つまたは複数のプロセッサによって、前記時空間特徴を前記分類モデルに供給すること
をさらに含む、請求項９に記載のコンピュータ・システム。
前記１つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第３のキーポイントを識別すること
をさらに含む、請求項９に記載のコンピュータ・システム。
前記第３のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのｎ番目のフレームと（ｎ＋１）番目のフレームとの間の関係を決定することであって、前記（ｎ＋１）番目のフレームにおける前記第３のキーポイントの位置は、前記第３のキーポイントが見える前記ｎ番目のフレームにおける前記第３のキーポイントの位置に基づいて決定される、前記決定すること
をさらに含む、請求項１５に記載のコンピュータ・システム。
相互作用活動認識のためのコンピュータ・プログラム製品であって、
１つまたは複数のコンピュータ可読記憶媒体と、前記１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含み、前記プログラム命令は、
１つまたは複数のプロセッサによって、ビデオ録画から画像フレームの時間シーケンスを取り出すプログラム命令と、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第１のキーポイントを識別するプログラム命令であって、前記第１のキーポイントは前記画像フレームの時間シーケンス内の物体に関連する、前記識別するプログラム命令と、
前記１つまたは複数のプロセッサによって、前記時間シーケンス内の前記画像フレームのそれぞれにおける第２のキーポイントを識別するプログラム命令であって、前記第２のキーポイントは前記物体と相互作用する個人に関連する、前記識別するプログラム命令と、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを前記第２のキーポイントと結合するプログラム命令と、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントから時空間特徴を抽出するプログラム命令と、
前記１つまたは複数のプロセッサによって、前記抽出された時空間特徴に基づいて、前記個人と前記物体との間の相互作用活動を認識するための分類モデルをトレーニングするプログラム命令と、
を含む、コンピュータ・プログラム製品。
前記第１のキーポイントを識別することおよび前記第２のキーポイントを識別することは、
前記１つまたは複数のプロセッサによって、前記第１のキーポイントを識別するようにトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ）ベースの検出モデルを使用することと、
前記１つまたは複数のプロセッサによって、前記第２のキーポイントを識別するために画像およびビデオにおける複数人姿勢検出のためのリアルタイムの方法を使用することと、
をさらに含む、請求項１７に記載のコンピュータ・プログラム製品。
前記結合された第１のキーポイントおよび第２のキーポイントから前記時空間特徴を抽出することは、
前記１つまたは複数のプロセッサによって、前記結合された第１のキーポイントおよび第２のキーポイントを、前記時空間特徴を抽出するためのグラフ畳み込みニューラル・ネットワーク（ＧＣＮ）モデルへの入力として使用することであって、前記ＧＣＮモデルの結果は最終的な第１のキーポイントおよび最終的な第２のキーポイントを含む、前記使用すること
をさらに含む、請求項１７に記載のコンピュータ・プログラム製品。
前記１つまたは複数のプロセッサによって、遮蔽されたキーポイントに対応する第３のキーポイントを識別することをさらに含み、前記第３のキーポイントを識別することは、追跡アルゴリズムを使用して前記画像フレームの時間シーケンスからのｎ番目のフレームと（ｎ＋１）番目のフレームとの間の関係を決定することであって、前記（ｎ＋１）番目のフレームにおける前記第３のキーポイントの位置は、前記第３のキーポイントが見える前記ｎ番目のフレームにおける前記第３のキーポイントの位置に基づいて決定される、前記決定することを含む、
請求項１７に記載のコンピュータ・プログラム製品。