JP2022540069A - アクティビティ認識のための量子化された遷移変化の検出 - Google Patents

アクティビティ認識のための量子化された遷移変化の検出 Download PDF

Info

Publication number
JP2022540069A
JP2022540069A JP2021578060A JP2021578060A JP2022540069A JP 2022540069 A JP2022540069 A JP 2022540069A JP 2021578060 A JP2021578060 A JP 2021578060A JP 2021578060 A JP2021578060 A JP 2021578060A JP 2022540069 A JP2022540069 A JP 2022540069A
Authority
JP
Japan
Prior art keywords
image frames
classes
predefined
video stream
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021578060A
Other languages
English (en)
Other versions
JP7285973B2 (ja
Inventor
ペスカル ダン
セルナザヌ-グラヴァン コスミン
グイ ヴァシレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everseen Ltd
Original Assignee
Everseen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everseen Ltd filed Critical Everseen Ltd
Publication of JP2022540069A publication Critical patent/JP2022540069A/ja
Application granted granted Critical
Publication of JP7285973B2 publication Critical patent/JP7285973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022540069000001
ビデオストリームから人間のアクティビティを認識するためのシステムは、ビデオストリームの画像フレームを1つまたは複数のクラスに分類し、分類に基づいて画像フレームのクラス確率ベクトルを生成するための分類器を含む。システムはさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値をフィルタリングし、かつ二値化するためのデータフィルタリングおよび二値化モジュールを含む。システムはさらに、ビデオストリームの連続する画像フレーム内の1つまたは複数のクラスの1つまたは複数の遷移を決定し、決定された1つまたは複数の遷移に基づいて圧縮された単語のシーケンスを生成するための圧縮単語構成モジュールを含む。システムはさらに、圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することによって、1つまたは複数のユーザアクションを抽出するためのシーケンス依存分類器を含む。

Description

本開示は、一般に人工知能に関し、より具体的には、ビデオストリームからの人間のアクティビティ認識およびシンボリック処理に関する。
技術の進歩に伴い、人間の身体アクティビティの認識は非常に重要になっている。人間の身体アクティビティの認識は、セルフチェックアウト(SCO)システムを含む小売店のチェックアウトプロセスの監視など、さまざまなアプリケーションに貢献する。このようなシステムにより、購入者は自分で購入のプロセスを完了することができる。人間の身体アクティビティの認識の適用の別の例は、盗難などの万引き犯によって行われた不公正なアクティビティを検出し、それによって盗難を防ぐために店で雇用されている職員に警告することによってビデオ監視の支援を提供することである。さらに、人間の身体アクティビティの認識は、インテリジェントドライバー支援システム、困っている人のためのアシステッドリビングシステム、ビデオゲーム、理学療法などで採用されている。さらに、人間の身体アクティビティの認識は、スポーツ、軍事、医療、ロボット工学などの分野で積極的に使用されている。
人間の身体アクティビティは、ほとんどのプロセスモデリングの構成要素を表す。しかしながら、人間の行動は予測できないため、多様な環境でのそのような人間の身体アクティビティの認識は困難なタスクである。人間の身体アクティビティは典型的に、手、足、顔などのさまざまな人間の身体部分を含む基本的なアクションのセットに分解可能である。さらに、人間の身体アクティビティに関連する基本的なアクションのセットは、複数の時間間隔にまたがっている。そのようなアクティビティの認識タスクは、変動する時間間隔にわたるアクションの全体的なシーケンスを要約するという問題に直面する。
従来の人間の身体アクティビティ認識技術は、各人間の体の異なる身体構造、異なる体型、異なる肌の色などのために、人間の身体アクティビティを認識するのに非効率的である。また、人間のアクティビティのタイムフレームは、対象者、そしておそらく他の環境条件に応じて、時間の重要な変動をもたらす。さらに、すべての基本的な身体部分の動きが、考慮されるアクティビティの目的に関連しているわけではない。したがって、アクティビティ認識プロセスは、アクティビティに関与する人間の身体部分のアクション時間変動および物理的軌道変動に関連する2つの主要な問題に直面する。
したがって、前述の議論に照らして、人間の身体アクティビティの認識に関連する前述の欠点を克服し、リカレントニューラルネットワークを使用したアクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とするシステムおよび方法を提供する必要がある。
本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムおよびその方法を提供することを目的とする。
本開示の一態様によれば、イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムが提供される。このシステムは、1つまたは複数の命令を格納するためのメモリと、メモリに通信可能に結合されたプロセッサを含む。このシステムは、イメージングデバイスに通信可能に結合された分類器であって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類し、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成し、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む、ように構成された分類器を含む。システムはさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値をフィルタリングし、かつ二値化するように構成されたデータフィルタリングおよび二値化モジュールを含む。システムはさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレーム内の1つまたは複数のクラスの1つまたは複数の遷移を決定し、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成する圧縮単語構成モジュールを含む。システムはさらに、圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器を含む。
本開示の別の態様によれば、ビデオストリームから人間のアクティビティを認識するための方法が提供される。この方法は、分類器によって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類することであって、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類されることを含む。この方法はさらに、分類に基づいて画像フレームのクラス確率ベクトルを生成することであって、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含むことを含む。この方法はさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化することを含む。この方法はさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定することを含む。この方法はさらに、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することを含む。この方法はさらに、圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識することを含む。
本開示のさらに別の態様によれば、ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラム可能な製品が提供され、コンピュータプログラム可能な製品は、命令のセットを含む。命令のセットは、プロセッサによって実行されると、プロセッサに、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類させ、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成させ、クラス確率ベクトルは、各事前定義されたクラスの画像フレームの分類の確率のセットを含み、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化させ、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレーム内の1つまたは複数のクラスの1つまたは複数の遷移を決定させ、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて圧縮された単語のシーケンスを生成させ、1つまたは複数のユーザアクションを注するために圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出させ、かつ、そこから人間のアクティビティを認識させる。
本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムを提供することを目的とする。このようなシステムは、ビデオストリームからの人間のアクティビティの効率的で信頼できる認識を可能にする。
本開示の特徴は、添付の特許請求の範囲によって定義されるように本開示の範囲から逸脱することなく、様々な組合せで組み合わせることができることを理解されたい。
以上の発明の概要および例示的な実施形態の以下の詳細な説明は、添付図面と併せて読むとよりよく理解される。本開示を説明する目的のために、開示の例示的な構造が、図面において示される。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。
ここで、本開示の実施形態は、以下の図を参照して、例としてのみ説明される。
本開示の様々な実施形態を実施することができる環境を示す図である。 本開示の一実施形態による、図1のイメージングデバイスによってキャプチャされたビデオストリーム内の1つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システムを示す図である。 本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法を示すフローチャートである。
添付図面において、下線のある番号は、下線のある番号が配置されているアイテム、または下線のある番号が隣接しているアイテムを表すために使用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられた矢印が添えられている場合に、下線のない番号は、矢印が指す一般的なアイテムを識別するために使用される。
以下の詳細な説明は、本開示の実施形態およびそれらを実装することができる方法を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。
図1は、本開示の様々な実施形態を実施することができる環境100を示す。環境100は、通信ネットワーク104を介して互いに通信可能に結合された、イメージングデバイス101、アクティビティ認識システム102、およびコンピューティングデバイス103を含む。通信ネットワーク104は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク(LAN)、無線LAN接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含み得る。
イメージングデバイス101は、ビデオストリームをキャプチャするように構成される。本開示の一実施形態では、イメージングデバイス101は、セルフチェックアウトシステム(SCO)を含む小売チェックアウトプロセスの1つまたは複数のビデオをキャプチャするように構成される。オプションとして、イメージングデバイス101は、インターネットプロトコル(IP)カメラ、パンチルトズーム(PTZ)カメラ、熱画像カメラ、または赤外線カメラを含むが、これらに限定されない。
アクティビティ認識システム102は、イメージングデバイス101によってキャプチャされたビデオストリーム内の人間のアクションおよび人間のアクティビティを認識するように構成される。
アクティビティ認識システム102は、中央処理装置(CPU)106、操作パネル108、およびメモリ110を含む。CPU106は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル108およびメモリ110などの様々な構成要素の動作を制御する他の回路である。CPU106は、例えば、メモリ110などの揮発性または不揮発性メモリに格納されているか、またはそうでなければCPU106に提供されるソフトウェア、ファームウェア、および/または他の命令を実行し得る。CPU106は、1つまたは複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル108およびメモリ110に接続され得る。本開示の一実施形態では、CPU106は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックプロセシングユニット(GPU)サーバソフトウェアを含み得る。
操作パネル108は、画像形成装置100のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとり得る。操作パネル108は、選択された機能、プリファレンス、および/または認証に関連する1または複数のユーザからの入力を受信することができ、視覚的および/または聴覚的に入力を提供および/または受信することができる。
メモリ110は、画像形成装置100の動作を管理する際にCPU106によって使用される命令および/またはデータを格納することに加えて、画像形成装置100の1または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報(例えば、ユーザ名/パスワードのペア)、ユーザ設定、および他のユーザ固有の情報を含み得る。CPU106は、このデータにアクセスして、操作パネル108およびメモリ110の動作に関連する制御機能(例えば、1または複数の制御信号の送信および/または受信)を提供するのを支援し得る。
イメージングデバイス101およびアクティビティ認識システム102は、コンピューティングデバイス103によって制御/操作され得る。コンピューティングデバイス103の例は、スマートフォン、パーソナルコンピュータ、ラップトップなどを含む。コンピューティングデバイス103は、ユーザ/オペレータが、イメージングデバイス101によってキャプチャされたビデオを表示および保存し、アクティビティ認識システム102によって処理されたビデオ/画像にアクセスすることを可能にする。コンピューティングデバイス103は、ユーザがイメージングデバイス101によってキャプチャされたビデオストリームにアクセスして処理することを可能にするように、アクティビティ認識システム102のモバイルアプリケーションを実行し得る。
一実施形態では、カメラ101、アクティビティ認識システム102、およびコンピューティングデバイス103は、単一のデバイスに統合し得、単一のデバイスは、内蔵カメラおよびディスプレイを有する携帯型スマートフォンである。
図2は、本開示の一実施形態による、イメージングデバイス101によってキャプチャされたビデオストリーム内の1つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システム102を示す。
アクティビティ認識システム102は、ビデオストリームの各フレームを分析して少なくとも1つのアクション関心領域を決定するように動作可能な分類器202を含むCPU106を含み、少なくとも1つの関心領域は少なくとも1つのオブジェクトを含む。アクション関心領域は、ビデオストリームの各フレーム内の長方形の領域を指し、少なくとも1つのオブジェクトが表示され、1つまたは複数のアクションが行われる。一例では、少なくとも1つのオブジェクトは、人、衣料品、食料品、財布などのオブジェクトであり得、1つまたは複数のアクションは、そのポケットから財布を取り出す人、列を歩いている人、クレジットカードをスワイプする人などを含み得る。各アクションは、プロセスモデル抽出の構成要素として使用することができ、プロセスは一連のアクションとして表現することができる。
本開示の一実施形態では、分類器202は、SCOスキャン領域(スキャンアクション関心領域)のビデオの画像フレームを、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類するように訓練された畳み込みニューラルネットワーク(CNN)などのアルゴリズムベースの分類器であり得る。各クラスの画像フレームの分類の基準を以下に述べる。
手-画像フレームは人間の手を示す。
手の中にあるオブジェクト-画像フレームはユーザの手の中にあるオブジェクトを示す。
オブジェクト-画像フレームはオブジェクトのみを示す。
身体部分-画像フレームは人間の身体部分を示す。
空のスキャナ-画像フレームは空のスキャナのみを示す。
本明細書で言及されるCNNは、主に、少なくとも1つの関心領域における少なくとも1つのオブジェクトを分類するために使用される、訓練された深層人工ニューラルネットワークとして定義される。特に、それらは、顔、個人、道路標識などを識別することができるアルゴリズムである。本明細書で使用される「ニューラルネットワーク」という用語は、それぞれオプションでローカルメモリに関連付けられた処理要素の高度に相互接続されたネットワークを含むことができる。一例では、ニューラルネットワークは、コホーネンマップ、多層パーセプトロンなどであり得る。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」などとすることができる。さらに、ニューロンは、入力もしくは1つまたは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力もしくはさらに1つまたは複数の他のニューロンに送信することができる。ニューラルネットワークまたはその1つまたは複数のニューロンは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせのいずれかで生成することができ、その後、ニューラルネットワークは訓練することができる。畳み込みニューラルネットワーク(CNN)は、入力層、複数の隠れ層、および出力層から構成されることを理解されるだろう。さらに、畳み込みニューラルネットワークの複数の隠れ層は、典型的に、畳み込み層、プーリング層、全結合層、および正規化層からなる。任意選択で、Visual Geometry Group 19(VGG19)モデルが畳み込みニューラルネットワークアーキテクチャとして使用される。VGG19モデルは、ビデオストリームのフレーム内の少なくとも1つのオブジェクトをクラスに分類するように構成されている。隠れ層は、畳み込み層の複数のセットを含むことが理解されるであろう。
動作中、分類器202は、SCOスキャン領域(スキャンアクション関心領域)のビデオストリームの画像フレームを受信し、画像フレームの内容に基づいて、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類する。本開示の一実施形態では、分類器202は、各画像フレームを静的に分析し、各画像フレームについて、考慮されるクラスごとに1つのコンポーネントを有するクラス確率ベクトルPvを、Pv={PHand,PHandObject,PObject,PBodyPart,PEmptyScanner}のように出力し、
ここで、PHand=クラス「手」に分類される画像フレームの確率、
HandObject=クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Object=クラス「オブジェクト」に分類される画像フレームの確率、
BodyPart=クラス「身体部分」に分類される画像フレームの確率、
EmptyScanner=クラス「空のスキャナ」に分類される画像フレームの確率
である。
一例では、分類器202は、以下に与えられるフォーマットで、5つのクラスの6つの連続する画像フレームについて、6つの確率ベクトルPv1からPv6までを生成する。
v1={0.0,0.0,0.0,0.0,1.0}
v2={0.0,0.0,0.28,0.0,0.72}
v3={0.0,0.0,0.26,0.0,0.74}
v4={0.0,0.0,0.19,0.0,0.81}
v5={0.0,0.0,0.29,0.0,0.71}Pv6={0.0,0.45,0.14,0.0,0.41}
CPU106は、分類器202によって決定された各スキャンアクションのために量子化された署名を生成するための量子化署名生成モジュール204をさらに含む。スキャンアクションは、セルフチェックアウト(SCO)端末のスキャンゾーンでアイテムをスキャンするために実行されるユーザアクションである。
量子化署名生成モジュール204は、データフィルタリングおよび二値化モジュール205、サイレントインターバル検出モジュール206、および圧縮単語構成モジュール207を含む。
データフィルタリングおよび二値化モジュール205は、分類器202によって生成されたクラス確率ベクトルにフィルタを適用して、分類器202によるエラーを最小化するように構成される。分類器202が、1つの孤立したフレームを除くシーケンス全体に対して単一のクラスを使用してスキャナ上の連続的な動きを分類する場合、分類器エラーが現れる。このような場合、孤立したフレームが誤って分類される可能性がある。
以下は、ビデオストリームの6つの連続する画像フレームに対する分類器202からの確率ベクトルの出力例であり、6つの連続する画像フレームは、スキャナ上の連続的な動きをカバーする。画像フレームの場合、各確率ベクトルPvnは、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、「空のスキャナ」の5つのクラスのそれぞれに画像フレームの分類の確率を含む。
v1={0.0,0.0,0.28,0.0,0.72}
v2={0.0,0.0,0.28,0.0,0.72}
v3={0.0,0.0,0.01,0.27,0.72}
v4={0.0,0.0,0.28,0.0,0.72}
v5={0.0,0.0,0.28,0.0,0.72}
v6={0.0,0.0,0.28,0.0,0.72}
ビデオシーケンスの3番目の画像フレームの確率ベクトルPv3が異なることがはっきりと分かり、これは、分類器202による3番目の画像フレームの分類にエラーがあることを意味する。データフィルタリングおよび二値化モジュール205は、6つのフレームが実質的に同様の情報をカバーするという情報に基づいて、3番目の画像フレームの分類におけるエラーを修正する。本開示の一実施形態では、データフィルタリングおよび二値化モジュール205は、エラーのあるフレームを除去することによってエラーを修正する。
次に、データフィルタリングおよび二値化モジュール205は、ヒューリスティック閾値を使用して確率ベクトルのフィルタリングされた値を二値化するように構成され、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上の場合に値「1」が割り当てられ、それ以外の場合は「0」が割り当てられる。
一例では、ヒューリスティック閾値が0.2である場合、5つの連続する画像フレームの例示的なフィルタリングされた確率ベクトルPvfは、以下のように表され得、
vf1={0.0,0.0,0.0,0.0,1.0}
vf2={0.0,0.0,0.28,0.0,0.72}
vf3={0.0,0.0,0.26,0.0,0.74}
vf4={0.0,0.0,0.39,0.0,0.71}
vf5={0.0,0.45,0.14,0.0,0.41}
対応する二値化された確率ベクトルPvbは、以下のように表され得る。
vb1={00001}
vb2={00101}
vb3={00101}
vb4={00101}
vb5={01001}
したがって、各二値化確率ベクトルPvbは、一連の2進数の二値化文字列であり、連続するフレーム内のクラスの遷移を決定するために使用することができる。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する2進値は「0」であり、2番目の画像フレームでは、クラス「オブジェクト」に対応する2進値は「1」であり、これは、最初の画像フレームから2番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。同様に、4番目の画像フレームでは、クラス「手の中にあるオブジェクト」に対応する2進値は「0」であり、クラス「オブジェクト」に対応する2進値は「1」である。5番目のフレームでは、「手の中にあるオブジェクト」の2進値が「1」に変化し、「オブジェクト」の2進値が「0」に変化する。これは、4番目から5番目のフレームへの遷移中にユーザがオブジェクトを彼らの手の中に持っていることを明確に示す。したがって、二値化/量子化された確率ベクトルは、連続する画像フレーム内のクラスの遷移に関する情報を提供する。
サイレントインターバル検出モジュール206は、ビデオストリーム内の1つまたは複数のサイレントインターバルを検出するように構成される。本開示の一実施形態では、サイレントインターバルの間、閾値期間にスキャンゾーンでアクティビティは検出されない。一例では、閾値期間は「0.5秒」として設定され得、0.5秒を超える時間間隔は、対応する画像フレームのクラス「空のスキャナ」の2進値が時間間隔全体で「1」のままである場合、「サイレントインターバル間隔」としてマークされる。
圧縮単語構成モジュール207は、データフィルタリングおよび二値化モジュール205によって生成された二値化文字列に基づいて圧縮単語のシーケンスを生成するように構成される。圧縮された単語は、連続する画像フレームの「1」から「0」および「0」から「1」へのクラスの遷移に基づいて生成される。
本開示の一実施形態では、各単語は、プロセスアクションセマンティクスに相関する2×N文字を含むアルファベットの文字から構成され、ここで、Nはクラスの数を表す。一例では、クラスの数が5であるの場合、各単語は合計10文字で構成される。各クラスについて、「0->1」遷移は特定の「開始」文字(たとえば、クラス「オブジェクト」の場合は「O」)を生成し、「1->0」遷移は「終了」文字(たとえば、クラス「オブジェクト」の場合は「o」)を生成する。
したがって、5つのクラス、すなわち、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、および「空のスキャナ」のアルファベットには、次の文字が含まれる。
classHand up:H down:h
classHandObject up:Q down:q
classObject up:O down:o
classBodyPart up:B down:b
classEmptyScanner up:E down:e
本開示の一実施形態では、2つの隣接する単語は、「空のスキャナ」として分類される少なくとも1つのフレームによって分離される。これは、連続する「1」「空のスキャナ」値の長さに応じて、サイレントインターバルを表す場合とそうでない場合がある。
圧縮単語構成モジュール207によって生成された量子化された出力の例を以下に示す。
Silence
OoE
Silence
OQoOqBobE
Silence
シーケンス依存分類器208は、圧縮単語構成モジュール207から量子化された出力を受け取り、アルファベット文字として表される遷移の連続シーケンスから1つまたは複数のスキャンアクションを抽出するように構成される。シーケンス依存分類器208は、本明細書で使用される機械学習ベースのエンジンを含み、アルゴリズムおよび統計モデルを研究し、パターンおよび推論に依存して、明示的な命令を使用せずにそれらを使用して特定のタスクを効果的に実行することができるエンジンに関する。シーケンス依存分類器208の例は、リカレントニューラルネットワーク(RNN)、K最近傍アルゴリズム(KNN)、およびサポートベクターマシン(SVM)アルゴリズムなどを含む。
シーケンス依存分類器208は、圧縮された単語のシーケンスを分析して、ビデオストリームから人間のアクティビティを認識する。関心領域におけるクラスのさまざまな遷移を決定するために、圧縮された単語のシーケンスが分析される。クラスの遷移のそのような決定は、ビデオストリームからの人間のアクティビティの認識につながる。シーケンス依存分類器208は、基本的なアクションを示唆する二値化された入力信号の遷移を認識する。
したがって、量子化署名生成モジュール204は、アクティビティが行われる関心領域を観察する分類器202から来る入力信号のための量子化プロセスを提供する。遷移量子化の方法は、シーケンス依存分類器208を使用して、アクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とする。
図3は、本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法300を示すフローチャートである。いくつかのステップは、図2に示されるようなシステムに関して議論され得る。
ステップ302において、事前定義されたクラスのセットの1つまたは複数のクラスにおけるビデオストリームの画像フレームは、分類器によって分類され、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類される。本開示の一実施形態では、分類器は畳み込みニューラルネットワークである。本開示の別の実施形態では、セルフチェックアウト(SCO)スキャンゾーンのための事前定義されたクラスのセットは、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナなどのクラスを含む。
ステップ304において、分類に基づいて画像フレームに対してクラス確率ベクトルが生成され、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む。一例では、クラス確率ベクトルPvは次のように表され、
v={PHand,PHandObject,PObject,PBodyPart,PEmptyScanner
ここで、PHand=クラス「手」に分類される画像フレームの確率、
HandObject=クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Object=クラス「オブジェクト」に分類される画像フレームの確率、
BodyPart=クラス「身体部分」に分類される画像フレームの確率、
EmptyScanner=クラス「空のスキャナ」に分類される画像フレームの確率
である。
ステップ306において、クラス確率ベクトルの各確率値は、事前定義された確率閾値に基づいて二値化される。一例では、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上である場合は値「1」が割り当てられ、それ以外の場合は「0」が割り当てられる。
ステップ308において、1つまたは複数のクラスの1つまたは複数の遷移は、対応する二値化された確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレームにおいて決定される。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する2進値は「0」であり、2番目の画像フレームでは、クラス「オブジェクト」に対応する2進値は「1」であり、これは、最初の画像フレームから2番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。
ステップ310において、圧縮された単語のシーケンスが、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて生成される。圧縮された単語は、連続する画像フレームにおける「1」から「0」および「0」から「1」へのクラスの遷移に基づいて生成される。本開示の一実施形態では、圧縮された単語は、事前定義されたクラスの数の2倍に相当する数の文字を含むアルファベットの文字から形成される。さらに、圧縮された単語のシーケンスの圧縮された単語のそれぞれは、それらの間に非アクティビティの少なくとも1つのフレームを含む。一例では、クラスの数が5であるの場合、各単語は合計10文字で構成される。各クラスについて、「0->1」遷移は特定の「開始」文字(たとえば、クラス「オブジェクト」の場合は「O」)を生成し、「1->0」遷移は「終了」文字(たとえば、クラス「オブジェクト」の場合は「o」)を生成する。
ステップ312において、シーケンス依存分類器による圧縮された単語のシーケンスの分析に基づいて、1つまたは複数のユーザアクションが抽出される。1つまたは複数のユーザアクションは、SCOスキャン領域(スキャンアクション関心領域)における人間のアクティビティを認識し、認識結果をユーザコンピューティングデバイスに送信するために使用され得る。いくつかの実施形態では、ユーザコンピューティングデバイスは、認識結果を格納または表示するように構成され得る。本開示の一実施形態では、シーケンス依存分類器はリカレントニューラルネットワークである。
本開示はまた、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品に関し、ソフトウェア製品は、ビデオストリームから人間のアクティビティを認識する方法を実装するためにコンピューティングハードウェア上で実行可能である。
前述の発明の実施形態への変更は、添付の特許請求の範囲によって定義される発明の範囲から逸脱することなく可能である。本発明を説明し、特許請求するために使用される「含む」、「備える」、「組み込む」、「からなる」、「有する」、「である」などの表現は、非排他的な方法で解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素も存在することを可能にする。単数形への言及も、複数形に関連していると解釈されるべきである。添付の特許請求の範囲で括弧内に含まれる数字は、特許請求の範囲の理解を助けることを意図しており、これらの特許請求の範囲によって請求される主題を限定するものと解釈されるべきではない。

Claims (19)

  1. イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムであって、前記システムは、
    1つまたは複数の命令を格納するためのメモリと、
    前記1つまたは複数の命令を実行するために前記メモリに通信可能に結合されたプロセッサであって、前記プロセッサは、
    前記イメージングデバイスに通信可能に結合された分類器であって、
    前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類し、前記画像フレームは、前記画像フレームの関心領域におけるユーザアクションに基づいて分類され、
    前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成し、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含む、ように構成された分類器と、
    事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値をフィルタリングし、かつ二値化するように構成されたデータフィルタリングおよび二値化モジュールと、
    圧縮単語構成モジュールであって、
    対応する二値化された確率ベクトルに基づいて、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定し、
    前記1つまたは複数の連続する画像フレームにおける前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成する、ように構成された圧縮単語構成モジュールと、
    前記圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器と
    を含むプロセッサと
    を備えたシステム。
  2. 前記分類器は、畳み込みニューラルネットワークである、請求項1に記載のシステム。
  3. セルフチェックアウト(SCO)スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナなどのクラスを含む、請求項1に記載のシステム。
  4. 前記データフィルタリングおよび二値化モジュールは、1つまたは複数の連続する画像フレームの前記クラス確率ベクトルにおける分類器エラーを排除するようにさらに動作可能である、請求項1に記載のシステム。
  5. 前記プロセッサは、サイレントインターバル検出モジュールをさらに備え、前記サイレントインターバル検出モジュールは、事前定義された閾値期間に前記関心領域におけるアクティビティ検出がないことに基づいて、前記ビデオストリーム内の1つまたは複数のサイレントインターバルを検出するように構成される、請求項1に記載のシステム。
  6. 圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成される、請求項1に記載のシステム。
  7. 前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項1に記載のシステム。
  8. 前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項1に記載のシステム。
  9. ビデオストリームから人間のアクティビティを認識するための方法であって、前記方法は、
    分類器によって、前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類することであって、前記画像フレームは、前記画像フレームの関心領域におけるユーザアクションに基づいて分類されることと、
    前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成することであって、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含むことと、
    事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化することと、
    対応する二値化された確率ベクトルに基づいて、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定することと、
    前記1つまたは複数の連続する画像フレームにおいて前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することと、
    シーケンス依存分類器によって前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することによって、1つまたは複数のユーザアクションを抽出することと
    を含む方法。
  10. 前記分類器は、畳み込みニューラルネットワークである、請求項9に記載の方法。
  11. セルフチェックアウト(SCO)スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナなどのクラスを含む、請求項9に記載の方法。
  12. 1つまたは複数の連続する画像フレームのクラス確率ベクトルにおける分類器エラーを排除することをさらに含む、請求項9に記載の方法。
  13. 事前定義された閾値期間に前記関心領域でのアクティビティ検出がないことに基づいて、前記ビデオストリーム内の1つまたは複数のサイレントインターバルを検出することをさらに含む、請求項9に記載の方法。
  14. 圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成される、請求項9に記載の方法。
  15. 前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項9に記載の方法。
  16. 前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項9に記載の方法。
  17. ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラム可能な製品であって、前記コンピュータプログラム可能な製品は、命令のセットを含み、前記命令のセットはプロセッサによって実行されると、前記プロセッサに、
    前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類させ、前記画像フレームは、前記画像フレームの関心領域におけるユーザアクションに基づいて分類され、
    前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成させ、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含み、
    事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化させ、
    対応する二値化された確率ベクトルに基づいて、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定させ、
    前記1つまたは複数の連続する画像フレームにおける前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成させ、
    前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することにより、1つまたは複数のユーザアクションを抽出させる、コンピュータプログラム可能な製品。
  18. 圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成される、請求項17に記載のコンピュータプログラム可能な製品。
  19. 前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項17に記載のコンピュータプログラム可能な製品。
JP2021578060A 2019-07-01 2020-05-12 アクティビティ認識のための量子化された遷移変化の検出 Active JP7285973B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/458,288 2019-07-01
US16/458,288 US10902247B1 (en) 2019-07-01 2019-07-01 Quantized transition change detection for activity recognition
PCT/IB2020/054488 WO2021001702A1 (en) 2019-07-01 2020-05-12 Quantized transition change detection for activity recognition

Publications (2)

Publication Number Publication Date
JP2022540069A true JP2022540069A (ja) 2022-09-14
JP7285973B2 JP7285973B2 (ja) 2023-06-02

Family

ID=70740723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021578060A Active JP7285973B2 (ja) 2019-07-01 2020-05-12 アクティビティ認識のための量子化された遷移変化の検出

Country Status (11)

Country Link
US (1) US10902247B1 (ja)
EP (1) EP3994603A1 (ja)
JP (1) JP7285973B2 (ja)
KR (1) KR20220017506A (ja)
CN (1) CN114008693A (ja)
AU (1) AU2020298842B2 (ja)
BR (1) BR112021024260A2 (ja)
CA (1) CA3141958A1 (ja)
CO (1) CO2021016435A2 (ja)
MX (1) MX2021015584A (ja)
WO (1) WO2021001702A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776319B2 (en) * 2020-07-14 2023-10-03 Fotonation Limited Methods and systems to predict activity in a sequence of images
WO2023013879A1 (en) * 2021-08-03 2023-02-09 Samsung Electronics Co., Ltd. A method and system for tracking at least one action of the user(s) for overcoming occlusion

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
US20120320199A1 (en) * 2011-06-06 2012-12-20 Malay Kundu Notification system and methods for use in retail environments
JP2013045433A (ja) * 2011-08-26 2013-03-04 Canon Inc 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
US20140294360A1 (en) * 2013-03-26 2014-10-02 Disney Enterprises, Inc. Methods and systems for action recognition using poselet keyframes

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477908B2 (en) * 2014-04-10 2016-10-25 Disney Enterprises, Inc. Multi-level framework for object detection
US20150379497A1 (en) * 2014-06-27 2015-12-31 Miguel Florez System, device, and method for self-checkout shopping
CA3019567A1 (en) * 2016-03-30 2017-10-05 Covenant Eyes, Inc. Applications, systems and methods to monitor, filter and/or alter output of a computing device
US11482082B2 (en) * 2016-09-18 2022-10-25 Ncr Corporation Non-scan loss verification at self-checkout terminal
EP3924919A1 (en) * 2019-02-11 2021-12-22 Everseen Limited System and method for operating an sco surface area of a retail store

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
US20120320199A1 (en) * 2011-06-06 2012-12-20 Malay Kundu Notification system and methods for use in retail environments
JP2013045433A (ja) * 2011-08-26 2013-03-04 Canon Inc 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
US20140294360A1 (en) * 2013-03-26 2014-10-02 Disney Enterprises, Inc. Methods and systems for action recognition using poselet keyframes

Also Published As

Publication number Publication date
AU2020298842A1 (en) 2021-12-16
WO2021001702A1 (en) 2021-01-07
CO2021016435A2 (es) 2021-12-10
CA3141958A1 (en) 2021-01-07
US10902247B1 (en) 2021-01-26
AU2020298842B2 (en) 2023-08-17
MX2021015584A (es) 2022-01-31
KR20220017506A (ko) 2022-02-11
EP3994603A1 (en) 2022-05-11
CN114008693A (zh) 2022-02-01
US20210004575A1 (en) 2021-01-07
JP7285973B2 (ja) 2023-06-02
BR112021024260A2 (pt) 2022-01-11

Similar Documents

Publication Publication Date Title
Dang et al. Sensor-based and vision-based human activity recognition: A comprehensive survey
US8935195B2 (en) Method of identification and devices thereof
Gu et al. Multiple stream deep learning model for human action recognition
Huynh-The et al. Learning 3D spatiotemporal gait feature by convolutional network for person identification
CN111523559B (zh) 一种基于多特征融合的异常行为检测方法
Sundaram et al. High level activity recognition using low resolution wearable vision
JP7285973B2 (ja) アクティビティ認識のための量子化された遷移変化の検出
Ganguly et al. Kinect Sensor Based Single Person Hand Gesture Recognition for Man–Machine Interaction
US11151412B2 (en) Systems and methods for determining actions performed by objects within images
Aziz et al. Bengali Sign Language Recognition using dynamic skin calibration and geometric hashing
Zhao et al. A unified framework with a benchmark dataset for surveillance event detection
Cui et al. AP-GAN: predicting skeletal activity to improve early activity recognition
CN115713806A (zh) 基于视频分类的跌倒行为识别方法及电子设备
Sharif et al. Human gait recognition using deep learning: A comprehensive review
Huynh-The et al. Visualizing inertial data for wearable sensor based daily life activity recognition using convolutional neural network
Mobsite et al. A Deep Learning Dual-Stream Framework for Fall Detection
Zachariah et al. Review on vision based human motion detection using deep learning
Bhaidasna et al. A Survey on Different Deep Learning Model for Human Activity Recognition Based on Application
Harini et al. A novel static and dynamic hand gesture recognition using self organizing map with deep convolutional neural network
Mobsite et al. Activity Classification and Fall Detection Using Monocular Depth and Motion Analysis
Ming et al. FaceLiveNet+: A Holistic Networks For Face Authentication Based On Dynamic Multi-task Convolutional Neural Networks
Merikapudi et al. Domain Human Recognition Techniques using Deep Learning
Tyagi et al. Hybrid classifier model with tuned weights for human activity recognition
Santhoshkumar et al. Recognition of Emotions from Human Activity Using STIP Feature
Divya et al. Fall detection using OpenPose

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230523

R150 Certificate of patent or registration of utility model

Ref document number: 7285973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150