JP2018124972A - ワンショット学習を通じた群衆解析 - Google Patents

ワンショット学習を通じた群衆解析 Download PDF

Info

Publication number
JP2018124972A
JP2018124972A JP2017183113A JP2017183113A JP2018124972A JP 2018124972 A JP2018124972 A JP 2018124972A JP 2017183113 A JP2017183113 A JP 2017183113A JP 2017183113 A JP2017183113 A JP 2017183113A JP 2018124972 A JP2018124972 A JP 2018124972A
Authority
JP
Japan
Prior art keywords
behavior
signature
cameras
generating
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017183113A
Other languages
English (en)
Inventor
ピーター・ヘンリー・トゥ
Peter Henry Tu
タオ・ガオ
Tao Gao
ジリン・トゥ
Jilin Tu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
General Electric Co
Original Assignee
General Electric Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Electric Co filed Critical General Electric Co
Publication of JP2018124972A publication Critical patent/JP2018124972A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)
  • Alarm Systems (AREA)

Abstract

【課題】画像データ解析に基づいて個人または群衆レベルの挙動を評価するための技術を提供する。【解決手段】社会的挙動認識システム10は、静止画像、ビデオまたは両方ともを捕える能力のある1つまたは複数のカメラ12を含む。カメラ12は、壁、天井、床などの上の拘束を受けない環境16のいかなる適切な位置にも、設置することができる。更に、システム10は、データソースとして外部カメラ12を使用することもできる。拘束を受けない環境16は、1人または複数の人々14を含み得る。カメラ12は、人々14に関連したデータを捕えるためにプログラムすることができるかまたは制御することができる。コンピューティング装置20は、スマートフォン、スマートウォッチ、タブレット、ラップトップコンピュータ、デスクトップコンピュータなどとして、あるいはそれらによりアクセス可能なように実装することができる。【選択図】図1

Description

本明細書において開示される内容は、ワンショット学習を通じた群衆解析に関する。
個人または群衆レベルの挙動を理解することは、重要な研究分野であり、挙動検出につなげることができる。人の挙動を検出することで、空港、鉄道の駅、スポーツアリーナ、映画館などの群衆が通常集まる様々な場所での、犯罪減少および/またはセキュリティの強化を可能にすることができる。人が挙動を実行に移す前にその挙動を検出する技術を改善することは望ましい、ということが現在は一般に認識されている。
独創的に請求される主題の範囲に相応した特定の実施形態が以下に要約される。これらの実施形態は請求される主題の範囲を制限することを目的とするものではなく、むしろ、これらの実施形態は本開示の考え得る形の概要を提供することだけを目的とする。実際、開示される技術は、以下に述べる実施形態と類似していてもよい、または異なってもよい、様々な形態を含むことができる。
一実施形態において、環境内の1つまたは複数のカメラからデータを受け取る以下のステップを含む方法が提供され、そのステップとは、データから作成される1つまたは複数のビデオ解析ストリームのメタデータを生成するステップ、メタデータに基づいて、1つまたは複数の時系列の値を生成するステップ、1つまたは複数の時系列に対する1つまたは複数の情動スコアを生成するステップ、1つまたは複数の情動スコアに基づいて、観察された挙動を代表する第1のシグネチャを生成するステップ、第1のシグネチャが照会挙動を表す第2のシグネチャと一致するか否かを判定することによって、ペアによる照合を実行するステップ、そして、第1のシグネチャが第2のシグネチャと一致するときに措置を実行するステップ、である。
別の実施態様では、有形の非一時的コンピュータ可読媒体が提供される。有形の、非一時的コンピュータ可読媒体は、1つまたは複数のプロセッサによって実行されるときに、1つまたは複数のプロセッサに、環境内の1つまたは複数のカメラからデータを受信させ、データから作成される1つまたは複数のビデオ解析ストリームのメタデータを生成させ、メタデータに基づいて1つまたは複数の時系列の値を生成させ、1つまたは複数の時系列に対する1つまたは複数の情動スコアを生成させ、1つまたは複数の情動スコアに基づいて、観察された挙動を代表する第1のシグネチャを生成させ、第1のシグネチャが照会挙動を表す第2のシグネチャと一致するか否かを判定することによって、ペアによる照合を実行させ、そして、第1のシグネチャが照会挙動を表す第2のシグネチャと一致するときに出力を提供するようにさせる、コンピュータ命令を格納する。
別の実施態様では、環境内の1人または複数の個人の挙動に関連したデータを捕える1つまたは複数のカメラを含むシステムが、提供される。システムはまた、1つまたは複数のカメラからデータを受け取り、1人または複数の個人の観察された挙動が照会挙動と一致するか否かを判定するためにデータを使用してワンショット学習を実行し、そこにおいて、ワンショット学習は、照会挙動のインスタンスの単一の観察だけが取得された後に実行される、ペアによる照合を実行することを含み、そして、観察された挙動が照会挙動と一致するときに、措置を実行する、1つまたは複数のプロセッサを備えた1つまたは複数のコンピューティング装置を含む。
本開示のこれらの、そしてまた他の、特徴、態様および利点は、以下の詳細な説明が、図面の全体にわたって同様の文字が同様の部分を表す、添付の図面を参照して読まれるときに、よりよく理解される。
一実施形態による、社会的挙動認識システムの説明図である。 一実施形態による、ビデオ解析ストリームを生成するのに適しているプロセスのフローチャートである。 一実施形態による、ワンショット学習を通じて挙動を検出するのに適しているプロセスのフローチャートである。 一実施形態による、ワンショット学習を実行するために用いる例示モジュールのブロック図である。 一実施形態による、ワンショット学習のために使用する13個の挙動ペアのマトリクス表現である。 一実施形態による、13個の観察された挙動ペアおよび、各挙動に対する情動スコアを作成する能力をそれぞれが有する18個の兆候ジェネレータに基づく、ランクマトリクスである。 一実施形態による、各種のワンショット学習実験に対する累積的な一致特性曲線である。
次に、1つまたは複数の特定の実施形態を説明する。これらの実施形態の簡潔な記述を提供する努力において、実際の実装の全ての特徴が、仕様に記載されているというわけではない。この種のあらゆる実際の実装の開発においては、あらゆる技術または設計プロジェクトにおけるように、例えば実装ごとに異なるシステムおよびビジネス関連の規制条件に準拠することのような、開発者の特定の目標を達成するためには、多数の実装特有の決定がなされなければならないことは理解すべきである。更に、そのような開発努力は、複雑かつ時間がかかるであろうが、それにもかかわらずこの開示の利益を受ける当業者にとっては設計、製作、製造を始める型通りの手順であるということを理解すべきである。
本開示の各種実施形態の要素を導入するときに、冠詞「1つの(a)」、「1つの(an)」、そして、「その(the)」は、要素の1つまたは複数があることを意味することを意図している。用語「含む(comprising)」、「包含する(including)」および「有する(having)」は、包括的であることを意図しており、列挙された要素以外の追加要素があり得ることを意味する。
本開示の実施形態は、概して挙動認識に対するワンショット学習フレームワークに関する。ワンショット学習は、1つまたはほんの少数の挙動観察だけに基づいて挙動カテゴリまたはタイプの認識ができるようにする。照会挙動(例えばうろついている)のインスタンスの単一の観察が与えられると、社会的挙動認識システムは、それに続く任意の観察が、この種類の別の例であるか、またはそうではないと分類することができる。認識の観点から、この技術は、システムが2つの顔を表しているデータを受信するといつでも、2つの顔が同じ個人から来たのか、または、異なる個人から来たのかをシステムが判定する、という顔認証の課題に類似していると言える。同様に、本明細書において、観察された挙動のいかなるペアも比較して、2つの挙動が同一であるか否かを判定する、ワンショット挙動認識システムが開示される。
いくつかの実施形態は、スタンドオフビデオ解析方法を用いて群衆レベルの挙動を理解することを可能とし得る。特に、社会的挙動認識システムを用いて、個人の、および/または群衆/グループレベル相互関係での、人の非言語的な合図を捕えて、解析することができる。更に、ワンショット学習のアプローチは、新規な挙動がただ1つの例だけで認識され得るという概念に基づいて、社会的挙動認識システムによって用いることができる。社会的挙動認識システムは、群衆の中の人追尾、動的なパンチルトズーム(PTZ)カメラ制御、遠くからの顔の解析(例えば、凝視推定および/または表情認識)、上半身感情ポーズ解析および社会的状態(例えば、関係、敵意など)の推定、などの方法を実施することができる。いくつかの実施形態では、社会的挙動認識システムによって引き出される合図は、ワンショット学習の形として見ることができる挙動の間のシグネチャ一致を考慮して、意味論的に意味がある挙動ディスクリプタまたは情動を組み立てるために、用いることができる。
特定の実施形態では、本明細書において用いられる用語は、以下の通りに理解することができる。
・ワンショット学習:照会挙動(例えばグループ形成)のインスタンスの単一の観察が与えられて、それに続く任意の観察が、この種類の別の例であるか、またはそうではないと分類すること。
・挙動:人々によって実行されるイベントの連続。
・ビデオ解析ストリーム:ベースビデオ解析によって生成される、各人の位置、凝視方向、表情および/または動作領域などのデータ(これらは恒常的に発生中であってもよい)。
・兆候ジェネレータ:イベントの観察ならびに測定量などのデータの各種の解釈。兆候ジェネレータは、パラメータ化することができて、0と1間の単一変数時系列として見ることができる。
・情動:意味論的に意味がある挙動のディスクリプタ;兆候ジェネレータは、0と1の間の単一の情動スコアを作成することができる。
・シグネチャ:挙動を特徴づけるために用いる構造。シグネチャは、観察された情動をコード化する。シグネチャは、情動のシーケンスが挙動検出において助けとなり得るので、各情動がいつ観察されたかについて考慮することもできる。
・挙動の観察:生のビデオとビデオ解析ストリームから成る。
前述のことを念頭にして、図1は、実施形態による社会的挙動認識システム10の説明図である。社会的挙動認識システム10は、顔の表情、凝視方向、体の姿勢および動作)多種多様な視覚的合図を考慮することができる。視覚的合図に基づいて、社会的挙動認識システム10は、完全に自動的なやり方で複雑なグループレベルの社会的状態を推定することができる。いくつかの実施形態では、社会的挙動認識システム10は、潜在変数推論課題として社会的相互関係解析を評価することができる。更に、いくつかの実施形態では、社会的挙動認識システム10は、拘束を受けない環境16において自由に機能している1人または複数の人々14についてのデータを捕える、カメラ12を含むことができる。社会的挙動認識システム10は、ビデオ解析メタデータのソースとして用いることができる。下記に詳しく述べる通り、社会的挙動認識システム10は、リアルタイム、スタンドオフまたはスタンドアロンの(例えば、個人と分離した)エンドツーエンドの社会的相互関係解析システムとして、インスタンス化することができる。
図示するように、社会的挙動認識システム10は、静止画像、ビデオまたは両方ともを捕える能力のある1つまたは複数のカメラ12を含む。カメラ12は、壁、天井、床などの上の拘束を受けない環境16のいかなる適切な位置にも、設置することができる。1つまたは複数のカメラ12は、ボディカメラとして実装することができる。更に、システム10は、データソースとして外部カメラ12を使用することもできる。例えば、システム10は、ビデオ解析に対する入力データとして環境からソーシャルメディア画像またはビデオを取得するように構成することができる。拘束を受けない環境16は、1人または複数の人々14を含み得る。例えば、環境16に存在する単一の個人14が存在してもよく、または、大勢の人々14が環境16に存在してもよい。カメラ12は、人々14に関連したデータを捕えるためにプログラムすることができるかまたは制御することができる。いくつかの実施形態では、カメラ12は、クラウドベースのコンピューティングシステム18および/またはコンピューティング装置20に通信で連結することができる。このように、カメラ12は、取得されたデータをクラウドベースのコンピューティングシステム18および/またはコンピューティング装置20に発信することができる。発進の頻度は、周期的(例えば、1分ごと、5分ごと、30分ごと、60分ごと、毎日、毎週など)であっても、またはストリーミング(例えば、リアルタイムまたはほぼリアルタイムで連続的)であってもよい。いくつかの実施形態では、コンピューティング装置20は、スマートフォン、スマートウォッチ、タブレット、ラップトップコンピュータ、デスクトップコンピュータなどとして、あるいはそれらによりアクセス可能なように実装することができる。
カメラ12を介して取得されるデータは、クラウドベースのコンピューティングシステム18の1つまたは複数のサーバ22によって受け取ることができて、サーバ22の1つまたは複数のメモリ24に、または、サーバ22の外部にあるクラウドベースのコンピューティングシステム18に含まれる1つまたは複数のデータベース26に、格納することができる。サーバ22は、互いに通信で連結することができて、互いの間で各種のタスクを分散して、より効率的にタスクを遂行することができる。サーバ22は、1つまたは複数のプロセッサ28および通信コンポーネント30を含むこともできる。通信コンポーネント30は、クラウドベースのコンピューティングシステム18、カメラ12および/またはコンピューティング装置20の間の通信を容易にすることができる、無線または有線の通信コンポーネントでもよい。
プロセッサ28は、コンピュータにより実行可能なコードを実行することができる任意のタイプのコンピュータプロセッサまたはマイクロプロセッサであってもよい。プロセッサ28は、後述する動作を実行することができるマルチプロセッサを含むこともできる。メモリ24は、プロセッサ実行可能コード、データ、データの解析などを記憶するための非一時的媒体として役割を果たすことができる、いかなる適切な製品でもあってもよい。これらの製品は、プロセッサ28により用いられるプロセッサ実行可能コードを格納して本開示の技術を実行することができる、コンピュータ可読媒体(例えば、メモリまたはストレージのあらゆる適切な形)を表すことができる。通常、プロセッサ28は、以下に詳細に記載されているように、カメラ12を介して取得されるデータに基づいて、挙動を認識することができる。クラウドベースのコンピューティングシステム18のサーバ22の分散型の性質のため、サーバ22の共用リソースは、パラレル処理を可能としてリアルタイムフィードバックを可能とすることができる。例えば、各サーバ22は、実質的に同時にデータの異なる部分を処理する役割を果たしてもよく、そして、結果を結合して、コンピューティング装置20に結果を出力する単一のサーバ22によって、結果は収集することができる。このようにして、どのサーバ22も計算コストの高いタスクであふれることなく、そして、処理時間は削減することができる。
データベース26は、カメラ12によって捕えられる画像および/またはビデオデータを格納することができる。また、データベース26は、ビデオ解析ストリームメタデータと比較して挙動一致があるか否かを判定することができる、知られている挙動シグネチャなどの他の情報を、格納することができる。更に、データベース26および/またはメモリ24は、カメラ12によって取得される履歴ビデオおよび/または画像データを格納することができる。
コンピューティング装置20は、1人または複数の人々14の特定の挙動が検出されているか否か、ならびに、人々14に関する関連情報および/または取られる措置(例えば、救急サービスを呼ぶ、アラームを鳴らす、アラートを起動する、メッセージを送信する、アラートを表示する、など)を表示する、グラフィカルユーザーインタフェース(GUI)を提供するアプリケーションを、格納することができる。すなわち、いくつかの実施形態では、アプリケーションは、挙動を認識する方法などのいかなる処理も実行しない場合もある。その代わりに、いくつかの実施形態では、アプリケーションは、クラウドベースのコンピューティングシステム18によって実行した挙動認識技術のデータと結果の、フロントエンドディスプレイとしてだけ機能することができる。例えば、クライアントサーバアーキテクチャで、ウェブサイトはコンピューティング装置20上のブラウザを介してアクセスすることができ、そして、ウェブサイトは、それがいかなるモデリングも実際に実行することなくクラウドベースのコンピューティングシステム18により提供される情報を示すだけであるという点で、シンクライアントとして機能することができる。しかしながら、いくつかの実施形態では、コンピューティング装置20に格納されるアプリケーションは、カメラ12からデータを受け取ることができて、本明細書において開示される挙動認識技術を実行することができる。
上記のコンポーネントがクラウドベースのコンピューティングシステム18のサーバ22に関して述べられたにもかかわらず、類似のコンポーネントがコンピューティング装置20を形成することができる点に留意する必要がある。更に、列挙されたコンポーネントが例示のコンポーネントとして設けられており、そして、本明細書において記載されている実施形態が図1に関して記載されているコンポーネントに限られてはいないという点に留意する必要がある。
カメラ12は固定の赤、緑、青および深度(RGB−D)カメラを含むことができ、それは位置および関節体動作の推定を作成する。また、カメラ12は、このような追尾結果に基づいてタスクを与えられて高解像度の顔の画像を捕えることができるパンチルトズーム(PTZ)カメラを含むことができる。顔ランドマークのはめ込みおよび追尾は、顔の表情および凝視方向を抽出するように実行される。社会的挙動認識システム10は、人に特有の合図のストリームを、観察された個人の構成および数から独立している、サイトレベルの集積された統計のセットに抽出することができる。このような測定値は、感情的な情動(観察された顔の表情に由来する)、近接度(追尾された位置に由来する)、アクティビティ動作(動作に由来する)および係合(位置および凝視方向に由来する)を含むことができる。社会的挙動認識システム10は、時系列表現に結果としてなっているこれらの統計を連続的に生成することができる。グラフィックモデルのセットは、クラウドベースのコンピューティングシステム18および/またはコンピューティング装置20により用いられて、これらの測定値を処理することができ、それによって、様々なグループレベルの社会的状態(例えば疎通性および敵意)の連続的推定に結果としてなる。
社会的挙動認識システム10がそのシステムアーキテクチャのためのモジュラー設計を含み得るということに留意する必要がある。いくつかの実施形態では、社会的挙動認識システム10のコンポーネントは、カメラ12からの生のビデオフィードおよび他のモジュールによって生成されるメタデータなどの入力を消費し得る。次に、各モジュールは、メッセージパッシング、パブリッシュおよびサブスクライブアーキテクチャに挿入されるメタデータを、生成することができる。複数のコンピューティングプラットフォームを使用して、リアルタイム社会的挙動認識システム10は、マルチカメラ追尾、PTZ制御、顔の解析、データ統合および社会的状態推論を含むことができる。この種のモジュラー設計は、複数のサードパーティ機能の社会的挙動認識システム10への組み込みを可能とすることができる。
クラウドベースのコンピューティングシステム18および/またはコンピューティング装置20の1つまたは複数のプロセッサは、コンピュータ命令として行われる各種のモジュールを実行することができる。モジュールは、追尾モジュール、関節動作解析モジュール、PTZカメラ制御モジュール、顔解析モジュールおよび/または推論モジュールを含むことができる。
追尾モジュールから始めて、特定の関心領域(例えば、環境16)に位置する各対象(例えば、人々14)の位置および軌跡を推定するために、検出および追尾の枠組みが、用いることができる。複数のRGB−Dカメラ12は、まずワールド座標系に関して調整することができる。各カメラ12からの画像は、それぞれに人検出のセットおよび関連する外観シグネチャを生成するために用いることができる。これらの検出は、既存の追尾装置に照合することができる。既存の追尾装置に関連付けられない検出は、新規な追尾装置を初期化するために用いることができる。新規な検出と関連付けることに継続的に失敗する追尾装置は、終了させることができる。
加えて、クラウドベースのコンピューティングシステム18および/またはコンピューティング装置20は、関節動作解析モジュールを実行することができる。追尾に加えて、RGB−Dカメラ画像は、「時空コーナー」と呼ばれる動作合図を抽出するために用いることができる。これらの合図は、各対象の測定された位置および高さに基づいて定められる空間ヒストグラムと関連付けてもよい。これらの空間/頻度分布は、PTZカメラ12で捕えられるRGB画像に基づく関節動作体の表現として使うことができる。
PTZカメラ制御モジュールに関して、各PTZカメラ12の位置は、ワールド座標系に関してまず測定することができる。校正手順は、パン(P)、チルト(T)およびズーム(Z)の値をワールド座標系の(X、Y、Z)座標にマッピングするために用いることができ、それによって、顔が(X、Y、Z)に位置している場合、PTZカメラ12からの結果として得られる画像が、様々な形の顔の解析を可能とする。追尾モジュールは、地上平面座標(X、Y)の各人の位置を生成することができる。Z値は、対象高さの推定に基づいて決定することができる。最適化アルゴリズムは、自動的にPTZカメラ12を追尾される対象に割り当てるために用いることができる。
顔解析モジュールに関して、PTZカメラ12によって生成される高解像度画像を与えられると、以下の動作を実行することができる。(1)顔検出器は対象の顔の境界ボックスを作成するために用いる、(2)目検出器は対象の目の位置を決めるために用いる、(3)両眼が検出される場合、顔のランドマークモデルが対象の顔にはめ込まれる、(4)垂直および水平の凝視方向の推定は、はめ込まれたランドマークモデルの形状に基づいて計算することができる、(5)横眼球位置の推定は「そらされた凝視」などのイベントの検出を考慮に入れて計算される、(6)はめ込まれたランドマークモデルは対象の顔の正面像を合成するために用いることができる、そして、(7)全体の顔の表情モデルは一般の顔の表情のセットを推定するために用いることができる。
推論モジュールに関して、各人14と関連したメタデータ(例えば、位置、関節動作、凝視方向、顔の表情)のストリームが与えられると、集約された社会的兆候のセットを生成することができる。グループレベルの社会的概念(例えば疎通性および敵意)を推定する目的のために、グラフィックモデルは、各社会的概念と関連した確率分布のリアルタイム評価に結果としてなっている集約された社会的兆候の推論に用いることができる。
図2は、実施形態による、ビデオ解析ストリームを生成するのに適しているプロセス30のフローチャートである。プロセス30の以下の記述がクラウドベースのコンピューティングシステム18の1つまたは複数のサーバ22のプロセッサ28に関して記載されているが、プロセス30が、カメラ12および/またはクラウドベースのコンピューティングシステム18と通信する能力を有し得る、コンピューティング装置20または社会的挙動認識システム10と関連した他のコンポーネントなどの、他の装置に配置されている1つまたは複数の他のプロセッサによって実行することができる、ということに留意する必要がある。加えて、以下のプロセス30は、実行することができる多くの動作を説明しているが、プロセス30が様々な適切な順序で実行することができ、そして、動作の全てが実行されなくてもよい、ということに留意する必要がある、プロセス30がクラウドベースのコンピューティングシステム18のサーバ20の間に分散することができることが理解されるべきである。各種のモジュール(例えば、追尾、関節動作解析、PTZカメラ制御、顔の解析および/または推論)が、プロセス30を実行するために用いることができる、ということに留意する必要がある。
プロセス30を次に参照すると、プロセッサ28は、環境16内のPTZカメラ12を介して、個人14を追尾することができる(ブロック32)。プロセッサ28は、時空関心ポイントに基づいて各個人14のための動作シグネチャを生成することもできる(ブロック34)。プロセッサ28は、PTZカメラ12を制御することによって、高解像度の顔の画像を捕えることもできる(ブロック36)。また、プロセッサ28は、顔の画像に基づいて顔の表情および凝視方向を推定することができる(ブロック38)。プロセッサ28は、それから、ビデオ解析ストリームを生成することができる(ブロック40)。フレームごとに、ビデオ解析ストリームは、(1)サイト座標における位置、(2)動作シグネチャ、(3)表情プロファイル(喜び、恐れ、驚き、フラストレーション、怒り)および(4)凝視方向(垂直および水平の)をコード化する人ディスクリプタのセットから成ることができる。加えて、各個人14は追尾IDを介して以前の人観察とリンクすることができ、そして、それは時間的解析を可能にすることができる。
ビデオ解析ストリームを使用して、クラウドベースのコンピューティングシステム18および/またはコンピューティング装置20は、特定の挙動が認識されるか否かについて判定するために、ワンショット学習を実行することができる。従って、図3は、実施形態による、ワンショット学習を通じて挙動を検出するのに適しているプロセス50のフローチャートである。プロセス50の以下の記述がクラウドベースのコンピューティングシステム18の1つまたは複数のサーバ22のプロセッサ26に関して記載されているが、プロセス50が、カメラ12および/またはクラウドベースのコンピューティングシステム18と通信する能力を有し得る、コンピューティング装置20または社会的挙動認識システム10と関連した他のコンポーネントなどの、他の装置に配置されている1つまたは複数の他のプロセッサによって実行することができる、ということに留意する必要がある。加えて、以下のプロセス50は、実行することができる多くの動作を説明しているが、プロセス50が様々な適切な順序で実行することができ、そして、動作の全てが実行されなくてもよい、ということに留意する必要がある。いくつかの実施形態で、プロセス50は、クラウドベースのコンピューティングシステム18およびコンピューティング装置20のサーバ22の間に分散することができる、ということが理解されるべきである。
プロセス50を次に参照すると、プロセッサ28は、図2のプロセス30によって上で生成されたビデオ解析ストリームを受信することができる(ブロック52)。いくつかの実施形態では、兆候ジェネレータモジュールは、ビデオ解析ストリームを受信することができる。兆候ジェネレータモジュールを実行しているプロセッサ28は、メタデータをビデオ解析ストリームから作成することができる(ブロック54)。兆候ジェネレータモジュールは、メタデータに基づいて時系列を生成することもできる(ブロック56)。すなわち、時系列はフレームごとのベースで0から1までの範囲の値を含むことができる。兆候ジェネレータモジュールは、時系列に基づいて0から1までの範囲の情動スコアを生成することができる(ブロック58)。兆候ジェネレータモジュールは、モジュールの挙動を定めるパラメータのセットを含むことができる。兆候ジェネレータごとにパラメータ表示を考慮に入れることによって、ユーザは、所与の兆候ジェネレータの特定の変形をインスタンス化することができる。反対に、兆候ジェネレータパラメータの置換を考慮することによって、兆候ジェネレータの複数の変形を作成することができる。兆候ジェネレータバンクは、多数の兆候ジェネレータを含むことができて、所与の挙動を特徴づけるために用いることができる兆候ジェネレータのセットを維持することを可能にする。
一旦挙動が兆候ジェネレータモジュールまたは兆候ジェネレータバンクによって処理されると、シグネチャは情動スコアに基づいて生成される(ブロック60)。いくつかの実施形態では、シグネチャは、各兆候ジェネレータモジュールによって生成される情動スコアを含むことができる。シグネチャは、所与の挙動の記述を提供することができる。プロセッサ28は、シグネチャが別の挙動シグネチャと一致するか否かを判定することができる(ブロック62)。シグネチャのペア間での照合は、機械学習(例えば、管理されているか、管理されない)を通じて成し遂げることができる。管理された機械学習は、各種の制定された挙動から成る訓練およびテスト用のデータセットの収集を含むことができる。機械学習アルゴリズムは、肯定的である(同じタイプの挙動の2つの例)かまたは否定的である(異なる挙動の2つの例)と分類される挙動のペアに基づいて、モデルを生成することができる。機械学習アルゴリズムは次に、挙動の肯定的および否定的なペアを区別するように、情動加重を定めることができる。
新しく観察された挙動は、観察された挙動に一致し得る、犯罪的な挙動(例えば、うろつくこと、破壊行為、攻撃、窃盗、不法侵入)または、犯罪予備的もしくは衝突発生前の挙動(攻撃性)などの、特性または照会挙動との類似性に対して評価することができる。例えば、不法侵入挙動は、ある場所にいる許可を与えられる個人の挙動とは、特徴的に異なっている可能性がある。不法侵入者は、許可された個人と比べて、特徴的な凝視方向の変化(例えば、肩越しに観察者を探す)を呈することがあり得る。このように、挙動シグネチャは、こそこそした態度と関連した情動を含む可能性がある。これらの凝視方向および時間とともに起きるその変化は、ビデオ解析ストリームを通じて捕えることができて、こそこそした態度と関連した時系列値を生成するために用いることができる。別の例では、落書きをすることと関連した挙動を含む場合がある。この挙動と関連した情動は、(スプレー容器の動作と関係している前後への)反復動作ならびに見張りと関連した情動を含む場合がある。観察されたまたは照会挙動は、医療を提供している第三者などのように、有益または献身的な挙動でもあり得る。本明細書において提供するペアによる照合は、攻撃と医学状況の間で、たとえその両方が、うつ伏せの個人およびそのうつ伏せの個人にまたがる2人目の個人を示すビデオデータ解析からシグネチャを得ることができるとしても、それを区別することができる。特徴的な情動は、懸念または狼狽の概念と関係している可能性がある。
図4は、実施形態による、ワンショット学習を実行するために用いる例示モジュールのブロック図である。モジュールは、サーバ22の、および/またはコンピューティング装置20の、メモリ24のコンピュータ命令として格納することができ、サーバ22の、および/またはコンピューティング装置20の、プロセッサ28によって実行可能であり得る。モジュールは、テストのために使用可能であるデータシミュレータ70を含むことができる。例えば、データシミュレータ70は、多数の挙動を作成するエージェントベースのシミュレータを含むことができる。モジュールは、データシミュレータ70に、または、社会的挙動認識システム10に接続することができる、データ収集装置72を含むこともできる。データ収集装置72は、カメラ12からビデオ解析ストリームならびにそれらの関連する生のビデオデータを収集することができる。
別のモジュールは、ユーザが兆候ジェネレータバンクを構築することを可能とする兆候ジェネレータバンクビルダ74を含むことができる。ユーザは、兆候ジェネレータプロトタイプの既存のセットから選択することができ、そして、パラメータの設定の特定のセットを定めることもでき、または社会的挙動認識システム10に所与の兆候ジェネレータの任意の数の置換を作成するように指示することができる。兆候ジェネレータプロトタイプの初期セットは、感情誘意性、凝視標準偏差、凝視係合、位置近接度、位置速度および動作の大きさを含むことができる。
別のモジュールは、開発者が視覚的に所与のビデオ解析ストリームおよび付随する生のビデオを解析することを可能にする、ビデオ解析ストリームビジュアライザ76を含むことができる。このモジュールは、新規の兆候ジェネレータの構築をサポートすることができる。加えて、観察された挙動に関して所与の兆候ジェネレータの挙動を開発者が視覚的に解析することを可能とする、兆候ジェネレータバンクビジュアライザ78モジュールを用いることができる。
各種の実験が、開示されたワンショット学習技術を使用して実行された。実験は、13個の挙動ペアの収集および18個の兆候ジェネレータの初期セットのインスタンス化を含んでいた。より具体的には、13個の挙動ペアが特定され、そして、3人のボランティア14が、各挙動の2つのバージョンを実行するよう依頼されて、その結果26個の観察された挙動つまり13個の挙動ペアになっている。選択された挙動とは、3人の(互いに知り合いである)人14がちょうど通り過ぎる、他人が通りかかかる、友人と偶然会う(幸せ)、2人の人が(集合に遅れている)3人目の友人を待っている、グループができて論争が始まりそして格闘になる、2人の人が麻薬の売人に近づき麻薬を購入する、2人の人が道に迷って居合わせた人に方向を尋ねる、タグのゲーム(1人が他の人にタグを付けようとする)、3人の他人が周辺に立っている(1人が卒倒し他の人は助けようとする)、乞食が釣銭をねだる、大道芸人(奇術師またはミュージシャン)がチップをもらう、ストーカが2人組の人の後をつける、そして、1人が見張っている間に2人の人14が壁にスプレーでペイント(落書き)を始める、というものであった。
18個の兆候ジェネレータを有する兆候ジェネレータバンクが作成された。これは、6つの兆候ジェネレータプロトタイプのそれぞれに対する3つのパラメータ設定を、ランダムに選択することによって達成された。また、任意の2つの観察された挙動の間の距離尺度を作成したワンショット学習が使用された。これは、観察された挙動ごとに特徴ベクトルディスクリプタを生成して、それから各特徴ベクトルディスクリプタの間のユークリッド距離を計算することによって、可能とすることができる。いくつかの実施形態では、特徴ベクトルは、各兆候ジェネレータによって作成される情動スコアから成ることができる。
初期の兆候ジェネレータバンクを観察されたテスト系列に適用する結果は、図5〜7を参照して説明することができる。まず図5では、実施形態に従って、マトリクス表現80が、ワンショット学習のために使用する13個の挙動ペアについて表される。図示のように、i番目の挙動は、i番目の行(第1のトライアル)およびi番目の列(第2のトライアル)と関係している。ワンショット学習距離尺度を使用して、各行に対する各列のための一致ランキングを計算することができる。このように、最適性能は、ランクマトリクスの対角線全体の1というランク値に結果としてなる場合がある。
その目的で、図6は、実施形態に従って、13個の観察された挙動ペアおよびに18個の兆候ジェネレータに基づいて結果として得られるランクマトリクス90を表し、それぞれが、各挙動に対する情動スコアを作成することができる。図示のように、ランクマトリクス全体の対角線92は、1に近いかなり整合したランク値を含む。
図7は、実施形態に従った、上記のワンショット学習実験に対する累積的な一致特性(CMC)曲線100である。CMC曲線100のY値は、Xのランキングとの正しい、またはより良い一致の数を表すことができる。最適CMC曲線100は、全てのXに対する13に等しいYを有する直線である。曲線102は偶然だけを使用して予想される性能を表し、曲線104は均等の加重関数w(各兆候ジェネレータが等しく寄与している)を使用して観察される性能を表し、そして、曲線106は性能が最適化された加重関数wを使用して観察される性能を表す。示されるように、ワンショット学習手法(例えば、曲線104および曲線106)の性能は最適化状態には及ばないが、偶然よりは良好である。
CMC曲線100は、以下の距離スコアを使用して算出される、ペアによる照合のスコアを捕える。
ここにおいて、dは距離尺度であり、bは観察された挙動であり、sgは兆候ジェネレータであり、nは兆候ジェネレータの数であり、そして、wは、各兆候ジェネレータと関連した加重である。初期の実験に対して、加重関数wは均等の値に設定され、その結果、全ての兆候ジェネレータが等しく距離測定基準に寄与することになった。このような距離測定基準を与えられて、ペアによる照合のスコアが計算され、全ての真の一致のランクが測定された。更なる照合結果は、最適化された加重関数に対して計算された。
実験は、各兆候ジェネレータと関連した加重wを調整することによって、真の一致性能が高められることができるか否かを判定するために、実行された。この目的のために、全体の性能測定基準は、真の一致と関連した平均的ランクとして定義された。wの関数としてのこの性能評価尺度と関連した表面が非凸面であるので、乱数発生器がサーチ領域を探索するために用いられた。各々ランダムに生成された加重ベクトルwを表している、1,000件のトライアルからなる実験が実行された。均等な値を有する、wに対する平均的な真のランキングは、3.7であることが観察された。1,000件のトライアルの後、この値は、2.1に減少した。CMC曲線100から分かるように、ランク1を有する真の一致の数は、4から7になった。最適化された方法は、その真の一致との最高の一致を受けている挙動の、ほぼ半分という結果になった。対照的に、完全にランダム照合関数が用いられた場合では、13個の挙動中で1個だけがその真の一致に対する最高のランキングを受けるだろうと予想される。
本発明の技術的な効果は、挙動認識に対するワンショット学習フレームワークをインスタンス化することを含む。照会挙動(例えばうろついている)のインスタンスの単一の観察が与えられると、社会的挙動認識システム10は、それに続く任意の観察が、この種類の別の例であるか、またはそうではないと分類することができる。このように、社会的挙動認識システム10は、名目(例えば、単一インスタンス)データ量によって訓練することができる。社会的挙動認識システム10は、観察された挙動の任意のペアを取り上げて、2つの挙動が一致するか否かを判定することができる。社会的挙動認識システム10は、どの個人によっても運ばれない(例えば、人々14と遠く離れて位置する)各種のカメラ12を使用することができる。カメラ12は、群衆/グループレベル相互関係において、人14の非言語的な合図(例えば、感情的な情動、近接度、アクティビティ/動作、係合)を捕えて、解析するために用いることができる。
本明細書に書かれた記述は、実施例を使用して最良の形態を含んで実施形態を開示し、更に、いかなる装置またはシステムも製作し使用して、いかなる統合された方法も実行することを含んで、いかなる当業者も開示された主題を実施することができるようにする。主題の特許され得る範囲は、請求項によって定義されて、当業者に見出される他の実施例を含むことができる。そのような他の実施例は、それらが請求項の文字通りの言葉と異ならない構造要素を有する場合、または、それらが請求項の文字通りの言葉と実質的に異ならない等価な構造要素を含む場合、請求項の範囲内にあるということを意図するものである。
10 社会的挙動認識システム
12 カメラ
14 人々
16 拘束を受けない環境
18 クラウドベースのコンピューティングシステム
20 コンピューティング装置
22 サーバ
24 メモリ
26 データベース
28 プロセッサ
30 通信コンポーネント
70 データシミュレータ
72 データ収集装置
74 兆候ジェネレータバンクビルダ
76 ビデオ解析ストリームビジュアライザ
78 兆候ジェネレータバンクビジュアライザ

Claims (20)

  1. 環境(16)内の1つまたは複数のカメラ(12)からデータを受信することと、
    前記データから作成される1つまたは複数のビデオ解析ストリームのメタデータを生成することと、
    前記メタデータに基づいて1つまたは複数の時系列の値を生成することと、
    前記1つまたは複数の時系列に対する1つまたは複数の情動スコアを生成することと、
    前記1つまたは複数の情動スコアに基づいて観察された挙動を代表する第1のシグネチャを生成することと、
    前記第1のシグネチャが照会挙動を表す第2のシグネチャと一致するか否かを判定することによって、ペアによる照合を実行することと、
    前記第1のシグネチャが前記第2のシグネチャと一致するときに措置を実行することと
    を含む方法。
  2. 前記照会挙動のインスタンスの単一の観察だけが取得された後、前記ペアによる照合が実行される、請求項1記載の方法。
  3. ペアによる照合が、以下の式、
    に従って、ペアによる一致スコアを導出することを含み、ここにおいて、dは距離尺度であり、bは観察された挙動であり、sgは兆候ジェネレータであり、nは兆候ジェネレータの数であり、そして、wは各兆候ジェネレータと関連した加重である、請求項1記載の方法。
  4. 前記1つまたは複数のカメラ(12)が、位置および関節体動作の推定を捕える赤、緑、青、深度(RGB−D)カメラ(12)、および顔の画像を捕える固定カメラ(12)とパンチルトズーム(PTZ)カメラ(12)を含む、請求項1記載の方法。
  5. 前記ビデオ解析ストリームが、サイト座標における個人の位置、前記個人の動作シグネチャ、前記個人の表情プロファイル、前記個人の凝視方向、またはいくつかのそれらの組み合わせにコード化する、人ディスクリプタのセットを含む、請求項1記載の方法。
  6. 前記ビデオ解析ストリームが、
    前記1つまたは複数のカメラ(12)を介して個人を追尾することと、
    時空関心ポイントに基づいて各個人のための動作シグネチャを生成することと、
    前記1つまたは複数のカメラ(12)を使用して顔の画像を捕えることと、
    前記顔の画像に基づいて顔の表情および凝視方向を推定することと
    によって作成される、請求項1記載の方法。
  7. 前記時系列の前記値が、0から1までの範囲である、請求項1記載の方法。
  8. 前記1つまたは複数の情動スコアが、0から1までの範囲である、請求項1記載の方法。
  9. 前記メタデータの前記生成、前記1つまたは複数の時系列の値、前記1つまたは複数の情動スコアおよび前記シグネチャは、兆候ジェネレータバンクモジュールによって実行される、請求項1記載の方法。
  10. 前記第1のシグネチャが前記第2のシグネチャと一致するときに、アラームを鳴らすこと、救急サービスを呼ぶこと、アラートを起動すること、メッセージを送信すること、アラートを表示することまたはそれらのいくつかの組み合わせを含む前記措置を実行する、請求項1記載の方法。
  11. 肯定的な一致として分類される挙動のペアおよび否定的な一致として分類される挙動のペアの訓練セット上で機械学習を実行することによって、前記1つまたは複数の情動スコアを生成するために用いる加重を決定することを含む、請求項1記載の方法。
  12. 1つまたは複数のプロセッサ(28)により実行されると、1つまたは複数の前記プロセッサ(28)に、
    環境内の1つまたは複数のカメラ(12)からデータを受信させ、
    前記データから作成される1つまたは複数のビデオ解析ストリームのメタデータを生成させ、
    前記メタデータに基づいて1つまたは複数の時系列の値を生成させ、
    前記1つまたは複数の時系列に対する1つまたは複数の情動スコアを生成させ、
    前記1つまたは複数の情動スコアに基づいて、観察された挙動を代表する第1のシグネチャを生成させ、
    前記第1のシグネチャが照会挙動を表す第2のシグネチャと一致するか否かを判定することによって、ペアによる照合を実行させ、
    前記第1のシグネチャが前記照会挙動を表す前記第2のシグネチャと一致するときに出力を提供させる、
    コンピュータ命令を格納する、1つまたは複数の有形の非一時的コンピュータ可読媒体。
  13. 前記ペアによる照合が、前記照会挙動のインスタンスの単一の観察だけが取得された後に実行される、請求項12記載の1つまたは複数のコンピュータ可読媒体。
  14. 前記コンピュータ命令が、前記1つまたは複数のプロセッサ(28)に、
    前記1つまたは複数のカメラ(12)を介して個人を追尾することと、
    時空関心ポイントに基づいて各個人に対する動作シグネチャを生成することと、
    前記1つまたは複数のカメラ(12)を使用して顔の画像を捕えることと、
    前記顔の画像に基づいて顔の表情および凝視方向を推定することと
    によって、前記ビデオ解析ストリームを作成させる、請求項12記載の1つまたは複数のコンピュータ可読媒体。
  15. ペアによる照合が、以下の式、
    に従って導出されるペアによる照合スコアを含み、ここにおいて、dは距離尺度であり、bは観察された挙動であり、sgは兆候ジェネレータであり、nは兆候ジェネレータの数であり、そして、wは各兆候ジェネレータと関連した加重である、請求項12記載の1つまたは複数のコンピュータ可読媒体。
  16. 前記時系列の前記値は0から1までの範囲であり、前記1つまたは複数の情動スコアは0から1までの範囲である、請求項12記載の1つまたは複数のコンピュータ可読媒体。
  17. 環境(16)内の1人または複数の個人の挙動に関連したデータを捕える1つまたは複数のカメラ(12)と、
    1つまたは複数のコンピューティング装置(20)であって、
    前記1つまたは複数のカメラ(12)から前記データを受け取り、
    前記1人または複数の個人の観察された挙動が照会挙動と一致するか否かを判定するために前記データを使用してワンショット学習を実行し、そこにおいて、ワンショット学習は、前記照会挙動のインスタンスの単一の観察だけが取得された後に実行される、ペアによる照合を実行することを含み、
    前記観察された挙動が前記照会挙動と一致すると、措置を実行する、
    1つまたは複数のプロセッサ(28)を含む、前記1つまたは複数のコンピューティング装置(20)と
    を含むシステム(10)。
  18. 前記1つまたは複数のカメラ(12)が、位置および関節体動作の評価を捕える赤、緑、青、深度(RGB−D)カメラ(12)、ならびに顔の画像を捕える固定カメラ(12)およびパンチルトズーム(PTZ)カメラ(12)を含む、請求項17記載のシステム(10)。
  19. 前記1つまたは複数のコンピューティング装置(20)が、スマートフォン、スマートウォッチ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、クラウドベースのコンピューティングシステムのサーバ(22)またはいくつかのそれらの組み合わせを含む、請求項17記載のシステム(10)。
  20. 前記措置が、アラームを鳴らすこと、救急サービスを呼ぶこと、アラートを起動すること、メッセージを送信すること、アラートを表示することまたはそれらのいくつかの組み合わせを含む、請求項17記載のシステム(10)。
JP2017183113A 2016-12-06 2017-09-25 ワンショット学習を通じた群衆解析 Pending JP2018124972A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/370,746 US10445565B2 (en) 2016-12-06 2016-12-06 Crowd analytics via one shot learning
US15/370,746 2016-12-06

Publications (1)

Publication Number Publication Date
JP2018124972A true JP2018124972A (ja) 2018-08-09

Family

ID=60019734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017183113A Pending JP2018124972A (ja) 2016-12-06 2017-09-25 ワンショット学習を通じた群衆解析

Country Status (5)

Country Link
US (1) US10445565B2 (ja)
EP (1) EP3333762A1 (ja)
JP (1) JP2018124972A (ja)
CN (1) CN108154075A (ja)
CA (1) CA2980609A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095357A (ja) * 2018-12-10 2020-06-18 トヨタ自動車株式会社 行動監視装置、行動監視システム、及び行動監視プログラム
JP2021111401A (ja) * 2020-01-10 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ビデオ時系列動作の検出方法、装置、電子デバイス、プログラム及び記憶媒体

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
WO2019012527A1 (en) 2017-07-09 2019-01-17 Cortica Ltd. ORGANIZATION OF DEPTH LEARNING NETWORKS
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US11270132B2 (en) 2018-10-26 2022-03-08 Cartica Ai Ltd Vehicle to vehicle communication and signatures
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US12055408B2 (en) 2019-03-28 2024-08-06 Autobrains Technologies Ltd Estimating a movement of a hybrid-behavior vehicle
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US10748022B1 (en) * 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
CN111104915B (zh) * 2019-12-23 2023-05-16 云粒智慧科技有限公司 一种同行分析方法、装置、设备和介质
US11080560B2 (en) 2019-12-27 2021-08-03 Sap Se Low-shot learning from imaginary 3D model
US10990848B1 (en) 2019-12-27 2021-04-27 Sap Se Self-paced adversarial training for multimodal and 3D model few-shot learning
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US12049116B2 (en) 2020-09-30 2024-07-30 Autobrains Technologies Ltd Configuring an active suspension
US12110075B2 (en) 2021-08-05 2024-10-08 AutoBrains Technologies Ltd. Providing a prediction of a radius of a motorcycle turn

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005348872A (ja) * 2004-06-09 2005-12-22 Nippon Hoso Kyokai <Nhk> 感情推定装置及び感情推定プログラム
JP2006092396A (ja) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd 単独行動者及びグループ行動者検知装置
US20100145695A1 (en) * 2008-12-08 2010-06-10 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
JP2012230686A (ja) * 2007-02-08 2012-11-22 Behavioral Recognition Systems Inc 挙動認識システム
JP2015122118A (ja) * 2015-03-19 2015-07-02 綜合警備保障株式会社 部位認識装置、部位認識方法、及び部位認識プログラム
JP2015184764A (ja) * 2014-03-20 2015-10-22 ヤフー株式会社 行動予測装置、行動予測方法、及び行動予測プログラム
JP2016149063A (ja) * 2015-02-13 2016-08-18 オムロン株式会社 感情推定装置及び感情推定方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5479523A (en) 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
KR100442835B1 (ko) 2002-08-13 2004-08-02 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
US20050047647A1 (en) 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
WO2008033439A2 (en) 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US8195499B2 (en) * 2007-09-26 2012-06-05 International Business Machines Corporation Identifying customer behavioral types from a continuous video stream for use in optimizing loss leader merchandizing
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
US8548192B2 (en) * 2008-05-22 2013-10-01 Yuvad Technologies Co., Ltd. Method for extracting a fingerprint data from video/audio signals
JP4623199B2 (ja) * 2008-10-27 2011-02-02 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
US20100208063A1 (en) * 2009-02-19 2010-08-19 Panasonic Corporation System and methods for improving accuracy and robustness of abnormal behavior detection
EP2259215B1 (en) 2009-06-04 2016-08-10 Honda Research Institute Europe GmbH Method and structure for a neural associative memory based on optimal Bayesian learning
CN101667245B (zh) 2009-09-25 2011-08-24 西安电子科技大学 基于支持向量新颖检测分类器级联的人脸检测方法
EP2684145A4 (en) * 2011-03-07 2014-09-03 Kba2 Inc SYSTEMS AND METHOD FOR ANALYTICAL DATA ACQUISITION OF IMAGE PROVIDERS ON THE BASIS OF AN EVENT OR GEOGRAPHICAL LOCATION
JP5645079B2 (ja) * 2011-03-31 2014-12-24 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
US9062978B2 (en) * 2011-05-31 2015-06-23 Massachusetts Institute Of Technology Tracking a body by nonlinear and non-Gaussian parametric filtering
EP2538388B1 (en) * 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US9384448B2 (en) * 2011-12-28 2016-07-05 General Electric Company Action-based models to identify learned tasks
US9805143B2 (en) * 2013-01-25 2017-10-31 International Business Machines Corporation Composite simulation modeling and analysis
JP6125670B2 (ja) * 2013-03-15 2017-05-10 インテル コーポレイション 収集された生物物理的信号の時間的パターンおよび空間的パターンに基づく脳‐コンピューターインターフェース(bci)システム
GB201305812D0 (en) * 2013-03-28 2013-05-15 Univ Warwick Gesture tracking and classification
US9955124B2 (en) * 2013-06-21 2018-04-24 Hitachi, Ltd. Sensor placement determination device and sensor placement determination method
US10335091B2 (en) * 2014-03-19 2019-07-02 Tactonic Technologies, Llc Method and apparatus to infer object and agent properties, activity capacities, behaviors, and intents from contact and pressure images
US9945928B2 (en) 2014-10-30 2018-04-17 Bastille Networks, Inc. Computational signal processing architectures for electromagnetic signature analysis
US9639770B2 (en) * 2015-03-26 2017-05-02 Konica Minolta Laboratory U.S.A., Inc. System and method for improving communication productivity
JP6671248B2 (ja) * 2016-06-08 2020-03-25 株式会社日立製作所 異常候補情報分析装置
US10216983B2 (en) * 2016-12-06 2019-02-26 General Electric Company Techniques for assessing group level cognitive states

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005348872A (ja) * 2004-06-09 2005-12-22 Nippon Hoso Kyokai <Nhk> 感情推定装置及び感情推定プログラム
JP2006092396A (ja) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd 単独行動者及びグループ行動者検知装置
JP2012230686A (ja) * 2007-02-08 2012-11-22 Behavioral Recognition Systems Inc 挙動認識システム
US20100145695A1 (en) * 2008-12-08 2010-06-10 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
JP2010134937A (ja) * 2008-12-08 2010-06-17 Korea Electronics Telecommun 状況認知装置およびこれを用いた状況認知方法
JP2015184764A (ja) * 2014-03-20 2015-10-22 ヤフー株式会社 行動予測装置、行動予測方法、及び行動予測プログラム
JP2016149063A (ja) * 2015-02-13 2016-08-18 オムロン株式会社 感情推定装置及び感情推定方法
JP2015122118A (ja) * 2015-03-19 2015-07-02 綜合警備保障株式会社 部位認識装置、部位認識方法、及び部位認識プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095357A (ja) * 2018-12-10 2020-06-18 トヨタ自動車株式会社 行動監視装置、行動監視システム、及び行動監視プログラム
JP7115277B2 (ja) 2018-12-10 2022-08-09 トヨタ自動車株式会社 行動監視装置、行動監視システム、及び行動監視プログラム
JP2021111401A (ja) * 2020-01-10 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ビデオ時系列動作の検出方法、装置、電子デバイス、プログラム及び記憶媒体
JP7059508B2 (ja) 2020-01-10 2022-04-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ビデオ時系列動作の検出方法、装置、電子デバイス、プログラム及び記憶媒体
US11600069B2 (en) 2020-01-10 2023-03-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for detecting temporal action of video, electronic device and storage medium

Also Published As

Publication number Publication date
CA2980609A1 (en) 2018-06-06
US20180157903A1 (en) 2018-06-07
CN108154075A (zh) 2018-06-12
EP3333762A1 (en) 2018-06-13
US10445565B2 (en) 2019-10-15

Similar Documents

Publication Publication Date Title
JP2018124972A (ja) ワンショット学習を通じた群衆解析
US10216983B2 (en) Techniques for assessing group level cognitive states
JP7083809B2 (ja) プライバシーの保護を伴う人物の識別しおよび/または痛み、疲労、気分、および意図の識別および定量化のためのシステムおよび方法
US11080533B2 (en) Surveillance system with human behavior prediction by human action recognition
JP6977730B2 (ja) 人流推定装置、人流推定方法およびプログラム
Phadnis et al. Objects talk-object detection and pattern tracking using tensorflow
US10366595B2 (en) Surveillance method and system based on human behavior recognition
CN109165685B (zh) 基于表情和动作的监狱服刑人员潜在性风险监测方法和系统
Poonsri et al. Fall detection using Gaussian mixture model and principle component analysis
Poonsri et al. Improvement of fall detection using consecutive-frame voting
US11216704B2 (en) Recognition system using multimodality dataset
Taylor et al. Robot perception of human groups in the real world: State of the art
Gomes et al. Multi-human fall detection and localization in videos
Dotti et al. Behavior and personality analysis in a nonsocial context dataset
Ahad Vision and sensor-based human activity recognition: challenges ahead
Dhiraj et al. Activity recognition for indoor fall detection in 360-degree videos using deep learning techniques
Rack et al. Comparison of data encodings and machine learning architectures for user identification on arbitrary motion sequences
Zhao et al. Abnormal behavior detection based on dynamic pedestrian centroid model: Case study on u-turn and fall-down
JP7306152B2 (ja) 感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システム
Rothmeier et al. Comparison of Machine Learning and Rule-based Approaches for an Optical Fall Detection System
Lin et al. A network for detecting facial features during the COVID-19 epidemic
Takač et al. People identification for domestic non-overlapping rgb-d camera networks
Tharali et al. Violence detection using embedded GPU
Borja et al. A compilation of methods and datasets for group and crowd action recognition
Chiranjeevi et al. Surveillance Based Suicide Detection System Using Deep Learning

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220607