JP2023098482A - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP2023098482A
JP2023098482A JP2021215274A JP2021215274A JP2023098482A JP 2023098482 A JP2023098482 A JP 2023098482A JP 2021215274 A JP2021215274 A JP 2021215274A JP 2021215274 A JP2021215274 A JP 2021215274A JP 2023098482 A JP2023098482 A JP 2023098482A
Authority
JP
Japan
Prior art keywords
person
behavior
relationship
video data
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021215274A
Other languages
English (en)
Inventor
厚憲 茂木
Atsunori Mogi
由枝 木村
Yoshie Kimura
淳哉 斎藤
Junya Saito
琢麿 山本
Takuma Yamamoto
孝広 齊藤
Takahiro Saito
克久 中里
Katsuhisa Nakazato
英生 谷田
Hideo Tanida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021215274A priority Critical patent/JP2023098482A/ja
Priority to EP22196320.0A priority patent/EP4207107A1/en
Priority to US17/959,461 priority patent/US20230206641A1/en
Publication of JP2023098482A publication Critical patent/JP2023098482A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

【課題】映像データから事前に対策が必要な状況を検出することを課題とする。【解決手段】情報処理装置は、人物と物体を含む対象物を有する映像データを取得し、記憶部に記憶された各対象物の関係を示すグラフデータを用いて、取得した映像データの中の各対象物のそれぞれの関係性を特定する。情報処理装置は、取得した映像データに含まれる人物の特徴量を用いて、映像データの中の人物の行動を特定する。情報処理装置は、特定した人物の行動と、特定した関係性とを、予め設定された行動予測ルールと比較することで、人物の今後の行動または状態を予測する。【選択図】図2

Description

本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。
映像データから人の行動を認識する行動認識技術が知られている。例えば、カメラなどにより撮像された映像データから、映像データ内の人物の骨格情報を用いて、人物が行った動作や行動を認識する技術が知られている。近年では、スーパーマーケットやコンビニエンスストアへのセルフレジの普及や、学校、電車、公共施設などの監視カメラの普及などに伴い、人物の行動認識の導入が進んでいる。
国際公開第2019/049216号
しかしながら、上記行動認識技術により認識された人物の行動とは、人物が現在または過去に行った行動を示している。従って、人物が所定の行動を行ったことを認識した後に、対策を講じても手遅れであることがある。
一つの側面では、映像データから事前に対策が必要な状況を検出することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
第1の案では、情報処理プログラムは、人物と物体を含む対象物を有する映像データを取得し、記憶部に記憶された各対象物の関係を示すグラフデータを用いて、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、特定した前記人物の行動と、特定した前記関係性とを、予め設定された行動予測ルールと比較することで、前記人物の今後の行動または状態を予測する、処理をコンピュータに実行させる。
一実施形態によれば、映像データから事前に対策が必要な状況を検出することができる。
図1は、実施例1にかかる行動予測システムの全体構成例を示す図である。 図2は、実施例1にかかる行動予測を実現する情報処理装置を説明する図である。 図3は、行動予測の具体例を説明する図である。 図4は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。 図5は、シーングラフの一例を示す図である。 図6は、表情認識ルールの一例を示す図である。 図7は、上位行動特定ルールの一例を示す図である。 図8は、行動予測ルールの一例を示す図である。 図9は、人と物の関係性を示すシーングラフの生成例を説明する図である。 図10は、人と人の関係性を示すシーングラフの生成例を説明する図である。 図11は、骨格認識モデルの生成を説明する図である。 図12は、表情認識モデルの生成例を説明する図である。 図13は、カメラの配置例を示す図である。 図14は、マーカの移動について説明する図である。 図15は、上位行動特定ルールの生成例を説明する図である。 図16は、関係性の特定を説明する図である。 図17は、人物の現行動の具体的な特定例を説明する図である。 図18は、人物の現行動の特定の別例を説明する図である。 図19は、人物の行動予測を説明する図である。 図20は、行動予測処理の流れを示すフローチャートである。 図21は、人と物に関連する行動予測を適用したソリューション例を説明する図である。 図22は、人と人に関連する行動予測を適用したソリューション例を説明する図である。 図23は、ハードウェア構成例を説明する図である。
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
<全体構成>
図1は、実施例1にかかる行動予測システムの全体構成例を示す図である。図1に示すように、この行動予測システムは、空間の一例である店舗1と、それぞれが店舗1内の異なる場所に設置された複数のカメラ2と、映像データの解析を実行する情報処理装置10とを有する。
複数のカメラ2それぞれは、店舗1内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置10に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数のフレームが含まれる。各フレームには、時系列の昇順に、フレーム番号が付与される。1つのフレームは、カメラ2があるタイミングで撮影した静止画像の画像データである。
情報処理装置10は、複数のカメラ2それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ2それぞれと情報処理装置10とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。
近年、店舗1内に限らず、街中、駅のホームなどにも監視カメラが設定されるようになっており、監視カメラで取得された映像データを用いて、安心安全な社会を目指す様々なサービスが提供されている。例えば、万引きの発生、事故の発生、飛び降り自殺の発生などを検出して、事後処理に役立てるサービスなどが提供されつつある。しかし、現状提供されるいずれのサービスも事後検知であり、万引きの兆候、不審者の可能性、病気の発作の兆候、認知症やアルツハイマー症などの一見では判断が難しい兆候など、未然抑止という観点では、映像データを有効的に活用できているとは言い難い。
そこで、実施例1では、現在の人の表情や行動を分析する「行動分析」と、周辺環境や物、それらの関係性を検出する「コンテキストセンシング」とを組み合わせて、将来の人の行動や内面を予測する「行動予測」を実現する情報処理装置10について説明する。
図2は、実施例1にかかる行動予測を実現する情報処理装置10を説明する図である。図2に示すように、情報処理装置10は、映像データに対して、関係性の特定と人物の行動認識とを実行し、特定された関係性および認識された行動を用いて、人物の行動予測を実行する。
具体的には、情報処理装置10は、人物と物体を含む対象物を有する映像データを取得する。そして、情報処理装置10は、記憶部に記憶された各対象物の関係を示すグラフデータを用いて、映像データの中の各対象物のそれぞれの関係性を特定する。一方で、情報処理装置10は、映像データに含まれる人物の特徴量を用いて、映像データの中の人物の現行動を特定する。その後、情報処理装置10は、特定した人物の現行動と、特定した関係性とを、予め設定された行動予測ルールと比較することで、万引きの予兆などの人物の今後の行動またはアルツハイマーなどの人物の状態を予測する。
例えば、図2に示すように、情報処理装置10は、映像データに含まれる人物の種類、物体の種類などを特定し、特定した情報を用いて、各種関係性を予め定めたシーングラブなどのグラフデータを検索することで、人と人の関係性または人と物の関係性を特定する。
また、情報処理装置10は、行動分析器と表情分析器とを用いて人物の現在の行動認識を実行する。具体的には、行動分析器は、訓練済みの骨格認識モデルに映像データを入力して、特徴量の一例である人物の骨格情報を取得する。表情認識器は、訓練済みの表情認識モデルに映像データを入力して、特徴量の一例である人物の表情情報を取得する。そして、情報処理装置10は、予め定められた行動特定ルールを参照し、特定された人物の骨格情報と表情情報との組合せに該当する人物の現在の行動を認識する。
その後、情報処理装置10は、人物の行動と関係性との組み合わせ毎に人物の今後の行動が対応付けられたルールの一例である行動予測ルールを参照し、人と人の関係性または人と物の関係性と、人物の現在の行動との組合せに該当する人物の今後の行動を予測する。
ここで、情報処理装置10が予測する行動は、短期的な予測から長期的な予測を実行することができる。図3は、行動予測の具体例を説明する図である。図3に示すように、情報処理装置が予測する行動予測には、購買行動や万引きなどのように人物の外見で判断できる「行動」に限らず、疾患などのように人物の外見では判断が難しく、人物の内面の影響を受ける「感情」および「状態」が含まれる。
具体的には、情報処理装置10は、数秒から数分先の超短期的な予測として、「ロボットによる人間支援」や「オンラインコミュニケーション支援」などの発生や必要性などを予測する。情報処理装置10は、数時間先の短期的な予測として、「店舗における購買行動」、「万引きやストーキングなどの犯罪」、「自殺行為」などの突発的な事象や現在の行動場所からの移動量が少ない事象の発生などを予測する。情報処理装置10は、数日先の中期的な予測として、「交番襲撃」や「家庭内暴力」などの計画的な犯罪の発生などを予測する。情報処理装置10は、数か月先の超器的な予測として、「勉強や売り上げなどの成績向上」や「アルツハイマーなどの疾患予測」などの見た目では分からない潜在的な事象(状態)の発生などを予測する。
このように、情報処理装置10は、映像データから事前に対策が必要な状況を検出することができ、安心安全な社会を目指すサービスの提供を実現することができる。
<機能構成>
図4は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図4に示すように、情報処理装置10は、通信部11、記憶部20、制御部30を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、各カメラ2から映像データなどを受信し、情報処理装置10の処理結果などを、予め指定された装置等に出力する。
記憶部20は、各種データや制御部30が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部20は、映像データDB21、訓練データDB22、グラフデータDB23、骨格認識モデル24、表情認識モデル25、表情認識ルール26、上位行動特定ルール27、行動予測ルール28を記憶する。
映像データDB21は、店舗1に設置される複数のカメラ2それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データDB16は、カメラ2ごと、または、撮像された時間帯ごとに、映像データを記憶する。
訓練データDB22は、グラフデータや、骨格認識モデル24、表情認識モデル25などの各種機械学習モデルの生成に用いられる各種訓練データを記憶するデータベースである。ここで記憶される訓練データは、正解情報が付加された教師ありの訓練データや、正解情報が付加されていない教師なしの訓練データが含まれる。
グラフデータDB23は、映像データに含まれる各対象物の関係を示すグラフデータの一例であるシーングラフを記憶するデータベースである。具体的には、グラフデータDB23は、人と人の関係性および/または人と物の関係性が定義されるシーングラフを記憶する。すなわち、シーングラフは、映像データ内の各画像データに含まれる各物体(人物や商品など)と、各物体間の関係性が記述されるグラフデータである。
図5は、シーングラフの一例を示す図である。図5に示すように、シーングラフは、画像データに写るオブジェクトをノードとし、各ノードは属性(例えばオブジェクトの種類)を有し、ノード間に関係する関係性を有向エッジとする有向グラフである。図5の例では、属性「店員」のノード「人」から属性「客」のノード「人」への関係性「話す」であることが示されている。すなわち、「店員が客と話す」の関係を有することが定義される。また、属性「客」のノード「人」から属性「大型」のノード「商品」への関係性「立つ」であることが示されている。すなわち、「客が大型商品の商品棚の前に立つ」の関係を有することが定義される。
ここで示した関係性は、あくまで一例である。例えば、「持つ」などの単純な関係性に限らず、「商品Aを右手に持つ」、「前を歩く人をストーキングしている」、「後ろを気にしている」などの複雑な関係性が含まれる。なお、グラフデータDB23は、人と人の関係性に対応するシーングラフと、人と物の関係性に対応するシーングラフのそれぞれを記憶してもよく、各関係性を含む1つのシーングラフを記憶してもよい。また、シーングラフは、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
骨格認識モデル24は、人物の特徴量の一例である骨格情報を生成する第一の機械学習モデルの一例である。具体的には、骨格認識モデル24は、画像データの入力に応じて、2次元の骨格情報を出力する。例えば、骨格認識モデル24は、人物の2次元画像データに対して、頭、手首、腰、足首などの2次元の関節位置(骨格座標)を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。
この骨格認識モデル24を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。基本となる動作とは、例えば歩く、走る、止まるなどである。ユーザが定義したルールとは、商品を手に取るまでの各行動に該当する骨格情報の遷移などである。なお、骨格認識モデル24は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
表情認識モデル25は、人物の特徴量の一例である表情に関する表情情報を生成する第二の機械学習モデルの一例である。具体的には、表情認識モデル25は、表情を顔の部位と表情筋に基づいて分解して定量化する手法であるAU(Action Unit:アクションユニット)を推定する機械学習モデルである。この表情認識モデル25は、画像データの入力に応じて、表情を特定するために設定されるAU1からAU28の各AUの発生強度(例えば5段階評価)で表現した「AU1:2、AU2:5、AU4:1、・・・」のような表情認識結果を出力する。なお、表情認識モデル25は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
表情認識ルール26は、表情認識モデル25の出力結果を用いて表情を認識するためのルールである。図6は、表情認識ルール26の一例を示す図である。図6に示すように、表情認識ルール26は、「表情」と「推定結果」を対応付けて記憶する。「表情」は、認識対象の表情であり、「推定結果」は、各表情に該当するAU1からAU28の各AUの強度である。図6の例では、「AU1が強度2、AU2が強度5、AU3が強度0・・・」の場合は表情「笑顔」と認識されることを示している。なお、表情認識ルール26は、管理者等により予め登録されたデータである。
上位行動特定ルール27は、人物の現在の行動を特定するためのルールである。図7は、上位行動特定ルール27の一例を示す図である。図7に示すように、上位行動特定ルール27は、現在の行動と、現在の行動を特定するために実行される要素行動の遷移とを対応付けたルールである。
図7の例では、要素行動B、要素行動A、要素行動P、要素行動Jが順に行われた場合に、現在の行動XXと特定することが定義されている。例えば、現在の行動XXとは「商品Aに関心ある行動」であり、要素行動Bとは「立ち止まる」、要素行動Aとは「商品Aを眺める」、要素行動Pとは「商品Aを手に取る」、要素行動Jとは「商品Aをカゴに入れる」などである。
また、各要素行動には、基本動作と表情とが対応付けられる。例えば、要素行動Bに対して、基本動作について「時刻t1から時刻t3の間の時系列パターンとして、全身の基本動作が基本動作02、03、03に遷移、かつ、右腕の基本動作が基本動作27、25、25に遷移、かつ、顔の基本動作が基本動作48、48、48に遷移する」こと、かつ、表情について「時刻t1から時刻t3の間の時系列パターンとして、表情Hが継続する」ことが定義されている。
なお、基本動作02などの表記は、説明上、各基本動作を識別する識別子で表記したものであり、例えば立ち止まる、腕を上げる、しゃがむなどが該当する。同様に、表情Hなどの表記は、説明上、各表情を識別する識別子で表記したものであり、例えば笑顔、怒り顔などが該当する。なお、上位行動特定ルール27は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
行動予測ルール28は、人物の行動と関係性との組み合わせ毎に人物の今後の行動が対応付けられたルールの一例である。図8は、行動予測ルール28の一例を示す図である。図8に示すように、行動予測ルール28には、現在の行動と関係性との組合せごとに、将来の行動予測の内容が定義される。
図8の例では、現在の行動が「商品Aを手にしている」かつ関係性が「持つ」である場合に、「以後10分後の商品Aを購入する」と予測されることが示されている。また、現在の行動が「商品Aを手にしている」かつ関係性が「かごにいれる」である場合に、「食品売り場へ移動する」と予測されることが示されている。また、現在の行動が「後をつける」かつ関係性が「ストーキング」である場合に、「相手を襲う」と予測されることが示されている。なお、行動予測ルール28は、過去の履歴等を用いて管理者等により生成される。
図4に戻り、制御部30は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部30は、事前処理部40と運用処理部50を有する。なお、事前処理部40と運用処理部50は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
<事前処理部40>
事前処理部40は、行動予測の運用に先立って、記憶部20に記憶される訓練データを用いて、各モデルやルールなどの生成を実行する処理部である。事前処理部40は、グラフ生成部41、骨格認識モデル生成部42、表情認識モデル生成部43、ルール生成部44を有する。
(シーングラフの生成)
グラフ生成部41は、グラフデータDB23に格納するシーングラフを生成する処理部である。具体的には、グラフ生成部41は、画像データに対して人物認識や物体認識などを行う認識モデルを用いて、人と人の関係性を示すシーングラフや人と物の関係性を示すシーングラフを生成する。
図9は、人と物の関係性を示すシーングラフの生成例を説明する図である。図9に示すように、グラフ生成部41は、画像データを認識モデルに入力し、認識モデルの出力結果として、ラベル「人(男性)」、ラベル「飲み物(緑)」、関係「持つ」を取得する。つまり、グラフ生成部41は、「男性が緑の飲み物を持っている」ことを取得する。この結果、グラフ生成部41は、属性「男性」を有するノード「人」から、属性「緑」を有するノード「飲み物」への関係性「持つ」を関係づけるシーングラフを生成する。
図10は、人と人の関係性を示すシーングラフの生成例を説明する図である。図10に示すように、グラフ生成部41は、画像データを認識モデルに入力し、認識モデルの出力結果として、ラベル「人(男性)」、ラベル「人(女性)」、関係「話す」を取得する。つまり、グラフ生成部41は、「男性が女性に話しかけている」ことを取得する。この結果、グラフ生成部41は、属性「不審者」のノード「人」から属性「女性」のノード「人」への関係性「近づく」を有するシーングラフに対して、属性「男性」を有するノード「人」から属性「女性」を有するノード「人」への関係性「話す」を追加する。
なお、シーングラフの生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。
(骨格認識モデル24の生成)
骨格認識モデル生成部42は、訓練データを用いて、骨格認識モデル24の生成を実行する処理部である。具体的には、骨格認識モデル生成部42は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、骨格認識モデル24を生成する。
図11は、骨格認識モデル24の生成を説明する図である。図11に示すように、骨格認識モデル生成部42は、基本動作のラベルが付与された基本動作の画像データを骨格認識モデル24に入力し、骨格認識モデル24の出力結果とラベルとの誤差が小さくなるように、骨格認識モデル24の機械学習を実行する。例えば、骨格認識モデル24は、ニューラルネットワークである。骨格認識モデル生成部42は、骨格認識モデル24の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。骨格認識モデル24は、画像データ(例えば基本動作の動作をしている人物の画像データ)である説明変数をニューラルネットワークに入力する。そして、骨格認識モデル24は、ニューラルネットワークが出力する出力結果と、基本動作のラベルである正解データとの誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。
なお、訓練データとしては、「ラベル」として「歩く」、「走る」、「止まる」、「立つ」、「棚の前に立つ」、「商品を取る」、「首を右に回す」、「首を左に回す」、「上を向く」、「頭を下に傾ける」などが付加された各画像データを用いることができる。なお、骨格認識モデル24の生成は、あくまで一例であり、他の手法を用いることができる。また、骨格認識モデル24としては、特開2020-71665号公報、特開2020-77343号公報に開示される行動認識を用いることもできる。
(表情認識モデル25の生成)
表情認識モデル生成部43は、訓練データを用いて、表情認識モデル25の生成を実行する処理部である。具体的には、表情認識モデル生成部43は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、表情認識モデル25を生成する。
ここで、図12から図14を用いて、表情認識モデル25の生成を説明する。図12は、表情認識モデル25の生成例を説明する図である。図12に示すように、表情認識モデル生成部43は、RGB(Red、Green、Blue)カメラ25a、IR(infrared:赤外線)カメラ25bのそれぞれにより撮像された画像データに対して、訓練データの生成および機械学習を実行する。
図12に示すように、まず、RGBカメラ25a及びIRカメラ25bは、マーカが付された人物の顔に向けられる。例えば、RGBカメラ25aは一般的なデジタルカメラであり、可視光を受光し画像を生成する。また、例えば、IRカメラ25bは、赤外線を感知する。また、マーカは、例えばIR反射(再帰性反射)マーカである。IRカメラ25bは、マーカによるIR反射を利用してモーションキャプチャを行うことができる。また、以降の説明では、撮像対象の人物を被験者と呼ぶ。
訓練データの生成処理において、表情認識モデル生成部43は、RGBカメラ25aによって撮像された画像データ及びIRカメラ25bによるモーションキャプチャの結果を取得する。そして、表情認識モデル生成部43は、AUの発生強度121及び撮像画像データから画像処理によりマーカを削除した画像データ122を生成する。例えば、発生強度121は、各AUの発生強度をAからEの5段階評価で表現し、「AU1:2、AU2:5、AU4:1、…」のようにアノテーションが行われたデータであってもよい。
機械学習処理において、表情認識モデル生成部43は、訓練データの生成処理から出力された画像データ122及びAUの発生強度121を用いて機械学習を行い、画像データからAUの発生強度を推定するための表情認識モデル25を生成する。表情認識モデル生成部43は、AUの発生強度をラベルとして用いることができる。
ここで、図13を用いて、カメラの配置について説明する。図13は、カメラの配置例を示す図である。図13に示すように、複数のIRカメラ25bがマーカトラッキングシステムを構成していてもよい。その場合、マーカトラッキングシステムは、ステレオ撮影によりIR反射マーカの位置を検出することができる。また、複数のIRカメラ25bのそれぞれの間の相対位置関係は、カメラキャリブレーションによりあらかじめ補正されているものとする。
また、撮像される被験者の顔には、AU1からAU28をカバーするように、複数のマーカが付される。マーカの位置は、被験者の表情の変化に応じて変化する。例えば、マーカ401は、眉の根元付近に配置される。また、マーカ402及びマーカ403は、豊麗線の付近に配置される。マーカは、1つ以上のAU及び表情筋の動きに対応した皮膚の上に配置されてもよい。また、マーカは、しわの寄り等により、テクスチャ変化が大きくなる皮膚の上を避けて配置されてもよい。
さらに、被験者は、顔の輪郭外に基準点マーカが付された器具25cを装着する。被験者の表情が変化しても、器具25cに付された基準点マーカの位置は変化しないものとする。このため、表情認識モデル生成部43は、基準点マーカからの相対的な位置の変化により、顔に付されたマーカの位置の変化を検出することができる。また、基準マーカの数を3つ以上にすることで、表情認識モデル生成部43は、3次元空間におけるマーカの位置を特定することができる。
器具25cは、例えばヘッドバンドである。また、器具25cは、VRヘッドセット及び固い素材のマスク等であってもよい。その場合、表情認識モデル生成部43は、器具25cのリジッド表面を基準点マーカとして利用することができる。
なお、IRカメラ25b及びRGBカメラ25aによる撮影が行われる際、被験者は表情を変化させていく。これにより、時系列に沿って表情が変化していく様子を画像として取得することができる。また、RGBカメラ25aは、動画を撮像してもよい。動画は、時系列に並べられた複数の静止画とみなすことができる。また、被験者は、自由に表情を変化させてもよいし、あらかじめ定められたシナリオに沿って表情を変化させてもよい。
なお、AUの発生強度は、マーカの移動量により判定することができる。具体的には、表情認識モデル生成部43は、判定基準としてあらかじめ設定された位置と、マーカの位置との距離に基づいて算出したマーカの移動量を基に発生強度を判定することができる。
ここで、図14を用いて、マーカの移動について説明する。図14は、マーカの移動について説明する図である。図14の(a)、(b)、(c)は、RGBカメラ25aによって撮像された画像である。また、画像は、(a)、(b)、(c)の順で撮像されたものとする。例えば、(a)は、被験者が無表情であるときの画像である。表情認識モデル生成部43は、(a)の画像のマーカの位置を、移動量が0の基準位置とみなすことができる。図14に示すように、被験者は、眉を寄せるような表情を取っている。このとき、表情の変化に従い、マーカ401の位置は下方向に移動している。その際、マーカ401の位置と、器具25cに付された基準マーカとの間の距離は大きくなっている。
このようにして、表情認識モデル生成部43は、被験者のある表情が写った画像データと、その表情時の各マーカの強度とを特定し、説明変数「画像データ」、目的変数「各マーカの強度」とする訓練データを生成する。そして、表情認識モデル生成部43は、生成された訓練データを用いた教師あり学習により、表情認識モデル25を生成する。例えば、表情認識モデル25は、ニューラルネットワークである。表情認識モデル生成部43は、表情認識モデル25の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。表情認識モデル25は、説明変数をニューラルネットワークに入力する。そして、表情認識モデル25は、ニューラルネットワークから出力される出力結果と目的変数である正解データとの誤差が小さくなるようにニューラルネットワークのパラメータを変更した機械学習モデルを生成する。
なお、表情認識モデル25の生成は、あくまで一例であり、他の手法を用いることができる。また、表情認識モデル25としては、特開2021-111114号公報に開示される行動認識を用いることもできる。
(上位行動特定ルール27の生成)
図4に戻り、ルール生成部44は、過去の履歴等を用いて、上位行動特定ルール27を生成する処理部である。具体的には、ルール生成部44は、過去の様々な映像データから、人物がある行動を行うまでの動作および表情の遷移を特定することで、上位行動特定ルール27を生成する。
図15は、上位行動特定ルールの生成例を説明する図である。図15に示すように、ルール生成部44は、ある行動XXが行われた画像データから所定時間遡って、当該画像データに至るまでに取得された過去の複数の画像データを抽出する。そして、ルール生成部44は、遡って取得した過去の各画像データについて、学習済みのモデルや画像解析等を用いて基本動作と表情とを検出する。
その後、ルール生成部44は、行動XXに至るまでに検出された要素行動(基本動作の遷移および表情の遷移)の遷移を特定する。例えば、ルール生成部44は、要素行動Bとして、「時刻t1からt3の間における全身の基本動作の遷移、右腕の基本動作の遷移、顔の基本動作の遷移」と「時刻t1からt3の間における表情Hの継続」を特定する。また、ルール生成部44は、要素行動Aとして、「時刻t4からt7の間における右腕の基本動作の遷移および表情Hから表情Iへの変化」を特定する。
このようにして、ルール生成部44は、行動XXに至る要素行動の遷移として、要素行動B、要素行動A、要素行動P、要素行動Jの順を特定する。そして、ルール生成部44は、「行動XX」と「要素行動B、要素行動A、要素行動P、要素行動Jの遷移」とを対応付けた上位行動特定ルール27を生成して記憶部20に格納する。
なお、上位行動特定ルール27の生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。
<運用処理部50>
図4に戻り、運用処理部50は、取得部51、関係性特定部52、行動特定部53、行動予測部54を有し、事前処理部40により事前に準備された各モデルや各ルールを用いて、映像データに写る人物の将来の行動を予測する行動予測処理を実行する処理部である。
取得部51は、各カメラ2から映像データを取得して映像データDB21に格納する処理部である。例えば、取得部51は、各カメラ2から随時取得してもよく、定期的に取得してもよい。
(関係性の特定)
関係性特定部52は、グラフデータDB23に記憶されるシーングラフにしたがって、映像データに写る人物と人物との関係性、または、人物と物との関係性を特定する関係性特定処理を実行する処理部である。具体的には、関係性特定部52は、映像データに含まれるフレームごとに、フレームに写る人の種類や物の種類を特定し、特定した各情報を用いてシーングラフを検索して関係性を特定する。そして、関係性特定部52は、特定された関係性を、行動予測部54に出力する。
図16は、関係性の特定を説明する図である。図16に示すように、関係性特定部52は、フレーム1に対して、フレーム1を機械学習済みの機械学習モデルに入力して得られる結果やフレーム1に対する公知の画像解析により、フレーム1内の人の種類、物の種類、人物の人数などを特定する。例えば、関係性特定部52は、人の種類として、「人(客)」と「人(店員)」とを特定する。その後、関係性特定部52は、シーングラフにしたがって、属性「客」のノード「人」と、属性「店員」のノード「人」との関係性「店員が客と話す」を特定する。関係性特定部52は、フレーム2やフレーム3などの後続の各フレームについても上記関係性特定処理を実行することで、フレームごとに関係性「話す」、関係性「渡す」などを特定する。
(現在の行動の特定)
行動特定部53は、映像データから、人物の現在の行動を特定する処理部である。具体的には、行動特定部53は、映像データ内の各フレームに対して、骨格認識モデル24を用いて人物の各部位の骨格情報を取得するとともに、表情認識モデル25を用いて人物の表情を特定する。そして、行動特定部53は、各フレームに対して特定された人物の各部位の骨格情報および人物の表情を用いて、人物の行動を特定し、行動予測部54に出力する。
図17は、人物の現行動の具体的な特定例を説明する図である。図17に示すように、行動特定部53は、画像データであるフレーム1を骨格認識モデル24と表情認識モデル25に入力する。骨格認識モデル24は、フレーム1の入力に応じて各部位の骨格情報を生成し、各部位の骨格情報にしたがって各部位の動作を出力する。例えば、行動特定部53は、骨格認識モデル24を用いることで、「顔:正面を向く、腕:上げる、足:歩く、・・・」などの各部位の動作情報を取得できる。また、表情認識モデル25は、フレーム1の入力に応じて、表情認識結果として、AU1からAU28の各AUの発生強度「AU1:2、AU2:5、AU4:1、・・・」を出力する。そして、行動特定部53は、表情認識結果と表情認識ルール26とを照合し、表情「笑顔」などを特定する。
行動特定部53は、上記特定処理をフレーム2やフレーム3の後続の各フレームについても実行して、フレームごとに、フレームに写る人物の各部位の動作情報および表情を特定する。
そして、行動特定部53は、各フレームについて上記特定処理を行うことで、人物の各部位の動作の遷移および表情の遷移を特定する。その後、行動特定部53は、人物の各部位の動作の遷移および表情の遷移と、上位行動特定ルール27の各要素行動とを比較し、要素行動Bを特定する。
さらに、行動特定部53は、映像データから要素行動の特定を繰り返すことで、要素行動の遷移を特定する。そして、行動特定部53は、要素行動の遷移と、上位行動特定ルール27とを比較することで、映像データに写る人物の現行動XXを特定することができる。
なお、図17の例では、各フレームについて、各部位の動作と表情の両方を特定する例を説明したが、これに限定されるものではない。例えば、人物の表情は、人物の内面の変化に影響を受けることから、ある行動を起こしたときの表情がその行動時の内面を表す表情とは限らない。つまり、ある行動が起こしてから表情が変わる場合、ある行動を起こす前後で表情が変わることもよくある。そこで、行動特定部53は、各部位の動作特定に用いられたフレームとは異なるフレームを用いて、表情を特定することもできる。
図18は、人物の現行動の特定の別例を説明する図である。図18では、フレーム1、フレーム2、フレーム3を1つの処理単位として、動作特定が各フレームで実行され、表情認識が最新のフレーム(この例ではフレーム3)で実行される例を説明する。図18に示すように、行動特定部53は、図17と同様、フレーム1、フレーム2、フレーム3に対して骨格認識モデル24を用いた骨格認識を実行し、フレームごとに各部位の動作を特定する。一方で、行動特定部53は、フレーム3を表情認識モデル25に入力して人物の表情を特定する。
その後、行動特定部53は、図17と同様に、要素行動の特定および現行動の特定を実行する。なお、ここで説明した例は、あくまで例示であり、行動特定部53は、各部位の動作特定を各フレームで実行し、表情認識を最初のフレームで実行してもよい。また、行動特定部53は、動作特定については各フレームで実行する一方で、表情認識については複数フレーム(図18ではフレーム1からフレーム3)を用いてフレーム間で生じる表情や表情の遷移を特定することもできる。
(将来の行動予測)
行動予測部54は、人物の現行動と関係性と用いて、人物の将来の行動予測を実行する処理部である。具体的には、行動予測部54は、関係性特定部52により特定された関係性と、行動特定部53により特定された人物の現行動とを用いて、行動予測ルール28を検索して、人物の将来の行動を予測する。そして、行動予測部54は、予測結果を管理者の端末に送信したり、ディスプレイ等に表示したりする。
図19は、人物の行動予測を説明する図である。図19に示すように、行動予測部54は、フレーム1の時点では、その時点で特定された関係性「持つ」を取得し、フレーム2の時点では、その時点で特定された関係性「商品を右手に持つ」を取得し、フレーム3の時点では、その時点で特定された関係性「持つ」および現在の行動XXを取得する。そして、行動予測部54は、最新の関係性と現在の行動XXとを用いて、行動予測ルール28を検索することで、人物の行動を予測する。
例えば、図8の例で説明すると、行動予測部54は、現在の行動が「商品Aを手にしている」かつ関係性が「持つ」である場合、「以後10分後の商品Aを購入する」の行動を予測する。また、行動予測部54は、現在の行動が「後をつける」かつ関係性が「ストーキング」である場合、「相手を襲う」の行動を予測する。
また、図19では、行動予測部54が、現在の行動と最新の表情とを用いて行動予測を実行する例を説明したが、これに限定されるものではない。上述したように、人物の表情は、人物の内面の変化に大きな影響を受けるので、最新の行動が現在の表情を表すとは限らない。したがって、図19に示すように、行動予測部54が、最新のフレーム3により特定された現在の行動と、フレーム3までに認識された少なくとも1つの関係性もしくはフレーム1からフレーム3までの関係性の変化とを用いて、行動予測を実行することもできる。
このとき、行動予測部54が、現在の行動がある時刻における画像データの一例である第一のフレームで特定され、関係性が第二のフレームで特定された場合、第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、第二のフレームが検出されるか否かを判定する。そして、行動予測部54が、第二のフレームが予め設定された範囲内に検出された判定された場合に、第一のフレームに含まれる人物の行動と、第二のフレームに含まれる関係性とに基づいて、人物の今後の行動または状態を予測する。
つまり、行動予測部54は、ある程度近いタイミングで検出された現在の行動と関係性とを用いて、人物の今後の行動または状態を予測する。なお、予め設定された範囲は任意に設定することができ、現在の行動と関係性とのどちらが先に特定されていてもよい。
<処理の流れ>
図20は、行動予測処理の流れを示すフローチャートである。なお、ここでは、事前処理は完了済とする。図20に示すように、運用処理部50は、1フレームを取得すると(S101:Yes)、画像解析等によりフレームに写っている対象物の特定を実行する(S102)。続いて、運用処理部50は、特定された対象物を用いてグラフデータDB23に記憶されるシーングラフを検索し、対象物の関係性を特定する(S103)。
そして、運用処理部50は、フレームを骨格認識モデル24に入力して、例えば各部位の動作を示す人物の骨格情報を取得する(S104)。なお、運用処理部50は、S103において、フレームに人物が写っていない場合は、S104を省略する。
また、運用処理部50は、フレームを表情認識モデル25に入力して、出力結果と表情認識ルール26とから、人物の表情を特定する(S105)。なお、運用処理部50は、S103において、フレームに人物が写っていない場合は、S105を省略する。
その後、運用処理部50は、人物の骨格情報と表情とを用いて、上位行動特定ルール27から該当する要素行動を特定する(S106)。ここで、運用処理部50は、人物の現在の行動が特定されていない場合(S107:No)、次のフレームについてS101以降を繰り返す。
一方、運用処理部50は、人物の現在の行動が特定された場合(S107:Yes)、現在の行動と特定済みの関係性とを用いて、行動予測ルール28を検索し、人物の将来の行動を予測する(S108)。その後、運用処理部50は、行動予測の結果を出力する(S109)。
<具体例>
次に、上述した情報処理装置10による行動予測を用いた安心安全な社会の実現に寄与するソリューションの具体例について説明する。ここでは、人と物の関係性を用いたソリューションと、人と人の関係性を用いたソリューションとについて説明する。
(人と物の関係性を用いたソリューション)
図21は、人と物に関連する行動予測を適用したソリューション例を説明する図である。図21では、スーパーマーケットなどの監視カメラにより撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、1つの映像データ内の1つのフレームもしくは複数のフレームに跨って実行される。
図21に示すように、情報処理装置10は、映像データ内のフレームから、人物Aと商品A、人物Bとカート、人物Cと財布、人物Dを検出する。そして、情報処理装置10は、検知結果とシーングラフを用いて、「人物Aの商品Aに対する関係性「持つ」」、「人物Bのカートに対する関係性「押す」」、「人物Cの財布に対する関係性「触る」」を特定する。ここで、人物Dについては、物が検出されていないので、関係性は特定されない。
また、情報処理装置10は、骨格認識モデル24を用いた骨格認識、表情認識モデル25を用いた表情認識を実行し、それらの認識結果を用いて、人物Aの現在の行動「商品Aを持っている」、人物Bの現在の行動「カートを押す」、人物Cの現在の行動「歩く」、人物Dの現在の行動「立ち止まる」を特定する。
そして、情報処理装置10は、現在の行動と関係性とを用いた行動予測により、人物Aの将来の行動「商品Aを購入する可能性が高い」、人物Bの将来の行動「万引きする可能性が高い」、人物Cの将来の行動「買い物せずに退店する可能性が高い」を予測する。ここで、人物Dについては関係性が特定されていないので、行動予測の対象外となる。
つまり、情報処理装置10は、映像データの所定のエリアである商品棚のエリアを移動する顧客と、顧客が購入する対象の商品とを特定し、顧客の商品に対する行動の種類(例えば、見る、持つなど)を関係性として特定し、顧客の商品に対する購買に関する行動(例えば、購入や万引きなど)を予測する。
このように、情報処理装置10は、上述した行動予測を、購入に至るまでの行動や経路などの購買行動の解析や購買マーケティングなどに役立てることができる。また、情報処理装置10は、人物Bのように万引きなどの犯罪発生の可能性が高い人物を検出し、当該人物の監視を強化するなど、犯罪の防止に役立てることができる。
(人と人の関係性を用いたソリューション)
図22は、人と人に関連する行動予測を適用したソリューション例を説明する図である。図22では、街路などの監視カメラにより夜間に撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、1つの映像データ内の1つのフレームもしくは複数のフレームに跨って実行される。
図22に示すように、情報処理装置10は、映像データ内のフレームから、人物A(女性:20代)と人物B(男性:40代)を検出する。そして、情報処理装置10は、検知結果とシーングラフを用いて、「人物Aの人物Bに対する関係性「近い」」、「人物Bの人物Aに対する関係性「ストーキング」」を特定する。
また、情報処理装置10は、骨格認識モデル24を用いた骨格認識、表情認識モデル25を用いた表情認識を実行し、それらの認識結果を用いて、人物Aの現在の行動「人物Bの前を歩く」、人物Bの現在の行動「隠れる」を特定する。
そして、情報処理装置10は、現在の行動と関係性とを用いた行動予測により、人物Aの将来の行動「人物Bに襲われる可能性が高い」、人物Bの将来の行動「人物Aを襲う可能性が高い」を予測する。
つまり、情報処理装置10は、人物Aを被害者、人物Bを犯人とし、犯人の被害者に対する関係性「ストーキング」により、人物Bの人物Aに対する犯罪行為の予測を実現することができる。この結果、情報処理装置10は、上記行動予測により犯罪発生の可能性が高い場所を検出し、警察官等を向かわせるなどの防止策を実行することができる。また、そのような地点に街灯を増やすなどの対応策の検討に役立てることができる。
<効果>
上述したように、情報処理装置10は、事故や犯罪の発生ではなく、兆候を予測することができるので、映像データから事前に対策が必要な状況を検出することができる。また、情報処理装置10は、監視カメラなどの一般的なカメラが撮像する映像データから行動予測を実行することができるので、複雑なシステム構成や新たな装置を必要とせず、既存のシステムに導入することができる。また、情報処理装置10は、既存のシステムに導入するので、新規システム構築よりもコストを削減できる。また、情報処理装置10は、過去および現在の行動から連続するような単純な行動の予測のみならず、過去および現在の行動から単純に特定することができないような人物の複雑な行動を予測することができる。これにより、情報処理装置10は、人物の将来の行動の予測精度を向上させることができる。
また、情報処理装置10は、3次元画像データなどを用いることなく、2次元画像データを用いた行動予測を実現することができるので、近年利用されているレーザセンサなどを用いた処理と比較して、処理を高速化することができる。また、情報処理装置10は、高速な処理に伴い、事前に対策が必要な状況を迅速に検出することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
<数値等>
上記実施例で用いた数値例、カメラ数、ラベル名、ルール例、行動例、状態例、行動予測ルールの形式および内容等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも適用することができる。
<シーングラフの例>
なお、上記実施例では、複数の関係性を含む1つのシーングラフの生成および当該シーングラフを用いた関係性特定について説明したが、これに限定されるものではない。例えば、情報処理装置10は、1つの関係について1つのシーングラフを生成することもできる。つまり、情報処理装置10は、N個(Nは1以上の数)の関係性を含む1つのシーングラフ、または、N個の関係性それぞれに対応するN個のシーングラフを生成して利用することもできる。N個のシーングラフを用いる場合、シーングラフの特定がそのまま関係性の特定につながる。この場合、情報処理装置10は、フレームからフレーム内の人の種類、物の種類、人物の人数などを特定し、これらの情報をオブジェクトや属性に含む1つのシーングラフを特定することで、関係性を特定することができる。
また、情報処理装置10は、フレームごとにシーングラフを生成することもできる。ここで、図16を用いて、映像データに含まれるフレームと、シーングラフとの関係性について説明する。グラフ生成部41は、複数のフレームそれぞれに対して、シーングラフを生成する。そして、グラフ生成部41は、フレームごとに生成されたシーングラフを1つに統合した新たなシーングラフを生成する。例えば、グラフ生成部41は、オブジェクトの種類等にしたがって、フレーム1から生成されたシーングラフ1に含まれるノード(オブジェクト)1と、フレーム2から生成されたシーングラフ2に含まれるノード2とが同じノード(オブジェクト)であることを特定する。このとき、グラフ生成部41は、シーングラフ1のノード1とシーングラフ2のノード2とをリンクで結合し、ノード1とノード2とを1つのノードに統合する。これにより、グラフ生成部41は、シーングラフ1とシーングラフ2とを結合した新たなシーングラフを生成する。グラフ生成部41は、新たなシーングラフをグラフデータDB23に記憶する。なお、グラフ生成部41は、単一のフレームから1つのシーングラフを生成してもよい。
<システム>
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
<ハードウェア>
図23は、ハードウェア構成例を説明する図である。図23に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図23に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図4に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図4に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図4等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、事前処理部40と運用処理部50等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、事前処理部40と運用処理部50等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置10は、プログラムを読み出して実行することで行動予測方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
10 情報処理装置
11 通信部
20 記憶部
21 映像データDB
22 訓練データDB
23 グラフデータDB
24 骨格認識モデル
25 表情認識モデル
26 表情認識ルール
27 上位行動特定ルール
28 行動予測ルール
30 制御部
40 事前処理部
41 グラフ生成部
42 骨格認識モデル生成部
43 表情認識モデル生成部
44 ルール生成部
50 運用処理部
51 取得部
52 関係性特定部
53 行動特定部
54 行動予測部

Claims (10)

  1. 人物と物体を含む対象物を有する映像データを取得し、
    記憶部に記憶された各対象物の関係を示すグラフデータを用いて、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、予め設定された行動予測ルールと比較することで、前記人物の今後の行動または状態を予測する、
    処理をコンピュータに実行させる情報処理プログラム。
  2. 前記特定された人物の行動は、
    前記映像データを構成する複数のフレームのうち、第一のフレームに含まれ、
    前記特定された関係性は、
    前記映像データを構成する複数のフレームのうち、第二のフレームに含まれ、
    前記予測する処理は、
    前記第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、前記第二のフレームが検出されるか否かを判定し、
    前記第二のフレームが予め設定されたフレームの数または時間の範囲内に検出された判定された場合に、前記第一のフレームに含まれる人物の行動と、前記第二のフレームに含まれる関係性とに基づいて、前記人物の今後の行動または状態を予測する、ことを特徴とする請求項1に記載の情報処理プログラム。
  3. 前記関係性を特定する処理は、
    前記映像データに含まれる人物と、物体とを特定し、
    特定した前記人物の種類と、前記物体の種類とを用いて、前記グラフデータを検索することで、前記人物と前記物体との関係性を特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  4. 前記行動を特定する処理は、
    画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークが出力する出力結果と、動作のラベルである正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第一の機械学習モデルを取得し、
    前記映像データを前記第一の機械学習モデルに入力することで、前記人物の部位ごとの動作を特定し、
    前記人物の表情を含む画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークから出力された出力結果と、前記人物の表情の各マーカの強度である目的変数を示す正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第二の機械学習モデルを取得し、
    前記映像データを前記第二の機械学習モデルに入力することで、前記人物のマーカの強度を生成し、生成された前記マーカの強度を用いて、前記人物の表情を特定し、
    特定した前記人物の部位ごとの動作と、特定した前記人物の表情と、予め設定されたルールとを比較することで、前記映像データの中の前記人物の行動を特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  5. 前記行動予測ルールは、
    人物の行動と関係性との組み合わせ毎に人物の今後の行動が対応付けられたルールであり、
    前記予測する処理は、
    特定した人物の行動および特定した関係性を、前記行動予測ルールと比較することで、前記人物の今後の行動を予測する、ことを特徴とする請求項1に記載の情報処理プログラム。
  6. 前記人物は、前記映像データの所定のエリアを移動する顧客であり、
    前記物体は、前記顧客が購入する対象の商品であり、
    前記関係性は、前記人物の前記商品に対する行動の種類であり、
    前記予測する処理は、前記人物の今後の行動または状態として、前記顧客の商品に対する購買に関する行動を予測する、ことを特徴とする請求項3に記載の情報処理プログラム。
  7. 前記関係性を特定する処理は、
    前記映像データに含まれる第一の人物と、第二の人物とを特定し、
    前記第一の人物の種類と、前記第二の人物の種類とを用いて、前記グラフデータを検索することで、前記第一の人物と前記第二の人物との関係性を特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  8. 前記第一の人物は、犯人であり、
    前記第二の人物は、被害者であり、
    前記関係性は、前記第一の人物の前記第二の人物に対する行動の種類であり、
    前記予測する処理は、前記人物の今後の行動または状態として、前記第一の人物が前記第二の人物に対する犯罪行為を予測する、ことを特徴とする請求項7に記載の情報処理プログラム。
  9. 人物と物体を含む対象物を有する映像データを取得し、
    記憶部に記憶された各対象物の関係を示すグラフデータを用いて、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、予め設定された行動予測ルールと比較することで、前記人物の今後の行動または状態を予測する、
    処理をコンピュータが実行する情報処理方法。
  10. 人物と物体を含む対象物を有する映像データを取得し、
    記憶部に記憶された各対象物の関係を示すグラフデータを用いて、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、予め設定された行動予測ルールと比較することで、前記人物の今後の行動または状態を予測する、
    制御部を有する情報処理装置。
JP2021215274A 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置 Pending JP2023098482A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021215274A JP2023098482A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置
EP22196320.0A EP4207107A1 (en) 2021-12-28 2022-09-19 Information processing program, information processing method, and information processing apparatus
US17/959,461 US20230206641A1 (en) 2021-12-28 2022-10-04 Storage medium, information processing method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021215274A JP2023098482A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2023098482A true JP2023098482A (ja) 2023-07-10

Family

ID=83362508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021215274A Pending JP2023098482A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置

Country Status (3)

Country Link
US (1) US20230206641A1 (ja)
EP (1) EP4207107A1 (ja)
JP (1) JP2023098482A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219438B1 (en) * 2008-06-30 2012-07-10 Videomining Corporation Method and system for measuring shopper response to products based on behavior and facial expression
US20200057964A1 (en) * 2018-08-20 2020-02-20 Newton Howard Brain operating system
WO2019049216A1 (ja) 2017-09-05 2019-03-14 富士通株式会社 採点方法、採点プログラムおよび採点装置
JP7119912B2 (ja) 2018-10-31 2022-08-17 富士通株式会社 行動認識方法、行動認識プログラムおよび行動認識装置
JP7172472B2 (ja) 2018-11-09 2022-11-16 富士通株式会社 ルール生成装置、ルール生成方法及びルール生成プログラム
JP7452016B2 (ja) 2020-01-09 2024-03-19 富士通株式会社 学習データ生成プログラム、及び学習データ生成方法

Also Published As

Publication number Publication date
US20230206641A1 (en) 2023-06-29
EP4207107A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
US11176366B2 (en) Method of searching data to identify images of an object captured by a camera system
Feng et al. Spatio-temporal fall event detection in complex scenes using attention guided LSTM
Zhou et al. Activity analysis, summarization, and visualization for indoor human activity monitoring
Popa et al. Kinect sensing of shopping related actions
US10929688B2 (en) System and method of video content filtering
Gomes et al. Multi-human fall detection and localization in videos
Onie et al. The use of closed-circuit television and video in suicide prevention: narrative review and future directions
Kushwaha et al. Multiview human activity recognition system based on spatiotemporal template for video surveillance system
JP2023098482A (ja) 情報処理プログラム、情報処理方法および情報処理装置
Ariyani et al. Heuristic Application System on Pose Detection of Elderly Activity Using Machine Learning in Real-Time
WO2023127156A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098484A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098506A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098483A (ja) 情報処理プログラム、情報処理方法および情報処理装置
Kaur et al. Real-time video surveillance based human fall detection system using hybrid haar cascade classifier
JP2023098505A (ja) 情報処理プログラム、情報処理方法および情報処理装置
Ansari et al. Identifying human activities in megastores through postural data to monitor shoplifting events
Aljuaid et al. Postures anomaly tracking and prediction learning model over crowd data analytics
Andersson et al. Robust anomaly detection in urban environments using sensor and information fusion and a camera network
Singh et al. Hybrid neural network model for reconstruction of occluded regions in multi-gait scenario
TWI820784B (zh) 一種具安全照護及高隱私處理的跌倒及姿態辨識方法
Ali et al. Estimating Human Running Indoor Based on the Speed of Human Detection by Using OpenPose
WO2022038702A1 (en) Causal interaction detection apparatus, control method, and computer-readable storage medium
Bourbakis et al. A synergistic model for representing and interpreting human activities and events from video
Ashwin Shenoy et al. Enhancing temple surveillance through human activity recognition: A novel dataset and YOLOv4-ConvLSTM approach