JP2023098505A - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP2023098505A
JP2023098505A JP2021215309A JP2021215309A JP2023098505A JP 2023098505 A JP2023098505 A JP 2023098505A JP 2021215309 A JP2021215309 A JP 2021215309A JP 2021215309 A JP2021215309 A JP 2021215309A JP 2023098505 A JP2023098505 A JP 2023098505A
Authority
JP
Japan
Prior art keywords
person
behavior
relationship
video data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021215309A
Other languages
English (en)
Inventor
純也 藤本
Junya Fujimoto
諒 石田
Ryo Ishida
由樹雄 平井
Yukio Hirai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021215309A priority Critical patent/JP2023098505A/ja
Priority to EP22197101.3A priority patent/EP4207097A1/en
Priority to US17/952,311 priority patent/US20230206640A1/en
Publication of JP2023098505A publication Critical patent/JP2023098505A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

【課題】映像データから事前に対策が必要な状況を検出することを課題とする。【解決手段】情報処理装置は、人物と物体を含む対象物を有する映像データを取得し、取得された映像データを、第一の機械学習モデルに入力することで、取得した映像データの中の各対象物のそれぞれの関係性を特定する。情報処理装置は、取得した映像データに含まれる人物の特徴量を用いて、映像データの中の人物の行動を特定する。情報処理装置は、特定した人物の行動と、特定した関係性とを、確率モデルに入力することで、人物の今後の行動または状態を予測する。【選択図】図2

Description

本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。
映像データから人の行動を認識する行動認識技術が知られている。例えば、カメラなどにより撮像された映像データから、映像データ内の人物の骨格情報を用いて、人物が行った動作や行動を認識する技術が知られている。近年では、スーパーマーケットやコンビニエンスストアへのセルフレジの普及や、学校、電車、公共施設などの監視カメラの普及などに伴い、人物の行動認識の導入が進んでいる。
国際公開第2019/049216号
しかしながら、上記行動認識技術により認識された人物の行動とは、人物が現在または過去に行った行動を示している。従って、人物が所定の行動を行ったことを認識した後に、対策を講じても手遅れであることがある。
一つの側面では、映像データから事前に対策が必要な状況を検出することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
第1の案では、情報処理プログラムは、人物と物体を含む対象物を有する映像データを取得し、取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、処理をコンピュータに実行させる。
一実施形態によれば、映像データから事前に対策が必要な状況を検出することができる。
図1は、実施例1にかかる行動予測システムの全体構成例を示す図である。 図2は、実施例1にかかる行動予測を実現する情報処理装置を説明する図である。 図3は、行動予測の具体例を説明する図である。 図4は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。 図5は、表情認識ルールの一例を示す図である。 図6は、上位行動特定ルールの一例を示す図である。 図7は、確率モデルの一例を示す図である。 図8は、訓練データを説明する図である。 図9は、関係性モデルの機械学習を説明する図である。 図10は、骨格認識モデルの生成を説明する図である。 図11は、表情認識モデルの生成例を説明する図である。 図12は、カメラの配置例を示す図である。 図13は、マーカの移動について説明する図である。 図14は、上位行動特定ルールの生成例を説明する図である。 図15は、確率モデルの生成例を説明する図である。 図16は、関係性の特定を説明する図である。 図17は、HOIDによる関係性の特定を説明する図である。 図18は、人物の現行動の具体的な特定例を説明する図である。 図19は、人物の現行動の特定の別例を説明する図である。 図20は、人物の行動予測を説明する図である。 図21は、確率モデルを用いた人物の行動予測を説明する図である。 図22は、行動予測処理の流れを示すフローチャートである。 図23は、人と物に関連する行動予測を適用したソリューション例を説明する図である。 図24は、人と人に関連する行動予測を適用したソリューション例を説明する図である。 図25は、ハードウェア構成例を説明する図である。
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
<全体構成>
図1は、実施例1にかかる行動予測システムの全体構成例を示す図である。図1に示すように、この行動予測システムは、空間の一例である店舗1と、それぞれが店舗1内の異なる場所に設置された複数のカメラ2と、映像データの解析を実行する情報処理装置10とを有する。
複数のカメラ2それぞれは、店舗1内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置10に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数のフレームが含まれる。各フレームには、時系列の昇順に、フレーム番号が付与される。1つのフレームは、カメラ2があるタイミングで撮影した静止画像の画像データである。
情報処理装置10は、複数のカメラ2それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ2それぞれと情報処理装置10とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。
近年、店舗1内に限らず、街中、駅のホームなどにも監視カメラが設定されるようになっており、監視カメラで取得された映像データを用いて、安心安全な社会を目指す様々なサービスが提供されている。例えば、万引きの発生、事故の発生、飛び降り自殺の発生などを検出して、事後処理に役立てるサービスなどが提供されつつある。しかし、現状提供されるいずれのサービスも事後検知であり、万引きの兆候、不審者の可能性、病気の発作の兆候、認知症やアルツハイマー症などの一見では判断が難しい兆候など、未然抑止という観点では、映像データを有効的に活用できているとは言い難い。
そこで、実施例1では、現在の人の表情や行動を分析する「行動分析」と、周辺環境や物、それらの関係性を検出する「コンテキストセンシング」とを組み合わせて、将来の人の行動や内面を予測する「行動予測」を実現する情報処理装置10について説明する。
図2は、実施例1にかかる行動予測を実現する情報処理装置10を説明する図である。図2に示すように、情報処理装置10は、映像データに対して、関係性の特定と人物の行動認識とを実行し、特定された関係性および認識された行動を用いて、人物の行動予測を実行する。
具体的には、情報処理装置10は、人物と物体を含む対象物を有する映像データを取得する。そして、情報処理装置10は、映像データ内の対象物間の関係性を特定する関係性モデルを用いて、映像データの中の各対象物のそれぞれの関係性を特定する。一方で、情報処理装置10は、映像データに含まれる人物の特徴量を用いて、映像データの中の人物の現行動を特定する。その後、情報処理装置10は、特定した人物の現行動と、特定した関係性とを、確率モデルに入力することで、万引きの予兆などの人物の今後の行動またはアルツハイマーなどの人物の状態を予測する。
例えば、図2に示すように、情報処理装置10は、映像データを関係性モデルに入力し、映像データ内の人物と人物の関係性、または、映像データ内の人物と物(物体)の関係性を特定する。
また、情報処理装置10は、行動分析器と表情分析器とを用いて人物の現在の行動認識を実行する。具体的には、行動分析器は、訓練済みの骨格認識モデルに映像データを入力して、特徴量の一例である人物の骨格情報を取得する。表情認識器は、訓練済みの表情認識モデルに映像データを入力して、特徴量の一例である人物の表情情報を取得する。そして、情報処理装置10は、予め定められた行動特定ルールを参照し、特定された人物の骨格情報と表情情報との組合せに該当する人物の現在の行動を認識する。
その後、情報処理装置10は、隠れマルコフモデルなどを用いたモデルの一例である確率モデルに、人物と人物の関係性または人物と物体の関係性と、人物の現在の行動とを入力し、人物の今後の行動予測の結果を取得する。
ここで、情報処理装置10が予測する行動は、短期的な予測から長期的な予測を実行することができる。図3は、行動予測の具体例を説明する図である。図3に示すように、情報処理装置が予測する行動予測には、購買行動や万引きなどのように人物の外見で判断できる「行動」に限らず、疾患などのように人物の外見では判断が難しく、人物の内面の影響を受ける「感情」および「状態」が含まれる。
具体的には、情報処理装置10は、数秒から数分先の超短期的な予測として、「ロボットによる人間支援」や「オンラインコミュニケーション支援」などの発生や必要性などを予測する。情報処理装置10は、数時間先の短期的な予測として、「店舗における購買行動」、「万引きやストーキングなどの犯罪」、「自殺行為」などの突発的な事象や現在の行動場所からの移動量が少ない事象の発生などを予測する。情報処理装置10は、数日先の中期的な予測として、「交番襲撃」や「家庭内暴力」などの計画的な犯罪の発生などを予測する。情報処理装置10は、数か月先の超器的な予測として、「勉強や売り上げなどの成績向上」や「アルツハイマーなどの疾患予測」などの見た目では分からない潜在的な事象(状態)の発生などを予測する。
このように、情報処理装置10は、映像データから事前に対策が必要な状況を検出することができ、安心安全な社会を目指すサービスの提供を実現することができる。
<機能構成>
図4は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図4に示すように、情報処理装置10は、通信部11、記憶部20、制御部30を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、各カメラ2から映像データなどを受信し、情報処理装置10の処理結果などを、予め指定された装置等に出力する。
記憶部20は、各種データや制御部30が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部20は、映像データDB21、訓練データDB22、関係性モデル23、骨格認識モデル24、表情認識モデル25、表情認識ルール26、上位行動特定ルール27、確率モデル28を記憶する。
映像データDB21は、店舗1に設置される複数のカメラ2それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データDB16は、カメラ2ごと、または、撮像された時間帯ごとに、映像データを記憶する。
訓練データDB22は、グラフデータや、骨格認識モデル24、表情認識モデル25、確率モデル28などの各種機械学習モデルの生成に用いられる各種訓練データを記憶するデータベースである。ここで記憶される訓練データは、正解情報が付加された教師ありの訓練データや、正解情報が付加されていない教師なしの訓練データが含まれる。
関係性モデル23は、映像データに含まれる各対象物の関係を識別する機械学習モデルの一例である。具体的には、関係性モデル23は、人物と人物の関係性、または、人物と物(物体)の関係性を識別する、機械学習により生成されたHOID(Human Object Interaction Detection)用のモデルである。
例えば、人物と人物の関係性の特定時には、関係性モデル23として、映像データ内のフレームの入力に応じて、第一の人物を示す第1クラスおよび第一の人物が出現する領域を示す第1領域情報と、第二の人物を示す第2クラスおよび第二の人物が出現する領域を示す第2領域情報と、第1クラスと第2クラスとの関係性と、を特定して出力するHOID用のモデルが用いられる。
また、人物と物体の関係性の特定時には、関係性モデル23として、人物を示す第1クラスおよび人物が出現する領域を示す第1領域情報と、物体を示す第2クラスおよび物体が出現する領域を示す第2領域情報と、第1クラスと第2クラスとの関係性と、を特定して出力するHOID用のモデルが用いられる。
なお、ここで示した関係性とは、あくまで一例として、「持つ」などの単純な関係性に限らず、「商品Aを右手に持つ」、「前を歩く人をストーキングしている」、「後ろを気にしている」などの複雑な関係性が含まれる。なお、関係性モデル23として、上記2つのHOID用のモデルを別々に用いてもよく、人物と人物の関係性および人物と物体の関係性の両方を識別するように生成された1つのHOID用のモデルを用いてもよい。また、関係性モデル23は、後述する制御部30により生成されるが、予め生成されたモデルを使用してもよい。
骨格認識モデル24は、人物の特徴量の一例である骨格情報を生成する機械学習モデルの一例である。具体的には、骨格認識モデル24は、画像データの入力に応じて、2次元の骨格情報を出力する。例えば、骨格認識モデル24は、人物の2次元画像データに対して、頭、手首、腰、足首などの2次元の関節位置(骨格座標)を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。
この骨格認識モデル24を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。基本となる動作とは、例えば歩く、走る、止まるなどである。ユーザが定義したルールとは、商品を手に取るまでの各行動に該当する骨格情報の遷移などである。なお、骨格認識モデル24は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
表情認識モデル25は、人物の特徴量の一例である表情に関する表情情報を生成する機械学習モデルの一例である。具体的には、表情認識モデル25は、表情を顔の部位と表情筋に基づいて分解して定量化する手法であるAU(Action Unit:アクションユニット)を推定する機械学習モデルである。この表情認識モデル25は、画像データの入力に応じて、表情を特定するために設定されるAU1からAU28の各AUの発生強度(例えば5段階評価)で表現した「AU1:2、AU2:5、AU4:1、・・・」のような表情認識結果を出力する。なお、表情認識モデル25は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
表情認識ルール26は、表情認識モデル25の出力結果を用いて表情を認識するためのルールである。図5は、表情認識ルール26の一例を示す図である。図5に示すように、表情認識ルール26は、「表情」と「推定結果」を対応付けて記憶する。「表情」は、認識対象の表情であり、「推定結果」は、各表情に該当するAU1からAU28の各AUの強度である。図5の例では、「AU1が強度2、AU2が強度5、AU3が強度0・・・」の場合は表情「笑顔」と認識されることを示している。なお、表情認識ルール26は、管理者等により予め登録されたデータである。
上位行動特定ルール27は、人物の現在の行動を特定するためのルールである。図6は、上位行動特定ルール27の一例を示す図である。図6に示すように、上位行動特定ルール27は、現在の行動と、現在の行動を特定するために実行される要素行動の遷移とを対応付けたルールである。
図6の例では、要素行動B、要素行動A、要素行動P、要素行動Jが順に行われた場合に、現在の行動XXと特定することが定義されている。例えば、現在の行動XXとは「商品Aに関心ある行動」であり、要素行動Bとは「立ち止まる」、要素行動Aとは「商品Aを眺める」、要素行動Pとは「商品Aを手に取る」、要素行動Jとは「商品Aをカゴに入れる」などである。
また、各要素行動には、基本動作と表情とが対応付けられる。例えば、要素行動Bに対して、基本動作について「時刻t1から時刻t3の間の時系列パターンとして、全身の基本動作が基本動作02、03、03に遷移、かつ、右腕の基本動作が基本動作27、25、25に遷移、かつ、顔の基本動作が基本動作48、48、48に遷移する」こと、かつ、表情について「時刻t1から時刻t3の間の時系列パターンとして、表情Hが継続する」ことが定義されている。
なお、基本動作02などの表記は、説明上、各基本動作を識別する識別子で表記したものであり、例えば立ち止まる、腕を上げる、しゃがむなどが該当する。同様に、表情Hなどの表記は、説明上、各表情を識別する識別子で表記したものであり、例えば笑顔、怒り顔などが該当する。なお、上位行動特定ルール27は、後述する制御部30により生成されるが、予め生成されたデータを使用してもよい。
確率モデル28は、基本動作と表情情報とから、人物の将来の行動や状態を予測する確率モデルの一例である。例えば、確率モデル28には、状態が直接観測できない状況で、状態に依存する観測可能な変数の値が決まる隠れマルコフモデル(HMM:Hidden Markov Model)を用いることができる。なお、本実施例において、隠れマルコフモデルの状態は、将来の行動に該当し、変数の値は、現在の行動(もしくは骨格情報と表情の組合せ)および関係性を含む観測情報に該当する。また、各状態間は、遷移確率が定義されており、状態と観測情報との間には、状態と観測情報との関係を表す確率分布が定義されている。
図7は、確率モデル28の一例を示す図である。図7に示すように、確率モデル28は、状態として予測対象である行動A、行動B、行動Cを含み、各状態間の遷移確率が学習されるとともに、状態と観測可能な情報(観測情報)との間の確率分布が学習された隠れマルコフモデルである。
例えば、図7の隠れマルコフモデルには、行動Aについて、行動Aから行動Aに遷移する確率が30%、行動Aから行動Bへ遷移する確率が60%、行動Aから行動Cへ遷移する確率が10%であることが示されている。また、図7の隠れマルコフモデルには、行動Aに対しては観測情報A-1と観測情報A-2とが対応付けられており、行動Aの状態のときに、観測情報A-1が観測される確率が60%、観測情報A-2が観測される確率が40%であることが示されている。
すなわち、情報処理装置10は、このような隠れマルコフモデルを用いることで、過去から現在の観測情報を用いて行動を推定し、推定される行動の確率に対して、隠れマルコフモデルの遷移確率のみから将来の行動(今後の行動)を予測することができる。
なお、隠れマルコフモデルに用いる観測情報は、任意に変更することができる。例えば、観測情報として「現在の行動」および「関係性」を用い、各状態として「予測対象の行動」を用いる隠れマルコフモデルを採用することができる。すなわち、隠れマルコフモデルは、映像データから得られた観測情報「現在の行動および関係性」が入力されると、この観測情報を用いて近い将来もしくは現在の「行動」を推定する。そして、情報処理装置10は、隠れマルコフモデルにしたがって、この「行動」から最も遷移確率が高い「行動」を将来の行動と予測して出力する。
このように、情報処理装置10は、骨格情報等から特定される現在の行動を、隠れマルコフモデルを用いて再予測し、現在の行動の信頼性を高めたうえで、将来の行動予測を実行できるので、精度の向上が期待できる。
別例としては、観測情報として「現在までの骨格情報および表情」と「関係性」とを用い、各状態として「予測対象の行動」を用いる隠れマルコフモデルを採用することができる。すなわち、隠れマルコフモデルは、映像データから得られた観測情報「現在の骨格情報、表情、関係性」が入力されると、この観測情報から現在の「行動」を推定する。そして、情報処理装置10は、隠れマルコフモデルにしたがって、この現在の「行動」から最も遷移確率が高い「行動」を将来の行動と予測して出力する。
このように、情報処理装置10は、骨格情報等から隠れマルコフモデルを用いて現在の行動を直接予測した後に将来の行動予測を実行できるので、予測速度の向上が期待できる。
図4に戻り、制御部30は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部30は、事前処理部40と運用処理部50を有する。なお、事前処理部40と運用処理部50は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
<事前処理部40>
事前処理部40は、行動予測の運用に先立って、記憶部20に記憶される訓練データを用いて、各モデルやルールなどの生成を実行する処理部である。事前処理部40は、関係性モデル生成部41、骨格認識モデル生成部42、表情認識モデル生成部43、ルール生成部44、確率モデル生成部45を有する。
(関係性モデルの生成)
関係性モデル生成部41は、訓練データDB22に記憶される訓練データを用いて、関係性モデル23を生成する処理部である。ここでは、一例として、関係性モデル23として、ニューラルネットワークなどを用いたHOID用のモデルを生成する例で説明する。なお、あくまで一例として、人物と物体の関係性を特定するHOID用のモデルの生成について説明するが、人物と人物の関係性を特定するHOID用のモデルについても同様に生成することができる。
まず、HOID用のモデルの機械学習に利用する訓練データについて説明する。図8は、訓練データを説明する図である。図8に示すように、各訓練データは、入力データとなる画像データと、当該画像データに対して設定された正解情報とを有する。
正解情報には、検出対象である人物のクラス(第1クラス)と、人物による購入や操作対象である物体のクラス(第2クラス)と、人物と物体の相互作用を示す関係性クラスと、各クラスの領域を示すBbox(Bounding Box:物体の領域情報)とが設定される。すなわち、正解情報として、人物が把持している物体に関する情報が設定される。なお、人物と物体の相互作用は、人物と物体の関係性の一例である。また、人物と人物の関係性の特定に利用する場合には、第2クラスとして他方の人物を示すクラス、第2クラスの領域情報として他方の人の領域情報、関係性クラスとして人物と人物の関係性を用いる。
次に、訓練データを用いたHOID用のモデルの機械学習について説明する。図9は、関係性モデル23の機械学習を説明する図である。図9に示すように、関係性モデル生成部41は、訓練データをHOID用のモデルに入力し、HOID用のモデルの出力結果を取得する。この出力結果には、HOID用のモデルが検出した人物のクラスと、物体のクラスと、人物と物体の関係性(相互作用)などが含まれる。そして、関係性モデル生成部41は、訓練データの正解情報とHOID用のモデルの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりHOID用のモデルの機械学習を実行する。なお、HOID用のモデルの生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。
(骨格認識モデル24の生成)
骨格認識モデル生成部42は、訓練データを用いて、骨格認識モデル24の生成を実行する処理部である。具体的には、骨格認識モデル生成部42は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、骨格認識モデル24を生成する。
図10は、骨格認識モデル24の生成を説明する図である。図10に示すように、骨格認識モデル生成部42は、基本動作のラベルが付与された基本動作の画像データを骨格認識モデル24に入力し、骨格認識モデル24の出力結果とラベルとの誤差が小さくなるように、骨格認識モデル24の機械学習を実行する。例えば、骨格認識モデル24は、ニューラルネットワークである。骨格認識モデル生成部42は、骨格認識モデル24の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。骨格認識モデル24は、画像データ(例えば基本動作の動作をしている人物の画像データ)である説明変数をニューラルネットワークに入力する。そして、骨格認識モデル24は、ニューラルネットワークが出力する出力結果と、基本動作のラベルである正解データとの誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。
なお、訓練データとしては、「ラベル」として「歩く」、「走る」、「止まる」、「立つ」、「棚の前に立つ」、「商品を取る」、「首を右に回す」、「首を左に回す」、「上を向く」、「頭を下に傾ける」などが付加された各画像データを用いることができる。なお、骨格認識モデル24の生成は、あくまで一例であり、他の手法を用いることができる。また、骨格認識モデル24としては、特開2020-71665号公報、特開2020-77343号公報に開示される行動認識を用いることもできる。
(表情認識モデル25の生成)
表情認識モデル生成部43は、訓練データを用いて、表情認識モデル25の生成を実行する処理部である。具体的には、表情認識モデル生成部43は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、表情認識モデル25を生成する。
ここで、図11から図13を用いて、表情認識モデル25の生成を説明する。図11は、表情認識モデル25の生成例を説明する図である。図11に示すように、表情認識モデル生成部43は、RGB(Red、Green、Blue)カメラ25a、IR(infrared:赤外線)カメラ25bのそれぞれにより撮像された画像データに対して、訓練データの生成および機械学習を実行する。
図11に示すように、まず、RGBカメラ25a及びIRカメラ25bは、マーカが付された人物の顔に向けられる。例えば、RGBカメラ25aは一般的なデジタルカメラであり、可視光を受光し画像を生成する。また、例えば、IRカメラ25bは、赤外線を感知する。また、マーカは、例えばIR反射(再帰性反射)マーカである。IRカメラ25bは、マーカによるIR反射を利用してモーションキャプチャを行うことができる。また、以降の説明では、撮像対象の人物を被験者と呼ぶ。
訓練データの生成処理において、表情認識モデル生成部43は、RGBカメラ25aによって撮像された画像データ及びIRカメラ25bによるモーションキャプチャの結果を取得する。そして、表情認識モデル生成部43は、AUの発生強度121及び撮像画像データから画像処理によりマーカを削除した画像データ122を生成する。例えば、発生強度121は、各AUの発生強度をAからEの5段階評価で表現し、「AU1:2、AU2:5、AU4:1、…」のようにアノテーションが行われたデータであってもよい。
機械学習処理において、表情認識モデル生成部43は、訓練データの生成処理から出力された画像データ122及びAUの発生強度121を用いて機械学習を行い、画像データからAUの発生強度を推定するための表情認識モデル25を生成する。表情認識モデル生成部43は、AUの発生強度をラベルとして用いることができる。
ここで、図12を用いて、カメラの配置について説明する。図12は、カメラの配置例を示す図である。図12に示すように、複数のIRカメラ25bがマーカトラッキングシステムを構成していてもよい。その場合、マーカトラッキングシステムは、ステレオ撮影によりIR反射マーカの位置を検出することができる。また、複数のIRカメラ25bのそれぞれの間の相対位置関係は、カメラキャリブレーションによりあらかじめ補正されているものとする。
また、撮像される被験者の顔には、AU1からAU28をカバーするように、複数のマーカが付される。マーカの位置は、被験者の表情の変化に応じて変化する。例えば、マーカ401は、眉の根元付近に配置される。また、マーカ402及びマーカ403は、豊麗線の付近に配置される。マーカは、1つ以上のAU及び表情筋の動きに対応した皮膚の上に配置されてもよい。また、マーカは、しわの寄り等により、テクスチャ変化が大きくなる皮膚の上を避けて配置されてもよい。
さらに、被験者は、顔の輪郭外に基準点マーカが付された器具25cを装着する。被験者の表情が変化しても、器具25cに付された基準点マーカの位置は変化しないものとする。このため、表情認識モデル生成部43は、基準点マーカからの相対的な位置の変化により、顔に付されたマーカの位置の変化を検出することができる。また、基準マーカの数を3つ以上にすることで、表情認識モデル生成部43は、3次元空間におけるマーカの位置を特定することができる。
器具25cは、例えばヘッドバンドである。また、器具25cは、VRヘッドセット及び固い素材のマスク等であってもよい。その場合、表情認識モデル生成部43は、器具25cのリジッド表面を基準点マーカとして利用することができる。
なお、IRカメラ25b及びRGBカメラ25aによる撮影が行われる際、被験者は表情を変化させていく。これにより、時系列に沿って表情が変化していく様子を画像として取得することができる。また、RGBカメラ25aは、動画を撮像してもよい。動画は、時系列に並べられた複数の静止画とみなすことができる。また、被験者は、自由に表情を変化させてもよいし、あらかじめ定められたシナリオに沿って表情を変化させてもよい。
なお、AUの発生強度は、マーカの移動量により判定することができる。具体的には、表情認識モデル生成部43は、判定基準としてあらかじめ設定された位置と、マーカの位置との距離に基づいて算出したマーカの移動量を基に発生強度を判定することができる。
ここで、図13を用いて、マーカの移動について説明する。図13は、マーカの移動について説明する図である。図13の(a)、(b)、(c)は、RGBカメラ25aによって撮像された画像である。また、画像は、(a)、(b)、(c)の順で撮像されたものとする。例えば、(a)は、被験者が無表情であるときの画像である。表情認識モデル生成部43は、(a)の画像のマーカの位置を、移動量が0の基準位置とみなすことができる。図13に示すように、被験者は、眉を寄せるような表情を取っている。このとき、表情の変化に従い、マーカ401の位置は下方向に移動している。その際、マーカ401の位置と、器具25cに付された基準マーカとの間の距離は大きくなっている。
このようにして、表情認識モデル生成部43は、被験者のある表情が写った画像データと、その表情時の各マーカの強度とを特定し、説明変数「画像データ」、目的変数「各マーカの強度」とする訓練データを生成する。そして、表情認識モデル生成部43は、生成された訓練データを用いた教師あり学習により、表情認識モデル25を生成する。例えば、表情認識モデル25は、ニューラルネットワークである。表情認識モデル生成部43は、表情認識モデル25の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。表情認識モデル25は、説明変数をニューラルネットワークに入力する。そして、表情認識モデル25は、ニューラルネットワークから出力される出力結果と目的変数である正解データとの誤差が小さくなるようにニューラルネットワークのパラメータを変更した機械学習モデルを生成する。
なお、表情認識モデル25の生成は、あくまで一例であり、他の手法を用いることができる。また、表情認識モデル25としては、特開2021-111114号公報に開示される行動認識を用いることもできる。
(上位行動特定ルール27の生成)
図4に戻り、ルール生成部44は、過去の履歴等を用いて、上位行動特定ルール27を生成する処理部である。具体的には、ルール生成部44は、過去の様々な映像データから、人物がある行動を行うまでの動作および表情の遷移を特定することで、上位行動特定ルール27を生成する。
図14は、上位行動特定ルールの生成例を説明する図である。図14に示すように、ルール生成部44は、ある行動XXが行われた画像データから所定時間遡って、当該画像データに至るまでに取得された過去の複数の画像データを抽出する。そして、ルール生成部44は、遡って取得した過去の各画像データについて、学習済みのモデルや画像解析等を用いて基本動作と表情とを検出する。
その後、ルール生成部44は、行動XXに至るまでに検出された要素行動(基本動作の遷移および表情の遷移)の遷移を特定する。例えば、ルール生成部44は、要素行動Bとして、「時刻t1からt3の間における全身の基本動作の遷移、右腕の基本動作の遷移、顔の基本動作の遷移」と「時刻t1からt3の間における表情Hの継続」を特定する。また、ルール生成部44は、要素行動Aとして、「時刻t4からt7の間における右腕の基本動作の遷移および表情Hから表情Iへの変化」を特定する。
このようにして、ルール生成部44は、行動XXに至る要素行動の遷移として、要素行動B、要素行動A、要素行動P、要素行動Jの順を特定する。そして、ルール生成部44は、「行動XX」と「要素行動B、要素行動A、要素行動P、要素行動Jの遷移」とを対応付けた上位行動特定ルール27を生成して記憶部20に格納する。
なお、上位行動特定ルール27の生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。
(確率モデル28の生成)
確率モデル生成部45は、過去の事象、過去の経験等を集計して生成された訓練データを用いて確率モデル28を生成する処理部である。図15は、確率モデル28の生成例を説明する図である。図15に示すように、確率モデル生成部45は、ある「行動」とその行動が発生したときの「観測情報」との組合せの時系列データである訓練データを用いて(図15の(1)参照)、隠れマルコフモデル(HMM)の各種確率を学習する(図15の(2)参照)。
例えば、確率モデル生成部45は、訓練データを用いて、この行動の後にはこの行動が起こりやすいという状態遷移を確率的に表現した行動の遷移確率と、映像データの中の人物の特徴量(骨格情報と表情との組、もしくは、現在の行動)と関係性とを示す観測情報から得られる確率分布を更新することで、HMMを学習する。
なお、学習方法は、公知の様々な手法を採用することができる。また、確率モデル28は、HMMに限らず、観測可能な情報から潜在的な状態を予測できる各種モデルを用いることもできる。
<運用処理部50>
図4に戻り、運用処理部50は、取得部51、関係性特定部52、行動特定部53、行動予測部54を有し、事前処理部40により事前に準備された各モデルや各ルールを用いて、映像データに写る人物の将来の行動を予測する行動予測処理を実行する処理部である。
取得部51は、各カメラ2から映像データを取得して映像データDB21に格納する処理部である。例えば、取得部51は、各カメラ2から随時取得してもよく、定期的に取得してもよい。
(関係性の特定)
関係性特定部52は、関係性モデル23を用いて、映像データに写る人物と人物との関係性、または、人物と物体との関係性を特定する関係性特定処理を実行する処理部である。具体的には、関係性特定部52は、映像データに含まれるフレームごとに、各フレームを関係性モデル23に入力し、関係性モデル23の出力結果に応じて、関係性を特定する。そして、関係性特定部52は、特定された関係性を、行動予測部54に出力する。
図16は、関係性の特定を説明する図である。図16に示すように、関係性特定部52は、フレーム1を機械学習済みの関係性モデル23に入力して、第1の人物のクラス、第2の人物のクラス、人物間の関係性を特定する。別例としては、関係性特定部52は、フレームを機械学習済みの関係性モデル23に入力して、人物のクラス、物体のクラス、人物と物体の関係性を特定する。このように、関係性特定部52は、関係性モデル23を用いて、フレームごとに、人物間の関係性または人物と物体との間の関係性を特定する。
図17は、HOIDによる関係性の特定を説明する図である。図17に示すように、関係性特定部52は、映像データに含まれる各フレーム(画像データ)をHOID(関係性モデル23)に入力し、HOIDの出力結果を取得する。具体的には、関係性特定部52は、人物のBbox、人物のクラス名、物体のBbox、物体のクラス名、人物と物体の相互作用の確率値、人物と物体の相互作用のクラス名を取得する。
この結果、例えば、関係性特定部52は、人物のクラスとして「人(客)」と「人(店員)」などを特定し、「人(客)」と「人(店員)」との関係性「店員が客と話す」を特定する。関係性特定部52は、フレーム2やフレーム3などの後続の各フレームについても上記関係性特定処理を実行することで、フレームごとに関係性「話す」、関係性「渡す」などを特定する。
なお、別例としては、関係性特定部52は、フレームを機械学習済みの関係性モデル23に入力して、人物のクラス、物のクラス、人と物の関係性を特定する。例えば、関係性特定部52は、人物のクラスとして「客」や物のクラスとして「商品」などを特定し、「客」と「商品」との関係性「客が商品を持つ」を特定する。
(現在の行動の特定)
行動特定部53は、映像データから、人物の現在の行動を特定する処理部である。具体的には、行動特定部53は、映像データ内の各フレームに対して、骨格認識モデル24を用いて人物の各部位の骨格情報を取得するとともに、表情認識モデル25を用いて人物の表情を特定する。そして、行動特定部53は、各フレームに対して特定された人物の各部位の骨格情報および人物の表情を用いて、人物の行動を特定し、行動予測部54に出力する。
図18は、人物の現行動の具体的な特定例を説明する図である。図18に示すように、行動特定部53は、画像データであるフレーム1を骨格認識モデル24と表情認識モデル25に入力する。骨格認識モデル24は、フレーム1の入力に応じて各部位の骨格情報を生成し、各部位の骨格情報にしたがって各部位の動作を出力する。例えば、行動特定部53は、骨格認識モデル24を用いることで、「顔:正面を向く、腕:上げる、足:歩く、・・・」などの各部位の動作情報を取得できる。また、表情認識モデル25は、フレーム1の入力に応じて、表情認識結果として、AU1からAU28の各AUの発生強度「AU1:2、AU2:5、AU4:1、・・・」を出力する。そして、行動特定部53は、表情認識結果と表情認識ルール26とを照合し、表情「笑顔」などを特定する。
行動特定部53は、上記特定処理をフレーム2やフレーム3の後続の各フレームについても実行して、フレームごとに、フレームに写る人物の各部位の動作情報および表情を特定する。
そして、行動特定部53は、各フレームについて上記特定処理を行うことで、人物の各部位の動作の遷移および表情の遷移を特定する。その後、行動特定部53は、人物の各部位の動作の遷移および表情の遷移と、上位行動特定ルール27の各要素行動とを比較し、要素行動Bを特定する。
さらに、行動特定部53は、映像データから要素行動の特定を繰り返すことで、要素行動の遷移を特定する。そして、行動特定部53は、要素行動の遷移と、上位行動特定ルール27とを比較することで、映像データに写る人物の現行動XXを特定することができる。
なお、図18の例では、各フレームについて、各部位の動作と表情の両方を特定する例を説明したが、これに限定されるものではない。例えば、人物の表情は、人物の内面の変化に影響を受けることから、ある行動を起こしたときの表情がその行動時の内面を表す表情とは限らない。つまり、ある行動が起こしてから表情が変わる場合、ある行動を起こす前後で表情が変わることもよくある。そこで、行動特定部53は、各部位の動作特定に用いられたフレームとは異なるフレームを用いて、表情を特定することもできる。
図19は、人物の現行動の特定の別例を説明する図である。図19では、フレーム1、フレーム2、フレーム3を1つの処理単位として、動作特定が各フレームで実行され、表情認識が最新のフレーム(この例ではフレーム3)で実行される例を説明する。図19に示すように、行動特定部53は、図18と同様、フレーム1、フレーム2、フレーム3に対して骨格認識モデル24を用いた骨格認識を実行し、フレームごとに各部位の動作を特定する。一方で、行動特定部53は、フレーム3を表情認識モデル25に入力して人物の表情を特定する。
その後、行動特定部53は、図18と同様に、要素行動の特定および現行動の特定を実行する。なお、ここで説明した例は、あくまで例示であり、行動特定部53は、各部位の動作特定を各フレームで実行し、表情認識を最初のフレームで実行してもよい。また、行動特定部53は、動作特定については各フレームで実行する一方で、表情認識については複数フレーム(図19ではフレーム1からフレーム3)を用いてフレーム間で生じる表情や表情の遷移を特定することもできる。
(将来の行動予測)
行動予測部54は、人物の現行動と関係性と用いて、人物の将来の行動予測を実行する処理部である。具体的には、行動予測部54は、関係性特定部52により特定された関係性と、行動特定部53により特定された人物の現行動とを確率モデル28に入力し、人物の将来の行動を予測する。そして、行動予測部54は、予測結果を管理者の端末に送信したり、ディスプレイ等に表示したりする。
図20は、人物の行動予測を説明する図である。図20に示すように、行動予測部54は、フレーム1の時点では、その時点で特定された関係性「持つ」を取得し、フレーム2の時点では、その時点で特定された関係性「商品を右手に持つ」を取得し、フレーム3の時点では、その時点で特定された関係性「持つ」および現在の行動XXを取得する。そして、行動予測部54は、最新の関係性と現在の行動XXとを確率モデル28(HMM)に入力することで、人物の行動を予測する。なお、ここで示した関係性は、あくまで一例であり、HOID用のモデルを用いた場合には、「人物Aが商品Bを持つ」などのように、「だれが何をどのようにしているか」を特定できる関係性が特定される。
図21は、確率モデル28を用いた人物の行動予測を説明する図である。図21に示すように、行動予測部54は、現在までの行動の遷移および関係性の遷移を含む観測情報をHMMに入力し、「行動」を推定する。そして、行動予測部54は、確率モデル28の各状態の遷移確率にしたがって、推定した「行動」からの遷移確率のうち、最も遷移確率が高い「行動」を特定し、特定した「行動」を人物の将来の行動として予測する。
具体例を挙げると、行動予測部54は、現在時刻において「人がドライバーを持っている」という観測情報が得られた場合、HMMに過去から現在までの観測情報を入力することで、現在時刻の行動として「人がドライバーを取る」という行動を推定する。その後、行動予測部54は、HMMの各遷移確率のみにしたがって、現在の行動「人がドライバーを取る」から他の行動への遷移確率のうち最も高い遷移確率である行動「人がネジ閉めを行う」を特定する。この結果、行動予測部54は、一定時間後の未来の行動として「人がネジ閉めを行う」を予測する。
なお、図21示した観測情報には、観測情報の遷移に限らず、最新の観測情報(現在の行動と関係性)を用いることもできる。また、観測情報には、現在の行動に代わりに「骨格情報と表情の組合せ」を用いることもできる。いずれの情報を用いるかは、HMMの構成(学習内容)により決定される。
また、図20では、行動予測部54が、現在の行動と最新の表情とを用いて行動予測を実行する例を説明したが、これに限定されるものではない。上述したように、人物の表情は、人物の内面の変化に大きな影響を受けるので、最新の行動が現在の表情を表すとは限らない。したがって、図20に示すように、行動予測部54が、最新のフレーム3により特定された現在の行動と、フレーム3までに認識された少なくとも1つの関係性もしくはフレーム1からフレーム3までの関係性の変化とを用いて、行動予測を実行することもできる。
このとき、行動予測部54が、現在の行動がある時刻における画像データの一例である第一のフレームで特定され、関係性が第二のフレームで特定された場合、第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、第二のフレームが検出されるか否かを判定する。そして、行動予測部54が、第二のフレームが予め設定された範囲内に検出された判定された場合に、第一のフレームに含まれる人物の行動と、第二のフレームに含まれる関係性とに基づいて、人物の今後の行動または状態を予測する。
つまり、行動予測部54は、ある程度近いタイミングで検出された現在の行動と関係性とを用いて、人物の今後の行動または状態を予測する。なお、予め設定された範囲は任意に設定することができ、現在の行動と関係性とのどちらが先に特定されていてもよい。
<処理の流れ>
図22は、行動予測処理の流れを示すフローチャートである。なお、ここでは、事前処理は完了済とする。図22に示すように、運用処理部50は、1フレームを取得すると(S101:Yes)、フレームを関係性モデル23に入力し、関係性モデル23の出力結果に基づき、フレームに写っている対象物を特定し(S102)、対象物の関係性を特定する(S103)。
そして、運用処理部50は、フレームを骨格認識モデル24に入力して、例えば各部位の動作を示す人物の骨格情報を取得する(S104)。なお、運用処理部50は、S103において、フレームに人物が写っていない場合は、S104を省略する。
また、運用処理部50は、フレームを表情認識モデル25に入力して、出力結果と表情認識ルール26とから、人物の表情を特定する(S105)。なお、運用処理部50は、S103において、フレームに人物が写っていない場合は、S105を省略する。
その後、運用処理部50は、人物の骨格情報と表情とを用いて、上位行動特定ルール27から該当する要素行動を特定する(S106)。ここで、運用処理部50は、人物の現在の行動が特定されていない場合(S107:No)、次のフレームについてS101以降を繰り返す。
一方、運用処理部50は、人物の現在の行動が特定された場合(S107:Yes)、現在の行動と特定済みの関係性とを確率モデル28に入力して、人物の将来の行動を予測する(S108)。その後、運用処理部50は、行動予測の結果を出力する(S109)。
<具体例>
次に、上述した情報処理装置10による行動予測を用いた安心安全な社会の実現に寄与するソリューションの具体例について説明する。ここでは、人と物の関係性を用いたソリューションと、人と人の関係性を用いたソリューションとについて説明する。
(人と物の関係性を用いたソリューション)
図23は、人と物に関連する行動予測を適用したソリューション例を説明する図である。図23では、スーパーマーケットなどの監視カメラにより撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、1つの映像データ内の1つのフレームもしくは複数のフレームに跨って実行される。
図23に示すように、情報処理装置10は、関係性モデル23を用いて、映像データ内のフレームから、人物や物体に関する情報「人物Aと商品A、人物Bとカート、人物Cと財布、人物D」および関係性に関する情報「人物Aの商品Aに対する関係性「持つ」」、「人物Bのカートに対する関係性「押す」」、「人物Cの財布に対する関係性「触る」」を特定する。ここで、人物Dについては、物が検出されていないので、関係性は特定されない。
また、情報処理装置10は、骨格認識モデル24を用いた骨格認識、表情認識モデル25を用いた表情認識を実行し、それらの認識結果を用いて、人物Aの現在の行動「商品Aを持っている」、人物Bの現在の行動「カートを押す」、人物Cの現在の行動「歩く」、人物Dの現在の行動「立ち止まる」を特定する。
そして、情報処理装置10は、現在の行動と関係性とを用いた行動予測により、人物Aの将来の行動「商品Aを購入する可能性が高い」、人物Bの将来の行動「万引きする可能性が高い」、人物Cの将来の行動「買い物せずに退店する可能性が高い」を予測する。ここで、人物Dについては関係性が特定されていないので、行動予測の対象外となる。
つまり、情報処理装置10は、映像データの所定のエリアである商品棚のエリアを移動する顧客と、顧客が購入する対象の商品とを特定し、顧客の商品に対する行動の種類(例えば、見る、持つなど)を関係性として特定し、顧客の商品に対する購買に関する行動(例えば、購入や万引きなど)を予測する。
このように、情報処理装置10は、上述した行動予測を、購入に至るまでの行動や経路などの購買行動の解析や購買マーケティングなどに役立てることができる。また、情報処理装置10は、人物Bのように万引きなどの犯罪発生の可能性が高い人物を検出し、当該人物の監視を強化するなど、犯罪の防止に役立てることができる。
(人と人の関係性を用いたソリューション)
図24は、人と人に関連する行動予測を適用したソリューション例を説明する図である。図24では、街路などの監視カメラにより夜間に撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、1つの映像データ内の1つのフレームもしくは複数のフレームに跨って実行される。
図24に示すように、情報処理装置10は、関係性モデル23を用いて、映像データ内のフレームから、人物に関する情報「人物A(女性:20代)と人物B(男性:40代) 」および関係性に関する情報「人物Aの人物Bに対する関係性「近い」」、「人物Bの人物Aに対する関係性「ストーキング」」を特定する。
また、情報処理装置10は、骨格認識モデル24を用いた骨格認識、表情認識モデル25を用いた表情認識を実行し、それらの認識結果を用いて、人物Aの現在の行動「人物Bの前を歩く」、人物Bの現在の行動「隠れる」を特定する。
そして、情報処理装置10は、現在の行動と関係性とを用いた行動予測により、人物Aの将来の行動「人物Bに襲われる可能性が高い」、人物Bの将来の行動「人物Aを襲う可能性が高い」を予測する。
つまり、情報処理装置10は、人物Aを被害者、人物Bを犯人とし、犯人の被害者に対する関係性「ストーキング」により、人物Bの人物Aに対する犯罪行為の予測を実現することができる。この結果、情報処理装置10は、上記行動予測により犯罪発生の可能性が高い場所を検出し、警察官等を向かわせるなどの防止策を実行することができる。また、そのような地点に街灯を増やすなどの対応策の検討に役立てることができる。
<効果>
上述したように、情報処理装置10は、事故や犯罪の発生ではなく、兆候を予測することができるので、映像データから事前に対策が必要な状況を検出することができる。また、情報処理装置10は、監視カメラなどの一般的なカメラが撮像する映像データから行動予測を実行することができるので、複雑なシステム構成や新たな装置を必要とせず、既存のシステムに導入することができる。また、情報処理装置10は、既存のシステムに導入するので、新規システム構築よりもコストを削減できる。また、情報処理装置10は、過去および現在の行動から連続するような単純な行動の予測のみならず、過去および現在の行動から単純に特定することができないような人物の複雑な行動を予測することができる。これにより、情報処理装置10は、人物の将来の行動の予測精度を向上させることができる。
また、情報処理装置10は、3次元画像データなどを用いることなく、2次元画像データを用いた行動予測を実現することができるので、近年利用されているレーザセンサなどを用いた処理と比較して、処理を高速化することができる。また、情報処理装置10は、高速な処理に伴い、事前に対策が必要な状況を迅速に検出することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
<数値等>
上記実施例で用いた数値例、カメラ数、ラベル名、ルール例、行動例、状態例等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも適用することができる。なお、関係性モデル23は、第一の機械学習モデル、骨格認識モデル24は、第二の機械学習モデル、表情認識モデル25は、第三の機械学習モデルの一例である。
<システム>
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
<ハードウェア>
図25は、ハードウェア構成例を説明する図である。図25に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図25に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図4に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図4に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図4等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、事前処理部40と運用処理部50等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、事前処理部40と運用処理部50等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置10は、プログラムを読み出して実行することで行動予測方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
10 情報処理装置
11 通信部
20 記憶部
21 映像データDB
22 訓練データDB
23 関係性モデル
24 骨格認識モデル
25 表情認識モデル
26 表情認識ルール
27 上位行動特定ルール
28 確率モデル
30 制御部
40 事前処理部
41 関係性モデル生成部
42 骨格認識モデル生成部
43 表情認識モデル生成部
44 ルール生成部
45 確率モデル生成部
50 運用処理部
51 取得部
52 関係性特定部
53 行動特定部
54 行動予測部

Claims (10)

  1. 人物と物体を含む対象物を有する映像データを取得し、
    取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
    処理をコンピュータに実行させる情報処理プログラム。
  2. 前記特定された人物の行動は、
    前記映像データを構成する複数のフレームのうち、第一のフレームに含まれ、
    前記特定された関係性は、
    前記映像データを構成する複数のフレームのうち、第二のフレームに含まれ、
    前記予測する処理は、
    前記第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、前記第二のフレームが検出されるか否かを判定し、
    前記第二のフレームが予め設定されたフレームの数または時間の範囲内に検出された判定された場合に、前記第一のフレームに含まれる人物の行動と、前記第二のフレームに含まれる関係性とに基づいて、前記人物の今後の行動または状態を予測する、ことを特徴とする請求項1に記載の情報処理プログラム。
  3. 前記行動を特定する処理は、
    画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークが出力する出力結果と、動作のラベルである正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第二の機械学習モデルを取得し、
    前記映像データを前記第二の機械学習モデルに入力することで、前記人物の部位ごとの動作を特定し、
    前記人物の表情を含む画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークから出力された出力結果と、前記人物の表情の各マーカの強度である目的変数を示す正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第三の機械学習モデルを取得し、
    前記映像データを前記第三の機械学習モデルに入力することで、前記人物のマーカの強度を生成し、生成された前記マーカを用いて、前記人物の表情を特定し、
    特定した前記人物の部位ごとの動作と、特定した前記人物の表情と、予め設定されたルールとを比較することで、前記映像データの中の前記人物の行動を特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  4. 前記第一の機械学習モデルは、
    人物を示す第1クラスおよび前記人物が出現する領域を示す第1領域情報と、物体を示す第2クラスおよび前記物体が出現する領域を示す第2領域情報と、前記第1クラスと前記第2クラスとの関係性と、を識別するように、機械学習により生成されたHOID(Human Object Interaction Detection)用のモデルであり、
    前記関係性を特定する処理は、
    前記映像データを前記HOID用のモデルに入力し、
    前記HOID用のモデルの出力として、前記映像データに出現する人物と物体について、前記第1クラスおよび前記第1領域情報、前記第2クラスおよび前記第2領域情報、前記第1クラスと前記第2クラスとの関係性を取得し、
    取得した結果に基づき、前記人物と前記物体との間の関係性と特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  5. 前記人物は、前記映像データの所定のエリアを移動する顧客であり、
    前記物体は、前記顧客が購入する対象の商品であり、
    前記関係性は、前記人物の前記商品に対する行動の種類であり、
    前記予測する処理は、前記人物の今後の行動または状態として、前記顧客の商品に対する購買に関する行動を予測する、ことを特徴とする請求項4に記載の情報処理プログラム。
  6. 前記第一の機械学習モデルは、
    第一の人物を示す第1クラスおよび前記第一の人物が出現する領域を示す第1領域情報と、第二の人物を示す第2クラスおよび前記第二の人物が出現する領域を示す第2領域情報と、前記第1クラスと前記第2クラスとの関係性と、を識別するように機械学習により生成されたHOID(Human Object Interaction Detection)用のモデルであり、
    前記関係性を特定する処理は、
    前記映像データを前記HOID用のモデルに入力し、
    前記HOID用のモデルの出力として、前記映像データに出現する各人物について、前記第1クラスおよび前記第1領域情報、前記第2クラスおよび前記第2領域情報、前記第1クラスと前記第2クラスとの関係性を取得し、
    取得した結果に基づき、前記各人物間の関係性と特定する、ことを特徴とする請求項1に記載の情報処理プログラム。
  7. 前記第一の人物は、犯人であり、
    前記第二の人物は、被害者であり、
    前記関係性は、前記第一の人物の前記第二の人物に対する行動の種類であり、
    前記予測する処理は、前記人物の今後の行動または状態として、前記第一の人物が前記第二の人物に対する犯罪行為を予測する、ことを特徴とする請求項6に記載の情報処理プログラム。
  8. 前記予測する処理は、
    特定した前記人物の行動と、特定した前記関係性とを、前記確率モデルに入力して行動または状態を推定し、
    前記確率モデルにしたがって、推定された前記行動または前記状態からの状態遷移の確率が最も高い行動または状態を、前記人物の今後の行動または状態として予測する、ことを特徴とする請求項1から7のいずれか一つに記載の情報処理プログラム。
  9. 人物と物体を含む対象物を有する映像データを取得し、
    取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
    処理をコンピュータが実行する情報処理方法。
  10. 人物と物体を含む対象物を有する映像データを取得し、
    取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
    取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
    特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
    制御部を有する情報処理装置。
JP2021215309A 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置 Pending JP2023098505A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021215309A JP2023098505A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置
EP22197101.3A EP4207097A1 (en) 2021-12-28 2022-09-22 Information processing program, information processing method, and information processing apparatus
US17/952,311 US20230206640A1 (en) 2021-12-28 2022-09-26 Non-transitory computer-readable recording medium, information processing method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021215309A JP2023098505A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2023098505A true JP2023098505A (ja) 2023-07-10

Family

ID=83438421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021215309A Pending JP2023098505A (ja) 2021-12-28 2021-12-28 情報処理プログラム、情報処理方法および情報処理装置

Country Status (3)

Country Link
US (1) US20230206640A1 (ja)
EP (1) EP4207097A1 (ja)
JP (1) JP2023098505A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200057964A1 (en) * 2018-08-20 2020-02-20 Newton Howard Brain operating system
JP7119912B2 (ja) 2018-10-31 2022-08-17 富士通株式会社 行動認識方法、行動認識プログラムおよび行動認識装置
JP7172472B2 (ja) 2018-11-09 2022-11-16 富士通株式会社 ルール生成装置、ルール生成方法及びルール生成プログラム
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
JP7452016B2 (ja) 2020-01-09 2024-03-19 富士通株式会社 学習データ生成プログラム、及び学習データ生成方法

Also Published As

Publication number Publication date
US20230206640A1 (en) 2023-06-29
EP4207097A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
US11669979B2 (en) Method of searching data to identify images of an object captured by a camera system
Buxton Learning and understanding dynamic scene activity: a review
US20120106782A1 (en) Detector for chemical, biological and/or radiological attacks
JP7185805B2 (ja) 転倒リスク評価システム
Bertoni et al. Perceiving humans: from monocular 3d localization to social distancing
US10929688B2 (en) System and method of video content filtering
Gu et al. Task oriented facial behavior recognition with selective sensing
WO2023127156A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098505A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098506A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2023098484A (ja) 情報処理プログラム、情報処理方法および情報処理装置
EP4207107A1 (en) Information processing program, information processing method, and information processing apparatus
US20230206694A1 (en) Non-transitory computer-readable recording medium, information processing method, and information processing apparatus
WO2022038702A1 (en) Causal interaction detection apparatus, control method, and computer-readable storage medium
Singh et al. Hybrid neural network model for reconstruction of occluded regions in multi-gait scenario
Ali et al. Estimating Human Running Indoor Based on the Speed of Human Detection by Using OpenPose
Ye et al. Tracking People in Video Using Neural Network Features and Facial Identification Taking into Account the Mask Mode
Ashwin Shenoy et al. Enhancing temple surveillance through human activity recognition: A novel dataset and YOLOv4-ConvLSTM approach
Husz Articulated human tracking and behavioural analysis in video sequences
Reig-Bolaño et al. Image processing to detect and classify situations and states of elderly people
Madokoro et al. Classification of Trajectories Using Category Maps and U-Matrix to Predict Interests Used for Event Sites