JP2023098505A

JP2023098505A - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: JP2023098505A
Application number: JP2021215309A
Authority: JP
Inventors: 純也藤本; Junya Fujimoto; 諒石田; Ryo Ishida; 由樹雄平井; Yukio Hirai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-07-10
Also published as: US20230206640A1; EP4207097A1

Abstract

【課題】映像データから事前に対策が必要な状況を検出することを課題とする。【解決手段】情報処理装置は、人物と物体を含む対象物を有する映像データを取得し、取得された映像データを、第一の機械学習モデルに入力することで、取得した映像データの中の各対象物のそれぞれの関係性を特定する。情報処理装置は、取得した映像データに含まれる人物の特徴量を用いて、映像データの中の人物の行動を特定する。情報処理装置は、特定した人物の行動と、特定した関係性とを、確率モデルに入力することで、人物の今後の行動または状態を予測する。【選択図】図２

Description

本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。

映像データから人の行動を認識する行動認識技術が知られている。例えば、カメラなどにより撮像された映像データから、映像データ内の人物の骨格情報を用いて、人物が行った動作や行動を認識する技術が知られている。近年では、スーパーマーケットやコンビニエンスストアへのセルフレジの普及や、学校、電車、公共施設などの監視カメラの普及などに伴い、人物の行動認識の導入が進んでいる。

国際公開第２０１９／０４９２１６号

しかしながら、上記行動認識技術により認識された人物の行動とは、人物が現在または過去に行った行動を示している。従って、人物が所定の行動を行ったことを認識した後に、対策を講じても手遅れであることがある。

一つの側面では、映像データから事前に対策が必要な状況を検出することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

第１の案では、情報処理プログラムは、人物と物体を含む対象物を有する映像データを取得し、取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、処理をコンピュータに実行させる。

一実施形態によれば、映像データから事前に対策が必要な状況を検出することができる。

図１は、実施例１にかかる行動予測システムの全体構成例を示す図である。図２は、実施例１にかかる行動予測を実現する情報処理装置を説明する図である。図３は、行動予測の具体例を説明する図である。図４は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図５は、表情認識ルールの一例を示す図である。図６は、上位行動特定ルールの一例を示す図である。図７は、確率モデルの一例を示す図である。図８は、訓練データを説明する図である。図９は、関係性モデルの機械学習を説明する図である。図１０は、骨格認識モデルの生成を説明する図である。図１１は、表情認識モデルの生成例を説明する図である。図１２は、カメラの配置例を示す図である。図１３は、マーカの移動について説明する図である。図１４は、上位行動特定ルールの生成例を説明する図である。図１５は、確率モデルの生成例を説明する図である。図１６は、関係性の特定を説明する図である。図１７は、ＨＯＩＤによる関係性の特定を説明する図である。図１８は、人物の現行動の具体的な特定例を説明する図である。図１９は、人物の現行動の特定の別例を説明する図である。図２０は、人物の行動予測を説明する図である。図２１は、確率モデルを用いた人物の行動予測を説明する図である。図２２は、行動予測処理の流れを示すフローチャートである。図２３は、人と物に関連する行動予測を適用したソリューション例を説明する図である。図２４は、人と人に関連する行動予測を適用したソリューション例を説明する図である。図２５は、ハードウェア構成例を説明する図である。

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

＜全体構成＞
図１は、実施例１にかかる行動予測システムの全体構成例を示す図である。図１に示すように、この行動予測システムは、空間の一例である店舗１と、それぞれが店舗１内の異なる場所に設置された複数のカメラ２と、映像データの解析を実行する情報処理装置１０とを有する。

複数のカメラ２それぞれは、店舗１内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置１０に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数のフレームが含まれる。各フレームには、時系列の昇順に、フレーム番号が付与される。１つのフレームは、カメラ２があるタイミングで撮影した静止画像の画像データである。

情報処理装置１０は、複数のカメラ２それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ２それぞれと情報処理装置１０とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。

近年、店舗１内に限らず、街中、駅のホームなどにも監視カメラが設定されるようになっており、監視カメラで取得された映像データを用いて、安心安全な社会を目指す様々なサービスが提供されている。例えば、万引きの発生、事故の発生、飛び降り自殺の発生などを検出して、事後処理に役立てるサービスなどが提供されつつある。しかし、現状提供されるいずれのサービスも事後検知であり、万引きの兆候、不審者の可能性、病気の発作の兆候、認知症やアルツハイマー症などの一見では判断が難しい兆候など、未然抑止という観点では、映像データを有効的に活用できているとは言い難い。

そこで、実施例１では、現在の人の表情や行動を分析する「行動分析」と、周辺環境や物、それらの関係性を検出する「コンテキストセンシング」とを組み合わせて、将来の人の行動や内面を予測する「行動予測」を実現する情報処理装置１０について説明する。

図２は、実施例１にかかる行動予測を実現する情報処理装置１０を説明する図である。図２に示すように、情報処理装置１０は、映像データに対して、関係性の特定と人物の行動認識とを実行し、特定された関係性および認識された行動を用いて、人物の行動予測を実行する。

具体的には、情報処理装置１０は、人物と物体を含む対象物を有する映像データを取得する。そして、情報処理装置１０は、映像データ内の対象物間の関係性を特定する関係性モデルを用いて、映像データの中の各対象物のそれぞれの関係性を特定する。一方で、情報処理装置１０は、映像データに含まれる人物の特徴量を用いて、映像データの中の人物の現行動を特定する。その後、情報処理装置１０は、特定した人物の現行動と、特定した関係性とを、確率モデルに入力することで、万引きの予兆などの人物の今後の行動またはアルツハイマーなどの人物の状態を予測する。

例えば、図２に示すように、情報処理装置１０は、映像データを関係性モデルに入力し、映像データ内の人物と人物の関係性、または、映像データ内の人物と物（物体）の関係性を特定する。

また、情報処理装置１０は、行動分析器と表情分析器とを用いて人物の現在の行動認識を実行する。具体的には、行動分析器は、訓練済みの骨格認識モデルに映像データを入力して、特徴量の一例である人物の骨格情報を取得する。表情認識器は、訓練済みの表情認識モデルに映像データを入力して、特徴量の一例である人物の表情情報を取得する。そして、情報処理装置１０は、予め定められた行動特定ルールを参照し、特定された人物の骨格情報と表情情報との組合せに該当する人物の現在の行動を認識する。

その後、情報処理装置１０は、隠れマルコフモデルなどを用いたモデルの一例である確率モデルに、人物と人物の関係性または人物と物体の関係性と、人物の現在の行動とを入力し、人物の今後の行動予測の結果を取得する。

ここで、情報処理装置１０が予測する行動は、短期的な予測から長期的な予測を実行することができる。図３は、行動予測の具体例を説明する図である。図３に示すように、情報処理装置が予測する行動予測には、購買行動や万引きなどのように人物の外見で判断できる「行動」に限らず、疾患などのように人物の外見では判断が難しく、人物の内面の影響を受ける「感情」および「状態」が含まれる。

具体的には、情報処理装置１０は、数秒から数分先の超短期的な予測として、「ロボットによる人間支援」や「オンラインコミュニケーション支援」などの発生や必要性などを予測する。情報処理装置１０は、数時間先の短期的な予測として、「店舗における購買行動」、「万引きやストーキングなどの犯罪」、「自殺行為」などの突発的な事象や現在の行動場所からの移動量が少ない事象の発生などを予測する。情報処理装置１０は、数日先の中期的な予測として、「交番襲撃」や「家庭内暴力」などの計画的な犯罪の発生などを予測する。情報処理装置１０は、数か月先の超器的な予測として、「勉強や売り上げなどの成績向上」や「アルツハイマーなどの疾患予測」などの見た目では分からない潜在的な事象（状態）の発生などを予測する。

このように、情報処理装置１０は、映像データから事前に対策が必要な状況を検出することができ、安心安全な社会を目指すサービスの提供を実現することができる。

＜機能構成＞
図４は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図４に示すように、情報処理装置１０は、通信部１１、記憶部２０、制御部３０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、各カメラ２から映像データなどを受信し、情報処理装置１０の処理結果などを、予め指定された装置等に出力する。

記憶部２０は、各種データや制御部３０が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部２０は、映像データＤＢ２１、訓練データＤＢ２２、関係性モデル２３、骨格認識モデル２４、表情認識モデル２５、表情認識ルール２６、上位行動特定ルール２７、確率モデル２８を記憶する。

映像データＤＢ２１は、店舗１に設置される複数のカメラ２それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データＤＢ１６は、カメラ２ごと、または、撮像された時間帯ごとに、映像データを記憶する。

訓練データＤＢ２２は、グラフデータや、骨格認識モデル２４、表情認識モデル２５、確率モデル２８などの各種機械学習モデルの生成に用いられる各種訓練データを記憶するデータベースである。ここで記憶される訓練データは、正解情報が付加された教師ありの訓練データや、正解情報が付加されていない教師なしの訓練データが含まれる。

関係性モデル２３は、映像データに含まれる各対象物の関係を識別する機械学習モデルの一例である。具体的には、関係性モデル２３は、人物と人物の関係性、または、人物と物（物体）の関係性を識別する、機械学習により生成されたＨＯＩＤ（Human Object Interaction Detection）用のモデルである。

例えば、人物と人物の関係性の特定時には、関係性モデル２３として、映像データ内のフレームの入力に応じて、第一の人物を示す第１クラスおよび第一の人物が出現する領域を示す第１領域情報と、第二の人物を示す第２クラスおよび第二の人物が出現する領域を示す第２領域情報と、第１クラスと第２クラスとの関係性と、を特定して出力するＨＯＩＤ用のモデルが用いられる。

また、人物と物体の関係性の特定時には、関係性モデル２３として、人物を示す第１クラスおよび人物が出現する領域を示す第１領域情報と、物体を示す第２クラスおよび物体が出現する領域を示す第２領域情報と、第１クラスと第２クラスとの関係性と、を特定して出力するＨＯＩＤ用のモデルが用いられる。

なお、ここで示した関係性とは、あくまで一例として、「持つ」などの単純な関係性に限らず、「商品Ａを右手に持つ」、「前を歩く人をストーキングしている」、「後ろを気にしている」などの複雑な関係性が含まれる。なお、関係性モデル２３として、上記２つのＨＯＩＤ用のモデルを別々に用いてもよく、人物と人物の関係性および人物と物体の関係性の両方を識別するように生成された１つのＨＯＩＤ用のモデルを用いてもよい。また、関係性モデル２３は、後述する制御部３０により生成されるが、予め生成されたモデルを使用してもよい。

骨格認識モデル２４は、人物の特徴量の一例である骨格情報を生成する機械学習モデルの一例である。具体的には、骨格認識モデル２４は、画像データの入力に応じて、２次元の骨格情報を出力する。例えば、骨格認識モデル２４は、人物の２次元画像データに対して、頭、手首、腰、足首などの２次元の関節位置（骨格座標）を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。

この骨格認識モデル２４を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。基本となる動作とは、例えば歩く、走る、止まるなどである。ユーザが定義したルールとは、商品を手に取るまでの各行動に該当する骨格情報の遷移などである。なお、骨格認識モデル２４は、後述する制御部３０により生成されるが、予め生成されたデータを使用してもよい。

表情認識モデル２５は、人物の特徴量の一例である表情に関する表情情報を生成する機械学習モデルの一例である。具体的には、表情認識モデル２５は、表情を顔の部位と表情筋に基づいて分解して定量化する手法であるＡＵ（Action Unit：アクションユニット）を推定する機械学習モデルである。この表情認識モデル２５は、画像データの入力に応じて、表情を特定するために設定されるＡＵ１からＡＵ２８の各ＡＵの発生強度（例えば５段階評価）で表現した「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、・・・」のような表情認識結果を出力する。なお、表情認識モデル２５は、後述する制御部３０により生成されるが、予め生成されたデータを使用してもよい。

表情認識ルール２６は、表情認識モデル２５の出力結果を用いて表情を認識するためのルールである。図５は、表情認識ルール２６の一例を示す図である。図５に示すように、表情認識ルール２６は、「表情」と「推定結果」を対応付けて記憶する。「表情」は、認識対象の表情であり、「推定結果」は、各表情に該当するＡＵ１からＡＵ２８の各ＡＵの強度である。図５の例では、「ＡＵ１が強度２、ＡＵ２が強度５、ＡＵ３が強度０・・・」の場合は表情「笑顔」と認識されることを示している。なお、表情認識ルール２６は、管理者等により予め登録されたデータである。

上位行動特定ルール２７は、人物の現在の行動を特定するためのルールである。図６は、上位行動特定ルール２７の一例を示す図である。図６に示すように、上位行動特定ルール２７は、現在の行動と、現在の行動を特定するために実行される要素行動の遷移とを対応付けたルールである。

図６の例では、要素行動Ｂ、要素行動Ａ、要素行動Ｐ、要素行動Ｊが順に行われた場合に、現在の行動ＸＸと特定することが定義されている。例えば、現在の行動ＸＸとは「商品Ａに関心ある行動」であり、要素行動Ｂとは「立ち止まる」、要素行動Ａとは「商品Ａを眺める」、要素行動Ｐとは「商品Ａを手に取る」、要素行動Ｊとは「商品Ａをカゴに入れる」などである。

また、各要素行動には、基本動作と表情とが対応付けられる。例えば、要素行動Ｂに対して、基本動作について「時刻ｔ１から時刻ｔ３の間の時系列パターンとして、全身の基本動作が基本動作０２、０３、０３に遷移、かつ、右腕の基本動作が基本動作２７、２５、２５に遷移、かつ、顔の基本動作が基本動作４８、４８、４８に遷移する」こと、かつ、表情について「時刻ｔ１から時刻ｔ３の間の時系列パターンとして、表情Ｈが継続する」ことが定義されている。

なお、基本動作０２などの表記は、説明上、各基本動作を識別する識別子で表記したものであり、例えば立ち止まる、腕を上げる、しゃがむなどが該当する。同様に、表情Ｈなどの表記は、説明上、各表情を識別する識別子で表記したものであり、例えば笑顔、怒り顔などが該当する。なお、上位行動特定ルール２７は、後述する制御部３０により生成されるが、予め生成されたデータを使用してもよい。

確率モデル２８は、基本動作と表情情報とから、人物の将来の行動や状態を予測する確率モデルの一例である。例えば、確率モデル２８には、状態が直接観測できない状況で、状態に依存する観測可能な変数の値が決まる隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いることができる。なお、本実施例において、隠れマルコフモデルの状態は、将来の行動に該当し、変数の値は、現在の行動（もしくは骨格情報と表情の組合せ）および関係性を含む観測情報に該当する。また、各状態間は、遷移確率が定義されており、状態と観測情報との間には、状態と観測情報との関係を表す確率分布が定義されている。

図７は、確率モデル２８の一例を示す図である。図７に示すように、確率モデル２８は、状態として予測対象である行動Ａ、行動Ｂ、行動Ｃを含み、各状態間の遷移確率が学習されるとともに、状態と観測可能な情報（観測情報）との間の確率分布が学習された隠れマルコフモデルである。

例えば、図７の隠れマルコフモデルには、行動Ａについて、行動Ａから行動Ａに遷移する確率が３０％、行動Ａから行動Ｂへ遷移する確率が６０％、行動Ａから行動Ｃへ遷移する確率が１０％であることが示されている。また、図７の隠れマルコフモデルには、行動Ａに対しては観測情報Ａ－１と観測情報Ａ－２とが対応付けられており、行動Ａの状態のときに、観測情報Ａ－１が観測される確率が６０％、観測情報Ａ－２が観測される確率が４０％であることが示されている。

すなわち、情報処理装置１０は、このような隠れマルコフモデルを用いることで、過去から現在の観測情報を用いて行動を推定し、推定される行動の確率に対して、隠れマルコフモデルの遷移確率のみから将来の行動（今後の行動）を予測することができる。

なお、隠れマルコフモデルに用いる観測情報は、任意に変更することができる。例えば、観測情報として「現在の行動」および「関係性」を用い、各状態として「予測対象の行動」を用いる隠れマルコフモデルを採用することができる。すなわち、隠れマルコフモデルは、映像データから得られた観測情報「現在の行動および関係性」が入力されると、この観測情報を用いて近い将来もしくは現在の「行動」を推定する。そして、情報処理装置１０は、隠れマルコフモデルにしたがって、この「行動」から最も遷移確率が高い「行動」を将来の行動と予測して出力する。

このように、情報処理装置１０は、骨格情報等から特定される現在の行動を、隠れマルコフモデルを用いて再予測し、現在の行動の信頼性を高めたうえで、将来の行動予測を実行できるので、精度の向上が期待できる。

別例としては、観測情報として「現在までの骨格情報および表情」と「関係性」とを用い、各状態として「予測対象の行動」を用いる隠れマルコフモデルを採用することができる。すなわち、隠れマルコフモデルは、映像データから得られた観測情報「現在の骨格情報、表情、関係性」が入力されると、この観測情報から現在の「行動」を推定する。そして、情報処理装置１０は、隠れマルコフモデルにしたがって、この現在の「行動」から最も遷移確率が高い「行動」を将来の行動と予測して出力する。

このように、情報処理装置１０は、骨格情報等から隠れマルコフモデルを用いて現在の行動を直接予測した後に将来の行動予測を実行できるので、予測速度の向上が期待できる。

図４に戻り、制御部３０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部３０は、事前処理部４０と運用処理部５０を有する。なお、事前処理部４０と運用処理部５０は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

＜事前処理部４０＞
事前処理部４０は、行動予測の運用に先立って、記憶部２０に記憶される訓練データを用いて、各モデルやルールなどの生成を実行する処理部である。事前処理部４０は、関係性モデル生成部４１、骨格認識モデル生成部４２、表情認識モデル生成部４３、ルール生成部４４、確率モデル生成部４５を有する。

（関係性モデルの生成）
関係性モデル生成部４１は、訓練データＤＢ２２に記憶される訓練データを用いて、関係性モデル２３を生成する処理部である。ここでは、一例として、関係性モデル２３として、ニューラルネットワークなどを用いたＨＯＩＤ用のモデルを生成する例で説明する。なお、あくまで一例として、人物と物体の関係性を特定するＨＯＩＤ用のモデルの生成について説明するが、人物と人物の関係性を特定するＨＯＩＤ用のモデルについても同様に生成することができる。

まず、ＨＯＩＤ用のモデルの機械学習に利用する訓練データについて説明する。図８は、訓練データを説明する図である。図８に示すように、各訓練データは、入力データとなる画像データと、当該画像データに対して設定された正解情報とを有する。

正解情報には、検出対象である人物のクラス（第１クラス）と、人物による購入や操作対象である物体のクラス（第２クラス）と、人物と物体の相互作用を示す関係性クラスと、各クラスの領域を示すＢｂｏｘ（Bounding Box：物体の領域情報）とが設定される。すなわち、正解情報として、人物が把持している物体に関する情報が設定される。なお、人物と物体の相互作用は、人物と物体の関係性の一例である。また、人物と人物の関係性の特定に利用する場合には、第２クラスとして他方の人物を示すクラス、第２クラスの領域情報として他方の人の領域情報、関係性クラスとして人物と人物の関係性を用いる。

次に、訓練データを用いたＨＯＩＤ用のモデルの機械学習について説明する。図９は、関係性モデル２３の機械学習を説明する図である。図９に示すように、関係性モデル生成部４１は、訓練データをＨＯＩＤ用のモデルに入力し、ＨＯＩＤ用のモデルの出力結果を取得する。この出力結果には、ＨＯＩＤ用のモデルが検出した人物のクラスと、物体のクラスと、人物と物体の関係性（相互作用）などが含まれる。そして、関係性モデル生成部４１は、訓練データの正解情報とＨＯＩＤ用のモデルの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりＨＯＩＤ用のモデルの機械学習を実行する。なお、ＨＯＩＤ用のモデルの生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。

（骨格認識モデル２４の生成）
骨格認識モデル生成部４２は、訓練データを用いて、骨格認識モデル２４の生成を実行する処理部である。具体的には、骨格認識モデル生成部４２は、正解情報（ラベル）付の訓練データを用いた教師あり学習により、骨格認識モデル２４を生成する。

図１０は、骨格認識モデル２４の生成を説明する図である。図１０に示すように、骨格認識モデル生成部４２は、基本動作のラベルが付与された基本動作の画像データを骨格認識モデル２４に入力し、骨格認識モデル２４の出力結果とラベルとの誤差が小さくなるように、骨格認識モデル２４の機械学習を実行する。例えば、骨格認識モデル２４は、ニューラルネットワークである。骨格認識モデル生成部４２は、骨格認識モデル２４の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。骨格認識モデル２４は、画像データ（例えば基本動作の動作をしている人物の画像データ）である説明変数をニューラルネットワークに入力する。そして、骨格認識モデル２４は、ニューラルネットワークが出力する出力結果と、基本動作のラベルである正解データとの誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。

なお、訓練データとしては、「ラベル」として「歩く」、「走る」、「止まる」、「立つ」、「棚の前に立つ」、「商品を取る」、「首を右に回す」、「首を左に回す」、「上を向く」、「頭を下に傾ける」などが付加された各画像データを用いることができる。なお、骨格認識モデル２４の生成は、あくまで一例であり、他の手法を用いることができる。また、骨格認識モデル２４としては、特開２０２０－７１６６５号公報、特開２０２０－７７３４３号公報に開示される行動認識を用いることもできる。

（表情認識モデル２５の生成）
表情認識モデル生成部４３は、訓練データを用いて、表情認識モデル２５の生成を実行する処理部である。具体的には、表情認識モデル生成部４３は、正解情報（ラベル）付の訓練データを用いた教師あり学習により、表情認識モデル２５を生成する。

ここで、図１１から図１３を用いて、表情認識モデル２５の生成を説明する。図１１は、表情認識モデル２５の生成例を説明する図である。図１１に示すように、表情認識モデル生成部４３は、ＲＧＢ（Red、Green、Blue）カメラ２５ａ、ＩＲ（infrared：赤外線）カメラ２５ｂのそれぞれにより撮像された画像データに対して、訓練データの生成および機械学習を実行する。

図１１に示すように、まず、ＲＧＢカメラ２５ａ及びＩＲカメラ２５ｂは、マーカが付された人物の顔に向けられる。例えば、ＲＧＢカメラ２５ａは一般的なデジタルカメラであり、可視光を受光し画像を生成する。また、例えば、ＩＲカメラ２５ｂは、赤外線を感知する。また、マーカは、例えばＩＲ反射（再帰性反射）マーカである。ＩＲカメラ２５ｂは、マーカによるＩＲ反射を利用してモーションキャプチャを行うことができる。また、以降の説明では、撮像対象の人物を被験者と呼ぶ。

訓練データの生成処理において、表情認識モデル生成部４３は、ＲＧＢカメラ２５ａによって撮像された画像データ及びＩＲカメラ２５ｂによるモーションキャプチャの結果を取得する。そして、表情認識モデル生成部４３は、ＡＵの発生強度１２１及び撮像画像データから画像処理によりマーカを削除した画像データ１２２を生成する。例えば、発生強度１２１は、各ＡＵの発生強度をＡからＥの５段階評価で表現し、「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、…」のようにアノテーションが行われたデータであってもよい。

機械学習処理において、表情認識モデル生成部４３は、訓練データの生成処理から出力された画像データ１２２及びＡＵの発生強度１２１を用いて機械学習を行い、画像データからＡＵの発生強度を推定するための表情認識モデル２５を生成する。表情認識モデル生成部４３は、ＡＵの発生強度をラベルとして用いることができる。

ここで、図１２を用いて、カメラの配置について説明する。図１２は、カメラの配置例を示す図である。図１２に示すように、複数のＩＲカメラ２５ｂがマーカトラッキングシステムを構成していてもよい。その場合、マーカトラッキングシステムは、ステレオ撮影によりＩＲ反射マーカの位置を検出することができる。また、複数のＩＲカメラ２５ｂのそれぞれの間の相対位置関係は、カメラキャリブレーションによりあらかじめ補正されているものとする。

また、撮像される被験者の顔には、ＡＵ１からＡＵ２８をカバーするように、複数のマーカが付される。マーカの位置は、被験者の表情の変化に応じて変化する。例えば、マーカ４０１は、眉の根元付近に配置される。また、マーカ４０２及びマーカ４０３は、豊麗線の付近に配置される。マーカは、１つ以上のＡＵ及び表情筋の動きに対応した皮膚の上に配置されてもよい。また、マーカは、しわの寄り等により、テクスチャ変化が大きくなる皮膚の上を避けて配置されてもよい。

さらに、被験者は、顔の輪郭外に基準点マーカが付された器具２５ｃを装着する。被験者の表情が変化しても、器具２５ｃに付された基準点マーカの位置は変化しないものとする。このため、表情認識モデル生成部４３は、基準点マーカからの相対的な位置の変化により、顔に付されたマーカの位置の変化を検出することができる。また、基準マーカの数を３つ以上にすることで、表情認識モデル生成部４３は、３次元空間におけるマーカの位置を特定することができる。

器具２５ｃは、例えばヘッドバンドである。また、器具２５ｃは、ＶＲヘッドセット及び固い素材のマスク等であってもよい。その場合、表情認識モデル生成部４３は、器具２５ｃのリジッド表面を基準点マーカとして利用することができる。

なお、ＩＲカメラ２５ｂ及びＲＧＢカメラ２５ａによる撮影が行われる際、被験者は表情を変化させていく。これにより、時系列に沿って表情が変化していく様子を画像として取得することができる。また、ＲＧＢカメラ２５ａは、動画を撮像してもよい。動画は、時系列に並べられた複数の静止画とみなすことができる。また、被験者は、自由に表情を変化させてもよいし、あらかじめ定められたシナリオに沿って表情を変化させてもよい。

なお、ＡＵの発生強度は、マーカの移動量により判定することができる。具体的には、表情認識モデル生成部４３は、判定基準としてあらかじめ設定された位置と、マーカの位置との距離に基づいて算出したマーカの移動量を基に発生強度を判定することができる。

ここで、図１３を用いて、マーカの移動について説明する。図１３は、マーカの移動について説明する図である。図１３の（ａ）、（ｂ）、（ｃ）は、ＲＧＢカメラ２５ａによって撮像された画像である。また、画像は、（ａ）、（ｂ）、（ｃ）の順で撮像されたものとする。例えば、（ａ）は、被験者が無表情であるときの画像である。表情認識モデル生成部４３は、（ａ）の画像のマーカの位置を、移動量が０の基準位置とみなすことができる。図１３に示すように、被験者は、眉を寄せるような表情を取っている。このとき、表情の変化に従い、マーカ４０１の位置は下方向に移動している。その際、マーカ４０１の位置と、器具２５ｃに付された基準マーカとの間の距離は大きくなっている。

このようにして、表情認識モデル生成部４３は、被験者のある表情が写った画像データと、その表情時の各マーカの強度とを特定し、説明変数「画像データ」、目的変数「各マーカの強度」とする訓練データを生成する。そして、表情認識モデル生成部４３は、生成された訓練データを用いた教師あり学習により、表情認識モデル２５を生成する。例えば、表情認識モデル２５は、ニューラルネットワークである。表情認識モデル生成部４３は、表情認識モデル２５の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。表情認識モデル２５は、説明変数をニューラルネットワークに入力する。そして、表情認識モデル２５は、ニューラルネットワークから出力される出力結果と目的変数である正解データとの誤差が小さくなるようにニューラルネットワークのパラメータを変更した機械学習モデルを生成する。

なお、表情認識モデル２５の生成は、あくまで一例であり、他の手法を用いることができる。また、表情認識モデル２５としては、特開２０２１－１１１１１４号公報に開示される行動認識を用いることもできる。

（上位行動特定ルール２７の生成）
図４に戻り、ルール生成部４４は、過去の履歴等を用いて、上位行動特定ルール２７を生成する処理部である。具体的には、ルール生成部４４は、過去の様々な映像データから、人物がある行動を行うまでの動作および表情の遷移を特定することで、上位行動特定ルール２７を生成する。

図１４は、上位行動特定ルールの生成例を説明する図である。図１４に示すように、ルール生成部４４は、ある行動ＸＸが行われた画像データから所定時間遡って、当該画像データに至るまでに取得された過去の複数の画像データを抽出する。そして、ルール生成部４４は、遡って取得した過去の各画像データについて、学習済みのモデルや画像解析等を用いて基本動作と表情とを検出する。

その後、ルール生成部４４は、行動ＸＸに至るまでに検出された要素行動（基本動作の遷移および表情の遷移）の遷移を特定する。例えば、ルール生成部４４は、要素行動Ｂとして、「時刻ｔ１からｔ３の間における全身の基本動作の遷移、右腕の基本動作の遷移、顔の基本動作の遷移」と「時刻ｔ１からｔ３の間における表情Ｈの継続」を特定する。また、ルール生成部４４は、要素行動Ａとして、「時刻ｔ４からｔ７の間における右腕の基本動作の遷移および表情Ｈから表情Ｉへの変化」を特定する。

このようにして、ルール生成部４４は、行動ＸＸに至る要素行動の遷移として、要素行動Ｂ、要素行動Ａ、要素行動Ｐ、要素行動Ｊの順を特定する。そして、ルール生成部４４は、「行動ＸＸ」と「要素行動Ｂ、要素行動Ａ、要素行動Ｐ、要素行動Ｊの遷移」とを対応付けた上位行動特定ルール２７を生成して記憶部２０に格納する。

なお、上位行動特定ルール２７の生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。

（確率モデル２８の生成）
確率モデル生成部４５は、過去の事象、過去の経験等を集計して生成された訓練データを用いて確率モデル２８を生成する処理部である。図１５は、確率モデル２８の生成例を説明する図である。図１５に示すように、確率モデル生成部４５は、ある「行動」とその行動が発生したときの「観測情報」との組合せの時系列データである訓練データを用いて（図１５の（１）参照）、隠れマルコフモデル（ＨＭＭ）の各種確率を学習する（図１５の（２）参照）。

例えば、確率モデル生成部４５は、訓練データを用いて、この行動の後にはこの行動が起こりやすいという状態遷移を確率的に表現した行動の遷移確率と、映像データの中の人物の特徴量（骨格情報と表情との組、もしくは、現在の行動）と関係性とを示す観測情報から得られる確率分布を更新することで、ＨＭＭを学習する。

なお、学習方法は、公知の様々な手法を採用することができる。また、確率モデル２８は、ＨＭＭに限らず、観測可能な情報から潜在的な状態を予測できる各種モデルを用いることもできる。

＜運用処理部５０＞
図４に戻り、運用処理部５０は、取得部５１、関係性特定部５２、行動特定部５３、行動予測部５４を有し、事前処理部４０により事前に準備された各モデルや各ルールを用いて、映像データに写る人物の将来の行動を予測する行動予測処理を実行する処理部である。

取得部５１は、各カメラ２から映像データを取得して映像データＤＢ２１に格納する処理部である。例えば、取得部５１は、各カメラ２から随時取得してもよく、定期的に取得してもよい。

（関係性の特定）
関係性特定部５２は、関係性モデル２３を用いて、映像データに写る人物と人物との関係性、または、人物と物体との関係性を特定する関係性特定処理を実行する処理部である。具体的には、関係性特定部５２は、映像データに含まれるフレームごとに、各フレームを関係性モデル２３に入力し、関係性モデル２３の出力結果に応じて、関係性を特定する。そして、関係性特定部５２は、特定された関係性を、行動予測部５４に出力する。

図１６は、関係性の特定を説明する図である。図１６に示すように、関係性特定部５２は、フレーム１を機械学習済みの関係性モデル２３に入力して、第１の人物のクラス、第２の人物のクラス、人物間の関係性を特定する。別例としては、関係性特定部５２は、フレームを機械学習済みの関係性モデル２３に入力して、人物のクラス、物体のクラス、人物と物体の関係性を特定する。このように、関係性特定部５２は、関係性モデル２３を用いて、フレームごとに、人物間の関係性または人物と物体との間の関係性を特定する。

図１７は、ＨＯＩＤによる関係性の特定を説明する図である。図１７に示すように、関係性特定部５２は、映像データに含まれる各フレーム（画像データ）をＨＯＩＤ（関係性モデル２３）に入力し、ＨＯＩＤの出力結果を取得する。具体的には、関係性特定部５２は、人物のＢｂｏｘ、人物のクラス名、物体のＢｂｏｘ、物体のクラス名、人物と物体の相互作用の確率値、人物と物体の相互作用のクラス名を取得する。

この結果、例えば、関係性特定部５２は、人物のクラスとして「人（客）」と「人（店員）」などを特定し、「人（客）」と「人（店員）」との関係性「店員が客と話す」を特定する。関係性特定部５２は、フレーム２やフレーム３などの後続の各フレームについても上記関係性特定処理を実行することで、フレームごとに関係性「話す」、関係性「渡す」などを特定する。

なお、別例としては、関係性特定部５２は、フレームを機械学習済みの関係性モデル２３に入力して、人物のクラス、物のクラス、人と物の関係性を特定する。例えば、関係性特定部５２は、人物のクラスとして「客」や物のクラスとして「商品」などを特定し、「客」と「商品」との関係性「客が商品を持つ」を特定する。

（現在の行動の特定）
行動特定部５３は、映像データから、人物の現在の行動を特定する処理部である。具体的には、行動特定部５３は、映像データ内の各フレームに対して、骨格認識モデル２４を用いて人物の各部位の骨格情報を取得するとともに、表情認識モデル２５を用いて人物の表情を特定する。そして、行動特定部５３は、各フレームに対して特定された人物の各部位の骨格情報および人物の表情を用いて、人物の行動を特定し、行動予測部５４に出力する。

図１８は、人物の現行動の具体的な特定例を説明する図である。図１８に示すように、行動特定部５３は、画像データであるフレーム１を骨格認識モデル２４と表情認識モデル２５に入力する。骨格認識モデル２４は、フレーム１の入力に応じて各部位の骨格情報を生成し、各部位の骨格情報にしたがって各部位の動作を出力する。例えば、行動特定部５３は、骨格認識モデル２４を用いることで、「顔：正面を向く、腕：上げる、足：歩く、・・・」などの各部位の動作情報を取得できる。また、表情認識モデル２５は、フレーム１の入力に応じて、表情認識結果として、ＡＵ１からＡＵ２８の各ＡＵの発生強度「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、・・・」を出力する。そして、行動特定部５３は、表情認識結果と表情認識ルール２６とを照合し、表情「笑顔」などを特定する。

行動特定部５３は、上記特定処理をフレーム２やフレーム３の後続の各フレームについても実行して、フレームごとに、フレームに写る人物の各部位の動作情報および表情を特定する。

そして、行動特定部５３は、各フレームについて上記特定処理を行うことで、人物の各部位の動作の遷移および表情の遷移を特定する。その後、行動特定部５３は、人物の各部位の動作の遷移および表情の遷移と、上位行動特定ルール２７の各要素行動とを比較し、要素行動Ｂを特定する。

さらに、行動特定部５３は、映像データから要素行動の特定を繰り返すことで、要素行動の遷移を特定する。そして、行動特定部５３は、要素行動の遷移と、上位行動特定ルール２７とを比較することで、映像データに写る人物の現行動ＸＸを特定することができる。

なお、図１８の例では、各フレームについて、各部位の動作と表情の両方を特定する例を説明したが、これに限定されるものではない。例えば、人物の表情は、人物の内面の変化に影響を受けることから、ある行動を起こしたときの表情がその行動時の内面を表す表情とは限らない。つまり、ある行動が起こしてから表情が変わる場合、ある行動を起こす前後で表情が変わることもよくある。そこで、行動特定部５３は、各部位の動作特定に用いられたフレームとは異なるフレームを用いて、表情を特定することもできる。

図１９は、人物の現行動の特定の別例を説明する図である。図１９では、フレーム１、フレーム２、フレーム３を１つの処理単位として、動作特定が各フレームで実行され、表情認識が最新のフレーム（この例ではフレーム３）で実行される例を説明する。図１９に示すように、行動特定部５３は、図１８と同様、フレーム１、フレーム２、フレーム３に対して骨格認識モデル２４を用いた骨格認識を実行し、フレームごとに各部位の動作を特定する。一方で、行動特定部５３は、フレーム３を表情認識モデル２５に入力して人物の表情を特定する。

その後、行動特定部５３は、図１８と同様に、要素行動の特定および現行動の特定を実行する。なお、ここで説明した例は、あくまで例示であり、行動特定部５３は、各部位の動作特定を各フレームで実行し、表情認識を最初のフレームで実行してもよい。また、行動特定部５３は、動作特定については各フレームで実行する一方で、表情認識については複数フレーム（図１９ではフレーム１からフレーム３）を用いてフレーム間で生じる表情や表情の遷移を特定することもできる。

（将来の行動予測）
行動予測部５４は、人物の現行動と関係性と用いて、人物の将来の行動予測を実行する処理部である。具体的には、行動予測部５４は、関係性特定部５２により特定された関係性と、行動特定部５３により特定された人物の現行動とを確率モデル２８に入力し、人物の将来の行動を予測する。そして、行動予測部５４は、予測結果を管理者の端末に送信したり、ディスプレイ等に表示したりする。

図２０は、人物の行動予測を説明する図である。図２０に示すように、行動予測部５４は、フレーム１の時点では、その時点で特定された関係性「持つ」を取得し、フレーム２の時点では、その時点で特定された関係性「商品を右手に持つ」を取得し、フレーム３の時点では、その時点で特定された関係性「持つ」および現在の行動ＸＸを取得する。そして、行動予測部５４は、最新の関係性と現在の行動ＸＸとを確率モデル２８（ＨＭＭ）に入力することで、人物の行動を予測する。なお、ここで示した関係性は、あくまで一例であり、ＨＯＩＤ用のモデルを用いた場合には、「人物Ａが商品Ｂを持つ」などのように、「だれが何をどのようにしているか」を特定できる関係性が特定される。

図２１は、確率モデル２８を用いた人物の行動予測を説明する図である。図２１に示すように、行動予測部５４は、現在までの行動の遷移および関係性の遷移を含む観測情報をＨＭＭに入力し、「行動」を推定する。そして、行動予測部５４は、確率モデル２８の各状態の遷移確率にしたがって、推定した「行動」からの遷移確率のうち、最も遷移確率が高い「行動」を特定し、特定した「行動」を人物の将来の行動として予測する。

具体例を挙げると、行動予測部５４は、現在時刻において「人がドライバーを持っている」という観測情報が得られた場合、ＨＭＭに過去から現在までの観測情報を入力することで、現在時刻の行動として「人がドライバーを取る」という行動を推定する。その後、行動予測部５４は、ＨＭＭの各遷移確率のみにしたがって、現在の行動「人がドライバーを取る」から他の行動への遷移確率のうち最も高い遷移確率である行動「人がネジ閉めを行う」を特定する。この結果、行動予測部５４は、一定時間後の未来の行動として「人がネジ閉めを行う」を予測する。

なお、図２１示した観測情報には、観測情報の遷移に限らず、最新の観測情報（現在の行動と関係性）を用いることもできる。また、観測情報には、現在の行動に代わりに「骨格情報と表情の組合せ」を用いることもできる。いずれの情報を用いるかは、ＨＭＭの構成（学習内容）により決定される。

また、図２０では、行動予測部５４が、現在の行動と最新の表情とを用いて行動予測を実行する例を説明したが、これに限定されるものではない。上述したように、人物の表情は、人物の内面の変化に大きな影響を受けるので、最新の行動が現在の表情を表すとは限らない。したがって、図２０に示すように、行動予測部５４が、最新のフレーム３により特定された現在の行動と、フレーム３までに認識された少なくとも１つの関係性もしくはフレーム１からフレーム３までの関係性の変化とを用いて、行動予測を実行することもできる。

このとき、行動予測部５４が、現在の行動がある時刻における画像データの一例である第一のフレームで特定され、関係性が第二のフレームで特定された場合、第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、第二のフレームが検出されるか否かを判定する。そして、行動予測部５４が、第二のフレームが予め設定された範囲内に検出された判定された場合に、第一のフレームに含まれる人物の行動と、第二のフレームに含まれる関係性とに基づいて、人物の今後の行動または状態を予測する。

つまり、行動予測部５４は、ある程度近いタイミングで検出された現在の行動と関係性とを用いて、人物の今後の行動または状態を予測する。なお、予め設定された範囲は任意に設定することができ、現在の行動と関係性とのどちらが先に特定されていてもよい。

＜処理の流れ＞
図２２は、行動予測処理の流れを示すフローチャートである。なお、ここでは、事前処理は完了済とする。図２２に示すように、運用処理部５０は、１フレームを取得すると（Ｓ１０１：Ｙｅｓ）、フレームを関係性モデル２３に入力し、関係性モデル２３の出力結果に基づき、フレームに写っている対象物を特定し（Ｓ１０２）、対象物の関係性を特定する（Ｓ１０３）。

そして、運用処理部５０は、フレームを骨格認識モデル２４に入力して、例えば各部位の動作を示す人物の骨格情報を取得する（Ｓ１０４）。なお、運用処理部５０は、Ｓ１０３において、フレームに人物が写っていない場合は、Ｓ１０４を省略する。

また、運用処理部５０は、フレームを表情認識モデル２５に入力して、出力結果と表情認識ルール２６とから、人物の表情を特定する（Ｓ１０５）。なお、運用処理部５０は、Ｓ１０３において、フレームに人物が写っていない場合は、Ｓ１０５を省略する。

その後、運用処理部５０は、人物の骨格情報と表情とを用いて、上位行動特定ルール２７から該当する要素行動を特定する（Ｓ１０６）。ここで、運用処理部５０は、人物の現在の行動が特定されていない場合（Ｓ１０７：Ｎｏ）、次のフレームについてＳ１０１以降を繰り返す。

一方、運用処理部５０は、人物の現在の行動が特定された場合（Ｓ１０７：Ｙｅｓ）、現在の行動と特定済みの関係性とを確率モデル２８に入力して、人物の将来の行動を予測する（Ｓ１０８）。その後、運用処理部５０は、行動予測の結果を出力する（Ｓ１０９）。

＜具体例＞
次に、上述した情報処理装置１０による行動予測を用いた安心安全な社会の実現に寄与するソリューションの具体例について説明する。ここでは、人と物の関係性を用いたソリューションと、人と人の関係性を用いたソリューションとについて説明する。

（人と物の関係性を用いたソリューション）
図２３は、人と物に関連する行動予測を適用したソリューション例を説明する図である。図２３では、スーパーマーケットなどの監視カメラにより撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、１つの映像データ内の１つのフレームもしくは複数のフレームに跨って実行される。

図２３に示すように、情報処理装置１０は、関係性モデル２３を用いて、映像データ内のフレームから、人物や物体に関する情報「人物Ａと商品Ａ、人物Ｂとカート、人物Ｃと財布、人物Ｄ」および関係性に関する情報「人物Ａの商品Ａに対する関係性「持つ」」、「人物Ｂのカートに対する関係性「押す」」、「人物Ｃの財布に対する関係性「触る」」を特定する。ここで、人物Ｄについては、物が検出されていないので、関係性は特定されない。

また、情報処理装置１０は、骨格認識モデル２４を用いた骨格認識、表情認識モデル２５を用いた表情認識を実行し、それらの認識結果を用いて、人物Ａの現在の行動「商品Ａを持っている」、人物Ｂの現在の行動「カートを押す」、人物Ｃの現在の行動「歩く」、人物Ｄの現在の行動「立ち止まる」を特定する。

そして、情報処理装置１０は、現在の行動と関係性とを用いた行動予測により、人物Ａの将来の行動「商品Ａを購入する可能性が高い」、人物Ｂの将来の行動「万引きする可能性が高い」、人物Ｃの将来の行動「買い物せずに退店する可能性が高い」を予測する。ここで、人物Ｄについては関係性が特定されていないので、行動予測の対象外となる。

つまり、情報処理装置１０は、映像データの所定のエリアである商品棚のエリアを移動する顧客と、顧客が購入する対象の商品とを特定し、顧客の商品に対する行動の種類（例えば、見る、持つなど）を関係性として特定し、顧客の商品に対する購買に関する行動（例えば、購入や万引きなど）を予測する。

このように、情報処理装置１０は、上述した行動予測を、購入に至るまでの行動や経路などの購買行動の解析や購買マーケティングなどに役立てることができる。また、情報処理装置１０は、人物Ｂのように万引きなどの犯罪発生の可能性が高い人物を検出し、当該人物の監視を強化するなど、犯罪の防止に役立てることができる。

（人と人の関係性を用いたソリューション）
図２４は、人と人に関連する行動予測を適用したソリューション例を説明する図である。図２４では、街路などの監視カメラにより夜間に撮像された映像データを用いた行動予測の例を説明する。なお、以下で説明する処理は、１つの映像データ内の１つのフレームもしくは複数のフレームに跨って実行される。

図２４に示すように、情報処理装置１０は、関係性モデル２３を用いて、映像データ内のフレームから、人物に関する情報「人物Ａ（女性：２０代）と人物Ｂ（男性：４０代）」および関係性に関する情報「人物Ａの人物Ｂに対する関係性「近い」」、「人物Ｂの人物Ａに対する関係性「ストーキング」」を特定する。

また、情報処理装置１０は、骨格認識モデル２４を用いた骨格認識、表情認識モデル２５を用いた表情認識を実行し、それらの認識結果を用いて、人物Ａの現在の行動「人物Ｂの前を歩く」、人物Ｂの現在の行動「隠れる」を特定する。

そして、情報処理装置１０は、現在の行動と関係性とを用いた行動予測により、人物Ａの将来の行動「人物Ｂに襲われる可能性が高い」、人物Ｂの将来の行動「人物Ａを襲う可能性が高い」を予測する。

つまり、情報処理装置１０は、人物Ａを被害者、人物Ｂを犯人とし、犯人の被害者に対する関係性「ストーキング」により、人物Ｂの人物Ａに対する犯罪行為の予測を実現することができる。この結果、情報処理装置１０は、上記行動予測により犯罪発生の可能性が高い場所を検出し、警察官等を向かわせるなどの防止策を実行することができる。また、そのような地点に街灯を増やすなどの対応策の検討に役立てることができる。

＜効果＞
上述したように、情報処理装置１０は、事故や犯罪の発生ではなく、兆候を予測することができるので、映像データから事前に対策が必要な状況を検出することができる。また、情報処理装置１０は、監視カメラなどの一般的なカメラが撮像する映像データから行動予測を実行することができるので、複雑なシステム構成や新たな装置を必要とせず、既存のシステムに導入することができる。また、情報処理装置１０は、既存のシステムに導入するので、新規システム構築よりもコストを削減できる。また、情報処理装置１０は、過去および現在の行動から連続するような単純な行動の予測のみならず、過去および現在の行動から単純に特定することができないような人物の複雑な行動を予測することができる。これにより、情報処理装置１０は、人物の将来の行動の予測精度を向上させることができる。

また、情報処理装置１０は、３次元画像データなどを用いることなく、２次元画像データを用いた行動予測を実現することができるので、近年利用されているレーザセンサなどを用いた処理と比較して、処理を高速化することができる。また、情報処理装置１０は、高速な処理に伴い、事前に対策が必要な状況を迅速に検出することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

＜数値等＞
上記実施例で用いた数値例、カメラ数、ラベル名、ルール例、行動例、状態例等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも適用することができる。なお、関係性モデル２３は、第一の機械学習モデル、骨格認識モデル２４は、第二の機械学習モデル、表情認識モデル２５は、第三の機械学習モデルの一例である。

＜システム＞
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

＜ハードウェア＞
図２５は、ハードウェア構成例を説明する図である。図２５に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図２５に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図４に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図４に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図４等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、事前処理部４０と運用処理部５０等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、事前処理部４０と運用処理部５０等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで行動予測方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

１０情報処理装置
１１通信部
２０記憶部
２１映像データＤＢ
２２訓練データＤＢ
２３関係性モデル
２４骨格認識モデル
２５表情認識モデル
２６表情認識ルール
２７上位行動特定ルール
２８確率モデル
３０制御部
４０事前処理部
４１関係性モデル生成部
４２骨格認識モデル生成部
４３表情認識モデル生成部
４４ルール生成部
４５確率モデル生成部
５０運用処理部
５１取得部
５２関係性特定部
５３行動特定部
５４行動予測部

Claims

人物と物体を含む対象物を有する映像データを取得し、
取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
処理をコンピュータに実行させる情報処理プログラム。
前記特定された人物の行動は、
前記映像データを構成する複数のフレームのうち、第一のフレームに含まれ、
前記特定された関係性は、
前記映像データを構成する複数のフレームのうち、第二のフレームに含まれ、
前記予測する処理は、
前記第一のフレームが検出された時点から予め設定されたフレームの数または時間の範囲内において、前記第二のフレームが検出されるか否かを判定し、
前記第二のフレームが予め設定されたフレームの数または時間の範囲内に検出された判定された場合に、前記第一のフレームに含まれる人物の行動と、前記第二のフレームに含まれる関係性とに基づいて、前記人物の今後の行動または状態を予測する、ことを特徴とする請求項１に記載の情報処理プログラム。
前記行動を特定する処理は、
画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークが出力する出力結果と、動作のラベルである正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第二の機械学習モデルを取得し、
前記映像データを前記第二の機械学習モデルに入力することで、前記人物の部位ごとの動作を特定し、
前記人物の表情を含む画像データである説明変数をニューラルネットワークに入力したときに前記ニューラルネットワークから出力された出力結果と、前記人物の表情の各マーカの強度である目的変数を示す正解データとの誤差が小さくなるように、前記ニューラルネットワークのパラメータを変更した第三の機械学習モデルを取得し、
前記映像データを前記第三の機械学習モデルに入力することで、前記人物のマーカの強度を生成し、生成された前記マーカを用いて、前記人物の表情を特定し、
特定した前記人物の部位ごとの動作と、特定した前記人物の表情と、予め設定されたルールとを比較することで、前記映像データの中の前記人物の行動を特定する、ことを特徴とする請求項１に記載の情報処理プログラム。
前記第一の機械学習モデルは、
人物を示す第１クラスおよび前記人物が出現する領域を示す第１領域情報と、物体を示す第２クラスおよび前記物体が出現する領域を示す第２領域情報と、前記第１クラスと前記第２クラスとの関係性と、を識別するように、機械学習により生成されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであり、
前記関係性を特定する処理は、
前記映像データを前記ＨＯＩＤ用のモデルに入力し、
前記ＨＯＩＤ用のモデルの出力として、前記映像データに出現する人物と物体について、前記第１クラスおよび前記第１領域情報、前記第２クラスおよび前記第２領域情報、前記第１クラスと前記第２クラスとの関係性を取得し、
取得した結果に基づき、前記人物と前記物体との間の関係性と特定する、ことを特徴とする請求項１に記載の情報処理プログラム。
前記人物は、前記映像データの所定のエリアを移動する顧客であり、
前記物体は、前記顧客が購入する対象の商品であり、
前記関係性は、前記人物の前記商品に対する行動の種類であり、
前記予測する処理は、前記人物の今後の行動または状態として、前記顧客の商品に対する購買に関する行動を予測する、ことを特徴とする請求項４に記載の情報処理プログラム。
前記第一の機械学習モデルは、
第一の人物を示す第１クラスおよび前記第一の人物が出現する領域を示す第１領域情報と、第二の人物を示す第２クラスおよび前記第二の人物が出現する領域を示す第２領域情報と、前記第１クラスと前記第２クラスとの関係性と、を識別するように機械学習により生成されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであり、
前記関係性を特定する処理は、
前記映像データを前記ＨＯＩＤ用のモデルに入力し、
前記ＨＯＩＤ用のモデルの出力として、前記映像データに出現する各人物について、前記第１クラスおよび前記第１領域情報、前記第２クラスおよび前記第２領域情報、前記第１クラスと前記第２クラスとの関係性を取得し、
取得した結果に基づき、前記各人物間の関係性と特定する、ことを特徴とする請求項１に記載の情報処理プログラム。
前記第一の人物は、犯人であり、
前記第二の人物は、被害者であり、
前記関係性は、前記第一の人物の前記第二の人物に対する行動の種類であり、
前記予測する処理は、前記人物の今後の行動または状態として、前記第一の人物が前記第二の人物に対する犯罪行為を予測する、ことを特徴とする請求項６に記載の情報処理プログラム。
前記予測する処理は、
特定した前記人物の行動と、特定した前記関係性とを、前記確率モデルに入力して行動または状態を推定し、
前記確率モデルにしたがって、推定された前記行動または前記状態からの状態遷移の確率が最も高い行動または状態を、前記人物の今後の行動または状態として予測する、ことを特徴とする請求項１から７のいずれか一つに記載の情報処理プログラム。
人物と物体を含む対象物を有する映像データを取得し、
取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
処理をコンピュータが実行する情報処理方法。
人物と物体を含む対象物を有する映像データを取得し、
取得された前記映像データを、第一の機械学習モデルに入力することで、取得した前記映像データの中の各対象物のそれぞれの関係性を特定し、
取得した前記映像データに含まれる人物の特徴量を用いて、前記映像データの中の人物の行動を特定し、
特定した前記人物の行動と、特定した前記関係性とを、確率モデルに入力することで、前記人物の今後の行動または状態を予測する、
制御部を有する情報処理装置。