JP2022095332A

JP2022095332A - 学習モデル生成方法、コンピュータプログラム及び情報処理装置

Info

Publication number: JP2022095332A
Application number: JP2020208601A
Authority: JP
Inventors: 大資玉城; Daisuke Tamaki
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-28
Anticipated expiration: 2040-12-16
Also published as: JP6876312B1

Abstract

【課題】行動認識を行う学習モデルを生成する学習モデル生成方法、コンピュータプログラム及び情報処理装置並びに行動認識を行う学習モデルを用いた処理を行う情報処理装置を提供する。
【解決手段】学習モデル生成方法は、オブジェクトを少なくとも１つの方向から撮影した第１画像を取得し（Ｓ１）、取得した第１画像に基づいて、オブジェクトの３次元仮想空間における３次元オブジェクトを生成し（Ｓ４）、生成した３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得し（Ｓ５）、取得した第２画像に関する情報と、オブジェクトの行動に関する情報とを対応付けた教師データを生成し、生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する。
【選択図】図５

Description

本発明は、対象の行動認識処理をおこなうための学習モデル生成方法、コンピュータプログラム及び情報処理装置に関する。

近年、深層学習技術の発展により、様々な場面で人工知能が利用されるようになっている。例えば、カメラが撮影した画像に基づき、この画像に写されている人の行動を認識する処理を、人工知能を用いて行う技術が研究、開発されている。

特許文献１においては、行動認識の対象となる映像からスケルトンデータを抽出し、抽出したスケルトンデータに基づいて行動対象の撮影角度を推定し、推定された撮影角度に応じた撮影角度において予め構築されている学習済モデルを映像に対して適用することにより、映像における行動を認識する行動認識装置が提案されている。

特開２０１９－１９１９８１号公報

特許文献１に記載の行動認識装置では、行動認識を行う学習モデルを生成する際に、教師データとして様々な角度から撮影された画像を用意する必要がある。様々な角度からの撮影を行うためには、例えば複数台のカメラを用いるか、又は、１台のカメラを用いて複数回の撮影を行う必要があり、学習モデルを生成するために少なくないコスト又は時間等が必要であった。

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、行動認識を行う学習モデルを生成する学習モデル生成方法、コンピュータプログラム及び情報処理装置、並びに、行動認識を行う学習モデルを用いた処理を行う情報処理装置を提供することにある。

一実施形態に係る学習モデル生成方法は、情報処理装置が、オブジェクトを少なくとも１つの方向から撮影した第１画像を取得し、取得した第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成し、生成した前記３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得し、取得した第２画像に関する情報と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成し、生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する。

一実施形態による場合は、行動認識を行う学習モデルの生成を容易化することが期待でき、生成した学習モデルを用いて精度のよい行動認識の処理を行うことが期待できる。

本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係るサーバ装置の構成を示すブロック図である。本実施の形態に係るサーバ装置が生成する学習モデルの一構成例を示す模式図である。教師データの生成方法を説明するための模式図である。本実施の形態に係るサーバ装置が行う教師データ生成処理の手順を示すフローチャートである。本実施の形態に係るカメラの構成を示すブロック図である。本実施の形態に係るカメラが行う処理の手順を示すフローチャートである。実施の形態２に係る情報処理システムが行う行動認識処理を説明するための模式図である。実施の形態２に係るサーバ装置が行う教師データ生成処理の手順を示すフローチャートである。

本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

＜システム概要＞
図１は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、施設１００に設置された一又は複数のカメラ１が撮影した画像をサーバ装置３へ送信し、カメラ１から受信した画像をサーバ装置３がユーザの端末装置５へ送信するシステムである。図示の例では、施設１００として保育園又は幼稚園等が示されている。保育園又は幼稚園等の施設１００に設置されたカメラ１は、例えば所定の周期で繰り返し自動的に施設１００内の撮影、施設１００を利用する利用者（本例では子供）の撮影を行っている。カメラ１は携帯電話通信網及びインターネット等のネットワークを介した通信を行う機能を備えており、カメラ１は撮影した画像をサーバ装置３へ送信する。

サーバ装置３は、ネットワークを介してカメラ１から画像を受信し、受信した画像を記憶装置に記憶して蓄積する。またサーバ装置３は、施設１００の利用者（本例では子供、子供の保護者又は保育士等）に対応付けられたスマートフォン又はＰＣ（パーソナルコンピュータ）等の端末装置５へ、蓄積した画像を送信する。これにより例えば保育園又は幼稚園等の施設１００に子供を預けている保護者は、施設１００で過ごす子供の様子をカメラ１にて撮影した画像を自身の端末装置５にて閲覧することができる。また例えば施設１００の保育士等は、子供の写真を撮影するという業務を行うことなく、施設１００で過ごす子供の様子をカメラ１にて撮影した画像を端末装置５にて取得することができ、例えばフォトアルバムの作成又は施設１００内での写真の掲示等を行うことができる。

本実施の形態に係る情報処理システムでは、カメラ１が撮影した画像に写された人の行動（動作、姿勢等を含む）を認識する行動認識処理を行う。カメラ１は、行動認識処理の結果、即ち画像に写された人がどのような行動を行っているかを示す情報を画像に付してサーバ装置３へ送信する。サーバ装置３は、カメラ１から受信した画像に付された情報を取得することで、この画像に写された人の行動認識結果を取得することができる。サーバ装置３は、例えば利用者から特定の行動に関する画像の送信を要求された場合、画像に付された行動認識結果に基づいて要求された画像を抽出し、抽出した画像を要求元の利用者の端末装置５へ送信することができる。なお本実施の形態においては、カメラ１にて行動認識処理を行うものとして説明を行うが、行動認識処理をサーバ装置３が行う構成であってもよい。

また本実施の形態に係る情報処理システムでは、深層学習等の機械学習により予め学習がなされた学習モデルを用いて、カメラ１が画像から人の行動認識を行う。本実施の形態において学習モデルは、サーバ装置３にて予め学習がなされ（予め生成され）、学習済の学習モデル（を構成するための情報）がカメラ１の記憶部等に予め記憶される。なお本実施の形態においては、学習モデルの生成をサーバ装置３が行うものとして説明を行うが、学習モデルはサーバ装置３とは別の装置により生成されてもよい。

＜学習モデル生成処理＞
図２は、本実施の形態に係るサーバ装置３の構成を示すブロック図である。本実施の形態に係るサーバ装置３は、処理部３１、記憶部（ストレージ）３２及び通信部（トランシーバ）３３等を備えて構成されている。なお本実施の形態においては、１つのサーバ装置にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。

処理部３１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）又はＧＰＵ（Graphics Processing Unit）等の演算処理装置、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等を用いて構成されている。処理部３１は、記憶部３２に記憶されたサーバプログラム３２ａを読み出して実行することにより、人の行動を認識する学習モデルを生成する処理、カメラ１が撮影した画像を取得して記憶する処理、及び、記憶した画像を利用者の端末装置５へ送信する処理等の種々の処理を行う。

記憶部３２は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部３２は、処理部３１が実行する各種のプログラム、及び、処理部３１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部３２は、処理部３１が実行するサーバプログラム３２ａを記憶すると共に、学習モデルを生成する処理に用いられる教師データを記憶する教師データ記憶部３２ｂと、未学習の又は学習済の学習モデルに関する情報を記憶する学習モデル記憶部３２ｃとが設けられている。

本実施の形態においてサーバプログラム３２ａは、メモリカード又は光ディスク等の記録媒体９９に記録された態様で提供され、サーバ装置３は記録媒体９９からサーバプログラム３２ａを読み出して記憶部３２に記憶する。ただし、サーバプログラム３２ａは、例えばサーバ装置３の製造段階において記憶部３２に書き込まれてもよい。また例えばサーバプログラム３２ａは、遠隔の他のサーバ装置等が配信するものをサーバ装置３が通信にて取得してもよい。例えばサーバプログラム３２ａは、記録媒体９９に記録されたものを書込装置が読み出してサーバ装置３の記憶部３２に書き込んでもよい。サーバプログラム３２ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体９９に記録された態様で提供されてもよい。

教師データ記憶部３２ｂは、学習モデルの生成（学習）処理に用いる複数の教師データを記憶する。教師データは、例えば学習モデルに対する入力情報と出力情報とを対応付けたデータである。本実施の形態においては、例えば予めシステムの設計者等により作成された教師データに基づいて、サーバ装置３が教師データの更なる生成を行い、生成した教師データを教師データ記憶部３２ｂに記憶する。ただし、教師データの生成は別の装置で行われてもよく、この場合にサーバ装置３は、通信等により別の装置から教師データを取得して教師データ記憶部３２ｂに記憶する。

学習モデル記憶部３２ｃは、学習モデルを構成する情報を記憶する。本実施の形態に係る学習モデルは、例えば複数のニューロンが相互に結合したニューラルネットワークの構造をなしている。既存の技術であるため詳しい説明は省略するが、ニューロンは複数の入力に対して演算を行い、演算結果として１つの値を出力する素子である。ニューロンは、演算に用いられる重み付けの係数及び閾値等の情報を有している。学習モデル記憶部３２ｃには、学習前又は学習後の学習モデルについて、ニューラルネットワークの構成情報、並びに、各ニューロンの係数及び閾値等の値等を含むデータが記憶される。

サーバ装置３の通信部３３は、携帯電話通信網、無線ＬＡＮ（Local Area Network）及びインターネット等を含むネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部３３は、ネットワークＮを介して、カメラ１及び端末装置５との間で通信を行う。通信部３３は、処理部３１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部３１へ与える。

なお記憶部３２は、サーバ装置３に接続された外部記憶装置であってよい。またサーバ装置３は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置３は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。

また本実施の形態に係るサーバ装置３には、記憶部３２に記憶されたサーバプログラム３２ａを処理部３１が読み出して実行することにより、第１画像取得部３１ａ、人検出部３１ｂ、骨格情報抽出部３１ｃ、３次元オブジェクト生成部３１ｄ、第２画像取得部３１ｅ、教師データ生成部３１ｆ及び学習モデル生成部３１ｇ等が、ソフトウェア的な機能部として処理部３１に実現される。なお本図においては、処理部３１の機能部として、学習モデルの生成処理に関する機能部を図示し、これ以外の処理に関する機能部は図示を省略している。

本実施の形態に係る情報処理システムでは、人の行動を認識する学習モデルを生成するためのデータ、例えば認識の対象となる行動を行っている人を撮影した画像（静止画像又は動画像）等のデータの収集が予め行われる。本実施の形態に係る情報処理システムでは、行動を行っている人を撮影する際に、例えば正面等の少なくとも１方向から人を撮影すればよく、１方向から撮影した画像がより多く収集されることが好ましい。本実施の形態において、行動を行っている人を１方向から撮影した画像を第１画像とし、サーバ装置３の第１画像取得部３１ａは、予め撮影された第１画像を取得する処理を行う。第１画像の撮影は例えば図示しないカメラ等により行われ、サーバ装置３の第１画像取得部３１ａは、カメラ等と通信又は記録媒体等を介したデータの授受を行うことによって、カメラ等が撮影した第１画像を取得し、取得した第１画像を記憶部３２に記憶する。

人検出部３１ｂは、画像に写された人を検出する処理を行う。本実施の形態に係るサーバ装置３の人検出部３１ｂは、人検出用に予め学習がなされた学習モデルを用いて画像から人を検出する処理を行う。画像から人を検出する処理は、既存の技術であるため詳細な説明は省略するが、例えば深層学習がなされた学習モデルを用いて画像からの人等の物体検出を行う「ＹＯＬＯ（You Only Look Once）」と呼ばれる技術を用いることができる。ただし人検出部３１ｂは、「ＹＯＬＯ」とは異なる技術による人検出を行う構成であってよい。

骨格情報抽出部３１ｃは、画像から検出された人の骨格情報を抽出する処理を行う。骨格情報は、人の身体の頭、腰、手足の関節等を複数個の点で表した情報である。骨格情報抽出部３１ｃは、画像に写された１人の人について骨格を１８個の点で表し、各点を２次元平面におけるＸ座標及びＹ座標で表した情報を骨格情報として画像から抽出する。画像に写された人の骨格情報を抽出する処理は、既存の技術であるため詳細な説明は省略するが、例えば深層学習がなされた学習モデルを用いて骨格情報を抽出する「Open Pose」と呼ばれる技術を用いることができる。ただし骨格情報抽出部３１ｃは、「Open Pose」とは異なる技術による骨格情報の抽出を行う構成であってよい。なお本実施の形態においては、骨格を１８個の点で表した情報を骨格情報として扱うが、これに限るものではない。骨格情報は、１７個以下又は１９個以上の点で表されてもよく、これ以外の構成で表されるものであってもよい。

３次元オブジェクト生成部３１ｄは、第１画像取得部３１ａが取得した第１画像を基に、第１画像に写された人の行動を行う３次元仮想空間における３次元オブジェクトを生成する処理を行う。人検出部３１ｂが第１画像から人を検出し、検出した人の骨格情報を骨格情報抽出部３１ｃが抽出し、抽出した骨格情報に基づいて３次元オブジェクト生成部３１ｄが３次元オブジェクトを生成する。例えば３次元オブジェクト生成部３１ｄは、予め用意された人の形状の３次元オブジェクトに対して、骨格情報抽出部３１ｃが抽出した骨格情報に対応する姿勢（ポーズ）を取らせることで、第１画像に写された人の行動を行う３次元オブジェクトを生成する。

第２画像取得部３１ｅは、３次元オブジェクト生成部３１ｄが生成した３次元オブジェクトを、３次元仮想空間における仮想カメラで撮影することにより、所望の行動を行う３次元オブジェクトを複数の方向から撮影した２次元画像を第２画像として取得する処理を行う。本実施の形態において第２画像取得部３１ｅは、例えば前後左右の４方向、又は、これに右前、右後、左前及び左後を加えた８方向について、３次元オブジェクトを撮影して第２画像を取得する。ただし、第２画像取得部３１ｅによる第２画像の撮影方向は上記の４方向又は８方向に限らない。例えば１０°毎に３６方向、２０°毎に１８方向等の種々の組み合わせで複数の方向からの撮影を行ってよい。より多くの方向から撮影を行ってより多くの第２画像を取得することで、より多くの教師データを生成することができ、この教師データを用いて生成される学習モデルの精度向上が期待できる。

教師データ生成部３１ｆは、第２画像取得部３１ｅが取得した第２画像に基づいて、学習モデルの生成（学習）処理に用いる教師データを生成する処理を行う。教師データ生成部３１ｆは、第２画像取得部３１ｅが取得した第２画像に対して、人検出部３１ｂによる人検出及び骨格情報抽出部３１ｃによる骨格情報の抽出を行って、第２画像に写された人（３次元オブジェクト）の骨格情報を取得する。教師データ生成部３１ｆは、第２画像から取得した骨格情報と、第２画像に写された人が行っている行動の種類を示す情報とを対応付けたデータを教師データとして作成し、教師データ記憶部３２ｂに記憶する。

学習モデル生成部３１ｇは、教師データ生成部３１ｆが生成した教師データを用いて、学習モデル記憶部３２ｃに記憶された学習モデルを学習する処理を行うことによって、人の行動を認識する学習モデルを生成する処理を行う。学習モデルの教師あり学習の処理は、既存の技術であるため詳細な説明は省略するが、学習モデル生成部３１ｇは、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法により学習モデルの学習を行うことができる。

図３は、本実施の形態に係るサーバ装置３が生成する学習モデルの一構成例を示す模式図である。本実施の形態に係る学習モデルは、例えば複数のニューロンが相互に結合したニューラルネットワークの構造をなしている。ニューラルネットワークの学習モデルは、一又は複数のデータの入力を受け付ける入力層と、入力層にて受け付けられたデータに対して演算処理を行う中間層と、中間層の演算結果を集約して一又は複数の値を出力する出力層とを備えている。

本実施の形態に係る学習モデルは、画像から抽出された骨格情報を入力として受け付ける。図示の例では、骨格情報を構成する複数個（Ｍ個）の点の位置を示す（ｘ、ｙ）の座標が学習モデルへ入力されている。また本実施の形態に係る学習モデルは、複数種類（Ｎ種類）の行動について、入力された骨格情報がいずれの行動を行ったものであるかを分類した結果を出力する。本例において学習モデルは、各行動１～Ｎについて、その行動であることの確信度を０～１の数値で出力する。学習モデルが出力する各行動の確信度の中で、最も高い確信度の行動が、骨格情報を抽出した人が行っている行動と判断することができる。

なお学習モデルへの入力情報は、人の骨格情報の全てではなく、人の骨格情報から一部の情報を除外したものであってもよい。骨格情報が１８個の点の情報で構成される場合、例えば学習モデルへの入力は１８個の点のうちの１６個とし、２個の点については処理に用いなくてもよい。学習モデルが認識する行動の種別によっては、例えば骨格情報に含まれる目、鼻又は頭部等の情報が不要又は必要度が低い場合があり、このような情報を予め除外することによって、処理の高速化又は行動認識の精度向上等が期待できる。

図４は、教師データの生成方法を説明するための模式図である。本実施の形態に係るサーバ装置３は、行動認識の対象となる行動を行っている人を予め少なくとも１つの方向から撮影した第１画像を、撮影に用いられたカメラ等の装置から取得する。サーバ装置３は、取得した第１画像に対して人検出処理を行う。図４の上段には、第１画像に対して行われた人検出処理により、人を含む画像領域が抽出された状態を示している。なお、第１画像は２つ以上の方向から撮影されてもよい。

ここでサーバ装置３は、例えば本システムの設計者等から、第１画像から検出された人の行動の種別等を示す情報の入力を受け付ける。サーバ装置３は、第１画像から検出された人と、この人の行動の種別を示す情報とを対応付けて記憶する。なお行動の種別を示す情報の入力は、設計者等の人手により行われるのではなく、装置又はプログラム等により機械的に行われてもよい。

更にサーバ装置３は、第１画像から検出した人の骨格情報を抽出する処理を行い、抽出した骨格情報に基づいて３次元仮想空間における３次元オブジェクトを生成する。図４の中段には、第１画像に基づいて生成された３次元オブジェクトを示している。

サーバ装置３は、生成した３次元オブジェクトに対して、３次元仮想空間における仮想カメラにより複数の方向から撮影を行い、３次元オブジェクトを撮影した２次元の第２画像を複数取得する。第２画像を撮影する方向は、少なくとも第１画像を撮影した方向とは異なる方向を含む複数の方向であることが好ましい。第２画像を撮影する複数の方向には、第１画像を撮影した方向と同じ方向が含まれていてもよい。サーバ装置３は、取得した各第２画像に対して、第１画像に対して行ったのと同じ人検出処理及び骨格情報の抽出処理を行う。図４の下段には、３次元オブジェクトを撮影することで得られた４つの２次元の第２画像に対して、それぞれ人検出処理及び骨格情報の抽出処理を行った結果を示している。

サーバ装置３は、第２画像から抽出した骨格情報と、この第２画像に写された人（３次元オブジェクト）が行っている行動の種別とを対応付けたデータを教師データとして生成し、教師データ記憶部３２ｂに記憶する。このときにサーバ装置３は、第１画像に対応付けられた行動の種別を、この第１画像を基に取得した第２画像から検出された人の行動の種別とすることができる。骨格情報は、例えば１人につき１８個の点で骨格が表現される場合、１個の点につきｘ座標及びｙ座標の２つの座標情報を含むため、１８×２＝３６個の座標情報で表される。行動の種別は、例えばＮ個の行動１～行動Ｎに対して、いずれか１つの行動に「１」を設定し、これ以外の行動に「０」を設定したＮ桁の２進数情報で表される。

教師データ記憶部３２ｂに十分な教師データを記憶した後、サーバ装置３は、この教師データを用いて学習モデルの学習処理を行うことにより、人の行動を認識する学習モデルを生成する。ニューラルネットワークの学習モデルを学習する深層学習処理は、既存の技術であるため詳細な説明は省略するが、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法が用いられ得る。

図５は、本実施の形態に係るサーバ装置３が行う教師データ生成処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置３の処理部３１の第１画像取得部３１ａは、人が所定の行動を行っている姿を一の方向から撮影した第１画像を取得する（ステップＳ１）。なお第１画像は、例えば本情報処理システムの開発者等が予め撮影を行うことで生成される。サーバ装置３は、開発者等が撮影した第１画像を、通信又は記録媒体等を介して取得して記憶部２３に記憶する。第１画像取得部３１ａは記憶部２３に記憶された第１画像を読み出すことによって、第１画像を取得することができる。

処理部３１の人検出部３１ｂは、ステップＳ１にて取得した第１画像に写された人を検出する処理を行う（ステップＳ２）。このときに人検出部３１ｂは、例えば「ＹＯＬＯ」の学習モデルを用いて画像から人を検出する処理を行う。処理部３１の骨格情報抽出部３１ｃは、ステップＳ２による人検出の結果に基づいて、画像に写された人の骨格情報を抽出する処理を行う（ステップＳ３）。このときに骨格情報抽出部３１ｃは、例えば「Open Pose」の学習モデルを用いて骨格情報を抽出する処理を行う。処理部３１の３次元オブジェクト生成部３１ｄは、ステップＳ３にて抽出した骨格情報に基づいて、第１画像に写された人が行っている行動を３次元仮想空間内で行う３次元オブジェクトを生成する処理を行う（ステップＳ４）。このときに３次元オブジェクト生成部３１ｄは、例えば予め用意された人の形状の３次元オブジェクトに対して、ステップＳ３にて抽出した骨格情報に対応する姿勢を取らせることで、第１画像に写された人の行動を行う３次元オブジェクトを生成する。

次いで、処理部３１の第２画像取得部３１ｅは、ステップＳ４にて生成した３次元オブジェクトを３次元仮想空間内で仮想カメラにより撮影することにより、複数方向から３次元オブジェクトを撮影した複数の第２画像を取得する（ステップＳ５）。人検出部３１ｂは、ステップＳ５にて取得した複数の第２画像にについて、各第２画像に写された人を検出する処理をそれぞれ行う（ステップＳ６）。骨格情報抽出部３１ｃは、ステップＳ６による人検出の結果に基づいて、各第２画像に写された人の骨格情報を抽出する処理をそれぞれ行う（ステップＳ７）。

次いで、処理部３１の教師データ生成部３１ｆは、ステップＳ７にて抽出された骨格情報と、この骨格情報を有する人が行っている行動の種別を示すラベル等の情報とを対応付けることで、学習モデルの学習処理に用いる教師データを生成する（ステップＳ８）。なお教師データ生成部３１ｆは、１つの第２画像について少なくとも１つの教師データを生成することができる。また教師データ生成部３１ｆは、第１画像から抽出した骨格情報についても同様に、行動の種別を対応付けて教師データとしてもよい。教師データ生成部３１ｆは、ステップＳ８にて生成した教師データを記憶部３２の教師データ記憶部３２ｂに記憶して（ステップＳ９）、処理を終了する。

なおサーバ装置３は、予め撮影された多数の第１画像に対して上記の処理を行い、教師データ記憶部３２ｂに多数の教師データを記憶した蓄積する。教師データ記憶部３２ｂに十分な量の教師データが蓄積された後、サーバ装置３の学習モデル生成部３１ｇは、教師データを用いた教師あり学習の処理を行うことによって、骨格情報に基づいて人の行動を認識する（人の行動を分類する）学習モデルを生成する。生成された学習モデルはカメラ１に提供され、カメラ１はこの学習モデルを用いて、撮影した画像に写された人の行動を認識する処理を行う。

＜行動認識処理＞
本実施の形態に係る情報処理システムでは、サーバ装置３により生成された人の行動を認識する学習モデルは、カメラ１に搭載される。カメラ１は、学習済の学習モデルを利用し、自身が撮影した画像に写された人の行動認識処理を行い、行動認識の結果に関する情報を画像に付してサーバ装置３へ送信する。

図６は、本実施の形態に係るカメラ１の構成を示すブロック図である。本実施の形態に係るカメラ１は、いわゆるエッジカメラ、ＡＩ（Artificial Intelligence）エッジカメラ又はエッジＡＩカメラ等の名称で呼ばれ得る装置であり、画像の撮影を行う撮影部１１と共に、高度な演算処理を行う情報処理装置２０を装置内に備えている。撮影部１１は、レンズ及び撮像素子等を備えて構成されている。撮像素子は、例えばＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）等であり、レンズが収束した像を撮影し、撮影により得られる画像のデータを出力する。

情報処理装置２０は、カメラ１の各部の動作を制御すると共に、撮影部１１の撮影により得られた画像を利用する種々の処理を行う。本実施の形態に係る情報処理装置２０は、処理部２１、入出力部２２、記憶部２３及び通信部２４等を備えて構成されている。処理部２１は、ＣＰＵ、ＭＰＵ又はＧＰＵ等の演算処理装置、ＲＯＭ及びＲＡＭ等を用いて構成されている。処理部２１は、記憶部２３に記憶されたプログラム２３ａを読み出して実行することにより、撮影部１１による撮影を制御する処理、及び、撮影により得られた画像に写された人の行動を認識する処理等の種々の処理を行う。

入出力部２２は、撮影部１１との間でデータの入出力を行う。入出力部２２は、例えば信号線を介して撮影部１１と接続されており、信号線を介したシリアル通信又はパラレル通信等によりデータの入出力を行う。入出力部２２は、処理部２１から与えられた制御命令等のデータを撮影部１１へ送信すると共に、撮影部１１から入力された画像のデータを処理部２１へ与える。

記憶部２３は、例えばフラッシュメモリ又はＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の不揮発性のメモリ素子を用いて構成されている。記憶部２３は、処理部２１が実行する各種のプログラム、及び、処理部２１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部２３は、処理部２１が実行するプログラム２３ａと、画像に写された人の行動認識を行う学習済の学習モデル２３ｂとを記憶する。また記憶部２３は、撮影部１１が撮影した画像のデータ等を記憶してもよい。

本実施の形態においてプログラム２３ａは、例えばカメラ１の製造段階において記憶部２３に書き込まれる。また例えばプログラム２３ａは、遠隔のサーバ装置等が配信するものをカメラ１が通信にて取得してもよい。また例えばプログラム２３ａは、メモリカード又は光ディスク等の記録媒体に記録された態様で提供され、カメラ１は記録媒体からプログラム２３ａを読み出して記憶部２３に記憶してもよい。また例えばプログラム２３ａは、記録媒体に記録されたものを書込装置が読み出してカメラ１の記憶部２３に書き込んでもよい。プログラム２３ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体に記録された態様で提供されてもよい。

学習モデル２３ｂは、上述の生成処理によりサーバ装置３が生成したものである。学習モデル２３ｂは、例えばプログラム２３ａと共に提供され、プログラム２３ａと共に記憶部２３に記憶される。ただし、学習モデル２３ｂはプログラム２３ａとは別に提供されてもよく、この場合にカメラ１は、例えばサーバ装置３との通信を行って、サーバ装置３が送信する学習モデル２３ｂを取得して記憶部２３に記憶してもよい。

通信部２４は、携帯電話通信網、無線ＬＡＮ又はインターネット等のネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部２４は、サーバ装置３との間で通信を行い、撮影部１１が撮影した画像のデータをサーバ装置３へ送信する。通信部２４は、処理部２１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部２１へ与える。

また本実施の形態に係るカメラ１の処理部２１には、記憶部２３に記憶されたプログラム２３ａを処理部２１が読み出して実行することにより、人検出部２１ａ、骨格情報抽出部２１ｂ、行動認識部２１ｃ及び画像送信処理部２１ｄ等がソフトウェア的な機能部として実現される。

人検出部２１ａは、撮影部１１が撮影した画像に写された人を検出する処理を行う。本実施の形態においてカメラ１が備える人検出部３１ｂは、上述のサーバ装置３の人検出部３１ｂと同様の方法で、画像に写された人を検出する処理を行う。例えば人検出部２１ａは、深層学習がなされた学習モデルを用いて画像からの人等の物体検出を行う「ＹＯＬＯ」と呼ばれる技術を用いて人を検出する処理を行う。また人検出部２１ａは、撮影部１１が撮影した画像から人が検出されなかった場合、即ち画像に人が写されていない場合、この画像を除去して後続の処理の対象から外してもよい。

骨格情報抽出部２１ｂは、画像から検出された人の骨格情報を抽出する処理を行う。本実施の形態においてカメラ１が備える骨格情報抽出部２１ｂは、上述のサーバ装置３の骨格情報抽出部３１ｃと同様の方法で、人の骨格情報を抽出する処理を行う。例えば骨格情報抽出部２１ｂは、深層学習がなされた学習モデルを用いて骨格情報を抽出する「Open Pose」と呼ばれる技術を用いて人の骨格情報を抽出する処理を行うことができる。骨格情報抽出部２１ｂは、画像に写された１人の人について骨格を１８個の点で表し、各点を２次元平面におけるＸ座標及びＹ座標で表した情報を骨格情報として画像から抽出する。

行動認識部２１ｃは、骨格情報抽出部２１ｂが抽出した骨格情報に基づいて、画像に写された人の行動を認識する処理を行う。本実施の形態において行動認識部２１ｃは、サーバ装置３により予め学習がなされて記憶部２３に記憶された学習モデル２３ｂを用いて、人の行動を認識する処理を行う。行動認識部２１ｃは、骨格情報抽出部２１ｂが画像から抽出した骨格情報を学習モデル２３ｂへ入力し、これに応じて学習モデル２３ｂが出力する行動認識結果の情報を取得する。本実施の形態において学習モデル２３ｂは、図３に示すようにＮ種類の行動について確信度を出力する構成であり、行動認識部２１ｃは、学習モデル２３ｂが出力するＮ個の確信度を取得する。行動認識部２１ｃは、取得したＮ個の確信度のうち値が最も大きいものがいずれであるかを判定し、最も大きい確信度に対応する行動を、画像に写された人が行っている行動と判断する。

画像送信処理部２１ｄは、撮影部１１が撮影した画像をサーバ装置３へ送信する処理を行う。また本実施の形態に係る画像送信処理部２１ｄは、行動認識部２１ｃによる行動認識の結果を取得し、行動認識結果に関する情報を例えばメタデータとして画像に付してサーバ装置３へ送信する。また画像送信処理部２１ｄは、人検出部２１ａによる人の検出結果、又は、骨格情報抽出部２１ｂが抽出した骨格情報等の種々の情報を画像に付してサーバ装置３へ送信してよい。また画像に付される情報には、画像の撮影日時、カメラ１に付されたカメラＩＤ、及び、カメラ１が設置された施設１００の施設ＩＤ等の情報が含まれ得る。

なお本実施の形態においてカメラ１は、撮影部１１が撮影した画像に写された人の行動認識の処理を行うが、カメラ１が行う処理は行動認識に限らない。カメラ１は、撮影部１１が撮影した画像から例えば人の顔を検出する処理、顔の表情を検出する処理、顔の向きを検出する処理、又は、画像に写された個人を識別する処理等の種々の処理を行ってよく、これらの一又は複数の処理結果を画像に付してサーバ装置３へ送信してよい。

図７は、本実施の形態に係るカメラ１が行う処理の手順を示すフローチャートである。本実施の形態に係るカメラ１の処理部２１は、撮影部１１の動作を制御することによって、撮影部１１による撮影を行う（ステップＳ２１）。処理部２１の人検出部２１ａは、ステップＳ２１にて撮影した画像に対して人検出の処理を行う（ステップＳ２２）。人検出部２１ａは、ステップＳ２２の人検出の処理結果に基づいて、ステップＳ２１にて撮影された画像に人が含まれているか否かを判定する（ステップＳ２３）。撮影された画像に人が含まれていない場合（Ｓ２３：ＮＯ）、人検出部２１ａは、この画像を破棄して（ステップＳ２４）、ステップＳ２１へ処理を戻す。

撮影された画像に人が含まれている場合（Ｓ２３：ＹＥＳ）、処理部２１の骨格情報抽出部２１ｂは、ステップＳ２２にて行った人検出の結果に基づいて、撮影された画像に写された人の骨格情報を抽出する処理を行う（ステップＳ２５）。処理部２１の行動認識部２１ｃは、ステップＳ２５にて抽出した骨格情報に基づいて、画像に写された人の行動を認識する処理を行う（ステップＳ２６）。このときに行動認識部２１ｃは、ステップＳ２５にて抽出した骨格情報を、記憶部２３に記憶された学習モデル２３ｂへ入力し、学習モデル２３ｂが出力するＮ種類の行動についての確信度を取得し、最も確信度が高い行動がいずれであるかを判断することで、画像に写された人の行動を判断する。処理部２１の画像送信処理部２１ｄは、ステップＳ２６の行動認識の結果に関する情報を画像に付してサーバ装置３へ送信し（ステップＳ２７）、ステップＳ２１へ処理を戻す。

＜まとめ＞
以上の構成の本実施の形態に係るサーバ装置３は、人を所定の方向（少なくとも１つの方向）から撮影した第１画像を取得し、取得した第１画像に基づいて人の３次元仮想空間における３次元オブジェクトを生成し、３次元オブジェクトを第１画像の撮影方向とは異なる方向から撮影した第２画像を取得し、取得した第２画像と人の行動に関する情報とを対応付けた教師データを生成し、生成した教師データを用いて画像に写された人の行動に関する情報を出力する学習モデルを生成する。第１画像に基づいて生成した３次元オブジェクトを基に第２画像を取得して教師データを生成することにより、第１画像とは異なる方向で撮影を行った画像を基に教師データを生成することができるため、より精度のよい学習モデルを生成することが期待できる。

また本実施の形態に係るサーバ装置３は、生成した３次元オブジェクトを複数の方向から撮影した複数の第２画像を取得する。これによりサーバ装置３は、より多くの画像を取得して教師データを生成することができ、より精度のよい学習モデルを生成することが期待できる。

また本実施の形態に係るサーバ装置３は、取得した第１画像に写された人を検出し、検出した人に基づいて３次元仮想空間における３次元オブジェクトを生成する。これによりサーバ装置３は、第１画像に写された人の３次元オブジェクトを複数の方向から撮影することで、第１画像に写された人に相当するものを複数の方向から撮影した第２画像を取得することができる。

また本実施の形態に係るサーバ装置３は、第２画像に写された人（３次元オブジェクト）の骨格情報を抽出し、抽出した骨格情報とこの人の行動に関する情報とを対応付けた教師データを生成する。第２画像と行動に関する情報とを対応付けて教師データとする場合と比較して、骨格情報を用いることでデータ量を低減することができ、学習モデルの生成処理の高速化等が期待できる。

また本実施の形態に係るサーバ装置３が生成する学習モデルは、人の骨格情報を入力として受け付けて、人の行動の種類を分類する。これによりカメラ１等の装置は、生成された学習モデルを用い、人の骨格情報に基づいて行動の種類を判断する処理を行うことができる。

なお本実施の形態においては、生成された学習モデルをカメラ１が利用した行動認識の処理を行う構成としたが、これに限るものではなく、サーバ装置３が学習モデルを利用してカメラ１から受信した画像に基づく人の行動認識の処理を行ってもよい。また学習モデルの生成処理をサーバ装置３が行う構成としたが、これに限るものではなく、カメラ１が学習モデルの生成処理を行ってもよい。

＜実施の形態２＞
実施の形態２に係る情報処理システムは、時系列的に連続する複数の画像（動画像）から人の行動認識を行う。例えばフレームレートが３０ｆｐｓのカメラで人の行動を撮影した場合には、１秒間の撮影で３０枚の画像が得られる。実施の形態２に係る情報処理システムでは、例えば人の行動を２秒間撮影して得られる時系列的な６０枚の画像に対して人検出及び骨格情報の抽出等の処理をそれぞれ行い、６０枚分の骨格情報を基に人の行動認識を行う。

図８は、実施の形態２に係る情報処理システムが行う行動認識処理を説明するための模式図である。図示の例では、時刻１から時刻ｔまでのｔ枚の画像に基づいて人の行動認識を行うことを想定したものである。また１つの画像には１人の人が写されているものとする。時刻１に撮影された画像から骨格情報としてｍ個の点の２次元座標（ｘ１１，ｙ１１）、（ｘ２１，ｙ２１）、…、（ｘｍ１，ｙｍ１）を得ることができ、合計で２×ｍ個の値を得ることができる。時刻２に撮影された画像についても同様に、骨格情報としてｍ個の点の２次元座標（ｘ１２，ｙ１２）、（ｘ２２，ｙ２２）、…、（ｘｍ２，ｙｍ２）を得ることができる。時刻ｔに撮影された画像についても骨格情報としてｍ個の点の２次元座標（ｘ１ｔ，ｙ１ｔ）、（ｘ２ｔ，ｙ２ｔ）、…、（ｘｍｔ，ｙｍｔ）を得ることができる。これにより時刻１から時刻ｔまでの画像から、２×ｍ×ｔ個の値を得ることができる。

更に、時刻１から時刻ｔまでの画像から抽出した骨格情報に基づいて、骨格情報の時間的な変化を算出することができる。例えば時刻１から時刻２への骨格情報の変化は、時刻１における骨格情報の各座標値と、時刻２における骨格情報の各座標値との差分として算出される。例えば時刻１における骨格情報の１つである座標値ｘ１１から時刻２における対応する骨格情報の座標値ｘ１２への骨格情報の変化ｄｘ１１は、ｄｘ１１＝ｘ１２－ｘ１１として算出することができる。時刻１から時刻２への骨格情報の変化として２×ｍ×ｔ個の値を得ることができる。同様にして時刻２から時刻３への骨格情報の変化として２×ｍ×ｔ個の値を得ることができ、時刻（ｔ－１）から時刻ｔへの骨格情報の変化として２×ｍ×ｔ個の値を得ることができる。これにより時刻１から時刻ｔまでの画像から、骨格情報の変化として２×ｍ×（ｔ－１）個の値を得ることができる。図８の下段には、骨格情報の変化を行列として表したものが示されている。

実施の形態２に係る情報処理システムにおいては、人の行動認識を行う学習モデルの入力情報として、図８の下段に行列として示した情報が入力される。学習モデルの出力情報は、図３と同様に、Ｎ種類の行動についての確信度である。

ただし、図８の下段に示した行列を入力情報とした場合、行列の要素となる値は２×ｍ×（ｔ－１）個である。例えば骨格情報として１８個の点を抽出し（ｍ＝１８）、３０ｆｐｓで２秒間の撮影を行った６０枚の画像を用いて人の行動認識を行う場合、行列の要素となる値は２×１８×（６０－１）＝２１２４個である。入力値の数が増すほど、学習モデルの学習処理及び学習モデルを用いた行動認識処理に要する時間が増す可能性がある。そこで、上記の骨格情報の変化に関する情報の情報数を低減する処理、例えば入力値の数を２１２４個から所定数（８０個程度）に低減する処理を行い、学習モデルへ入力する情報の数を低減してもよい。入力情報の数を低減する方法には、例えば主成分分析による次元数の削減の方法が用いられ得るが、これに限るものではなく、どのような方法が採用されてもよい。

実施の形態２に係る情報処理システムのサーバ装置３は、予め撮影された時系列的に連続する複数の第１画像について人検出及び骨格情報の抽出を行い、抽出した複数の骨格情報に基づいて、時系列的に変化する３次元オブジェクトを生成する。サーバ装置３は、生成した３次元オブジェクトに対して、３次元仮想空間内で複数の方向から仮想カメラによる撮影を行い、時系列的に連続する複数の第２画像を取得する。サーバ装置３は、時系列的に連続する複数の第２画像について、同様に人検出及び骨格情報の抽出を行い、更に骨格情報の変化を算出する。更にサーバ装置３は、算出した骨格情報の変化について、主成分分析等による次元数削減の処理を行い、骨格情報の変化に関する情報の数を低減する。サーバ装置３は、情報数を低減した骨格情報の変化に関する情報と、第１画像及び第２画像に写されていた人の行動の種別を示すラベル等の情報とを対応付けた教師データを作成する。サーバ装置３は、複数の教師データを作成して教師データ記憶部３２ｂに記憶して蓄積し、蓄積した多数の教師データを用いて学習モデルの学習（生成）処理を行う。

図９は、実施の形態２に係るサーバ装置３が行う教師データ生成処理の手順を示すフローチャートである。実施の形態２に係るサーバ装置３の処理部３１の第１画像取得部３１ａは、人が所定の行動を行っている姿を一の方向から撮影した時系列的に連続する複数の第１画像を取得する（ステップＳ４１）。処理部３１の人検出部３１ｂは、ステップＳ４１にて取得した複数の第１画像に写された人を検出する処理を行う（ステップＳ４２）。処理部３１の骨格情報抽出部３１ｃは、ステップＳ４２による人検出の結果に基づいて、複数の第１画像に写された人の骨格情報を抽出する処理を行う（ステップＳ４３）。処理部３１の３次元オブジェクト生成部３１ｄは、ステップＳ４３にて抽出した複数の骨格情報に基づいて、第１画像に写された人が行っている時系列的に連続する行動を３次元仮想空間内で行う３次元オブジェクトを生成する処理を行う（ステップＳ４４）。

次いで、処理部３１の第２画像取得部３１ｅは、ステップＳ４４にて生成した３次元オブジェクトを３次元仮想空間内で仮想カメラにより撮影することにより、複数方向から３次元オブジェクトを撮影した時系列的に連続する複数の第２画像を取得する（ステップＳ４５）。人検出部３１ｂは、ステップＳ４５にて取得した時系列的に連続する複数の第２画像にについて、各第２画像に写された人を検出する処理をそれぞれ行う（ステップＳ４６）。骨格情報抽出部３１ｃは、ステップＳ４６による人検出の結果に基づいて、各第２画像に写された人の骨格情報を抽出する処理をそれぞれ行う（ステップＳ４７）。

次いで処理部３１の教師データ生成部３１ｆは、ステップＳ４７にて抽出した時系列的に連続する複数の骨格情報に基づいて、骨格情報の変化を算出する（ステップＳ４８）。このときに教師データ生成部３１ｆは、骨格情報として抽出される複数の点の２次元座標の差分を算出することで、骨格情報の変化を算出することができる。教師データ生成部３１ｆは、算出した骨格情報の変化について、主成分分析等による次元数削減の処理を行うことによって、骨格情報の変化に関する情報の数を低減する処理を行う（ステップＳ４９）。

次いで教師データ生成部３１ｆは、ステップＳ４９にて情報量が低減された骨格情報の変化に関する情報と、この骨格情報を有する人が行っている行動の種別を示すラベル等の情報とを対応付けることで、学習モデルの学習処理に用いる教師データを生成する（ステップＳ５０）。教師データ生成部３１ｆは、ステップＳ５０にて生成した教師データを記憶部３２の教師データ記憶部３２ｂに記憶して（ステップＳ５１）、処理を終了する。

実施の形態２に係る情報処理システムのカメラ１は、撮影部１１が撮影した時系列的に連続する複数の画像について人検出及び骨格情報の抽出を行い、更に骨格情報の変化を算出及び情報数の低減を行う。カメラ１は、予めサーバ装置３にて生成された学習モデル２３ｂを記憶部２３に記憶しており、情報数を低減した骨格情報の変化に関する情報を学習モデルへ入力し、学習モデルが出力する複数種類の行動についての確信度を取得する。カメラ１は取得した確信度に基づいて撮影された画像に写された人の行動を判断し、この画像に行動認識の結果に関する情報を付してサーバ装置３へ送信する。

なお実施の形態２に係るカメラ１は、撮影した画像に複数の人が写されている場合、時系列的に連続する複数の画像において複数の人を区別し、人毎に骨格情報の抽出及び骨格情報の変化の算出等を行って行動認識の処理を行う必要がある。このため、実施の形態２に係るカメラ１は、撮影した画像から検出した各人について、この人が時系列的に連続する次の画像に写された複数の人のいずれであるかを判定する処理、いわゆる追跡（トラッキング）の処理を行う。画像中の人の追跡処理は、既存の技術であるため詳細な説明は省略するが、例えば画像に写された各人の特徴を示す特徴量、並びに、各人の画像中における位置及びその変化等の情報に基づいて行われ得る。

以上の構成の実施の形態２に係るサーバ装置３は、人を所定の方向（少なくとも１つの方向）から時系列的に撮影した複数の第１画像を取得し、取得した複数の第１画像に基づいて人の３次元仮想空間における３次元オブジェクトを生成し、３次元オブジェクトを第１画像の撮影方向とは異なる複数の方向から時系列的に撮影した複数の第２画像を取得し、取得した第２画像に写された人の時系列的な骨格情報の変化を抽出し、抽出した骨格情報の変化と人の行動に関する情報とを対応付けた教師データを生成する。時系列的に撮影した画像に基づいて教師データを作成し、作成した教師データを用いて学習モデルを生成することにより、サーバ装置３はより精度のよい学習モデルを生成することが期待できる。

また実施の形態２に係るサーバ装置３は、第２画像から抽出した骨格情報の変化に関する情報の情報量（情報の数）を低減する処理を行う。これにより、学習モデルへ入力する情報の量を低減することができ、サーバ装置３による学習モデルの学習（生成）処理及びカメラ１による学習モデルを用いた行動認識の処理等の高速化が期待できる。

なお本実施の形態においては、時系列的な複数の第２画像から抽出した複数の骨格情報から骨格情報の変化（差分）を算出し、骨格情報の変化を学習モデルへの入力としたが、これに限るものではなく、複数の第２画像から抽出した複数の骨格情報を学習モデルへの入力としてもよい。またこの場合に、複数の骨格情報に対して主成分分析による次元数の削減等の処理を行って情報の量を低減してもよい。

また、実施の形態２に係る情報処理システムのその他の構成は、実施の形態１に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１カメラ
３サーバ装置
５端末装置
１１撮影部
２０情報処理装置
２１処理部
２１ａ人検出部
２１ｂ骨格情報抽出部
２１ｃ行動認識部
２１ｄ画像送信処理部
２２入出力部
２３記憶部
２３ａプログラム
２３ｂ学習モデル
２４通信部
３１処理部
３１ａ第１画像取得部
３１ｂ人検出部
３１ｃ骨格情報抽出部
３１ｄ３次元オブジェクト生成部
３１ｅ第２画像取得部
３１ｆ教師データ生成部
３１ｇ学習モデル生成部
３２記憶部
３２ａサーバプログラム
３２ｂ教師データ記憶部
３２ｃ学習モデル記憶部
３３通信部
９９記録媒体
１００施設

一実施形態に係る学習モデル生成方法は、情報処理装置が、オブジェクトを少なくとも１つの方向から撮影した第１画像を取得し、取得した第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成し、生成した前記３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得し、取得した第２画像に前記オブジェクトとして写された人の骨格情報を抽出し、抽出した骨格情報と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成し、生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する。

Claims

情報処理装置が、
オブジェクトを少なくとも１つの方向から撮影した第１画像を取得し、
取得した第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成し、
生成した前記３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得し、
取得した第２画像に関する情報と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成し、
生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する、
学習モデル生成方法。
前記情報処理装置が、前記３次元オブジェクトを前記少なくとも１つの方向とは異なる少なくとも２方向以上の複数方向から撮影した複数の第２画像を取得する、
請求項１に記載の学習モデル生成方法。
前記情報処理装置が、
取得した前記第１画像に写されたオブジェクトを検出し、
検出したオブジェクトに基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成する、
請求項１又は請求項２に記載の学習モデル生成方法。
前記オブジェクトは人であり、
前記情報処理装置が、
前記第２画像に写されたオブジェクトの骨格情報を抽出し、
抽出した骨格情報と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成する、
請求項１から請求項３までのいずれか１つに記載の学習モデル生成方法。
前記学習モデルは、オブジェクトの骨格情報を入力として受け付け、当該オブジェクトの行動の種類を分類する、
請求項４に記載の学習モデル生成方法。
前記情報処理装置が、
オブジェクトを少なくとも１つの方向から時系列的に撮影した複数の第１画像を取得し、
取得した複数の第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成し、
生成した前記３次元オブジェクトを前記方向とは異なる方向から時系列的に撮影した複数の第２画像を取得し、
取得した複数の第２画像に写されたオブジェクトの時系列的な骨格情報の変化を抽出し、
抽出した骨格情報の変化と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成する、
請求項４又は請求項５に記載の学習モデル生成方法。
前記情報処理装置が、
抽出した骨格情報の変化に関する情報の情報量を低減し、
情報量を低減した骨格情報の変化と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成する、
請求項６に記載の学習モデル生成方法。
コンピュータに、
オブジェクトを少なくとも１つの方向から撮影した第１画像を取得し、
取得した第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成し、
生成した前記３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得し、
取得した第２画像と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成し、
生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する
処理を実行させる、コンピュータプログラム。
オブジェクトを少なくとも１つの方向から撮影した第１画像を取得する第１画像取得部と、
前記第１画像取得部が取得した第１画像に基づいて、前記オブジェクトの３次元仮想空間における３次元オブジェクトを生成する３次元オブジェクト生成部と、
前記３次元オブジェクト生成部が生成した前記３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像を取得する第２画像取得部と、
前記第２画像取得部が取得した第２画像と、前記オブジェクトの行動に関する情報とを対応付けた教師データを生成する教師データ生成部と、
前記教師データ生成部が生成した教師データを用いて、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを生成する学習モデル生成部と
を備える、情報処理装置。
オブジェクトを少なくとも１つの方向から撮影した第１画像に基づいて生成された３次元仮想空間における３次元オブジェクトを前記方向とは異なる方向から撮影した第２画像と、前記オブジェクトの行動に関する情報とを対応付けた教師データを用いて生成され、画像に写されたオブジェクトの行動に関する情報を出力する学習モデルを記憶する記憶部と、
オブジェクトを撮影した画像を取得する画像取得部と、
前記記憶部に記憶した前記学習モデルを用いて、前記画像取得部が取得した画像に写された行動に関する情報を取得する行動情報取得部と
を備える、情報処理装置。