JP6529470B2

JP6529470B2 - 移動状況学習装置、移動状況認識装置、方法、及びプログラム

Info

Publication number: JP6529470B2
Application number: JP2016175592A
Authority: JP
Inventors: 結城遠藤; 浩之戸田; 優甲谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2019-06-12
Anticipated expiration: 2036-09-08
Also published as: JP2018041319A

Description

本発明は、移動状況学習装置、移動状況認識装置、方法、及びプログラムに係り、特に、ユーザの移動状況を認識するための移動状況学習装置、移動状況認識装置、方法、及びプログラムに関する。

映像撮影デバイスの小型化や、GPSやジャイロセンサなどの省電力化に伴い、ユーザの行動を、映像、位置情報や加速度などの多様なデータとして容易に記録できるようになった。これらのデータからユーザの行動を詳細に分析することは、様々な用途に役立つ。例えば、グラスウエア等を通じて取得された一人称視点の映像と、ウエラブルセンサで取得された加速度データ等を利用して、ウインドーショッピングしている状況や、横断歩道を渡っている状況等を自動認識し、分析できれば、サービスのパーソナライズ化等様々な用途で役立てられる。

従来、センサ情報からユーザの移動状況を自動認識する技術として、GPSの位置情報や速度情報からユーザの移動手段を推定する技術が存在する（非特許文献１）。また、スマートフォンから取得される加速度等の情報を用いて、徒歩やジョギング、階段の昇降等を分析する技術の開発も取組まれてきた（非特許文献２）。

Zheng, Y., Liu, L., Wang, L., and Xie, X.: Learning transportation mode from raw GPS data for geographic applications on the web. In Proc. of World Wide Web 2008, pp. 247-256, 2008. Jennifer R. Kwapisz, Gary M. Weiss, Samuel A. Moore: Activity Recognition using Cell Phone Accelerometers, Proc. Of SensorKDD 2010.

ところが、上記従来の方法はセンサ情報のみを利用しているため、映像情報を考慮したユーザの移動状況認識を行うことができなかった。例えば、ウエラブルセンサのデータから、ユーザの移動状況を把握しようとした場合、歩いていることは理解したとしても、ウインドーショッピングしている状況や、横断歩道を渡っている状況のように詳細なユーザの状況をセンサデータのみから自動認識することは困難である。一方で、映像データとセンサデータの入力を組み合わせて、機械学習技術の一つであるSupport Vector Machine (SVM)などの単純な分類モデルを用いても、映像データとセンサデータの情報の抽象度合が異なることが原因で、高精度な移動状況認識が困難であった。

本発明は、上記問題点を解決するために成されたものであり、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識ＤＮＮモデルを学習することができる移動状況学習装置、方法、及びプログラムを提供することを目的とする。
また、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る移動状況学習装置は、ユーザについて得られた映像を識別するデータＩＤ毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルを構築する移動状況認識ＤＮＮモデル構築部と、前記データＩＤ毎の、前記映像における画像系列を含む映像データと、前記データＩＤ毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習する移動状況認識ＤＮＮモデル学習部と、を含んで構成されている。

また、第１の発明に係る移動状況学習装置において、前記移動状況認識ＤＮＮモデル構築部は、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、前記センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、前記移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる前記ＤＮＮモデルを構築するようにしてもよい。

第２の発明に係る移動状況学習装置は、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルとに基づいて、前記ユーザの移動状況の種類を認識する移動状況認識部を含んで構成されている。

第３の発明に係る移動状況学習方法は、移動状況認識ＤＮＮモデル構築部が、ユーザについて得られた映像を識別するデータＩＤ毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルを構築するステップと、移動状況認識ＤＮＮモデル学習部が、前記データＩＤ毎の、前記映像における画像系列を含む映像データと、前記データＩＤ毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習するステップと、を含んで実行することを特徴とする。

また、第３の発明に係る移動状況学習方法において、前記移動状況認識ＤＮＮモデル構築部が構築するステップは、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、前記センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、前記移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる前記ＤＮＮモデルを構築するようにしてもよい。

第４の発明に係る移動状況認識方法は、移動状況認識部が、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルとに基づいて、前記ユーザの移動状況の種類を認識するステップを含んで実行することを特徴とする。

第５の発明に係るプログラムは、コンピュータを、第１の発明に係る移動状況学習装置、又は第２の発明に係る移動状況認識装置の各部として機能させるためのプログラムである。

本発明の移動状況学習装置、方法、及びプログラムによれば、ＤＮＮモデルを構築し、ユーザについて得られた映像における画像系列を含む映像データと、ユーザについてセンサから映像に対応して得られたセンサデータと、アノテーションデータと、構築されたＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習することにより、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識ＤＮＮモデルを学習することができる、という効果が得られる。

また、本発明の移動状況認識装置、方法、及びプログラムによれば、ユーザについて得られた映像における画像系列を含む映像データと、ユーザについてセンサから映像に対応して得られたセンサデータと、予め学習された移動状況認識ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識することで、精度よく、ユーザの移動状況の種類を認識することができる。

本発明の実施の形態に係る移動状況学習装置の構成を示すブロック図である。映像データＤＢ２４のデータの記憶形式の例を示す図である。センサデータＤＢ２６のデータの記憶形式の例を示す図である。アノテーションＤＢ２８の記憶形式の例を示す図である。ＤＮＮモデルの構造の一例を示す図である。本発明の実施の形態に係る移動状況認識装置の構成を示すブロック図である。本発明の実施の形態に係る移動状況学習装置における移動状況学習処理ルーチンを示すフローチャートである。映像データの前処理を示すフローチャートである。映像データから生成した各フレームにおける画像データの例を示す図である。センサデータの前処理を示すフローチャートである。移動状況認識ＤＮＮモデルの学習処理を示すフローチャートである。移動状況認識ＤＮＮモデルのモデルパラメータの例を示す図である。本発明の実施の形態に係る移動状況認識装置における移動状況認識処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る移動状況学習装置の構成＞

次に、本発明の実施の形態に係る移動状況学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る移動状況学習装置１００は、ＣＰＵと、ＲＡＭと、後述する移動状況学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この移動状況学習装置１００は、機能的には図１に示すように演算部２０を備えている。

演算部２０は、映像データＤＢ２４と、センサデータＤＢ２６と、アノテーションＤＢ２８と、映像データ前処理部３０と、センサデータ前処理部３２と、移動状況認識ＤＮＮモデル構築部３４と、移動状況認識ＤＮＮモデル学習部３６と、移動状況認識ＤＮＮモデルＤＢ４０とを含んで構成されている。

映像データＤＢ２４には、映像を識別するデータＩＤ毎に、ユーザについて得られた一人称視点の映像における映像データが格納されている。図２に映像データＤＢ２４のデータの記憶形式の例を示す。映像データはMpeg4形式などで圧縮されたファイルで格納されており、それぞれセンサデータと紐付けるためのデータＩＤと紐づいている。

センサデータＤＢ２６には、データＩＤ毎に、ユーザに取り付けられたセンサから、当該データＩＤの映像に対応して得られたセンサデータが格納されている。図３にセンサデータＤＢ２６のデータの記憶形式の例を示す。センサデータは日時、緯度経度、及びＸ軸加速度やＹ軸加速度などの要素を持つ。各センサデータは固有の系列ＩＤを保有する。さらに映像データと紐付けるためのデータＩＤを保有する。

アノテーションＤＢ２８には、データＩＤ毎の、映像におけるユーザの移動状況の種類を表すアノテーションを含むアノテーションデータが格納されている。図４にアノテーションＤＢ２８の記憶形式の例を示す。

ここで映像データＤＢ２４とセンサデータＤＢ２６は、データＩＤで関連する映像データとセンサデータの対応付けが取れるように予め構築されているものとする。映像データＤＢ２４とセンサデータＤＢ２６の構築処理については、たとえばシステム運用者によって映像データとセンサデータのペアが入力され、それらペアを一意に特定するＩＤをデータＩＤとして入力された映像データおよびセンサデータに付与し、それぞれ映像データＤＢ２４、センサデータＤＢ２６に格納するようにすればよい。また、アノテーションＤＢ２８には、各データＩＤに対するアノテーションが格納されている。ここでアノテーションとは、例えばグラスウエアで取得された一人称視点の映像に対する状況を説明した物が想定され、ウインドーショッピングや横断歩道横断中等が該当する。アノテーションＤＢ２８の構築処理についても、映像データＤＢとセンサデータＤＢの構築処理と同様、たとえばシステム運用者によって各データＩＤに対するアノテーションが入力され、その入力結果をアノテーションＤＢ２８に格納するようにすればよい。

映像データ前処理部３０は、データＩＤ毎に、映像データＤＢ２４から映像データを受け取り、前処理を行い、画像系列を含む映像データとして出力する。処理の詳細は後述する。

センサデータ前処理部３２は、データＩＤ毎に、センサデータＤＢ２６から、センサデータを受け取り、前処理を行う。処理の詳細は後述する。

移動状況認識ＤＮＮモデル構築部３４は、アノテーションＤＢ２８に格納されているアノテーションデータに基づいて、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルを構築する。ここで構築されるＤＮＮモデルは、映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、画像の特徴を抽象化する全結合層Ａ、センサデータを抽象化する全結合層Ｂ、抽象化された画像の特徴とセンサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる。ＤＮＮモデルの構造を図５に示す。

畳み込み層は、画像データ（画像行列）から特徴を抽出する層である。ここでは、例えば画像を３×３のフィルタで畳み込んだり、特定矩形内の最大値を抽出(最大プーリング)したりする。畳み込み層にはAlexNet（非特許文献３）等公知のネットワーク構造や事前学習済みパラメータを利用することも可能である。

（非特許文献３）：Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, pp.1106-1114, 2012.

全結合層Ａは、畳み込み層から得られる画像データの特徴をさらに抽象化する層である。ここでは、例えばシグモイド関数などを利用して、入力の特徴量を非線形変換する。

全結合層Ｂは、センサデータのベクトルを画像特徴と同等レベルに抽象化する層である。ここでは、全結合層Ａと同様に、入力を非線形変換する。

ＬＳＴＭは、全結合層Ａで抽象化された画像データの特徴、及び全結合層Ｂで抽象化されたセンサデータをさらに系列データとして、フレームごとに抽象化する層である。具体的には、系列データを順次受け取り、フレームごとに、過去の抽象化された情報を循環させながら、繰り返し非線形変換する。ＬＳＴＭには忘却ゲートが搭載された公知のネットワーク構造（非特許文献４）を利用することもできる。

（非特許文献４）：Felix A. Gers, Nicol N. Schraudolph, and Jurgen Schmidhuber: Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, vol. 3, pp.115-143, 2002.

全結合層Ｃは、各ＬＳＴＭで抽象化された系列データの特徴を、対象とする移動状況の種類数と同じ次元数のベクトルに落とし込み、各移動状況の種類に対する確率を表す確率ベクトルを計算する層である。ここでは、ソフトマックス関数などを利用して入力の特徴量の全要素の総和が１になるように非線形変換する。

出力層は、確率ベクトルの各要素と移動状況を対応付ける層である。例えば確率ベクトルの１番目を、ウインドーショッピング、２番目を横断歩道横断などと対応付ける。

移動状況認識ＤＮＮモデル学習部３６は、映像データ前処理部３０により前処理された映像データと、センサデータ前処理部３２により前処理されたセンサデータと、アノテーションデータと、移動状況認識ＤＮＮモデル構築部３４により構築されたＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習する。

移動状況認識ＤＮＮモデルＤＢ４０には、移動状況認識ＤＮＮモデル学習部３６により学習された移動状況認識ＤＮＮモデルが格納される。

＜本発明の実施の形態に係る移動状況認識装置の構成＞

次に、本発明の実施の形態に係る移動状況認識装置の構成について説明する。図６に示すように、本発明の実施の形態に係る移動状況認識装置２００は、ＣＰＵと、ＲＡＭと、後述する移動状況認識処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この移動状況認識装置２００は、機能的には図６に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、ユーザについて得られた映像、及びユーザについて当該映像に対応してセンサから得られたセンサデータを受け付ける。

演算部２２０は、映像データ前処理部２３０と、センサデータ前処理部２３２と、移動状況認識部２３４と、移動状況認識ＤＮＮモデルＤＢ２４０とを含んで構成されている。

映像データ前処理部２３０は、入力部２１０で受け付けた映像の前処理を行い、画像系列を含む映像データとして出力する。具体的な処理は上記移動状況学習装置１００の映像データ前処理部３０と同様である。

センサデータ前処理部２３２は、入力部２１０で受け付けたセンサデータの前処理を行う。

移動状況認識ＤＮＮモデルＤＢ２４０には、上記移動状況学習装置１００で予め学習された、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルが格納されている。

移動状況認識部２３４は、映像データ前処理部２３０で前処理された映像データと、センサデータ前処理部２３２で前処理されたセンサデータと、移動状況認識ＤＮＮモデルＤＢ２４０に格納されている移動状況認識ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識し、出力部２５０に出力する。

＜本発明の実施の形態に係る移動状況学習装置の作用＞

次に、本発明の実施の形態に係る移動状況学習装置１００の作用について説明する。移動状況学習装置１００は、図７に示す移動状況学習処理ルーチンを実行する。

ステップＳ１００では、映像データ前処理部３０が、映像データＤＢ２４からデータＩＤ毎に映像データを受け取り前処理を行い、画像系列を含む映像データとして出力する。処理の詳細は後述する。

ステップＳ１１０では、センサデータ前処理部３２が、センサデータＤＢ２６から、データＩＤ毎に、センサデータを受け取り前処理を行う。処理の詳細は後述する。

ステップＳ１２０では、移動状況認識ＤＮＮモデル構築部３４が、アノテーションＤＢ２８に格納されているアノテーションデータに基づいて、上記図５に示すＤＮＮモデルを構築する。

ステップＳ１３０では、移動状況認識ＤＮＮモデル学習部３６が、ステップＳ１００で前処理された映像データと、ステップＳ１１０で前処理されたセンサデータと、アノテーションＤＢ２８に格納されているアノテーションデータと、移動状況認識ＤＮＮモデル構築部３４により構築されたＤＮＮモデルとに基づいて、前処理された映像データと、前処理されたセンサデータを入力として、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習し、移動状況認識ＤＮＮモデルＤＢ４０に出力する。処理の詳細は後述する。

次に、ステップＳ１００の映像データの前処理について図８に示すフローチャートを用いて説明する。ステップＳ１００では以下の処理をデータＩＤ毎に繰り返す。

ステップＳ２００では、映像データＤＢ２４から、当該データＩＤの映像データを受け取る。

ステップＳ２１０では、ステップＳ２００で受け取った映像データを、縦×横×３チャネルの画素値で表現された画像データ系列に変換する。例えば縦のサイズを１００画素、横のサイズを２００画素のように決定する。図９に映像データから生成した各フレームにおける画像データの例を示す。各画像データは元の映像データと同じデータＩＤ、各フレームの番号、タイムスタンプの情報を保持している。

ステップＳ２２０では、冗長なデータを削減するために、ステップＳ２１０で得られた各フレームの画像データから、一定フレーム間隔でＮフレームごとに画像データをサンプリングする。

ステップＳ２３０では、画像データをＤＮＮモデルにおいて扱いやすくするために、サンプリングされた各フレームにおける画像データの各画素値を正規化する。例えば、各々の画素値の範囲が０〜１の範囲になるように、画素の取りうる最大値で各画素値を除算する。

ステップＳ２４０では、ステップＳ２３０で正規化された各フレームにおける画像データからなる画像系列として表現される映像データ、および対応するタイムスタンプの情報を移動状況認識ＤＮＮモデル学習部３６に出力する。

次に、ステップＳ１１０のセンサデータの前処理について図１０に示すフローチャートを用いて説明する。ステップＳ１１０では以下の処理をデータＩＤ毎に繰り返す。

ステップＳ３００では、センサデータＤＢ２６から、当該データＩＤのセンサデータを系列ＩＤ順に受け取る。

ステップＳ３１０では、センサデータをＤＮＮモデルが扱いやすくするためにステップＳ３００で受け取った各センサデータにおける加速度等の値を正規化する。例えば、全センサデータのＸ軸加速度の平均値が０、標準偏差値が１になるように、各センサデータにおけるＸ軸加速度の値を正規化し、全センサデータのＹ軸加速度の平均値が０、標準偏差値が１になるように、各センサデータにおけるＹ軸加速度の値を正規化する。

ステップＳ３２０では、各センサデータに対して、上記ステップＳ３１０で正規化された各種の値を結合し特徴ベクトルを生成する。

ステップＳ３３０では、センサデータの特徴ベクトル、および対応する日時の情報を移動状況認識ＤＮＮモデル学習部３６に出力する。

次に、ステップＳ１３０の移動状況認識ＤＮＮモデルの学習処理について図１１に示すフローチャートを用いて説明する。

ステップＳ４００では、データＩＤ毎に、ステップＳ１００で前処理された映像データのタイムスタンプと、ステップＳ１１０で前処理されたセンサデータの日時情報を基に、映像データに含まれるフレームの画像データとセンサデータとを対応付ける。

ステップＳ４１０では、ステップＳ１２０で構築されたＤＮＮモデルを受け取る。

ステップＳ４２０では、ＤＮＮモデルのネットワークにおける各ユニットのモデルパラメータを初期化する。例えば０から１の乱数で初期化する。

ステップＳ４３０では、データＩＤ毎に、ステップＳ１００で前処理された映像データのフレームの各々の画像データ、ステップＳ１１０で前処理されたフレームの各々に対応するセンサデータ、及びアノテーションＤＢ２８に格納されているデータＩＤに対応するアノテーションデータを用いて、ＤＮＮモデルのモデルパラメータを計算する。具体的には、データＩＤ毎に、入力となる映像データ及びセンサデータに対して得られる出力の確率ベクトルと、アノテーションデータから得られるバイナリベクトルとを求め、確率ベクトルとバイナリベクトルとのクロスエントロピー誤差が最小になるように、バックプロパゲーションなど公知の技術を利用して、モデルパラメータを最適化する。

ステップＳ４４０では、ステップＳ４３０で得られたモデルパラメータを用いた移動状況認識ＤＮＮモデル(ネットワーク構造およびモデルパラメータ)を出力し、出力された結果を移動状況認識ＤＮＮモデルＤＢ４０に格納する。図１２に移動状況認識ＤＮＮモデルのモデルパラメータの例を示す。各層において行列やベクトルとしてパラメータが格納されている。また、出力層に対しては、確率ベクトルの各要素番号と対応する移動状況のテキストが格納されている。

以上説明したように、本発明の実施の形態に係る移動状況学習装置によれば、ＤＮＮモデルを構築し、前処理された映像データと、前処理されたセンサデータと、構築されたＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習することにより、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識ＤＮＮモデルを学習することができる。

＜本発明の実施の形態に係る移動状況認識装置の作用＞

次に、本発明の実施の形態に係る移動状況認識装置２００の作用について説明する。入力部２１０においてユーザについて得られた映像、及びユーザについて当該映像に対応してセンサから得られたセンサデータを受け付けると、移動状況認識装置２００は、図１３に示す移動状況認識処理ルーチンを実行する。

ステップＳ１４０では、映像データ前処理部２３０が入力部２１０から映像データを受け取り前処理を行う。具体的な処理は、上記移動状況学習装置１００の図８のフローチャートにおけるステップＳ２１０以降の処理と同様である。

ステップＳ１５０では、センサデータ前処理部２３２が入力部２１０からセンサデータを受け取り前処理を行う。具体的な処理は、上記移動状況学習装置１００の図１０のフローチャートにおけるステップＳ３１０以降の処理と同様である。

ステップＳ１６０では、ステップＳ１４０で前処理された映像データのタイムスタンプと、ステップＳ１５０で前処理されたセンサデータの日時情報を基に、映像データに含まれるフレームの画像データとセンサデータとを対応付ける。

ステップＳ１７０では、ステップＳ１４０で前処理された、映像データのフレームの各々の画像データと、ステップＳ１５０で前処理された、フレームの各々に対応するセンサデータと、移動状況認識ＤＮＮモデルＤＢ２４０に格納されている移動状況認識ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識し、出力部２５０に出力する。

以上説明したように、本発明の実施の形態に係る移動状況認識装置によれば、映像データと、センサデータと、予め学習された移動状況認識ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識することで、精度よく、ユーザの移動状況の種類を認識することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、一人称視点の映像の映像データと、ユーザに取り付けられたセンサから得られたセンサデータとを用いて、移動状況学習装置１００における移動状況認識ＤＮＮモデルの学習、及び移動状況認識装置２００における移動状況の認識を行う場合を例に説明したが、これに限定されるものではなく、第三者視点から当該ユーザを撮像した映像の映像データと、当該ユーザの周囲のセンサから取得された当該ユーザについてのセンサデータとを用いて、移動状況学習装置１００における移動状況認識ＤＮＮモデルの学習、及び移動状況認識装置２００における移動状況の認識を行うようにしてもよい。

２０，２２０演算部
３０映像データ前処理部
３２センサデータ前処理部
３４移動状況認識ＤＮＮモデル構築部
３６移動状況認識ＤＮＮモデル学習部
１００移動状況学習装置
２００移動状況認識装置
２１０入力部
２３０映像データ前処理部
２３２センサデータ前処理部
２３４移動状況認識部
２５０出力部

Claims

ユーザについて得られた映像を識別するデータＩＤ毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴とセンサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる前記ＤＮＮモデルを構築する移動状況認識ＤＮＮモデル構築部と、
前記データＩＤ毎の、前記映像における画像系列を含む映像データと、前記データＩＤ毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習する移動状況認識ＤＮＮモデル学習部と、
を含む移動状況学習装置。
ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴とセンサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルとに基づいて、前記ユーザの移動状況の種類を認識する移動状況認識部
を含む移動状況認識装置。
移動状況認識ＤＮＮモデル構築部が、ユーザについて得られた映像を識別するデータＩＤ毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴とセンサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる前記ＤＮＮモデルを構築するステップと、
移動状況認識ＤＮＮモデル学習部が、前記データＩＤ毎の、前記映像における画像系列を含む映像データと、前記データＩＤ毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記ＤＮＮモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルを学習するステップと、
を含む移動状況学習方法。
移動状況認識部が、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、ＤＮＮ（Deep Neural Networks）構造を持つＤＮＮモデルであって、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層Ａ、センサデータを抽象化する全結合層Ｂ、抽象化された前記画像の特徴とセンサデータとの系列データを抽象化するＬＳＴＭ（Long short-term memory）、移動状況の種類の各々に対する確率を計算する全結合層Ｃ、及び出力層からなる、ユーザの移動状況の種類を認識するための移動状況認識ＤＮＮモデルとに基づいて、前記ユーザの移動状況の種類を認識するステップ
を含む移動状況認識方法。
コンピュータを、請求項１に記載の移動状況学習装置、又は請求項２に記載の移動状況認識装置の各部として機能させるためのプログラム。