JP2018041319A - 移動状況学習装置、移動状況認識装置、方法、及びプログラム - Google Patents

移動状況学習装置、移動状況認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018041319A
JP2018041319A JP2016175592A JP2016175592A JP2018041319A JP 2018041319 A JP2018041319 A JP 2018041319A JP 2016175592 A JP2016175592 A JP 2016175592A JP 2016175592 A JP2016175592 A JP 2016175592A JP 2018041319 A JP2018041319 A JP 2018041319A
Authority
JP
Japan
Prior art keywords
data
movement
video
dnn model
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016175592A
Other languages
English (en)
Other versions
JP6529470B2 (ja
Inventor
結城 遠藤
Yuki Endo
結城 遠藤
浩之 戸田
Hiroyuki Toda
浩之 戸田
優 甲谷
Yu Koya
優 甲谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016175592A priority Critical patent/JP6529470B2/ja
Publication of JP2018041319A publication Critical patent/JP2018041319A/ja
Application granted granted Critical
Publication of JP6529470B2 publication Critical patent/JP6529470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【課題】精度よく、ユーザの移動状況の種類を認識することができる移動状況認識DNNモデルを学習することができる。【解決手段】移動状況認識DNNモデル構築部34が、DNNモデルを構築し、移動状況認識DNNモデル学習部36が、前処理された映像データと、前処理されたセンサデータと、アノテーションデータと、構築されたDNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習する。【選択図】図1

Description

本発明は、移動状況学習装置、移動状況認識装置、方法、及びプログラムに係り、特に、ユーザの移動状況を認識するための移動状況学習装置、移動状況認識装置、方法、及びプログラムに関する。
映像撮影デバイスの小型化や、GPSやジャイロセンサなどの省電力化に伴い、ユーザの行動を、映像、位置情報や加速度などの多様なデータとして容易に記録できるようになった。これらのデータからユーザの行動を詳細に分析することは、様々な用途に役立つ。例えば、グラスウエア等を通じて取得された一人称視点の映像と、ウエラブルセンサで取得された加速度データ等を利用して、ウインドーショッピングしている状況や、横断歩道を渡っている状況等を自動認識し、分析できれば、サービスのパーソナライズ化等様々な用途で役立てられる。
従来、センサ情報からユーザの移動状況を自動認識する技術として、GPSの位置情報や速度情報からユーザの移動手段を推定する技術が存在する(非特許文献1)。また、スマートフォンから取得される加速度等の情報を用いて、徒歩やジョギング、階段の昇降等を分析する技術の開発も取組まれてきた(非特許文献2)。
Zheng, Y., Liu, L., Wang, L., and Xie, X.: Learning transportation mode from raw GPS data for geographic applications on the web. In Proc. of World Wide Web 2008, pp. 247-256, 2008. Jennifer R. Kwapisz, Gary M. Weiss, Samuel A. Moore: Activity Recognition using Cell Phone Accelerometers, Proc. Of SensorKDD 2010.
ところが、上記従来の方法はセンサ情報のみを利用しているため、映像情報を考慮したユーザの移動状況認識を行うことができなかった。例えば、ウエラブルセンサのデータから、ユーザの移動状況を把握しようとした場合、歩いていることは理解したとしても、ウインドーショッピングしている状況や、横断歩道を渡っている状況のように詳細なユーザの状況をセンサデータのみから自動認識することは困難である。一方で、映像データとセンサデータの入力を組み合わせて、機械学習技術の一つであるSupport Vector Machine (SVM)などの単純な分類モデルを用いても、映像データとセンサデータの情報の抽象度合が異なることが原因で、高精度な移動状況認識が困難であった。
本発明は、上記問題点を解決するために成されたものであり、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識DNNモデルを学習することができる移動状況学習装置、方法、及びプログラムを提供することを目的とする。
また、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る移動状況学習装置は、ユーザについて得られた映像を識別するデータID毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、DNN(Deep Neural Networks)構造を持つDNNモデルを構築する移動状況認識DNNモデル構築部と、前記データID毎の、前記映像における画像系列を含む映像データと、前記データID毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記DNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習する移動状況認識DNNモデル学習部と、を含んで構成されている。
また、第1の発明に係る移動状況学習装置において、前記移動状況認識DNNモデル構築部は、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層A、前記センサデータを抽象化する全結合層B、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するLSTM(Long short-term memory)、前記移動状況の種類の各々に対する確率を計算する全結合層C、及び出力層からなる前記DNNモデルを構築するようにしてもよい。
第2の発明に係る移動状況学習装置は、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、DNN(Deep Neural Networks)構造を持つDNNモデルであって、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルとに基づいて、前記ユーザの移動状況の種類を認識する移動状況認識部を含んで構成されている。
第3の発明に係る移動状況学習方法は、移動状況認識DNNモデル構築部が、ユーザについて得られた映像を識別するデータID毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、DNN(Deep Neural Networks)構造を持つDNNモデルを構築するステップと、移動状況認識DNNモデル学習部が、前記データID毎の、前記映像における画像系列を含む映像データと、前記データID毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記DNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習するステップと、を含んで実行することを特徴とする。
また、第3の発明に係る移動状況学習方法において、前記移動状況認識DNNモデル構築部が構築するステップは、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層A、前記センサデータを抽象化する全結合層B、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するLSTM(Long short-term memory)、前記移動状況の種類の各々に対する確率を計算する全結合層C、及び出力層からなる前記DNNモデルを構築するようにしてもよい。
第4の発明に係る移動状況認識方法は、移動状況認識部が、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、DNN(Deep Neural Networks)構造を持つDNNモデルであって、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルとに基づいて、前記ユーザの移動状況の種類を認識するステップを含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、第1の発明に係る移動状況学習装置、又は第2の発明に係る移動状況認識装置の各部として機能させるためのプログラムである。
本発明の移動状況学習装置、方法、及びプログラムによれば、DNNモデルを構築し、ユーザについて得られた映像における画像系列を含む映像データと、ユーザについてセンサから映像に対応して得られたセンサデータと、アノテーションデータと、構築されたDNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習することにより、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識DNNモデルを学習することができる、という効果が得られる。
また、本発明の移動状況認識装置、方法、及びプログラムによれば、ユーザについて得られた映像における画像系列を含む映像データと、ユーザについてセンサから映像に対応して得られたセンサデータと、予め学習された移動状況認識DNNモデルとに基づいて、ユーザの移動状況の種類を認識することで、精度よく、ユーザの移動状況の種類を認識することができる。
本発明の実施の形態に係る移動状況学習装置の構成を示すブロック図である。 映像データDB24のデータの記憶形式の例を示す図である。 センサデータDB26のデータの記憶形式の例を示す図である。 アノテーションDB28の記憶形式の例を示す図である。 DNNモデルの構造の一例を示す図である。 本発明の実施の形態に係る移動状況認識装置の構成を示すブロック図である。 本発明の実施の形態に係る移動状況学習装置における移動状況学習処理ルーチンを示すフローチャートである。 映像データの前処理を示すフローチャートである。 映像データから生成した各フレームにおける画像データの例を示す図である。 センサデータの前処理を示すフローチャートである。 移動状況認識DNNモデルの学習処理を示すフローチャートである。 移動状況認識DNNモデルのモデルパラメータの例を示す図である。 本発明の実施の形態に係る移動状況認識装置における移動状況認識処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る移動状況学習装置の構成>
次に、本発明の実施の形態に係る移動状況学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る移動状況学習装置100は、CPUと、RAMと、後述する移動状況学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この移動状況学習装置100は、機能的には図1に示すように演算部20を備えている。
演算部20は、映像データDB24と、センサデータDB26と、アノテーションDB28と、映像データ前処理部30と、センサデータ前処理部32と、移動状況認識DNNモデル構築部34と、移動状況認識DNNモデル学習部36と、移動状況認識DNNモデルDB40とを含んで構成されている。
映像データDB24には、映像を識別するデータID毎に、ユーザについて得られた一人称視点の映像における映像データが格納されている。図2に映像データDB24のデータの記憶形式の例を示す。映像データはMpeg4形式などで圧縮されたファイルで格納されており、それぞれセンサデータと紐付けるためのデータIDと紐づいている。
センサデータDB26には、データID毎に、ユーザに取り付けられたセンサから、当該データIDの映像に対応して得られたセンサデータが格納されている。図3にセンサデータDB26のデータの記憶形式の例を示す。センサデータは日時、緯度経度、及びX軸加速度やY軸加速度などの要素を持つ。各センサデータは固有の系列IDを保有する。さらに映像データと紐付けるためのデータIDを保有する。
アノテーションDB28には、データID毎の、映像におけるユーザの移動状況の種類を表すアノテーションを含むアノテーションデータが格納されている。図4にアノテーションDB28の記憶形式の例を示す。
ここで映像データDB24とセンサデータDB26は、データIDで関連する映像データとセンサデータの対応付けが取れるように予め構築されているものとする。映像データDB24とセンサデータDB26の構築処理については、たとえばシステム運用者によって映像データとセンサデータのペアが入力され、それらペアを一意に特定するIDをデータIDとして入力された映像データおよびセンサデータに付与し、それぞれ映像データDB24、センサデータDB26に格納するようにすればよい。また、アノテーションDB28には、各データIDに対するアノテーションが格納されている。ここでアノテーションとは、例えばグラスウエアで取得された一人称視点の映像に対する状況を説明した物が想定され、ウインドーショッピングや横断歩道横断中等が該当する。アノテーションDB28の構築処理についても、映像データDBとセンサデータDBの構築処理と同様、たとえばシステム運用者によって各データIDに対するアノテーションが入力され、その入力結果をアノテーションDB28に格納するようにすればよい。
映像データ前処理部30は、データID毎に、映像データDB24から映像データを受け取り、前処理を行い、画像系列を含む映像データとして出力する。処理の詳細は後述する。
センサデータ前処理部32は、データID毎に、センサデータDB26から、センサデータを受け取り、前処理を行う。処理の詳細は後述する。
移動状況認識DNNモデル構築部34は、アノテーションDB28に格納されているアノテーションデータに基づいて、DNN(Deep Neural Networks)構造を持つDNNモデルを構築する。ここで構築されるDNNモデルは、映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、画像の特徴を抽象化する全結合層A、センサデータを抽象化する全結合層B、抽象化された画像の特徴とセンサデータとの系列データを抽象化するLSTM(Long short-term memory)、移動状況の種類の各々に対する確率を計算する全結合層C、及び出力層からなる。DNNモデルの構造を図5に示す。
畳み込み層は、画像データ(画像行列)から特徴を抽出する層である。ここでは、例えば画像を3×3のフィルタで畳み込んだり、特定矩形内の最大値を抽出(最大プーリング)したりする。畳み込み層にはAlexNet(非特許文献3)等公知のネットワーク構造や事前学習済みパラメータを利用することも可能である。
(非特許文献3):Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, pp.1106-1114, 2012.
全結合層Aは、畳み込み層から得られる画像データの特徴をさらに抽象化する層である。ここでは、例えばシグモイド関数などを利用して、入力の特徴量を非線形変換する。
全結合層Bは、センサデータのベクトルを画像特徴と同等レベルに抽象化する層である。ここでは、全結合層Aと同様に、入力を非線形変換する。
LSTMは、全結合層Aで抽象化された画像データの特徴、及び全結合層Bで抽象化されたセンサデータをさらに系列データとして、フレームごとに抽象化する層である。具体的には、系列データを順次受け取り、フレームごとに、過去の抽象化された情報を循環させながら、繰り返し非線形変換する。LSTMには忘却ゲートが搭載された公知のネットワーク構造(非特許文献4)を利用することもできる。
(非特許文献4):Felix A. Gers, Nicol N. Schraudolph, and Jurgen Schmidhuber: Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, vol. 3, pp.115-143, 2002.
全結合層Cは、各LSTMで抽象化された系列データの特徴を、対象とする移動状況の種類数と同じ次元数のベクトルに落とし込み、各移動状況の種類に対する確率を表す確率ベクトルを計算する層である。ここでは、ソフトマックス関数などを利用して入力の特徴量の全要素の総和が1になるように非線形変換する。
出力層は、確率ベクトルの各要素と移動状況を対応付ける層である。例えば確率ベクトルの1番目を、ウインドーショッピング、2番目を横断歩道横断などと対応付ける。
移動状況認識DNNモデル学習部36は、映像データ前処理部30により前処理された映像データと、センサデータ前処理部32により前処理されたセンサデータと、アノテーションデータと、移動状況認識DNNモデル構築部34により構築されたDNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習する。
移動状況認識DNNモデルDB40には、移動状況認識DNNモデル学習部36により学習された移動状況認識DNNモデルが格納される。
<本発明の実施の形態に係る移動状況認識装置の構成>
次に、本発明の実施の形態に係る移動状況認識装置の構成について説明する。図6に示すように、本発明の実施の形態に係る移動状況認識装置200は、CPUと、RAMと、後述する移動状況認識処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この移動状況認識装置200は、機能的には図6に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、ユーザについて得られた映像、及びユーザについて当該映像に対応してセンサから得られたセンサデータを受け付ける。
演算部220は、映像データ前処理部230と、センサデータ前処理部232と、移動状況認識部234と、移動状況認識DNNモデルDB240とを含んで構成されている。
映像データ前処理部230は、入力部210で受け付けた映像の前処理を行い、画像系列を含む映像データとして出力する。具体的な処理は上記移動状況学習装置100の映像データ前処理部30と同様である。
センサデータ前処理部232は、入力部210で受け付けたセンサデータの前処理を行う。
移動状況認識DNNモデルDB240には、上記移動状況学習装置100で予め学習された、DNN(Deep Neural Networks)構造を持つDNNモデルであって、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルが格納されている。
移動状況認識部234は、映像データ前処理部230で前処理された映像データと、センサデータ前処理部232で前処理されたセンサデータと、移動状況認識DNNモデルDB240に格納されている移動状況認識DNNモデルとに基づいて、ユーザの移動状況の種類を認識し、出力部250に出力する。
<本発明の実施の形態に係る移動状況学習装置の作用>
次に、本発明の実施の形態に係る移動状況学習装置100の作用について説明する。移動状況学習装置100は、図7に示す移動状況学習処理ルーチンを実行する。
ステップS100では、映像データ前処理部30が、映像データDB24からデータID毎に映像データを受け取り前処理を行い、画像系列を含む映像データとして出力する。処理の詳細は後述する。
ステップS110では、センサデータ前処理部32が、センサデータDB26から、データID毎に、センサデータを受け取り前処理を行う。処理の詳細は後述する。
ステップS120では、移動状況認識DNNモデル構築部34が、アノテーションDB28に格納されているアノテーションデータに基づいて、上記図5に示すDNNモデルを構築する。
ステップS130では、移動状況認識DNNモデル学習部36が、ステップS100で前処理された映像データと、ステップS110で前処理されたセンサデータと、アノテーションDB28に格納されているアノテーションデータと、移動状況認識DNNモデル構築部34により構築されたDNNモデルとに基づいて、前処理された映像データと、前処理されたセンサデータを入力として、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習し、移動状況認識DNNモデルDB40に出力する。処理の詳細は後述する。
次に、ステップS100の映像データの前処理について図8に示すフローチャートを用いて説明する。ステップS100では以下の処理をデータID毎に繰り返す。
ステップS200では、映像データDB24から、当該データIDの映像データを受け取る。
ステップS210では、ステップS200で受け取った映像データを、縦×横×3チャネルの画素値で表現された画像データ系列に変換する。例えば縦のサイズを100画素、横のサイズを200画素のように決定する。図9に映像データから生成した各フレームにおける画像データの例を示す。各画像データは元の映像データと同じデータID、各フレームの番号、タイムスタンプの情報を保持している。
ステップS220では、冗長なデータを削減するために、ステップS210で得られた各フレームの画像データから、一定フレーム間隔でNフレームごとに画像データをサンプリングする。
ステップS230では、画像データをDNNモデルにおいて扱いやすくするために、サンプリングされた各フレームにおける画像データの各画素値を正規化する。例えば、各々の画素値の範囲が0〜1の範囲になるように、画素の取りうる最大値で各画素値を除算する。
ステップS240では、ステップS230で正規化された各フレームにおける画像データからなる画像系列として表現される映像データ、および対応するタイムスタンプの情報を移動状況認識DNNモデル学習部36に出力する。
次に、ステップS110のセンサデータの前処理について図10に示すフローチャートを用いて説明する。ステップS110では以下の処理をデータID毎に繰り返す。
ステップS300では、センサデータDB26から、当該データIDのセンサデータを系列ID順に受け取る。
ステップS310では、センサデータをDNNモデルが扱いやすくするためにステップS300で受け取った各センサデータにおける加速度等の値を正規化する。例えば、全センサデータのX軸加速度の平均値が0、標準偏差値が1になるように、各センサデータにおけるX軸加速度の値を正規化し、全センサデータのY軸加速度の平均値が0、標準偏差値が1になるように、各センサデータにおけるY軸加速度の値を正規化する。
ステップS320では、各センサデータに対して、上記ステップS310で正規化された各種の値を結合し特徴ベクトルを生成する。
ステップS330では、センサデータの特徴ベクトル、および対応する日時の情報を移動状況認識DNNモデル学習部36に出力する。
次に、ステップS130の移動状況認識DNNモデルの学習処理について図11に示すフローチャートを用いて説明する。
ステップS400では、データID毎に、ステップS100で前処理された映像データのタイムスタンプと、ステップS110で前処理されたセンサデータの日時情報を基に、映像データに含まれるフレームの画像データとセンサデータとを対応付ける。
ステップS410では、ステップS120で構築されたDNNモデルを受け取る。
ステップS420では、DNNモデルのネットワークにおける各ユニットのモデルパラメータを初期化する。例えば0から1の乱数で初期化する。
ステップS430では、データID毎に、ステップS100で前処理された映像データのフレームの各々の画像データ、ステップS110で前処理されたフレームの各々に対応するセンサデータ、及びアノテーションDB28に格納されているデータIDに対応するアノテーションデータを用いて、DNNモデルのモデルパラメータを計算する。具体的には、データID毎に、入力となる映像データ及びセンサデータに対して得られる出力の確率ベクトルと、アノテーションデータから得られるバイナリベクトルとを求め、確率ベクトルとバイナリベクトルとのクロスエントロピー誤差が最小になるように、バックプロパゲーションなど公知の技術を利用して、モデルパラメータを最適化する。
ステップS440では、ステップS430で得られたモデルパラメータを用いた移動状況認識DNNモデル(ネットワーク構造およびモデルパラメータ)を出力し、出力された結果を移動状況認識DNNモデルDB40に格納する。図12に移動状況認識DNNモデルのモデルパラメータの例を示す。各層において行列やベクトルとしてパラメータが格納されている。また、出力層に対しては、確率ベクトルの各要素番号と対応する移動状況のテキストが格納されている。
以上説明したように、本発明の実施の形態に係る移動状況学習装置によれば、DNNモデルを構築し、前処理された映像データと、前処理されたセンサデータと、構築されたDNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習することにより、精度よく、ユーザの移動状況の種類を認識することができる移動状況認識DNNモデルを学習することができる。
<本発明の実施の形態に係る移動状況認識装置の作用>
次に、本発明の実施の形態に係る移動状況認識装置200の作用について説明する。入力部210においてユーザについて得られた映像、及びユーザについて当該映像に対応してセンサから得られたセンサデータを受け付けると、移動状況認識装置200は、図13に示す移動状況認識処理ルーチンを実行する。
ステップS140では、映像データ前処理部230が入力部210から映像データを受け取り前処理を行う。具体的な処理は、上記移動状況学習装置100の図8のフローチャートにおけるステップS210以降の処理と同様である。
ステップS150では、センサデータ前処理部232が入力部210からセンサデータを受け取り前処理を行う。具体的な処理は、上記移動状況学習装置100の図10のフローチャートにおけるステップS310以降の処理と同様である。
ステップS160では、ステップS140で前処理された映像データのタイムスタンプと、ステップS150で前処理されたセンサデータの日時情報を基に、映像データに含まれるフレームの画像データとセンサデータとを対応付ける。
ステップS170では、ステップS140で前処理された、映像データのフレームの各々の画像データと、ステップS150で前処理された、フレームの各々に対応するセンサデータと、移動状況認識DNNモデルDB240に格納されている移動状況認識DNNモデルとに基づいて、ユーザの移動状況の種類を認識し、出力部250に出力する。
以上説明したように、本発明の実施の形態に係る移動状況認識装置によれば、映像データと、センサデータと、予め学習された移動状況認識DNNモデルとに基づいて、ユーザの移動状況の種類を認識することで、精度よく、ユーザの移動状況の種類を認識することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、一人称視点の映像の映像データと、ユーザに取り付けられたセンサから得られたセンサデータとを用いて、移動状況学習装置100における移動状況認識DNNモデルの学習、及び移動状況認識装置200における移動状況の認識を行う場合を例に説明したが、これに限定されるものではなく、第三者視点から当該ユーザを撮像した映像の映像データと、当該ユーザの周囲のセンサから取得された当該ユーザについてのセンサデータとを用いて、移動状況学習装置100における移動状況認識DNNモデルの学習、及び移動状況認識装置200における移動状況の認識を行うようにしてもよい。
20,220 演算部
30 映像データ前処理部
32 センサデータ前処理部
34 移動状況認識DNNモデル構築部
36 移動状況認識DNNモデル学習部
100 移動状況学習装置
200 移動状況認識装置
210 入力部
230 映像データ前処理部
232 センサデータ前処理部
234 移動状況認識部
250 出力部

Claims (7)

  1. ユーザについて得られた映像を識別するデータID毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、DNN(Deep Neural Networks)構造を持つDNNモデルを構築する移動状況認識DNNモデル構築部と、
    前記データID毎の、前記映像における画像系列を含む映像データと、前記データID毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記DNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習する移動状況認識DNNモデル学習部と、
    を含む移動状況学習装置。
  2. 前記移動状況認識DNNモデル構築部は、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層A、前記センサデータを抽象化する全結合層B、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するLSTM(Long short-term memory)、前記移動状況の種類の各々に対する確率を計算する全結合層C、及び出力層からなる前記DNNモデルを構築する請求項1に記載の移動状況学習装置。
  3. ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、DNN(Deep Neural Networks)構造を持つDNNモデルであって、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルとに基づいて、前記ユーザの移動状況の種類を認識する移動状況認識部
    を含む移動状況認識装置。
  4. 移動状況認識DNNモデル構築部が、ユーザについて得られた映像を識別するデータID毎の、前記映像における前記ユーザの移動状況の種類を表すアノテーションを含むアノテーションデータに基づいて、DNN(Deep Neural Networks)構造を持つDNNモデルを構築するステップと、
    移動状況認識DNNモデル学習部が、前記データID毎の、前記映像における画像系列を含む映像データと、前記データID毎の、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、前記アノテーションデータと、前記構築された前記DNNモデルとに基づいて、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルを学習するステップと、
    を含む移動状況学習方法。
  5. 前記移動状況認識DNNモデル構築部が構築するステップは、前記映像における画像系列に含まれる画像から特徴を抽出する畳み込み層、前記画像の特徴を抽象化する全結合層A、前記センサデータを抽象化する全結合層B、抽象化された前記画像の特徴と前記センサデータとの系列データを抽象化するLSTM(Long short-term memory)、前記移動状況の種類の各々に対する確率を計算する全結合層C、及び出力層からなる前記DNNモデルを構築する請求項4に記載の移動状況学習方法。
  6. 移動状況認識部が、ユーザについて得られた映像における画像系列を含む映像データと、前記ユーザについてセンサから前記映像に対応して得られたセンサデータと、予め学習された、DNN(Deep Neural Networks)構造を持つDNNモデルであって、ユーザの移動状況の種類を認識するための移動状況認識DNNモデルとに基づいて、前記ユーザの移動状況の種類を認識するステップ
    を含む移動状況認識方法。
  7. コンピュータを、請求項1若しくは請求項2に記載の移動状況学習装置、又は請求項3に記載の移動状況認識装置の各部として機能させるためのプログラム。
JP2016175592A 2016-09-08 2016-09-08 移動状況学習装置、移動状況認識装置、方法、及びプログラム Active JP6529470B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016175592A JP6529470B2 (ja) 2016-09-08 2016-09-08 移動状況学習装置、移動状況認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016175592A JP6529470B2 (ja) 2016-09-08 2016-09-08 移動状況学習装置、移動状況認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018041319A true JP2018041319A (ja) 2018-03-15
JP6529470B2 JP6529470B2 (ja) 2019-06-12

Family

ID=61626074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016175592A Active JP6529470B2 (ja) 2016-09-08 2016-09-08 移動状況学習装置、移動状況認識装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6529470B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019169011A (ja) * 2018-03-25 2019-10-03 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
WO2019208793A1 (ja) * 2018-04-26 2019-10-31 日本電信電話株式会社 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
WO2019235116A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
KR20190143527A (ko) * 2018-06-08 2019-12-31 부산대학교 산학협력단 머신 러닝을 통한 영상 인식을 위한 장치 및 방법
JP2020119507A (ja) * 2019-01-25 2020-08-06 富士通株式会社 運転行動認識に用いられる深層学習モデル、訓練装置及び方法
WO2020170870A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 イベント発生時刻学習装置、イベント発生時刻推定装置、イベント発生時刻推定方法、イベント発生時刻学習プログラム、及びイベント発生時刻推定プログラム
CN112417927A (zh) * 2019-08-22 2021-02-26 北京奇虎科技有限公司 建立人体姿态识别模型的方法、人体姿态识别方法及装置
JP2021526253A (ja) * 2018-05-23 2021-09-30 モビディウス リミテッド 深層学習システム
CN114630132A (zh) * 2020-12-10 2022-06-14 脸萌有限公司 视频编解码的基于神经网络的环路内滤波器中的模型选择
JP2022132336A (ja) * 2018-03-25 2022-09-08 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP2023036761A (ja) * 2017-08-22 2023-03-14 ノースロップ グラマン システムズ コーポレーション ニューラルネットワークの分散学習および重み分配のためのシステム、および方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102104878B1 (ko) * 2018-07-18 2020-04-27 충북대학교 산학협력단 Lstm을 이용한 전기로에서의 전극봉 위치 데이터 예측 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NISHIDA, NORIKI AND NAKAYAMA, HIDEKI: "Multimodal Gesture Recognition using Multi-stream Recurrent Neural Network", PSIVT 2015 REVISED SELECTED PAPERS OF THE 7TH PACIFIC-RIM SYMPOSIUM ON IMAGE AND VIDEO TECHNOLOGY -, JPN7019000403, 25 November 2015 (2015-11-25), pages 682 - 694 *
ORDONEZ, FRANCISCO JAVIER AND ROGGEN, DANIEL: "Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition", SENSORS, vol. Vol. 16, No. 1, 115, JPN6019004928, 18 January 2016 (2016-01-18) *
SHIN, SUNGHO AND SUNG, WONYONG: "Dynamic hand gesture recognition for wearable devices with low complexity recurrent neural networks", 2016 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), JPN6019004927, 22 May 2016 (2016-05-22) *
SONG, SIBO ET AL.: "Multimodal Multi-Stream Deep Learning for Egocentric Activity Recognition", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), JPN6019004925, 26 June 2016 (2016-06-26) *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7393512B2 (ja) 2017-08-22 2023-12-06 ノースロップ グラマン システムズ コーポレーション ニューラルネットワークの分散学習および重み分配のためのシステム、および方法
JP2023036761A (ja) * 2017-08-22 2023-03-14 ノースロップ グラマン システムズ コーポレーション ニューラルネットワークの分散学習および重み分配のためのシステム、および方法
JP7313610B2 (ja) 2018-03-25 2023-07-25 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP2019169011A (ja) * 2018-03-25 2019-10-03 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP2022132336A (ja) * 2018-03-25 2022-09-08 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP7107498B2 (ja) 2018-03-25 2022-07-27 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
EP3786882A4 (en) * 2018-04-26 2022-01-19 Nippon Telegraph And Telephone Corporation MOTION STATE RECOGNITION LEARNING DEVICE, MOTION STATE RECOGNITION DEVICE, METHOD AND PROGRAM
WO2019208793A1 (ja) * 2018-04-26 2019-10-31 日本電信電話株式会社 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
JPWO2019208793A1 (ja) * 2018-04-26 2021-01-07 日本電信電話株式会社 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
US11386288B2 (en) 2018-04-26 2022-07-12 Nippon Telegraph And Telephone Corporation Movement state recognition model training device, movement state recognition device, methods and programs therefor
US11900256B2 (en) 2018-05-23 2024-02-13 Intel Corporation Deep learning system
JP2021526253A (ja) * 2018-05-23 2021-09-30 モビディウス リミテッド 深層学習システム
US11494918B2 (en) 2018-06-04 2022-11-08 Nippon Telegraph And Telephone Corporation Moving state analysis device, moving state analysis method, and program
WO2019235116A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
JPWO2019235116A1 (ja) * 2018-06-04 2021-06-17 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
KR102102405B1 (ko) 2018-06-08 2020-04-20 부산대학교 산학협력단 머신 러닝을 통한 영상 인식을 위한 장치 및 방법
KR20190143527A (ko) * 2018-06-08 2019-12-31 부산대학교 산학협력단 머신 러닝을 통한 영상 인식을 위한 장치 및 방법
JP2020119507A (ja) * 2019-01-25 2020-08-06 富士通株式会社 運転行動認識に用いられる深層学習モデル、訓練装置及び方法
JP7500958B2 (ja) 2019-01-25 2024-06-18 富士通株式会社 運転行動認識に用いられる深層学習モデル、訓練装置及び方法
WO2020170870A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 イベント発生時刻学習装置、イベント発生時刻推定装置、イベント発生時刻推定方法、イベント発生時刻学習プログラム、及びイベント発生時刻推定プログラム
JP2020135482A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 イベント発生時刻学習装置、イベント発生時刻推定装置、イベント発生時刻推定方法、イベント発生時刻学習プログラム、及びイベント発生時刻推定プログラム
JP7092062B2 (ja) 2019-02-20 2022-06-28 日本電信電話株式会社 イベント発生時刻学習装置、イベント発生時刻推定装置、イベント発生時刻推定方法、イベント発生時刻学習プログラム、及びイベント発生時刻推定プログラム
CN112417927A (zh) * 2019-08-22 2021-02-26 北京奇虎科技有限公司 建立人体姿态识别模型的方法、人体姿态识别方法及装置
CN114630132A (zh) * 2020-12-10 2022-06-14 脸萌有限公司 视频编解码的基于神经网络的环路内滤波器中的模型选择
US11716469B2 (en) 2020-12-10 2023-08-01 Lemon Inc. Model selection in neural network-based in-loop filter for video coding
CN114630132B (zh) * 2020-12-10 2023-12-19 脸萌有限公司 视频编解码的基于神经网络的环路内滤波器中的模型选择

Also Published As

Publication number Publication date
JP6529470B2 (ja) 2019-06-12

Similar Documents

Publication Publication Date Title
JP6529470B2 (ja) 移動状況学習装置、移動状況認識装置、方法、及びプログラム
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
JP6857547B2 (ja) 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
CN109359564B (zh) 一种图像场景图生成方法及装置
US20200265239A1 (en) Method and apparatus for processing video stream
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
JP6900576B2 (ja) 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
CN112862828B (zh) 一种语义分割方法、模型训练方法及装置
CN111797589A (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
WO2022012668A1 (zh) 一种训练集处理方法和装置
JP2010157118A (ja) パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム
CN113627422A (zh) 一种图像分类方法及其相关设备
JP2015111332A (ja) 姿勢検出装置、姿勢検出方法および姿勢検出プログラム
JP7176626B2 (ja) 移動状況学習装置、移動状況認識装置、モデル学習方法、移動状況認識方法、及びプログラム
JP6939998B2 (ja) 移動状況解析装置、移動状況解析方法及びプログラム
CN113627421A (zh) 一种图像处理方法、模型的训练方法以及相关设备
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
CN116894802B (zh) 图像增强方法、装置、计算机设备和存储介质
WO2024061123A1 (zh) 一种图像处理方法及其相关设备
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
CN116958041A (zh) 一种产品缺陷检测方法、装置、电子设备和存储介质
CN114332827B (zh) 一种车辆识别方法、装置、电子设备和存储介质
CN111797986A (zh) 数据处理方法、装置、存储介质及电子设备
CN113822199B (zh) 对象属性识别方法、装置、存储介质和电子装置
CN111796663B (zh) 场景识别模型更新方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190514

R150 Certificate of patent or registration of utility model

Ref document number: 6529470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150