JP2020064568A

JP2020064568A - 映像解析システム、学習装置、及びその方法

Info

Publication number: JP2020064568A
Application number: JP2018197678A
Authority: JP
Inventors: 全孔; Quan Kong; 村上　智一; Tomokazu Murakami; 智一村上; 智明吉永; Tomoaki Yoshinaga; 廣池　敦; Atsushi Hiroike; 敦廣池; マルティンクリンキグト; Klinkigt Martin
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-04-23
Anticipated expiration: 2038-10-19
Also published as: JP7171361B2

Abstract

【課題】シングルや一部のモーダルを有する環境でもマルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できる学習装置、及び、検索装置を提供する。【解決手段】マルチモーダル学習装置１０であって、入力された教師マルチモーダルデータから教師特徴量と、入力された標的モーダルデータから標的特徴量を抽出し、教師特徴量と標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する。そして、共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、マルチモーダルパターンを認識する。【選択図】図１

Description

本発明は、映像解析システム、学習装置、検索装置、及びその方法に関する。

映像解析において、映像内認識に必要な内容の多様化、認識精度のロバスト化への需要が高まる。そのため、単純に一般の可視光カメラで認識できない情報を得るために、例えば、細粒度の行動や外見で見分けられない物体の性質などを認識する場合は、深度情報を測定できるカメラ（ＲＧＢ−Ｄカメラ）やサーマルカメラを併用し、加えて細粒度な情報を伝えるセンサノート、例えば温度センサ、Wi-Fi装置を環境に設置したりすることや、加速度センサ、ジャイロセンサなどを人体に装着する等の傾向がある。

上記のようなマルチモーダルの情報を同時に使い、識別や検出モデルに学習させ、シングル(画像のみなど)のモーダルより良い性能を実現する考えは一般的であるが、モデルの学習段階と推論段階における入力データのモダリティの種類が合わないと、推論の実行ができない、あるいは性能が大幅に落ちる課題が存在する。そのため、マルチモーダルの環境と合わない環境では、マルチモーダル環境で学習されたモデルの恩恵が受けられないという問題がある。また、マルチモーダル環境と同等の環境の構築には導入コストが掛かるという課題もある。

本技術分野における背景技術として、例えば、特許文献１がある。特許文献１では、マルチモーダルを使用した場合において一部のモーダルが欠損していた場合に、マルチモーダルな信号を探索することができない問題に対して、マルチモーダルとシングルや欠損ありのモーダルの特徴量データを共通の符号へ変換できる欠損なしのマルチモーダルデータで学習したテーブルを用いて、量子化データへ変換することで、一部のモーダルが欠損していてもマルチモーダルな信号を探索できる点が開示されている。

特開２０１７―０４１２０６号公報

特許文献１には、検索問題に対して、モーダルが不均等な場合、共通の符号へ変換するテーブルで検索する手法が開示されている。しかしながら、共通の符号への変換のみでは、同じ情報（例えば、識別目標のクラス）を表現する異なるモーダルの特徴データを同じ特徴空間で距離が近くなるように保証することができない、また、マルチモーダルの情報から構築した認識や検出のモデルの性能に近い性能となるようにシングルモーダルで構築したモデルを出力するという考慮もないため、マルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できないという課題がある。

本発明は、上記背景技術及び課題に鑑み、その一例を挙げるならば、マルチモーダル学習装置であって、入力された教師マルチモーダルデータからそれぞれのモーダルの教師特徴量を抽出する教師特徴量抽出部と、入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部と、教師特徴量と標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する共有特徴量空間射影モデル学習部と、共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算する教師識別情報計算部と、教師識別情報計算部で計算されたそれぞれのモーダルの教師識別情報をアンサンブルし教師識別情報を出力する教師識別情報アンサンブル処理部と、共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算する標的識別情報計算部と、標的識別情報計算部によって計算された標的識別情報と教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部と、計算された学習コストを基に標的識別モデルを更新する標的識別モデル更新部と、計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、更新済みの標的識別モデルと教師識別モデルを記憶する識別モデル記憶部と、学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備える。

本発明によれば、シングルや一部のモーダルを有する環境でもマルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できる。

実施例１におけるマルチモーダル学習装置の機能構成図である。実施例１におけるマルチモーダル学習処理を示すフローチャートである。実施例１におけるマルチモーダル学習装置のハードウェア構成を示すブロック図である。実施例１における標的モーダル識別装置の機能構成図である。実施例１における標的モーダル識別処理を示すフローチャートである。実施例１における標的モーダル識別装置のハードウェア構成を示すブロック図である。実施例１における共有特徴量空間射影モデル学習部の構造を示す図である。実施例１における共有特徴量空間射影モデル学習処理を説明する図である。実施例１における共有特徴量空間射影モデル学習処理を示すフローチャートである。実施例１における標的識別モデル更新部と教師識別モデル更新部の構造を示す図である。実施例１における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。実施例１における記憶部の構造を示す図である。実施例１におけるマルチモーダルデータ収集装置の具体例を示す図である。実施例１におけるデータ閲覧装置の閲覧画面を示す図である。実施例２における細粒度行動認識の学習方法を説明する図である。実施例２における細粒度行動認識学習処理を示すフローチャートである。実施例２における細粒度行動認識処理の機能構成図である。実施例３における荷物重さ推定の学習方法を説明する図である。実施例３における荷物重さ推定学習処理を示すフローチャートである。実施例３における荷物重さ推定学習処理の機能構成図である。実施例４におけるフィジカル情報を用いる画像検索を説明する図である。実施例４における画像射影特徴量データベースの構築処理を示すフローチャートである。実施例４におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。

以下、図面を参照して本発明の実施例について説明する。

本実施例におけるマルチモーダル学習装置は、学習環境で収集できるマルチモーダルのデータから識別環境に利用できないモーダルを教師モーダル、識別環境で利用できるモーダルを標的モーダルとする。まず同一な識別クラスに対して、教師モーダルと標的モーダルを共有特徴量空間上へ射影すると同時に、お互いに距離を縮めるように学習させ、異なるモーダルの特徴表現を近づける。そして標的モーダルのみでは精度が低い認識できないパターンを、高精度あるいは特定のパターンを認識できる教師モーダルから、教師射影特徴量で学習させた教師識別モデルからの教師識別情報を標的射影特徴量で学習させた標的識別モデルに伝搬することで、標的識別モデルの性能を教師モーダルに近づける。

なお、ここでいう「モーダル」とは、センサ信号、ＲＧＢ画像、ＲＧＢ−Ｄ画像、映像などのメディア情報だけではなく、同じメディアで異なる特徴量処理や異なるモデル構造で学習する場合でも、異なるモーダルと定義することもある。

図１は、本実施例におけるマルチモーダル学習装置１０の機能構成図である。また、マルチモーダル学習装置１０のある不特定な物を識別する装置でもある。ユースケースとしては、（１）与えられた画像や映像にある物体のクラス情報を識別する物体識別装置（２）与えられた画像や映像にある人物を識別する人物識別装置（３）与えられたセンサ信号から故障のあり/なしを識別する故障識別装置、等が考えられるが、これに限定されるものではない。

本実施例では、マルチモーダル学習装置１０は、１種類の標的モーダルデータと２種類の教師モーダルデータを収集した例として説明する。ここで、標的モーダルは１種類以上、教師モーダルも１種類以上であれば良い。マルチモーダル学習装置１０は、マルチモーダルデータ収集装置１００、標的モーダルデータ取得部１０１、教師モーダルデータ取得部１０２、１０３、標的特徴量抽出部１０５、教師特徴量抽出部１０４、共有特徴量空間射影モデル学習部１０６、標的識別モデル学習機構１０７、記憶部１１４から構成される。

マルチモーダルデータ収集装置１００は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等であり、収集したモーダルデータを記憶媒体やキャッシュメモリに書き込む。標的モーダルデータ取得部１０１、教師モーダルデータ取得部１０２、１０３は画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。

教師特徴量抽出部１０４、標的特徴量抽出部１０５は、該当モーダルのデータから特徴量を抽出する処理を行う。ここでの特徴量は学習型の特徴量を例として説明する。学習型特徴量は標的と教師識別モデルを畳み込みニューラルネットワーク（ＣＮＮ）を採用する場合、その中間層の出力を特徴量として利用することが考えられる。ＣＮＮの中間層の出力を特徴量として用いた場合、ＣＮＮモデルの更新による抽出した特徴量も変わるため、学習型特徴量となる。また、非学習型のハンドクラフト特徴量、例えば画像の場合、SIFT(Scale Invariant Feature Transform)（非特許文献１：David G. Lowe. Object recognition from local scale-invariant features. In Proceedings of the International Conference on Computer Vision, 1999.）などでも良い。

共有特徴量空間射影モデル学習部１０６は、上記特徴量抽出部１０４、１０５から抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。詳細は図７Ａ，７Ｂで説明する。

標的識別モデル学習機構１０７は、教師識別モデル更新部１０８、教師識別情報計算部１０９、教師識別情報アンサンブル処理部１１０、標的識別モデル更新部１１１、標的識別情報計算部１１２、識別モデル学習コスト計算部１１３から構成される。

教師識別情報計算部１０９、標的識別情報計算部１１２は、上記共有特徴量空間射影モデル学習部１０６で構築した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いるが、それぞれのモーダルに対するクラス情報推定モデルを基に、クラススコアを表すベクトルである下記式（１）

を計算する。ここでは、ｘは入力された特徴量、ｆ（ｘ）は該当クラスｊに識別される確率。１＜ｊ＜Ｌ、Ｌは識別できるクラスの数、ｎはモーダルの数。クラス情報推定モデルはＳＶＭ(Support Vector Machine)、ＣＮＮやＭＬＰ(Multilayer perceptron)などの例を挙げられる。

教師識別情報アンサンブル処理部１１０は、上記教師モーダルに該当する識別情報をアンサンブルする処理を行い、教師識別情報Ｈ（ｘ）を出力する。
例えば、下記式（２）、（３）

ここで、ｉは教師モーダルの数となる、などのアンサンブル処理が考えられる。

識別モデル学習コスト計算部１１３は、教師識別情報、標的識別情報、標的射影特徴量、教師射影特徴量、外部のデータベースから入手する真値クラス情報から識別モデルの更新度合いとなる学習コストを計算する。詳細は図９で説明する。

標的識別モデル更新部１１１と教師識別モデル更新部１０８は、識別モデル学習コスト計算部１１３からの学習コスト関数の勾配から両識別モデルのパラメータを更新する。詳細は図９で説明する。

記憶部１１４は、更新済みの標的識別モデルと教師識別モデルを格納する識別モデル記憶部１１５と、共有特徴量空間射影モデル学習部１０６から学習した射影モデルを格納する共有特徴量空間射影モデル記憶部１１６からなる。

図２は、本実施例におけるマルチモーダル学習処理を示すフローチャートである。Ｓ１０１において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、Ｓ１０２からＳ１１０の間で、学習データ組ごとに処理を繰り返す。Ｓ１０３において、教師特徴量抽出部１０４、標的特徴量抽出部１０５によりモーダルデータから特徴量を抽出する。Ｓ１０４において、共有特徴量空間射影モデル学習部１０６により、抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。Ｓ１０５において、教師識別情報を計算し、Ｓ１０６において、教師識別情報のアンサンブル処理を行ない、Ｓ１０７で、標的識別情報を計算し、Ｓ１０８で、識別モデルの更新度合いとなる学習コストを計算する。そして、Ｓ１０９で、標的識別モデル更新部１１１と教師識別モデル更新部１０８は、識別モデルのパラメータを更新する。

図３は、図１に示したマルチモーダル学習装置１０のハードウェア構成を示すブロック図である。図３において、図１と同じ機能は同じ符号を付し、その説明は省略する。図３において、マルチモーダル学習装置１０は、マルチモーダルデータ収集装置１００、入力装置１４０、ＣＰＵ１５０、外部インターフェース１４１からなる。

マルチモーダルデータ収集装置１００は、前述したように、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等である。入力装置１４０は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。ＣＰＵ１５０は学習演算を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをＣＰＵが実行することによりそれらの機能を実行する。外部インターフェース１４１は外部モニタ等の接続ポートである。

以下、ＣＰＵ１５０内の機能について説明する。データ入力部１２０は、図1で説明した、標的モーダルデータ取得部１０１、教師モーダルデータ取得部１０２、１０３に対応し、画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。

１３０は主学習処理部であり、前述した共有特徴量空間射影モデル学習部１０６、標的識別モデル学習機構１０７に対応する標的識別モデル学習部１３１、教師識別モデル学習部１３２で構成される。

主学習処理部１３０は、モダリティ設定部１５１、学習モデル選択部１５２、教師情報重み設定部１５３で設定されたパラメータを用いて、前述したような学習処理を行う。そして、ＣＰＵ１５０は、記憶部１１４の識別モデル記憶部１１５に更新済みの標的識別モデルと教師識別モデルを格納し、共有特徴量空間射影モデル記憶部１１６に学習した射影モデルを格納する。また、学習結果提示部１５４で記憶部１１４に格納された学習結果を読み出し、外部インターフェース１４１へ出力する。

図４は、本実施例における標的モーダル識別装置の機能構成図である。図１に示したマルチモーダル学習装置１０で学習を行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する識別を行う。標的正射影モデルは前記マルチモーダル学習装置１０での学習により、識別に効果がある教師モーダルからの射影特徴量と同じ特徴空間で距離が縮まり、また標的識別モデルも教師モーダルからの識別情報に近づくように学習されたため、標的モーダルのみでもマルチモーダルと近く性能を出すことが可能となる。

図４において、標的モーダル入力データ取得部２００は識別先となる標的モーダル入力データを取得し、標的特徴量抽出部１０５から標的特徴量を抽出する。共有特徴量空間射影部２０２は共有特徴量空間射影モデル記憶部１１６からの学習済みの標的正射影モデルを用いて、標的特徴量を共有射影空間へ射影する。識別情報計算部２０３は射影された標的射影特徴量を基に、識別モデル記憶部１１５から学習済みの標的識別モデルを読み込み、識別情報を計算する。識別結果推定部２０４は計算された識別情報を基に、識別結果を推定し、識別結果記憶部２０６に格納し、検索や閲覧などに用いる。識別結果提示部２０５は識別された結果を画像やテキストの形で表示画面に提示する。なお、識別結果記憶部２０６は、識別モデル記憶部１１５、共有特徴量空間射影モデル記憶部１１６と同様に、記憶部１１４を構成してもよい。

図５は、本実施例における標的モーダル識別処理を示すフローチャートである。Ｓ２０１において標的モーダル入力データを取得し、Ｓ２０２において標的特徴量を抽出する。Ｓ２０３において共有特徴量空間射影モデル記憶部１１６から学習済みの標的正射影モデルを読み込み、Ｓ２０４において標的特徴量を共有射影空間へ射影する。そして、Ｓ２０５において識別モデル記憶部１１５から学習済みの標的識別モデルを読み込み、Ｓ２０６において、識別情報計算部２０３は射影された標的射影特徴量を基に、識別情報を計算する。そして、Ｓ２０７において、識別結果推定部２０４は計算された識別情報を基に、識別結果を推定し、Ｓ２０８において識別結果を識別結果記憶部２０６に格納する。

図６は、図４に示した標的モーダル識別装置のハードウェア構成を示すブロック図である。図３において、図４と同じ機能は同じ符号を付し、その説明は省略する。図６において、標的モーダル識別装置２０は、標的モーダルデータ収集装置２０１、入力装置２４０、ＣＰＵ２５０、外部インターフェース２５２からなる。

標的モーダルデータ収集装置２０１は、標的となるモーダルデータを収集する装置であり、カメラ等である。入力装置２４０は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。ＣＰＵ２５０は識別処理を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをＣＰＵが実行することによりそれらの機能を実行する。外部インターフェース２５２は外部モニタ等の接続ポートである。

以下、ＣＰＵ２５０内の機能について説明する。データ入力部２２０は、図４で説明した、標的モーダル入力データ取得部２００に対応し、画像、映像など該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
２５１は識別データ選定部であり、この情報によりデータ入力部２２０はデータを取得する。以下、１０５、２０２、２０３、２０４、１１６，１１５，２０６の処理は、図４と同様なので省略する。そして、識別された結果を外部インターフェース２５２へ出力する。

なお、標的モーダル識別装置２０は、マルチモーダル学習装置１０内に包含され、マルチモーダル学習装置１０が標的モーダル識別装置の機能を有してもよい。

図７Ａは、本実施例における共有特徴量空間投影モデル学習部１０６の構造を示す図である。また、図７Ｂは、本実施例における共有特徴量空間射影モデル学習処理を説明する図である。初期化された正射影モデルＡであるＧ_Ａは入力された教師特徴量ＡであるＸ_Ａを共有特徴量空間に特徴量Ｇ_Ａ（Ｘ_Ａ）を射影する。標的正射影モデルＴは入力された標的特徴量Ｘ_Ｔから共有特徴量空間にＧ_Ｔ（Ｘ_Ｔ）を射影する。共有特徴量空間は図７Ｂに示すように、同じノルムを有する特徴量の集合を示す。

正射影ペアワイズ誤差計算部は正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Ｄを下記式（４）

で計算する。距離の計算方法Ｄｉｓは、ユークリッド距離やＫＬダイバージェンスなど挙げられる。

逆射影モデルＡ’であるＧ’_Ａは、共有空間に射影された特徴量Ｇ_Ａ（Ｘ_Ａ）を元の教師特徴量Ａの空間に特徴量Ｇ’_Ａ（Ｇ_Ａ（Ｘ_Ａ））を射影する。教師特徴量空間Ａは図７Ｂに示すように、教師特徴量Ａのノルムを有する特徴量空間となる。逆射影誤差計算部は逆射影された特徴量と元の特徴量間の距離Ｄ’を下記式（５）

で計算する。

射影モデル更新部はＤ＋Ｄ’を最小化するように、正と逆射影モデルを更新する。正と逆射影モデルはＣＮＮや全連結層から構成されたニューラルネットワーク（ＦＮＮ）やＭＬＰで構成されることが考えられる。

このようなループ的な学習によって、正射影モデルからの射影特徴量はただお互いに距離を縮めることだけではなく、逆射影誤差により教師射影特徴量は元の教師特徴量の性質を最大限に保つことが可能となる。また、標的射影特徴量は逆射影しないことで、正射影した標的射影特徴量をより教師モーダルの特徴量の性質と近づくことが可能となる。

このようにして求められた教師射影特徴量と標的射影特徴量は、教師識別モデル更新部１０８と標的識別モデル更新部１１１に入力される。

図８は、本実施例における共有特徴量空間射影モデル学習処理を示すフローチャートである。Ｓ３０１において、入力されたデータから教師特徴量、標的特徴量を取得する。Ｓ３０２からＳ３０７の間で、教師モダリティ（複数の教師モデル）ごとに処理を繰り返す。Ｓ３０３では、教師特徴量及び標的特徴量を共有特徴量空間に正射影する。Ｓ３０４では、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Ｄを計算する。Ｓ３０５では、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影する。Ｓ３０６は、逆射影された教師特徴量と元の教師特徴量間の距離Ｄ’を計算し、Ｄ＋Ｄ’を最小化するように、正と逆射影モデルを更新する。

図９は、本実施例における標的識別モデル更新部１１１と教師識別モデル更新部１０８の構造を示す図である。クラス情報推定部１７１は正射影モデルから射影した標的射影特徴量と教師射影特徴量を基に、ソフトヒストラグムとなる教師推定クラス確率分布と標的推定クラス確率分布を計算する。推定された教師クラス確率は標的クラス確率のソフトターゲットとする。また、真値クラス確率は該当入力特徴量に紐つけるクラス情報を１．０とし、他のクラス情報への確率を０．０となるハードヒストラグムをハードターゲットとする。

教師誤差評価部１７２は教師推定クラス確率分布Ｖ_Ｓと標的推定クラス確率分布Ｖ_Ｔを元に、標的推定クラス確率分布とソフトターゲットとなる教師推定クラス確率分布とのクロスエントロピーを下記式（６）

で計算する。

推定誤差評価部１７３は、クラス真値分布Ｖ_Ｒと標的推定クラス確率分布Ｖ_Ｔを元に、標的推定クラス確率分布とハードターゲットとなるクラス真値分布とのクロスエントロピーを下記式（７）

で計算する。

モダリティ分類部１７４は、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを２値分類し、標的モーダルになる確率を出力する。

分類誤差評価部１７５は、モダリティ分類部から計算された標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値の元に、２値のクロスエントロピーを下記式（８）

で計算する。

パラメータ更新部１７６は、Ｌ＝Ｌ_１＋Ｌ_２＋Ｌ_３と、共有特徴量空間射影モデル学習部１０６から出力された射影誤差Ｄ＋Ｄ’から、Ｌ＋α（Ｄ＋Ｄ’）を最小化するように、標的識別モデルと教師識別モデルのパラメータを更新する。αは調和用のパラメータとなる。

図１０は、本実施例における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。Ｓ４０１において、正射影モデルから射影した標的射影特徴量と教師射影特徴量を組として入力データとして取得する。Ｓ４０２からＳ４０９の間で、入力データ組ごとに処理を繰り返す。Ｓ４０３では、クラス方法推定処理として、教師推定クラス確率分布と標的推定クラス確率分布を計算する。また、Ｓ４０４では、モダリティ分類処理として、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを２値分類し、標的モーダルになる確率を出力する。Ｓ４０５では、教師誤差評価として、教師推定クラス確率分布と標的推定クラス確率分布を元に、標的推定クラス確率分布と教師推定クラス確率分布とのクロスエントロピーを計算する。Ｓ４０６では、推定誤差評価として、クラス真値分布と標的推定クラス確率分布を元に、標的推定クラス確率分布とクラス真値分布とのクロスエントロピーを計算する。Ｓ４０７では、分類誤差評価として、標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値を元に、２値のクロスエントロピーを計算する。Ｓ４０８では、教師誤差評価と推定誤差評価と分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する。

図１１は、本実施例における記憶部１１４の構造を示す図である。図１１において、（ａ）は共有特徴量空間射影モデル記憶部１１６、（ｂ）は識別モデル記憶部１１５、（ｃ）は識別結果記憶部２０６を示している。（ａ）の共有特徴量空間射影モデル記憶部１１６においては、モダリティＩＤと、それに対する正射影モデル、逆射影モデルの項目を有し、各正射影モデル及び逆射影モデルは数式及び重み（係数）が格納されている。（ｂ）の識別モデル記憶部１１５においては、モダリティＩＤと、それに対する識別モデルの項目を有し、識別モデルは標的識別モデルまたは教師識別モデルの区別とその数式及び重み（係数）が格納されている。また、（ｃ）の識別結果記憶部２０６においては、データＩＤと、それに対するＲＡＷデータ、すなわち画像、音声等の元のデータ、取得した時刻、取得した場所、特徴量、クラススコア、推定クラス等の項目を有している。

図１２は、本実施例におけるマルチモーダルデータ収集装置１００の具体例を示す図である。図１２において、マルチモーダルデータ収集装置１００は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であって、例えばショッピングモールのような場所で、映像情報を取得するカメラ１６１や、人物が有している眼鏡型ウェアラブル装置１６３が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ等、スマートウォッチ１６４が有している加速度センサや心拍センサ等、スマートフォン１６５が有している加速度センサ、ジャイロセンサ、マイクロフォン、ＷｉＦｉ（登録商標）通信器（ＷｉＦｉ基地局１６２からの信号強度を受信する）等、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ等である。これらの収集されたマルチモーダルデータは、ネットワーク１７７を介して、データ閲覧装置１７８で閲覧したり、データ記録装置１７９に記録できる。

図１３は、本実施例におけるデータ閲覧装置の閲覧画面を示す図である。図１３においては、カメラ画像、センサデータ内容、場所、日時、選択カメラの表示、設定ボタン等が表示される。なお、図では、例えばＩＤ１の人物を選択した場合の表示がされており、人物の選択を変えることで表示を変えることができる。

以上述べてきたように、本マルチモーダル学習装置によれば、学習中に使用したモーダルの一部で構成された運用環境でも、マルチモーダル環境と近く識別性能やマルチモーダル環境しか識別できないパターンの識別が可能となる。

監視カメラから取得した監視映像における行動認識には、距離が遠い場合、遮蔽された場合、またカメラから見分けにくい細微な行動を認識する場合、精度が劇的に降下することがある。例えば、ドアの前に立った人物の行動が、ドアを開ける行動なのか物をとる行動なのか、の細かな行動がカメラの映像だけでは分からない場合がある。本実施例では、マルチモーダル学習装置を細粒度行動に応用する認識方法について述べる。すなわち、画像と映像両方の特徴を活かして、また、加速度センサを微細行動の動き部位につけることによって、学習時微細行動による画像の微細変化を、動かす部位の加速度センサデータで捉える。加速度センサデータを教師モーダルとして、カメラから取得できる画像と映像モーダルを標的モーダルとした場合、カメラからの距離や遮蔽からの影響がなく、また行動の微細変化取りやすい加速度センサをモーダル学習時に利用することによって、行動認識時、加速度センサ不要でも、微細の行動を捉えるようなことが可能となる。

図１４は、本実施例における細粒度行動認識モデルの学習方法を説明する図である。入力データは監視カメラから取得した映像および映像内で行動を起こすときに身体に装着する加速度センサから取得できる加速度センサデータとなる。まず行動を起こすときの背景からの影響を軽減するため、時刻Ｔの静止画から人物の位置を人物位置検出部から検出する。検出された人物位置から人物領域画像を用いて、人物領域特徴量抽出部３０２から静止画の画像特徴量を抽出する。静止画の特徴量は一般のＣＮＮやＳＩＦＴなど用いて特徴を抽出することが考えられる。そして、時刻Ｔまでのｔ秒間映像から動的特徴量を動的特徴量抽出部３０３から抽出する。動的特徴量はoptical flowなど例として挙げられる。加速度特徴量抽出部３０４は身体に装着している三軸加速度データから高速フーリエ（ＦＦＴ）変換し、変換後のヒストグラムから平均、分散、エネルギーの平均の組み合わせを特徴量とするが、ＣＮＮを用いる特徴量を抽出することでも良い。人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習部１０６でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構１０７は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部１１４に格納する。

図１５は、本実施例における細粒度行動認識学習処理を示すフローチャートである。Ｓ５０１において、学習データ組を読み込む。すなわち、標的モーダルデータ（画像及び映像）、教師モーダルデータ（センサデータ）からなる学習データ組を読み込む。そして、Ｓ５０２からＳ５０９の間で、学習データ組ごとに処理を繰り返す。Ｓ５０３において画像から人物位置検出処理により人物の位置を検出し、Ｓ５０４において人物領域特徴量抽出処理により人物領域特徴量を抽出する。そして、Ｓ５０５において映像から動的特徴量抽出処理により動的特徴量を抽出する。また、Ｓ５０６において加速度特徴量抽出処理により加速度特徴量を抽出する。そして、Ｓ５０７において、人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習処理のよりそれぞれのモーダルの射影モデルを学習する。そして、Ｓ５０８において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。

図１６は、本実施例における細粒度行動認識装置の機能構成図である。図１４、１５に示した細粒度行動認識学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。

図１６において、図４と同じ機能は同じ符号を付し、その説明は省略する。図１６において、モーダル入力データ取得部２００は認識先となる標的モーダル入力データを取得し、人物領域特徴量抽出部３０２で人物領域の特徴量を抽出し、動的特徴量抽出部３０３で動的特徴量を抽出する。以降は、図４と同じであり、標的特徴量を共有射影空間へ射影し、識別（認識）情報を計算し、識別（認識）結果を推定し、識別（認識）結果を提示する。

以上のように、本実施例によれば、マルチモーダル学習装置を細粒度行動に応用でき、加速度センサ不要でも、細粒度行動を認識することが可能となる。

手持ち荷物の重さは不審者や不審行動に繋がる重要な情報となる。例えば、外見とマッチングしない過重な手荷物には不審物を運ぶ可能性が高い。一般の監視映像では荷物の重さを見た目から区別しにくいが、外見が同じでも、重さが異なると、移動の軌跡や靴に与える圧力、また心拍や荷物を持つ手首の加速度変化が明らかに異なる。本実施例では、マルチモーダル学習装置を映像から荷物の重さの推定に応用する認識方法について述べる。荷物の重さが明らかに変化するときに、手荷物の外見における特徴、手荷物を持つ人の動線特徴より、心拍と荷物を持つ手首の加速度変化が顕著となる。荷物の重さを変化するときの心拍と荷物を持つ手首の加速度変化を学習時に利用することによって、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。

図１７は、本実施例における荷物重さ推定モデルの学習方法を説明する図である。学習時の入力データは荷物を持つ人が移動する監視映像と移動する人の身体に装着する心拍センサと加速度センサから取得できるセンサデータとなる。それ以外、足に圧感センサや加速度センサを装着することでも良い。まず、時刻Ｔにおける画像から手荷物の位置を物体位置検出部４０１から検出し、物体領域特徴量抽出部４０５から手荷物領域の外見特徴量を抽出する。そして、時刻Ｔまでのｔ秒間の映像から人の移動軌跡となる動線を動線検出部４０２から検出し、動線特徴量抽出部４０６から動線変化の特徴量を抽出する。動線の検出はtrackletなど挙げられる。また、動線の特徴量は動線の指示方向の方位角の平均と分散の変化量から計算することが考えられる。もしくは、動線を可視化し、ＣＮＮから可視化した動線から特徴量を抽出することも考えられる。

加速度センサから取得したセンサ信号から実施例２と同様な加速度特徴量抽出が加速度特徴量抽出部４０３により行われる。また、心拍特徴量抽出部４０４は、Ｔ−ｔからＴ時刻までの心拍センサにより高周波区間と低周波空間の平均変化量の差分から心拍特徴量を計算できる、もしくは、ＣＮＮの中間層から特徴量を計算することも考えられる。そして、モダリティ間の性質差が少ないセンサ信号の特徴表現を特徴量アンサンブル処理部４０７によりアンサンブル処理を行い、一つの教師識別モデルを構築することによりモーダルを簡易化することで、標的識別モデルの学習をより容易にできることが考えられる。共有特徴量空間射影モデル学習部１０６でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構１０７は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部１１４に格納する。

図１８は、本実施例における荷物重さ推定学習処理を示すフローチャートである。Ｓ６０１において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、Ｓ６０２からＳ６０８の間で、学習データ組ごとに処理を繰り返す。Ｓ６０３において画像から物体位置検出処理により物体の位置を検出し、Ｓ６０４において物体領域特徴量抽出処理により物体領域特徴量を抽出する。そして、Ｓ６０５において映像から人物動線を検出する。また、Ｓ６０６において動線特徴量抽出処理により動線変化の動線特徴量を抽出する。そして、Ｓ６０７において、加速度特徴量抽出処理により加速度特徴量を抽出する。また、Ｓ６０８において、心拍特徴量抽出処理により心拍特徴量を算出する。そして、Ｓ６０９において、特徴量アンサンブル処理によりアンサンブル処理を行い、Ｓ６１０において、それぞれのモーダルの射影モデルを学習する。そして、Ｓ６１１において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。

図１９は、本実施例における認識装置の機能構成図である。図１７、１８に示した荷物重さ推定学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。

図１９において、図４と同じ機能は同じ符号を付し、その説明は省略する。図１９において、モーダル入力データ取得部２００は認識先となる標的モーダル入力データを取得し、物体領域特徴量抽出部４０５で物体領域の特徴量を抽出し、動線特徴量抽出部４０６で動線特徴量を抽出する。以降は、図４と同じであり、標的特徴量を共有射影空間へ射影し、識別（認識）情報を計算し、識別（認識）結果を推定し、識別（認識）結果を提示する。

以上のように、本実施例によれば、マルチモーダル学習装置を映像から荷物の重さの推定に応用でき、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。

本実施例は、実施例１の共有特徴量空間射影モデル学習部１０６をフィジカル情報から画像を検索する場合に応用する例について述べる。音声、身体動作、ジェスチャなどフィジカル情報をクエリとして画像を検索することは、より複雑且つ文字や類似画像など表現できないシーンの検索が可能となる。例えば、大声を出すシーン、ドアを開けるシーンや走るシーンなど画像や映像の特徴量で検索することが困難の例でも、フィジカルの情報でより容易にクエリを作成できる。例えば、手が動いている画像を検索したい場合などに有効である。このように、フィジカル情報と画像情報を用いて、共有特徴量空間射影モデル学習部で正射影モデルを学習することによって、フィジカル情報と画像情報の射影特徴量はお互いに空間上の距離を縮めたため、フィジカル情報を共有空間へ射影した特徴量から同じ空間に射影した画像特徴量を検索することが可能となる。

図２０は、本実施例におけるフィジカル情報を用いる画像検索を説明する図である。図２０において、画像動作特徴量抽出部５０１で画像の動作特徴量を抽出し、画像動作特徴量共有空間射影部５０２で、画像の動作特徴量を共有空間に射影する。また、センサ情報特徴量抽出部５０３でセンサ情報の特徴量を抽出し、センサ情報特徴量共有空間射影部５０４で、センサ情報の特徴量を共有空間に射影する。そして、画像検索部５０５で、共有射影空間上で距離が近い画像を検索する。なお、画像の動作特徴量を共有空間に射影した際の画像射影特徴量を画像射影特徴量データベース５０６に格納する。

図２１は、本実施例における画像射影特徴量データベース５０６の構築処理を示すフローチャートである。Ｓ７０１において画像データを読み込み、Ｓ７０２において画像から人物位置を検出する。そして、Ｓ７０３からＳ７０７の間で、人物ごとに処理を繰り返す。Ｓ７０４において画像から動作特徴量を抽出し、Ｓ７０５において画像動作特徴量を共有空間に射影する。そして、Ｓ７０６において射影した際の画像射影特徴量を画像射影特徴量データベースに格納する。

図２２は、本実施例におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。Ｓ８０１においてクエリ用センサデータを読み込む。そして、Ｓ８０２においてセンサデータの特徴量を抽出し、Ｓ８０３において、実施例１の共有特徴量空間射影モデル学習部１０６での共有特徴量空間射影処理によりセンサデータの特徴量を共有空間に射影する。そして、Ｓ８０４において、共有射影空間上で距離が近い画像の検索処理を行う。

以上のように本実施例によれば、共有特徴量空間射影モデル学習部をフィジカル情報から画像を検索する場合に応用できる。

なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１０：マルチモーダル学習装置、２０：標的モーダル識別装置、１００：マルチモーダルデータ収集装置、１０１:標的モーダルデータ取得部、１０２、１０３：教師モーダルデータ取得部、１０４:教師特徴量抽出部、１０５：標的特徴量抽出部、１０６:共有特徴量空間射影モデル学習部、１０７：標的識別モデル学習機構、１０８:教師識別モデル更新部、１０９：教師識別情報計算部、１１０:教師識別情報アンサンブル処理部、１１１：標的識別モデル更新部、１１２:標的識別情報計算部、１１３:識別モデル学習コスト計算部、１１４：記憶部、１１５:識別モデル記憶部、１１６:共有特徴量空間射影モデル記憶部、２０６：識別結果記憶部、１７８：データ閲覧装置、１７９：データ記録装置

Claims

入力された教師マルチモーダルデータからそれぞれのモーダルの教師特徴量を抽出する教師特徴量抽出部と、
入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部と、
前記教師特徴量と前記標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する共有特徴量空間射影モデル学習部と、
前記共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算する教師識別情報計算部と、
前記教師識別情報計算部で計算されたそれぞれのモーダルの前記教師識別情報をアンサンブルし教師識別情報を出力する教師識別情報アンサンブル処理部と、
前記共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算する標的識別情報計算部と、
前記標的識別情報計算部によって計算された標的識別情報と前記教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部と、
該計算された学習コストを基に標的識別モデルを更新する標的識別モデル更新部と、
該計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、
更新済みの前記標的識別モデルと前記教師識別モデルを記憶する識別モデル記憶部と、
前記学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備えることを特徴とするマルチモーダル学習装置。
請求項１に記載のマルチモーダル学習装置で学習された前記標的識別モデルを基に、一部のモーダルを有する環境で識別を行う時に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定する識別結果推定部、を備えることを特徴とする標的モーダル識別装置。
入力されたデータから教師特徴量、標的特徴量を取得し、
1つの教師モデルごとに、
前記教師特徴量及び前記標的特徴量を共有特徴量空間に正射影し、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Ｄを計算し、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影し、逆射影された教師特徴量と元の教師特徴量間の距離Ｄ’を計算し、Ｄ＋Ｄ’を最小化するように、正射影モデルと逆射影モデルを更新する処理を繰り返すことを特徴とする射影モデル学習方法。
入力されたデータから教師特徴量と標的特徴量を組として取得し、
入力データ組ごとに、
教師推定クラス確率分布と標的推定クラス確率分布を計算し、
標的射影特徴量と教師射影特徴量を基に、入力された特徴量を分類し、標的モーダルになる確率を出力し、
教師推定クラス確率分布と標的推定クラス確率分布を元に、教師誤差評価を算出し、
クラス真値分布と標的推定クラス確率分布を元に、推定誤差評価を算出し、
前記教師誤差評価と前記推定誤差評価と前記分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する処理を繰り返すことを特徴とする識別モデル更新処理方法。
入力されたデータから標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込み、
学習データ組ごとに、
入力された教師マルチモーダルデータから教師特徴量を抽出し、
入力された標的モーダルデータから標的特徴量を抽出し、
前記教師特徴量と前記標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習し、
前記教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算し、
前記計算した教師識別情報をアンサンブルし教師識別情報を出力し、
前記標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算し、
前記計算された標的識別情報と前記教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算し、
該計算された学習コストを基に標的識別モデルを更新し、
該計算された学習コストを基に教師識別モデルを更新し、
更新済みの前記標的識別モデルと前記教師識別モデルを記憶し、
前記学習した射影モデルを記憶する、処理を繰り返すことを特徴とするマルチモーダル学習方法。
請求項５に記載のマルチモーダル学習方法で学習された前記標的識別モデルを基に、一部のモーダルを有する環境で識別を行う時に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする標的モーダル識別方法。
請求項１に記載のマルチモーダル学習装置に用いるマルチモーダルデータ収集装置であって、
眼鏡型ウェアラブル装置が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ、
または、スマートウォッチが有している加速度センサや心拍センサ、
または、スマートフォンが有している加速度センサ、ジャイロセンサ、マイクロフォン、ＷｉＦｉ通信器、
または、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ、
のいずれかであることを特徴とするマルチモーダルデータ収集装置。
入力されたデータから画像及び映像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込み、
学習データ組ごとに、
前記画像から人物の位置を検出し、人物領域特徴量を抽出し、
前記映像から動的特徴量を抽出し、加速度特徴量を抽出し、
前記人物領域特徴量と前記動的特徴量と前記加速度特徴量を元に、それぞれのモーダルの射影モデルを学習し、
射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する処理を繰り返すことを特徴とする細粒度行動認識モデルの学習方法。
請求項８に記載の細粒度行動認識モデルの学習方法で学習された前記標的識別モデルを基に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする細粒度行動認識方法。
入力されたデータから画像及び映像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込み、
学習データ組ごとに、
前記画像から物体の位置を検出し、物体領域特徴量を抽出し、
前記映像から人物動線を検出し、動線変化の動線特徴量を抽出し、
前記センサデータから加速度特徴量を抽出し、心拍特徴量を算出し、
前記加速度特徴量と前記心拍特徴量のアンサンブル処理を行い１つの教師識別モデルを構築し、
前記物体領域特徴量と前記動線特徴量と前記教師識別モデルを元に、それぞれのモーダルの射影モデルを学習し、
射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する処理を繰り返すことを特徴とする荷物重さ推定モデルの学習方法。
請求項１０に記載の荷物重さ推定モデルの学習方法で学習された前記標的識別モデルを基に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする荷物重さ推定方法。
入力されたデータから人物の画像データを読み込み、画像から人物位置を検出し、
人物ごとに、
画像から動作特徴量を抽出し、動作特徴量を共有空間に射影し、射影した際の画像射影特徴量を画像射影特徴量データベースに格納する処理を繰り返すことを特徴とする画像検索用データベース構築方法。
請求項１２に記載の画像検索用データベース構築方法で構築された前記画像射影特徴量データベースを基に、センサデータのみを用いて、該センサデータの特徴量を抽出し、該センサデータの特徴量を共有空間に射影し、共有射影空間上で距離が近い前記画像射影特徴量データベースの画像の検索処理を行うことを特徴とする画像検索方法。