JP2020064568A - 映像解析システム、学習装置、及びその方法 - Google Patents

映像解析システム、学習装置、及びその方法 Download PDF

Info

Publication number
JP2020064568A
JP2020064568A JP2018197678A JP2018197678A JP2020064568A JP 2020064568 A JP2020064568 A JP 2020064568A JP 2018197678 A JP2018197678 A JP 2018197678A JP 2018197678 A JP2018197678 A JP 2018197678A JP 2020064568 A JP2020064568 A JP 2020064568A
Authority
JP
Japan
Prior art keywords
teacher
target
feature amount
model
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018197678A
Other languages
English (en)
Other versions
JP7171361B2 (ja
Inventor
全 孔
Quan Kong
全 孔
村上 智一
Tomokazu Murakami
智一 村上
智明 吉永
Tomoaki Yoshinaga
智明 吉永
廣池 敦
Atsushi Hiroike
敦 廣池
マルティン クリンキグト
Klinkigt Martin
マルティン クリンキグト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018197678A priority Critical patent/JP7171361B2/ja
Publication of JP2020064568A publication Critical patent/JP2020064568A/ja
Application granted granted Critical
Publication of JP7171361B2 publication Critical patent/JP7171361B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】シングルや一部のモーダルを有する環境でもマルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できる学習装置、及び、検索装置を提供する。【解決手段】マルチモーダル学習装置10であって、入力された教師マルチモーダルデータから教師特徴量と、入力された標的モーダルデータから標的特徴量を抽出し、教師特徴量と標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する。そして、共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、マルチモーダルパターンを認識する。【選択図】図1

Description

本発明は、映像解析システム、学習装置、検索装置、及びその方法に関する。
映像解析において、映像内認識に必要な内容の多様化、認識精度のロバスト化への需要が高まる。そのため、単純に一般の可視光カメラで認識できない情報を得るために、例えば、細粒度の行動や外見で見分けられない物体の性質などを認識する場合は、深度情報を測定できるカメラ(RGB−Dカメラ)やサーマルカメラを併用し、加えて細粒度な情報を伝えるセンサノート、例えば温度センサ、Wi-Fi装置を環境に設置したりすることや、加速度センサ、ジャイロセンサなどを人体に装着する等の傾向がある。
上記のようなマルチモーダルの情報を同時に使い、識別や検出モデルに学習させ、シングル(画像のみなど)のモーダルより良い性能を実現する考えは一般的であるが、モデルの学習段階と推論段階における入力データのモダリティの種類が合わないと、推論の実行ができない、あるいは性能が大幅に落ちる課題が存在する。そのため、マルチモーダルの環境と合わない環境では、マルチモーダル環境で学習されたモデルの恩恵が受けられないという問題がある。また、マルチモーダル環境と同等の環境の構築には導入コストが掛かるという課題もある。
本技術分野における背景技術として、例えば、特許文献1がある。特許文献1では、マルチモーダルを使用した場合において一部のモーダルが欠損していた場合に、マルチモーダルな信号を探索することができない問題に対して、マルチモーダルとシングルや欠損ありのモーダルの特徴量データを共通の符号へ変換できる欠損なしのマルチモーダルデータで学習したテーブルを用いて、量子化データへ変換することで、一部のモーダルが欠損していてもマルチモーダルな信号を探索できる点が開示されている。
特開2017―041206号公報
特許文献1には、検索問題に対して、モーダルが不均等な場合、共通の符号へ変換するテーブルで検索する手法が開示されている。しかしながら、共通の符号への変換のみでは、同じ情報(例えば、識別目標のクラス)を表現する異なるモーダルの特徴データを同じ特徴空間で距離が近くなるように保証することができない、また、マルチモーダルの情報から構築した認識や検出のモデルの性能に近い性能となるようにシングルモーダルで構築したモデルを出力するという考慮もないため、マルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できないという課題がある。
本発明は、上記背景技術及び課題に鑑み、その一例を挙げるならば、マルチモーダル学習装置であって、入力された教師マルチモーダルデータからそれぞれのモーダルの教師特徴量を抽出する教師特徴量抽出部と、入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部と、教師特徴量と標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する共有特徴量空間射影モデル学習部と、共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算する教師識別情報計算部と、教師識別情報計算部で計算されたそれぞれのモーダルの教師識別情報をアンサンブルし教師識別情報を出力する教師識別情報アンサンブル処理部と、共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算する標的識別情報計算部と、標的識別情報計算部によって計算された標的識別情報と教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部と、計算された学習コストを基に標的識別モデルを更新する標的識別モデル更新部と、計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、更新済みの標的識別モデルと教師識別モデルを記憶する識別モデル記憶部と、学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備える。
本発明によれば、シングルや一部のモーダルを有する環境でもマルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できる。
実施例1におけるマルチモーダル学習装置の機能構成図である。 実施例1におけるマルチモーダル学習処理を示すフローチャートである。 実施例1におけるマルチモーダル学習装置のハードウェア構成を示すブロック図である。 実施例1における標的モーダル識別装置の機能構成図である。 実施例1における標的モーダル識別処理を示すフローチャートである。 実施例1における標的モーダル識別装置のハードウェア構成を示すブロック図である。 実施例1における共有特徴量空間射影モデル学習部の構造を示す図である。 実施例1における共有特徴量空間射影モデル学習処理を説明する図である。 実施例1における共有特徴量空間射影モデル学習処理を示すフローチャートである。 実施例1における標的識別モデル更新部と教師識別モデル更新部の構造を示す図である。 実施例1における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。 実施例1における記憶部の構造を示す図である。 実施例1におけるマルチモーダルデータ収集装置の具体例を示す図である。 実施例1におけるデータ閲覧装置の閲覧画面を示す図である。 実施例2における細粒度行動認識の学習方法を説明する図である。 実施例2における細粒度行動認識学習処理を示すフローチャートである。 実施例2における細粒度行動認識処理の機能構成図である。 実施例3における荷物重さ推定の学習方法を説明する図である。 実施例3における荷物重さ推定学習処理を示すフローチャートである。 実施例3における荷物重さ推定学習処理の機能構成図である。 実施例4におけるフィジカル情報を用いる画像検索を説明する図である。 実施例4における画像射影特徴量データベースの構築処理を示すフローチャートである。 実施例4におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。
以下、図面を参照して本発明の実施例について説明する。
本実施例におけるマルチモーダル学習装置は、学習環境で収集できるマルチモーダルのデータから識別環境に利用できないモーダルを教師モーダル、識別環境で利用できるモーダルを標的モーダルとする。まず同一な識別クラスに対して、教師モーダルと標的モーダルを共有特徴量空間上へ射影すると同時に、お互いに距離を縮めるように学習させ、異なるモーダルの特徴表現を近づける。そして標的モーダルのみでは精度が低い認識できないパターンを、高精度あるいは特定のパターンを認識できる教師モーダルから、教師射影特徴量で学習させた教師識別モデルからの教師識別情報を標的射影特徴量で学習させた標的識別モデルに伝搬することで、標的識別モデルの性能を教師モーダルに近づける。
なお、ここでいう「モーダル」とは、センサ信号、RGB画像、RGB−D画像、映像などのメディア情報だけではなく、同じメディアで異なる特徴量処理や異なるモデル構造で学習する場合でも、異なるモーダルと定義することもある。
図1は、本実施例におけるマルチモーダル学習装置10の機能構成図である。また、マルチモーダル学習装置10のある不特定な物を識別する装置でもある。ユースケースとしては、(1)与えられた画像や映像にある物体のクラス情報を識別する物体識別装置(2)与えられた画像や映像にある人物を識別する人物識別装置(3)与えられたセンサ信号から故障のあり/なしを識別する故障識別装置、等が考えられるが、これに限定されるものではない。
本実施例では、マルチモーダル学習装置10は、1種類の標的モーダルデータと2種類の教師モーダルデータを収集した例として説明する。ここで、標的モーダルは1種類以上、教師モーダルも1種類以上であれば良い。マルチモーダル学習装置10は、マルチモーダルデータ収集装置100、標的モーダルデータ取得部101、教師モーダルデータ取得部102、103、標的特徴量抽出部105、教師特徴量抽出部104、共有特徴量空間射影モデル学習部106、標的識別モデル学習機構107、記憶部114から構成される。
マルチモーダルデータ収集装置100は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等であり、収集したモーダルデータを記憶媒体やキャッシュメモリに書き込む。標的モーダルデータ取得部101、教師モーダルデータ取得部102、103は画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
教師特徴量抽出部104、標的特徴量抽出部105は、該当モーダルのデータから特徴量を抽出する処理を行う。ここでの特徴量は学習型の特徴量を例として説明する。学習型特徴量は標的と教師識別モデルを畳み込みニューラルネットワーク(CNN)を採用する場合、その中間層の出力を特徴量として利用することが考えられる。CNNの中間層の出力を特徴量として用いた場合、CNNモデルの更新による抽出した特徴量も変わるため、学習型特徴量となる。また、非学習型のハンドクラフト特徴量、例えば画像の場合、SIFT(Scale Invariant Feature Transform)(非特許文献1:David G. Lowe. Object recognition from local scale-invariant features. In Proceedings of the International Conference on Computer Vision, 1999.)などでも良い。
共有特徴量空間射影モデル学習部106は、上記特徴量抽出部104、105から抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。詳細は図7A,7Bで説明する。
標的識別モデル学習機構107は、教師識別モデル更新部108、教師識別情報計算部109、教師識別情報アンサンブル処理部110、標的識別モデル更新部111、標的識別情報計算部112、識別モデル学習コスト計算部113から構成される。
教師識別情報計算部109、標的識別情報計算部112は、上記共有特徴量空間射影モデル学習部106で構築した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いるが、それぞれのモーダルに対するクラス情報推定モデルを基に、クラススコアを表すベクトルである下記式(1)
Figure 2020064568
を計算する。ここでは、xは入力された特徴量、f(x)は該当クラスjに識別される確率。1<j<L、Lは識別できるクラスの数、nはモーダルの数。クラス情報推定モデルはSVM(Support Vector Machine)、CNNやMLP(Multilayer perceptron)などの例を挙げられる。
教師識別情報アンサンブル処理部110は、上記教師モーダルに該当する識別情報をアンサンブルする処理を行い、教師識別情報H(x)を出力する。
例えば、下記式(2)、(3)
Figure 2020064568
Figure 2020064568
ここで、iは教師モーダルの数となる、などのアンサンブル処理が考えられる。
識別モデル学習コスト計算部113は、教師識別情報、標的識別情報、標的射影特徴量、教師射影特徴量、外部のデータベースから入手する真値クラス情報から識別モデルの更新度合いとなる学習コストを計算する。詳細は図9で説明する。
標的識別モデル更新部111と教師識別モデル更新部108は、識別モデル学習コスト計算部113からの学習コスト関数の勾配から両識別モデルのパラメータを更新する。詳細は図9で説明する。
記憶部114は、更新済みの標的識別モデルと教師識別モデルを格納する識別モデル記憶部115と、共有特徴量空間射影モデル学習部106から学習した射影モデルを格納する共有特徴量空間射影モデル記憶部116からなる。
図2は、本実施例におけるマルチモーダル学習処理を示すフローチャートである。S101において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、S102からS110の間で、学習データ組ごとに処理を繰り返す。S103において、教師特徴量抽出部104、標的特徴量抽出部105によりモーダルデータから特徴量を抽出する。S104において、共有特徴量空間射影モデル学習部106により、抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。S105において、教師識別情報を計算し、S106において、教師識別情報のアンサンブル処理を行ない、S107で、標的識別情報を計算し、S108で、識別モデルの更新度合いとなる学習コストを計算する。そして、S109で、標的識別モデル更新部111と教師識別モデル更新部108は、識別モデルのパラメータを更新する。
図3は、図1に示したマルチモーダル学習装置10のハードウェア構成を示すブロック図である。図3において、図1と同じ機能は同じ符号を付し、その説明は省略する。図3において、マルチモーダル学習装置10は、マルチモーダルデータ収集装置100、入力装置140、CPU150、外部インターフェース141からなる。
マルチモーダルデータ収集装置100は、前述したように、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等である。入力装置140は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。CPU150は学習演算を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをCPUが実行することによりそれらの機能を実行する。外部インターフェース141は外部モニタ等の接続ポートである。
以下、CPU150内の機能について説明する。データ入力部120は、図1で説明した、標的モーダルデータ取得部101、教師モーダルデータ取得部102、103に対応し、画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
130は主学習処理部であり、前述した共有特徴量空間射影モデル学習部106、標的識別モデル学習機構107に対応する標的識別モデル学習部131、教師識別モデル学習部132で構成される。
主学習処理部130は、モダリティ設定部151、学習モデル選択部152、教師情報重み設定部153で設定されたパラメータを用いて、前述したような学習処理を行う。そして、CPU150は、記憶部114の識別モデル記憶部115に更新済みの標的識別モデルと教師識別モデルを格納し、共有特徴量空間射影モデル記憶部116に学習した射影モデルを格納する。また、学習結果提示部154で記憶部114に格納された学習結果を読み出し、外部インターフェース141へ出力する。
図4は、本実施例における標的モーダル識別装置の機能構成図である。図1に示したマルチモーダル学習装置10で学習を行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する識別を行う。標的正射影モデルは前記マルチモーダル学習装置10での学習により、識別に効果がある教師モーダルからの射影特徴量と同じ特徴空間で距離が縮まり、また標的識別モデルも教師モーダルからの識別情報に近づくように学習されたため、標的モーダルのみでもマルチモーダルと近く性能を出すことが可能となる。
図4において、標的モーダル入力データ取得部200は識別先となる標的モーダル入力データを取得し、標的特徴量抽出部105から標的特徴量を抽出する。共有特徴量空間射影部202は共有特徴量空間射影モデル記憶部116からの学習済みの標的正射影モデルを用いて、標的特徴量を共有射影空間へ射影する。識別情報計算部203は射影された標的射影特徴量を基に、識別モデル記憶部115から学習済みの標的識別モデルを読み込み、識別情報を計算する。識別結果推定部204は計算された識別情報を基に、識別結果を推定し、識別結果記憶部206に格納し、検索や閲覧などに用いる。識別結果提示部205は識別された結果を画像やテキストの形で表示画面に提示する。なお、識別結果記憶部206は、識別モデル記憶部115、共有特徴量空間射影モデル記憶部116と同様に、記憶部114を構成してもよい。
図5は、本実施例における標的モーダル識別処理を示すフローチャートである。S201において標的モーダル入力データを取得し、S202において標的特徴量を抽出する。S203において共有特徴量空間射影モデル記憶部116から学習済みの標的正射影モデルを読み込み、S204において標的特徴量を共有射影空間へ射影する。そして、S205において識別モデル記憶部115から学習済みの標的識別モデルを読み込み、S206において、識別情報計算部203は射影された標的射影特徴量を基に、識別情報を計算する。そして、S207において、識別結果推定部204は計算された識別情報を基に、識別結果を推定し、S208において識別結果を識別結果記憶部206に格納する。
図6は、図4に示した標的モーダル識別装置のハードウェア構成を示すブロック図である。図3において、図4と同じ機能は同じ符号を付し、その説明は省略する。図6において、標的モーダル識別装置20は、標的モーダルデータ収集装置201、入力装置240、CPU250、外部インターフェース252からなる。
標的モーダルデータ収集装置201は、標的となるモーダルデータを収集する装置であり、カメラ等である。入力装置240は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。CPU250は識別処理を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをCPUが実行することによりそれらの機能を実行する。外部インターフェース252は外部モニタ等の接続ポートである。
以下、CPU250内の機能について説明する。データ入力部220は、図4で説明した、標的モーダル入力データ取得部200に対応し、画像、映像など該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
251は識別データ選定部であり、この情報によりデータ入力部220はデータを取得する。以下、105、202、203、204、116,115,206の処理は、図4と同様なので省略する。そして、識別された結果を外部インターフェース252へ出力する。
なお、標的モーダル識別装置20は、マルチモーダル学習装置10内に包含され、マルチモーダル学習装置10が標的モーダル識別装置の機能を有してもよい。
図7Aは、本実施例における共有特徴量空間投影モデル学習部106の構造を示す図である。また、図7Bは、本実施例における共有特徴量空間射影モデル学習処理を説明する図である。初期化された正射影モデルAであるGは入力された教師特徴量AであるXを共有特徴量空間に特徴量G(X)を射影する。標的正射影モデルTは入力された標的特徴量Xから共有特徴量空間にG(X)を射影する。共有特徴量空間は図7Bに示すように、同じノルムを有する特徴量の集合を示す。
正射影ペアワイズ誤差計算部は正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを下記式(4)
Figure 2020064568
で計算する。距離の計算方法Disは、ユークリッド距離やKLダイバージェンスなど挙げられる。
逆射影モデルA’であるG’は、共有空間に射影された特徴量G(X)を元の教師特徴量Aの空間に特徴量G’(G(X))を射影する。教師特徴量空間Aは図7Bに示すように、教師特徴量Aのノルムを有する特徴量空間となる。逆射影誤差計算部は逆射影された特徴量と元の特徴量間の距離D’を下記式(5)
Figure 2020064568
で計算する。
射影モデル更新部はD+D’を最小化するように、正と逆射影モデルを更新する。正と逆射影モデルはCNNや全連結層から構成されたニューラルネットワーク(FNN)やMLPで構成されることが考えられる。
このようなループ的な学習によって、正射影モデルからの射影特徴量はただお互いに距離を縮めることだけではなく、逆射影誤差により教師射影特徴量は元の教師特徴量の性質を最大限に保つことが可能となる。また、標的射影特徴量は逆射影しないことで、正射影した標的射影特徴量をより教師モーダルの特徴量の性質と近づくことが可能となる。
このようにして求められた教師射影特徴量と標的射影特徴量は、教師識別モデル更新部108と標的識別モデル更新部111に入力される。
図8は、本実施例における共有特徴量空間射影モデル学習処理を示すフローチャートである。S301において、入力されたデータから教師特徴量、標的特徴量を取得する。S302からS307の間で、教師モダリティ(複数の教師モデル)ごとに処理を繰り返す。S303では、教師特徴量及び標的特徴量を共有特徴量空間に正射影する。S304では、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを計算する。S305では、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影する。S306は、逆射影された教師特徴量と元の教師特徴量間の距離D’を計算し、D+D’を最小化するように、正と逆射影モデルを更新する。
図9は、本実施例における標的識別モデル更新部111と教師識別モデル更新部108の構造を示す図である。クラス情報推定部171は正射影モデルから射影した標的射影特徴量と教師射影特徴量を基に、ソフトヒストラグムとなる教師推定クラス確率分布と標的推定クラス確率分布を計算する。推定された教師クラス確率は標的クラス確率のソフトターゲットとする。また、真値クラス確率は該当入力特徴量に紐つけるクラス情報を1.0とし、他のクラス情報への確率を0.0となるハードヒストラグムをハードターゲットとする。
教師誤差評価部172は教師推定クラス確率分布Vと標的推定クラス確率分布Vを元に、標的推定クラス確率分布とソフトターゲットとなる教師推定クラス確率分布とのクロスエントロピーを下記式(6)
Figure 2020064568
で計算する。
推定誤差評価部173は、クラス真値分布Vと標的推定クラス確率分布Vを元に、標的推定クラス確率分布とハードターゲットとなるクラス真値分布とのクロスエントロピーを下記式(7)
Figure 2020064568
で計算する。
モダリティ分類部174は、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを2値分類し、標的モーダルになる確率を出力する。
分類誤差評価部175は、モダリティ分類部から計算された標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値の元に、2値のクロスエントロピーを下記式(8)
Figure 2020064568
で計算する。
パラメータ更新部176は、L=L+L+Lと、共有特徴量空間射影モデル学習部106から出力された射影誤差D+D’から、L+α(D+D’)を最小化するように、標的識別モデルと教師識別モデルのパラメータを更新する。αは調和用のパラメータとなる。
図10は、本実施例における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。S401において、正射影モデルから射影した標的射影特徴量と教師射影特徴量を組として入力データとして取得する。S402からS409の間で、入力データ組ごとに処理を繰り返す。S403では、クラス方法推定処理として、教師推定クラス確率分布と標的推定クラス確率分布を計算する。また、S404では、モダリティ分類処理として、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを2値分類し、標的モーダルになる確率を出力する。S405では、教師誤差評価として、教師推定クラス確率分布と標的推定クラス確率分布を元に、標的推定クラス確率分布と教師推定クラス確率分布とのクロスエントロピーを計算する。S406では、推定誤差評価として、クラス真値分布と標的推定クラス確率分布を元に、標的推定クラス確率分布とクラス真値分布とのクロスエントロピーを計算する。S407では、分類誤差評価として、標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値を元に、2値のクロスエントロピーを計算する。S408では、教師誤差評価と推定誤差評価と分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する。
図11は、本実施例における記憶部114の構造を示す図である。図11において、(a)は共有特徴量空間射影モデル記憶部116、(b)は識別モデル記憶部115、(c)は識別結果記憶部206を示している。(a)の共有特徴量空間射影モデル記憶部116においては、モダリティIDと、それに対する正射影モデル、逆射影モデルの項目を有し、各正射影モデル及び逆射影モデルは数式及び重み(係数)が格納されている。(b)の識別モデル記憶部115においては、モダリティIDと、それに対する識別モデルの項目を有し、識別モデルは標的識別モデルまたは教師識別モデルの区別とその数式及び重み(係数)が格納されている。また、(c)の識別結果記憶部206においては、データIDと、それに対するRAWデータ、すなわち画像、音声等の元のデータ、取得した時刻、取得した場所、特徴量、クラススコア、推定クラス等の項目を有している。
図12は、本実施例におけるマルチモーダルデータ収集装置100の具体例を示す図である。図12において、マルチモーダルデータ収集装置100は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であって、例えばショッピングモールのような場所で、映像情報を取得するカメラ161や、人物が有している眼鏡型ウェアラブル装置163が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ等、スマートウォッチ164が有している加速度センサや心拍センサ等、スマートフォン165が有している加速度センサ、ジャイロセンサ、マイクロフォン、WiFi(登録商標)通信器(WiFi基地局162からの信号強度を受信する)等、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ等である。これらの収集されたマルチモーダルデータは、ネットワーク177を介して、データ閲覧装置178で閲覧したり、データ記録装置179に記録できる。
図13は、本実施例におけるデータ閲覧装置の閲覧画面を示す図である。図13においては、カメラ画像、センサデータ内容、場所、日時、選択カメラの表示、設定ボタン等が表示される。なお、図では、例えばID1の人物を選択した場合の表示がされており、人物の選択を変えることで表示を変えることができる。
以上述べてきたように、本マルチモーダル学習装置によれば、学習中に使用したモーダルの一部で構成された運用環境でも、マルチモーダル環境と近く識別性能やマルチモーダル環境しか識別できないパターンの識別が可能となる。
監視カメラから取得した監視映像における行動認識には、距離が遠い場合、遮蔽された場合、またカメラから見分けにくい細微な行動を認識する場合、精度が劇的に降下することがある。例えば、ドアの前に立った人物の行動が、ドアを開ける行動なのか物をとる行動なのか、の細かな行動がカメラの映像だけでは分からない場合がある。本実施例では、マルチモーダル学習装置を細粒度行動に応用する認識方法について述べる。すなわち、画像と映像両方の特徴を活かして、また、加速度センサを微細行動の動き部位につけることによって、学習時微細行動による画像の微細変化を、動かす部位の加速度センサデータで捉える。加速度センサデータを教師モーダルとして、カメラから取得できる画像と映像モーダルを標的モーダルとした場合、カメラからの距離や遮蔽からの影響がなく、また行動の微細変化取りやすい加速度センサをモーダル学習時に利用することによって、行動認識時、加速度センサ不要でも、微細の行動を捉えるようなことが可能となる。
図14は、本実施例における細粒度行動認識モデルの学習方法を説明する図である。入力データは監視カメラから取得した映像および映像内で行動を起こすときに身体に装着する加速度センサから取得できる加速度センサデータとなる。まず行動を起こすときの背景からの影響を軽減するため、時刻Tの静止画から人物の位置を人物位置検出部から検出する。検出された人物位置から人物領域画像を用いて、人物領域特徴量抽出部302から静止画の画像特徴量を抽出する。静止画の特徴量は一般のCNNやSIFTなど用いて特徴を抽出することが考えられる。そして、時刻Tまでのt秒間映像から動的特徴量を動的特徴量抽出部303から抽出する。動的特徴量はoptical flowなど例として挙げられる。加速度特徴量抽出部304は身体に装着している三軸加速度データから高速フーリエ(FFT)変換し、変換後のヒストグラムから平均、分散、エネルギーの平均の組み合わせを特徴量とするが、CNNを用いる特徴量を抽出することでも良い。人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習部106でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構107は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部114に格納する。
図15は、本実施例における細粒度行動認識学習処理を示すフローチャートである。S501において、学習データ組を読み込む。すなわち、標的モーダルデータ(画像及び映像)、教師モーダルデータ(センサデータ)からなる学習データ組を読み込む。そして、S502からS509の間で、学習データ組ごとに処理を繰り返す。S503において画像から人物位置検出処理により人物の位置を検出し、S504において人物領域特徴量抽出処理により人物領域特徴量を抽出する。そして、S505において映像から動的特徴量抽出処理により動的特徴量を抽出する。また、S506において加速度特徴量抽出処理により加速度特徴量を抽出する。そして、S507において、人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習処理のよりそれぞれのモーダルの射影モデルを学習する。そして、S508において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。
図16は、本実施例における細粒度行動認識装置の機能構成図である。図14、15に示した細粒度行動認識学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。
図16において、図4と同じ機能は同じ符号を付し、その説明は省略する。図16において、モーダル入力データ取得部200は認識先となる標的モーダル入力データを取得し、人物領域特徴量抽出部302で人物領域の特徴量を抽出し、動的特徴量抽出部303で動的特徴量を抽出する。以降は、図4と同じであり、標的特徴量を共有射影空間へ射影し、識別(認識)情報を計算し、識別(認識)結果を推定し、識別(認識)結果を提示する。
以上のように、本実施例によれば、マルチモーダル学習装置を細粒度行動に応用でき、加速度センサ不要でも、細粒度行動を認識することが可能となる。
手持ち荷物の重さは不審者や不審行動に繋がる重要な情報となる。例えば、外見とマッチングしない過重な手荷物には不審物を運ぶ可能性が高い。一般の監視映像では荷物の重さを見た目から区別しにくいが、外見が同じでも、重さが異なると、移動の軌跡や靴に与える圧力、また心拍や荷物を持つ手首の加速度変化が明らかに異なる。本実施例では、マルチモーダル学習装置を映像から荷物の重さの推定に応用する認識方法について述べる。荷物の重さが明らかに変化するときに、手荷物の外見における特徴、手荷物を持つ人の動線特徴より、心拍と荷物を持つ手首の加速度変化が顕著となる。荷物の重さを変化するときの心拍と荷物を持つ手首の加速度変化を学習時に利用することによって、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。
図17は、本実施例における荷物重さ推定モデルの学習方法を説明する図である。学習時の入力データは荷物を持つ人が移動する監視映像と移動する人の身体に装着する心拍センサと加速度センサから取得できるセンサデータとなる。それ以外、足に圧感センサや加速度センサを装着することでも良い。まず、時刻Tにおける画像から手荷物の位置を物体位置検出部401から検出し、物体領域特徴量抽出部405から手荷物領域の外見特徴量を抽出する。そして、時刻Tまでのt秒間の映像から人の移動軌跡となる動線を動線検出部402から検出し、動線特徴量抽出部406から動線変化の特徴量を抽出する。動線の検出はtrackletなど挙げられる。また、動線の特徴量は動線の指示方向の方位角の平均と分散の変化量から計算することが考えられる。もしくは、動線を可視化し、CNNから可視化した動線から特徴量を抽出することも考えられる。
加速度センサから取得したセンサ信号から実施例2と同様な加速度特徴量抽出が加速度特徴量抽出部403により行われる。また、心拍特徴量抽出部404は、T−tからT時刻までの心拍センサにより高周波区間と低周波空間の平均変化量の差分から心拍特徴量を計算できる、もしくは、CNNの中間層から特徴量を計算することも考えられる。そして、モダリティ間の性質差が少ないセンサ信号の特徴表現を特徴量アンサンブル処理部407によりアンサンブル処理を行い、一つの教師識別モデルを構築することによりモーダルを簡易化することで、標的識別モデルの学習をより容易にできることが考えられる。共有特徴量空間射影モデル学習部106でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構107は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部114に格納する。
図18は、本実施例における荷物重さ推定学習処理を示すフローチャートである。S601において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、S602からS608の間で、学習データ組ごとに処理を繰り返す。S603において画像から物体位置検出処理により物体の位置を検出し、S604において物体領域特徴量抽出処理により物体領域特徴量を抽出する。そして、S605において映像から人物動線を検出する。また、S606において動線特徴量抽出処理により動線変化の動線特徴量を抽出する。そして、S607において、加速度特徴量抽出処理により加速度特徴量を抽出する。また、S608において、心拍特徴量抽出処理により心拍特徴量を算出する。そして、S609において、特徴量アンサンブル処理によりアンサンブル処理を行い、S610において、それぞれのモーダルの射影モデルを学習する。そして、S611において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。
図19は、本実施例における認識装置の機能構成図である。図17、18に示した荷物重さ推定学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。
図19において、図4と同じ機能は同じ符号を付し、その説明は省略する。図19において、モーダル入力データ取得部200は認識先となる標的モーダル入力データを取得し、物体領域特徴量抽出部405で物体領域の特徴量を抽出し、動線特徴量抽出部406で動線特徴量を抽出する。以降は、図4と同じであり、標的特徴量を共有射影空間へ射影し、識別(認識)情報を計算し、識別(認識)結果を推定し、識別(認識)結果を提示する。
以上のように、本実施例によれば、マルチモーダル学習装置を映像から荷物の重さの推定に応用でき、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。
本実施例は、実施例1の共有特徴量空間射影モデル学習部106をフィジカル情報から画像を検索する場合に応用する例について述べる。音声、身体動作、ジェスチャなどフィジカル情報をクエリとして画像を検索することは、より複雑且つ文字や類似画像など表現できないシーンの検索が可能となる。例えば、大声を出すシーン、ドアを開けるシーンや走るシーンなど画像や映像の特徴量で検索することが困難の例でも、フィジカルの情報でより容易にクエリを作成できる。例えば、手が動いている画像を検索したい場合などに有効である。このように、フィジカル情報と画像情報を用いて、共有特徴量空間射影モデル学習部で正射影モデルを学習することによって、フィジカル情報と画像情報の射影特徴量はお互いに空間上の距離を縮めたため、フィジカル情報を共有空間へ射影した特徴量から同じ空間に射影した画像特徴量を検索することが可能となる。
図20は、本実施例におけるフィジカル情報を用いる画像検索を説明する図である。図20において、画像動作特徴量抽出部501で画像の動作特徴量を抽出し、画像動作特徴量共有空間射影部502で、画像の動作特徴量を共有空間に射影する。また、センサ情報特徴量抽出部503でセンサ情報の特徴量を抽出し、センサ情報特徴量共有空間射影部504で、センサ情報の特徴量を共有空間に射影する。そして、画像検索部505で、共有射影空間上で距離が近い画像を検索する。なお、画像の動作特徴量を共有空間に射影した際の画像射影特徴量を画像射影特徴量データベース506に格納する。
図21は、本実施例における画像射影特徴量データベース506の構築処理を示すフローチャートである。S701において画像データを読み込み、S702において画像から人物位置を検出する。そして、S703からS707の間で、人物ごとに処理を繰り返す。S704において画像から動作特徴量を抽出し、S705において画像動作特徴量を共有空間に射影する。そして、S706において射影した際の画像射影特徴量を画像射影特徴量データベースに格納する。
図22は、本実施例におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。S801においてクエリ用センサデータを読み込む。そして、S802においてセンサデータの特徴量を抽出し、S803において、実施例1の共有特徴量空間射影モデル学習部106での共有特徴量空間射影処理によりセンサデータの特徴量を共有空間に射影する。そして、S804において、共有射影空間上で距離が近い画像の検索処理を行う。
以上のように本実施例によれば、共有特徴量空間射影モデル学習部をフィジカル情報から画像を検索する場合に応用できる。
なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
10:マルチモーダル学習装置、20:標的モーダル識別装置、100:マルチモーダルデータ収集装置、101:標的モーダルデータ取得部、102、103:教師モーダルデータ取得部、 104:教師特徴量抽出部、105:標的特徴量抽出部、106:共有特徴量空間射影モデル学習部、107:標的識別モデル学習機構、108:教師識別モデル更新部、109:教師識別情報計算部、110:教師識別情報アンサンブル処理部、111:標的識別モデル更新部、112:標的識別情報計算部、113:識別モデル学習コスト計算部、114:記憶部、115:識別モデル記憶部、116:共有特徴量空間射影モデル記憶部、206:識別結果記憶部、178:データ閲覧装置、179:データ記録装置

Claims (13)

  1. 入力された教師マルチモーダルデータからそれぞれのモーダルの教師特徴量を抽出する教師特徴量抽出部と、
    入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部と、
    前記教師特徴量と前記標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する共有特徴量空間射影モデル学習部と、
    前記共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算する教師識別情報計算部と、
    前記教師識別情報計算部で計算されたそれぞれのモーダルの前記教師識別情報をアンサンブルし教師識別情報を出力する教師識別情報アンサンブル処理部と、
    前記共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算する標的識別情報計算部と、
    前記標的識別情報計算部によって計算された標的識別情報と前記教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部と、
    該計算された学習コストを基に標的識別モデルを更新する標的識別モデル更新部と、
    該計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、
    更新済みの前記標的識別モデルと前記教師識別モデルを記憶する識別モデル記憶部と、
    前記学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備えることを特徴とするマルチモーダル学習装置。
  2. 請求項1に記載のマルチモーダル学習装置で学習された前記標的識別モデルを基に、一部のモーダルを有する環境で識別を行う時に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定する識別結果推定部、を備えることを特徴とする標的モーダル識別装置。
  3. 入力されたデータから教師特徴量、標的特徴量を取得し、
    1つの教師モデルごとに、
    前記教師特徴量及び前記標的特徴量を共有特徴量空間に正射影し、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを計算し、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影し、逆射影された教師特徴量と元の教師特徴量間の距離D’を計算し、D+D’を最小化するように、正射影モデルと逆射影モデルを更新する処理を繰り返すことを特徴とする射影モデル学習方法。
  4. 入力されたデータから教師特徴量と標的特徴量を組として取得し、
    入力データ組ごとに、
    教師推定クラス確率分布と標的推定クラス確率分布を計算し、
    標的射影特徴量と教師射影特徴量を基に、入力された特徴量を分類し、標的モーダルになる確率を出力し、
    教師推定クラス確率分布と標的推定クラス確率分布を元に、教師誤差評価を算出し、
    クラス真値分布と標的推定クラス確率分布を元に、推定誤差評価を算出し、
    前記教師誤差評価と前記推定誤差評価と前記分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する処理を繰り返すことを特徴とする識別モデル更新処理方法。
  5. 入力されたデータから標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込み、
    学習データ組ごとに、
    入力された教師マルチモーダルデータから教師特徴量を抽出し、
    入力された標的モーダルデータから標的特徴量を抽出し、
    前記教師特徴量と前記標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習し、
    前記教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算し、
    前記計算した教師識別情報をアンサンブルし教師識別情報を出力し、
    前記標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算し、
    前記計算された標的識別情報と前記教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算し、
    該計算された学習コストを基に標的識別モデルを更新し、
    該計算された学習コストを基に教師識別モデルを更新し、
    更新済みの前記標的識別モデルと前記教師識別モデルを記憶し、
    前記学習した射影モデルを記憶する、処理を繰り返すことを特徴とするマルチモーダル学習方法。
  6. 請求項5に記載のマルチモーダル学習方法で学習された前記標的識別モデルを基に、一部のモーダルを有する環境で識別を行う時に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする標的モーダル識別方法。
  7. 請求項1に記載のマルチモーダル学習装置に用いるマルチモーダルデータ収集装置であって、
    眼鏡型ウェアラブル装置が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ、
    または、スマートウォッチが有している加速度センサや心拍センサ、
    または、スマートフォンが有している加速度センサ、ジャイロセンサ、マイクロフォン、WiFi通信器、
    または、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ、
    のいずれかであることを特徴とするマルチモーダルデータ収集装置。
  8. 入力されたデータから画像及び映像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込み、
    学習データ組ごとに、
    前記画像から人物の位置を検出し、人物領域特徴量を抽出し、
    前記映像から動的特徴量を抽出し、加速度特徴量を抽出し、
    前記人物領域特徴量と前記動的特徴量と前記加速度特徴量を元に、それぞれのモーダルの射影モデルを学習し、
    射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する処理を繰り返すことを特徴とする細粒度行動認識モデルの学習方法。
  9. 請求項8に記載の細粒度行動認識モデルの学習方法で学習された前記標的識別モデルを基に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする細粒度行動認識方法。
  10. 入力されたデータから画像及び映像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込み、
    学習データ組ごとに、
    前記画像から物体の位置を検出し、物体領域特徴量を抽出し、
    前記映像から人物動線を検出し、動線変化の動線特徴量を抽出し、
    前記センサデータから加速度特徴量を抽出し、心拍特徴量を算出し、
    前記加速度特徴量と前記心拍特徴量のアンサンブル処理を行い1つの教師識別モデルを構築し、
    前記物体領域特徴量と前記動線特徴量と前記教師識別モデルを元に、それぞれのモーダルの射影モデルを学習し、
    射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する処理を繰り返すことを特徴とする荷物重さ推定モデルの学習方法。
  11. 請求項10に記載の荷物重さ推定モデルの学習方法で学習された前記標的識別モデルを基に、前記標的モーダルのみを用いて、識別情報を計算し、識別結果を推定することを特徴とする荷物重さ推定方法。
  12. 入力されたデータから人物の画像データを読み込み、画像から人物位置を検出し、
    人物ごとに、
    画像から動作特徴量を抽出し、動作特徴量を共有空間に射影し、射影した際の画像射影特徴量を画像射影特徴量データベースに格納する処理を繰り返すことを特徴とする画像検索用データベース構築方法。
  13. 請求項12に記載の画像検索用データベース構築方法で構築された前記画像射影特徴量データベースを基に、センサデータのみを用いて、該センサデータの特徴量を抽出し、該センサデータの特徴量を共有空間に射影し、共有射影空間上で距離が近い前記画像射影特徴量データベースの画像の検索処理を行うことを特徴とする画像検索方法。
JP2018197678A 2018-10-19 2018-10-19 データ解析システム、学習装置、及びその方法 Active JP7171361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018197678A JP7171361B2 (ja) 2018-10-19 2018-10-19 データ解析システム、学習装置、及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018197678A JP7171361B2 (ja) 2018-10-19 2018-10-19 データ解析システム、学習装置、及びその方法

Publications (2)

Publication Number Publication Date
JP2020064568A true JP2020064568A (ja) 2020-04-23
JP7171361B2 JP7171361B2 (ja) 2022-11-15

Family

ID=70387392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197678A Active JP7171361B2 (ja) 2018-10-19 2018-10-19 データ解析システム、学習装置、及びその方法

Country Status (1)

Country Link
JP (1) JP7171361B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565826A (zh) * 2022-04-28 2022-05-31 南京绿色科技研究院有限公司 一种农业病虫害识别诊断方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034342A (ja) * 2009-07-31 2011-02-17 Fujifilm Corp 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034342A (ja) * 2009-07-31 2011-02-17 Fujifilm Corp 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
桂井 麻里衣,外1名: "「画像・テキスト・感情語の潜在的な相関に基づく画像の感情分類」", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会) [O, JPN6022041613, JP, ISSN: 0004886727 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565826A (zh) * 2022-04-28 2022-05-31 南京绿色科技研究院有限公司 一种农业病虫害识别诊断方法、系统及装置
CN114565826B (zh) * 2022-04-28 2022-07-22 南京绿色科技研究院有限公司 一种农业病虫害识别诊断方法、系统及装置

Also Published As

Publication number Publication date
JP7171361B2 (ja) 2022-11-15

Similar Documents

Publication Publication Date Title
Sun et al. Sequential human activity recognition based on deep convolutional network and extreme learning machine using wearable sensors
Dawar et al. Action detection and recognition in continuous action streams by deep learning-based sensing fusion
US11429807B2 (en) Automated collection of machine learning training data
JP5604256B2 (ja) 人物動作検出装置およびそのプログラム
Fan et al. Human fall detection using slow feature analysis
US10588517B2 (en) Method for generating a personalized classifier for human motion activities of a mobile or wearable device user with unsupervised learning
Hnoohom et al. Real-life human activity recognition with tri-axial accelerometer data from smartphone using hybrid long short-term memory networks
Jansi et al. Detection of fall for the elderly in an indoor environment using a tri-axial accelerometer and Kinect depth data
KR102331126B1 (ko) 연상 메모리와 결합된 모션 감지 장치를 이용해서 움직임을 식별하기 위한 시스템 및 방법
US20150002389A1 (en) Method for Recognizing a Performed Gesture, Device, User Terminal and Associated Computer Program
JPWO2017154655A1 (ja) 群衆種類識別システム、群衆種類識別方法および群衆種類識別プログラム
Kumar et al. 3D sign language recognition using spatio temporal graph kernels
Yao et al. A fall detection method based on a joint motion map using double convolutional neural networks
JP6590477B2 (ja) 情報処理装置、情報処理方法、プログラム
Liu et al. A lightweight double-channel depthwise separable convolutional neural network for multimodal fusion gait recognition
Patua et al. Gait-based person identification, gender classification, and age estimation: a review
JP2019082959A (ja) 情報処理装置、情報処理方法及びプログラム
JP7171361B2 (ja) データ解析システム、学習装置、及びその方法
CN107665495B (zh) 对象跟踪方法及对象跟踪装置
WO2020207297A1 (zh) 信息处理方法、存储介质及电子设备
KR20160044858A (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
CN107203259B (zh) 用于使用单和/或多传感器数据融合确定移动设备使用者的概率性内容感知的方法和装置
JP2016099716A (ja) システム、識別装置、識別モデル生成装置、情報処理方法及びプログラム
JP2019046278A (ja) 情報処理装置、制御方法、コンピュータプログラム、記憶媒体、及びモデル作成装置
Alman et al. Pattern recognition of human activity based on smartphone data sensors using SVM multiclass

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221102

R150 Certificate of patent or registration of utility model

Ref document number: 7171361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150