JP6397385B2 - 学習装置、探索装置、方法、及びプログラム - Google Patents

学習装置、探索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6397385B2
JP6397385B2 JP2015164218A JP2015164218A JP6397385B2 JP 6397385 B2 JP6397385 B2 JP 6397385B2 JP 2015164218 A JP2015164218 A JP 2015164218A JP 2015164218 A JP2015164218 A JP 2015164218A JP 6397385 B2 JP6397385 B2 JP 6397385B2
Authority
JP
Japan
Prior art keywords
data
signal
feature
target
accumulated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015164218A
Other languages
English (en)
Other versions
JP2017041206A (ja
Inventor
卓弘 金子
卓弘 金子
隆行 黒住
隆行 黒住
柏野 邦夫
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015164218A priority Critical patent/JP6397385B2/ja
Publication of JP2017041206A publication Critical patent/JP2017041206A/ja
Application granted granted Critical
Publication of JP6397385B2 publication Critical patent/JP6397385B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、マルチモーダルな信号を探索するための学習装置、探索装置、方法、及びプログラムに関するものである。
従来、マルチモーダルな信号を探索する方法として、時系列データである蓄積信号から、時系列データである目的信号に類似した箇所を探索する方法がある。
特許第4358229号公報
しかし、従来の方法では、複数のモーダルを使用した場合において、一部のモーダルが欠損していた場合に、マルチモーダルな信号を探索することができないという問題がある。
本発明では、上記問題点を解決するために成されたものであり、一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる学習装置、探索装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る学習装置は、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出する学習特徴抽出部と、前記学習特徴抽出部において抽出した前記学習信号の各々の特徴データに基づいて、前記特徴データから共通の符号への変換テーブルを作成する学習部と、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出する蓄積特徴抽出部と、前記蓄積信号の各々について、前記蓄積特徴抽出部により抽出した前記蓄積信号の特徴データと、前記学習部により作成した変換テーブルとに基づいて、前記蓄積信号の特徴データを前記符号を用いた量子化データへ変換した蓄積量子化データを取得する蓄積特徴量子化部と、前記蓄積信号の各々について、前記蓄積特徴量子化部により取得した前記蓄積信号の蓄積量子化データと前記蓄積信号の属性とを対応付けてデータベースに登録し、前記データベースを作成するデータベース作成部と、を含んで構成されている。
第2の発明に係る学習方法は、学習特徴抽出部と、学習部と、蓄積特徴抽出部と、蓄積特徴量子化部と、データベース作成部とを含む、学習装置における学習方法であって、前記学習特徴抽出部は、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出し、前記学習部は、前記学習特徴抽出部において抽出した前記学習信号の各々の特徴データに基づいて、前記特徴データから共通の符号への変換テーブルを作成し、前記蓄積特徴抽出部は、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出し、前記蓄積特徴量子化部は、前記蓄積信号の各々について、前記蓄積特徴抽出部により抽出した前記蓄積信号の特徴データと、前記学習部により作成した変換テーブルとに基づいて、前記蓄積信号の特徴データを前記符号を用いた量子化データへ変換した蓄積量子化データを取得し、前記データベース作成部は、前記蓄積信号の各々について、前記蓄積特徴量子化部により取得した前記蓄積信号の蓄積量子化データと前記蓄積信号の属性とを対応付けてデータベースに登録し、前記データベースを作成する。
第1及び第2の発明によれば、学習特徴抽出部により、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出し、学習部により、抽出した学習信号の各々の特徴データに基づいて、特徴データから共通の符号への変換テーブルを作成し、蓄積特徴抽出部により、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出し、蓄積特徴量子化部により、蓄積信号の各々について、抽出した蓄積信号の特徴データと、作成した変換テーブルとに基づいて、蓄積信号の特徴データを符号を用いた量子化データへ変換した蓄積量子化データを取得し、データベース作成部により、蓄積信号の各々について、取得した蓄積信号の蓄積量子化データと蓄積信号の属性とを対応付けてデータベースに登録し、データベースを作成する。
このように、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出し、抽出した学習信号の各々の特徴データに基づいて、変換テーブルを作成し、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出し、蓄積信号の各々について、抽出した蓄積信号の特徴データと、作成した変換テーブルとに基づいて、蓄積量子化データを取得し、データベース作成部により、蓄積信号の各々について、取得した蓄積信号の蓄積量子化データと蓄積信号の属性とを対応付けてデータベースに登録し、データベースを作成することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができるデータベースを構築することができる。
また、第1の発明に係る学習装置において、前記蓄積特徴量子化部は、前記蓄積信号の特徴データに、前記学習信号の前記マルチモーダルに含まれるモーダルに対応するデータが欠損している場合には、前記蓄積信号の特徴データの前記欠損している部分にゼロを埋めた特徴データと、前記変換テーブルとに基づいて、前記蓄積量子化データを取得し、又は、前記蓄積信号の特徴データと、前記変換テーブルとに基づいて、前記変換テーブルに格納されている前記特徴データの、前記欠損している部分に対応するデータを無視して、前記蓄積量子化データを取得し、又は、前記蓄積信号の特徴データの前記欠損している部分に、対応する前記学習信号の特徴データの代表値を埋めた特徴データと、前記変換テーブルとに基づいて、前記蓄積量子化データを取得してもよい。
第3の発明に係る探索装置は、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出する目的特徴抽出部と、前記目的信号の各々について、前記目的特徴抽出部により抽出した前記目的信号の特徴データと、請求項1記載の学習装置において作成された変換テーブルとに基づいて、前記目的信号の特徴データを前記符号を用いた量子化データへ変換した目的量子化データを取得する目的特徴量子化部と、前記目的信号の各々について、前記目的特徴量子化部により取得された前記目的信号の目的量子化データに基づいて、前記学習装置において作成されたデータベースから、前記目的量子化データに対応する前記蓄積量子化データに対応付けられている前記属性を探索する探索部と、を含んで構成されている。
第4の発明に係る探索方法は、目的特徴抽出部と、目的特徴量子化部と、探索部とを含む、探索装置における探索方法であって、前記目的特徴抽出部は、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、前記目的特徴量子化部は、前記目的信号の各々について、前記目的特徴抽出部により抽出した前記目的信号の特徴データと、第3の発明の学習方法において作成された変換テーブルとに基づいて、前記目的信号の特徴データを前記符号を用いた量子化データへ変換した目的量子化データを取得し、前記探索部は、前記目的信号の各々について、前記目的特徴量子化部により取得された前記目的信号の目的量子化データに基づいて、前記学習装置において作成されたデータベースから、前記目的量子化データに対応する前記蓄積量子化データに対応付けられている前記属性を探索する。
第3及び第4の発明によれば、目的特徴抽出部により、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的特徴量子化部により、目的信号の各々について、抽出した目的信号の特徴データと、第1の発明に係る学習装置において作成された変換テーブルとに基づいて、目的量子化データを取得し、探索部により、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、学習装置において作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索する。
このように、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的信号の各々について、抽出した目的信号の特徴データと、作成された変換テーブルとに基づいて、目的量子化データを取得し、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる。
また、第3の発明に係る探索装置において、前記目的特徴量子化部は、前記目的信号の特徴データに、前記学習信号の前記マルチモーダルに含まれるモーダルに対応するデータが欠損している場合には、前記目的信号の特徴データの前記欠損している部分にゼロを埋めた特徴データと、前記変換テーブルとに基づいて、前記目的量子化データを取得し、又は、前記目的信号の特徴データと、前記変換テーブルとに基づいて、前記変換テーブルに格納されている前記特徴データの、前記欠損している部分に対応するデータを無視して、前記目的量子化データを取得し、又は、前記目的信号の特徴データの前記欠損している部分に、対応する前記学習信号の特徴データの代表値を埋めた特徴データと、前記変換テーブルとに基づいて、前記目的量子化データを取得してもよい。
また、第3の発明に係る探索装置において、前記学習信号は、センサデータ又はメディアデータを2つ以上含み、前記蓄積信号は、センサデータ又はメディアデータを1つ以上含み、前記目的信号は、センサデータ又はメディアデータを1つ以上含んでもよい。
また、本発明のプログラムは、コンピュータを、上記の学習装置、又は探索装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の学習装置、方法、及びプログラムによれば、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出し、抽出した学習信号の各々の特徴データに基づいて、変換テーブルを作成し、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出し、蓄積信号の各々について、抽出した蓄積信号の特徴データと、作成した変換テーブルとに基づいて、蓄積量子化データを取得し、データベース作成部により、蓄積信号の各々について、取得した蓄積信号の蓄積量子化データと蓄積信号の属性とを対応付けてデータベースに登録し、データベースを作成することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができるデータベースを構築することができる。
また、本発明の探索装置、方法、及びプログラムによれば、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的信号の各々について、抽出した目的信号の特徴データと、作成された変換テーブルとに基づいて、目的量子化データを取得し、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる。
本発明の第1の実施形態に係るマルチモーダル信号探索装置の機能的構成を示すブロック図である。 本発明の第1の実施形態に係るマルチモーダル信号探索装置における学習信号処理ルーチンのフローチャート図である。 本発明の第1の実施形態に係るマルチモーダル信号探索装置における蓄積信号処理ルーチンのフローチャート図である。 本発明の第1の実施形態に係るマルチモーダル信号探索装置における探索処理ルーチンのフローチャート図である。 本発明の第2の実施形態に係るマルチモーダル信号探索装置の機能的構成を示すブロック図である。 本発明の第2の実施形態に係るマルチモーダル信号探索装置における蓄積信号処理ルーチンのフローチャート図である。 本発明の第2の実施形態に係るマルチモーダル信号探索装置における探索処理ルーチンのフローチャート図である。 本発明の第3の実施形態に係るマルチモーダル信号探索装置の機能的構成を示すブロック図である。 本発明の第3の実施形態に係るマルチモーダル信号探索装置における蓄積信号処理ルーチンのフローチャート図である。 本発明の第3の実施形態に係るマルチモーダル信号探索装置における探索処理ルーチンのフローチャート図である。 ウェアラブルなモーダルを用いたデータ収集の一例を示す図である。 外部に設置されたモーダルを用いたデータ収集の一例を示す図である。 実験結果の一例を示す図である。 実験結果の一例を示す図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の第1の実施形態に係るマルチモーダル信号探索装置の構成>
まず、本発明の第1の実施形態に係るマルチモーダル信号探索装置の構成について説明する。図1に示すように、本発明の第1の実施形態に係るマルチモーダル信号探索装置100は、CPUと、RAMと、後述する学習信号処理ルーチン、蓄積信号処理ルーチン、及び探索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このマルチモーダル信号探索装置100は、機能的には図1に示すように学習信号取得部10と、蓄積信号取得部12と、目的信号取得部14と、演算部20と、出力部90とを含んで構成されている。
学習信号取得部10は、少なくとも2つ以上の、学習に使用するマルチモーダルな信号(以後、学習信号とする。)を取得し、学習特徴抽出部22に出力する。ここで、マルチモーダルな信号とは、例えば、マイクを用いて集音した音声信号データ(又は音響信号データ)、カメラを用いて撮影した画像信号データ、ウェアラブルまたは環境に設置されたセンサ、具体的には、加速度センサ、ジャイロセンサ、地磁気センサ、照度センサ、圧力センサ、近接センサ、温度センサ、湿度センサ、心拍・心電計、気圧センサ、GPS、及び深度センサなどを用いて収集した加速度、角加速度、地磁気、照度、圧力、近接度、温度、湿度、心拍数・心電図、気圧、GPSデータ、及び深度地図などのセンサ信号データである。また、文も一つのモーダルとして用いてもよく、この場合には文字データを信号データとして用いる。なお、第1の実施形態においては、マルチモーダルな学習信号として音声信号データと、画像信号データとを用いることとする。また、計測機器を用いて収集されるセンサ信号データをセンサデータとし、文字データはメディアデータの一種とする。また、センサ信号データは、上記の例に限定されず、他のセンサ信号データを用いてもよい。また、メディアデータは、上記文字データに限定されず、他のメディアデータを用いてもよい。
蓄積信号取得部12は、少なくとも1つ以上の、後述するデータベースに蓄積するシングルモーダル、又はマルチモーダルな信号(以後、蓄積信号とする。)を取得し、蓄積特徴抽出部30に出力する。なお、第1の実施形態においては、蓄積信号は、学習信号として取得されたモーダルと同種、及び同数のモーダルが取得される場合と、学習信号として取得されたモーダルの各々のうち、一部を欠損したモーダルの各々が取得される場合とがある。また、第1の実施形態においては、蓄積信号の各々に、当該蓄積信号に対応する属性データが付加されているものとする。なお、属性データと蓄積データとの対応関係を明確にすることができる場合には、付加されていることには限定されず、別途属性データを属性付与部34に入力してもよい。ここで、属性データとは、データを表すのに有効な情報のことで、例えば、データの取得した環境やデータの中身などに関する説明やタグなどを表す。例えば、ダンスデータであれば、ダンスの技や構成、又は演者のタイプなどに関する情報が該当する。また、蓄積信号そのものを属性データとして用いてもよい。例えば、ダンスデータであれば、ダンスを撮影、録音した画像信号、音響信号データを属性データとして用いてもよい。
例えば、第1の実施の形態においては、学習信号は、音声信号データのモーダルと、画像信号データのモーダルとからなるマルチモーダルであることから、蓄積信号として、同様の音声信号データのモーダルと、画像信号データのモーダルとからなるマルチモーダルを取得する場合と、音声信号データのモーダル及び画像信号データのモーダルの一方を取得する場合とがある。
目的信号取得部14は、少なくとも1つ以上の、クエリとなるシングルモーダル、又はマルチモーダルな信号(以後、目的信号とする。)を取得し、目的特徴抽出部40に出力する。なお、目的信号についても、上述した蓄積信号と同様に、学習信号として取得されたモーダルと同種、及び同数のモーダルが取得される場合と、学習信号として取得されたモーダルの各々のうち、一部を欠損したモーダルの各々が取得される場合とがある。
演算部20は、学習特徴抽出部22と、学習部24と、変換テーブル記憶部26と、蓄積特徴抽出部30と、蓄積特徴量子化部32と、属性付与部34と、データベース作成部36と、データベース記憶部38と、目的特徴抽出部40と、目的特徴量子化部42と、探索部44とを含んで構成されている。
学習特徴抽出部22は、学習信号取得部10から入力された学習信号の各々について、当該学習信号から特徴データを抽出し、学習部24に出力する。具体的には、学習信号に含まれる各モーダルについて特徴データを抽出する。なお、抽出された特徴データに含まれるデータの各々は、後述の学習部24における処理として必要な最小単位分とする。
ここで、特徴データを抽出するとは、音声信号データ(又は、音響信号データ)に対しては、まず、信号データを、指定したサンプリング周波数でリサンプリングする。例えば、サンプリング周波数を8000Hzとしてリサンプリングを行う。この際、前処理として、例えば、係数を0.76としたプリエンファシスによって高域強調を行ってもよい。その後、一定の窓幅で信号を切り出すという処理を、一定間隔ずらしながら行う。パラメータとしては、例えば、窓幅を1024サンプル、シフト幅を100サンプルとする。そして、切り出した個々の信号データに対して、離散フーリエ変換を行うことによって、短時間周波数スペクトルを得る。なお、音声信号の周波数スペクトルは、低周波領域にノイズが含まれることが多いので、得られた周波数スペクトルの一部を用いてもよい。例えば、低周波領域から65番目のデータから、512番目のデータまでを用いる。ここで得られた短時間周波数スペクトルを時系列方向に並べることによって、時系列ベクトルを取得する。第1の実施形態においては、離散フーリエ変換を行う例を挙げたが、パワースペクトルへの変換方法として離散コサイン変換を用いてもよい。また、特徴データとして、他の公知の方法、例えば、音声信号データから得られるスペクトラル包絡、基本周波数の時間変化情報などを用いてもよい。
また、画像信号データに対しては、まず、前処理として、指定したフレームレートで動画をリサンプリングする。例えば、フレームレートを15として、リサンプリングを行う。この際、特徴抽出の処理スピードを向上するために、画像サイズの縮小処理を実行してもよい。例えば、縦方向48ピクセル、横方向64ピクセルに縮小する。次に、動画中の各画像について、画像領域を一定の間隔でブロックに分割し、各ブロック内でRGBそれぞれについて平均値を算出することで、各画像について特徴ベクトルを取得する。パラメータとしては、縦方向に12分割、横方向に16分割する。動画の場合、画像信号データが時系列にわたって続くので、上記特徴データの抽出を、各画像に対して適用し、つなぎ合わせることによって、時系列ベクトルを取得する。第1の実施形態においては、ブロック領域内のRGBデータを用いる例を挙げたが、他にも、公知の手法であるScale-Invariant Feature Transform (SIFT)(非特許文献1:David G. Lowe. Object recognition from local scale-invariant features. In Proceedings of the International Conference on Computer Vision, 1999.)などの局所記述子を画像の特徴データとして用いてもよい。
また、加速度センサ、ジャイロセンサ、地磁気センサによって得られた9軸のセンサデータ、あるいは、心拍・心電計を用いて得られた心拍・心電データに対しては、各軸について特徴データの抽出を行う。まず、前処理として一定のサンプリング周波数でリサンプリングを行う。例えば、サンプリング周波数を200Hzとしてリサンプリングを行う。上記処理に加えて、前処理として、平滑化などのフィルタリング処理を行い、ノイズ除去処理を実行してもよい。次に、時間軸上で、一定の窓幅で信号を切り出すという処理を、信号の先端から終端に向けて、一定間隔ずらしながら行う。パラメータとしては、例えば、窓幅を1秒、シフト幅を1秒とする。そして、切り出した個々の信号データに対して、離散コサイン変換を行うことによって、短時間周波数スペクトルを得る。ここで得られた短時間周波数スペクトルを時系列方向に並べることによって、時系列ベクトルを取得する。第1の実施形態においては、離散コサイン変換を用いる例を挙げたが、パワースペクトルへの変換方法として、離散フーリエ変換を行ってもよい。また、センサ信号データのピーク位置情報を特徴データとして用いてもよい。また、上記では、各軸について特徴データを抽出する例を挙げたが、3軸センサの場合は、各軸のセンサデータの2乗和のルートをとることによって、センサ値の大きさを求め、その値について前記と同様の処理を行ってもよい。
また、深度センサから得られた深度データに対しては、公知の手法を用いて、深度データを用いて、人体の骨格モデルを求め、各関節の軌跡データについて周波数解析を行うことによって、特徴データを抽出する。また、文中の文字データに対しては、英語の場合は、文字の区切り目であるスペースやピリオド、カンマなどの情報を元にして、文に出現する単語情報を特徴データとして取得する。また、照度センサ、圧力センサ、近接センサ、温度センサ、湿度センサ、気圧センサ、及びGPSから得られた照度データ、圧力データ、近接度データ、温度データ、湿度データ、気圧データ、及びGPSデータに対しては、公知の手法を用いて、任意の特徴データを抽出する。
なお、上述した特徴データの抽出方法は、特に限定されず、他の公知の手法を用いてもよい。また、特徴データのスケールは、個々のモーダルごとに異なるので、特徴データの抽出の後処理として、特徴データの中心化や正規化を行い、モーダル間の差異の緩和を行ってもよい。
学習部24は、学習特徴抽出部22から入力された学習信号の各々の特徴データに基づいて、学習信号として取得されたモーダルの組み合わせにおいて、特徴データを共通の符号(或いは番号)へ変換する変換テーブルを作成し、変換テーブル記憶部26に記憶する。第1の実施の形態においては、学習信号の各々に含まれる各モーダルの音声信号のモーダル、及び画像信号のモーダルの組み合わせについての変換テーブルを作成する。なお、第1の実施の形態においては、音声信号のモーダル、及び画像信号のモーダルの2つのモーダルの組み合わせについて、変換テーブルを作成する場合について説明したが、これに限定されるものではない。例えば、変換テーブルを作成するモーダルの組み合わせに用いるモーダルの数は限定されない。これは、音声特徴データと画像特徴データのように2つのモーダルを組み合わせてもよく、また、音声特徴データと画像特徴データ、加速度特徴データのように3つのモーダルを組み合わせもよいことを表す。そのため、あらゆるモーダルの組み合わせに対応させて変換テーブルを作成することができる。なお、学習部24において作成される変換テーブルに対応するモーダルの組み合わせは予め定義しておくものとする。
具体的には、変換テーブルは、例えば、公知の方法であるK‐means法に基づくLBGアルゴリズムにより代表ベクトルをV求め、代表ベクトルに番号kを付与することによって作成する。そのため、変換テーブルは、代表ベクトルVに近い特徴ベクトルを番号kに変換するためのテーブルとすることができる。ここで、k=1,2,・・・,Kであり、Kは、代表ベクトルの数を表し、例えば、K=100とする。K‐means法も複数種類あるが、例えば、Elkanアルゴリズムを用いる。また、K‐means法は初期値に依存する方法なので、初期値を設定する必要があるが、これについては、例えば、ランダムな値を用いる。K‐meansでは、初期値からはじめ、収束するまで反復処理を行うが、繰り返し回数については、例えば、50回を上限とする。なお、第1の実施形態において、音声モーダルの特徴データの次元がDであり、画像モーダルの特徴データの次元がDであるとすると、第1の実施形態における代表ベクトルVの次元は、D+Dとなる。ここで、各モーダルの優先順位は予め定義されており、第1の実施形態においては音声モーダルの後に画像モーダルの要素が並ぶということが予め定義されているものとする。そのため、代表ベクトルVの次元は、D+Dとなる。
変換テーブル記憶部26には、学習部24において作成された変換テーブルが記憶されている。第1の実施形態においては、K=100であるため、100個の代表ベクトルVと番号kとの組み合わせが格納されているものとする。
蓄積特徴抽出部30は、蓄積信号取得部12から入力された蓄積信号の各々について、当該蓄積信号から特徴データを抽出し、蓄積特徴量子化部32へ出力する。なお、蓄積特徴抽出部30における、蓄積信号からの特徴データの抽出方法は、上述した学習特徴抽出部22と同様であるため、詳細な説明は省略する。
蓄積特徴量子化部32は、蓄積信号の各々について、蓄積特徴抽出部30において抽出した当該蓄積信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該蓄積信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、蓄積量子化データを生成し、属性付与部34に出力する。ここで、量子化は、上述した代表ベクトルVのうち最も近い代表ベクトルに対応する番号kを量子化値(量子化データ)として使用する。なお、対象となる蓄積信号において、変換テーブルの対象であるモーダルの組み合わせのうち、少なくとも1つ以上のモーダルを欠損している場合には、当該欠損しているモーダルに対応する蓄積信号の特徴データの値にゼロを埋める。
具体的には、対象となる蓄積信号に含まれる各モーダルの特徴データの先頭から、各モーダルの最小処理単位データ同士を組み合わせたデータを処理特徴データとする。また、当該処理特徴データと変換テーブルに含まれる各代表ベクトルVとの距離を算出し、距離が最小となる代表ベクトルVを決定し、当該決定した代表ベクトルVに対応するkを変換テーブルから量子化データとして取得する。当該処理を蓄積信号に含まれる各モーダルの特徴データの先頭から、最小処理単位毎に処理が可能な範囲まで繰り返す。そして、繰り返し処理において取得した各kの値に基づいて、kの値についてのヒストグラムを当該蓄積信号の蓄積量子化データとして作成する。なお、当該ヒストグラムの単位は、例えば、確率分布を表し、各kの個数の各々を、取得したkの総数で割った値を用いる事とする。
例えば、前記変換テーブルを2つのモーダルを組み合わせて作成した場合について、1つの処理特徴データを量子化データに変換する場合について説明する。変換テーブルの対象となるモーダルの組み合わせが2つのモーダルである場合において、一方のモーダルMの特徴データの次元をD、他方のモーダルMの特徴データの次元をDとすると、変換テーブルの代表ベクトルVの次元は、D+Dとなる(モーダルMの後にモーダルMが続くことが予め定義されている)。蓄積信号に含まれるモーダルが、変換テーブルの対象となるモーダルの各々と一致する場合には、当該蓄積特徴データ内のある時刻tのベクトルWの次元は、D+Dとなり、代表ベクトルVの次元と一致するので、WとVとの距離をそのまま計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得することができる。ここで、距離を計算するとき、例えばL2距離を用いる。他にも、L1距離やハミング距離など公知の任意の距離評価尺度を用いてもよい。モーダルに不足がある場合、例えば、一つ目のモーダルMを欠損している場合は、前記蓄積特徴データ内のt番目のベクトルW (2)の次元は、D次元となり、代表ベクトルVと比較すると、最初のD次元が欠損していることになる。第1の実施形態においては、欠損している部分については、ゼロを埋めることによって対処する。つまり、ゼロがD個並んだベクトルとW (2)とをつなげたベクトルと、代表ベクトルVとの距離を計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得する。なお、上記の例は1つ目のモーダルが欠損したときについて説明したが、2つ目のモーダルが欠損した場合についても同様に処理を行うことにより対応できる。
属性付与部34は、蓄積信号の各々について、蓄積特徴量子化部32から入力された当該蓄積信号の蓄積量子化データと、当該蓄積信号の属性データとを紐付けてデータベース作成部36に出力する。
データベース作成部36は、属性付与部34から入力された蓄積信号各々についての、蓄積量子化データと属性データとの組み合わせを、データベース記憶部38に記憶されているデータベースに登録する。
データベース記憶部38には、蓄積量子化データと属性データとの組み合わせの各々が記憶されているデータベースが記憶されている。
目的特徴抽出部40は、目的信号取得部14から入力された目的信号の各々について、当該目的信号から特徴データを抽出し、目的特徴量子化部42へ出力する。なお、目的特徴抽出部40における、目的信号からの特徴データの抽出方法は、上述した学習特徴抽出部22と同様であるため、詳細な説明は省略する。
目的特徴量子化部42は、目的信号の各々について、目的特徴抽出部40において抽出された当該目的信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該目的信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、目的量子化データを生成し、探索部44に出力する。なお、目的信号の特徴データを目的量子化データへ変換する方法は、上述した蓄積特徴量子化部32における蓄積信号の特徴データを蓄積量子化データへ変換する方法と同様の処理であるため、詳細な説明は省略する。
探索部44は、目的信号の各々について、目的特徴量子化部42において取得した当該目的信号の目的量子化データと、データベース記憶部38に記憶されているデータベースとに基づいて、当該目的信号の属性を探索し、探索結果を出力部90から出力する。
具体的には、目的信号の各々について、当該目的信号の目的量子化データであるヒストグラムと、データベースに含まれる蓄積量子化データであるヒストグラムの各々との一致度を計算し、当該一致度が予め定められた閾値を超えた場合に、両ヒストグラムが一致すると判定し、一致すると判定された蓄積量子化データに対応する属性データをデータベースから取得し、当該属性データを、当該目的信号の属性データとして出力部90から出力する。ここで、一致度は、例えば、L1距離によって評価する。この一致度の評価方法は、特定の距離評価尺度に限定されず、L2距離、ハミング距離など公知の任意の距離評価尺度を用いてよい。また、蓄積量子化データと付与された属性について、ロジスティック回帰やサポートベクターマシンなどを用いて、識別関数をあらかじめ学習し、その学習した評価関数を用いて、目的量子化データに対応する前記属性データを出力してもよい。また、複数の蓄積量子化データについて一致すると判定された場合には、一致度が一番高い(例えば、一番距離が小さい)蓄積量子化データに対応する属性データを出力部90から出力してもよいし、対応する属性データを距離が小さい順に並びかえた結果を出力部90から出力してもよい。また、閾値を用いず、計算された一致度順に対応する属性データを並べ替えた結果を出力部90から出力してもよい。
<本発明の第1の実施形態に係るマルチモーダル信号探索装置の作用>
次に、本発明の第1の実施形態に係るマルチモーダル信号探索装置100の作用について説明する。マルチモーダル信号探索装置100は、学習信号取得部10によって学習信号の各々が取得されると、マルチモーダル信号探索装置100によって、図2に示す学習信号処理ルーチンが実行される。また、マルチモーダル信号探索装置100は、蓄積信号取得部12によって蓄積信号を受け付けると、マルチモーダル信号探索装置100によって、図3に示す蓄積信号処理ルーチンが実行される。また、マルチモーダル信号探索装置100は、目的信号取得部14によって目的信号を受け付けると、マルチモーダル信号探索装置100によって、図4に示す探索処理ルーチンが実行される。
始めに、図2に示す学習信号処理について説明する。
まず、図2に示す学習信号処理ルーチンのステップS100で、受け付けた学習信号の各々のうち、処理対象となる学習信号を決定する。
次に、ステップS102で、処理対象の学習信号について特徴データを抽出する。
次に、ステップS104で、受け付けた全ての学習信号について、ステップS102の処理を終了したか否かを判定する。受け付けた全ての学習信号について、ステップS102の処理を終了したと判定した場合には、学習信号処理は、ステップS106へ移行する。一方、受け付けた全ての学習信号について、ステップS102の処理を終了していないと判定した場合には、学習信号処理は、ステップS100へ移行し、処理対象となる学習信号を変更し、ステップS102〜ステップS104までの処理を繰り返す。
次に、ステップS106で、ステップS102において取得した受け付けた学習信号各々の特徴データに基づいて、変換テーブルを作成し、変換テーブル記憶部26に記憶し、学習信号処理ルーチンを終了する。
次に、図3に示す蓄積信号処理ルーチンについて説明する。
まず、図3に示す蓄積信号処理ルーチンのステップS120で、変換テーブル記憶部26に記憶されている変換テーブルを読み込む。
次に、ステップS122で、受け付けた蓄積信号の各々のうち、処理対象となる蓄積信号を決定する。
次に、ステップS124で、処理対象となる蓄積信号について、上述のステップS102と同様に特徴データを抽出する。
次に、ステップS126で、処理対象となる蓄積信号について、ステップS124において取得した特徴データから処理対象となる最小単位を決定する。
次に、ステップS128で、処理対象となる蓄積信号について、上述のステップS106において取得した変換テーブルの対象となる全てのモーダルを含むか否かを判定する。蓄積信号に、対象となる全てのモーダルを含む場合には、蓄積信号処理は、ステップS132へ移行する。一方、蓄積信号に、対象となる全てのモーダルを含まない場合(一部欠損している)場合には、蓄積信号処理は、ステップS130へ移行する。
次に、ステップS130で、ステップS124において取得した、処理対象となる最小単位の特徴データの欠損部分に対応している部分の要素にゼロを埋める。
次に、ステップS132で、ステップS124において取得した、又はステップS130においてゼロを埋めた処理対象となる最小単位の特徴データと、ステップS120において取得した変換テーブルとに基づいて、処理対象となる最小単位に対応する量子化データであるkの値を決定する。
次に、ステップS134で、処理対象となる蓄積信号の全ての最小単位についてステップS128〜ステップS132までの処理を終了したか否かを判定する。全ての最小単位についてステップS128〜ステップS132までの処理を終了したと判定した場合には、蓄積信号処理は、ステップS136へ移行する。一方、全ての最小単位についてステップS128〜ステップS132までの処理を終了していないと判定した場合には、蓄積信号処理は、ステップS126へ移行し、処理対象となる最小単位を変更し、ステップS128〜ステップS134までの処理を繰り返す。
次に、ステップS136で、処理対象となる蓄積信号について、ステップS132において取得した当該蓄積信号に含まれる最小単位毎のkの値の各々に基づいて、蓄積量子化データを生成する。
次に、ステップS138で、処理対象となる蓄積信号について、ステップS136において取得した蓄積量子化データと当該蓄積信号に付加されている属性データとを紐づける。
次に、ステップS140で、ステップS138において取得した蓄積量子化データと属性データとの組み合わせをデータベース記憶部38に記憶されているデータベースに記憶する。
次に、ステップS142で、受け付けた全ての蓄積信号について、ステップS124〜ステップS140までの処理を終了したか否かを判定する。全ての蓄積信号について、ステップS124〜ステップS140までの処理を終了したと判定した場合には、蓄積信号処理ルーチンは終了する。一方、全ての蓄積信号について、ステップS124〜ステップS140までの処理を終了していないと判定した場合には、蓄積信号処理ルーチンは、ステップS122へ移行し、処理対象となる蓄積信号を変更し、ステップS124〜ステップS142までの処理を繰り返す。
次に、図4に示す探索処理ルーチンについて説明する。
まず、図4に示す探索処理ルーチンのステップS150で、変換テーブル記憶部26に記憶されている変換テーブルを読み込む。
次に、ステップS152で、データベース記憶部38に記憶されているデータベースを読み込む。
次に、ステップS154で、受け付けた目的信号の各々のうち、処理対象となる目的信号を決定する。
次に、ステップS156で、処理対象となる目的信号について、上述のステップS102と同様に特徴データを抽出する。
次に、ステップS158で、処理対象となる目的信号について、ステップS156において取得した特徴データから処理対象となる最小単位を決定する。
次に、ステップS160で、処理対象となる目的信号について、上述のステップS106において取得した変換テーブルの対象となる全てのモーダルを含むか否かを判定する。目的信号に、対象となる全てのモーダルを含む場合には、探索処理は、ステップS164へ移行する。一方、目的信号に、対象となる全てのモーダルを含まない場合(一部欠損している)場合には、探索処理は、ステップS162へ移行する。
次に、ステップS162で、ステップS156において取得した、処理対象となる最小単位の特徴データの欠損部分に対応している部分の要素にゼロを埋める。
次に、ステップS164で、ステップS156において取得した、又はステップS162においてゼロを埋めた処理対象となる最小単位の特徴データと、上述のステップS150において取得した変換テーブルとに基づいて、処理対象となる最小単位に対応する量子化データであるkの値を決定する。
次に、ステップS166で、処理対象となる目的信号の全ての最小単位についてステップS160〜ステップS164までの処理を終了したか否かを判定する。全ての最小単位についてステップS160〜ステップS162までの処理を終了したと判定した場合には、探索処理は、ステップS168へ移行する。一方、全ての最小単位についてステップS160〜ステップS164までの処理を終了していないと判定した場合には、探索処理は、ステップS158へ移行し、処理対象となる最小単位を変更し、ステップS160〜ステップS166までの処理を繰り返す。
次に、ステップS168で、処理対象となる目的信号について、ステップS164において取得した当該目的信号に含まれる最小単位毎のkの値の各々に基づいて、目的量子化データを生成する。
次に、ステップS170で、処理対象となる目的信号について、ステップS168において取得した当該目的信号の目的量子化データと、ステップS152において取得したデータベースとに基づいて、当該目的信号に対応する属性データを探索する。
次に、ステップS172で、処理対象となる目的信号について、ステップS170において取得した属性データを探索結果として出力部90から出力する。
次に、ステップS174で、受け付けた全ての目的信号について、ステップS156〜ステップS172までの処理を終了したか否かを判定する。全ての目的信号について、ステップS156〜ステップS172までの処理を終了したと判定した場合には、探索処理ルーチンは終了する。一方、全ての目的信号について、ステップS156〜ステップS172までの処理を終了していないと判定した場合には、探索処理ルーチンは、ステップS154へ移行し、処理対象となる目的信号を変更し、ステップS156〜ステップS174までの処理を繰り返す。
以上説明したように、本発明の第1の実施形態に係るマルチモーダル信号探索装置によれば、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的信号の各々について、抽出した目的信号の特徴データと、作成された変換テーブルとに基づいて、目的量子化データを取得し、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる。
また、シングルモーダル、又はマルチモーダルな信号を対象のモーダルのあらゆる組み合わせで共通の符号への変換テーブルを用いて量子化することで、一部のモーダルが欠損していても探索することを可能とし、対応する属性データを取得することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
次に、第2の実施形態に係るマルチモーダル信号探索装置について説明する。
第2の実施形態においては、蓄積信号、又は目的信号の一部に欠損が生じている場合には、当該欠損部分を無視して蓄積量子化データ、及び目的量子化データを生成する点が、第1の実施形態と異なる。なお、第1の実施形態に係るマルチモーダル信号探索装置と同様の構成及び作用については、同一の符号を付して説明を省略する。
<第2の実施形態に係るマルチモーダル信号探索装置の構成>
次に、本発明の第2の実施形態に係るマルチモーダル信号探索装置の構成について説明する。図5に示すように、本発明の第2の実施形態に係るマルチモーダル信号探索装置200は、CPUと、RAMと、後述する学習信号処理ルーチン、蓄積信号処理ルーチン、及び探索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このマルチモーダル信号探索装置200は、機能的には図5に示すように学習信号取得部10と、蓄積信号取得部12と、目的信号取得部14と、演算部220と、出力部90とを含んで構成されている。
演算部220は、学習特徴抽出部22と、学習部24と、変換テーブル記憶部26と、蓄積特徴抽出部30と、蓄積特徴量子化部232と、属性付与部34と、データベース作成部36と、データベース記憶部38と、目的特徴抽出部40と、目的特徴量子化部242と、探索部44とを含んで構成されている。
蓄積特徴量子化部232は、蓄積信号の各々について、蓄積特徴抽出部30において抽出された当該蓄積信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該蓄積信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、蓄積量子化データを生成し、属性付与部34に出力する。対象となる蓄積信号において、変換テーブルの対象であるモーダルの組み合わせのうち、少なくとも1つ以上のモーダルを欠損している場合には、当該欠損しているモーダルに対応する蓄積信号の特徴データの部分を無視する。
例えば、前記変換テーブルを2つのモーダルを組み合わせて作成した場合について、1つの処理特徴データを量子化データに変換する場合について説明する。変換テーブルの対象となるモーダルの組み合わせが2つのモーダルである場合において、一方のモーダルMの特徴データの次元をD、他方のモーダルMの特徴データの次元をDとすると、変換テーブルの代表ベクトルVの次元は、D+Dとなる(モーダルMの後にモーダルMが続くことが予め定義されている)。蓄積信号に含まれるモーダルが、変換テーブルの対象となるモーダルの各々と一致する場合には、当該蓄積特徴データ内のt番目のベクトルWの次元は、D+Dとなり、代表ベクトルVの次元と一致するので、WとVとの距離をそのまま計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得することができる。モーダルに不足がある場合、例えば、一つ目のモーダルMを欠損している場合は、前記蓄積特徴データ内のある時刻tのベクトルW (2)の次元は、D次元となり、代表ベクトルVと比較すると、最初のD次元が欠損していることになる。第2の実施形態においては、欠損している部分については、無視することによって対処する。つまり、Wt(2)と、VのD+1次元目からD+D次元目までの距離を計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得する。なお、上記の例は1つ目のモーダルが欠損したときについて説明したが、2つ目のモーダルが欠損した場合についても同様に処理を行うことにより対応できる。
目的特徴量子化部242は、目的信号の各々について、目的特徴抽出部40において抽出された当該目的信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該目的信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、目的量子化データを生成し、探索部44に出力する。なお、目的信号の特徴データを目的量子化データへ変換する方法は、上述した蓄積特徴量子化部232における蓄積信号の特徴データを蓄積量子化データへ変換する方法と同様の処理であるため、詳細な説明は省略する。
なお、第2の実施形態に係るマルチモーダル信号探索装置の他の構成については、第1の実施形態に係るマルチモーダル信号探索装置の構成と同様であるため、説明を省略する。
<本発明の第2の実施形態に係るマルチモーダル信号探索装置の作用>
次に、本発明の第2の実施形態に係るマルチモーダル信号探索装置200の作用について説明する。マルチモーダル信号探索装置200は、学習信号取得部10によって学習信号の各々が取得されると、マルチモーダル信号探索装置によって、図2に示す学習信号処理ルーチンが実行される。また、マルチモーダル信号探索装置200は、蓄積信号取得部12によって蓄積信号を受け付けると、マルチモーダル信号探索装置200によって、図6に示す蓄積信号処理ルーチンが実行される。また、マルチモーダル信号探索装置200は、目的信号取得部14によって目的信号を受け付けると、マルチモーダル信号探索装置200によって、図7に示す探索処理ルーチンが実行される。なお、第2の実施形態に係る学習信号処理ルーチンについては、第1の実施形態に係る学習信号処理ルーチンと同様である為、説明を省略する。
始めに、図6に示す蓄積信号処理ルーチンについて説明する。
図6に示す蓄積信号処理ルーチンのステップS200で、ステップS124において取得した処理対象となる最小単位の特徴データと、ステップS120において取得した変換テーブルとに基づいて、欠損しているモーダルに対応する特徴データの部分を無視して量子化データであるkの値を決定する。
ステップS202で、ステップS124において取得した処理対象となる最小単位の特徴データと、ステップS120において取得した変換テーブルとに基づいて、処理対象となる最小単位に対応する量子化データであるkの値を決定する。
なお、第2の実施形態に係る蓄積信号処理ルーチンの他の処理については、第1の実施形態に係る蓄積信号処理ルーチンと同様であるため説明を省略する。
次に、図7に示す探索処理ルーチンについて説明する。
図7に示す探索処理ルーチンのステップS220で、ステップS156において取得した処理対象となる最小単位の特徴データと、ステップS150において取得した変換テーブルとに基づいて、欠損しているモーダルに対応する特徴データの部分を無視して量子化データであるkの値を決定する。
ステップS222で、ステップS156において取得した処理対象となる最小単位の特徴データと、ステップS150において取得した変換テーブルとに基づいて、処理対象となる最小単位に対応する量子化データであるkの値を決定する。
なお、第2の実施形態に係る探索処理ルーチンの他の処理については、第1の実施形態に係る探索処理ルーチンと同様であるため説明を省略する。
以上説明したように、本発明の第2の実施形態に係るマルチモーダル信号探索装置によれば、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的信号の各々について、抽出した目的信号の特徴データと、作成された変換テーブルとに基づいて、目的信号の一部が欠損している場合には、当該部分を無視するように目的量子化データを取得し、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
次に、第3の実施形態に係るマルチモーダル信号探索装置について説明する。
第3の実施形態においては、蓄積信号、又は目的信号の一部に欠損が生じている場合には、当該欠損部分に、対応する学習信号の特徴データの代表値を埋めて、蓄積量子化データ、及び目的量子化データを生成する点が、第1、第2の実施形態と異なる。なお、第1、第2の実施形態に係るマルチモーダル信号探索装置と同様の構成及び作用については、同一の符号を付して説明を省略する。
<第3の実施形態に係るマルチモーダル信号探索装置の構成>
次に、本発明の第3の実施形態に係るマルチモーダル信号探索装置の構成について説明する。図8に示すように、本発明の第3の実施形態に係るマルチモーダル信号探索装置300は、CPUと、RAMと、後述する学習信号処理ルーチン、蓄積信号処理ルーチン、及び探索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このマルチモーダル信号探索装置300は、機能的には図8に示すように学習信号取得部10と、蓄積信号取得部12と、目的信号取得部14と、演算部320と、出力部90とを含んで構成されている。
演算部320は、学習特徴抽出部22と、学習部24と、変換テーブル記憶部26と、蓄積特徴抽出部30と、蓄積特徴量子化部332と、属性付与部34と、データベース作成部36と、データベース記憶部38と、目的特徴抽出部40と、目的特徴量子化部342と、探索部44とを含んで構成されている。
蓄積特徴量子化部332は、蓄積信号の各々について、蓄積特徴抽出部30において抽出された当該蓄積信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該蓄積信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、蓄積量子化データを生成し、属性付与部34に出力する。対象となる蓄積信号において、変換テーブルの対象であるモーダルの組み合わせのうち、少なくとも1つ以上のモーダルを欠損している場合には、当該欠損しているモーダルに対応する学習信号の特徴データの代表値を埋める。代表値とは、基本統計量の一つで分布全体を一つの数で表したものであり、例えば、平均値、中央地、最頻値、最小値、最大値などである。
例えば、前記変換テーブルを2つのモーダルを組み合わせて作成した場合について、1つの処理特徴データを量子化データに変換する場合について説明する。変換テーブルの対象となるモーダルの組み合わせが2つのモーダルである場合において、一方のモーダルMの特徴データの次元をD、他方のモーダルMの特徴データの次元をDとすると、変換テーブルの代表ベクトルVの次元は、D+Dとなる(モーダルMの後にモーダルMが続くことが予め定義されている)。蓄積信号に含まれるモーダルが、変換テーブルの対象となるモーダルの各々と一致する場合には、当該蓄積特徴データ内のある時刻tのベクトルWの次元は、D+Dとなり、代表ベクトルVの次元と一致するので、WとVとの距離をそのまま計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得することができる。モーダルに不足がある場合、例えば、一つ目のモーダルMを欠損している場合は、前記蓄積特徴データ内のt番目のベクトルW (2)の次元は、D次元となり、代表ベクトルVと比較すると、最初のD次元が欠損していることになる。第3の実施形態においては、欠損している部分については、対応する学習信号データの特徴データの代表値を埋めることによって対処する。この代表値は、学習信号の特徴データの次元ごと求められ、各次元で求めた代表値をつなげることにより、D次元のベクトルを得る。このD次元のベクトルとWt(2)とをつなげたベクトルと、代表ベクトルVとの距離を計算し、その値が最も小さくなるようなkを求めることで、量子化データを取得する。なお、上記の例は1つ目のモーダルが欠損したときについて説明したが、2つ目のモーダルが欠損した場合についても同様に処理を行うことにより対応できる。
目的特徴量子化部342は、目的信号の各々について、目的特徴抽出部40において抽出された当該目的信号の特徴データと、変換テーブル記憶部26に記憶されている変換テーブルとに基づいて、当該目的信号に含まれる最小処理単位毎の特徴データを量子化データへ変換し、変換された量子化データの各々に基づいて、目的量子化データを生成し、探索部44に出力する。なお、目的信号の特徴データを目的量子化データへ変換する方法は、上述した蓄積特徴量子化部332における蓄積信号の特徴データを蓄積量子化データへ変換する方法と同様の処理であるため、詳細な説明は省略する。
なお、第3の実施形態に係るマルチモーダル信号探索装置の他の構成については、第1の実施形態に係るマルチモーダル信号探索装置の構成と同様であるため、説明を省略する。
<本発明の第3の実施形態に係るマルチモーダル信号探索装置の作用>
次に、本発明の第3の実施形態に係るマルチモーダル信号探索装置300の作用について説明する。マルチモーダル信号探索装置300は、学習信号取得部10によって学習信号の各々が取得されると、マルチモーダル信号探索装置によって、図2に示す学習信号処理ルーチンが実行される。また、マルチモーダル信号探索装置300は、蓄積信号取得部12によって蓄積信号を受け付けると、マルチモーダル信号探索装置300によって、図9に示す蓄積信号処理ルーチンが実行される。また、マルチモーダル信号探索装置300は、目的信号取得部14によって目的信号を受け付けると、マルチモーダル信号探索装置300によって、図10に示す探索処理ルーチンが実行される。なお、第3の実施形態に係る学習信号処理ルーチンについては、第1の実施形態に係る学習信号処理ルーチンと同様である為、説明を省略する。
始めに、図9に示す蓄積信号処理ルーチンについて説明する。
図9に示す蓄積信号処理ルーチンのステップS300で、ステップS124において取得した、処理対象となる最小単位の特徴データの欠損部分に対応している部分の要素に、対応する学習信号の特徴データの代表値を埋める。
なお、第3の実施形態に係る蓄積信号処理ルーチンの他の処理については、第1の実施形態に係る蓄積信号処理ルーチンと同様であるため説明を省略する。
次に、図10に示す探索処理ルーチンについて説明する。
図10に示す探索処理ルーチンのステップS320で、ステップS156において取得した、処理対象となる最小単位の特徴データの欠損部分に対応している部分の要素に、対応する学習信号の特徴データの代表値を埋める。
なお、第3の実施形態に係る探索処理ルーチンの他の処理については、第1の実施形態に係る探索処理ルーチンと同様であるため説明を省略する。
以上説明したように、本発明の第3の実施形態に係るマルチモーダル信号探索装置によれば、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、目的信号の各々について、抽出した目的信号の特徴データと、作成された変換テーブルとに基づいて、目的信号の一部が欠損している場合には、当該部分に対応する学習信号の特徴データの代表値を埋めるように目的量子化データを取得し、目的信号の各々について、取得された目的信号の目的量子化データに基づいて、作成されたデータベースから、目的量子化データに対応する蓄積量子化データに対応付けられている属性を探索することにより一部のモーダルが欠損していてもマルチモーダルな信号を探索することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、第1、第2、及び第3の実施形態においては、学習処理、蓄積処理、及び探索処理が1つの装置において行われる場合について説明したが、これに限定されるものではない。例えば、学習処理、及び蓄積処理を学習装置において行い、探索処理を学習装置とは別の探索装置として構成してもよい。
また、第1、第2、及び第3の実施形態においては、蓄積信号、又は目的信号の一部が欠損している場合、実施形態毎に0を埋める処理、無視する処理、又は、学習信号の特徴データの代表値を埋める処理の何れかを実行するよう説明したが、これに限定されるものではない。例えば、蓄積信号、又は目的信号の一部が欠損している場合、0を埋める処理、無視する処理、及び学習信号の特徴データの代表値を埋める処理のいずれか適当な処理を処理毎に任意に選択してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
<実験例>
実際に、上記の第1、第2、及び第3の実施形態に係るマルチモーダル信号探索装置における処理を実データに対して適用した例について以下で説明する。まず、実験では、ヒップホップダンスを対象としてデータ収集を行った。データ収集は、2タイプ行い、一つ目は、図11にようにウェアラブルなモーダルを用いたデータ収集、もう一つは、図12のように外部に設置されたモーダルを用いたデータ収集である。なお、図11の例においては、取得されるデータ等と部位等との組み合わせを表している。図11、及び図12のように本実験では、様々なモーダルでデータを収集しており、全ての組み合わせにおいて、発明技術を適用することができるが、検証では、画像信号データ、音声信号データ、加速度センサデータを対象にした。画像信号データは、演者の正面に設置した固定カメラを用いて収集したものを用い、音声信号データは、スピーカで流したダンスの曲をカメラに付属しているマイクによって収集したものを用い、加速度センサデータは、演者の頭頂部、胴部、両手首部、両足首部に装着したウェアラブルデバイスを用いて収集したものを使用した。
モーダルの種類としては、画像信号データが1種類、音声信号データが1種類、加速度センサデータが6種類の計8種類あり、これらの信号データの中から、1つ、または、2つを組み合わせたものをシングルモーダルデータ、または、マルチモーダルデータとみなし、蓄積信号、学習信号、目的信号の入力として用いた。ダンスは、全部で4つのパートで構成されており、どのパートに所属しているかという情報を属性データとして用いた。つまり、本実験では、シングルモーダルまたはマルチモーダルな信号を元に得た蓄積量子化データと、パートに関する属性データがセットとして、データベースに登録されており、目的信号が与えられた時には、そのデータベースを元にして、目的信号がどの属性を持つか、すなわち、どのパートに属するかということが出力として得られる。なお、実験に用いたデータの分割方法について述べると、4つのパートのうち、1つのパートのデータを学習信号として用い、変換テーブルの作成を行うために用いた。そして、残りの3つのパートは、蓄積信号、目的信号として用い、これらについて一致度の評価を行った。つまり、実験の評価対象は、3つのパートのうち、適切なパートを当てられるかどうかであり、ランダムに予測した場合、1/3の確率で当たる問題である。また、データ収集の際に、演者は2回同一のダンスを踊ったが、1回目の演技を蓄積信号、2回目の演技を目的信号として用いた。
実験では、目的信号、蓄積信号、及び学習信号に用いるモーダルの組み合わせを変えて、比較検証を行った。本実験では、マルチモーダルデータとしては、2つのモーダルを組み合わせたものを想定している。以下では、表記上の都合として、一つ目のモーダルをモーダルM、二つ目のモーダルをモーダルMとする。なお、今回は、8種類のモーダルを用いている。2つのモーダルデータの組み合わせ数については、どちらのモーダルの取得時間を基準にして、結合するかということも考慮すると、=56通りになる。
比較を行った9パターンは以下の通りである。
(1)目的信号、蓄積信号、学習信号いずれもモーダルMのデータのみを用いるパターン。
(2)目的信号、蓄積信号、学習信号いずれもモーダルMのデータのみを用いるパターン。
(3)目的信号、蓄積信号、学習信号いずれもモーダルMとモーダルMを組み合わせたデータを用いるパターン。
(4)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号、蓄積信号はモーダルMのみを用いるパターン。なお、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、値を無視する。
(5)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号、蓄積信号はモーダルMのみを用いるパターン。なお、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、値を無視する。
(6)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号、蓄積信号はモーダルMのみを用いるパターン。なお、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、ゼロを埋める。本実験では、特徴データの抽出の後処理として、中心化を行っているため、ゼロを埋めることは、特徴データの代表値の一つである平均値を埋めることに対応する。
(7)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号、蓄積信号はモーダルMのみを用いるパターン。なお、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、ゼロを埋める。本実験では、特徴データの抽出の後処理として、中心化を行っているため、ゼロを埋めることは、特徴データの代表値の一つである平均値を埋めることに対応する。
(8)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号はモーダルMのみ、蓄積信号はモーダルMのみを用いるパターン。この場合、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、値を無視する。
(9)学習信号は、モーダルMとモーダルMを組み合わせたデータを用い、目的信号はモーダルMのみ、蓄積信号はモーダルMのみを用いるパターン。この場合、目的特徴量子化部分および蓄積特徴量子化部で量子化をする際に、モーダルの不足が生じるが、その不足分については、値を無視する。
上記9パターンのうち、(8)と(9)に関しては、目的信号と、蓄積信号のモーダルが完全に異なり、クロスモーダルに検索するパターンである。結果を図13にまとめる。これは、モーダルの56通りの組み合わせについて、精度の平均をとった値である。なお、平均をとった場合、パターン(1)(2)、(4)(5)、(6)(7)、(8)(9)は、同じ組み合わせについて評価をしていることになるが、符号テーブルを作成する際に用いるK‐meansについては、初期値依存性があり、ここにランダム性があるため、必ずしも一致していない。
今回の実験で対象としている問題は、3つのパートのうち該当するパートを当てるという問題であり、ランダムに答えを選択した場合、精度は、1/3=0.33になる。これと、図13の(1)から(9)の結果を比較すると、いずれも、0.33を上回る値となっており、発明技術の有効性が分かる。
また、頭頂部のウェアラブルデバイスをモーダルMとして用い、胴部のウェアラブルデバイスをモーダルMとして用いた場合の結果を、図14に示す。図14では、上段が、左からパターン(1)から(3)の結果を表し、中段が、左からパターン(4)から(6)の結果を表し、下段が、左からパターン(7)から(9)の結果を表す。各々の混同行列は、縦軸が、目的信号の属するパートを表し、横軸が蓄積信号の属するパートを表す。この結果例では、いずれも精度は、100%となっており、発明技術の有効性が分かる。なお、図14の数字の値は距離を表すため、値が小さい程、一致度が高いことを表す。
10 学習信号取得部
12 蓄積信号取得部
14 目的信号取得部
20 演算部
22 学習特徴抽出部
24 学習部
26 変換テーブル記憶部
30 蓄積特徴抽出部
32 蓄積特徴量子化部
34 属性付与部
36 データベース作成部
38 データベース記憶部
40 目的特徴抽出部
42 目的特徴量子化部
44 探索部
90 出力部
100 マルチモーダル信号探索装置
200 マルチモーダル信号探索装置
220 演算部
232 蓄積特徴量子化部
242 目的特徴量子化部
300 マルチモーダル信号探索装置
320 演算部
332 蓄積特徴量子化部
342 目的特徴量子化部

Claims (9)

  1. 入力されたマルチモーダルである学習信号の各々について、特徴データを抽出する学習特徴抽出部と、
    前記学習特徴抽出部において抽出した前記学習信号の各々の特徴データに基づいて、前記特徴データから共通の符号への変換テーブルを作成する学習部と、
    入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出する蓄積特徴抽出部と、
    前記蓄積信号の各々について、前記蓄積特徴抽出部により抽出した前記蓄積信号の特徴データと、前記学習部により作成した変換テーブルとに基づいて、前記蓄積信号の特徴データを前記符号を用いた量子化データへ変換した蓄積量子化データを取得する蓄積特徴量子化部と、
    前記蓄積信号の各々について、前記蓄積特徴量子化部により取得した前記蓄積信号の蓄積量子化データと前記蓄積信号の属性とを対応付けてデータベースに登録し、前記データベースを作成するデータベース作成部と、
    を含む、学習装置。
  2. 入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出する目的特徴抽出部と、
    前記目的信号の各々について、前記目的特徴抽出部により抽出した前記目的信号の特徴データと、請求項1記載の学習装置において作成された変換テーブルとに基づいて、前記目的信号の特徴データを前記符号を用いた量子化データへ変換した目的量子化データを取得する目的特徴量子化部と、
    前記目的信号の各々について、前記目的特徴量子化部により取得された前記目的信号の目的量子化データに基づいて、前記学習装置において作成されたデータベースから、前記目的量子化データに対応する前記蓄積量子化データに対応付けられている前記属性を探索する探索部と、
    を含む、探索装置。
  3. 前記蓄積特徴量子化部は、前記蓄積信号の特徴データに、前記学習信号の前記マルチモーダルに含まれるモーダルに対応するデータが欠損している場合には、前記蓄積信号の特徴データの前記欠損している部分にゼロを埋めた特徴データと、前記変換テーブルとに基づいて、前記蓄積量子化データを取得し、又は、前記蓄積信号の特徴データと、前記変換テーブルとに基づいて、前記変換テーブルに格納されている前記特徴データの、前記欠損している部分に対応するデータを無視して、前記蓄積量子化データを取得し、又は、前記蓄積信号の特徴データの前記欠損している部分に、対応する前記学習信号の特徴データの代表値を埋めた特徴データと、前記変換テーブルとに基づいて、前記蓄積量子化データを取得する請求項1記載の学習装置。
  4. 前記目的特徴量子化部は、前記目的信号の特徴データに、前記学習信号の前記マルチモーダルに含まれるモーダルに対応するデータが欠損している場合には、前記目的信号の特徴データの前記欠損している部分にゼロを埋めた特徴データと、前記変換テーブルとに基づいて、前記目的量子化データを取得し、又は、前記目的信号の特徴データと、前記変換テーブルとに基づいて、前記変換テーブルに格納されている前記特徴データの、前記欠損している部分に対応するデータを無視して、前記目的量子化データを取得し、又は、前記目的信号の特徴データの前記欠損している部分に、対応する前記学習信号の特徴データの代表値を埋めた特徴データと、前記変換テーブルとに基づいて、前記目的量子化データを取得する請求項2記載の探索装置。
  5. 前記学習信号は、センサデータ又はメディアデータを2つ以上含み、
    前記蓄積信号は、センサデータ又はメディアデータを1つ以上含み、
    前記目的信号は、センサデータ又はメディアデータを1つ以上含む請求項2又は4記載の探索装置。
  6. 学習特徴抽出部と、学習部と、蓄積特徴抽出部と、蓄積特徴量子化部と、データベース作成部とを含む、学習装置における学習方法であって、
    前記学習特徴抽出部は、入力されたマルチモーダルである学習信号の各々について、特徴データを抽出し、
    前記学習部は、前記学習特徴抽出部において抽出した前記学習信号の各々の特徴データに基づいて、前記特徴データから共通の符号への変換テーブルを作成し、
    前記蓄積特徴抽出部は、入力されたシングルモーダル又はマルチモーダルである蓄積信号の各々について、特徴データを抽出し、
    前記蓄積特徴量子化部は、前記蓄積信号の各々について、前記蓄積特徴抽出部により抽出した前記蓄積信号の特徴データと、前記学習部により作成した変換テーブルとに基づいて、前記蓄積信号の特徴データを前記符号を用いた量子化データへ変換した蓄積量子化データを取得し、
    前記データベース作成部は、前記蓄積信号の各々について、前記蓄積特徴量子化部により取得した前記蓄積信号の蓄積量子化データと前記蓄積信号の属性とを対応付けてデータベースに登録し、前記データベースを作成する
    学習方法。
  7. 目的特徴抽出部と、目的特徴量子化部と、探索部とを含む、探索装置における探索方法であって、
    前記目的特徴抽出部は、入力されたシングルモーダル又はマルチモーダルである目的信号の各々について、特徴データを抽出し、
    前記目的特徴量子化部は、前記目的信号の各々について、前記目的特徴抽出部により抽出した前記目的信号の特徴データと、請求項6記載の学習方法において作成された変換テーブルとに基づいて、前記目的信号の特徴データを前記符号を用いた量子化データへ変換した目的量子化データを取得し、
    前記探索部は、前記目的信号の各々について、前記目的特徴量子化部により取得された前記目的信号の目的量子化データに基づいて、前記学習装置において作成されたデータベースから、前記目的量子化データに対応する前記蓄積量子化データに対応付けられている前記属性を探索する
    探索方法。
  8. コンピュータを、請求項1若しくは3に記載の学習装置の各部として機能させるためのプログラム。
  9. コンピュータを、請求項2、請求項4、若しくは請求項5に記載の探索装置の各部として機能させるためのプログラム。
JP2015164218A 2015-08-21 2015-08-21 学習装置、探索装置、方法、及びプログラム Active JP6397385B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164218A JP6397385B2 (ja) 2015-08-21 2015-08-21 学習装置、探索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164218A JP6397385B2 (ja) 2015-08-21 2015-08-21 学習装置、探索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017041206A JP2017041206A (ja) 2017-02-23
JP6397385B2 true JP6397385B2 (ja) 2018-09-26

Family

ID=58208814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164218A Active JP6397385B2 (ja) 2015-08-21 2015-08-21 学習装置、探索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6397385B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200012941A1 (en) * 2018-07-09 2020-01-09 Tata Consultancy Services Limited Method and system for generation of hybrid learning techniques
JP7060852B2 (ja) * 2018-10-18 2022-04-27 株式会社シンクアウト 情報処理システム
US11587305B2 (en) 2019-03-14 2023-02-21 Fujifilm Business Innovation Corp. System and method for learning sensory media association without using text labels
US20210012061A1 (en) * 2019-07-12 2021-01-14 Nec Laboratories America, Inc. Supervised cross-modal retrieval for time-series and text using multimodal triplet loss
US11520993B2 (en) * 2019-07-24 2022-12-06 Nec Corporation Word-overlap-based clustering cross-modal retrieval
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN112488292B (zh) * 2020-11-19 2024-02-02 杭州电子科技大学 一种面向通用多模态学习的神经框架搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5458815B2 (ja) * 2009-11-11 2014-04-02 株式会社デンソーアイティーラボラトリ マルチメディア検索システム

Also Published As

Publication number Publication date
JP2017041206A (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
JP6397385B2 (ja) 学習装置、探索装置、方法、及びプログラム
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
CN105574063B (zh) 基于视觉显著性的图像检索方法
JP6431302B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6017335B2 (ja) パターン認識装置、その方法、及び、そのプログラム
KR101581112B1 (ko) 계층적 패턴 구조에 기반한 기술자 생성 방법 및 이를 이용한 객체 인식 방법과 장치
US11301509B2 (en) Image search system, image search method, and program
JP6203077B2 (ja) 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム
KR101917369B1 (ko) 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치
CN104615676B (zh) 一种基于最大相似度匹配的图片检索方法
CN111161314B (zh) 目标对象的位置区域确定方法、装置、电子设备及存储介质
JP2013206187A (ja) 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
JP2015111339A (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
JP4721829B2 (ja) 画像検索方法及び装置
WO2021007999A1 (zh) 视频帧处理方法及装置
CN110163103B (zh) 一种基于视频图像的生猪行为识别方法和装置
CN114168768A (zh) 图像检索方法及相关设备
JP6452324B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6393495B2 (ja) 画像処理装置および物体認識方法
JP5370267B2 (ja) 画像処理システム
JP6220737B2 (ja) 被写体領域抽出装置、方法、及びプログラム
CN106909894B (zh) 车辆品牌型号识别方法和系统
JP4382744B2 (ja) 画像情報抽出方法及び画像情報検索方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180831

R150 Certificate of patent or registration of utility model

Ref document number: 6397385

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150