JP7170594B2

JP7170594B2 - 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法

Info

Publication number: JP7170594B2
Application number: JP2019116972A
Authority: JP
Inventors: 亜楠王; 剣明呉; 啓一郎帆足
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-11-14
Anticipated expiration: 2039-06-25
Also published as: JP2021005122A

Description

本発明は、異なるメディアデータを統合した学習モデルを構築する技術に関する。例えば人の感情認識に適する。

同一事象に対して、異なるデバイスによって取得された、時系列のマルチモーダル(multi-modal)データを想定する。同一事象とは、例えば顔であってもよく、人の感情が表現されやすい。感情表現に基づく複数のモーダルデータとしては、例えば映像データ、音声データ及び言語データがあり、特徴量に時間次元を持つ。

従来、階層的に画像データ及び音声データに重み付けして、感情別に認識する技術がある（例えば特許文献１参照）。この技術によれば、その感情認識の結果に対して、「悲しみ」や「恐怖」が認識された場合、感情の音声データの重み付けを大きくする。一方で、「怒り」や「幸福」「驚き」が認識された場合、感情の画像データの重み付けを大きくする。このような重み係数は、ルールベースで決定して、感情の総合評価値に合算している。

また、深層学習モデルとしてのＬＳＴＭ(Long Short-Term Memory)を用いて、単語アライメントに基づいてそれぞれの単語に対応する視覚（表情）特徴や音声特徴を抽出する技術がある（例えば非特許文献１参照）。この技術によれば、その単語の特徴との相関関係についてモデル化することによって、単語レベルでのマルチモーダル感情特徴を統合したものである。

図１は、従来技術における異なるメディアデータの特徴統合プログラムの機能構成図である。

図１によれば、同一事象に対して、時系列に発生した異なるメディアデータの特徴量を統合した学習モデルを構築している。これは、メディアデータ分類部１０と、第１の特徴量抽出部１１１と、第２の特徴量抽出部１１２と、第３の特徴量抽出部１１３と、第１の再帰型ニューラルネットワーク１３１と、第２の再帰型ニューラルネットワーク１３２と、統合特徴学習部１５とを有する。

メディアデータ分類部１０は、同一事象における時系列のマルチモーダルデータを入力し、時系列に、第１のメディアデータ、第２のメディアデータ及び第３メディアデータに分類する。
第１～第３の特徴量抽出部１１１～１１３は、各メディアデータの生データから、個別モーダルの特徴を抽出するものである。例えば従来技術によれば、各メディアデータは、言語データのセンテンス単位に区切られたものもある。
第１～第２の再帰型ニューラルネットワーク１３１及び１３２は、時系列パターンを認識するニューラルネットワークである。これは、内部に状態を持ち、各時点における入力値及び状態に基づいて、次の状態に遷移させることができる。
統合特徴学習部１５は、第１の再帰型ニューラルネットワーク１３１の第１の特徴量と、第２の再帰型ニューラルネットワーク１３２の第２の特徴量と、第３の特徴量抽出部の言語特徴量とを入力し、統合的に特徴量を学習する。

特開平１０－２２８２９５号公報

Words Can Shift: Dynamically Adjusting Word Representations Using Nonverbal Behaviors ATTENTION機構、[online]、［令和１年６月２１日検索］、インターネット＜URL:http://www.thothchildren.com/chapter/5c0b968d41f88f26724a70b8＞

特許文献１に記載の技術によれば、ルールベースとして人手によって重み係数が決定されており、客観性がなく、人や感情の種類によっては認識精度が低下してしまう。
また、非特許文献１に記載の技術によれば、言語アライメントの基準で特徴が区切られるため、感情に有意な特徴が活用されず、感情の認識精度を高めることができない。

これに対し、本願の発明者らは、人間が感情的にコミュニケーションをするときに、異なるマルチモーダルデータ（映像データ、音声データ、言語データ）が、必ずしも同期していない、ことが問題なのではないか、と考えた。例えば、映像的な感情「怒り」の特徴を検出した後、少し時間を空けて、音声的な感情「怒り」の発話をする場合もある。

そこで、本発明は、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができるプログラム、装置及び方法を提供することを目的とする。

本発明によれば、同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを統合した学習モデルを構築するようにコンピュータを機能させるプログラムであって、
第１のメディアデータから、時系列の第１の特徴量を抽出する第１の特徴量抽出手段と、
第２のメディアデータから、時系列の第２の特徴量を抽出する第２の特徴量抽出手段と、
時系列の第１の特徴量を入力する第１の再帰型ニューラルネットワークと、
時系列の第２の特徴量を入力する第２の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する重み係数算出手段と
して機能させ、
第１の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ようにコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
時系列の第１の特徴量を、単位時間当たりの第１の時系列長に合わせて、第１の再帰型ニューラルネットワークへ出力する第１の時系列長調整手段と、
時系列の第２の特徴量を、単位時間当たりの第２の時系列長に合わせて、第２の再帰型ニューラルネットワークへ出力する第２の時系列長調整手段と
してコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
第１の時系列長調整手段は、第１の特徴抽出手段から出力された第１の特徴量の時系列が、単位時間当たりの第１の時系列長よりも短い場合、当該第１の特徴量を連続的に複製して第１の時系列長に合わせ、単位時間当たりの第１の時系列長よりも長い場合、当該第１の特徴量を間引いて第１の時系列長に合わせ、
第２の時系列長調整手段は、第２の特徴抽出手段から出力された第２の特徴量の時系列が、単位時間当たりの第２の時系列長よりも短い場合、当該第２の特徴量を連続的に複製して第２の時系列長に合わせ、単位時間当たりの第２の時系列長よりも長い場合、当該第２の特徴量を間引いて第２の時系列長に合わせる
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
重み係数算出手段は、Softmax関数による相関関係を表す確率を重み係数として算出するATTENTION機構である
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
再帰型ニューラルネットワーク（ＲＮＮ(Recurrent Neural Network)）は、ＬＳＴＭ(Long Short Term Memory)又はＧＲＵ(Gated Recurrent Unit)である
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
第１のメディアデータは、映像であり、
第２のメディアデータは、音声である
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
第３のメディアデータは、言語であり、
第３のメディアデータから、時系列の第３の特徴量を抽出する第３の特徴量抽出手段と、
時系列の第３の特徴量を入力する第３の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークから出力された第１のベクトルと、第３の再帰型ニューラルネットワークから出力された第３のベクトルとを入力し、統合特徴モデルを構築する統合特徴学習手段と
してコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
統合特徴学習手段は、第３のメディアデータに基づく感情言語と、第１のメディアデータ及び第２のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
時系列の第３の特徴量を、単位時間当たりの第３の時系列長に合わせて、第３の再帰型ニューラルネットワークへ出力する第３の時系列長調整手段と
してコンピュータを機能させることも好ましい。

本発明によれば、同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを統合した学習モデルを構築する装置であって、
第１のメディアデータから、時系列の第１の特徴量を抽出する第１の特徴量抽出手段と、
第２のメディアデータから、時系列の第２の特徴量を抽出する第２の特徴量抽出手段と、
時系列の第１の特徴量を入力する第１の再帰型ニューラルネットワークと、
時系列の第２の特徴量を入力する第２の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する重み係数算出手段と
して機能させ、
第１の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ことを特徴とする。

本発明によれば、同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを入力する装置の学習モデル生成方法であって、
前記装置は、
第１のメディアデータから、時系列の第１の特徴量を抽出すると共に、第２のメディアデータから、時系列の第２の特徴量を抽出する第１のステップと、
時系列の第１の特徴量を第１の再帰型ニューラルネットワークへ入力すると共に、時系列の第２の特徴量を第２の再帰型ニューラルネットワークへ入力する第２のステップと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する第３のステップと、
第１の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける第４のステップと
を有することを特徴とする。

本発明のプログラム、装置及び方法によれば、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができる。

従来技術における異なるメディアデータの特徴統合プログラムの機能構成図である。本発明における異なるメディアデータの特徴統合プログラムの機能構成図である。本発明における時系列長調整部の説明図である。時系列に接続されたＬＳＴＭの説明図である。本発明の重み係数算出部の説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明における異なるメディアデータの特徴統合プログラムの機能構成図である。

図２によれば、図１と同様に、メディアデータ分類部１０と、第１～第３の特徴量抽出部１１１～１１３と、第１及び第２の再帰型ニューラルネットワーク１３１及び１３２と、統合特徴学習部１５とを有する。これに加えて、第１～第３の時系列長調整部１２１～１２３と、重み係数算出部１４とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、統合学習方法としても理解できる。

［第１～第３の特徴量抽出部１１１～１１３］
第１の特徴量抽出部１１１は、映像データ（第１のメディアデータ）から、時系列の映像特徴量（第１の特徴量）を抽出する。映像特徴量としては、例えば６８個の顔特徴点や、ＡＵ特徴、目線、表情などの特徴量がある。例えばＡＵ特徴とは、顔の唇、目、眉の３領域の動きに対し複数種類の動きからなるActionUnitを定義したものである。これは、ＦＡＣＳ(Facial Action Coding System)という表情記述法で用いられる表情動作の最小単位であり、これらＡＵの組み合わせによって構成される。
第２の特徴量抽出部１１２は、音声データ（第２のメディアデータ）から、時系列の音声特徴量（第２の特徴量）を抽出する。音声特徴量としては、例えば音のピッチ特徴、スペクトログラム、メル周波数ケプストラムなどがある。
第３の特徴量抽出部１１３は、言語データ（第３のメディアデータ）から、時系列の言語特徴量（第３の特徴量）を抽出する。言語特徴量としては、例えばword2vecなどのツールでの単語レベル分散表現を用いて抽出されたものであって、最小単位がセンテンスとなる。

［第１～第３の時系列長調整部１２１～１２３］
第１の時系列長調整部１２１は、第１の特徴抽出部１１１から出力された時系列の第１の特徴量を、単位時間当たりの第１の時系列長に合わせて、第１の再帰型ニューラルネットワーク１３１へ出力する。
第２の時系列長調整部１２２は、第２の特徴抽出部１１２から出力された時系列の第２の特徴量を、単位時間当たりの第２の時系列長に合わせて、第２の再帰型ニューラルネットワーク１３２へ出力する。
第３の時系列長調整部１２３は、第３の特徴抽出部１１３から出力された時系列の第３の特徴量を、単位時間当たりの第３の時系列長に合わせて、統合特徴学習部１５へ出力する。
ここで、第１～第３の時系列長は、第１～第３のメディアデータそれぞれ、予め設定された最適粒度のものである。

図３は、本発明における時系列長調整部の説明図である。

第１～第３の時系列長調整部１２１～１２３はそれぞれ、以下のように調整する。
（１）第ｎの特徴量の時系列が、単位時間当たりの第ｎの時系列長よりも短い場合、当該第ｎの特徴量を連続的に複製して（コピーして）第１の時系列長に合わせる
（２）第ｎの特徴量の時系列が、単位時間当たりの第ｎの時系列長よりも長い場合、当該第ｎの特徴量を間引いて（削除して）第ｎの時系列長に合わせる。
第１～第３の時系列長調整部１２１～１２３は、メディアデータ毎に、特徴の時系列長を一定に調整することによって、１つの学習データセットにまとめることができるようにしたものである。

［第１、第２の再帰型ニューラルネットワーク１３１、１３２］
第１の再帰型ニューラルネットワーク１３１は、第１の時系列長調整部１２１から出力された映像特徴量（第１の特徴量）における時系列パターンを認識するニューラルネットワークである。
第２の再帰型ニューラルネットワーク１３２は、第２の時系列長調整部１２２から出力された音声特徴量（第２の特徴量）における時系列パターンを認識するニューラルネットワークである。

再帰型ニューラルネットワーク（ＲＮＮ(Recurrent Neural Network)）は、例えばＬＳＴＭ(Long Short Term Memory)又はＧＲＵ(Gated Recurrent Unit)であってもよい。ＲＮＮの時系列段毎には、隠れ層ベクトルがメモリに一時的に保持されている。

図４は、時系列に接続されたＬＳＴＭの説明図である。

図４によれば、ＬＳＴＭは、長期依存(long-term dependencies)を学習可能であって、入力ゲートと忘却ゲートを「更新ゲート」として、１つのゲートに統合したものである。ＧＲＵも同様に、忘却・更新ゲートを導入することによって、長いステップ前の計測値の特徴の記憶を維持しやすくする。これは、各時間ステップ間を迂回するショートカットパスが、効率的に生成されることに基づく。これによって、学習中に、誤差を容易に逆伝播することができる。

［重み係数算出部１４］
重み係数算出部１４は、第１の再帰型ニューラルネットワーク１３１における各時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワーク１３２における全ての時系列段の隠れ層ベクトルに対する重み係数を算出する。

図５は、本発明の重み係数算出部の説明図である。

重み係数算出部１４は、ATTENTION機構（注意機構）である（例えば非特許文献２参照）。これは、Softmax関数による相関関係を表す確率を重み係数としたものである。
m：映像データ用の第１の再帰型ニューラルネットワーク１３１における
各時系列段（1～M）
ｖm：映像データ用の第１の再帰型ニューラルネットワーク１３１における
時系列段mの隠れ層ベクトル
n：音声データ用の第２の再帰型ニューラルネットワーク１３２における
各時系列段（1～N）
ａn：音声データ用の第２の再帰型ニューラルネットワーク１３２における
時系列段nの隠れ層ベクトル
ｗmn：第１の再帰型ニューラルネットワーク１３１の時系列mの隠れ層ベクトルに
対する、第２の再帰型ニューラルネットワーク１３２の時系列nの隠れ層ベク
トルの相関関係を表す確率としての重み係数
ｗ_mn＝softmax（ａn）

そして、第１の再帰型ニューラルネットワーク１３１は、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワーク１３２の全ての時系列段に基づく重み係数を重み付ける。これによって、映像データの第１の特徴量をベースに、音声データの第２の特徴量との相関関係を動的に重み付けて、マルチモーダル特徴を統合することができる。

ここで、重み付けには、以下の２つの方法がある。
（重み付け１）第１の再帰型ニューラルネットワーク１３１は、各時系列段mについて、当該時系列段mの隠れ層ベクトルｖmに、第２の再帰型ニューラルネットワーク１３２の全ての時系列段1～Nの「重み係数の総和に基づく重み係数」を重み付ける。
ｖmの重み係数（アテンション特徴量）＝Σ_n=1 ^N(ａ_iｗ_mn)

（重み付け２）第１の再帰型ニューラルネットワーク１３１は、各時系列段mについて、当該時系列段mの隠れ層ベクトルｖmに、第２の再帰型ニューラルネットワーク１３２の全ての時系列段の中で「最も高い重み係数ｖmax」を重み付ける。
ｖmaxの重み係数（アテンション特徴量）＝MAX（ａ_iｗ_mn） i＝1～N

［統合特徴学習部１５］
統合特徴学習部１５は、第１の再帰型ニューラルネットワーク１３１の最終時系列段から出力された第１のベクトルと、第３の再帰型ニューラルネットワーク１３３の最終時系列段から出力された第３のベクトルとを入力し、統合特徴モデルを構築する。
ここで、第３の特徴量は、言語データに基づく感情言語である。この第３の特徴量に、音声データの第２の特徴量を重み付けた映像データの第１の特徴量を統合している。
これによって、人の感情を学習する場合、統合特徴学習部１５に同時に入力される、第１の再帰型ニューラルネットワーク１３１から出力された第１のベクトルと、第３の再帰型ニューラルネットワーク１３３から出力された第３のベクトルとは、人の感情に対して同一の有意な感情特徴から得られたものであると推定される。
これによって、有意な感情認識に基づく特徴量を学習した感情認識モデルを構築することができる。このような感情認識モデルを用いることによって、的確に人の感情を認識することができる。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができる。

本発明は、人が感情的にコミュニケーションする場合、（１）人から得られた複数のモーダルデータ（映像、音声、言語）は、必ずしも同期していない、及び、（２）最も重要な特徴量は、映像データから得られたものである、との知見に基づくものである。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１０メディアデータ分類部
１１１第１の特徴量抽出部
１１２第２の特徴量抽出部
１１３第３の特徴量抽出部
１２１第１の時系列長調整部
１２２第２の時系列長調整部
１２３第３の時系列長調整部
１３１第１の再帰型ニューラルネットワーク
１３２第２の再帰型ニューラルネットワーク
１３３第３の再帰型ニューラルネットワーク
１４重み係数算出部
１５統合特徴学習部

Claims

同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを統合した学習モデルを構築するようにコンピュータを機能させるプログラムであって、
第１のメディアデータから、時系列の第１の特徴量を抽出する第１の特徴量抽出手段と、
第２のメディアデータから、時系列の第２の特徴量を抽出する第２の特徴量抽出手段と、
時系列の第１の特徴量を入力する第１の再帰型ニューラルネットワークと、
時系列の第２の特徴量を入力する第２の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する重み係数算出手段と
して機能させ、
第１の再帰型ニューラルネットワークは、各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ようにコンピュータを機能させることを特徴とするプログラム。
時系列の第１の特徴量を、単位時間当たりの第１の時系列長に合わせて、第１の再帰型ニューラルネットワークへ出力する第１の時系列長調整手段と、
時系列の第２の特徴量を、単位時間当たりの第２の時系列長に合わせて、第２の再帰型ニューラルネットワークへ出力する第２の時系列長調整手段と
してコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
第１の時系列長調整手段は、第１の特徴抽出手段から出力された第１の特徴量の時系列が、単位時間当たりの第１の時系列長よりも短い場合、当該第１の特徴量を連続的に複製して第１の時系列長に合わせ、単位時間当たりの第１の時系列長よりも長い場合、当該第１の特徴量を間引いて第１の時系列長に合わせ、
第２の時系列長調整手段は、第２の特徴抽出手段から出力された第２の特徴量の時系列が、単位時間当たりの第２の時系列長よりも短い場合、当該第２の特徴量を連続的に複製して第２の時系列長に合わせ、単位時間当たりの第２の時系列長よりも長い場合、当該第２の特徴量を間引いて第２の時系列長に合わせる
ようにコンピュータを機能させることを特徴とする請求項２に記載のプログラム。
前記重み係数算出手段は、Softmax関数による重み係数を算出するATTENTION機構である
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
再帰型ニューラルネットワーク（ＲＮＮ(Recurrent Neural Network)）は、ＬＳＴＭ(Long Short Term Memory)又はＧＲＵ(Gated Recurrent Unit)である
ようにコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載のプログラム。
第１のメディアデータは、映像であり、
第２のメディアデータは、音声である
ようにコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。
第３のメディアデータは、言語であり、
第３のメディアデータから、時系列の第３の特徴量を抽出する第３の特徴量抽出手段と、
時系列の第３の特徴量を入力する第３の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークから出力された第１のベクトルと、第３の再帰型ニューラルネットワークから出力された第３のベクトルとを入力し、統合特徴モデルを構築する統合特徴学習手段と
してコンピュータを機能させることを特徴とする請求項６に記載のプログラム。
前記統合特徴学習手段は、第３のメディアデータに基づく感情言語と、第１のメディアデータ及び第２のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
ようにコンピュータを機能させることを特徴とする請求項７に記載のプログラム。
時系列の第３の特徴量を、単位時間当たりの第３の時系列長に合わせて、第３の再帰型ニューラルネットワークへ出力する第３の時系列長調整手段と
してコンピュータを機能させることを特徴とする請求項７又は８に記載のプログラム。
同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを統合した学習モデルを構築する装置であって、
第１のメディアデータから、時系列の第１の特徴量を抽出する第１の特徴量抽出手段と、
第２のメディアデータから、時系列の第２の特徴量を抽出する第２の特徴量抽出手段と、
時系列の第１の特徴量を入力する第１の再帰型ニューラルネットワークと、
時系列の第２の特徴量を入力する第２の再帰型ニューラルネットワークと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する重み係数算出手段と
して機能させ、
第１の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ことを特徴とする装置。
同一事象に対して、時系列に発生した第１のメディアデータ及び第２のメディアデータを入力する装置の学習モデル生成方法であって、
前記装置は、
第１のメディアデータから、時系列の第１の特徴量を抽出すると共に、第２のメディアデータから、時系列の第２の特徴量を抽出する第１のステップと、
時系列の第１の特徴量を第１の再帰型ニューラルネットワークへ入力すると共に、時系列の第２の特徴量を第２の再帰型ニューラルネットワークへ入力する第２のステップと、
第１の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに対して、第２の再帰型ニューラルネットワークにおける全ての時系列段について各時系列段の隠れ層ベクトルの相関関係を表す確率を、重み係数として算出する第３のステップと、
第１の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第２の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付けるか、又は、第２の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける第４のステップと
を有することを特徴とする学習モデル生成方法。