JP2021005122A - 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 - Google Patents

同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 Download PDF

Info

Publication number
JP2021005122A
JP2021005122A JP2019116972A JP2019116972A JP2021005122A JP 2021005122 A JP2021005122 A JP 2021005122A JP 2019116972 A JP2019116972 A JP 2019116972A JP 2019116972 A JP2019116972 A JP 2019116972A JP 2021005122 A JP2021005122 A JP 2021005122A
Authority
JP
Japan
Prior art keywords
time series
neural network
recurrent neural
feature amount
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019116972A
Other languages
English (en)
Other versions
JP7170594B2 (ja
Inventor
亜楠 王
Yanan Wang
亜楠 王
剣明 呉
Jiangming Wu
剣明 呉
啓一郎 帆足
Keiichiro Hoashi
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019116972A priority Critical patent/JP7170594B2/ja
Publication of JP2021005122A publication Critical patent/JP2021005122A/ja
Application granted granted Critical
Publication of JP7170594B2 publication Critical patent/JP7170594B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築するプログラム等を提供する。【解決手段】各メディアデータから、時系列の各特徴量を抽出する複数の特徴量抽出手段111〜113と、時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワーク131と、時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワーク132と、第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルは、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段14として機能する。第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルは、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付けるように機能する。【選択図】図2

Description

本発明は、異なるメディアデータを統合した学習モデルを構築する技術に関する。例えば人の感情認識に適する。
同一事象に対して、異なるデバイスによって取得された、時系列のマルチモーダル(multi-modal)データを想定する。同一事象とは、例えば顔であってもよく、人の感情が表現されやすい。感情表現に基づく複数のモーダルデータとしては、例えば映像データ、音声データ及び言語データがあり、特徴量に時間次元を持つ。
従来、階層的に画像データ及び音声データに重み付けして、感情別に認識する技術がある(例えば特許文献1参照)。この技術によれば、その感情認識の結果に対して、「悲しみ」や「恐怖」が認識された場合、感情の音声データの重み付けを大きくする。一方で、「怒り」や「幸福」「驚き」が認識された場合、感情の画像データの重み付けを大きくする。このような重み係数は、ルールベースで決定して、感情の総合評価値に合算している。
また、深層学習モデルとしてのLSTM(Long Short-Term Memory)を用いて、単語アライメントに基づいてそれぞれの単語に対応する視覚(表情)特徴や音声特徴を抽出する技術がある(例えば非特許文献1参照)。この技術によれば、その単語の特徴との相関関係についてモデル化することによって、単語レベルでのマルチモーダル感情特徴を統合したものである。
図1は、従来技術における異なるメディアデータの特徴統合プログラムの機能構成図である。
図1によれば、同一事象に対して、時系列に発生した異なるメディアデータの特徴量を統合した学習モデルを構築している。これは、メディアデータ分類部10と、第1の特徴量抽出部111と、第2の特徴量抽出部112と、第3の特徴量抽出部113と、第1の再帰型ニューラルネットワーク131と、第2の再帰型ニューラルネットワーク132と、統合特徴学習部15とを有する。
メディアデータ分類部10は、同一事象における時系列のマルチモーダルデータを入力し、時系列に、第1のメディアデータ、第2のメディアデータ及び第3メディアデータに分類する。
第1〜第3の特徴量抽出部111〜113は、各メディアデータの生データから、個別モーダルの特徴を抽出するものである。例えば従来技術によれば、各メディアデータは、言語データのセンテンス単位に区切られたものもある。
第1〜第2の再帰型ニューラルネットワーク131及び132は、時系列パターンを認識するニューラルネットワークである。これは、内部に状態を持ち、各時点における入力値及び状態に基づいて、次の状態に遷移させることができる。
統合特徴学習部15は、第1の再帰型ニューラルネットワーク131の第1の特徴量と、第2の再帰型ニューラルネットワーク132の第2の特徴量と、第3の特徴量抽出部の言語特徴量とを入力し、統合的に特徴量を学習する。
特開平10−228295号公報
Words Can Shift: Dynamically Adjusting Word Representations Using Nonverbal Behaviors ATTENTION機構、[online]、[令和1年6月21日検索]、インターネット<URL:http://www.thothchildren.com/chapter/5c0b968d41f88f26724a70b8>
特許文献1に記載の技術によれば、ルールベースとして人手によって重み係数が決定されており、客観性がなく、人や感情の種類によっては認識精度が低下してしまう。
また、非特許文献1に記載の技術によれば、言語アライメントの基準で特徴が区切られるため、感情に有意な特徴が活用されず、感情の認識精度を高めることができない。
これに対し、本願の発明者らは、人間が感情的にコミュニケーションをするときに、異なるマルチモーダルデータ(映像データ、音声データ、言語データ)が、必ずしも同期していない、ことが問題なのではないか、と考えた。例えば、映像的な感情「怒り」の特徴を検出した後、少し時間を空けて、音声的な感情「怒り」の発話をする場合もある。
そこで、本発明は、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができるプログラム、装置及び方法を提供することを目的とする。
本発明によれば、同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築するようにコンピュータを機能させるプログラムであって、
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
して機能させ、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ようにコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付ける
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワークへ出力する第1の時系列長調整手段と、
時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワークへ出力する第2の時系列長調整手段と
してコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1の時系列長調整手段は、第1の特徴抽出手段から出力された第1の特徴量の時系列が、単位時間当たりの第1の時系列長よりも短い場合、当該第1の特徴量を連続的に複製して第1の時系列長に合わせ、単位時間当たりの第1の時系列長よりも長い場合、当該第1の特徴量を間引いて第1の時系列長に合わせ、
第2の時系列長調整手段は、第2の特徴抽出手段から出力された第2の特徴量の時系列が、単位時間当たりの第2の時系列長よりも短い場合、当該第2の特徴量を連続的に複製して第2の時系列長に合わせ、単位時間当たりの第2の時系列長よりも長い場合、当該第2の特徴量を間引いて第2の時系列長に合わせる
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
重み係数算出手段は、第1の特徴量毎に、当該第1の特徴量と全ての第2の特徴量それぞれとの内積を用いて、Softmax関数による相関関係を表す確率を重み係数として算出するATTENTION機構である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
再帰型ニューラルネットワーク(RNN(Recurrent Neural Network))は、LSTM(Long Short Term Memory)又はGRU(Gated Recurrent Unit)である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1のメディアデータは、映像であり、
第2のメディアデータは、音声である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第3のメディアデータは、言語であり、
第3のメディアデータから、時系列の第3の特徴量を抽出する第3の特徴量抽出手段と、
時系列の第3の特徴量を入力する第3の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークの最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワークの最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する統合特徴学習手段と
してコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
統合特徴学習手段は、第3のメディアデータに基づく感情言語と、第1のメディアデータ及び第2のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、第3の再帰型ニューラルネットワークへ出力する第3の時系列長調整手段と
してコンピュータを機能させることも好ましい。
本発明によれば、同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築する装置であって、
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
を有し、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ことを特徴とする。
本発明によれば、同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを入力する装置の学習モデル生成方法であって、
装置は、
第1のメディアデータから、時系列の第1の特徴量を抽出すると共に、第2のメディアデータから、時系列の第2の特徴量を抽出する第1のステップと、
時系列の第1の特徴量を第1の再帰型ニューラルネットワークへ入力すると共に、時系列の第2の特徴量を第2の再帰型ニューラルネットワークへ入力する第2のステップと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する第3のステップと、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける第4のステップと
を有することを特徴とする。
本発明のプログラム、装置及び方法によれば、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができる。
従来技術における異なるメディアデータの特徴統合プログラムの機能構成図である。 本発明における異なるメディアデータの特徴統合プログラムの機能構成図である。 本発明における時系列長調整部の説明図である。 時系列に接続されたLSTMの説明図である。 本発明の重み係数算出部の説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明における異なるメディアデータの特徴統合プログラムの機能構成図である。
図2によれば、図1と同様に、メディアデータ分類部10と、第1〜第3の特徴量抽出部111〜113と、第1及び第2の再帰型ニューラルネットワーク131及び132と、統合特徴学習部15とを有する。これに加えて、第1〜第3の時系列長調整部121〜123と、重み係数算出部14とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、統合学習方法としても理解できる。
[第1〜第3の特徴量抽出部111〜113]
第1の特徴量抽出部111は、映像データ(第1のメディアデータ)から、時系列の映像特徴量(第1の特徴量)を抽出する。映像特徴量としては、例えば68個の顔特徴点や、AU特徴、目線、表情などの特徴量がある。例えばAU特徴とは、顔の唇、目、眉の3領域の動きに対し 複数種類の動きからなるActionUnitを定義したものである。これは、FACS(Facial Action Coding System)という表情記述法で用いられる表情動作の最小単位であり、これらAUの組み合わせによって構成される。
第2の特徴量抽出部112は、音声データ(第2のメディアデータ)から、時系列の音声特徴量(第2の特徴量)を抽出する。音声特徴量としては、例えば音のピッチ特徴、スペクトログラム、メル周波数ケプストラムなどがある。
第3の特徴量抽出部113は、言語データ(第3のメディアデータ)から、時系列の言語特徴量(第3の特徴量)を抽出する。言語特徴量としては、例えばword2vecなどのツールでの単語レベル分散表現を用いて抽出されたものであって、最小単位がセンテンスとなる。
[第1〜第3の時系列長調整部121〜123]
第1の時系列長調整部121は、第1の特徴抽出部111から出力された時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワーク131へ出力する。
第2の時系列長調整部122は、第2の特徴抽出部112から出力された時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワーク132へ出力する。
第3の時系列長調整部123は、第3の特徴抽出部113から出力された時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、統合特徴学習部15へ出力する。
ここで、第1〜第3の時系列長は、第1〜第3のメディアデータそれぞれ、予め設定された最適粒度のものである。
図3は、本発明における時系列長調整部の説明図である。
第1〜第3の時系列長調整部121〜123はそれぞれ、以下のように調整する。
(1)第nの特徴量の時系列が、単位時間当たりの第nの時系列長よりも短い場合、当該第nの特徴量を連続的に複製して(コピーして)第1の時系列長に合わせる
(2)第nの特徴量の時系列が、単位時間当たりの第nの時系列長よりも長い場合、当該第nの特徴量を間引いて(削除して)第nの時系列長に合わせる。
第1〜第3の時系列長調整部121〜123は、メディアデータ毎に、特徴の時系列長を一定に調整することによって、1つの学習データセットにまとめることができるようにしたものである。
[第1、第2の再帰型ニューラルネットワーク131、132]
第1の再帰型ニューラルネットワーク131は、第1の時系列長調整部121から出力された映像特徴量(第1の特徴量)における時系列パターンを認識するニューラルネットワークである。
第2の再帰型ニューラルネットワーク132は、第2の時系列長調整部122から出力された音声特徴量(第2の特徴量)における時系列パターンを認識するニューラルネットワークである。
再帰型ニューラルネットワーク(RNN(Recurrent Neural Network))は、例えばLSTM(Long Short Term Memory)又はGRU(Gated Recurrent Unit)であってもよい。RNNの時系列段毎には、隠れ層ベクトルがメモリに一時的に保持されている。
図4は、時系列に接続されたLSTMの説明図である。
図4によれば、LSTMは、長期依存(long-term dependencies)を学習可能であって、入力ゲートと忘却ゲートを「更新ゲート」として、1つのゲートに統合したものである。GRUも同様に、忘却・更新ゲートを導入することによって、長いステップ前の計測値の特徴の記憶を維持しやすくする。これは、各時間ステップ間を迂回するショートカットパスが、効率的に生成されることに基づく。これによって、学習中に、誤差を容易に逆伝播することができる。
[重み係数算出部14]
重み係数算出部14は、第1の再帰型ニューラルネットワーク131における各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワーク132における全ての時系列段の隠れ層ベクトルに対する重み係数を算出する。
図5は、本発明の重み係数算出部の説明図である。
重み係数算出部14は、ATTENTION機構(注意機構)である(例えば非特許文献2参照)。これは、第1の特徴量毎に、当該第1の特徴量と全ての第2の特徴量それぞれとの内積を用いて、Softmax関数による相関関係を表す確率を重み係数としたものである。
m:映像データ用の第1の再帰型ニューラルネットワーク131における
各時系列段(1〜M)
vm:映像データ用の第1の再帰型ニューラルネットワーク131における
時系列段mの隠れ層ベクトル
n:音声データ用の第2の再帰型ニューラルネットワーク132における
各時系列段(1〜N)
an:音声データ用の第2の再帰型ニューラルネットワーク132における
時系列段nの隠れ層ベクトル
wmn:第1の再帰型ニューラルネットワーク131の時系列mと、
第2の再帰型ニューラルネットワーク132の時系列nとの重み係数
mn=softmax(an)
そして、第1の再帰型ニューラルネットワーク131は、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワーク132の全ての時系列段に基づく重み係数vを重み付ける。これによって、映像データの第1の特徴量をベースに、音声データの第2の特徴量との相関関係を動的に重み付けて、マルチモーダル特徴を統合することができる。
ここで、重み付けには、以下の2つの方法がある。
(重み付け1)第1の再帰型ニューラルネットワーク131は、各時系列段mについて、当該時系列段mの隠れ層ベクトルvmに、第2の再帰型ニューラルネットワーク132の全ての時系列段1〜Nの「重み係数の総和に基づく重み係数」を重み付ける。
vmの重み係数(アテンション特徴量)=Σn=1 N(aimn)
(重み付け2)第1の再帰型ニューラルネットワーク131は、各時系列段mについて、当該時系列段mの隠れ層ベクトルvmに、第2の再帰型ニューラルネットワーク132の全ての時系列段の中で「最も高い重み係数vmax」を重み付ける。
vmaxの重み係数(アテンション特徴量)=MAX(aimn) i=1〜N
[統合特徴学習部15]
統合特徴学習部15は、第1の再帰型ニューラルネットワーク131の最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワーク133の最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する。
ここで、第3の特徴量は、言語データに基づく感情言語である。この第3の特徴量に、音声データの第2の特徴量を重み付けた映像データの第1の特徴量を統合している。
これによって、人の感情を学習する場合、統合特徴学習部15に同時に入力される、第1の再帰型ニューラルネットワーク131から出力された第1の特徴量と、第3の時系列長調整部123から出力された第3の特徴量とは、人の感情に対して同一の有意な感情特徴から得られたものであると推定される。
これによって、有意な感情認識に基づく特徴量を学習した感情認識モデルを構築することができる。このような感情認識モデルを用いることによって、的確に人の感情を認識することができる。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、同一事象に対して時系列に発生した異なるメディアデータ同士が同期していなくても、総合的に認識するべく統合した学習モデルを構築することができる。
本発明は、人が感情的にコミュニケーションする場合、(1)人から得られた複数のモーダルデータ(映像、音声、言語)は、必ずしも同期していない、及び、(2)最も重要な特徴量は、映像データから得られたものである、との知見に基づくものである。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
10 メディアデータ分類部
111 第1の特徴量抽出部
112 第2の特徴量抽出部
113 第3の特徴量抽出部
121 第1の時系列長調整部
122 第2の時系列長調整部
123 第3の時系列長調整部
131 第1の再帰型ニューラルネットワーク
132 第2の再帰型ニューラルネットワーク
14 重み係数算出部
15 統合特徴学習部

Claims (13)

  1. 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築するようにコンピュータを機能させるプログラムであって、
    第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
    第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
    時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
    時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
    第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
    して機能させ、
    第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
    ようにコンピュータを機能させることを特徴とするプログラム。
  2. 第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付ける
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  4. 時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワークへ出力する第1の時系列長調整手段と、
    時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワークへ出力する第2の時系列長調整手段と
    してコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 第1の時系列長調整手段は、第1の特徴抽出手段から出力された第1の特徴量の時系列が、単位時間当たりの第1の時系列長よりも短い場合、当該第1の特徴量を連続的に複製して第1の時系列長に合わせ、単位時間当たりの第1の時系列長よりも長い場合、当該第1の特徴量を間引いて第1の時系列長に合わせ、
    第2の時系列長調整手段は、第2の特徴抽出手段から出力された第2の特徴量の時系列が、単位時間当たりの第2の時系列長よりも短い場合、当該第2の特徴量を連続的に複製して第2の時系列長に合わせ、単位時間当たりの第2の時系列長よりも長い場合、当該第2の特徴量を間引いて第2の時系列長に合わせる
    ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
  6. 前記重み係数算出手段は、第1の特徴量毎に、当該第1の特徴量と全ての第2の特徴量それぞれとの内積を用いて、Softmax関数による相関関係を表す確率を重み係数として算出するATTENTION機構である
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. 再帰型ニューラルネットワーク(RNN(Recurrent Neural Network))は、LSTM(Long Short Term Memory)又はGRU(Gated Recurrent Unit)である
    ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
  8. 第1のメディアデータは、映像であり、
    第2のメディアデータは、音声である
    ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。
  9. 第3のメディアデータは、言語であり、
    第3のメディアデータから、時系列の第3の特徴量を抽出する第3の特徴量抽出手段と、
    時系列の第3の特徴量を入力する第3の再帰型ニューラルネットワークと、
    第1の再帰型ニューラルネットワークの最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワークの最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する統合特徴学習手段と
    してコンピュータを機能させることを特徴とする請求項8に記載のプログラム。
  10. 前記統合特徴学習手段は、第3のメディアデータに基づく感情言語と、第1のメディアデータ及び第2のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
    ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。
  11. 時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、第3の再帰型ニューラルネットワークへ出力する第3の時系列長調整手段と
    してコンピュータを機能させることを特徴とする請求項9又は10に記載のプログラム。
  12. 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築する装置であって、
    第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
    第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
    時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
    時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
    第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
    を有し、
    第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
    ことを特徴とする装置。
  13. 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを入力する装置の学習モデル生成方法であって、
    前記装置は、
    第1のメディアデータから、時系列の第1の特徴量を抽出すると共に、第2のメディアデータから、時系列の第2の特徴量を抽出する第1のステップと、
    時系列の第1の特徴量を第1の再帰型ニューラルネットワークへ入力すると共に、時系列の第2の特徴量を第2の再帰型ニューラルネットワークへ入力する第2のステップと、
    第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する第3のステップと、
    第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける第4のステップと
    を有することを特徴とする学習モデル生成方法。

JP2019116972A 2019-06-25 2019-06-25 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 Active JP7170594B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019116972A JP7170594B2 (ja) 2019-06-25 2019-06-25 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019116972A JP7170594B2 (ja) 2019-06-25 2019-06-25 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2021005122A true JP2021005122A (ja) 2021-01-14
JP7170594B2 JP7170594B2 (ja) 2022-11-14

Family

ID=74099165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019116972A Active JP7170594B2 (ja) 2019-06-25 2019-06-25 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP7170594B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022135708A (ja) * 2021-03-05 2022-09-15 株式会社東芝 音声区間検出装置、学習装置及び音声区間検出プログラム
JP7557491B2 (ja) 2022-03-10 2024-09-27 Kddi株式会社 心理状態の埋め込み情報を生成するモデル、並びに該モデルを用いた評価プログラム、装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228295A (ja) * 1997-02-14 1998-08-25 Atr Chino Eizo Tsushin Kenkyusho:Kk 階層的感情認識装置
WO2018058046A1 (en) * 2016-09-26 2018-03-29 Google Llc Neural machine translation systems
JP2019079087A (ja) * 2017-10-19 2019-05-23 ヤフー株式会社 学習装置、プログラムパラメータおよび学習方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228295A (ja) * 1997-02-14 1998-08-25 Atr Chino Eizo Tsushin Kenkyusho:Kk 階層的感情認識装置
WO2018058046A1 (en) * 2016-09-26 2018-03-29 Google Llc Neural machine translation systems
JP2019079087A (ja) * 2017-10-19 2019-05-23 ヤフー株式会社 学習装置、プログラムパラメータおよび学習方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022135708A (ja) * 2021-03-05 2022-09-15 株式会社東芝 音声区間検出装置、学習装置及び音声区間検出プログラム
JP7467370B2 (ja) 2021-03-05 2024-04-15 株式会社東芝 音声区間検出装置、学習装置及び音声区間検出プログラム
JP7557491B2 (ja) 2022-03-10 2024-09-27 Kddi株式会社 心理状態の埋め込み情報を生成するモデル、並びに該モデルを用いた評価プログラム、装置及び方法

Also Published As

Publication number Publication date
JP7170594B2 (ja) 2022-11-14

Similar Documents

Publication Publication Date Title
Kumar et al. Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance.
JP6911208B2 (ja) 発話スタイル転移
Mannepalli et al. A novel adaptive fractional deep belief networks for speaker emotion recognition
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
JP6815899B2 (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
CN115329779B (zh) 一种多人对话情感识别方法
JP6787770B2 (ja) 言語記憶方法及び言語対話システム
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN113837299B (zh) 基于人工智能的网络训练方法及装置、电子设备
Cardona et al. Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs
Verkholyak et al. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
CN111862952A (zh) 一种去混响模型训练方法及装置
Peerzade et al. A review: Speech emotion recognition
JP7170594B2 (ja) 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法
Kherdekar et al. Convolution neural network model for recognition of speech for words used in mathematical expression
Gudmalwar et al. Improving the performance of the speaker emotion recognition based on low dimension prosody features vector
Shareef et al. A review: isolated Arabic words recognition using artificial intelligent techniques
Hamidi et al. Emotion recognition from Persian speech with neural network
Andayani et al. Recognition of emotion in speech-related audio files with lstm-transformer
Khan et al. Speech emotion recognition using feature fusion: a hybrid approach to deep learning
Aishwarya et al. Kannada speech recognition system for Aphasic people
Lakra et al. Application of fuzzy mathematics to speech-to-text conversion by elimination of paralinguistic content
Dudhrejia et al. Speech recognition using neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221101

R150 Certificate of patent or registration of utility model

Ref document number: 7170594

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150