JP7411149B2 - 学習装置、推定装置、学習方法、推定方法及びプログラム - Google Patents

学習装置、推定装置、学習方法、推定方法及びプログラム Download PDF

Info

Publication number
JP7411149B2
JP7411149B2 JP2022083350A JP2022083350A JP7411149B2 JP 7411149 B2 JP7411149 B2 JP 7411149B2 JP 2022083350 A JP2022083350 A JP 2022083350A JP 2022083350 A JP2022083350 A JP 2022083350A JP 7411149 B2 JP7411149 B2 JP 7411149B2
Authority
JP
Japan
Prior art keywords
modality
sub
utterance
estimation
sentiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022083350A
Other languages
English (en)
Other versions
JP2023171107A (ja
Inventor
修平 立石
悠佳 小瀬木
真 中辻
繁雄 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2022083350A priority Critical patent/JP7411149B2/ja
Publication of JP2023171107A publication Critical patent/JP2023171107A/ja
Application granted granted Critical
Publication of JP7411149B2 publication Critical patent/JP7411149B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。
機械学習の技術を用いてセンチメントを推定する技術に関心が高まっている。
Kaicheng Yang, et.al., "CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis", 2020 Association for Computing Machinery, ACM ISBN 978-1-4503-7988-5/20/10
しかしながら、これまでの技術では単一の情報を用いてセンチメントの推定を行うことが主に行われている。センチメントの推定には、センチメントに応じた内容を有する情報を解析することが大事であるが、センチメントは複雑であるため、単一の情報を用いた推定では、推定の精度が低い場合があった。
上記事情に鑑み、本発明は、センチメントの推定の精度を向上させる技術を提供することを目的としている。
本発明の一態様は、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、を備える学習装置である。
本発明の一態様は、推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得部と、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、を備える学習装置によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得部の取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定部と、を備える推定装置である。
本発明の一態様は、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、を有する学習方法である。
本発明の一態様は、推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得ステップと、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、を有する学習方法によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得ステップの取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定ステップと、を有する推定方法である。
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
本発明の一態様は、上記の推定装置としてコンピュータを機能させるためのプログラムである。
本発明により、センチメントの推定の精度を向上させることが可能となる。
実施形態における推定システムの概要を説明する説明図。 実施形態におけるモダリティ活性化処理の一例を説明する説明図。 実施形態におけるマルチモーダル統合処理の一例を説明する説明図。 実施形態におけるセンチメント推定モデルを用いた推定の実験の結果の一例を示す図。 実施形態における学習装置のハードウェア構成の一例を示す図。 実施形態における学習装置の備える制御部の構成の一例を示す図。 実施形態における学習装置が実行する処理の流れの一例を示すフローチャート。 実施形態における推定装置のハードウェア構成の一例を示す図。 実施形態における推定装置の備える制御部の構成の一例を示す図。 実施形態における推定装置が実行する処理の流れの一例を示すフローチャート。
(実施形態)
図1は、実施形態における推定システム100の概要を説明する説明図である。推定システム100は、学習装置1と推定装置2とを備える。学習装置1は、センチメント推定モデルの学習を、学習に関する所定の終了条件(以下「学習終了条件」という。)が満たされるまで行う。
センチメント推定モデルは、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティに基づいて解析対象の発話の発話中のセンチメントを推定する数理モデルである。解析対象の発話の発話中とは、解析対象の発話が発話されている最中、の意味である。センチメント推定モデルは、より具体的には、マルチモーダル統合処理を実行する数理モデルであって、マルチモーダル統合処理によって得られた情報に基づいて解析対象の発話の発話中のセンチメントを推定する数理モデルである。
マルチモーダル統合処理は、3種類以上の系列を統合する処理である。統合とは、複数の系列間の関連性を示す系列を取得する処理である。センチメント推定モデルは、例えばマルチモーダル統合処理を実行する層を中間層に含むBERT(Bidirectional Encoder Representations from Transformers)である。
このようなBERTにおいてマルチモーダル統合処理を実行する層の前段には、例えば1又は複数のエンコーダが存在する。また、このようなBERTにおいてマルチモーダル統合処理を実行する層の後段には、例えば1又は複数のエンコーダが存在する。
学習終了条件は、例えばセンチメント推定モデルの更新が所定の回数行われたという条件である。学習終了条件は、例えば更新によるセンチメント推定モデルの変化が所定の変化より小さいという条件であってもよい。
推定装置2は、学習済みのセンチメント推定モデルを用いて、推定対象の発話の発話中のセンチメントを推定する。学習済みの数理モデルとは、学習終了条件が満たされた時点の数理モデルである。
マルチモーダル統合処理は、例えば以下のモダリティ活性化処理を含み、モダリティ活性化処理の実行により複数の系列間の関連性を示す系列を取得する。
モダリティ活性化処理は、2種類の系列を統合する処理である。モダリティ活性化処理は、例えば2種類の系列を、Source-Target Attentionを用いて統合する処理である。学習が行われた場合、モダリティ活性化処理による処理の内容は更新される。
モダリティ活性化処理による統合の対象の候補は、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティを含む。モダリティ活性化処理による統合の対象の候補は、意味情報も含む。なお、モダリティ活性化処理による統合の対象とは、モダリティ活性化処理による処理対象である。処理対象は処理の対象の意味である。
図2は、実施形態におけるモダリティ活性化処理の一例を説明する説明図である。図2の例では、モダリティ活性化処理が2種類の系列をSource-Target Attentionを用いて統合する処理である、場合を例に、モダリティ活性化処理の説明を行う。図2の例では、統合の対象の系列について、言語モダリティ、音声モダリティ及び映像モダリティと、意味情報のいずれであるかを限定せずにモダリティ活性化処理の説明を行う。
図2の例では、モダリティ活性化処理の統合の対象の系列は、適用元モダリティSと、適用先モダリティTとである。したがって適用元モダリティSは、言語モダリティと、音声モダリティと、映像モダリティと、意味情報とのいずれか1種類の系列であり、適用先モダリティTは適用元モダリティSの系列とは異なる種類の系列である。また、適用元モダリティSと適用先モダリティTとは少なくとも一方が単語などの位置情報を有し、他方が位置情報を有さない。
なお、位置情報を有するとは、対象の系列に対する位置埋め込みが実行済みであることを意味する。一方、位置情報を有さないとは、対象の系列対する位置埋め込みが実行されていないことを意味する。すなわち、位置情報を有するとは位置埋め込みが実行済みであることを意味し、位置情報を有さないとは位置埋め込みが実行されていないことを意味する。位置埋め込みは、周知のように、系列においてまったく同じ特徴ベクトル成分(例えば同じ単語、あるいは同じ音声波形)であっても、その位置に応じて特徴ベクトルの成分を変化させ、系列内での位置のユニーク性を担保するために行われる。位置埋め込みは、具体的には、位置情報によって同一の特徴表現であっても一意なデータにするために、時系列における位置関係を表現できる所定の法則に基づいた値を特徴表現に加算ないし連結する処理である。所定の法則は、例えば正弦波関数である。したがってBERT手法における位置埋め込みは、例えば正弦波に基づく位置情報を単語の分散表現に加算する処理である。
モダリティ活性化処理の説明の簡単のため、適用元モダリティS及び適用元モダリティTの数学表現を示す。適用元モダリティSは、以下の式(1)で表される。
Figure 0007411149000001
適用先モダリティTは、以下の式(2)で表される系列である。
Figure 0007411149000002
nは解析対象の発話に含まれる単語の数である。ベクトルsは、系列Sの1つ1つのサンプルであり、各単語における適用元モダリティの特徴ベクトルである。ベクトルtは、系列Tの1つ1つのサンプルであり、各単語における適用先モダリティの特徴ベクトルである。
以下、ベクトルsの次元数をfと表現する。また、以下、ベクトルtの次元数をfと表現する。系列Sのサンプルはいずれも同一の次元数fである。系列Tのサンプルはいずれも同一の次元数fである。
モダリティ活性化処理では、系列Sと系列Tとを特徴ベクトルの次元で結合する処理が行われる。モダリティ活性化処理では例えばまず、以下の式(3)で表される系列が、系列Sと系列Tとに基づいて得られる。式(3)の処理は、系列Sと系列Tとを連結する処理である。連結とは数値解析の分野においてベクトルや行列等のテンソルに対して定義される連結の意味である。式(3)の処理は、図2の例では、処理B101において実行される。
Figure 0007411149000003
系列S´の次元は、n×(f+f)である。このように、モダリティ活性化処理では、言語モダリティ、音声モダリティ、映像モダリティと意味情報とのうちの1つである適用元モダリティと、言語モダリティ、音声モダリティ、映像モダリティと意味情報とのうちの他の1つである適用先モダリティとの連結が行われる。
上述したように、系列Sと系列Tとを特徴ベクトルの次元で連結する処理における処理対象の系列Sと系列Tとは一方が単語など位置情報を持つデータであり、他方が時系列のみで位置情報を持たないデータである。そのためこのような場合、系列Sと系列Tとを特徴ベクトルの次元で連結する処理は、位置情報を持たない系列に対して位置情報を埋め込む処理である。系列Sと系列Tとを特徴ベクトルの次元で連結することによって、後段のAttention処理における関連性の析出をより効果的に行うことができる。
このように、適用元モダリティと適用先モダリティとは系列であり、適用元モダリティと適用先モダリティとの一方は、系列を表現する順序集合におけるサンプルの順位を示す位置情報を有し、他方は位置情報を有さない処理がモダリティ活性化処理では実行される。
モダリティ活性化処理では次に、系列S´を全結合層(FNN;Feedforward Neural Network)により、n×f次元の系列Kに変換する処理が行われる。系列S´を系列Kに変換する際には、活性化関数TanhExpを用いた変換が行われる。なお、TanhExpは、双曲線正接関数tanhと自然対数を底に取った指数関数expとの合成関数である。活性化関数TanhExpを用いた系列S´から系列Kへの変換は、具体的には以下の式(4)で表される。式(4)の処理は、図2の例では、処理B102において実行される。
Figure 0007411149000004
は全結合層における重みを表し、Bはバイアス項を表す。WもBもどちらも学習により更新されるパラメータである。
式(3)の処理と系列S´を全結合層によりn×f次元の系列Kに変換する処理との一連の処理は、時系列ベクトル側への位置情報の埋め込みと、次元削減のための処理である。なおTanhExpは活性化関数であり、誤差逆伝播法による学習効率を向上させる効果を奏する。
モダリティ活性化処理では次に、系列Tと系列Kとの間の照応関係を示す情報を得る処理が実行される。系列Tと系列Kとの間の照応関係を示す情報Q´を得る処理の一例は、系列TをQueryとし、系列KをKey及びValueとするSource-Target Attentionである。Source-Target Attentionの実行結果の系列が、情報Q´の一例である。情報Q´は、例えば以下の式(5)で表される。式(5)の処理は、図2の例では、処理B103において実行される。
Figure 0007411149000005
写像“attn”は、Source-Target Attentionの処理を表す。写像“attn”の第1引数はQueryとして用いられる情報を表す。写像“attn”の第2引数はKeyとして用いられる情報を表す。写像“attn”の第3引数はValueとして用いられる情報を表す。上述の式(3)及び式(4)が示すように、系列Kは、系列Sと系列Tとの情報を含む。したがって、Q´は、系列Sと系列Tとの間の照応関係を示す情報である。
モダリティ活性化処理では次に、系列Q´に対して系列Tとの間の重み付き残差接続が実行される。系列Q´に対して系列Tとの間の重み付き残差接続は、より具体的には、系列Q´を表すベクトルのL2ノルムと系列Tを表すベクトルのL2ノルムとに応じた重みbが乗算された系列Q´、に対して系列Tを残差接続する処理である。重みbは、例えば以下の式(6)で表される重みである。
Figure 0007411149000006
は重みの各項における最小値でありハイパーパラメータである。以下、系列Q´に対して系列Tとの間の重み付き残差接続の実行結果の系列を系列Fという。系列Fは、例えば以下の式(7)で表される。式(7)の処理は、図2の例では、処理B104において実行される。
Figure 0007411149000007
このように、系列Fは、系列Sと系列Tとの間の照応関係を示す情報Q´を含む。したがって、系列Fは、系列Sと系列Tとの間の関連性を示す情報の一例である。
なお残差接続は、Attentionなどの所定の中間処理(以下「所定中間処理」という。)の実行の結果に対し、所定中間処理の実行の対象を加算する処理である。残差接続は、所定中間処理の影響を軽減し、複数回にわたって所定中間処理を反復することを可能とする効果を奏する。
なお、重みbは、残差接続に際して、系列Q´を表現するベクトルと系列Tを表現するベクトルとの大きさ(L2ノルム)に対応する形で双方のベクトルを加算するために存在する。仮に系列Q´と系列Tとのどちらかが過度に大きいと、残差接続において一方の影響が大きくなりすぎ、結果として学習が進まない場合がある。このようなことは、例えばQ´側が過大だった場合に生じる。また、仮に系列Q´と系列Tとのどちらかが過度に大きいと、Attention処理が無意味化する場合がある。このようなことは例えばT側が過大だった場合に生じる。重みbは、このような、学習が進まない問題やAttention処理が無意味化する問題の発生を防止する効果を奏する。
図3は、実施形態におけるマルチモーダル統合処理の一例を説明する説明図である。マルチモーダル統合処理は、モダリティ活性化処理を含む処理であって、3種類以上の系列を統合する処理である。学習が行われた場合、マルチモーダル統合処理の内容は更新される。
図3の例におけるマルチモーダル統合処理で実行される具体的な処理の内容を説明する。マルチモーダル統合処理では、第1副統合処理が実行される。第1副統合処理は、言語モダリティLと意味情報の系列Bとがモダリティ活性化処理により統合される処理である。より具体的には、第1副統合処理は、言語モダリティLに対して意味情報の系列Bが統合される処理である。以下、言語モダリティLと意味情報の系列Bとの統合の結果を系列L´という。系列L´は以下の式(8)で表される。式(8)の処理は、図3の例では、処理B201において実行される。
なお、言語モダリティは具体的には、単語埋め込みベクトルの系列である。単語埋め込みベクトルは、ベクトルで表現された識別子であり単語を識別する識別子であり単語の意味が近しいほどベクトル間の距離が近い識別子である。
Figure 0007411149000008
“meg”は、モダリティ活性化処理を意味する。したがって式(8)は系列Sと系列Lとに基づきモダリティ活性化処理により系列L´が得られることを意味する。系列L´は、系列Lに対して意味情報の系列Bが統合された系列であるので、言語モダリティの1種である。
マルチモーダル統合処理では次に、第2副統合処理が実行される。第2副統合処理は、音声モダリティと映像モダリティとが系列L´に統合される処理である。すなわち、第2副統合処理は、第1副統合処理の結果と音声モダリティと映像モダリティとの間の関連性を示す系列を取得する処理である。第2副統合処理の一例を説明する。
<第2副統合処理>
第2副統合処理では、系列L´から発話レベルの系列L´が抽出される処理が実行される。発話レベルの系列とは、BERT(Bidirectional Encoder Representations from Transformers)におけるCLSトークンに対するAttentionの出力である。
第2副処理では次に、音声モダリティ活性化処理が実行される。音声モダリティ活性化処理は、音声モダリティを表現する系列である音声モダリティの埋め込みの系列に対して系列L´を統合するモダリティ活性化処理である。音声モダリティ活性化処理は、音声モダリティの発話レベルAと音声モダリティの単語レベルAとのそれぞれに対して実行される。発話レベルAに対する音声モダリティ活性化処理(以下「発話レベル音声モダリティ活性化処理」という。)は以下の式(9)で表される。単語レベルAに対する音声モダリティ活性化処理(以下「単語レベル音声モダリティ活性化処理」という。)は以下の式(10)で表される。式(9)及び式(10)の処理は、図3の例では、処理B202において実行される。
Figure 0007411149000009
Figure 0007411149000010
なお、本稿における「レベル」とは、当該系列がいかなる解像度の情報を内包しているかを示すものである。ここにおいて、単語とは意味情報を付加できる単一の形態素を意味し、発話とは話者が発した一文からなる単語の羅列のことを表す。したがって、「単語レベル」とは形態素一つに対応する埋め込み情報を持つこと、「発話レベル」は一文全体を包括した埋め込み情報を持つこと、をそれぞれ意味している。このように発話レベルと単語レベルとは異なるものであるので、第2副処理の実行の際には、音声モダリティの埋め込み系列として音声モダリティの発話レベルAと音声モダリティの単語レベルAとの2つが第2副処理を実行する装置に入力される。
第2副処理では次に、映像モダリティ活性化処理が実行される。映像モダリティ活性化処理は、映像モダリティを表現する系列である映像モダリティの埋め込みの系列に対して系列L´を統合するモダリティ活性化処理である。映像モダリティ活性化処理は、映像モダリティの発話レベルVと映像モダリティの単語レベルVとのそれぞれに対して実行される。
発話レベルVに対する映像モダリティ活性化処理(以下「発話レベル映像モダリティ活性化処理」という。)は以下の式(11)で表される。単語レベルVに対する映像モダリティ活性化処理(以下「単語レベル映像モダリティ活性化処理」という。)は以下の式(12)で表される。式(11)及び式(12)の処理は、図3の例では、処理B203において実行される。
Figure 0007411149000011
Figure 0007411149000012
第2副処理の実行の際には、映像モダリティの埋め込み系列として映像モダリティの発話レベルVと映像モダリティの単語レベルVとの2つが第2副処理を実行する装置に入力される。
第2副処理では次に、発話レベル足し合わせ処理と、単語レベル足し合わせ処理と、が実行される。発話レベル足し合わせ処理は、発話レベル音声モダリティ活性化処理の実行により得られた系列と、発話レベル映像モダリティ活性化処理の実行により得られた系列とを足し合わせる処理である。
単語レベル足し合わせ処理は、単語レベル音声モダリティ活性化処理の実行により得られた系列と、単語レベル映像モダリティ活性化処理の実行により得られた系列とを足し合わせる処理である。発話レベル足し合わせ処理は、例えば以下の式(13)で表される処理である。単語レベル足し合わせ処理は、例えば以下の式(14)で表される処理である。式(13)及び式(14)の処理は、図3の例では、処理B204において実行される。
Figure 0007411149000013
Figure 0007411149000014
発話レベル足し合わせ処理は、モダリティの統合を行い、後段の処理に複数モダリティの情報を伝播させる効果を奏する。なお、発話レベル足し合わせ処理の実行より前に実行されるAttention等の処理では、既に十分に双方と言語モダリティとの関連性を示す情報が得られている。なお、双方とは、発話レベル音声モダリティ活性化処理の実行により得られた系列と、発話レベル映像モダリティ活性化処理の実行により得られた系列との双方を意味する。そのため、重みづけなどの付加処理を行うことは学習において不利に働く可能性がある。したがって、式(13)の例では、重みづけなどの付加処理ではなくシンプルな加算処理が実行される。
単語レベル足し合わせ処理は、モダリティの統合を行い、後段の処理に複数モダリティの情報を伝播させる効果を奏する。なお、単語レベル足し合わせ処理の実行より前に実行されるAttention等の処理では、既に十分に双方と言語モダリティとの関連性を示す情報が得られている。なお、双方とは、単語レベル音声モダリティ活性化処理の実行により得られた系列と、単語レベル映像モダリティ活性化処理の実行により得られた系列との双方を意味する。そのため、重みづけなどの付加処理を行うことは学習において不利に働く可能性がある。したがって、式(14)の例では、重みづけなどの付加処理ではなくシンプルな加算処理が実行される。
第2副処理では次に、発話レベル照応関係取得処理と、単語レベル照応関係取得処理とが実行される。発話レベル照応関係取得処理は、言語モダリティの系列と、発話レベル足し合わせ処理により得られた系列Mとの間の照応関係を示す情報を得る処理である。単語レベル照応関係取得処理は、言語モダリティの系列と、単語レベル足し合わせ処理により得られた系列Mとの間の照応関係を示す情報を得る処理である。
発話レベル照応関係取得処理の一例は、言語モダリティの系列をQueryとし、発話レベル足し合わせ処理の結果得られた系列をKey及びValueとするSource-Target Attentionである。単語レベル照応関係取得処理の一例は、言語モダリティの系列をQueryとし、単語レベル足し合わせ処理の結果得られた系列をKey及びValueとするSource-Target Attentionである。
第2副処理では次に、発話レベル残差接続処理と、単語レベル残差接続処理と、が実行される。発話レベル残差接続処理は、発話レベル照応関係取得処理により得られた系列に対して、言語モダリティの系列との間の重み付き残差接続を実行する処理である。単語レベル残差接続処理は、単語レベル照応関係取得処理により得られた系列に対して、言語モダリティの系列との間の重み付き残差接続を実行する処理である。
なお重み付き残差接続における残差接続は、上述したように、所定中間処理の影響を軽減し、複数回にわたって所定中間処理を反復することを可能とする。また、重み付き残差接続における重みは、上述したように、学習が進まない問題やAttention処理が無意味化する問題の発生を防止する効果を奏する。
発話レベル照応関係取得処理と発話レベル残差接続処理との一連の処理は例えば以下の式(15)で表される処理である。単語レベル照応関係取得処理と単語レベル残差接続処理との一連の処理は例えば以下の式(16)で表される処理である。式(15)及び式(16)の処理は、図3の例では、処理B205において実行される。
Figure 0007411149000015
Figure 0007411149000016
このようにして得られた系列Eと系列Eとが、第2副統合処理により音声モダリティと映像モダリティとが系列L´に統合された結果の一例である。
<トピック推定処理>
マルチモーダル統合処理では次に、トピック推定処理が実行される。トピック推定処理は、解析対象の発話の内容の主題(トピック)を推定する処理である。トピック推定処理は、例えば、第2副統合処理の結果を変分オートエンコーダ(Variational AutoEncoder;VAE)に入力し、変分オートエンコーダの出力を取得する処理である。すなわち、トピック推定処理は、例えば第2副統合処理の結果に対して変分オートエンコーダを実行する処理である。トピック推定処理は、図3の例では、処理B206において実行される。
変分オートエンコーダはエンコーダーによる出力を二つ有する。この二つの出力は、それぞれが潜在空間の平均値と分散値を示す。デコードの際には、この潜在空間の平均値と分散値とから任意にサンプリングされたデータと、そのデータをデコードした結果と、の間での精度の比較が行われる。さらにデコードの際には、エンコーダーが生成する平均値と分散値と入力データ自体の平均値と分散値とをKLダイバージェンスを用いて比較することが行われる。変分オートエンコーダは、このようにして、精度の高いエンコーダーと潜在空間の分布の妥当性を高める数理モデルである。こうして生成された潜在空間は、入力として与えられるデータが、その母集団の分布の中でどのようなクラスタに位置するかを表現しているとみることができる。そしてこの潜在空間の特徴により、任意の入力を使うことで変分オートエンコーダは生成モデルとしても動作する。
変分オートエンコーダによるトピックの推定の処理の一例を示す。第2副統合処理の結果であるEとEとが変分オートエンコーダに入力される。トピック推定処理は、エンコーダ部分が生成する潜在変数を、トピックの推定結果を示す情報である潜在トピックZとして取得する。潜在トピックZが、推定されたトピックである。潜在トピックZは、単語トピックZと発話トピックZとの和である。単語トピックZは系列Eに基づいて推定されたトピックである。発話トピックZは系列Eに基づいて推定されたトピックである。潜在トピックZの形状は、n×fである。fはトピックの次元数である。
トピック推定処理は、例えば、第2副統合処理の結果であるEとEとに対して同一の写像を作用させる処理(以下「共通情報取得処理」という。)であってもよい。このような場合、写像の作用の結果が潜在トピックZである。このような写像は、例えば所定のベクトルとの二項演算を表す写像であってもよい。この場合、所定のベクトルと二項演算の定義は、EとEとで同一である。二項演算は、例えばテンソル積である。写像は、例えば行列であってもよい。二項演算としてテンソル積が用いられる場合、各元はベクトル又は行列等のテンソルである。そのためテンソル積では、各元の要素同士がすべて乗算される。したがってテンソル積が用いられることで、他の二項演算が用いられた場合よりも、二項同士の関連性が高い精度で抽出される。
<共通情報取得処理の奏する効果>
ここで共通情報取得処理の奏する効果について説明する。系列は数学的にはベクトルとして表現されるので、系列をベクトルとして扱って共通情報取得処理の奏する効果の説明を行う。共通情報取得処理は、上述したように入力された各ベクトルに同一の写像を作用させる処理である。したがって、各ベクトルに共通する情報を取得する処理である。数学的には、共通情報取得処理は、各ベクトルを含む1つのベクトル空間において、各ベクトルを同一の超平面に斜影する処理である。ところで、各ベクトルはいずれも、発話中に得られた時系列から得られたものである。
そのため、各ベクトルは発話の主題を共通の情報として有する。したがって、共通情報取得処理によって得られる各ベクトルに共通する情報は主題を含む。
<第3副統合処理>
マルチモーダル統合処理では次に、第3副統合処理が実行される。第3副統合処理は、第2副統合処理の結果とトピック推定処理の結果とに基づき、第2副統合処理の結果とトピック推定処理の結果との関連性を示す系列を取得する処理である。第3副統合処理は、より具体的には、第2副統合処理の結果とトピック推定処理の結果とに基づき、Source-Target-Attentionを用いて、第2副統合処理の結果とトピック推定処理の結果との関連性を示す系列を取得する処理である。
第3副統合処理は、例えば、潜在トピックZと系列Eとの間でSource-Target-Attentionを行い、その結果E´と系列Eとの残差接続を行う処理である。残差接続の結果である系列Hが、次段の処理に入力される。なお系列Hは、系列E´と系列Eとの残差接続であるのでは、H=E+E´である。第3副統合処理は、図3の例では、処理B207において実行される。
<マルチモーダル統合処理の技術的意義について>
このようにしてマルチモーダル統合処理では、音声モダリティと、映像モダリティと、言語モダリティと、トピックを示す情報とを含む情報が生成される。以下、音声モダリティと、映像モダリティと、トピックを示す情報とを、音声モダリティや映像モダリティ等、という。
センチメント推定モデルは、上述したように例えばBERTを用いる数理モデルである。ところでBERTは自然言語を処理する数理モデルである。そのため、BERTは、音声モダリティや映像モダリティ等を単体で取り扱うことはできない。したがって、BERTを用いたセンチメントの推定においては処理対象が言語モダリティを含むことが必要である。
一方で、音声モダリティや映像モダリティ等の情報を含まないでセンチメントの推定を行う場合、音声モダリティや映像モダリティ等も用いたセンチメントの推定と比べて情報量が少ないので、音声モダリティや映像モダリティの情報等を含めたセンチメントの推定に比べて推定の精度が悪い。マルチモーダル統合処理は、この点を改善する技術であり、音声モダリティや映像モダリティ等を言語モダリティに統合する。その結果、マルチモーダル統合処理により得られた情報は、BERTによる処理が可能でありながら音声モダリティと映像モダリティとの情報をも含む。したがって、BERTによるセンチメントの推定の精度を高めることができる。
なお、センチメント推定モデルは必ずしもBERTを用いる必要は無い。BERTを用いないセンチメントの推定の処理であっても、マルチモーダル統合処理で得られた情報を用いれば、マルチモーダル統合処理で得られた情報を用いない場合よりもセンチメントの推定の精度が高い。なぜなら、BERTを用いないセンチメントの推定の処理が、音声モダリティや映像モダリティ等を用いて、センチメントの推定を行えるからである。例えばBERTに限らず自然言語処理を行うことでセンチメントの推定を行う技術において、マルチモーダル統合処理で得られた情報を用いれば、センチメントの推定の精度が向上する。
<BERTの出力の詳細の一例>
マルチモーダル統合処理を含むBERTを用いたセンチメント推定モデルにおいては、マルチモーダル統合処理の結果、モダリティが統合された出力系列HとCLSトークンに対するAttention出力のベクトルpとがBERTから出力される。系列Hはn×fの形状の系列である。fは、特徴ベクトルの次元数である。fは、ハイパーパラメータである。したがって、pは、f次元のベクトルである。マルチモーダル統合処理を含むBERTを用いたセンチメント推定モデルでは、次にpを全結合層に通すことでスコアリングのための最終的な出力oが得られる。出力oの次元は、センチメントの推定の内容に応じて予め定められた形式であって、センチメントを表現する形式に依存する。
センチメントの推定が例えばセンチメントの回帰予測の場合、出力oは次元数1のベクトルである。すなわちこのような場合、出力oは、スカラ値である。センチメントの推定が例えば感情予測などのマルチクラス回帰処理や、センチメントの二値予測(ポジティブ,ネガティブ予測)の場合、出力oは対応した次元数のベクトルである。すなわちnクラスの感情を予測する場合、出力oはn次元のベクトルであり、二値センチメント予測の場合、出力oは2次元のベクトルである。
センチメント推定モデルの学習では、センチメント推定モデルの推定したセンチメントと、正解データとして与えられたセンチメントとの違いを小さくするように、センチメント推定モデルが更新される。以下、センチメント推定モデルの推定したセンチメントと、正解データとして与えられたセンチメントとの違いを小さくするようにセンチメント推定モデルを更新する処理を更新処理という。センチメント推定モデルはマルチモーダル統合処理を実行する数理モデルであるので、センチメント推定モデルの更新には、マルチモーダル統合処理の内容の更新も含まれる。したがって、センチメント推定モデルの学習における損失関数は、センチメント推定モデルの推定したセンチメントと、正解データとして与えられたセンチメントとの違いを示す。そして、センチメント推定モデルの学習では、損失関数を小さくするように学習が行われる。
なお、損失関数は、センチメント推定モデルが回帰予測を行う数理モデルである場合には、出力ベクトルoに対するLog-Cosh損失関数である。出力ベクトルoに対するLog-Cosh損失関数とは、出力ベクトルoに対してcosh関数とlog関数の合成関数を適用することを意味する。センチメント推定モデルが二値分類タスクである場合には、出力ベクトルoに対する二値クロスエントロピー損失関数である。出力ベクトルoに対する二値クロスエントロピー損失関数とは、出力ベクトルoに対して二値クロスエントロピーを適用することを意味する。
<実験結果>
図4は、実施形態におけるセンチメント推定モデルを用いた推定の実験の結果の一例を示す図である。より具体的には、図4は、学習済みの検証対象モデルによる推定の実験結果の一例を示す図である。検証対象モデルは、モダリティ活性化処理を含むマルチモーダル統合処理を実行するBERTを用いたセンチメント推定モデルを意味する。
実験では、マルチモーダルなセンチメントの推定の学習の為のデータセットであるCMU-MOSIデータセットが用いられた。CMU-MOSIデータセットとは,カーネギーメロン大学が発表しているマルチモーダル機械学習タスクのためのデータセットである。主に映画やドラマに対する感想を述べている動画群から構成されており、その感想がポジティブであるか、ネガティブであるかが-3から3までのレンジでラベリングされている。本データセットには2000を超える発話が含まれている。実験では、学習用と検証用とにデータが分割されて用いられた。
実験では入力データとして、言語モダリティ、音声モダリティ、映像モダリティ及び意味情報が用いられた。言語モダリティについては、文章の文字列がそのまま用いられた。事前処理においては、単語単位のトークン化処理が実行された。
音声モダリティと映像モダリティとについては、単語レベルに分割した系列と、発話全体にまたがる系列とが用いられた。なお、発話全体にまたがるとは、単語のタイムスタンプによるデータ分割を行わず、時系列情報のみに対応したデータストリームとしての系列を意味する。すなわち、発話全体にまたがる系列とは、発話の開始から終わりまでの発話全体を表す1つの系列であって単語のタイムスタンプによるデータの区分けの情報を含まない系列である。
音声モダリティ特徴化が行われ、その結果得られるベクトルのリストが入力として用いられた。実験では、具体的には以下の参考文献1に記載のCOVAREPライブラリが用いられた。なお音声モダリティ特徴化で得られたリストとは、具体的には音声モダリティを表す系列である。
参考文献1:G. Degottex, J. Kane, T. Drugman,T. Raitio, and S. Scherer,: COVAREP ― A collaborative voice analysis repository for speech technologies, in Proc. ICASSP’14, pp. 960 - 964 (2014)
映像モダリティが特徴化され、その結果得られるベクトルのリストが入力として用いられた。実験では、具体的には以下の参考文献2に記載のEmotient Facetライブラリが用いられた。映像モダリティの特徴化とは、映像中の人間の顔の部分の抽出と、その顔から得られる表情などのデータをAction Unitと呼称される機械的に判別可能な特徴群へと符号化することを意味する(当該処理はFace Action Coding Systemと呼称される)(参考文献3参照)。本処理は事前処理として実行される。
参考文献2:Y.-H. H. Tsai, S. Bai, P. P. Liang, J. Z. Kolter, L.-P. Morency, and R. Salakhutdinov,: Multimodal Transformer for Unaligned Multimodal Language Sequences, in Proc. ACL’19, pp. 6558 - 6569 (2019)
参考文献3:”Facial Action Coding System”、[online]、[令和4年5月16日検索]、インターネット〈URL:https://en.wikipedia.org/wiki/Facial_Action_Coding_System >
意味情報としては、言語モダリティに対してあらかじめLMMS(linear mixed models)手法により抽出した意味情報ベクトルが実験において用いられた。
実験では、Mult(Multi Modal Transformer)、CM-BERT(Cross-Modal BERT)、MAG-BERT(Multimodal Adaptation Gate for BERT)及びMAG-XLNet(Multimodal Adaptation Gate for XL-NET)が比較対象の数理モデルとして用いられた。以下、実験において用いられた比較対象の数理モデルを比較対象モデルという。
実験では、アブレーション研究が行われた。アブレーション研究とは、第1セット条件を満たすサブセットと、第2セット条件を満たすサブセットと、第3セット条件を満たすサブセットとを用意し、サブセットごとに学習を行い、その結果を調べる研究である。第1セット条件は、意味情報との間のモダリティ活性化処理は行われないという条件である。第2セット条件は、トピックを示す情報との間のモダリティ活性化処理は行われないという条件である。第3セット条件は、意味情報との間のモダリティ活性化も、トピックを示す情報との間のモダリティ活性化も、行われない、という条件である。
実験では学習が100回試行され、その結果として収束に失敗したデータが取り除かれた平均で比較が行われた。なお収束の失敗とは、100回の各試行の中で、全ての指標が平均に劣っていることと、どれか1つの指標が平均より-3σ劣っていること、のいずれか一方又は両方を満たすことを意味する。なお、全ての指標が平均に劣っているとは、MAE(Mean Absolute Error)のみ上回っており、それ以外は下回っていることを意味する。
実験におけるハイパーパラメータの設定について説明する。実験におけるBERTの事前学習モデルはBERT-Base-Uncased又はBERT-Large-Uncasedが用いられた。そのため、実験におけるAttention層の数は12又は24であり、実験における言語モダリティの特徴ベクトルの次元数は768又は1024であった。
一般に、BERTに限らず,TransformerモデルはAttention層の下層部分で単語同士の関連性をより強く学習する。そこで実験において、マルチモーダル統合処理は、Self-Attention層の第二層の直後に行われた。
多数のモダリティを一度に統合するためには、言語モダリティ自体の勾配を消失させないよう計算を行うことが必要である。そこで、言語モダリティ自体の勾配を消失させない値として、モダリティ活性化処理の残差接続における重みづけ係数の閾値tbは、実験において、0.5であった。
また、実験においてバッチサイズは48であった。実験において最適化関数はRAdamが用いられ、学習率は4e-5であった。実験において学習エポック数は50であった。実験では、50のエポックのうち、最も検証ロスが少なかったエポックの重み情報が、学習済みのセンチメント推定モデルによる推定の精度の検証の際には用いられた。実験における乱数発生シードは整数の固定値であった。実験における乱数発生シードは、具体的には、42であった。
なお、図4に記載の”F1h”の定義はセンチメントの正負に対する推測値のF尺度である。図4に記載の”Acch 2”の定義はセンチメントの正負に対する推測値の正確度である。図4に記載の”Acch 7”の定義はセンチメントのスコア(-3から3の7値)に対する推測値の正確度である。図4に記載の”MAE1”の定義はセンチメントのスコアと推測値との間の差の絶対値の平均である。図4に記載の”Corrh”の定義はセンチメントのスコアと推測値の系列全体における相関係数である。図4に記載の”STMT-base”の定義は本手法STMTをBERT-baseモデルの上で実行したときのスコアを示すものである。図4に記載の“STMT-large”の定義は本手法STMTをBERT-largeモデルの上で実行したときのスコアを示すものである。
図4は、学習済みの検証対象モデルは、比較対象モデルのいずれよりも全ての指標で、上回っていることを示す。図4は、学習済みの検証対象モデルが、比較対象モデルに比べ、7クラスAccuracyに関して10%以上高い精度を有することを示す。図4は、学習済みの検証対象モデルが、比較対象モデルに比べ、MAEに関して略7%高い精度を有することを示す。図4は、学習済みの検証対象モデルが、MAG-XLNetと比較して、全ての指標で2~5%高い精度を有することを示す。
また、図4は、学習済みの検証対象モデルが、MuLTよりも高い精度を有することを示す。これは、学習済みの検証対象モデルはMuLTと異なり、適用元モダリティと適用先モダリティを連結した上で、適用先モダリティへのSource-Target Attentionを行なっているからである。MuLTは単にSource-Target Attentionを実行するだけである。したがって、MuLTに比べて学習済みの検証対象モデルの推定の精度が高いということは、マルチモーダル統合処理が、単にSource-Target Attentionを実行するよりもスムーズな形で非言語モダリティと言語モダリティとの連携を行う処理である、ことを意味する。なおここにおいてスムーズであるとは、より双方の関連性を析出しやすい形である、という意味である。
<推定システム100におけるセンチメント推定モデルの奏する効果について>
ここまで実験結果の解釈を行った。そこで、推定システム100におけるセンチメント推定モデルの奏する効果の1つについて念のため、説明する。機械学習の分野においては、異なるモダリティ同士の連結処理はこれまでマルチモーダル処理の最終層(Late Fusion)、あるいは第一層(Early Fusion)などで行われており、純粋に全結合層の直前などに置くことで複数モダリティ同士の影響度のみを学習させる目的で用いられていた。推定システム100におけるセンチメント推定モデルでは、位置情報を有するモダリティと有さないモダリティとの連結処理を、AttentionのTargetの入力側の系列の生成に用いることで、Source側が持つ位置情報がAttentnion機構に取り込まれる。その結果、Attention処理の精度が大幅に向上し、推定システム100におけるセンチメント推定モデルによるセンチメントの推定の精度の向上が生じる。
図4は、アブレーション研究の結果も示す。図4においてアブレーション研究の結果は”アブレーション研究(100回平均)”との記載よりも下に記載の結果である。より具体的には、アブレーション研究の結果は図4における領域D101に記載の結果である。図4において“base w/o sema”の定義は意味情報を付加しなかった場合の結果である。図4において“base w/o topic”の定義はトピック情報を付加しなかった場合の結果である。図4において“base w/o both”の定義は意味情報、トピック情報の双方を付加しなかった場合の結果である。
図4は、アブレーション研究においても、全ての指標において検証対象モデルの精度は、MulTと、それよりも精度のより高いMAG-BERTよりもさらに向上したことを示す。図4は、7クラスAccuracyに関して、検証対象モデルの精度の向上を示す。このことは、個別モダリティに対するモダリティ活性化処理がSTMTの中で最も精度向上に寄与していることと、セマンティクスや潜在トピックに対するモダリティ活性化処理も個別モダリティへのモダリティ活性化処理に比べて小さいが精度向上に貢献していることと、を示す。なお、個別モダリティの定義は単語、音声、映像などの各種独立したモダリティ情報のことである。
図5は、実施形態における学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
制御部11は、学習装置1が備える各種機能部の動作を制御する。制御部11は、例えばセンチメント推定モデルの学習を行う。制御部11は、例えば出力部15の動作を制御する。制御部11は、例えばセンチメント推定モデルの学習により生じた各種情報を記憶部14に記録する。
入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、学習装置1に対する各種情報の入力を受け付ける。
入力部12には、例えば、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと意味情報とが入力される。以下、解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと意味情報と、の組を解析対象データという。入力部12には、例えば学習に用いられる正解データが入力される。正解データは具体的には、センチメントを示す情報である。
通信部13は、学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば解析対象データの送信元の装置である。通信部13は、解析対象データの送信元の装置との通信によって解析対象データを取得する。外部装置は、例えば正解データ(すなわちセンチメントを示す情報)の送信元の装置である。通信部13は、正解データの送信元の装置との通信によって正解データを取得する。外部装置は、例えば後述する推定装置2である。
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えばセンチメント推定モデルの学習により生じた各種情報を記憶する。記憶部14は、予めセンチメント推定モデルを記憶する。なお数理モデルを記憶するとは数理モデルを記述するコンピュータプログラムを記憶することを意味する。記憶部14は、得られた学習済みのセンチメント推定モデルを記憶してもよい。
出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えばセンチメント推定モデルの実行の結果を表示してもよい。
図6は、実施形態における学習装置1の備える制御部11の構成の一例を示す図である。制御部11は、データ取得部110、学習部120、記憶制御部130、通信制御部140及び出力制御部150を備える。
データ取得部110は、訓練データを取得する。すなわちデータ取得部110は、解析対象データと正解データとを取得する。
学習部120は、処理実行部121と更新部122とを備える。処理実行部121は、データ取得部110の得た解析対象データに対して、センチメント推定モデルを実行する。更新部122は、処理実行部121によるセンチメント推定モデルの実行の結果と正解データとに基づいて、センチメント推定モデルを更新する。更新部122は、学習終了条件が満たされたか否かの判定も行う。
このように学習部120は、データ取得部110の得た解析対象データと正解データとを用いて、学習終了条件が満たされるまでセンチメント推定モデルを更新する。すなわち、学習部120は、解析対象データと正解データとを用いて学習済みのセンチメント推定モデルを得る。学習済みのセンチメント推定モデルは、学習終了条件が満たされた時点のセンチメント推定モデルである。
記憶制御部130は、記憶部14に各種情報を記録する。通信制御部140は通信部13の動作を制御する。出力制御部150は、出力部15の動作を制御する。
図7は、実施形態における学習装置1が実行する処理の流れの一例を示すフローチャートである。データ取得部110が解析対象データと正解データとを取得する(ステップS101)。次に、処理実行部121が、ステップS101で得られた解析対象データに対してセンチメント推定モデルを実行する(ステップS102)。センチメント推定モデルの実行により、解析対象の発話の発話中のセンチメントが推定される。
ステップS102の次に、更新部122がセンチメント推定モデルの実行の結果に基づき、センチメント推定モデルを更新する(ステップS103)。次に、更新部122が、学習終了条件が満たされたか否かを判定する(ステップS104)。学習終了条件が満たされた場合(ステップS104:YES)、処理が終了する。一方、学習終了条件が満たされない場合(ステップS104:NO)、ステップS101の処理に戻る。
学習終了条件が満たされた時点のセンチメント推定モデルが学習済みのセンチメント推定モデルであり、得られた学習済みのセンチメント推定モデルは、以下の図8に示す推定装置2によって推定対象のセンチメントの推定に用いられる。学習済みのセンチメント推定モデルは推定装置2が実行可能な状態になれば、どのような方法で推定装置2の制御化に置かれてもよい。学習済みのセンチメント推定モデルは、例えば学習終了条件が満たされた後に通信によって学習装置1から推定装置2に送信されることで、推定装置2による実行が可能になる。
図8は、実施形態における推定装置2のハードウェア構成の一例を示す図である。推定装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。推定装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、推定装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
制御部21は、推定装置2が備える各種機能部の動作を制御する。制御部21は、例えば学習済みの感情推定モデルを実行する。制御部21は、例えば出力部25の動作を制御する。制御部21は、例えば学習済みのセンチメント推定モデルの実行により生じた各種情報を記憶部24に記録する。
入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を推定装置2に接続するインタフェースとして構成されてもよい。入力部22は、推定装置2に対する各種情報の入力を受け付ける。
通信部23は、推定装置2を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば、推定対象データの送信元の装置である。推定対象データは、推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、の組である。通信部23は、推定対象データの送信元の装置との通信によって、推定対象データを取得する。外部装置は、例えば学習装置1である。通信部23は、学習装置1との通信により、学習済みのセンチメント推定モデルを取得する。なお、推定対象データは、必ずしも通信部23に入力される必要は無く、入力部22に入力されてもよい。
記憶部24は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は推定装置2に関する各種情報を記憶する。記憶部24は、例えば入力部22又は通信部23を介して入力された情報を記憶する。記憶部24は、例えば学習済みのセンチメント推定モデルの実行により生じた各種情報を記憶する。記憶部24は、学習済みのセンチメント推定モデルを記憶する。
出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を推定装置2に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。出力部25は、例えば学習済みのセンチメント推定モデルの実行結果を表示してもよい。
図9は、実施形態における推定装置2の備える制御部21の構成の一例を示す図である。制御部21は、対象取得部210、推定部220、記憶制御部230、通信制御部240及び出力制御部250を備える。対象取得部210は、入力部22又は通信部23に入力された推定対象データを取得する。
推定部220は、対象取得部210の取得した推定対象データに対して学習済みのセンチメント推定モデルを実行する。推定部220は、学習済みのセンチメント推定モデルの実行により、推定対象の発話の発話中のセンチメントが推定される。
記憶制御部230は、記憶部24に各種情報を記録する。通信制御部240は通信部23の動作を制御する。出力制御部250は、出力部25の動作を制御する。
図10は、実施形態における推定装置2が実行する処理の流れの一例を示すフローチャートである。対象取得部210が、入力部22又は通信部23に入力された推定対象データを取得する(ステップS201)。次に推定部220が、学習済みのセンチメント推定モデルを実行することで、推定対象の発話の発話中のセンチメントを推定する(ステップS202)。次に出力制御部250が出力部25の動作を制御して、ステップS202で推定されたセンチメントを出力部25に出力させる(ステップS203)。
このように構成された実施形態における学習装置1は、マルチモーダル統合処理を実行する。そのため、学習装置1は、センチメントの推定の精度を向上させることができる。
また、このように構成された実施形態における推定装置2は、学習装置1が得た学習済みのセンチメント推定モデルを用いて、推定対象の発話の発話中のセンチメントを推定する。したがって推定装置2は、センチメントの推定の精度を向上させることができる。
(変形例)
なお、学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、推定装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、推定装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、学習装置1と、推定装置2と、の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
(付記1)
解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、
前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、
を備える学習装置。
(付記2)
前記第1副統合処理、前記第2副統合処理又は前記第3副統合処理は、Source-Target Attentionを用いて処理対象の間の関連性を示す系列を取得する、
付記1に記載の学習装置。
(付記3)
前記トピック推定処理は、変分オートエンコーダである、
付記1又は2に記載の学習装置。
(付記4)
前記処理実行部は、前記マルチモーダル統合処理を実行する層を中間層に含むBERT(Bidirectional Encoder Representations from Transformers)を実行する、
付記1から3のいずれか一つに記載の学習装置。
(付記5)
前記マルチモーダル統合処理では、前記言語モダリティ、前記音声モダリティ、前記映像モダリティと前記意味情報とのうちの1つである適用元モダリティと、前記言語モダリティ、前記音声モダリティ、前記映像モダリティと前記意味情報とのうちの他の1つである適用先モダリティとの連結が行われ、
適用元モダリティと適用先モダリティとは系列であり、適用元モダリティと適用先モダリティとの一方は位置埋め込みが実行済みであり、他方は位置埋め込みが実行されていない、
付記1から付記4のいずれか一つに記載の学習装置。
(付記6)
推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得部と、
解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、を備える学習装置によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得部の取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定部と、
を備える推定装置。
(付記7)
解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、
前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、
を有する学習方法。
(付記8)
推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得ステップと、
解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との関連性を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の関連性を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との関連性を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、を有する学習方法によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得ステップの取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定ステップと、
を有する推定方法。
(付記9)
請求項1から5のいずれか一つに記載の学習装置としてコンピュータを機能させるためのプログラム。
(付記10)
付記6に記載の推定装置としてコンピュータを機能させるためのプログラム。
100…推定システム、1…学習装置、 2…推定装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 110…データ取得部、 120…学習部、 121…処理実行部、 122…更新部、 130…記憶制御部、 140…通信制御部、 150…出力制御部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 210…対象取得部、 220…推定部、 230…記憶制御部、 240…通信制御部、 250…出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ

Claims (10)

  1. 解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との間の照応関係を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の照応関係を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との間の照応関係を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、
    前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、
    を備える学習装置。
  2. 前記第1副統合処理、前記第2副統合処理又は前記第3副統合処理は、Source-Target Attentionを用いて処理対象の間の照応関係を示す系列を取得する、
    請求項1に記載の学習装置。
  3. 前記トピック推定処理は、変分オートエンコーダである、
    請求項1に記載の学習装置。
  4. 前記処理実行部は、前記マルチモーダル統合処理を実行する層を中間層に含むBERT(Bidirectional Encoder Representations from Transformers)を実行する、
    請求項1に記載の学習装置。
  5. 前記マルチモーダル統合処理では、前記言語モダリティ、前記音声モダリティ、前記映像モダリティと前記意味情報とのうちの1つである適用元モダリティと、前記言語モダリティ、前記音声モダリティ、前記映像モダリティと前記意味情報とのうちの他の1つである適用先モダリティとの連結が行われ、
    適用元モダリティと適用先モダリティとは系列であり、適用元モダリティと適用先モダリティとの一方は位置埋め込みが実行済みであり、他方は位置埋め込みが実行されていない、
    請求項1から4のいずれか一項に記載の学習装置。
  6. 推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得部と、
    解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との照応関係を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の照応関係を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との照応関係を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行部と、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新部と、を備える学習装置によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得部の取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定部と、
    を備える推定装置。
  7. 解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との照応関係を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の照応関係を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との照応関係を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、
    前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、
    を有する学習方法。
  8. 推定対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティと、意味情報と、を取得する対象取得ステップと、
    解析対象の発話の発話中に得られた言語モダリティ、音声モダリティ及び映像モダリティのうちの前記言語モダリティと意味情報との照応関係を示す系列を取得する第1副統合処理と、前記第1副統合処理の結果と前記音声モダリティと前記映像モダリティとの間の照応関係を示す系列を取得する第2副統合処理と、前記第2副統合処理の結果に基づき前記発話の内容のトピックを推定するトピック推定処理と、前記第2副統合処理の結果と前記トピック推定処理の結果との照応関係を示す系列を取得する第3副統合処理と、を含むマルチモーダル統合処理、を実行する数理モデルであって、前記マルチモーダル統合処理によって得られた情報に基づいて前記解析対象の発話の発話中のセンチメントを推定する数理モデルであるセンチメント推定モデルを実行する処理実行ステップと、前記センチメント推定モデルの実行の結果に基づき前記センチメント推定モデルの内容を更新する更新ステップと、を有する学習方法によって所定の終了条件が満たされるまで更新された前記センチメント推定モデルを前記対象取得ステップの取得した前記言語モダリティ、前記音声モダリティ、前記映像モダリティ及び前記意味情報に対して実行する推定ステップと、
    を有する推定方法。
  9. 請求項1に記載の学習装置としてコンピュータを機能させるためのプログラム。
  10. 請求項6に記載の推定装置としてコンピュータを機能させるためのプログラム。
JP2022083350A 2022-05-20 2022-05-20 学習装置、推定装置、学習方法、推定方法及びプログラム Active JP7411149B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022083350A JP7411149B2 (ja) 2022-05-20 2022-05-20 学習装置、推定装置、学習方法、推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022083350A JP7411149B2 (ja) 2022-05-20 2022-05-20 学習装置、推定装置、学習方法、推定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2023171107A JP2023171107A (ja) 2023-12-01
JP7411149B2 true JP7411149B2 (ja) 2024-01-11

Family

ID=88927863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022083350A Active JP7411149B2 (ja) 2022-05-20 2022-05-20 学習装置、推定装置、学習方法、推定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7411149B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124642A (ja) 2020-02-06 2021-08-30 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
US20220108688A1 (en) 2020-10-02 2022-04-07 Salesforce.Com, Inc. Systems and methods for a multilingual speech recognition framework

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124642A (ja) 2020-02-06 2021-08-30 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
US20220108688A1 (en) 2020-10-02 2022-04-07 Salesforce.Com, Inc. Systems and methods for a multilingual speech recognition framework

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sanghyun Lee et al.,Multimodal Emotion Recognition Fusion Analysis Adapting BERT With Heterogeneous Feature Unification,IEEEAccess,2021年06月28日,[検索日2023.03.16],インターネット<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9466122>
Wei Han et al.,Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis,arXiv,2021年08月28日,[検索日2023.03.16],インターネット<URL:https://arxiv.org/pdf/2107.13669.pdf>

Also Published As

Publication number Publication date
JP2023171107A (ja) 2023-12-01

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
CN111095259B (zh) 使用n-gram机器的自然语言处理
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
Kheddar et al. Deep transfer learning for automatic speech recognition: Towards better generalization
US11715008B2 (en) Neural network training utilizing loss functions reflecting neighbor token dependencies
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
JP2018190136A (ja) 興味判定装置、興味判定方法、及びプログラム
Noaman et al. Enhancing recurrent neural network-based language models by word tokenization
Poncelet et al. Low resource end-to-end spoken language understanding with capsule networks
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
JP7411149B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
JP2019204415A (ja) 言い回し文生成方法、言い回し文装置及びプログラム
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN114090725A (zh) 情感预测模型的训练方法及装置
Bai et al. A public Chinese dataset for language model adaptation
JP7419615B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20230927

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230929

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231102

R150 Certificate of patent or registration of utility model

Ref document number: 7411149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150