JP7320248B2

JP7320248B2 - 興味推定方法、興味推定装置および興味推定プログラム

Info

Publication number: JP7320248B2
Application number: JP2019126817A
Authority: JP
Inventors: 通将稲葉
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date: 2018-09-19
Filing date: 2019-07-08
Publication date: 2023-08-03
Anticipated expiration: 2039-07-08
Also published as: JP2020053015A

Description

特許法第３０条第２項適用平成３０年７月９日公開１９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐｏｎＤｉｓｃｏｕｒｓｅａｎｄＤｉａｌｏｇｕｅ公式サイト（ｈｔｔｐｓ：／／ｗｗｗ．ｓｉｇｄｉａｌ．ｏｒｇ／ｆｉｌｅｓ／ｗｏｒｋｓｈｏｐｓ／ｃｏｎｆｅｒｅｎｃｅ１９／ｉｎｄｅｘ．ｈｔｍｌ）平成３０年７月１２日開催ＫＴＨＲｏｙａｌＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ主催「１９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐｏｎＤｉｓｃｏｕｒｓｅａｎｄＤｉａｌｏｇｕｅＭｅｌｂｏｕｒｎｅ」平成３０年１１月２１日開催一般社団法人人工知能学会主催人工知能学会言語・音声理解と対話処理研究会第８４回研究会「第９回対話システムシンポジウム」平成３１年３月１日発行一般社団法人人工知能学会刊行「人工知能学会論文誌２０１９年３４巻２号」

本発明は、興味推定方法、興味推定装置および興味推定プログラムに関し、より詳細には、雑談対話時のユーザの発話からユーザの興味のあるトピックを高精度に推定する方法、装置およびそれを実現するためのコンピュータプログラムに関する。

人と人とのコミュニケーションにおいて雑談は重要であり、人の会話の約６２％は雑談であるとの報告がある。また、人とコンピュータとの対話においても雑談は重要であり、ユーザの満足度向上の観点から、システムがユーザの経験や好みに応じてユーザと対話を行う雑談対話システムが求められている。

非特許文献１には、Twitter（登録商標）へ投稿されたテキストデータからユーザの興味を推定する方法が記載されている。すなわち、非特許文献１には、人名、イベント名、音楽グループ名といった固有表現の出現頻度により、Twitter（登録商標）ユーザの興味推定を行った例が記載されている。

Fabian Abel, Qi Gao, Geert-Jan Houben, and Ke Tao. 2011. Analyzing user modeling on twitter for personalized news recommendations. User Modeling, Adaption and Personalization pages 1-12.

しかしながら、Twitter（登録商標）ではユーザの興味のあることが投稿されるのに対して、雑談では相手に話を合わせて対話するため、ユーザは必ずしも興味のあることについてのみ発話するとは限らない。したがって、非特許文献１に示された興味推定の方法を雑談対話に適用することは必ずしも適切ではない。

本発明は、上記問題に鑑み、雑談対話中のユーザの発話からユーザが興味を持っているトピックを高精度に推定することができる興味推定方法、興味推定装置およびそれを実現するためのコンピュータプログラムを提供することを目的とする。

上記課題を解決し、本発明の目的を達成するため、本発明の興味推定方法は、以下、（ａ）～（ｅ）のステップを含む。
（ａ）入力された文がどのようなトピックに属するかを、単語系列エンコーダ及びトピック別分類部により事前に推定するための事前学習を行うステップ、
（ｂ）話者の発話に含まれる単語の系列から得られた単語ベクトル系列から、単語系列エンコーダにより隠れ状態ベクトル系列を作成するステップ隠れ状態ベクトル系列を作成するステップ、
（ｃ）単語系列エンコーダにより作成された隠れ状態ベクトル系列から、単語アテンション部により発話ベクトルを作成するステップ、
（ｄ）単語アテンション部により作成された発話ベクトルから、トピック別発話アテンション部により、興味トピックに関するコンテントベクトルを作成するステップ、
（ｅ）トピック別発話アテンション部により作成されたコンテントベクトルから、興味推定部により興味トピックに対する発話者の興味度を求めるステップ。

また、本発明の興味推定装置は、入力された文がどのようなトピックに属するかを事前に推定するための事前学習を行うトピック別分類部と、入力された文がどのようなトピックに属するかを事前に推定するための事前学習を行うとともに、話者の発話に含まれる単語の系列から得られた単語ベクトル系列から隠れ状態ベクトル系列を作成する単語系列エンコーダと、単語系列エンコーダにより作成された隠れ状態ベクトル系列から発話ベクトルを作成する単語アテンション部と、単語アテンション部により作成された発話ベクトルから興味トピックに関するコンテントベクトルを作成するトピック別発話アテンション部と、トピック別発話アテンション部により作成されたコンテントベクトルから興味トピックに対する発話者の興味度を求める興味推定部と、を備える。

本発明の興味推定プログラムは、興味推定方法のステップ（ａ）～（ｅ）に示される手順をコンピュータに実行させるプログラムである。

本発明によれば、ユーザの発話からユーザの興味を高精度に推定することが可能になる。

本発明の実施の形態例に係る興味推定方法の、ユーザ発話の処理の段階的な工程を示す図である。本発明の実施の形態例に係る興味推定方法において、事前学習の工程を説明するための図である。本発明の実施の形態例に係る興味推定方法において、実験で使用する２４種類のトピックを示す図である。本発明の実施の形態例に係る興味推定方法において、興味度を推定するときの実験で使用した実際の対話例を示す図である。本発明の実施の形態例に係る興味推定方法において、実験で使用した統計情報のテーブルである。本発明の実施の形態例に係る興味推定方法において、トピックの数１～２４に対応するＮＤＣＧの値を、本発明の提案手法と他の手法とで比較して示した図である。本発明の実施の形態例に係る興味推定方法の提案手法と他の手法とで、興味度と正解との間の平均二乗誤差を比較して示した図である。本発明の実施の形態例に係る興味推定方法において、提案手法のトピック別発話アテンションを可視化した図である。本発明の実施の形態例に係る興味推定方法の提案手法とは異なる、事前学習なしのトピック別発話アテンションを可視化した図である。本発明の実施の形態例に係る興味推定方法において、トピックの数１～２４に対応する、被験者数全体と被験者数を制限した場合および発話数を制限した場合のＮＤＣＧの値を比較して示した図である。本発明の実施の形態例に係る興味推定方法において、学習データ量を１００％から順に制限した場合の提案手法の性能評価（平均二乗誤差：ＭＳＥ）結果を示す図である。

以下、図面を参照して、本発明の実施の形態例（以下、「本例」ということもある）を説明する。
本発明の実施の形態例では、まず、話者Ｓが他の話者（雑談対話システムを含む）との対話中に行ったときの、話者Ｓの発話集合Ｕｓ＝（ｕ１、ｕ２、・・・ｕｎ）が与えられる。そして、この話者Ｓの発話集合Ｕｓ＝（ｕ１、ｕ２、・・・ｕｎ）から、ある興味トピックＴ＝（ｔ１、ｔ２、・・・、ｔｍ）に対する、話者Ｓの興味対象の度合い（興味度）Ｙｓ＝（ｙ１、ｙ２、・・・、ｙｍ）が推定される。ここで、発話集合Ｕｓの各要素ｕ１、ｕ２、・・・ｕｎは、それぞれが異なる発話文を意味しており、各要素ｕ１～ｕｎのそれぞれが後述する１つの発話文のベクトルＸ＝（ｘ１、ｘ２、・・・ｘｋ）に相当する。

ここで、興味トピックＴの個々の要素ｔ_ｉ(ｔ_１～ｔ_ｍ)は、例えば映画や旅行などに対応する、ｍ個の異なる具体的なトピックである。また、興味度Ｙ_ｓの個々の要素である（ｙ_１、ｙ_２、・・・、ｙ_ｍ）は、具体的な一つのトピック「ｔ_ｉ」に対する話者Ｓの興味の度合い（興味度）「ｙ_ｉ」を意味する正解値である。この興味度「ｙ_ｉ」は、詳しくは後述するが、３段階で定義され、ｙ_ｉ＝０は「興味なし」、ｙ_ｉ＝１は「少し興味あり」、ｙ_ｉ＝２は「興味あり」とされる。

なお、話者Ｓの発話から興味の推定を行うためには、以下の２つの情報を抽出することが必要である。
（ｉ）その発話はどのようなトピックに関するものであるか
（ii）話者Ｓはそのトピックについてどの程度興味を持っているか
以上の２点を効率的に行うため、発明者は、ニューラルネットワークモデルと、このモデルの効率的な学習を行うための事前学習の手法を考えた。

図１、図２は、本発明の実施形態例で用いられる、話者Ｓと他の話者との間の自然言語での雑談対話からの興味推定方法の概要を示す提案モデルの例である。
図１、図２に示すように、本例の興味推定方法は、図１に示す４つの工程と図２に示す事前学習とに分けて説明される。すなわち、図１には、以下の４つの工程が示されている。
(1)単語系列エンコーダにより発話中の単語ベクトル系列から隠れ状態ベクトル系列を作成する工程、
(2)単語アテンション（Attention）部により、隠れ状態ベクトル系列から固定長ベクトルである発話ベクトルを作成する工程、
(3)トピック別発話アテンション（Attention）部により、入力された発話ベクトルからトピックごとに各トピックの重要度を示すコンテントベクトルを作成する工程、
(4)興味推定部により、トピック別発話アテンション部で作成されたコンテントベクトルから、各トピックの興味度を求める工程。

図１に示す上述した４つの工程の他に、さらに、本例の提案方法では、単語系列エンコーダによる事前学習の工程が必要とされる。
図２は、単語系列エンコーダの出力を、別に用意されたニューラルネットワークに供給して、どの発話がどのトピックに近いかを予め学習させるための事前学習の工程を示す。つまり、話者Ｓの発話から興味度を推定するには、話者Ｓの発話がどのトピックに対応しているのか予め知っておくとよい。このため事前学習では、入力文がどのトピックに関係しているかを事前に学習させる。この事前学習を導入することにより、後述するように、興味度の推定値が実際のユーザの興味に近いものとなる。

本例の興味推定方法（以下、「本例の提案方法」という）は、単語系列エンコーダ１、単語アテンション（Attention）２、トピック別発話アテンション（Attention）３、興味推定部４の４つのニューラルネットワークが順に上述の処理を行い、かつ、図２に示すトピック別分類部５を用いて単語系列エンコーダ１の事前学習を行っている。
以下、単語系列エンコーダ１、事前学習のトピック別分類部５、単語アテンション部２、トピック別発話アテンション部３、興味推定部４の作用、機能等について、項目別に順に説明する。

＜単語ベクトル系列の作成＞
最初に発話文を単語に分割し、分割されたｋ個の単語は、Word2Vecによってベクトルに変換され、ｋ個の要素を持つ単語ベクトルの系列Ｘ＝（x₁、x₂、・・・、x_ｋ）が得られる。ここで、Word2Vecは、「Word to Vector」を略記したものであり、単語からベクトルを生成するツールである。
上述の単語ベクトル系列の作成は、本例の提案方法において前処理として行われるものであるが、「話者が発話した発話文を単語に分割し、分割された単語を単語ベクトルに変換することで単語ベクトル系列を作成するステップ」として、また、本例の提案方法を実行する装置としては、「話者が発話した発話文を単語に分割し、分割された単語を単語ベクトルに変換することで単語ベクトル系列を作成する単語ベクトル系列作成部」として、本発明に組み入れられても良い。また、これらのステップを以下に記載の単語系列エンコーダの機能の１つとして組み入れても良い。

＜単語系列エンコーダ１の機能＞
単語系列エンコーダ１は、話者Ｓの発話した単語ベクトルの系列Ｘ＝（ｘ_１、ｘ_２、・・・、ｘ_ｋ）をＲＮＮ（Recurrent Neural Network）を用いてエンコードする。
本例の提案方法では、ＲＮＮの中間層として双方向ＧＲＵ（Bidirectional-Gated Recurrent Unit）が用いられる。

図１の単語系列エンコーダ１では、下段に単語ベクトルの系列Ｘを最初の単語ベクトルｘ_１から最後の単語ベクトルｘ_ｋの順に読み込む順方向ＧＲＵ（forward GRU（GRU（→）））が配置され、上段に単語ベクトルの系列Ｘを最後の単語ベクトルｘ_ｋから最初の単語ベクトルｘ_１の順に読み込む逆方向ＧＲＵ（backward GRU（GRU（←）））が配置されている。なお、明細書の中では、表記上の制約のため、「→」、「←」を文字の上に付与できないので、例えばGRU(→)のように、文字の後に括弧で示す。なお、「→」は順方向の矢印、「←」は逆方向の矢印を意味する。話者Ｓの発話から切り出されたｋ個の単語の単語ベクトル（ｘ_１、ｘ_２、・・・、ｘ_ｋ）のそれぞれは、順方向ＧＲＵと逆方向ＧＲＵに同時に供給される。

図１では、順方向ＧＲＵと逆方向ＧＲＵを点線の枠で囲い、点線の枠に単語ベクトルｘ_ｉが入力され、点線の枠からの順方向ＧＲＵと逆方向ＧＲＵの合成ベクトルｈ_ｉが出力されるように表示されている。順方向ＧＲＵにおける隠れ状態ベクトルｈ_ｉ（hidden state hi(→)）は数１式により得られる。また、逆方向ＧＲＵにおける隠れ状態ベクトルｈ_ｉ（hidden state hi(←)）も、数式は示されていないが、数１式と同様の式により計算される。

ここで、数１式は、単語ベクトルｘ_ｉと一つ前の隠れ状態ベクトルｈ_ｉ―１（→）とを入力とする順方向ＧＲＵによって、次の段の隠れ状態ベクトルｈ_ｉ（→）を計算していることを意味する。

本例の提案方法では、目的となる隠れ状態ベクトルh_iは、順方向ＧＲＵと逆方向ＧＲＵにそれぞれベクトル「x_i」を入力した際の出力を用いて数２式により求められる。

ここで、数２式の「｛：｝」はベクトルの連結を意味する。単語系列エンコーダ１で求められた隠れ状態ベクトルｈ_ｉは、次の処理を行うための単語アテンション部２に送られる。

＜トピック別分類部５の機能（事前学習）＞
ここで、図２に示されるトピック別分類部５の機能と事前学習について説明する。ユーザがどのトピックにどれだけ興味を持つかを推定するためには、まずユーザからの発話がどのようなトピックに関するものかを予め推定することが重要である。
全ての発話に人手でアノテーションする、つまり注釈をつけることも可能であるが、その作業コストは極めて高いものとなる。また、トピックの情報が明示的に与えられない場合には、ユーザの発話情報と発話したユーザの興味度から間接的にトピックを推定しなければならない。そこで、本例の提案方法では、単語系列エンコーダ１に対して、事前学習の考え方を導入している。

すなわち、発話中のトピックをより効果的に抽出するため、単語系列エンコーダ１とトピック別分類部５が、入力文のトピックの分類を行う。これが事前学習（Pre-training）である。
この事前学習では、分類クラスを本例の興味推定方法の対象とする興味トピックＹ_ｓと同一にすることが重要である。つまり、本例の興味推定方法において対象とする興味トピックＹ_ｓと分類クラスを同一にすることによって、発話と興味推定対象トピックの対応関係を推定するための学習コストが下がり、興味推定によりフォーカスされた適切な学習が可能となる。

例えば、図３で後述するように、旅行、映画、音楽・・・などのトピックを予め決めて、入力される文がどのトピックに属するかを予め学習させておく。すると、新たに入力される文がどのトピックに近いかを推定しやすくなる。「学習コストが下がる」というのは、このことを意味している。この事前学習により、単語エンコーダ１の出力にそれぞれのトピックに関する情報が内包される。これにより、本例の提案手法において、発話とトピックの関連付けが容易になり、興味推定に注力した学習が可能となる。

また、事前学習では、入力文の最後の単語ベクトル「ｘ_ｋ」を双方向ＧＲＵに入力する。そして、双方向ＧＲＵの隠れ状態ベクトル「ｈ_ｋ」を用いて、入力文の各トピックへの所属確率分布ｐを数３式で計算する。なお、ここでは、後述する単語アテンションは使用していない。また、最後の隠れ状態ベクトル「ｈ_ｋ」以外の隠れ状態ベクトル「ｈ_ｉ」は使用していない。

ここで、Ｗｃ、ｂｃは、事前学習時のみに使用されるトピック別分類のためのニューラルネットワークのパラメータである。ここでは、事前学習の損失関数として交差エントロピー誤差を用いている。
なお、ソフトマックス関数は、それぞれの出力を「０～１」の間の値に落とし込み、出力された値の合計が「１」になる関数である。

以上、本例の提案手法において、重要な役割を担う事前学習について説明したが、この事前学習については、図２を参照してさらに説明する。
図２は、単語アテンション部２で用いられるニューラルネットワークとは別の異なるニューラルネットワークに単語系列エンコーダ１の隠れ状態ベクトル「ｈ_ｋ」を入力して別の処理を行う事前学習について説明するための図である。

図２に示すように、トピック別分類部５には、単語エンコーダ１の出力のうち、最後の段階の隠れ状態ベクトル「ｈ_ｋ」が入力される。図１では単語エンコーダ１からｋ個の隠れ状態ベクトル「ｈ_ｉ」が出力されているが、数３式の所属確率分布ｐを求める際には、最終段の隠れ状態ベクトル「ｈ_ｋ」だけが用いられる。
すなわち、トピック別分類部５は、数３式で計算した所属確率分布ｐから、入力される隠れ状態ベクトル「ｈ_ｋ」がどのトピックに近いかを推定する。この事前学習により、入力される発話がどのトピックに近いかを予めニューラルネットワークに学習させることができる。

＜単語アテンション部２の機能＞
本例の提案手法では、「全ての単語が求めたい結果に平等に貢献するわけではない」という考えに基づき、単語アテンション部２が導入されている。
単語アテンション部２では、アテンション機構により単語ごとに異なる重み付けを行う。ここでアテンション機構とは、重要度が高い単語に注目させるためのニューラルネットワークの構造をいう。例えば、「私は野球が好きです」という発話の意味を理解するためには、「は」や「です」という単語よりも「野球」や「好き」という単語の方が、重要度が高い。したがって、単語アテンション部２は、「野球」や「好き」という単語に大きな重みを与える。

すなわち、図１に示すように、単語系列エンコーダ１の出力である隠れ状態ベクトル「ｈ_ｉ」は、単語アテンション部２に送られ、単語アテンション部２において、単語ごとに異なる重みづけが行われる。単語アテンション部２で重みづけがされた発話ベクトル「ｚ」は、数４式、数５式、数６式によって求められる。

数４式は、単語系列エンコーダ１の出力である隠れ状態ベクトル「ｈ_ｉ」を、ニューラルネットワークのパラメータＷ_ω、ｂ_ωとハイパボリックタンジェント関数を用いて、異なる別のベクトル「ｖ_ｈｉ」に変換することを示している。

数５式の「α_ｈｉ」は、数４式で求めた単語ベクトル「ｘ_ｉ」の重要度を示している。ここで、数５式の中の「ｖ_ω」は、ニューラルネットワークで用いられる単語の重要度を計算するためのパラメータ（文脈ベクトル）である。「Ｔ」はベクトル同士の演算を行うときの転置記号である。
なお、単語の重要度を計算するための文脈ベクトル「ｖ_ω」は、乱数により初期化され、他のパラメータと同様に学習により最適化される。

このように、単語アテンション部２は、入力される隠れ状態ベクトル「ｈ_ｉ」を基にして変換したすべての「ｖ_ｈｉ」に対して単一の文脈ベクトル「ｖ_ω」を用いて、単語ベクトル「ｘ_ｉ」の重要度「α_ｈｉ」を求めている。その意味では、単語アテンション部２は、ニューラル翻訳モデルやニューラル対話モデルのようなデコーダを用いて単語系列を生成する場合の通常のアテンションとは異なる。

また、数６式の発話ベクトル「ｚ」は、単語ベクトル「ｘ_ｉ」を入力した際の隠れ状態ベクトル「ｈ_ｉ」と、その単語ベクトル「ｘ_ｉ」の重要度「α_ｈｉ」との積をすべての単語ベクトル「ｘ_ｉ」（ｉ＝１～ｋ）について加算して計算したベクトルである。この発話ベクトル「ｚ」は、一つの単語ベクトル系列Ｘ＝（ｘ_１、ｘ_２、・・・、ｘ_ｋ）の特徴を表している。

＜トピック別発話アテンション部３の機能＞
トピック別発話アテンション部３は、全てのトピック「ｔ_ｉ」（ｉ＝１～ｍ）に関するコンテントベクトル（content vector）「ｃ_ｔｉ」を求める。以下、コンテントベクトル「ｃ_ｔｉ」の生成について説明する。
トピック別発話アテンション部３には、単語系列エンコーダ１及び単語アテンション部２によって、発話集合Ｕ_ｓ＝（ｕ_１、ｕ_２、・・・ｕ_ｎ）からエンコードされた発話ベクトル集合Ｚ_s＝（ｚ_１、ｚ_２、・・・ｚ_ｎ）が供給される。

トピック別発話アテンション部３は、この発話ベクトルＺ_ｓを用いて、ｍ種類（ここではｍ＝２４）のトピック「ｔ_ｉ」に関するコンテントベクトル「ｃ_ｔｉ」を生成する。なお、コンテントベクトル「ｃ_ｔｉ」は、各トピック「ｔ_ｉ」が埋め込まれたベクトル表現であり、数７式、数８式、数９式によって求められる。なお、数８式に用いられる「ｖ_ｔｉ」は、図１に示すトピックベクトルである。

ここで、数７式から数９式は、単語アテンション部２の機能のところで説明した数４式から数６式と類似している。
すなわち、数７式は、単語アテンション部２の出力である、単語の重要度を表す発話ベクトル「ｚ_ｊ」（ｊ＝１～ｎ）が、別のニューラルネットワークのパラメータＷ_ｒ、ｂ_ｒとハイパボリックタンジェント関数を用いて、異なる別のベクトル「ｖ_ｊ」に変換される。

数８式の「α_ｊｔｉ」は、数７式で求めた「ｖ_ｊ」を用いて計算した、トピック別発話アテンション部３のニューラルネットワークから出力される発話ベクトル「ｚ_ｊ」の重要度を示している。

ここで、図１に示されているトピックベクトル「ｖ_ｔｉ」（ｉ＝１～ｍ）は、発話ベクトルＺ_ｓ（ｚ_１、ｚ_２、・・・、ｚ_ｎ）の中のそれぞれの発話のトピック別の重要度を計算するためのベクトルである。このトピックベクトル「ｖ_ｔｉ」は２４種類（すなわち、ｍ＝２４）があり、学習により最適化される。

また、数９式の「ｃ_ｔｉ」は、各発話ベクトル「ｚ_ｊ」（ｊ＝１～ｎ）と、その発話ベクトル「ｚ_ｊ」の取り得る重要度「α_ｊｔｉ」との積をすべての発話ベクトル「ｚ_ｊ」について加算したものであり、コンテントベクトルといわれる。つまり、このコンテントベクトル「ｃ_ｔｉ」は、一つの発話の重要度を示している。

このトピック別発話アテンション部３のニューラルネットワークに用いられるパラメータＷ_ｒは、２４種類のトピック全てに用いられる共通のパラメータである。

＜興味推定部４の機能＞
トピック別発話アテンション部３で求められた各トピック「ｔ_ｉ」のコンテントベクトル「ｃ_ｔｉ」（ｉ＝１～ｍ）は、興味推定部４に供給される。
興味推定部４は、このコンテントベクトル「ｃ_ｔｉ」を用いて、トピック「ｔ_ｉ」に対する興味度「ｄ_ｔｉ」を数１０式によって求める。

ここで、パラメータ「Ｗ_ｔｉ」と「ｂ_ｔｉ」は、トピック「ｔ_ｉ」の興味度推定のための新たなニューラルネットワークのパラメータであり、対象となる２４種類のトピックごとに異なる。
また、数１０式の「＋１」は、興味度「ｄ_ｔｉ」を、正解である興味度「ｙ_ｉ」と同じ「０～２」にスケーリングするための項である。
なお、学習の際の損失関数には、数１１式で示されるように、正解である興味度「ｙ_ｉ」と数１０式で求めた興味度「ｄ_ｔｉ」の平均二乗誤差Ｌを用いることとした。

本例の興味推定方法は、機械学習を利用するものであることから、事前学習を含む学習フェーズと学習結果を利用した推定フェーズとに分かれる。学習フェーズでは、学習データ（ユーザの発話とユーザの各トピックについての興味（正解）のデータセット）に基づく学習を行うことで単語系列エンコーダ１、単語アテンション部２、トピック別発話アテンション部３及び興味推定部４のぞれぞれにおいて各種パラメータが決定され、推定フェーズでは、学習フェーズで決定された各種パラメータを固定したうえで、テストデータ（ユーザの発話のみ）に基づいてユーザの興味の推定を行う。
本例の興味推定方法による処理を以下、実験例で示す。

＜実験例＞
以下、本例の興味推定方法（提案方法）の性能評価のために、２名の被験者が１対１で対話したチャットログから推定した興味度「ｄ_ｔｉ」と、被験者が事前にアンケート回答した正解の興味度「ｙ_ｉ」との相関性を評価した実験例について説明する。
この実験では、「機械学習用ライブラリチェイナー（Chainer）」を用いて評価した。なお、チェイナー（Chainer）はニューラルネットワークの計算および学習を行うためのオープンソフトウェアライブラリである。
すなわち、本例の提案方法では、図１に示すように、単語系列エンコーダ１、単語アテンション部２、興味推定部４のほかに、新たにトピック別発話アテンション部３を組み込んで、実験用モデルを構築した。

対話を行う前に、各被験者には、図３に示す２４種類のトピックそれぞれに対して、自分の興味の度合いを０（興味なし）、１（やや興味あり）、２（興味あり）の３択で選択してもらった。なお、図３のトピックは、Yahoo知恵袋（登録商標）から、被験者２人の初対面の対話で取り上げられやすい話題を中心に設定した。

対話は１回１時間とし、スカイプ（Skype：登録商標）のインスタントメッセンジャーを介して行った。対話を始めるに当たって、各被験者には「話の中で相手と自分の間で共通して興味のあることを見つけ、それについて話を膨らませていくことを心がけてください。」とだけ教示し、話すべき内容・話題についての指示は行わなかった。

図４は、被験者２人の実際の対話例を示す。ここでは、収集したすべてのチャットデータ中の発話を被験者別に分類し、１被験者が行った全ての発話とその被験者のアンケートの結果を１データとして扱った。図５は、データの統計情報を示したものである。

単語ベクトルの獲得は、Word2Vecを用いて、次元数200、ウィンドウサイズ５、最少出現頻度１０とし、約１００ＧＢのTwitter（登録商標）データで学習を行った。

単語系列エンコーダ１の入力層の次元は200、双方向ＧＲＵの出力の次元は400、双方向ＧＲＵは１層とした。また、単語アテンション部２とトピック別発話アテンション部３は、入出力ともに400次元、興味推定部４の入力は400次元、出力は１次元とした。トピック別分類部５の入力は400次元、出力は２４次元である。

なお、すでに説明したように、事前学習として行うトピック別分類の際には、トピック別分類の決定に用いたのと同じ、図３に示したトピックを使用した。各トピックに対応する質問文および回答文はYahoo知恵袋データ第2版から抽出した。77万文を学習データ、各トピック100文ずつの2400文をテストデータとした。事前学習の結果、テストデータのトピック分類正確率は0.755であった。
評価は、１０分割交差検証により行った。なお、対話単位ではなく、データ単位（被験者単位）で交差検証を行ったため、学習データとテストデータの間で、同一の被験者による発話が使用されることはない。

本例の提案方法を、対話システムの話題選択に用いる場合、対話システムがその時点で対応できる話題の中から、より望ましい話題を選択するようにすることが重要である。そこで、本実験例では、推定した興味度「ｄ_ｔｉ」に基づいて、各トピックの順位付けを行った。そして、ユーザが興味を持つトピックを上位に位置付け、興味を持たないトピックを下位に位置付けるように性能評価を行った。順位付けの評価尺度としては、情報検索の分野で広く使用されている指標であるＮＤＣＧ（Normalized Discounted Cumulative Gain）を用いた。つまり、ＮＤＣＧは、正規化されたＤＣＧで、０～１の値をとり、１に近いほど順位の正しい予測結果となる。ＮＤＣＧは、以下の数１２式、数１３式により計算される。

数１２式で、ＩＤＣＧ（Ideal ＤＣＧ）は順位リストの適合度が順に正しく並んだ場合のＤＣＧ、つまり理想とされるＤＣＧである。ＩＤＣＧ_Ｋは、上位Ｋ位までを考慮したＩＤＣＧであり、数１２式のＮＤＣＧ_Ｋは、ＤＣＧ_ＫはＩＤＣＧ_Ｋで正規化した値を示している。

数１３式の「ｒｅｌ_ｉ」は、ｉ番目に順位付けされたターゲットに対する適合度を意味している。つまり、「ｒｅｌ_１」の適合度が高く、Ｋの値が大きくなるに従って適合度が小さくなる。「ｒｅｌ_ｉ」を「ｌｏｇ_２ｉ」で割り算しているのは、「ｉ」が大きくなるほど、適合度を小さくすることを意味している。
本例の実験例では、各トピックに対するユーザ「ｓ」の興味度Ｙ_ｓの値（０、１、２）を適合度とした。

本実験例では、初期パラメータを変更して、５回の１０分割交差検証を実施した。そして、ＮＤＣＧが最良の結果になったものを各手法の結果として採用した。ここで、ＮＤＣＧ_１を選択の基準として用いるのは、ＮＤＣＧ_１が大きな値であった場合、以降のＫにおいてＮＤＣＧが高くなる傾向が観察されたためである。

また、各トピックに対するユーザの興味度を正しく推定できるかを評価するため、本例の提案方法とその他の手法で出力した興味度「ｄ_ｔｉ」と正解「ｙ_ｉ」との平均二乗誤差（数１１式）によって評価した。

図６は、本例の提案方法とその他の手法とで計算したＫ＝１～２４までのＮＤＣＧを示した実験結果である。すなわち、図６に示すように、本例の提案方法だけではなく、比較手法として本例の提案手法の一部を変更した３つの比較例による実験を行った。
１つ目の手法は、本例の提案手法における事前学習を行わないで、単語系列エンコーダ１の初期値を乱数として学習を行った「事前学習なし」である。この「事前学習なし」では、図２で説明した事前学習がないだけで、図１に示す単語系列エンコーダ１、単語アテンション部２、トピック別発話アテンション部３および興味推定部４のすべての処理を実施した。

２つ目の手法では、本例の提案方法における図２に示した事前学習は行ったが、トピック別発話アテンション部３によるコンテントベクトルの取得をせずに、他の手法（発話ベクトルのMax Pooling）の結果を用いてコンテントベクトルを取得して興味推定を行った。図６では、これを「トピック別発話アテンションなし」として示している。

３つ目の手法は、本例の提案手法における事前学習を行わず、かつ発話ベクトルのMax Poolingの結果を用いてコンテントベクトルを取得して興味推定を行う手法であり、図６では、「事前学習なし＆トピック別発話アテンションなし」として示した。

また、以下の２つのベースライン手法についても比較の実験を行った。１つ目のベースライン手法は、Twitterユーザの興味推定手法として提案されたもので、図６では「トピック頻度」として示されている。これは、ユーザのツイートに含まれる固有表現を取得し、その頻度ベクトルによりユーザの興味を推定するものである。

２つ目のベースライン手法は、ＳＶＲ(Support Vector Regression)を用いてユーザの興味度を推定する手法である。素性としては、ユニグラム（unigram）とバイグラム（bigram）が用いられる。ここでは、ユニグラム（unigram）だけを用いた場合と、両方を用いた場合で実験を行った。このＳＶＲモデルでは、トピックごとに個別に学習を行い、各トピックの興味度の推定を行った。具体的には、ＳＶＲとしては、「scikit-learn」と呼ばれる機械学習ライブラリを用い、ガウシアンカーネルを用いた。

図６に示すように、ＮＤＣＧの計算に用いるＫ＝１～２４のトピックについてＮＤＣＧの値をプロットした。図６から、本例の提案方法が、他の手法と比べて、すべてのＫにおいて、ＮＤＣＧが高いことが分かる。
本例の提案手法の次には、トピック別発話アテンションを適用しないで、事前学習を適用した比較例のＮＤＣＧが、良い結果だった。この結果から、トピック別発話アテンションはＮＤＣＧの向上に一定の役割を果たしている、つまり有効であると考えられる。

次に、本例の提案方法と事前学習なしの例を比較すると、本例の単語系列エンコーダ１、単語アテンション部２、トピック別発話アテンション部３および興味推定部４のすべてを適用しても、事前学習をしない場合には、本例の提案手法に比べて、ＮＤＣＧの値が大幅に少なくなることが分かった。すなわち、本例で提案した事前学習の手法は、性能向上に極めて有効であることが理解された。

また、本例の提案方法で用いたトピック別発話アテンションを行なったが、事前学習を行わなかった比較例と、トピック別発話アテンションおよび事前学習の両方とも行わなかった比較例では、あまりＮＤＣＧの変化が見られなかった。すなわち、トピック別発話アテンションは事前学習を行わないとＮＤＣＧの向上に貢献しないことが分かった。このことからも、本例で提案する事前学習の有効性を確認することができた。

結論としては、事前学習とトピック別発話アテンションを同時に適用した本例の提案手法を使うことで、トピック別発話アテンションがない場合と比べて性能が向上している。このことから、本例の提案手法のように、事前学習を行った上で、トピック別発話アテンションを適用することが重要であることを確認することができた。これは、トピック別分類の事前学習を行うことで、発話ベクトルにトピックの情報が埋め込まれるため、数８式のトピックベクトル「ｖ_ｔｉ」が効率的に学習可能になったためと考えられる。

ＳＶＲに関しては、ユニグラム（unigram）とバイグラム（bigram）を用いる場合よりも、ユニグラム（unigram）を単独で用いた方が良いＮＤＣＧ性能を示した。しかし、本例の提案手法のようなニューラルネットワークベースの結果と比べるとはるかに劣る結果となった。
また、トピック頻度のベースラインは、Ｋ＝１のときに、ＳＶＲよりも高いＮＤＣＧを示した。これはユーザが積極的に発言したトピックに対して、興味ありと正しく推定できたためであると考えられる。このトピック頻度のベースラインも、本例の提案手法や他のニューラルネットワークベースと比較すると劣る結果となり、トピック頻度のベースラインは、Ｋ≧４では、すべての手法の中で最低のＮＤＣＧになった。

図７は、各手法によって出力された興味度と正解との間の平均二乗誤差を（ＭＳＥ）を計算して示した図である。ただし、図７では、興味度を直接出力しないトピック頻度ベースラインは除いている。図７に示すように、本例の提案手法では「0.533」と最も小さい値になっており、このことから、本例の提案手法によれば、適切な興味度の推定が可能であることが理解できる。言い換えると、本例の提案方法による平均二乗誤差（ＭＳＥ）が最小になっていることから、本例の提案手法は他の手法と比べて最高の性能を示したということができる。

一方、ニューラルネットワークベース手法の中では、「事前学習なし」が最も性能が低いことから、事前学習とトピック発話アテンションを同時に行うことが重要であることが、図７からも理解することができる。

＜トピック別発話アテンションの可視化による分析＞
上述したように、本例で提案した、トピック別発話アテンションと事前学習を同時に適応することにより、良い性能（ＮＤＣＧ）とＭＳＥが得られることが判明した。
そこで、次に、トピック別発話アテンションの分析を行うため、数８式で求められる発話文の重要度「α_ｊｔｉ」の値をトピック別に計算し、これを可視化した。図８は、事前学習を行った本例の提案手法によるトピック別発話アテンションを可視化したものである。これに対して、図９は事前学習を行わないで、トピック別発話アテンションを可視化したものである。図８、図９とも濃い色であるほど発話文の重要度「α_ｊｔｉ」が高いことを示している。

図８に示すように、本例の提案手法では、右側に記載した文（１）から（８）の内容に対応するトピックの重みが高い値（濃い色）になっていることが分かる。図９は、事前学習なしのトピック別発話アテンションを可視化したものである。図９では、発話文とトピックの重みとがほとんど関係していないことが分かる。例えば、文（５）は、興味推定にかかわる文ではないため、「事前学習あり」の図８では、すべてのトピックの重みが小さな値になっている。これに対して、図９では、文（５）に対して、映画、ゲーム、スポーツ、健康が比較的高い値になってしまっている。同様に文（７）、（８）でも、文の内容に関連が薄いトピックが大きな値をとっていることが分かる。

＜学習データ量の分析＞
ニューラルネットワークモデルの学習において、学習データの量は、モデルの性能を左右する極めて重要な要素の一つである。本例の提案方法を検証する実験（以下、「本実験」と称する）では、１６３名の被験者による４０８対話を収集したが、データとしては必ずしも十分な量ではなかった。したがって、学習データを追加することで、さらなる性能向上も期待できると考えられる。特に、学習データを追加するにあたり、１被験者当たりの発話数を増やすのか、もしくは被験者の数を増やすのかという収集方針の決定は、効率的なデータの収集という点で重要である。

そこで、本例の提案手法における学習データの量と性能の関係を分析するに当たって、学習データとして用いる被験者数および発話数を制限して１０分割交差検証を行い、性能の変化を分析した。なお、１０分割交差検証の際のテストデータとしての被験者数・発話数は制限していない。

図１０は、１０分割交差検証を行ったときのＮＤＣＧの結果を示したものである。図１０では、学習に使用する被験者数を全体の１０％、５０％、９０％に制限した結果と、１被験者当たりの発話数を、発話数全体の１０％、５０％、９０％に制限した結果と、全データの結果（図６の提案方法と同じ）を示した。
図１０から、発話数を制限するよりも、被験者数を制限した場合の方が、性能が落ちていることが分かる。特に、被験者数１０％のＮＤＣＧは、性能が著しく低下している。一方、発話数を制限した場合には、全データを使用した場合と比べ、性能が低下しているものの、その影響は比較的小さいことが分かった。

図１１は、被験者数と発話数の学習データへの使用率を１０％から１００％まで１０％刻みで変化させた場合の平均二乗誤差をプロットしたものである。図１１から分かるように、図１０のＮＤＣＧの結果と同様に、発話数を制限するよりも、被験者数を制限する方が、平均二乗誤差（ＭＳＥ）が大きくなっている。つまり、発話数を制限するよりも、被験者数を制限する方が、性能の低下が著しいことが分かる。
以上から、学習データを追加する場合には、１被験者当たりの発話数を増やすよりも、被験者数を増加させることが性能向上に寄与することが確認された。

以上説明したように、本実施の形態例では、雑話対話におけるユーザの発話を入力として、事前に設定したトピックに対するユーザの興味を、ニューラルネットワークモデルを使って推定する興味推定方法を提案した。この提案手法では、双方向ＧＲＵを用いた単語系列エンコーダと、単語アテンションによりユーザの発話をエンコードし、発話ベクトルの集合を得る。次に、この発話ベクトル集合からトピック別発話アテンションを用いて、推定対象の各トピックに対応するベクトルを生成する。そして最後に、このベクトルから対応するトピックに対する話者（ユーザ）の興味の度合いを推定する。

さらに、学習時には、単語系列エンコーダに対して、トピック別分類を行う事前学習を実施させてから、興味推定を行うようにした。
実験の結果は、すでに説明したとおり、本例の提案手法がベースライン手法に比べて、より的確に興味度を推定できることが確認された。また、本例で提案したトピック別発話アテンションとトピック別分類の事前学習を併用することが有効であることも確認された。

以上、本発明の実施の形態例について詳細に説明したが、本発明は、ここで説明した実施の形態例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨に逸脱しない限りにおいて、その他の応用例および変形例を含むことは言うまでもない。

１・・・単語系列エンコーダ、２・・・単語アテンション部、３・・・トピック別発話アテンション部、４・・・興味推定部、５・・・トピック別分類部

Claims

入力された文がどのようなトピックに属するかを、単語系列エンコーダ及びトピック別分類部により事前に推定するための事前学習を行うステップと、
話者の発話に含まれる単語の系列から得られた単語ベクトル系列から、前記単語系列エンコーダにより隠れ状態ベクトル系列を作成するステップと、
前記単語系列エンコーダにより作成された前記隠れ状態ベクトル系列から、単語アテンション部により発話ベクトルを作成するステップと、
前記単語アテンション部により作成された前記発話ベクトルから、トピック別発話アテンション部により、興味トピックに関するコンテントベクトルを作成するステップと、
前記トピック別発話アテンション部により作成された前記コンテントベクトルから、興味推定部により前記興味トピックに対する発話者の興味度を求めるステップと、を含む
興味推定方法。
入力された文のトピック別分類を予め学習する前記事前学習において、前記文のトピックを分類する分類クラスを、興味推定対象のトピックと同じにする、
請求項１に記載の興味推定方法。
前記隠れ状態ベクトル系列は、双方向ＧＲＵからなる前記単語系列エンコーダにより、双方向ＧＲＵの中の順方向ＧＲＵの出力と逆方向ＧＲＵの出力を合成して作成される、
請求項１に記載の興味推定方法。
前記発話ベクトルは、単語ごとに異なる重みづけを行う前記単語アテンション部により作成される、
請求項１に記載の興味推定方法。
前記コンテントベクトルは、トピック別に発話の重要性を計算する前記トピック別発話アテンション部により作成される、
請求項１に記載の興味推定方法。
入力された文がどのようなトピックに属するかを事前に推定するための事前学習を行うトピック別分類部と、
入力された文がどのようなトピックに属するかを事前に推定するための事前学習を行うとともに、話者の発話に含まれる単語の系列から得られた単語ベクトル系列から隠れ状態ベクトル系列を作成する単語系列エンコーダと、
前記単語系列エンコーダにより作成された前記隠れ状態ベクトル系列から発話ベクトルを作成する単語アテンション部と、
前記単語アテンション部により作成された前記発話ベクトルから興味トピックに関するコンテントベクトルを作成するトピック別発話アテンション部と、
前記トピック別発話アテンション部により作成された前記コンテントベクトルから前記興味トピックに対する発話者の興味度を求める興味推定部と、を備える
興味推定装置。
入力された文がどのようなトピックに属するかを、単語系列エンコーダ及びトピック別分類部により事前に推定するための事前学習を行う処理と、
話者の発話に含まれる単語の系列から得られた単語ベクトル系列から、前記単語系列エンコーダにより隠れ状態ベクトル系列を作成する処理と、
前記単語系列エンコーダにより作成された前記隠れ状態ベクトル系列から、単語アテンション部により発話ベクトルを作成する処理と、
前記単語アテンション部により作成された前記発話ベクトルから、トピック別発話アテンション部により興味トピックに関するコンテントベクトルを作成する処理と、
前記トピック別発話アテンション部により作成された前記コンテントベクトルから前記興味トピックに対する発話者の興味度を求める処理と、
をコンピュータに実行させる興味推定プログラム。