JP2022126428A

JP2022126428A - 情報提供装置、情報提供方法および情報提供プログラム

Info

Publication number: JP2022126428A
Application number: JP2021024492A
Authority: JP
Inventors: 隼人小林; Hayato Kobayashi; 徹清水; Toru Shimizu; 立日暮; Ritsu Higure; 毅司増山; Takeshi Masuyama
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-08-30
Anticipated expiration: 2041-02-18
Also published as: JP7410066B2

Abstract

【課題】利用者の意図に合った質問回答集を提供すること。【解決手段】本願に係る情報提供装置１０は、蓄積された複数の質問回答文書に対して、利用者の指示に基づく距離学習を行う距離学習部４３と、距離学習された質問回答文書をクラスタリングするクラスタリング処理部４４と、クラスタリングされた質問回答文書を含む各クラスタを要約してＦＡＱを作成するＦＡＱ作成部４５と、を備えることを特徴とする。また、複数の質問回答文書をベクトル化して所定の意味空間にマッピングする前処理を実行する前処理部４１を備える。【選択図】図２

Description

本発明は、情報提供装置、情報提供方法および情報提供プログラムに関する。

近年、インターネットを使って、ユーザ（質問者）が投稿した質問文に対して他のユーザ（回答者）が回答文を投稿することで、ユーザ間で知識や知恵の共有を行う、所謂Ｑ＆Ａ（Question Answering）サイトが知られている。この種のＱ＆Ａサイトには、多数の質問文および回答文（以下質問回答という）が蓄積されているため、これらの質問回答を利用して様々なカテゴリにおける質問回答集であるＦＡＱ（Frequently Asked Questions：よくある質問）を作成するサービスが望まれている。従来、複数の質問回答のクラスタリング結果からＦＡＱを作成する技術が知られている。

特開２０２０－１６６４２６号公報

しかしながら、上述した従来技術では、利用者の意図に合ったＦＡＱ（質問回答集）が提供されているとは言えない場合がある。

例えば、各カテゴリにおける質問回答の粒度や軸（方向性）にばらつきがある場合には、これら質問回答のクラスタリング結果からＦＡＱを作成してもばらつきが残り、利用者の意図に沿ったＦＡＱが提供されないおそれがある。

本願は、上記に鑑みてなされたものであって、利用者の意図に合った質問回答集を提供することを目的とする。

本願に係る情報提供装置は、所定の意味空間にマッピングされた複数の質問回答に対して、利用者の指示に基づく距離学習を行う学習処理部と、距離学習された質問回答をクラスタリングするクラスタリング処理部と、クラスタリングされた質問回答を含む各クラスタを要約して質問回答集を作成するＦＡＱ作成部と、を備える。

実施形態の一態様によれば、利用者の意図に合った質問回答集を作成することができる。

図１は、本実施形態に係る情報提供装置の一例を示す図である。図２は、本実施形態に係る情報提供装置の構成例を示す図である。図３は、本実施形態に係る質問回答記憶部に記憶された情報の一例を示す図である。図４は、本実施形態に係る処理の流れの一例を示すフローチャートである。図５は、ハードウェア構成の一例を示す図である。

以下に、本願に係る情報提供装置、情報提供方法および情報提供プログラムを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報提供装置、情報提供方法および情報提供プログラムが限定されるものではない。

［実施形態］
〔１．情報提供装置の概要について〕
まず、図１を用いて、本実施形態に係る情報提供装置１０の一例について説明する。なお、以下の説明では、情報提供装置１０が実行する処理の一例として、所謂Ｑ＆Ａサイトに蓄積された質問回答情報を利用して、利用者が指定した所定のカテゴリに関するＦＡＱ（質問回答集）を自動作成する処理を説明する。この種のＱ＆Ａサイトは、インターネットを使って、ユーザ（質問者）が投稿した質問文に対して他のユーザ（回答者）が回答文を投稿することで、ユーザ間で知識や知恵の共有を行うものである。

また、本実施形態における質問文および回答文は、１つ以上の文（センテンス）を含んだテキストデータであるものとする。また、文は、句点、感嘆符、疑問符、空白等で区切られたテキストデータの範囲であるものとする。また、質問文は、質問することを意図して作成されたものとして処理される文書であり、回答文は、質問文に対して回答することを意図して作成されたものとして処理される文書である。また、以下の説明では、情報提供装置１０によってＦＡＱの作成を指示するユーザを利用者と記載する。また、質問文とこれに対応する回答文等、各ユーザから受付けた情報を質問回答情報または質問回答と総称する場合がある。

図１は、本実施形態に係る情報提供装置の一例を示す図である。図１に示す情報提供装置１０は、質問回答集であるＦＡＱの作成処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報提供装置１０は、４Ｇ（Generation）、５Ｇ、ＬＴＥ（Long Term Evolution）、Ｗｉｆｉ（登録商標）若しくは無線ＬＡＮ（Local Area Network）等といった各種の無線通信網若しくは各種の有線通信網といったネットワークＮ（例えば、図２参照）を介して、利用者が使用する端末装置１００およびＱ＆Ａサイトを管理するウェブサーバ２００との間で通信を行う。

端末装置１００は、ＰＣ（Personal Computer）、サーバ装置、スマートテレビジョン、スマートフォン若しくはタブレット等といったスマートデバイス等により実現され、ネットワークＮを介して、情報提供装置１０との間で通信を行うことができる携帯端末装置である。また、端末装置１００は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者から指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、情報提供装置１０から配信されるコンテンツに対する各種の操作を受付け可能な機能を有していてもよい。

なお、図１に示す例では、端末装置１００は、利用者Ｕにより利用される端末装置である。また、図１に示す例では、１人の利用者Ｕを記載したが、これに限定されるものではない。情報提供装置１０には、任意の数の利用者がそれぞれ端末装置を介して接続することができるため、各利用者が意図するＦＡＱを作成することができる。

ウェブサーバ２００は、Ｑ＆Ａサイトの管理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。ウェブサーバ２００は、ユーザが投稿した質問文や回答文を受けつけ、質問文に対応する回答文と紐づけて記憶する。また、ウェブサーバ２００は、Ｑ＆Ａサイト上で検索された質問回答をユーザに提供する。本実施形態では、ウェブサーバ２００を情報提供装置１０と別体として説明したが、これらを一体に構成しても構わない。

〔２．処理の一例について〕
ウェブサーバ２００が管理するＱ＆Ａサイトには、多数の質問回答が蓄積されているため、これらの質問回答を利用して様々なカテゴリにおけるＦＡＱを作成して提供するサービスが望まれている。この場合、様々なカテゴリのＦＡＱを作成するには膨大な人手コストがかかるため、該ＦＡＱを自動的に作成することが好ましい。一方、様々なカテゴリに対応するＦＡＱを自動的に作成しようとする場合、質問回答（見出し）の粒度や軸（方向性）が揃わないため、利用者の意図に沿ったＦＡＱを提供できない問題が生じるおそれがある。例えば、クレジットカード関連のＦＡＱを作成したい場合には、各カード会社に関する質問回答が混在すると、質問回答の粒度がばらつく。このため、カード会社ごとに質問回答を分けたいという利用者の意図を反映させることが好ましい。また、決済方法（スマホ決済やＥコマース）に関する質問回答と決済代行会社に関する質問回答とは、質問回答の軸が異なる。このため、質問回答を決済方法ごとに分けたい場合と決済代行会社ごとに分けたい場合とが混在して欲しくないという利用者の意図を反映させることが好ましい。

本実施形態では、情報提供装置１０は、例えば、予めベクトル化された質問回答に対して、距離学習させた後にクラスタリング処理を行うことで、質問回答の粒度や軸のばらつきを抑えて、利用者の意図に合致したＦＡＱを提供するものである。以下、情報提供装置１０が実行する各処理の一例について説明する。

〔２－１．ベクトルへ変換する前処理の一例について〕
図１に示すように、情報提供装置１０は、ウェブサーバ２００から質問回答を受け取る（ステップＳ１）。この質問回答は、情報提供装置１０の指示に応じてウェブサーバ２００が送信しても良いし、定期的にウェブサーバ２００が送信しても良い。また、ウェブサーバ２００は、毎回すべての質問回答を送信しても良いし、前回との差分情報を送信しても良い。

情報提供装置１０は質問回答を受け取ると、この質問回答をベクトルデータへ変換する前処理を行う（ステップＳ２）。本実施形態では、情報提供装置１０は、例えば、質問回答のテキスト情報の特徴量を抽出する学習モデル（オートエンコーダ；自己符号化器）を用いて各テキスト情報からＮ次元ベクトルを生成する。

学習モデルは、例えば、入力層と中間層と出力層とを含んで構成される。入力層は、情報が入力される層であり、出力層は、入力層への入力に応じて、入力された情報と同様の情報が出力される層である。この構成では、入力層から中間層までの間は、入力された情報を圧縮する処理（エンコード処理）を行う部分に対応し、中間層から出力層までの間は、圧縮された情報を復元する処理（デコード処理）を行う部分に対応する。また、中間層は、入力層から中間層までの間で圧縮された情報の特徴を表現する層である。

例えば、情報提供装置１０は、所定の学習モデルＭの入力層に質問回答のテキスト情報を入力することにより、学習モデルＭの各要素（ニューロン）の値を演算し、入力したテキスト情報と同様の情報を出力層から出力する。この場合、情報提供装置１０は、例えば中間層の各要素（ニューロン）の値を特徴量として抽出し、質問回答に対応するＮ次元のベクトルデータを生成する。このベクトルデータは、例えば、Ｎ次元の実数列として表現される。

このような学習モデルＭは、例えば、ＤＮＮ（Deep Neural Network）といった各種の分類器によって実現可能である。なお、ＤＮＮは、例えば、ＲＮＮ（Recurrent Neural Network）、ＣＮＮ（Convolution Neural Network）、ＬＳＴＭ(Long short-term memory)等といった任意の構成を有するニューラルネットワークが採用可能である。

続いて、利用者Ｕが端末装置１００を通じて、カテゴリ（例えばクレジットカード）を指定すると（ステップＳ３）、情報提供装置１０は、クレジットカードの分野に関連する質問回答に対応するベクトルデータを抽出する（ステップＳ４）。情報提供装置１０は、例えば、カード会社名、入会、退会、請求、明細などの語彙を含む質問回答に対応するベクトルデータを抽出することができる。これにより、情報提供装置１０は、抽出されたベクトルデータにより、所定のカテゴリに関する意味空間にマッピングされた状態の質問回答を構成することができる。なお、本実施形態では、蓄積されたすべての質問回答を学習モデルＭによってベクトル化した後、指定されたカテゴリに関するベクトルデータを抽出した構成としたが、これに限るものではない。例えば、蓄積されたすべての質問回答から指定されたカテゴリに関する質問回答を抽出し、この抽出した質問回答を学習モデルＭによってベクトル化してもよい。

〔２－２．距離学習処理の一例について〕

続いて、利用者Ｕは、端末装置１００を通じて、所定のカテゴリに関する意味空間にマッピングされた複数の質問回答に対して、該利用者Ｕの意図を含んだ指示を送信する（ステップＳ５）。この指示が受け取ると、情報提供装置１０は、所定のカテゴリに関する意味空間にマッピングされた複数の質問回答を、この指示に基づいて距離学習させる（ステップＳ６）。この指示は、例えば、複数の質問回答の粒度や軸のばらつきを抑えるための少量の例である。

ＦＡＱを作成する場合、例えば、金融関係に関連するＦＡＱでは、クレジットカードの各カード会社に関する質問回答が混在しても問題はないが、例えば、クレジットカードに関連のＦＡＱでは、各カード会社に関する質問回答が混在すると質問回答の粒度がばらつく。また、決済方法（スマホ決済やＥコマース）に関する質問回答と決済代行会社に関する質問回答とは質問回答の軸が異なる。このため、ユーザが利用しやすいＦＡＱを提供するためには、質問回答の粒度および軸のばらつきを抑えることが有効となる。このため、情報提供装置１０は、質問回答の粒度および軸のばらつきを抑えるために距離学習を実行して、意味空間における質問回答のベクトルデータの距離（例えば、意味空間における相対的な距離）を調整している。

この距離学習では、似ているデータは意味空間において相対的に近く、似ていないデータは意味空間において相対的に遠くなるように学習させている。情報提供装置１０は、例えば、マハラノビス距離学習を実行することができる。このマハラノビス距離学習を実行する際に、利用者の指示の一例（教師データ）として、Ａ社に関するクレジットカード関連のデータ（類似データ）の組と、Ａ社以外のカード会社（Ｂ社、Ｃ社・・・）に関するクレジットカード関連のデータ（非類似データ）の組とを用意する。情報提供装置１０は、これらの類似データの組と非類似データの組を用いて所定の共分散行列を学習する。そして、情報提供装置１０は、学習済の共分散行列により質問回答のベクトルデータを演算することで、Ａ社に関するクレジットカード関連のデータは相対的により近く、Ａ社以外のカード会社に関するクレジットカード関連のデータは相対的に遠くなる。このため、Ａ社のクレジットカード関連の質問回答とＡ社以外のクレジットカード関連の質問回答との距離を離すことができる。本実施形態では、距離学習の一例について説明したがこれに限るものではない。

〔２－３．クラスタリング処理の一例について〕
続いて、情報提供装置１０は、距離学習されたベクトルデータに基づいてクラスタリング処理を行う（ステップＳ７）。このクラスタリング処理は、ベクトルデータ間の距離（例えばコサイン距離）を考慮して、この距離の近いベクトルデータに対応する質問回答群により階層的なクラスタ形成する。本実施形態では、クラスタリング処理の前に、距離学習により質問回答のベクトルデータの距離が調整されているため、該質問回答の粒度や軸のばらつきを抑えた状態でクラスタリングがなされる。続いて、情報提供装置１０は、形成された各クラスタについて、該クラスタに含まれる質問回答の見出しを形成してＦＡＱを作成する（ステップＳ８）。情報提供装置１０は、クラスタに含まれる質問回答の単語を分析して、特徴がある単語を用いて見出し（例えば、［Ａ社入退会］、［Ａ社明細］、［Ａ社ポイント］など）をつける。なお、見出しの代わりに各クラスタの中心質問回答を選択してもよい。最後に情報提供装置１０は、作成されたＦＡＱ情報を端末装置１００に送信することにより、利用者にＦＡＱ（質問回答集）を提供する（ステップＳ９）。この構成では、所定のカテゴリに関する意味空間にマッピングされた複数の質問回答を、利用者の指示に基づいて距離学習させるため、質問回答の粒度や軸のばらつきを抑えることができ、利用者の意図に沿ったＦＡＱを作成して提供することができる。

〔３．情報提供装置の構成〕
以下、上記した情報提供装置１０が有する機能構成の一例について説明する。なお、以下の説明では、Ｑ＆Ａサイトに蓄積された質問回答情報を利用して、利用者が所望するカテゴリに関する質問回答集を作成して提供する情報提供装置１０が有する機能構成の一例を示す。図２は、本実施形態に係る情報提供装置の構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、端末装置１００およびウェブサーバ２００との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、質問回答記憶部３１と、学習モデル記憶部３２とを有する。

図３は、本実施形態に係る質問回答記憶部に記憶された情報の一例を示す図である。質問回答記憶部３１は、質問回答に関する各種情報を記憶する。例えば、質問回答記憶部３１は、質問回答ＩＤやベクトルデータを記憶する。図３の例では、質問回答記憶部３１には、「質問回答ＩＤ」、「質問回答」、「質問回答情報」、「ベクトル情報」といった項目の情報が含まれる。

「質問回答ＩＤ」は、質問回答を識別するための識別情報を示す。この質問回答は、質問文書と対応する回答文書とからなる。また、「質問回答」は、質問回答ＩＤにより識別される質問回答の具体的な名称や内容等を示す。なお、図３の例では、「質問回答」を「Ａ社カード入会」等のように、内容を特定するための文字情報で示している。

「質問回答情報」は、質問回答ＩＤにより識別される質問回答に関する情報を示す。なお、図３の例では、質問回答情報を「Ａ社カードの申し込み時に必要な書類はあるか」という質問文と、「お申し込みの際には原則必要ありません。ただし、Ａ社カードをお受け取りの際には本人確認資料等が必要な場合があります。」という回答文とからなる文字情報で示している。「ベクトル情報」とは、質問回答ＩＤにより識別される質問回答情報に対応するベクトル情報を示す。図３の例では、質問回答ＩＤに対応する質問回答情報を多次元（Ｎ次元）のベクトル情報（ベクトルデータ）「１０，２４，５４，２，・・・」で示している。

学習モデル記憶部３２は、質問回答のテキスト情報をベクトルデータに変換（ベクトル化）する学習モデルＭを記憶する。この種の学習モデルＭは、例えば、ＤＮＮ（Deep Neural Network）といった各種の分類器によって実現可能である。なお、ＤＮＮは、例えば、ＲＮＮ（Recurrent Neural Network）、ＣＮＮ（Convolution Neural Network）、ＬＳＴＭ(Long short-term memory)等といった任意の構成を有するニューラルネットワークが採用可能である。

図２に戻って説明を続ける。制御部４０は、例えば、コントローラ（controller）であり、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部４０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図２に示すように、制御部４０は、前処理部４１、抽出部４２、距離学習部４３、クラスタリング処理部４４、およびＦＡＱ作成部４５を有する。前処理部４１は、学習モデル記憶部３２に記憶された学習モデルＭを用いて、質問回答のテキスト情報からＮ次元のベクトルデータを生成する。

前処理部４１は、例えば、学習モデルＭの入力層に質問回答のテキスト情報を入力することにより、学習モデルＭの各要素（ニューロン）の値を演算し、入力したテキスト情報と同様の情報を出力層から出力する。この場合、情報提供装置１０は、例えば中間層の各要素（ニューロン）の値を特徴量として抽出し、質問回答に対応するＮ次元のベクトルデータを生成する。このベクトルデータは、例えば、Ｎ次元の実数列として表現され、上記した質問回答記憶部３１に、質問回答ＩＤに対応する「ベクトル情報」として記憶される。

抽出部４２は、利用者の指示に応じて該当するベクトルデータを抽出する。例えば、抽出部４２は、カテゴリとしてクレジットカードを指定すると、このクレジットカードの分野に関連する質問回答に対応するベクトルデータを抽出する。この場合、抽出部４２は、クレジットカードの分野に関連する情報として、例えば、カード会社名、入会、退会、請求、明細などの語彙を含む質問回答に対応するベクトルデータを抽出することができる。これにより、情報提供装置１０は、抽出されたベクトルデータを用いて、所定のカテゴリ（クレジットカード）に関する意味空間にマッピングされた質問回答を構成することができる。

距離学習部４３は、利用者の指示に応じて、所定のカテゴリに関する意味空間にマッピングされた質問回答のベクトルデータの距離を調整する距離学習を実行する。利用者の指示とは、例えば、質問回答の粒度および軸のばらつきを抑えるための例（教師データ）である。ＦＡＱを作成する場合、例えば、金融関係に関連するＦＡＱでは、クレジットカードの各カード会社に関する質問回答が混在しても問題はないが、例えば、クレジットカードに関連のＦＡＱでは、各カード会社に関する質問回答が混在すると質問回答の粒度がばらつく。また、決済方法（スマホ決済やＥコマース）に関する質問回答と決済代行会社に関する質問回答とは質問回答の軸が異なる。このため、ユーザが利用しやすいＦＡＱを提供するためには、質問回答の粒度および軸のばらつきを抑えることが有効となる。このため、距離学習部４３は、意味空間にマッピングされた質問回答に距離学習を実行して、これら質問回答のベクトルデータの距離（例えば意味空間における相対的な距離）を調整することで、質問回答の粒度および軸のばらつきを抑えている。

この距離学習では、似ているデータは意味空間において相対的に近く、似ていないデータは意味空間において相対的に遠くなるように学習させている。情報提供装置１０は、例えば、マハラノビス距離学習を実行することができる。このマハラノビス距離学習を実行する際に、利用者の指示（教師データ）の一例として、Ａ社に関するクレジットカード関連のデータ（類似データ）の組と、Ａ社以外のカード会社（Ｂ社、Ｃ社・・・）に関するクレジットカード関連のデータ（非類似データ）の組とを用意する。距離学習部４３は、これらの類似データの組と非類似データの組を用いて所定の共分散行列を学習する。そして、距離学習部４３は、学習済の共分散行列により質問回答のベクトルデータを演算することで、Ａ社に関するクレジットカード関連のデータは相対的に近く、Ａ社以外のカード会社に関するクレジットカード関連のデータは相対的に遠くなる。このため、Ａ社のクレジットカード関連の質問回答とＡ社以外のクレジットカード関連の質問回答との距離を離すことができる。

クラスタリング処理部４４は、距離学習されたベクトルデータに基づいてクラスタリング処理を実行する。クラスタリング処理部４４は、ベクトルデータ間の距離（例えばコサイン距離）を考慮して、この距離の近いベクトルデータに対応する質問回答群により階層的なクラスタ形成する。クラスタリング処理の手法は、例えば、階層構造が必要であればｗａｒｄ法や群平均法を用いることができる。また、非階層構造が必要であれば、ｋ―ｍｅａｎｓ法を用いることができる。また、クラスタリング処理をする際の距離は、コサイン距離に限るものではなく、例えば、ユークリッド距離などの既存の距離を用いても良い。

本実施形態では、クラスタリング処理部４４がクラスタリング処理を実行する前に、距離学習部４３が距離学習を行うことで質問回答のベクトルデータの距離が調整されているため、該質問回答の粒度や軸のばらつきを抑えた状態でクラスタリング処理をすることができる。

ＦＡＱ作成部４５は、クラスタリング処理によって形成された各クラスタについて、該クラスタに含まれる質問回答の見出しを形成してＦＡＱを作成する。ＦＡＱ作成部４５は、クラスタに含まれる質問回答の単語を分析して、特徴がある単語を用いて見出し（例えば、［Ａ社入退会］、［Ａ社明細］、［Ａ社ポイント］など）をつける。この場合、ＦＡＱ作成部４５は、クラスタの質問回答のテキスト情報に含まれる単語（名詞や名詞接尾辞）を抽出し、これら単語（名詞や名詞接尾辞）の頻度に基づいて特徴を抽出する。なお、ＦＡＱ作成部４５は、見出しの代わりに各クラスタの中心質問回答を選択してもよい。この場合、ＦＡＱ作成部４５は、各クラスタの中心点からの距離が最も近い（類似度が最も高い）質問回答を中心質問回答に選択する。

ＦＡＱ作成部４５は、作成したＦＡＱに関する情報を、通信部２０を介して、端末装置１００に送信することにより、利用者にＦＡＱ（質問回答集）を提供する。ＦＡＱの提供については、ＦＡＱ作成部４５でない部分が実行してもよく、例えば、提供部を別途設けて提供部が実行する構成としてもよい。本実施形態では、所定のカテゴリに関する意味空間にマッピングされた複数の質問回答を、利用者の指示に基づいて距離学習部４３が距離学習するため、質問回答の粒度や軸のばらつきを抑えることができ、ＦＡＱ作成部４５は利用者の意図に沿ったＦＡＱを作成して提供することができる。

〔４．処理手順〕
次に、図４を用いて、本実施形態に係る情報提供装置１０が実行する処理の流れの一例を説明する。図４は、本実施形態に係る処理の流れの一例を示すフローチャートである。図４に示すように、情報提供装置１０は、ウェブサーバ２００から受け取った質問回答をベクトルデータへ変換する前処理を行う（ステップＳ１０１）。続いて、情報提供装置１０は、利用者の指示に基づくカテゴリに関連する質問回答に対応するベクトルデータを抽出する（ステップＳ１０２）。続いて、情報提供装置１０は、利用者の指示に基づいて、所定のカテゴリに関する意味空間にマッピングされた複数の質問回答の距離学習を実行させる（ステップＳ１０３）。続いて、情報提供装置１０は、距離学習されたベクトルデータに基づいてクラスタリングする（ステップＳ１０４）。続いて、情報提供装置１０は、クラスタリングにより形成された各クラスタについて、該クラスタに含まれる質問回答の見出しを形成してＦＡＱを作成して（ステップＳ１０５）、このＦＡＱを利用者に提供して処理を終了する。なお、情報提供装置１０は、ステップＳ１０１とステップＳ１０２とを実行する順序を入れ替えてもよい。また、ステップＳ１０１とステップＳ１０２とステップＳ１０３とを同時に実行してもよい。

〔５．変形例〕
上述した情報提供装置１０は、上記実施形態以外にも種々の異なる形態にて実施されてもよい。そこで、以下では、情報提供装置１０の他の実施形態について説明する。

〔５－１．前処理と距離学習処理との同時処理について〕
上記した実施形態では、情報提供装置１０は、所定のカテゴリに関する意味空間に複数の質問回答をマッピングする前処理の後に、これら質問回答の距離学習を行う距離学習処理を行っていたが、これら前処理と距離学習処理とをほぼ同時に処理して一気に学習させることもできる。

例えば、情報提供装置１０は、端末装置１００から利用者が指定するカテゴリ（検索クエリや既存の質問集合）と、利用者が指定する分け方の具体例（検索結果に基づき利用者がラベルを付ける）を取得する。情報提供装置１０は、指定されたカテゴリに関する複数の質問回答を、一方の学習モデル（オートエンコーダ）を用いて、各質問回答のテキスト情報からＮ次元ベクトルを生成する。また、情報提供装置１０は、例えば、トリプレットロスといった類似性を学習する方法により生成された他の学習モデルを用いて、ベクトル化された質問回答の距離を調整することができる。この場合、同じクラスタにしたい例は近く、別のクラスタにしたい例は遠くなるようなトリプレットロスを追加することができる。また、同じカテゴリの質問は近く、それ以外は遠くなるようなトリプレットロスを追加することもできる。

〔５－２．その他〕
また、クラスタリング処理として、取得した質問回答のベクトルデータを、例えば、ε近傍法、ｋ近傍法、全結合法などの手法を用いてグラフに変換した後、このグラフの連結性に注目してクラスタリングを行うスペクトラルクラスタリングを採用することもできる。このクラスタリングの際に、一度クラスタ化しやすい低次元表現に落としてからクラスタリングするため、利用者が指定する教師データにフィットするように、質問回答の軸の重みを調整することができる。

また、上記した実施形態では、テキスト間の距離（例えばコサイン距離）に基づいて、テキストの類似度を測っているが、例えば、ＷｏｒｄＮｅｔのような概念グラフを用いて、テキストの類似度を測ってもよい。ＷｏｒｄＮｅｔは、所謂概念辞書であり、単語ＩＤと概念ＩＤとが紐づけられているため、単語は非類似でも概念が類似する上位・下位概念の単語の類似度を測ることができる。情報提供装置１０は、例えば、ポワンカレ空間上で階層構造を保存するベクトルを学習する学習モデルを用いることで、テキストの類似度を測ることができる。

〔６．効果〕
上述してきたように、情報提供装置１０は、蓄積された複数の質問回答文書に対して、利用者の指示に基づく距離学習を行う距離学習部４３と、距離学習された質問回答文書をクラスタリングするクラスタリング処理部４４と、クラスタリングされた質問回答文書を含む各クラスタを要約してＦＡＱを作成するＦＡＱ作成部４５と、を備えるため、質問回答の粒度や軸のばらつきを抑えることができ、利用者の意図に沿ったＦＡＱを作成することができる。

また、距離学習を行う前に、複数の質問回答文書をベクトル化して所定の意味空間にマッピングする前処理を実行する前処理部４１を備えるため、意味空間にマッピングされた質問回答文書に対して、利用者の指示に基づく距離学習を容易に行うことができる。

また、距離学習部４３は、利用者の指示に基づいて学習された共分散行列を用いて、ベクトル化された質問回答文書を演算することにより、意味空間内で質問回答文書を移動させるため、質問回答の粒度や軸のばらつきを容易に抑えることができる。

また、クラスタリング処理部４４は、ベクトル化された複数の質問回答文書間の距離を考慮して、この距離の近いベクトルに対応する質問回答群によりクラスタを形成するため、質問回答の粒度や軸のばらつきを抑えたクラスタリングをすることができる。

また、ＦＡＱ作成部４５は、各クラスタに含まれる質問回答文書に見出しをつけるため、ＦＡＱを容易に作成することができる。

また、前処理部４１と距離学習部４３は、それぞれ前処理および距離学習を同時に実行するため、利用者の指示に基づく距離学習を迅速に処理できる。

〔７．ハードウェア構成〕
また、上述してきた実施形態に係る情報提供装置１０は、例えば図５に示すような構成のコンピュータ１０００によって実現される。図５は、実施形態に係る情報提供装置１０の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワーク（通信ネットワーク）Ｎを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータをネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報提供装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔８．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、前処理部４１、抽出部４２、距離学習部４３、クラスタリング処理部４４、またはＦＡＱ作成部４５を情報提供装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、前処理部４１、抽出部４２、距離学習部４３、クラスタリング処理部４４、またはＦＡＱ作成部４５を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の情報提供装置１０の機能を実現するようにしてもよい。すなわち、情報提供装置１０は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、前処理部４１は、前処理手段や前処理回路に読み替えることができる。

１０情報提供装置
２０通信部
３０記憶部
３１質問回答記憶部
３２学習モデル記憶部
４０制御部
４１前処理部
４２抽出部
４３距離学習部（学習処理部）
４４クラスタリング処理部
４５ＦＡＱ作成部
１００端末装置

Claims

蓄積された複数の質問回答文書に対して、利用者の指示に基づく距離学習を行う学習処理部と、
距離学習された質問回答文書をクラスタリングするクラスタリング処理部と、
クラスタリングされた質問回答文書を含む各クラスタを要約して質問回答集を作成するＦＡＱ作成部と、
を備えることを特徴とする情報提供装置。
前記距離学習を行う前に、複数の前記質問回答文書をベクトル化して所定の意味空間にマッピングする前処理を実行する前処理部を備えることを特徴とする請求項１に記載の情報提供装置。
前記学習処理部は、前記利用者の指示に基づいて学習された共分散行列を用いて、ベクトル化された前記質問回答文書を演算することにより、前記意味空間の内で前記質問回答文書を移動させることを特徴とする請求項２に記載の情報提供装置。
前記クラスタリング処理部は、ベクトル化された複数の前記質問回答文書の間の距離を考慮して、この距離の近いベクトルに対応する質問回答群によりクラスタを形成すること特徴とする請求項１～３のいずれか一項に記載の情報提供装置。
前記ＦＡＱ作成部は、各クラスタに含まれる質問回答文書に見出しをつけることを特徴とする請求項１～４のいずれか一項に記載の情報提供装置。
前記前処理部と前記学習処理部は、それぞれ前記前処理および前記距離学習を同時に実行することを特徴とする請求項２～５のいずれか一項に記載の情報提供装置。
蓄積された複数の質問回答文書に対して、利用者の指示に基づく距離学習を行う学習処理工程と、
距離学習された質問回答文書をクラスタリングするクラスタリング処理工程と、
クラスタリングされた質問回答文書を含む各クラスタを要約して質問回答集を作成するＦＡＱ作成工程と、
を備えることを特徴とする情報提供方法。
蓄積された複数の質問回答文書に対して、利用者の指示に基づく距離学習を行う学習処理工程と、
距離学習された質問回答文書をクラスタリングするクラスタリング処理工程と、
クラスタリングされた質問回答文書を含む各クラスタを要約して質問回答集を作成するＦＡＱ作成工程と、
をコンピュータに実行させることを特徴とする情報提供プログラム。