JP2024080128A

JP2024080128A - 学習システム、学習方法、推定システム、推定方法及びプログラム

Info

Publication number: JP2024080128A
Application number: JP2022193049A
Authority: JP
Inventors: デボプリヨバナジー; Banerjee Debapriya; モーザムジェーン; Jain Mausam; アシーシクルカルニー; kulkarni Ashish
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2024-06-13
Anticipated expiration: 2042-12-01
Also published as: JP7588629B2

Abstract

【課題】大量の文書データを用意せずとも高い学習効率及び推定精度を得る学習システム、学習方法、推定システム、推定方法及びプログラムを提供する。
【解決手段】学習装置は、クエリデータを取得するとともに、クエリデータに対応する対応文書データから、第１要素、第２要素、及び結合データを取得し、特徴量抽出モデルを用いて、クエリデータの特徴量と第１要素の特徴量との組、クエリデータの特徴量と第１要素の特徴量との組及びクエリデータの特徴量と結合データの特徴量との組を夫々抽出し、クエリデータの特徴量と第１要素の特徴量との組の類似度、クエリデータの特徴量と第１要素の特徴量との組の類似度及びクエリデータの特徴量と結合データの特徴量との組の類似度が大きくなるように、特徴量抽出モデルの学習を実行する。
【選択図】図４

Description

本開示は、学習システム、学習方法、推定システム、推定方法及びプログラムに関する。

ユーザが入力した検索キーワード（クエリ）に基づいて、そのクエリに近い内容の文書を推定する技術が知られている。

例えば、下記非特許文献１及び非特許文献２には、特徴量抽出モデルを用いてクエリデータの特徴量を抽出し、当該クエリデータの特徴量と、前記特徴量抽出モデルを用いて予め抽出された、複数の文書データのそれぞれが有する一の要素の特徴量と、の類似度を算出することにより、クエリに近い内容の文書の推定を行う技術が記載されている。

非特許文献１及び非特許文献２に記載の技術は、上記推定を行う推定段階に加え、前記特徴量抽出モデルの学習を行う学習段階を含む。具体的には、学習段階では、前記特徴量抽出モデルを用いて、クエリデータの特徴量と、そのクエリデータに対応する文書データが有する一の要素の特徴量と、が抽出される。そして、このクエリデータの特徴量と、クエリデータに対応する文書データが有する一の要素の特徴量と、の類似度が大きくなるように、前記特徴量抽出モデルの学習が行われる。

Wataru Sakata, Tomohide Shibata, Ribeka Tanaka, and Sadao Kurohashi. 2019. FAQ Retrieval using Query-Question Similarity and BERT-Based Query-Answer Relevance. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). Association for Computing Machinery, New York, NY, USA, 1113-1116. Seo, J.; Lee, T.; Moon, H.; Park, C.; Eo, S.; Aiyanyo, I.D.; Park, K.; So, A.; Ahn, S.; Park, J. Dense-to-Question and Sparse-to-Answer: Hybrid Retriever System for Industrial Frequently Asked Questions. Mathematics 2022, 10, 1335.

上記従来技術において高い学習効率及び推定精度を得るためには、学習段階及び推定段階において大量の文書データを用意することが望ましいが、そのような大量の文書データを用意することは非常に手間がかかる。

本発明は、上記課題に鑑みてなされたものであって、その目的は、大量の文書データを用意せずとも高い学習効率及び推定精度を得ることが可能な学習システム、学習方法、推定システム、推定方法及びプログラムを提供することにある。

（１）本開示に係る学習システムは、クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得手段と、特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出手段と、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習手段と、を有する。

（２）（１）の学習システムにおいて、前記取得手段は更に、前記複数の文書データに含まれ、前記クエリデータに対応しない非対応文書データから、前記第１要素、前記第２要素、及び前記結合データを取得し、前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記クエリデータと前記非対応文書データの前記第１要素との組、前記クエリデータと前記非対応文書データの前記第２要素との組、及び前記クエリデータと前記非対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記非対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記非対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記非対応文書データの前記結合データの特徴量との組をそれぞれ抽出し、前記学習手段は更に、前記クエリデータの特徴量と前記非対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記非対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記非対応文書データの前記結合データの特徴量との組の類似度が小さくなるように、前記特徴量抽出モデルの学習を実行してもよい。

（３）（１）又は（２）の学習システムにおいて、前記取得手段は更に、前記複数の文書データに含まれる第１文書データから前記第１要素及び前記第２要素を取得し、前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方との組から、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方の特徴量との組を抽出し、前記学習手段は更に、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方の特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行してもよい。

（４）（３）の学習システムにおいて、前記取得手段は更に、前記複数の文書データに含まれる第２文書データから前記第１要素又は前記第２要素を取得し、前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方との組から、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量との組を抽出し、前記学習手段は更に、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量との組の類似度が小さくなるように、前記特徴量抽出モデルの学習を実行してもよい。

（５）（３）又は（４）の学習システムにおいて、前記取得手段は更に、前記第１文書データから前記結合データを取得し、前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つと前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つとの組から、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つの特徴量と前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つの特徴量との組を抽出し、前記学習手段は更に、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つの特徴量と前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行してもよい。

（６）本開示に係る推定システムは、第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得手段と、前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得手段と、クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出手段と、前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出手段と、前記複数の文書データのそれぞれについて前記算出手段により算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択手段と、を有する。

（７）（６）の推定システムにおいて、前記選択手段は、前記複数の文書データのそれぞれについての前記第１類似度及び前記結合類似度の代表値に基づき、前記複数の文書データのうち１以上を選択してもよい。

（８）（６）又は（７）の推定システムにおいて、前記複数の文書データのそれぞれの前記第２要素から前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第２要素の特徴量を取得する第２特徴量取得手段を更に有し、前記算出手段は更に、前記複数の文書データのそれぞれについて、前記第２要素の特徴量と前記クエリデータの特徴量との組の類似度である第２類似度を算出し、前記選択手段は、前記複数の文書データのそれぞれについて前記算出手段により算出される前記第２類似度に更に基づき、前記複数の文書データのうち１以上を選択してもよい。

（９）（６）から（８）のいずれかの推定システムにおいて、前記特徴量抽出モデルは、学習用クエリデータを取得するとともに、前記学習用クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記結合データを取得すること、特徴量抽出モデルを用いて、前記学習用クエリデータと前記対応文書データの前記第１要素との組、前記学習用クエリデータと前記対応文書データの前記第２要素との組、及び前記学習用クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記学習用クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記学習用クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記学習用クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出すること、前記学習用クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記学習用クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記学習用クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行すること、により生成されたものであってもよい。

（１０）本開示に係る学習方法は、クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得ステップと、特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出ステップと、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習ステップと、を有する。

（１１）本開示に係る推定方法は、第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得ステップと、前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得ステップと、クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出ステップと、前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出ステップと、前記複数の文書データのそれぞれについて前記算出ステップにより算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択ステップと、を有する。

（１２）本開示に係るプログラムは、クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得手段、特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出手段、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習手段、としてコンピュータを機能させる。

（１３）本開示に係るプログラムは、第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得手段、
前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得手段、クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出手段、前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出手段、前記複数の文書データのそれぞれについて前記算出手段により算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択手段、としてコンピュータを機能させる。

推定システムのハードウェア構成の一例を示す図である。ＦＡＱ検索サービスページの画面遷移の一例を示す図である。推定システムで実現される機能の一例を示す機能ブロック図である。学習装置において実行される処理の概要を示す図である。学習装置において実行される処理の概要を示す図である。原学習データセットの一例を示す図である。加工学習データセットの一例を示す図である。対照損失を用いた学習を模式的に示す図である。推定装置において実行される処理の概要を示す図である。特徴量データベースの作成方法の一例を説明する図である。

［１．推定システムのハードウェア構成］
以下、本開示に係る学習装置と推定装置を含む推定システムの例を説明する。図１は、推定システムのハードウェア構成の一例を示す図である。図１に示すように、推定システムＳは、学習装置１０及び推定装置２０を含み、これらは、インターネット又はＬＡＮ等のネットワークＮに接続される。なお、図１では、学習装置１０及び推定装置２０を１台ずつ示しているが、これらは複数台あってもよい。また、図１では、学習装置１０及び推定装置２０がそれぞれ異なる場合を示しているが、これらは同一の装置であってもよい。さらに、学習装置１０及び推定装置２０は、互いに異なるシステムに属していてもよい。

学習装置１０は、ユーザが操作するコンピュータである。例えば、学習装置１０は、パーソナルコンピュータ、サーバコンピュータ、携帯情報端末（タブレット型コンピュータ及びウェアラブル端末を含む）、又は携帯電話機（スマートフォンを含む）等である。学習装置１０は、制御部１１、記憶部１２、通信部１３、操作部１４、及び表示部１５を備える。

制御部１１は、少なくとも１つのプロセッサを有する。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。

通信部１３は、有線通信又は無線通信用の通信インタフェースであり、ネットワークＮを介してデータ通信を行う。操作部１４は、操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタン等である。表示部１５は、例えば、液晶表示部又は有機ＥＬ表示部等である。表示部１５は、制御部１１の指示に従って画像を表示する。

推定装置２０は、ユーザが操作するコンピュータである。学習装置１０のユーザと推定装置２０のユーザは、同じであってもよいし異なっていてもよい。例えば、推定装置２０は、パーソナルコンピュータ、サーバコンピュータ、携帯情報端末（タブレット型コンピュータ及びウェアラブル端末を含む）、又は携帯電話機（スマートフォンを含む）等である。推定装置２０は、制御部２１、記憶部２２、通信部２３、操作部２４、及び表示部２５を含む。制御部２１、記憶部２２、通信部２３、操作部２４、及び表示部２５の各々の物理的構成は、それぞれ制御部１１、記憶部１２、通信部１３、操作部１４、及び表示部１５と同様であってよい。

なお、記憶部１２，２２に記憶されるものとして説明するプログラム及びデータは、ネットワークＮを介して供給されるようにしてもよい。また、学習装置１０及び推定装置２０の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して、各コンピュータに供給されるようにしてもよい。

［２．推定システムの概要］
推定システムＳは、ユーザが入力したクエリに基づいて、複数の文書の中からそのクエリに近い内容の文書を推定する。クエリは主には文字情報であるが、数値等をクエリとして用いてもよい。この文字情報は、キーワード又は検索文字列と呼ばれることもある。例えば、文字情報は、１つの単語（検索語）だけを含んでもよいし、複数の単語を含んでもよい。文字情報が複数の単語を含む場合には、複数の単語がスペースで区切られてもよい。この場合、複数の単語は、ＡＮＤ条件で用いられてもよいし、ＯＲ条件で用いられてもよい。また例えば、文字情報は、単語に限られず、文章であってもよいし、文章の一部であってもよい。

本実施形態では、推定システムＳをＥＣサイトにおけるよくある質問（以下、「ＦＡＱ」という。）検索サービスに適用する場合を説明する。例えば、推定システムＳは、ユーザが自身のユーザ端末に入力した文字情報をクエリとして取得し、そのクエリに近い内容の一又は複数のＦＡＱ文書を推定する。なお、推定システムＳは、ＦＡＱ検索以外の任意の場面に適用可能であり、例えば、論文検索や特許文献検索等、種々の場面に適用可能である。

例えば、ユーザが自己のユーザ端末を操作して、推定装置２０にアクセスすると、ＦＡＱ検索サービスのトップ画面がユーザ端末の表示部に表示される。なお、以降説明する画面は、ユーザ端末に記憶されたアプリケーションの画面として表示されてもよいし、ウェブブラウザの画面として示されてもよい。また、本実施形態では、スマートフォン用の画面を例に挙げるが、デスクトップ用又はタブレット用といった他のレイアウトの画面が表示されてもよい。

図２は、ＦＡＱ検索サービスページの画面遷移の一例を示す図である。図２の左側に示すトップ画面Ｇ１には、クエリＱを入力するための入力フォームＦと、検索を実行するためのボタンＢと、が表示される。ユーザがクエリＱを入力フォームＦに入力しボタンＢを選択すると、クエリＱに近い内容のＦＡＱ文書を推定装置２０が検索する。概括的には、推定装置２０は、データベースに記憶された複数のＦＡＱ文書のそれぞれとクエリＱとがどの程度類似するかを決定し、当該複数のＦＡＱ文書の中から、クエリＱとの類似の程度が大きい順に一定数のＦＡＱ文書を選択する。図２に示すように、選択されたＦＡＱ文書のタイトルＴの一覧は、トップ画面Ｇ１において検索結果ＳＲとして表示される。なお、本実施形態では、クエリＱとの類似の程度が大きい順（降順）にＦＡＱ文書が選択される場合を説明するが、クエリＱとの類似の程度が小さい順（昇順）にＦＡＱ文書が選択されてもよい。

検索結果ＳＲとして表示されたＦＡＱ文書のタイトルＴの一覧からいずれか１つをユーザが選択すると、画面はトップ画面Ｇ１から図２の右側に示すＦＡＱ画面Ｇ２に遷移する。ＦＡＱ画面Ｇ２は、選択されたタイトルＴに対応するＦＡＱ文書を表示する。ＦＡＱ文書は、第１要素であるタイトルＴと、第２要素である回答文Ａと、第３要素であるカテゴリＣと、を含む。なお、ＦＡＱ文書は、上記以外の要素を含んでいてもよく、例えば、キーワードや役立ち度、閲覧数等をその要素として含んでいてもよい。

タイトルＴは、各ＦＡＱ文書の質問文に該当する。タイトルＴは、各ＦＡＱ文書の題名あるいは要約ということもできる。回答文Ａは、各ＦＡＱ文書の回答文に該当する。回答文Ａは、各ＦＡＱ文書の本文ということもできる。

カテゴリＣは、各ＦＡＱ文書が属する分類であり、当該ＦＡＱ文書の内容に応じて定められる。カテゴリＣは、例えば「ログイン・会員登録」、「ポイント」、「注文方法」等である。本実施形態では、各ＦＡＱ文書が属するクラスは、一般的なものから特殊なものと多段階に分類されている。すなわち、カテゴリＣは、階層型のカテゴリであり、例えば、「ＥＣサイトトップ＞問い合わせトップ＞ログイン・会員登録」のように定められる。

ところで、背景技術の欄において説明したように、従来技術では、特徴量抽出モデルを用いて抽出された、ＦＡＱ文書の一の要素（例えば、タイトルＴ又は回答文Ａ）の特徴量と、クエリＱの特徴量と、の類似度に基づいて、ＦＡＱ文書とクエリＱとがどの程度類似するかを決定していた。しかしながら、ＦＡＱ文書は複数の要素、すなわち複数の側面を有するものであるにもかかわらず、従来技術ではそのうちの一側面しか考慮されない。そのため、従来技術では、高い推定精度を得づらく、推定精度の向上には大量のＦＡＱ文書データを用意することが望ましいとされていた。

この点、本実施形態に係る推定システムＳの推定装置２０は、特徴量抽出モデルを用いて抽出された、タイトルＴの特徴量、回答文Ａの特徴量、カテゴリＣの特徴量、タイトルＴと回答文Ａとの結合の特徴量、タイトルＴとカテゴリＣとの結合の特徴量、回答文ＡとカテゴリＣとの結合の特徴量、及びタイトルＴと回答文ＡとカテゴリＣとの結合の特徴量のそれぞれと、クエリＱの特徴量と、の類似度に基づいて、各ＦＡＱ文書とクエリＱとがどの程度類似するかを決定する。これにより、各ＦＡＱ文書とクエリＱとがどの程度類似するかを、そのＦＡＱ文書の一側面のみならず複数の側面を考慮して決定するため、大量のＦＡＱ文書データを用意することなく推定精度を向上させることができる。

また、背景技術の欄において説明したように、従来技術では、学習段階において、クエリＱの特徴量と、そのクエリＱに対応するＦＡＱ文書の一の要素の特徴量と、が特徴量抽出モデルを用いて抽出される。そして、クエリＱの特徴量と、クエリＱに対応するＦＡＱ文書の一の要素の特徴量と、の類似度が大きくなるように、前記特徴量抽出モデルの学習が行われる。しかしながら、このような従来技術では、一のＦＡＱ文書データから一の学習データしか得られないため、高い学習効率を得づらく、学習効率の向上には大量のＦＡＱ文書データを用意することが望ましいとされていた。

この点、本実施形態に係る推定システムＳの学習装置１０は、クエリＱの特徴量と、そのクエリＱに対応するＦＡＱ文書のタイトルＴの特徴量、回答文Ａの特徴量、カテゴリＣの特徴量、タイトルＴと回答文Ａとの結合の特徴量、タイトルＴとカテゴリＣとの結合の特徴量、回答文ＡとカテゴリＣとの結合の特徴量、及びタイトルＴと回答文ＡとカテゴリＣとの結合の特徴量と、を特徴量抽出モデルを用いて抽出する。そして、クエリＱの特徴量と、そのクエリＱに対応するＦＡＱ文書のタイトルＴの特徴量、回答文Ａの特徴量、カテゴリＣの特徴量、タイトルＴと回答文Ａとの結合の特徴量、タイトルＴとカテゴリＣとの結合の特徴量、回答文ＡとカテゴリＣとの結合の特徴量、及びタイトルＴと回答文ＡとカテゴリＣとの結合の特徴量のそれぞれと、の組の類似度が大きくなるように、特徴量抽出モデルの学習を実行する。これにより、一のＦＡＱ文書データから複数の学習データを得ることができるため、大量のＦＡＱ文書データを用意することなく学習効率を向上させることができる。以降、推定システムＳの詳細について説明する。

［３．推定システムで実現される機能］
図３は、推定システムで実現される機能の一例を示す機能ブロック図である。ここでは、学習装置１０で実現される機能と、推定装置２０で実現される機能と、について説明する。

［３－１．学習装置で実現される機能］
学習装置１０では、データ記憶部１００、取得部１０１、抽出部１０２、及び学習部１０３が実現される。データ記憶部１００は、記憶部１２を主として実現され、取得部１０１、抽出部１０２及び学習部１０３はそれぞれ、制御部１１を主として実現される。以下、図４及び図５を参照しながら、学習装置１０について説明する。図４及び図５は、学習装置において実行される処理の概要を示す図である。なお、図４及び図５に示す処理は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することによって実行される。

［データ記憶部］
データ記憶部１００は、特徴量抽出モデルＦＥと学習データベースＬＤＢとを記憶する。

特徴量抽出モデルＦＥは、単語や文章等の文字情報から、当該文字情報の特徴量を抽出する機械学習モデルである。特徴量抽出モデルＦＥとしては、種々の公知の機械学習モデルを利用可能であり、例えばＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）やＬａＢＳＥ（Ｌａｎｇｕａｇｅ－ａｇｎｏｓｔｉｃＢＥＲＴＳｅｎｔｅｎｃｅＥｍｂｅｄｄｉｎｇ）等が特徴量抽出モデルＦＥとして利用可能である。

本実施形態では、特徴量は、具体的には潜在空間と呼ばれるベクトル空間に埋め込まれたベクトル（埋め込みベクトル）である。後に詳述するが、潜在空間においては、意味が似ている２つの単語又は文章は互いに近い位置に埋め込まれ、意味が似ていない２つの単語又は文章は互いに離れた位置に埋め込まれる（図８参照）。埋め込みベクトルは分散表現とも呼ばれる。

なお、本実施形態で特徴量抽出モデルＦＥと記載した箇所は、特徴量抽出のコンセプトを意味するのではなく、そのコンセプトにより生み出された電子的なデータを意味する。すなわち、特徴量抽出モデルＦＥは、プログラムとパラメータとを含む。なお、特徴量抽出モデルＦＥは、プログラム又はパラメータのいずれかだけを意味してもよい。

特徴量抽出モデルＦＥに含まれるプログラムには、コンピュータが実行すべき処理内容（命令又は計算式）が定義されている。パラメータは、学習によって調整される数値を含み、例えば、重み付け係数やバイアス等の数値を含む。学習前の特徴量抽出モデルＦＥであれば、初期値のパラメータを含み、学習済みの特徴量抽出モデルＦＥであれば、学習によって調整されたパラメータを含む。

本実施形態では、学習済みの特徴量抽出モデルＦＥは、推定装置２０のデータ記憶部２００に記憶される場合を説明するが、学習済みの特徴量抽出モデルＦＥは、学習装置１０のデータ記憶部１００にも記憶されていてよい。他にも例えば、データ記憶部１００は、学習の処理に必要なプログラムや後述する数式（数１）を記憶してもよい。この数式は、プログラムの一部として記述されていてもよい。

学習データベースＬＤＢは、原学習データセットＬＤＳ－ｏを格納する。図６は、原学習データセットの一例を示す図である。図６に示すように、原学習データセットＬＤＳ－ｏは、クエリデータＱＤと、ＦＡＱ文書データＤＤと、を含む。詳細は後述するが、原学習データセットＬＤＳ－ｏは、このまま学習に利用されるのではなく、取得部１０１にて加工学習データセットＬＤＳ－ｐへと加工されたのちに学習に利用される。

ＦＡＱ文書データＤＤは、その要素として、タイトルデータＴＤ（第１要素）と、回答文データＡＤ（第２要素）と、カテゴリデータＣＤと、を有する。原学習データセットＬＤＳ－ｏでは、複数のクエリデータＱＤのそれぞれは、そのクエリデータＱＤに最も近い内容のＦＡＱを示すＦＡＱ文書データＤＤと対応づけられている。別の見方をすれば、原学習データセットＬＤＳ－ｏは、複数のクエリデータＱＤのそれぞれに対応する対応ＦＡＱ文書データＤＤ－ｍ（対応文書データ）と、複数のクエリデータＱＤのそれぞれに対応しない非対応ＦＡＱ文書データＤＤ－ｎ（非対応文書データ）と、を有するということもできる（図４参照）。

なお、図６では便宜上、複数のクエリデータＱＤのそれぞれを「クエリ１」等としているが、実際には、クエリデータＱＤは、ユーザが検索の際に入力すると想定される単語又は文章等の文字情報である。例えば、「クエリ１」は「商品いつ届く」という文章、「クエリ２」は「パスワード忘れた」という文章であってよい。

また、タイトルデータＴＤ、回答文データＡＤ、及びカテゴリデータＣＤもそれぞれ、クエリデータＱＤと同様に、ＦＡＱ文書内に記載された単語または文章等の文字情報である。例えば、上記例の「クエリ１」（「商品いつ届く」）に対応するタイトルデータＴＤ（「タイトル１」）、回答文データＡＤ（「回答文１」）、及びカテゴリデータＣＤ（「カテゴリ１」）はそれぞれ、「商品の配送期間について」という文章、「商品の販売ページに配送時期・配送方法についての説明がないかご確認ください。…」という文章、「ＥＣサイトトップ＞問い合わせトップ＞取引に関するトラブル」という文章であってよい。なお、クエリデータＱＤ、タイトルデータＴＤ、回答文データＡＤ、及びカテゴリデータＣＤは数値等を含んでもよい。

［取得部］

以降、図３から図５に加えて図７を更に用いて、取得部１０１について説明する。図７は、加工学習データセットの一例を示す図である。

取得部１０１は、原学習データセットＬＤＳ－ｏから、加工学習データセットＬＤＳ－ｐを取得する。図７に示すように、加工学習データセットＬＤＳ－ｐは、原学習データセットＬＤＳ－ｏと同様に、クエリデータＱＤ、タイトルデータＴＤ、回答文データＡＤ及びカテゴリデータＣＤを含む。さらに加工学習データセットＬＤＳ－ｐは、タイトルデータＴＤと回答文データＡＤとを結合したタイトル－回答文結合データＴＡＤ、タイトルデータＴＤとカテゴリデータＣＤとを結合したタイトル－カテゴリ結合データＴＣＤ、回答文データＡＤとカテゴリデータＣＤとを結合した回答文－カテゴリ結合データＡＣＤ、及びタイトルデータＴＤと回答文データＡＤとカテゴリデータＣＤとを結合したタイトル－回答文－カテゴリ結合データＴＡＣＤを含む。すなわち、加工学習データセットＬＤＳ－ｐは、クエリデータＱＤと、ＦＡＱ文書データＤＤ由来の７種類のデータと、を含む。

具体的には、タイトル－回答文結合データＴＡＤは、タイトルデータＴＤと回答文データＡＤとを文字列結合により結合したものである。本実施形態では、この文字列結合は、［ＳＥＰ］トークンを２文の間に挿入することにより行う。例えば、タイトルデータＴＤが「商品の配送期間について」であれば、末尾に回答文データＡＤとして「商品の販売ページに配送時期・配送方法についての説明がないかご確認ください。…」を付加することにより、「『商品の配送期間について』‘［ＳＥＰ］’『商品の販売ページに配送時期・配送方法についての説明がないかご確認下さい。…』」というタイトル－回答文結合データＴＡＤを得ることができる。なお、結合の順番は上記と逆であってもよい。また、文字列結合は学習装置１０が行ってもよいし、他の装置により結合されたタイトル－回答文結合データＴＡＤを学習装置１０が取得してもよい。また、文字列結合は自動又は手動のいずれで行ってもよい。タイトル－カテゴリ結合データＴＣＤ、回答文－カテゴリ結合データＡＣＤ、及びタイトル－回答文－カテゴリ結合データＴＡＣＤも、上記と同様の文字列結合により得られる。

さて、図４に示すように、取得部１０１は、学習データベースＬＤＢの原学習データセットＬＤＳ－ｏから、クエリデータＱＤと、そのクエリデータＱＤに対応する対応ＦＡＱ文書データＤＤ－ｍと、そのクエリデータＱＤに対応しない非対応ＦＡＱ文書データＤＤ－ｎと、を取得する。例えば、クエリデータＱＤが「商品いつ届く」であれば、対応ＦＡＱ文書データＤＤ－ｍのタイトルデータＴＤ－ｍは「商品の配送期間について」、非対応ＦＡＱ文書データＤＤ－ｎのタイトルデータＴＤ－ｎは「ポイント利用方法について」であってよい。

更に取得部１０１は、図４に示すように、対応ＦＡＱ文書データＤＤ－ｍから、タイトルデータＴＤ－ｍ、回答文データＡＤ－ｍ、タイトル－回答文データＴＡＤ－ｍを取得する。また、取得部１０１は、非対応ＦＡＱ文書データＤＤ－ｎから、タイトルデータＴＤ－ｎ、回答文データＡＤ－ｎ、タイトル－回答文結合データＴＡＤ－ｎを取得する。

なお、図４では説明の便宜上、取得部１０１が、カテゴリデータＣＤ、タイトル－カテゴリ結合データＴＣＤ、回答文－カテゴリ結合データＡＣＤ、及びタイトル－回答文－カテゴリ結合データＴＡＣＤを取得する様子を省略して示しているが、実際には取得部１０１はこれらのデータを取得している。以降の説明においても、これらのデータについての処理は省略するが、実際には、これらのデータは、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤについて行われる処理と同様の処理に供される。なお、取得部１０１は上記データを取得せず、クエリデータＱＤ、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤのみを取得するようにしてもよい。

図４に示すように、クエリデータＱＤと対応ＦＡＱ文書データＤＤ－ｍのタイトルデータＴＤ－ｍと非対応ＦＡＱ文書データＤＤ－ｎのタイトルデータＴＤ－ｎとは第１入力グループＩＧ１をなす。同様に、クエリデータＱＤと、対応ＦＡＱ文書データＤＤ－ｍの回答文データＡＤ－ｍと非対応ＦＡＱ文書データＤＤ－ｎの回答文データＡＤ－ｎとは第２入力グループＩＧ２をなす。また、クエリデータＱＤと対応ＦＡＱ文書データＤＤ－ｍのタイトル－回答文結合データＴＡＤ－ｎと非対応ＦＡＱ文書データＤＤ－ｎのタイトル－回答文結合データＴＡＤ－ｎとは第３入力グループＩＧ３をなす。

ここで図５に移り、取得部１０１は、学習データベースＬＤＢの原学習データセットＬＤＳ－ｏから、第１ＦＡＱ文書データＤＤ－ａ（第１文書データ）と、第２ＦＡＱ文書データＤＤ－ｂ（第２文書データ）と、を取得する。図４及び図５では、第１ＦＡＱ文書データＤＤ－ａと対応ＦＡＱ文書データＤＤ－ｍとが異なるＦＡＱ文書データであるとともに、第２ＦＡＱ文書データＤＤ－ｂと非対応ＦＡＱ文書データＤＤ－ｎとが異なるＦＡＱ文書データである場合を示す。なお、第１ＦＡＱ文書データＤＤ－ａと対応ＦＡＱ文書データＤＤ－ｍとは同じＦＡＱ文書データであってもよく、第２ＦＡＱ文書データＤＤ－ｂと非対応ＦＡＱ文書データＤＤ－ｎとは同じＦＡＱ文書データであってもよい。

また、図５に示すように、取得部１０１は、第１ＦＡＱ文書データＤＤ－ａから回答文データＡＤ－ａ及びタイトルデータＴＤ－ａを取得するとともに、第２ＦＡＱ文書データＤＤ－ｂからタイトルデータＴＤ－ｂ又は回答文データＡＤ－ｂを取得する。具体的には、図５に示すように、取得部１０１は、第１ＦＡＱ文書データＤＤ－ａから回答文データＡＤ－ａ及びタイトルデータＴＤ－ａを取得するとともに、第２ＦＡＱ文書データＤＤ－ｂからタイトルデータＴＤ－ｂを取得する。

また、取得部１０１は、図５に示すように、第１ＦＡＱ文書データＤＤ－ａから回答文データＡＤ－ａ及びタイトル－回答文結合データＴＡＤ－ａを取得するとともに、第２ＦＡＱ文書データＤＤ－ｂからタイトル－回答文結合データＴＡＤ－ｂを取得する。

ここで、第１ＦＡＱ文書データＤＤ－ａの回答文データＡＤ－ａ及びタイトルデータＴＤ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトルデータＴＤ－ｂとは第４入力グループＩＧ４をなす。また、第１ＦＡＱ文書データＤＤ－ａの回答文データＡＤ－ａ及びタイトル－回答文結合データＴＡＤ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトル－回答文結合データＴＡＤ－ｂとは第５入力グループＩＧ５をなす。

なお、図５では、取得部１０１が第４入力グループＩＧ４及び第５入力グループＩＧ５を取得する様子のみを示しているが、実際には、取得部１０１は、これら以外の複数の入力グループを取得している。すなわち、例えば取得部１０１は、実際には、第１ＦＡＱ文書データＤＤ－ａのカテゴリデータＣＤ－ａ及び回答文データＡＤ－ａと第２ＦＡＱ文書データＤＤ－ｂの回答文データＡＤ－ｂとがなす入力グループを取得している。なお、このような入力グループにおけるデータの組合せはこの例に限られない。以降の説明においても、第４入力グループＩＧ４及び第５入力グループＩＧ５以外の入力グループについての処理は省略するが、実際には、当該入力グループは、第４入力グループＩＧ４及び第５入力グループＩＧ５について行われる処理と同様の処理に供される。なお、取得部１０１は上記入力グループを取得せず、第４入力グループＩＧ４及び第５入力グループＩＧ５のみを取得するようにしてもよい。

［抽出部］
図４に示すように、抽出部１０２は、第１入力グループＩＧ１、第２入力グループＩＧ２及び第３入力グループＩＧ３のそれぞれから、特徴量抽出モデルＦＥを用いて、クエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍのタイトルデータの特徴量ＴＦ－ｍと非対応ＦＡＱ文書データＤＤ－ｎのタイトルデータの特徴量ＴＦ－ｎとがなす第１出力グループＯＧ１、クエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍの回答文データの特徴量ＡＦ－ｍと非対応ＦＡＱ文書データＤＤ－ｎの回答文データの特徴量ＡＦ－ｎとがなす第２出力グループＯＧ２、及びクエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍのタイトル－回答文結合データの特徴量ＴＡＦ－ｍと非対応ＦＡＱ文書データＤＤ－ｎのタイトル－回答文結合データの特徴量ＴＡＦ－ｎとがなす第３出力グループＯＧ３をそれぞれ抽出する。

図５に移り、抽出部１０２は、第４入力グループＩＧ４及び第５入力グループＩＧ５から、特徴量抽出モデルＦＥを用いて、第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａ及びタイトルデータの特徴量ＴＦ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトルデータの特徴量ＴＦ－ｂとがなす第４出力グループＯＧ４、及び第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａ及びタイトル－回答文結合データの特徴量ＴＡＦ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトル－回答文結合データの特徴量ＴＡＦ－ｂとがなす第５出力グループＯＧ５をそれぞれ抽出する。

［学習部］
以下では、更に図８を用いて、学習部１０３について説明する。図８は、対照損失を用いた学習を模式的に示す図である。図８に示すように、学習部１０３は、クエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍのタイトルデータの特徴量ＴＦ－ｍとの組の類似度、クエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍの回答文データの特徴量ＡＦ－ｍとの組の類似度、及びクエリデータの特徴量ＱＦと対応ＦＡＱ文書データＤＤ－ｍのタイトル－回答文結合データの特徴量ＴＡＦ－ｍとの組の類似度が大きくなるように、特徴量抽出モデルＦＥの学習を実行する。

また、図８に示すように、学習部１０３は、クエリデータの特徴量ＱＦと非対応ＦＡＱ文書データＤＤ－ｎのタイトルデータの特徴量ＴＦ－ｎとの組の類似度、クエリデータの特徴量ＱＦと非対応ＦＡＱ文書データＤＤ－ｎの回答文データの特徴量ＡＦ－ｎとの組の類似度、及びクエリデータの特徴量ＱＦと非対応ＦＡＱ文書データＤＤ－ｎのタイトル－回答文結合データの特徴量ＴＡＦ－ｎとの組の類似度が小さくなるように、特徴量抽出モデルＦＥの学習を実行する。

図４に示すように、本実施形態では、学習部１０３は、以下数１に示す対照損失Ｌ（ＣｏｎｔｒａｓｔｉｖｅＬｏｓｓ）を用いて、特徴量抽出モデルＦＥの学習を実行する。対照損失Ｌは、クエリデータの特徴量と対応ＦＡＱ文書データＤＤ－ｍの各特徴量との類似度ｓｉｍ（ＱＦ，Ｆ_ｉ－ｍ）が大きくなればなるほど、クエリデータの特徴量と非対応ＦＡＱ文書データＤＤ－ｎの各特徴量との類似度ｓｉｍ（ＱＦ，Ｆ_ｊ－ｎ）が小さくなればなるほど、小さくなる。

ここで、Ｆ_ｉ－ｍはｉ番目の対応ＦＡＱ文書データＤＤ－ｍの特徴量であり、Ｆ_ｊ－ｎはｊ番目の非対応ＦＡＱ文書データＤＤ－ｎの特徴量である。ｉ及びｊはそれぞれ７以下の自然数である。具体的には、Ｆ_ｉ－ｍは、対応ＦＡＱ文書データＤＤ－ｍのタイトルデータの特徴量ＴＦ－ｍ、回答文データの特徴量ＡＦ－ｍ、カテゴリデータの特徴量ＣＦ－ｍ、タイトル－回答文結合データの特徴量ＴＡＦ－ｍ、タイトル－カテゴリ結合データの特徴量ＴＣＦ－ｍ、回答文－カテゴリ結合データの特徴量ＡＣＦ－ｍ、又はタイトル－回答文－カテゴリ結合データの特徴量ＴＡＣＦ－ｍのいずれかである。

同様に、Ｆ_ｊ－ｎは、非対応ＦＡＱ文書データＤＤ－ｎのタイトルデータの特徴量ＴＦ－ｎ、回答文データの特徴量ＡＦ－ｎ、カテゴリデータの特徴量ＣＦ－ｎ、タイトル－回答文結合データの特徴量ＴＡＦ－ｎ、タイトル－カテゴリ結合データの特徴量ＴＣＦ－ｎ、回答文－カテゴリ結合データの特徴量ＡＣＦ－ｎ、又はタイトル－回答文－カテゴリ結合データの特徴量ＴＡＣＦ－ｎのいずれかである。

類似度は、例えば特徴量同士のコサイン類似度や距離を算出することにより求めることができる。学習部１０３は、対照損失Ｌが小さくなるように、逆誤差伝播法や勾配降下法、Ａｄａｍ等、公知のパラメータ調整方法を利用して、特徴量抽出モデルＦＥのパラメータを調整する。なお、対照損失Ｌとしては、数１に示すもののほか、任意の関数を利用可能である。

また、学習部１０３は、第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａと第１ＦＡＱ文書データＤＤ－ａのタイトルデータの特徴量ＴＦ－ａとの組の類似度、及び第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａと第１ＦＡＱ文書データＤＤ－ａのタイトル－回答文結合データの特徴量ＴＡＦ－ａとの組の類似度が大きくなるように、特徴量抽出モデルＦＥの学習を実行する。更に、学習部１０３は、第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトルデータの特徴量ＴＦ－ｂとの組の類似度、及び、第１ＦＡＱ文書データＤＤ－ａの回答文データの特徴量ＡＦ－ａと第２ＦＡＱ文書データＤＤ－ｂのタイトル－回答文結合データの特徴量ＴＡＦ－ｂとの組の類似度が小さくなるように、特徴量抽出モデルＦＥの学習を実行する。学習の方法自体は、上記図８及び数１を用いて説明したのと同様に、対照損失を用いた方法が利用可能であるが、これに限られない。

以上に説明した本実施形態に係る学習装置１０によれば、一のＦＡＱ文書データから複数の学習データを得ることができるため、大量のＦＡＱ文書データを用意することなく学習効率を向上させることができる。

また、本実施形態に係る学習装置１０では、クエリデータＱＤの特徴量と対応ＦＡＱ文書データＤＤ－ｍの要素の特徴量と非対応ＦＡＱ文書データＤＤ－ｎの要素の特徴量とがなすグループを用いた学習（図４参照）に加え、第１ＦＡＱ文書データＤＤ－ａの一の要素の特徴量と第１ＦＡＱ文書データＤＤ－ａの他の要素の特徴量と第２ＦＡＱ文書データＤＤ－ｂの一の要素の特徴量とがなすグループを用いた学習（図５参照）を実行する。すなわち、本実施形態に係る学習装置１０における学習は、同じＦＡＱ文書データに属する特徴量同士の類似度は大きく、異なるＦＡＱ文書データに属する特徴量同士の類似度は小さい、という暗黙的な関係性に基づく、クエリデータＱＤを含まない学習データを利用するものである。このような学習データを用いることにより、学習のために用意すべきクエリデータＱＤの数を減らすことができる。

［３－２．推定装置で実現される機能］
図３に戻り、推定装置２０では、データ記憶部２００、取得部２０１、抽出部２０２、算出部２０３及び選択部２０４が実現される。データ記憶部２００は、記憶部２２を主として実現され、取得部２０１、抽出部２０２、算出部２０３及び選択部２０４はそれぞれ、制御部２１を主として実現される。以下、図９を参照しながら、推定装置２０について説明する。図９は、推定装置において実行される処理の概要を示す図である。なお、図９に示す処理は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することによって実行される。

［データ記憶部］
データ記憶部２００は、学習済みの特徴量抽出モデルＦＥと特徴量データベースＦＤＢとを記憶する。具体的には、データ記憶部２００は、前述の学習装置１０での学習によりパラメータが調整された特徴量抽出モデルＦＥを記憶する。なお、データ記憶部２００に記憶された特徴量抽出モデルＦＥは、必ずしも学習装置１０で学習されたものでなくてもよい。

以下、図１０を用いて、特徴量データベースＦＤＢについて説明する。図１０は、特徴量データベースの作成方法の一例を説明する図である。本実施形態では、推定装置２０が特徴量データベースＦＤＢを作成する場合を説明するが、特徴量データベースＦＤＢは外部の装置により作成されたものであってもよい。

図１０に示すように、推定装置２０は、複数のＦＡＱ文書データＤＤを含むＦＡＱ文書データセットＤＤＳを取得し、複数のＦＡＱ文書データＤＤのそれぞれから、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤを取得する。なお、図１０では、説明の便宜上、カテゴリデータＣＤ、タイトル－カテゴリ結合データＴＣＤ、回答文－カテゴリ結合データＡＣＤ、及びタイトル－回答文－カテゴリ結合データＴＡＣＤが取得される様子が省略されているが、実際には推定装置２０はこれらを取得している。以降の説明においても、これらのデータについての処理は省略するが、実際には、これらのデータは、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤについて行われる処理と同様の処理に供される。なお、推定装置２０はこれらを取得せず、クエリデータＱＤ、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤのみを取得するようにしてもよい。

推定装置２０は、タイトルデータＴＤ、回答文データＡＤ、及びタイトル－回答文結合データＴＡＤのそれぞれから、学習済みの特徴量抽出モデルＦＥを用いて、タイトルデータの特徴量ＴＦ、回答文データの特徴量ＡＦ、タイトル－回答文結合データの特徴量ＴＡＦをそれぞれ抽出する。こうして抽出された複数のＦＡＱ文書データＤＤのそれぞれの特徴量は特徴量データベースＦＤＢに格納され、データ記憶部２００に記憶される。

［取得部］
図９に移り、取得部２０１は、特徴量データベースＦＤＢから、複数のＦＡＱ文書データＤＤのそれぞれのタイトルデータの特徴量ＴＦ、回答文データの特徴量ＡＦ、タイトル－回答文結合データの特徴量ＴＡＦを取得する。

［抽出部］
抽出部２０２は、推定対象のクエリデータＥＱＤから、学習済みの特徴量抽出モデルＦＥを用いて、推定対象のクエリデータの特徴量ＥＱＦを抽出する。推定対象のクエリデータＥＱＤは、例えば、ユーザがＦＡＱ検索サービスページの入力フォームＦに入力したクエリに対応するデータである。

［算出部］
算出部２０３は、複数のＦＡＱ文書データＤＤのそれぞれについて、タイトルデータの特徴量ＴＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度（第１類似度）を算出し、回答文データの特徴量ＡＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度（第２類似度）を算出するとともに、タイトル－回答文結合データの特徴量ＴＡＦの特徴量と推定対象のクエリデータの特徴量ＥＱＦとの組の類似度（結合類似度）を算出する。類似度は、例えば特徴量同士のコサイン類似度や距離を算出することにより求めることができる。

［選択部］
選択部２０４は、複数のＦＡＱ文書データＤＤのそれぞれについてのタイトルデータの特徴量ＴＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、回答文データの特徴量ＡＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、及びタイトル－回答文結合データの特徴量ＴＡＦの特徴量と推定対象のクエリデータの特徴量ＥＱＦとの組の類似度に基づき、複数のＦＡＱ文書データＤＤのうち１以上を選択する。選択されたＦＡＱ文書データＤＤは、例えば図２に示すような形で、ＦＡＱ検索サービスページに表示されてよい。本実施形態では、図９に示すように、選択部２０４が複数のＦＡＱ文書データＤＤのうち５つを選択する場合を説明するが、選択部２０４が選択するＦＡＱ文書データＤＤの数はこの例に限られない。

具体的には、選択部２０４は、複数のＦＡＱ文書データＤＤのそれぞれについて、タイトルデータの特徴量ＴＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、回答文データの特徴量ＡＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、及びタイトル－回答文結合データの特徴量ＴＡＦの特徴量と推定対象のクエリデータの特徴量ＥＱＦとの組の類似度の代表値に基づき、複数のＦＡＱ文書データＤＤのうち１以上を選択する。

より具体的には、選択部２０４は、複数のＦＡＱ文書データＤＤのそれぞれについて、タイトルデータの特徴量ＴＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、回答文データの特徴量ＡＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、及びタイトル－回答文結合データの特徴量ＴＡＦの特徴量と推定対象のクエリデータの特徴量ＥＱＦの代表値を決定し、この代表値が大きい順に、複数のＦＡＱ文書データＤＤのうち１以上を選択する。本実施形態では、選択部２０４は、代表値が大きい順（降順）に、複数のＦＡＱ文書データＤＤのうち５つを選択している。なお、選択部２０４は、代表値が小さい順（昇順）に、複数のＦＡＱ文書データＤＤのうち５つを選択してもよい。

本実施形態では、代表値が、タイトルデータの特徴量ＴＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、回答文データの特徴量ＡＦと推定対象のクエリデータの特徴量ＥＱＦとの組の類似度、及びタイトル－回答文結合データの特徴量ＴＡＦの特徴量と推定対象のクエリデータの特徴量ＥＱＦの平均値である場合を説明するが、代表値は、中央値、最大値等であってもよい。

以上に説明した本実施形態に係る推定装置２０によれば、各ＦＡＱ文書とクエリとがどの程度類似するかを、そのＦＡＱ文書の一側面のみならず複数の側面を考慮して決定するため、大量のＦＡＱ文書データを用意することなく推定精度を向上させることができる。

以上に説明した本発明の実施形態によれば、大量の文書データを用意せずとも高い学習効率及び推定精度を得ることが可能な学習システム、学習方法、推定システム、推定方法及びプログラムが提供される。

Ｓ推定システム、Ｎネットワーク、１０学習装置、１１，２１制御部、１２，２２記憶部、１３，２３通信部、１４，２４操作部、１５，２５表示部、１００データ記憶部、１０１取得部、１０２抽出部、１０３学習部、２０推定装置、２００データ記憶部、２０１取得部、２０２抽出部、２０３算出部、２０４選択部、Ｇ１トップ画面、Ｇ２ＦＡＱ画面、Ｑクエリ、Ｔタイトル、Ａ回答文、Ｃカテゴリ、Ｆ入力フォーム、Ｂボタン、ＳＲ検索結果、ＦＥ特徴量抽出モデル、ＬＤＢ学習データベース、ＬＤＳ－ｏ原学習データセット、ＬＤＳ－ｐ加工学習データセット、Ｌ対照損失、ＤＤ，ＤＤ－ｍ，ＤＤ－ｎ，ＤＤ－ａ，ＤＤ－ｂＦＡＱ文書データ、ＱＤクエリデータ、ＴＤ，ＴＤ－ｍ，ＴＤ－ｎ，ＴＤ－ａ，ＴＤ－ｂタイトルデータ、ＡＤ，ＡＤ－ｍ，ＡＤ－ｎ，ＡＤ－ａ，ＡＤ－ｂ回答文データ、ＣＤ，ＣＤ－ｍ，ＣＤ－ｎ，ＣＤ－ａ，ＣＤ－ｂカテゴリデータ、ＴＡＤ，ＴＡＤ－ｍ，ＴＡＤ－ｎ，ＴＡＤ－ａ，ＴＡＤ－ｂタイトル－回答文結合データ、ＴＣＤタイトル－カテゴリ結合データ、ＡＣＤ回答文－カテゴリ結合データ、ＴＡＣＤタイトル－回答文－カテゴリ結合データ、ＩＧ１，ＩＧ２，ＩＧ３，ＩＧ４，ＩＧ５入力グループ、ＱＦクエリデータの特徴量、ＴＦ，ＴＦ－ｍ，ＴＦ－ｎ，ＴＦ－ａ，ＴＦ－ｂタイトルデータの特徴量、ＡＦ，ＡＦ－ｍ，ＡＦ－ｎ，ＡＦ－ａ，ＡＦ－ｂ回答文データの特徴量、ＣＦ－ｍ，ＣＦ－ｎカテゴリデータの特徴量、ＴＡＦ，ＴＡＦ－ｍ，ＴＡＦ－ｎ，ＴＡＦ－ａ，ＴＡＦ－ｂタイトル－回答文結合データの特徴量、ＴＣＦ－ｍ，ＴＣＦ－ｎタイトル－カテゴリ結合データの特徴量、ＡＣＦ－ｍ，ＡＣＦ－ｎ回答文－カテゴリ結合データの特徴量、ＴＡＣＦ－ｍ，ＴＡＣＦ－ｎタイトル－回答文－カテゴリ結合データの特徴量、ＯＧ１，ＯＧ２，ＯＧ３，ＯＧ４，ＯＧ５出力グループ、ＦＤＢ特徴量データベース、ＤＤＳＦＡＱ文書データセット、ＥＱＤ推定対象のクエリデータ、ＥＱＦ推定対象のクエリデータの特徴量

Claims

クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得手段と、
特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出手段と、
前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習手段と、
を有する、学習システム。
前記取得手段は更に、前記複数の文書データに含まれ、前記クエリデータに対応しない非対応文書データから、前記第１要素、前記第２要素、及び前記結合データを取得し、
前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記クエリデータと前記非対応文書データの前記第１要素との組、前記クエリデータと前記非対応文書データの前記第２要素との組、及び前記クエリデータと前記非対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記非対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記非対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記非対応文書データの前記結合データの特徴量との組をそれぞれ抽出し、
前記学習手段は更に、前記クエリデータの特徴量と前記非対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記非対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記非対応文書データの前記結合データの特徴量との組の類似度が小さくなるように、前記特徴量抽出モデルの学習を実行する、
請求項１に記載の学習システム。
前記取得手段は更に、前記複数の文書データに含まれる第１文書データから前記第１要素及び前記第２要素を取得し、
前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方との組から、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方の特徴量との組を抽出し、
前記学習手段は更に、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第１文書データの前記第１要素又は前記第２要素のいずれか他の一方の特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する、
請求項１又は２に記載の学習システム。
前記取得手段は更に、前記複数の文書データに含まれる第２文書データから前記第１要素又は前記第２要素を取得し、
前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方との組から、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量との組を抽出し、
前記学習手段は更に、前記第１文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量と前記第２文書データの前記第１要素又は前記第２要素のいずれか一方の特徴量との組の類似度が小さくなるように、前記特徴量抽出モデルの学習を実行する、
請求項３に記載の学習システム。
前記取得手段は更に、前記第１文書データから前記結合データを取得し、
前記抽出手段は更に、前記特徴量抽出モデルを用いて、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つと前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つとの組から、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つの特徴量と前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つの特徴量との組を抽出し、
前記学習手段は更に、前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか１つの特徴量と前記第１文書データの前記第１要素、前記第２要素又は前記結合データのいずれか他の１つの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する、
請求項３に記載の学習システム。
第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得手段と、
前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得手段と、
クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出手段と、
前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出手段と、
前記複数の文書データのそれぞれについて前記算出手段により算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択手段と、
を有する、推定システム。
前記選択手段は、前記複数の文書データのそれぞれについての前記第１類似度及び前記結合類似度の代表値に基づき、前記複数の文書データのうち１以上を選択する、
請求項６に記載の推定システム。
前記複数の文書データのそれぞれの前記第２要素から前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第２要素の特徴量を取得する第２特徴量取得手段を更に有し、
前記算出手段は更に、前記複数の文書データのそれぞれについて、前記第２要素の特徴量と前記クエリデータの特徴量との組の類似度である第２類似度を算出し、
前記選択手段は、前記複数の文書データのそれぞれについて前記算出手段により算出される前記第２類似度に更に基づき、前記複数の文書データのうち１以上を選択する、
請求項６又は７に記載の推定システム。
前記特徴量抽出モデルは、
学習用クエリデータを取得するとともに、前記学習用クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記結合データを取得すること、
特徴量抽出モデルを用いて、前記学習用クエリデータと前記対応文書データの前記第１要素との組、前記学習用クエリデータと前記対応文書データの前記第２要素との組、及び前記学習用クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記学習用クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記学習用クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記学習用クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出すること、
前記学習用クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記学習用クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記学習用クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行すること、
により生成されたものである、
請求項６又は７に記載の推定システム。
クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得ステップと、
特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出ステップと、
前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習ステップと、
を有する、学習方法。
第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得ステップと、
前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得ステップと、
クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出ステップと、
前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出ステップと、
前記複数の文書データのそれぞれについて前記算出ステップにより算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択ステップと、
を有する、推定方法。
クエリデータを取得するとともに、第１要素及び第２要素をそれぞれが有する複数の文書データに含まれ、前記クエリデータに対応する対応文書データから、前記第１要素、前記第２要素、及び前記第１要素と前記第２要素とを結合した結合データを取得する取得手段、
特徴量抽出モデルを用いて、前記クエリデータと前記対応文書データの前記第１要素との組、前記クエリデータと前記対応文書データの前記第２要素との組、及び前記クエリデータと前記対応文書データの前記結合データとの組のそれぞれから、前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組をそれぞれ抽出する抽出手段、
前記クエリデータの特徴量と前記対応文書データの前記第１要素の特徴量との組の類似度、前記クエリデータの特徴量と前記対応文書データの前記第２要素の特徴量との組の類似度、及び前記クエリデータの特徴量と前記対応文書データの前記結合データの特徴量との組の類似度が大きくなるように、前記特徴量抽出モデルの学習を実行する学習手段、
としてコンピュータを機能させるためのプログラム。
第１要素及び第２要素を有する複数の文書データのそれぞれの前記第１要素から特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記第１要素の特徴量を取得する第１特徴量取得手段、
前記複数の文書データのそれぞれの前記第１要素と前記第２要素とを結合した結合データから前記特徴量抽出モデルを用いて抽出された、前記複数の文書データのそれぞれの前記結合データの特徴量を取得する結合特徴量取得手段、
クエリデータから前記特徴量抽出モデルを用いて、前記クエリデータの特徴量を抽出するクエリ特徴量抽出手段、
前記複数の文書データのそれぞれについて、前記第１要素の特徴量と前記クエリデータの特徴量との組の類似度である第１類似度を算出するとともに、前記結合データの特徴量と前記クエリデータの特徴量との組の類似度である結合類似度を算出する算出手段、
前記複数の文書データのそれぞれについて前記算出手段により算出される前記第１類似度及び前記結合類似度に基づき、前記複数の文書データのうち１以上を選択する選択手段、
としてコンピュータを機能させるためのプログラム。