JP6722615B2

JP6722615B2 - クエリクラスタリング装置、方法、及びプログラム

Info

Publication number: JP6722615B2
Application number: JP2017077069A
Authority: JP
Inventors: 克人別所; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2020-07-15
Anticipated expiration: 2037-04-07
Also published as: JP2018180789A

Description

本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索するためのクエリクラスタリング装置、方法、及びプログラムに関する。

概念検索は、検索対象となる文書である検索対象文書のリストから、ユーザが入力した検索クエリに意味的に適合する検索対象文書を検索するというものである。
以下の非特許文献１では、コーパスから、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースを生成する。各検索対象文書に対し、該検索対象文書中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成する。検索クエリに対し、該検索クエリ中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する。検索結果として、類似度の降順にランキングした検索対象文書を表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書を表示する。

別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.

検索対象文書に複数の話題が混在している場合、上記従来手法で生成される一つの検索対象文書概念ベクトルは、いずれかの話題に関する単語の概念ベクトルのいずれとも遠い、曖昧性をもった概念ベクトルとなる。このため、いずれかの話題に関する検索クエリが入力されたとき、正解の検索対象文書との類似度が低くなり、検索精度に問題があった。

本発明の目的は、この課題を解決し、検索精度を向上させるクエリクラスタリング装置、方法、及びプログラムを提供することにある。

上記課題を解決するため、第１の発明に係るクエリクラスタリング装置は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力とし、該リストＡ中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストＢを生成し、該検索対象文書と該リストＢとの組のリストを格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、を含んで構成されている。

第２の発明に係るクエリクラスタリング装置は、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する検索手段をさらに含んで構成されている。

また、第３の発明に係るクエリクラスタリング方法は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象文書概念ベース生成手段とを含むクエリクラスタリング装置におけるクエリクラスタリング方法であって、前記検索対象文書概念ベース生成手段が、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力とし、該リストＡ中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストＢを生成し、該検索対象文書と該リストＢとの組のリストを格納する検索対象文書概念ベースを生成するステップを含んで構成されている。

また、第４の発明に係るクエリクラスタリング方法は、検索手段をさらに含むクエリクラスタリング方法であって、前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出するステップをさらに含んで構成されている。

また、本発明のプログラムは、コンピュータを、本発明のクエリクラスタリング装置の各手段として機能させるためのプログラムである。

本発明では、検索対象文書概念ベース生成手段の処理が、検索の事前処理であり、検索手段の処理が検索処理である。

本発明のクエリクラスタリング装置、方法、及びプログラムによれば、検索精度を向上させることができる。

本発明の実施の形態の効果を説明するための説明図である。本発明の実施の形態に係るクエリクラスタリング装置の機能的構成を示すブロック図である。検索対象文書リストの構成例を示す図である。検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡの構成例を示す図である。単語概念ベース２４の例を示す図である。検索対象文書概念ベース２６の構成例を示す図である。本発明の実施の形態に係るクエリクラスタリング装置の検索対象文書概念ベース生成手段における処理ルーチンを示すフローチャート図である。本発明の実施の形態に係るクエリクラスタリング装置の検索手段における処理ルーチンを示すフローチャート図である。

以下、図面とともに本発明の実施の形態を説明する。

＜本発明の実施の形態の概要＞
図１は、本発明の効果を説明するための図である。

ある検索対象文書Ｇに二つの話題が混在しているとする。本発明の実施の形態では、検索対象文書概念ベース生成手段が、Ｇに対応するテキスト概念ベクトルリストをクラスタリングし、その結果、２個のクラスタが形成され、各クラスタの概念ベクトルａ，ｂが生成される。従来手法では、概念ベクトルａ，ｂの重心ないしは重心に近い一つの検索対象文書概念ベクトルｃが生成される。

別の検索対象文書Ｈにも二つの話題が混在しているとする。本発明の実施の形態では、検索対象文書概念ベース生成手段が、Ｈに対応するテキスト概念ベクトルリストをクラスタリングし、その結果、２個のクラスタが形成され、各クラスタの概念ベクトルｐ，ｑが生成される。従来手法では、概念ベクトルｐ，ｑの重心ないしは重心に近い一つの検索対象文書概念ベクトルｒが生成される。

概念ベクトルａに対応する話題に関する検索クエリが入力された場合、検索対象文書Ｇの方が、検索対象文書Ｈよりも類似度が高くなるのが望ましい。該検索クエリの概念ベクトルｘは、概念ベクトルａの近くにプロットされる。

図１のような位置関係の場合、従来手法では、概念ベクトルｒの方が、概念ベクトルｃよりも、概念ベクトルｘに近いため、検索対象文書Ｈの方が、検索対象文書Ｇよりも類似度が高くなってしまう。

本発明の実施の形態では、検索対象文書Ｇに対しては、概念ベクトルａの方が、概念ベクトルｂよりも、概念ベクトルｘとの類似度が高いため、概念ベクトルａとの類似度が、検索対象文書Ｇの類似度となる。検索対象文書Ｈに対しては、概念ベクトルｐの方が、概念ベクトルｑよりも、概念ベクトルｘとの類似度が高いため、概念ベクトルｐとの類似度が、検索対象文書Ｈの類似度となる。概念ベクトルａの方が、概念ベクトルｐよりも、概念ベクトルｘとの類似度が高いため、検索対象文書Ｇの方が、検索対象文書Ｈよりも類似度が高くなる。

このようにして、本発明の実施の形態では、各検索対象文書に対し、包含する話題ごとに、対応するクラスタの概念ベクトルであるクラスタ概念ベクトルを生成し、クラスタ概念ベクトルとの類似度の最大値を、該検索対象文書の類似度とするので、検索クエリと意味的に適合する話題を包含する検索対象文書の類似度が高くなり、検索精度が従来手法より高くなる。

＜クエリクラスタリング装置の構成＞
本発明の実施の形態に係るクエリクラスタリング装置の構成について説明する。図２は、本発明のクエリクラスタリング装置の構成例である。図２に示すように、本発明の実施の形態に係るクエリクラスタリング装置１００は、ＣＰＵと、ＲＡＭと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このクエリクラスタリング装置１００は、機能的には図２に示すように入力手段１０と、演算手段２０と、出力手段３０とを備えている。

入力手段１０は、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力として受け付ける。また、入力手段１０は、新規の検索クエリを受け付ける。

演算手段２０は、検索対象文書概念ベース生成手段２２と、単語概念ベース２４と、検索対象文書概念ベース２６と、検索手段２８と、を含んで構成されている。

検索対象文書概念ベース生成手段２２は、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力とし、該リストＡ中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、単語概念ベース２４における対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストＢを生成し、該検索対象文書と該リストＢとの組のリストを格納する検索対象文書概念ベース２６を生成する。以下、詳細に説明する。

図３は、検索対象文書リストの構成例である。各レコードは、検索対象となる文書である検索対象文書を一意に特定する検索対象文書ＩＤと、検索対象文書テキストからなる。

図４は、検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡの構成例である。各レコードは、検索対象文書ＩＤと、対応するテキストのリストからなる。対応するテキストのリストは、当該検索対象文書のテキストと、該検索対象文書と意味的に適合する検索クエリから構成される。例えば、図４に示されるように、本実施の形態では、１レコードがテキストと検索クエリのリストとの２つからなるため組と称し、この組が複数あるためリストＡと称する。リストＡの要素は１レコードであり、検索クエリのリストの要素は検索クエリである。

単語概念ベース２４は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである。図５は、単語概念ベース２４の例である。単語概念ベース２４は、例えば、非特許文献１の手法によって生成する。

単語概念ベース２４には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。単語概念ベース２４において単語は、該単語の終止形で登録されており、単語概念ベース２４を検索する際は、単語の終止形で検索する。

各単語の単語概念ベクトルはｄ次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。単語概念ベクトルは、長さ１に正規化しておいてもよい。

検索対象文書概念ベース生成手段２２の処理では、入力手段１０で受け付けたリストＡ中の各要素において、該要素中の検索対象文書テキスト及び検索クエリの各テキストに対し、単語分割を行う。各テキストに対し、単語分割結果における各単語で単語概念ベース２４を検索し、取得した単語概念ベクトルを加算したものを、該テキストの概念ベクトルであるテキスト概念ベクトルとする。テキスト概念ベクトルは、長さ１に正規化しておいてもよい。

ここで、単語分割結果における単語の内、内容語のみを使用して、テキスト概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、１回だけ加算してもよい。

図４の検索対象文書ＩＤがＸのレコードに対しては、テキストｘ、検索クエリｐ、ｑ、ｓのそれぞれに対し、テキスト概念ベクトルが生成される。

検索対象文書概念ベース生成手段２２の処理では、その後、リストＡ中の各要素において、生成したテキスト概念ベクトルのリストをクラスタリングする。図４の検索対象文書ＩＤがＸのレコードに対しては、テキストｘ、検索クエリｐ、ｑ、ｓそれぞれから生成した４個のテキスト概念ベクトルをクラスタリングすることになる。

クラスタリングの手法としては、ウォード法やk-means法など、各種クラスタリングの手法が考えられる。クラスタリングにより、該要素が包含する話題に対応する、テキスト概念ベクトルのクラスタが生成され、また、各クラスタに対応する概念ベクトルであるクラスタ概念ベクトルが生成される。クラスタ概念ベクトルは、長さ１に正規化しておいてもよい。このようにして、リストＡ中の各要素に対し、クラスタ概念ベクトルのリストＢが生成される。

ここで、検索対象文書テキストの概念ベクトルは、それだけで一つのクラスタ概念ベクトルとし、検索クエリ概念ベクトルリストに対しクラスタリングを行うというようにしてもよい。クラスタリングの結果得られたクラスタ概念ベクトルのリストと、検索対象文書テキストの概念ベクトルを合わせたものを、リストＢとする。

検索対象文書概念ベース生成手段２２の処理では、リストＡ中の各要素において、検索対象文書ＩＤとリストＢとの組を、検索対象文書概念ベース２６に１レコードとして格納する。図６は、検索対象文書概念ベース２６の構成例である。図４の検索対象文書ＩＤがＸのレコードに対しては、クラスタリングの結果、３個のクラスタ概念ベクトルからなるリストＢが生成され、図６のように、ＸとリストＢとの組が格納されている。

検索手段２８は、入力手段１０で受け付けた新規の検索クエリに対し、該検索クエリ中の単語の、単語概念ベース２４における対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、検索対象文書概念ベース２６中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する。以下、詳細に説明する。

検索手段２８の処理では、新規の検索クエリに対し、単語分割を行う。単語分割結果における各単語で単語概念ベース２４を検索し、取得した単語概念ベクトルを加算したものを、該検索クエリの概念ベクトルである検索クエリ概念ベクトルとする。検索クエリ概念ベクトルは、長さ１に正規化しておいてもよい。

ここで、単語分割結果における単語の内、内容語のみを使用して、検索クエリ概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、１回だけ加算してもよい。

検索手段２８の処理では、その後、検索対象文書概念ベース２６中の各検索対象文書ＩＤに対し、該検索クエリ概念ベクトルと、該検索対象文書ＩＤに対応する各概念ベクトルとの類似度を算出する。類似度として、例えばコサイン類似度をとることができる。算出した類似度の最大値を、該検索対象文書ＩＤの類似度とする。

検索手段２８の処理では、検索結果として、類似度の降順にランキングした検索対象文書ＩＤを表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書ＩＤを表示する。

そして、出力手段３０は、検索手段２８によって得られた結果を出力する。

図７は、検索対象文書概念ベース生成手段２２の処理フローの一例である。入力手段１０が、検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力として受け付けると、図７に示す検索対象文書概念ベース生成処理ルーチンが実行される。

まず、ステップＳ１００において、検索対象文書概念ベース生成手段２２は、リストＡ中の各要素において、該要素中の検索対象文書テキスト及び検索クエリの各テキストに対し、単語分割を行う。

そして、ステップＳ１０２において、検索対象文書概念ベース生成手段２２は、各テキストに対し、単語分割結果における各単語で単語概念ベース２４を検索し、取得した単語概念ベクトルを加算したものを、該テキストの概念ベクトルであるテキスト概念ベクトルとする。

ステップＳ１０４において、検索対象文書概念ベース生成手段２２は、リストＡ中の各要素において、上記ステップＳ１０２で生成したテキスト概念ベクトルのリストをクラスタリングして、リストＢを得る。

ステップＳ１０６において、検索対象文書概念ベース生成手段２２は、リストＡ中の各要素において、検索対象文書ＩＤとリストＢとの組を、検索対象文書概念ベース２６に１レコードとして格納し、検索対象文書概念ベース生成処理ルーチンを終了する。

図８は、検索手段２８の処理フローの一例である。入力手段１０が、新規の検索クエリを受け付けると、図８に示す検索処理ルーチンが実行される。

まず、ステップＳ２００において、検索手段２８は、新規の検索クエリに対し、単語分割を行う。

次に、ステップＳ２０２において、検索手段２８は、上記ステップＳ２００で得られた単語分割結果における各単語で単語概念ベース２４を検索し、取得した単語概念ベクトルを加算したものを、該検索クエリの概念ベクトルである検索クエリ概念ベクトルとする。

次に、ステップＳ２０４において、検索手段２８は、検索対象文書概念ベース２６中の各検索対象文書ＩＤに対し、上記ステップＳ２０２で得られた該検索クエリ概念ベクトルと、該検索対象文書ＩＤに対応する各概念ベクトルとの類似度を算出する。算出した類似度の最大値を、該検索対象文書ＩＤの類似度とする。

そして、ステップＳ２０６において、検索手段２８は、検索結果として、上記ステップＳ２０４で得られた類似度の降順にランキングした検索対象文書ＩＤを表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書ＩＤを表示する。

出力手段３０は、上記ステップＳ２０６で得られた結果を出力する。

これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索する概念検索技術に適用可能である。

１０入力手段
２０演算手段
２２検索対象文書概念ベース生成手段
２４単語概念ベース
２６検索対象文書概念ベース
２８検索手段
３０出力手段
１００クエリクラスタリング装置

Claims

単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、
検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力とし、該リストＡ中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストＢを生成し、該検索対象文書と該リストＢとの組のリストを格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、
を含むことを特徴とするクエリクラスタリング装置。
新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する検索手段をさらに含むことを特徴とする請求項１記載のクエリクラスタリング装置。
単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象文書概念ベース生成手段とを含むクエリクラスタリング装置におけるクエリクラスタリング方法であって、
前記検索対象文書概念ベース生成手段が、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストＡを入力とし、該リストＡ中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストＢを生成し、該検索対象文書と該リストＢとの組のリストを格納する検索対象文書概念ベースを生成するステップ
を含むことを特徴とするクエリクラスタリング方法。
検索手段をさらに含むクエリクラスタリング方法であって、
前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出するステップをさらに含むことを特徴とする
請求項３記載のクエリクラスタリング方法。
コンピュータを、請求項１又は請求項２記載のクエリクラスタリング装置の各手段として機能させるためのプログラム。