JP6521931B2 - モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム - Google Patents

モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6521931B2
JP6521931B2 JP2016231743A JP2016231743A JP6521931B2 JP 6521931 B2 JP6521931 B2 JP 6521931B2 JP 2016231743 A JP2016231743 A JP 2016231743A JP 2016231743 A JP2016231743 A JP 2016231743A JP 6521931 B2 JP6521931 B2 JP 6521931B2
Authority
JP
Japan
Prior art keywords
document
concept
pair
vector
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016231743A
Other languages
English (en)
Other versions
JP2018088182A (ja
Inventor
克人 別所
克人 別所
淳史 大塚
淳史 大塚
京介 西田
京介 西田
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016231743A priority Critical patent/JP6521931B2/ja
Publication of JP2018088182A publication Critical patent/JP2018088182A/ja
Application granted granted Critical
Publication of JP6521931B2 publication Critical patent/JP6521931B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラムに関する。
概念検索は、検索対象の文書の集合から、ユーザが入力したクエリに概念的に適合する文書を検索するというものである。
以下の非特許文献1では、コーパスから、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースを生成する。各文書に対し、該文書中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該文書の概念ベクトルを生成する。クエリに対し、クエリ中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成し、各文書に対し、該クエリの概念ベクトルと、該文書の概念ベクトルとの類似度を算出する。検索結果として、類似度の降順にランキングした文書を表示する。あるいは、ある閾値以上の類似度をもつ文書を表示する。
別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
文書が、クエリの検索結果として正解であっても、文書の意味内容とクエリの意味内容に乖離がある場合、上記従来手法では類似度が低くなってしまうという課題がある。
これを解決する手法として、文書の方を、それに対応するクエリを含むように拡張するという手法がある。しかし、対応するクエリを人手で作成するのは多大なコストがかかるという課題がある。
検索システムにおいて、一般にユーザは、入力したクエリに対する検索結果文書群の中で、クエリに関連すると思った文書をクリックする。それ故、ユーザがクリックした文書は、クエリの検索結果として妥当である可能性が高い。このようなユーザが入力したクエリとクリックした文書との対の集合であるクリックログがある場合、クリックした文書を、対応するクエリで拡張すれば、上記の人手作成のコストを無くすことができる。
しかしながら、クリックした文書が、クエリの検索結果として不正解である場合も多い。そのような場合、文書を、無関係なクエリで拡張することとなり、拡張した文書の概念ベクトルが妥当なものとならず、その結果、検索精度に問題がある。
本発明の目的は、この課題を解決して検索精度を向上させるモデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラムを提供することにある。
上記課題を解決するため、第1の発明に係るモデル生成装置は、クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成する分類モデル生成手段と、を含んで構成されている。
第2の発明に係るクリックログ正解尤度算出装置は、文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置であって、クリックログを入力とし、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、任意の素性ベクトルの正解尤度を算出するための分類モデルと、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定する正解尤度推定手段と、を含んで構成されている。
第3の発明に係るクリックログ正解尤度算出装置は、検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成する文書概念ベース生成手段をさらに含むようにすることができる。
第4の発明に係る文書検索装置は、クエリを入力とし、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、クリックログ正解尤度算出装置によって生成された、文書と、該文書の概念を表す概念ベクトルとの組の集合である文書概念ベースと、該クエリ中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成する概念ベクトル生成手段と、文書概念ベース中の各文書に対し、該クエリの概念ベクトルと、該文書の概念ベクトルとの類似度を算出する類似度算出手段と、を含んで構成されている。
第5の発明に係るモデル生成方法は、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、概念ベクトル生成手段、素性ベクトル生成手段、及び分類モデル生成手段を含むモデル生成装置におけるモデル生成方法であって、クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、分類モデル生成手段が、クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成するステップと、を含んで構成されている。
第6の発明に係るクリックログ正解尤度算出方法は、単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、任意の素性ベクトルの正解尤度を算出するための分類モデル、概念ベクトル生成手段、素性ベクトル生成手段、及び正解尤度推定手段を含み、文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置におけるクリックログ正解尤度算出方法であって、クリックログを入力とし、概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、正解尤度推定手段が、クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定するステップと、を含んで構成されている。
第7の発明に係るクリックログ正解尤度算出方法は、文書概念ベース生成手段が、検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成するステップをさらに含むようにすることができる。
第8の発明に係るプログラムは、コンピュータを、上記モデル生成装置、上記クリックログ正解尤度算出装置、又は上記文書検索装置の各手段として機能させるためのプログラムである。
本発明のモデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラムによれば、検索精度を向上させることができる、という効果を有する。
検索システムの画面例を示す図である。 検索結果である文書の詳細情報の展開表示例を示す図である。 対象対を構成する対象クエリ及び対象文書の概念ベクトル空間内の位置関係を説明するための説明図である。 対象対を構成する対象クエリ及び対象文書の概念ベクトル空間内の位置関係を説明するための説明図である。 本発明の実施の形態に係るモデル生成装置の機能的構成を示すブロック図である。 検索対象文書群の例を示す図である。 クリックログの例を示す図である。 正解であるか否かのラベルが付与されたクリックログの例を示す図である。 単語概念ベースの例を示す図である。 クエリIDと該クエリIDの概念ベクトルとの組の集合の例を示す図である。 文書IDと該文書IDの概念ベクトルとの組の集合の例を示す図である。 クリックログ中の対と該対に対応する素性ベクトルとの組の集合の例を示す図である。 本発明の実施の形態に係るクリックログ正解尤度算出装置の機能的構成を示すブロック図である。 クリックログ中の対と該対に対応する正解尤度の例を示す図である。 検索対象の文書の概念ベクトルにクエリを反映する処理を説明するための説明図である。 本発明の実施の形態に係る文書検索装置の機能的構成を示すブロック図である。 本発明の実施の形態に係るモデル生成装置におけるモデル生成処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係るクリックログ正解尤度算出装置におけるクリックログ正解尤度算出処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る文書検索装置における文書検索処理ルーチンを示すフローチャート図である。
以下、図面とともに本発明の実施の形態を説明する。
<本発明の実施の形態の概要>
本発明の実施の形態で対象とするクリックログは、検索システムにおいて蓄積されるものである。図1は、検索システムの画面例であり、検索窓にクエリを入力すると、検索結果の文書群が提示される。一般にユーザは、クエリに関連すると思った文書をクリックする。図1で、D5の文書をクリックすると、その後のシステムの挙動として、例えば図2のように、文書D5の詳細情報が展開表示される。システムによっては、文書の内容が役に立ったか、あるいは、役に立たなかったかを選択するボタンが提示される。ユーザは、そのボタンを押さない場合もあれば、いずれかのボタンを押す場合もある。図2では、D5の詳細情報が、同一画面上に展開されているが、システムによっては、別ウィンドウが出現して、その中にD5の詳細情報が表示される。
このような入力クエリと、その検索結果文書群、検索結果文書群の中でユーザがどの文書をクリックしたか、ユーザが「役に立った」ボタンを押したか、あるいは、「役に立たなかった」ボタンを押したか、といったログ情報が蓄積される。本発明の実施の形態では、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合を、クリックログと呼ぶ。
クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いを正解尤度と呼ぶ。以下、本発明の実施の形態の正解尤度算出のベースとなる考えを述べる。
本発明の実施の形態では、検索対象の文書も、入力クエリも、全て概念ベクトルに変換する。図3のように、対象対を構成する対象クエリと対象文書は、概念ベクトル空間内の点として表現される。対象クエリ、対象文書のそれぞれに対し、点線で囲んだ近傍をとる。クリックログ中の対で、そのクエリが対象クエリの近傍内にあり、その文書が対象文書の近傍内にある対を、対象対の近傍内の対と呼ぶ。
本発明の実施の形態では、以下の仮説1を置いている。
(仮説1)
・対象対が正解である場合、近傍内の他の対の数が多い。
・対象対が不正解である場合、近傍内の他の対の数が少ない。
この仮説は、対象対を支持する他の対の数が多ければ、対象対の正解尤度は高いという考えに基づいている。すなわち、対象クエリと意味の近い入力クエリに対し、対象文書と意味の近い文書をクリックした事例の数が多ければ、対象対の正解尤度は高いという考えである。
実際にクリックログデータをとり、統計をとると、近傍内の他の対の数は、正解対象対の方が、不正解対象対よりも多い傾向があり、仮説1は正しい傾向がある。したがって、近傍内の他の対の数が多ければ、対象対の正解尤度は高く、近傍内の他の対の数が少なければ、対象対の正解尤度は低いということがいえる。
図3の対象対は、近傍内の他の対が1個であり、図4の対象対は、近傍内の他の対が4個であるため、図4の対象対の正解尤度は、図3の対象対の正解尤度より高いということがいえる。
また、各対象対には、該対のクエリを入力し、該対の文書をクリックしたユーザが紐づいている。
本発明の実施の形態では、以下の仮説2を置いている。
(仮説2)
・対象対が正解である場合、近傍内の他の対に紐づくユーザの異なりの数が多い。
・対象対が不正解である場合、近傍内の他の対に紐づくユーザの異なりの数が少ない。
この仮説は、対象対を支持するユーザの数が多ければ、対象対の正解尤度は高いという考えに基づいている。すなわち、近傍内の他の対の数がN個のとき、紐づくユーザの異なりの数が少数の場合(例えば1人がN回、入力とクリックを行ったような場合)は、少数のユーザが恣意的にクリックしている可能性もあり、そのような場合は対象対の信頼性は低く、逆に、紐づくユーザの異なりの数が多数の場合(例えばN人が1回ずつ、入力とクリックを行ったような場合)は、対象対の信頼性は高いという考えである。
実際にクリックログデータをとり、統計をとると、近傍内の他の対に紐づくユーザの異なりの数は、正解対象対の方が、不正解対象対よりも多い傾向があり、仮説2は正しい傾向がある。したがって、近傍内の他の対に紐づくユーザの異なりの数が多ければ、対象対の正解尤度は高く、近傍内の他の対に紐づくユーザの異なりの数が少なければ、対象対の正解尤度は低いということがいえる。
また、「役に立った」ボタン、「役に立たなかった」ボタンがある場合、対象対について、ユーザが「役に立った」ボタンあるいは「役に立たなかった」ボタンを押したということは、ユーザが対象対に対し明確に支持あるいは不支持をしたことを意味する。本発明の実施の形態は、対象対が「役に立った」(あるいは「役に立たなかった」)に該当する場合や、対象対の近傍内の他の「役に立った」(あるいは「役に立たなかった」)に該当する対の数が多い場合に、対象対の正解尤度は高い(あるいは低い)と捉える。
以上述べた、対象対の近傍内の他の対の数などの、正解尤度の各種決定因子に対し、正解尤度を算出するための決定因子の重み係数を、本発明の実施の形態では、機械学習により獲得する。以下で説明する、第1の発明の実施の形態に係るモデル生成装置は、機械学習における学習処理を規定したものである。モデル生成装置は、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、クリックログ中の任意の対に対し、各種決定因子に相当する素性を抽出することにより、該対の素性ベクトルを生成し、素性ベクトルとラベルとの組の集合から分類モデルを生成する。
また、第2の発明の実施の形態に係るクリックログ正解尤度算出装置は、機械学習における推定処理を規定したものである。クリックログ正解尤度算出装置は、学習処理で用いたクリックログとは別の、所属する各対に正解であるか否かのラベルが付与されていないクリックログを入力とし、クリックログ中の任意の対に対し、学習処理で抽出した素性と同一の素性を抽出することにより、該対の素性ベクトルを生成し、該素性ベクトルと分類モデルとから、該対の正解尤度を推定する。
また、第3の発明の実施の形態に係るクリックログ正解尤度算出装置は、推定した正解尤度を考慮して、検索対象の各文書の概念ベクトルを生成する処理を規定したものである。クリックログ正解尤度算出装置は、文書を、推定処理で用いたクリックログ中の該文書に対応する各クエリを追加することにより拡張する。但し、該クエリの意味内容は、該文書と該クエリとの対の正解尤度分だけ反映させるようにする。このため、該文書の概念ベクトルを生成するにあたり、該クエリ中の各単語の概念ベクトルに、該正解尤度を乗じた概念ベクトルを加算していく。正解尤度の低い対のクエリは、該文書に無関係であるため、上記の処理から除外する。このように、追加クエリの意味内容を正解尤度の分だけ、文書の概念ベクトルに反映させるため、不正解の対のクエリの影響が無くなり、文書の概念ベクトルが、より適切なものとなる。
また、第4の発明の実施の形態に係る文書検索装置は、第3の発明の実施の形態に係るクリックログ正解尤度算出装置で生成した検索対象文書の概念ベクトルの集合を対象とした概念検索を規定している。ある文書の概念ベクトル生成において追加したクエリと意味内容の近い新規のクエリが入力されたとき、該文書は該新規クエリの正解の検索結果である。拡張後の該文書の意味内容は、該新規クエリの意味内容を包含しているため、該新規クエリの概念ベクトルと、該文書の概念ベクトルとの類似度は、拡張前よりも、拡張後の方が、より高くなる。これにより、検索精度が従来手法と比べ高くなる。
なお、学習処理の入力となるクリックログの各対には、正解であるか否かのラベルが付与されており、このラベル付与には人手によるコストがかかる。しかしながら、一旦、あるクリックログデータに対し、このラベル付与の作業をして学習処理にかけ、分類モデルを生成しておけば、全くの別の検索対象文書及びそれを用いた文書検索システムのクリックログデータに対しても、該分類モデルを用いて推定処理を行い、適確な正解尤度を推定できる。このため、人手によるラベル付与作業のコストは、最初の1回分で済む。
以上述べたように、本発明の実施の形態では、クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を推定し、正解尤度を考慮して、検索対象の文書の概念ベクトルを生成するので、不正解の対のクエリの影響が無くなり、その結果、検索精度が向上するという効果がある。
<モデル生成装置の構成>
本発明の実施の形態に係るモデル生成装置の構成について説明する。図5は、第1の発明の実施の形態に係るモデル生成装置の構成例である。図5に示すように、本発明の実施の形態に係るモデル生成装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル生成装置100は、機能的には図5に示すように入力手段10と、演算手段20とを備えている。
図6に、検索対象文書群の例を示す。各文書は、文書IDと文書テキストとからなり、文書IDによって一意に識別される。
図7は、図6の検索対象文書群を検索対象とした文書検索システムにおいて蓄積されたクリックログの例を示す表である。各レコードは、クリックログ中のクエリと該クエリに対応するクリック文書のリストからなる。
クエリは、クエリIDとクエリテキストからなり、クエリIDは、入力したユーザのIDであるユーザIDと、該ユーザの何番目の入力かを表す入力IDからなる。クエリは、クエリIDによって一意に識別され、異なるクエリIDのテキストが同一の場合もありえる。クエリIDによっては、クリック文書リストが空の場合もある。
クリックログ中の対は、クエリIDと該クエリIDに対応するクリック文書IDとの対であるともいえる。
クリック文書は、「役に立った」ボタンを押された文書(表中の「役に立った」のカラム)、「役に立たなかった」ボタンを押された文書(表中の「役に立たなかった」のカラム)、いずれのボタンも押されなかった文書(表中の「−」のカラム)からなる。検索システムに「役に立った」ボタン、「役に立たなかった」ボタンがない場合は、表中の「役に立った」カラム、「役に立たなかった」カラムは無い。
入力手段10は、所属する各対に正解であるか否かのラベルが付与されているラベル付クリックログを入力として受け付ける。図8は、クリックログ中の各対に対し、正解であるか否かのラベルを付与したデータの例である。正解の対には1が付与され、不正解の対には0が付与されている。
演算手段20は、単語概念ベース22と、概念ベクトル生成手段24と、素性ベクトル生成手段26と、分類モデル生成手段28と、分類モデル記憶部30とを含んで構成されている。
単語概念ベース22は、単語と、該単語の概念を表す概念ベクトルとの組の集合である。図9は、単語概念ベース22の例である。単語概念ベース22は、例えば、非特許文献1の手法によって生成される。単語概念ベース22には、名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。単語概念ベース22において単語は、該単語の終止形で登録されており、単語概念ベース22を検索する際は、単語の終止形で検索する。各単語の概念ベクトルは長さ1に正規化されたd次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。
概念ベクトル生成手段24は、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の単語概念ベース22中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する。以下、具体的に説明する。
概念ベクトル生成手段24は、クリックログ中の各クエリIDに対し、該クエリIDのテキスト中の単語の単語概念ベース22中の概念ベクトルを加算し長さ1に正規化することにより、該クエリIDの概念ベクトルを生成する。図10は、クエリIDと該クエリIDの概念ベクトルとの組の集合の例である。
また、概念ベクトル生成手段24は、図6に示すデータ、あるいは、クリックログ中の文書IDの異なりのみから作成した図6相当のデータを使用し、該データ中の各文書IDに対し、該文書IDのテキスト中の単語の単語概念ベース22中の概念ベクトルを加算し長さ1に正規化することにより、該文書IDの概念ベクトルを生成する。図11は、文書IDと該文書IDの概念ベクトルとの組の集合の例である。
素性ベクトル生成手段26は、クリックログ中の任意の対に対し、概念ベクトル生成手段24によって生成された、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する。以下、具体的に説明する。
素性ベクトル生成手段26は、対象対を構成する対象クエリIDの概念ベクトルを中心とする、あらかじめ定めた半径rの円の内部を近傍としてとる。また、素性ベクトル生成手段26は、対象対を構成する対象文書IDの概念ベクトルを中心とする、あらかじめ定めた半径r’の円の内部を近傍としてとる。クリックログ中の対で、そのクエリIDの概念ベクトルが対象クエリIDの近傍内にあり、その文書IDの概念ベクトルが対象文書IDの近傍内にある対を、対象対の近傍内の対と呼ぶ。
素性ベクトル生成手段26によって生成される素性の例として、以下が挙げられる。
(1)近傍内の他の対の数
(2)近傍内の他の対のクエリIDを構成するユーザIDの異なりの数
また、(1)、(2)の数の割合としての以下の素性も挙げられる。
(3)(1)の数の、[クリックログ中のクエリIDの異なりの数]×[検索対象の文書IDの数]に占める割合
(4)(2)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
なお、検索対象文書数や入力クエリ数が増大するにつれ、一般に、近傍内の(1)、(2)の数も比例して増大するため、(3)、(4)の素性は、データ量に依存しない特徴量となる。
また、検索システムに「役に立った」ボタン、「役に立たなかった」ボタンがある場合、素性の例として以下も挙げられる。
(5)対象対が「役に立った」に該当するか否か
(6)対象対が「役に立たなかった」に該当するか否か
(7)近傍内の他の対で、「役に立った」に該当する対の数
(8)近傍内の他の対で、「役に立たなかった」に該当する対の数
(9)近傍内の他の対で、「役に立った」に該当する対のクエリIDを構成するユーザIDの異なりの数
(10)近傍内の他の対で、「役に立たなかった」に該当する対のクエリIDを構成するユーザIDの異なりの数
(11)(7)の数の、[クリックログ中のクエリIDの異なりの数]×[検索対象の文書IDの数]に占める割合
(12)(8)の数の、[クリックログ中のクエリIDの異なりの数]×[検索対象の文書IDの数]に占める割合
(13)(9)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
(14)(10)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
他に、近傍内の他の対を、以下のように分け、そのそれぞれに関する素性を設定することもできる。
・クエリIDが対象クエリIDと同一で、文書IDが対象文書IDと異なる対
・クエリIDが対象クエリIDと異なり、文書IDが対象文書IDと同一の対
・クエリIDが対象クエリIDと異なり、文書IDが対象文書IDと異なる対
素性ベクトル生成手段26は、対象対に対し、上記各素性の値を求め、素性ベクトルを生成する。図12は、クリックログ中の対と、該対に対応する素性ベクトルとの組の集合の例である。
分類モデル生成手段28は、素性ベクトル生成手段26によって生成された、クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成する。以下、具体的に説明する。
クリックログ中の各対に対し、図12中の対応する素性ベクトルと、図8中の対応するラベルがあり、素性ベクトルとラベルとの組ができる。分類モデル生成手段28は、この組の集合を入力として、サポートベクタマシン等の機械学習器にかけ、ラベルが1か0かの2値分類を解くための分類モデルを生成する。なお、分類モデルは0〜1の間の値を正解尤度として出力しても良い。
分類モデル記憶部30には、分類モデル生成手段28によって生成された分類モデルが記憶される。
<クリックログ正解尤度算出装置の構成>
次に、本発明の実施の形態に係るクリックログ正解尤度算出装置の構成について説明する。図13は、第2又は第3の発明の実施の形態に係るクリックログ正解尤度算出装置の構成例である。図13に示すように、本発明の実施の形態に係るクリックログ正解尤度算出装置200は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。クリックログ正解尤度算出装置200は、モデル生成装置100の検索対象文書群とは必ずしも同一とは限らない検索対象文書群を検索対象とした文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出する。このクリックログ正解尤度算出装置200は、機能的には図13に示すように入力手段40と、演算手段50とを備えている。
入力手段40は、モデル生成装置100の処理で用いたクリックログとは別の、所属する各対に正解であるか否かのラベルが付与されていないクリックログを入力として受け付ける。クリックログ中の対も、クエリIDと該クエリIDに対応するクリック文書IDとの対である。クリックログのデータ形式は、図7の形式、及び、図8からラベルのカラムを除いた形式となる。
演算手段50は、単語概念ベース52と、概念ベクトル生成手段54と、素性ベクトル生成手段56と、分類モデル記憶部60と、正解尤度推定手段62と、検索対象文書群記憶部64と、文書概念ベース生成手段66と、文書概念ベース68とを含んで構成されている。
単語概念ベース52は、単語と、該単語の概念を表す概念ベクトルとの組の集合である。単語概念ベース52のデータ形式は、図9のデータ形式と同様である。単語概念ベース52の内容は、モデル生成装置100の単語概念ベース22と異なっている場合もありえる。
概念ベクトル生成手段54は、入力手段40によって受け付けたクリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する。概念ベクトル生成手段54の処理内容は、モデル生成装置100の概念ベクトル生成手段24の処理内容と同じである。検索対象文書群及び単語概念ベース52が、モデル生成装置100のものと同一であり、かつ、モデル生成装置100の概念ベクトル生成手段24で、全検索対象文書IDの概念ベクトルを生成していたならば、各文書IDの概念ベクトルを生成する処理はせず、モデル生成装置100の概念ベクトル生成手段24で生成した各文書IDの概念ベクトルをそのまま採用してもよい。
素性ベクトル生成手段56は、入力手段40によって受け付けたクリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する。素性ベクトル生成手段56の処理内容は、モデル生成装置100の素性ベクトル生成手段26の処理内容と同じである。クリックログ中の各対に対し、モデル生成装置100の素性ベクトル生成手段26の処理で抽出した素性と同一の素性の値を抽出し、素性ベクトルを生成する。
分類モデル記憶部60に記憶された分類モデルは、モデル生成装置100の処理で生成した分類モデルと同一である。
正解尤度推定手段62は、クリックログ中の任意の対に対し、素性ベクトル生成手段56によって生成された該対の素性ベクトルと、分類モデル記憶部60に記憶された分類モデルにより、該対の正解尤度を推定する。以下、具体的に説明する。クリックログ中の各対に対し、対応する素性ベクトルと分類モデルとから、分類先ラベルが1である尤度を算出する。なお、分類モデルは0〜1の間の値を正解尤度として出力しても良い。この尤度を、該対の推定された正解尤度とする。図14は、クリックログ中の対と、該対に対応する正解尤度の例である。
検索対象文書群記憶部64には検索対象文書群が格納される。検索対象文書群記憶部64のデータ形式は、図6のデータ形式である。検索対象文書群の内容は、モデル生成装置100の検索対象文書群と異なっている場合もありえる。
文書概念ベース生成手段66は、検索対象文書群記憶部64の検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース52中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベース68を生成する。以下、具体的に説明する。
図15のように、検索対象の文書IDに対し、該文書IDのテキストの重みを1とし、クリックログ中の該文書IDに対応する各クエリIDのテキスト(クエリ1,クエリ2,クエリ3)の重みを、該文書IDと該クエリIDの対の正解尤度(0.9,0.6,0.3)とする。重みの閾値αをあらかじめ定めておく。α=0.4とすると、クエリ3の重みは0.3でα以下となるので、クエリ3は、以降の処理で除外する。各テキストに含まれる単語の前記単語概念ベース52中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成する。この例の場合、該文書IDの概念ベクトルは以下のものとなる。
(1×単語1概念ベクトル+1×単語2概念ベクトル+0.9×単語3概念ベクトル+0.9×単語4概念ベクトル+0.6×単語5概念ベクトル+0.6×単語6概念ベクトル)
そして、該文書IDの概念ベクトルは、長さ1に正規化される。
そして、文書概念ベース生成手段66は、検索対象の各文書IDと該文書IDの概念ベクトルとの組の集合である文書概念ベース68を生成する。
文書概念ベース68には、文書概念ベース生成手段66によって生成された、検索対象の各文書IDと該文書IDの概念ベクトルとの組の集合が格納される。文書概念ベース68のデータ形式は、図11のデータ形式である。
<文書検索装置の構成>
次に、本発明の実施の形態に係る文書検索装置の構成について説明する。図16は、第4の発明の実施の形態に係る文書検索装置の構成例である。図16に示すように、本発明の実施の形態に係る文書検索装置300は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文書検索装置300は、機能的には図16に示すように入力手段70と、演算手段80と、出力手段90とを備えている。
入力手段70は、新規のクエリを入力として受け付ける。
演算手段80は、単語概念ベース82と、概念ベクトル生成手段84と、文書概念ベース86と、類似度算出手段88とを含んで構成されている。
単語概念ベース82は、単語と、該単語の概念を表す概念ベクトルとの組の集合である。単語概念ベース82は、クリックログ正解尤度算出装置200の処理で用いた単語概念ベース52と同一である。
概念ベクトル生成手段84は、入力手段70によって受け付けた該クエリ中の単語の単語概念ベース82中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成する。具体的には、概念ベクトル生成手段84は、該クエリ中の単語の単語概念ベース82中の概念ベクトルを加算し長さ1に正規化することにより、該クエリの概念ベクトルを生成する。概念ベクトル生成手段84の処理内容は、モデル生成装置100の概念ベクトル生成手段24及びクリックログ正解尤度算出装置200の概念ベクトル生成手段54の処理内容と、入力がクエリであるということを除いて同じである。
文書概念ベース86は、文書と、該文書の概念を表す概念ベクトルとの組の集合である。文書概念ベース86は、クリックログ正解尤度算出装置200の処理で生成した文書概念ベース68と同一である。
類似度算出手段88は、文書概念ベース86中の各文書IDに対し、概念ベクトル生成手段84によって生成された該クエリの概念ベクトルと、該文書IDの概念ベクトルとの類似度を算出する。類似度として、例えば内積をとってもよい。検索結果として、類似度の降順にランキングした文書を表示する。あるいは、ある閾値以上の類似度をもつ文書を表示する。
図17は、モデル生成装置100で実行される処理フローの一例である。モデル生成装置100に、所属する各対に正解であるか否かのラベルが付与されているクリックログが入力されると、図17に示すモデル生成処理ルーチンが実行される。
まず、ステップS100において、入力手段10は、所属する各対に正解であるか否かのラベルが付与されているクリックログを取得する。
そして、ステップS102において、概念ベクトル生成手段24は、上記ステップS100で取得したクリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の単語概念ベース22中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する。
ステップS104において、素性ベクトル生成手段26は、上記ステップS100で取得したクリックログ中の任意の対に対し、上記ステップS102で生成された該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する。
ステップS106において、分類モデル生成手段28は、上記ステップS104で生成されたクリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成する。
ステップS108において、分類モデル生成手段28は、ステップS106で生成された分類モデルを分類モデル記憶部30に格納して、モデル生成処理ルーチンを終了する。
図18は、クリックログ正解尤度算出装置200で実行される処理フローの一例である。クリックログ正解尤度算出装置200に、クリックログが入力されると、図18に示す正解尤度算出処理ルーチンが実行される。
まず、ステップS200において、入力手段40は、所属する各対に正解であるか否かのラベルが付与されていないクリックログを入力として取得する。
次に、ステップS202において、概念ベクトル生成手段54は、上記ステップS200で取得したクリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する。
次に、ステップS204において、素性ベクトル生成手段56は、上記ステップS200で取得したクリックログ中の任意の対に対し、上記ステップS202で生成された該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する。
そして、ステップS206において、正解尤度推定手段62は、上記ステップS200で取得したクリックログ中の任意の対に対し、上記ステップS204で生成された該対の素性ベクトルと、分類モデル記憶部60に記憶された分類モデルにより、該対の正解尤度を推定する。
そして、ステップS208において、文書概念ベース生成手段66は、検索対象文書群記憶部64の検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、上記ステップS206で推定された該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース52中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベース68を生成して、正解尤度算出処理ルーチンを終了する。
図19は、文書検索装置300で実行される処理フローの一例である。文書検索装置300に、新規のクエリが入力されると、図19に示す文書検索処理ルーチンが実行される。
ステップS300において、入力手段70は、新規のクエリを入力として取得する。
ステップS302において、概念ベクトル生成手段84は、上記ステップS300で取得した該クエリ中の単語の単語概念ベース82中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成する。
ステップS304において、類似度算出手段88は、文書概念ベース86中の各文書IDに対し、上記ステップS302で生成された該クエリの概念ベクトルと、該文書IDの概念ベクトルとの類似度を算出する。
ステップS306において、出力手段90は、検索結果として、上記ステップS304で算出された類似度の降順にランキングした文書を表示して、文書検索処理ルーチンを終了する。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、検索対象の文書の集合から、ユーザが入力したクエリに概念的に適合する文書を検索する概念検索技術に適用可能である。
10,40,70 入力手段
20,50,80 演算手段
22,52,82 単語概念ベース
24,54,84 概念ベクトル生成手段
26,56 素性ベクトル生成手段
28 分類モデル生成手段
30,60 分類モデル記憶部
62 正解尤度推定手段
64 検索対象文書群記憶部
66 文書概念ベース生成手段
68,86 文書概念ベース
88 類似度算出手段
90 出力手段
100 モデル生成装置
200 クリックログ正解尤度算出装置
300 文書検索装置

Claims (8)

  1. クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、
    単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
    クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、
    クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、
    クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成する分類モデル生成手段と、
    を含むことを特徴とするモデル生成装置。
  2. 文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置であって、
    クリックログを入力とし、
    単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
    任意の素性ベクトルの正解尤度を算出するための分類モデルと、
    クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、
    クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、
    クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定する正解尤度推定手段と、
    を含むことを特徴とするクリックログ正解尤度算出装置。
  3. 検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成する文書概念ベース生成手段をさらに含むことを特徴とする請求項2記載のクリックログ正解尤度算出装置。
  4. クエリを入力とし、
    単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
    請求項3に記載のクリックログ正解尤度算出装置によって生成された、文書と、該文書の概念を表す概念ベクトルとの組の集合である文書概念ベースと、
    該クエリ中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成する概念ベクトル生成手段と、
    文書概念ベース中の各文書に対し、該クエリの概念ベクトルと、該文書の概念ベクトルとの類似度を算出する類似度算出手段と、
    を含むことを特徴とする文書検索装置。
  5. 単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、概念ベクトル生成手段、素性ベクトル生成手段、及び分類モデル生成手段を含むモデル生成装置におけるモデル生成方法であって、
    クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、
    概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、
    素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、
    分類モデル生成手段が、クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成するステップと、
    を含むことを特徴とするモデル生成方法。
  6. 単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、任意の素性ベクトルの正解尤度を算出するための分類モデル、概念ベクトル生成手段、素性ベクトル生成手段、及び正解尤度推定手段を含み、文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置におけるクリックログ正解尤度算出方法であって、
    クリックログを入力とし、
    概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、
    素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、
    正解尤度推定手段が、クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定するステップと、
    を含むことを特徴とするクリックログ正解尤度算出方法。
  7. 文書概念ベース生成手段が、検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成するステップをさらに含むことを特徴とする請求項6記載のクリックログ正解尤度算出方法。
  8. コンピュータを、請求項1記載のモデル生成装置、請求項2若しくは請求項3記載のクリックログ正解尤度算出装置、又は請求項4記載の文書検索装置の各手段として機能させるためのプログラム。
JP2016231743A 2016-11-29 2016-11-29 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム Active JP6521931B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016231743A JP6521931B2 (ja) 2016-11-29 2016-11-29 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016231743A JP6521931B2 (ja) 2016-11-29 2016-11-29 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018088182A JP2018088182A (ja) 2018-06-07
JP6521931B2 true JP6521931B2 (ja) 2019-05-29

Family

ID=62494557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016231743A Active JP6521931B2 (ja) 2016-11-29 2016-11-29 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6521931B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11816565B2 (en) 2019-10-16 2023-11-14 Apple Inc. Semantic coherence analysis of deep neural networks
CN111159413A (zh) * 2019-12-31 2020-05-15 深信服科技股份有限公司 日志聚类方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5143182B2 (ja) * 2010-04-28 2013-02-13 株式会社エヌ・ティ・ティ・ドコモ 機械学習方法および機械学習システム
JP5426526B2 (ja) * 2010-12-21 2014-02-26 日本電信電話株式会社 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
CN102708104B (zh) * 2011-03-28 2015-03-11 日电(中国)有限公司 对文档排序的方法和设备
CN103034665B (zh) * 2011-10-10 2016-01-06 阿里巴巴集团控股有限公司 信息查询方法和装置

Also Published As

Publication number Publication date
JP2018088182A (ja) 2018-06-07

Similar Documents

Publication Publication Date Title
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN109508414B (zh) 一种同义词挖掘方法及装置
US11580181B1 (en) Query modification based on non-textual resource context
US8880548B2 (en) Dynamic search interaction
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN107911448B (zh) 一种内容推送方法及装置
US8332426B2 (en) Indentifying referring expressions for concepts
US20140229476A1 (en) System for Information Discovery & Organization
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
US20100185623A1 (en) Topical ranking in information retrieval
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US20110307432A1 (en) Relevance for name segment searches
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN107783976B (zh) 用户信息挖掘方法及装置
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
Wicaksono et al. Automatic extraction of advice-revealing sentences foradvice mining from online forums
CA3059929A1 (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
JP6521931B2 (ja) モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
Blanco et al. Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task.
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
KR101752474B1 (ko) 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램
CN111737523B (zh) 一种视频标签、搜索内容的生成方法及服务器
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
CN111752898B (zh) 一种文件处理方法及装置
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190423

R150 Certificate of patent or registration of utility model

Ref document number: 6521931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150