JP6299596B2 - クエリ類似度評価システム、評価方法、及びプログラム - Google Patents
クエリ類似度評価システム、評価方法、及びプログラム Download PDFInfo
- Publication number
- JP6299596B2 JP6299596B2 JP2014538145A JP2014538145A JP6299596B2 JP 6299596 B2 JP6299596 B2 JP 6299596B2 JP 2014538145 A JP2014538145 A JP 2014538145A JP 2014538145 A JP2014538145 A JP 2014538145A JP 6299596 B2 JP6299596 B2 JP 6299596B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- query
- evaluation
- importance
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Description
ユーザがクエリを入力した際、検索システムがユーザの検索意図に似ているクエリをユーザに推薦することや、検索意図が似ているクエリで目的の文書を上位とするような検索された結果の文書(以下、「検索結果文書」と記載する)に対するランキングは、検索意図を含む文書を探す場合に有効である。また、検索システムは、入力されたクエリの結果だけでなく、検索意図が似ているクエリの結果も表示することで、検索漏れを防ぐことができる。
また、ユーザが検索意図を含む文書を検索する際に、過去の検索時の文書へのアクセスログ、または評価ログを用いると、検索システムは検索結果文書に対するランキングを改善できるが、上記ログがすべてのクエリに対しては十分に存在しない場合がある。上記ログが十分でないクエリに対して、当該クエリのログだけでなく、検索意図が似ているクエリのログを用いることで、より多くのクエリに対して検索結果文書のランキングの改善が可能となる。
こうした応用のために、検索意図の似ているクエリを判定することが必要となる。複数のクエリに対し、検索意図が似ているかを判定するための手法として、それぞれのクエリの検索結果文書を利用する手法が知られている。検索結果文書を利用して、同様の検索意図を表すクエリを判定するシステムの一例が、非特許文献1に記載されている。
図11に示すように、非特許文献1に記載のクエリ類似度判定システムは、類似度を評価したいクエリ(クエリ1、クエリ2)それぞれの検索結果を取得する検索結果取得手段と、その検索結果の類似度を計算する検索結果類似度計算手段と、を有する。このような構成を有する従来のクエリ類似度判定システムは、次のように動作する。
まず、検索結果取得手段は、入力された2つのクエリそれぞれの検索結果文書を検索対象文書記憶部から取得する。次に、検索結果取得手段が取得した2つの検索結果文書の集合を入力とし、検索結果類似度計算手段は、検索結果文書の一致または文書に含まれる単語の一致に基づいて、一致する個数が多いほど大きく類似度を計算し、出力する。
そこで、本発明の目的の一例は、入力された複数のクエリの検索意図が似ているかを高い精度で判定するクエリ類似度評価システム、評価方法、及びプログラムを提供することにある。
また、上記目的を達成するため、本発明の一形態にかかるクエリ類似度評価方法は、第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定する検索結果ランキングステップと、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算ステップと、を備える。
更に、上記目的を達成するため、本発明の一形態にかかるプログラムは、コンピュータによって、第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定し、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計ステップとして機能させる。
本願で使用される用語「評価」は、検索エンジンの使用者が取った行動のうち、文書を求めていたか、求めていなかったかの手掛かりとなる行動を表す。評価とは、例えば、(1)検索中に文書が役に立ったかを使用者にアンケートした結果に基づく検索システムに登録された文書への評価、または(2)検索時の文書の閲覧である。アンケートや評価で「役に立つ」と回答されるという行動、および文書が使用者に閲覧されるという行動は、その文書を求めていたことを示す手掛かりであり、それぞれ評価が高いとする。逆に「役に立たなかった」と回答されるという行動、および画面に文書リンクを表示したにもかかわらず文書が使用者に閲覧されないという行動は、その文書を求めていなかったことを示す手掛かりであり、それぞれ評価が低いとする。
図1を用いて、本発明を実施するための最良の形態におけるクエリ類似度評価システムの構成について説明する。図1は、本発明を実施するための最良の形態の構成を示すブロック図である。
図1を参照すると、本発明を実施するための最良の形態におけるクエリ類似度評価システムは、検索結果取得部21、検索結果ランキング部22、クエリ類似度計算部23、検索対象文書記憶部31、クエリ−評価記録記憶部32から構成されている。
検索対象文書記憶部31は、検索システムで検索対象となる文書を記憶している。検索対象文書記憶部31は、例えば、文書テキストそのもの、文書に対して付けられたメタデータ(文書ID、文書の更新日時、筆者、特定のタグが付いたテキスト、文書を参照する文書のID、文書に付けられたスコア等)、文書テキスト中の単語に対して付けられた転置インデックス等を記憶する。
クエリ−評価記録記憶部32は、クエリとそのクエリに対する評価の記録(以下、「評価記録」と記載する)を互いに関連付けた情報を記憶する。クエリ−評価記録記憶部32は、例えば、図10に示すように、過去に検索エンジンに使用者から入力されたクエリ(以下、「クエリ」と記載する)と、当該クエリによって検索された文書、および当該文書への評価とを対応付けした情報を記録する。ここで、クエリ−評価記録記憶部32が記憶するデータは、例えば、検索システムで、クエリと閲覧された文書を記述したログを出力させることで、作成されることにより、あらかじめ記憶されておいてよい。
次に、本発明を実施するための最良の形態におけるクエリ類似度評価システムの動作について説明する。
検索結果取得部21は、検索対象文書記憶部31を参照し、2つのクエリ(第1のクエリ、第2のクエリ)に対する検索結果をそれぞれ特定する。例えば、検索されたクエリが文書中に含まれる文書を特定する。検索結果取得部21は、特定された2つの検索結果文書の集合(以下、「検索結果文書集合」または「検索結果文書集合1、検索結果集合2」と記載する)を、検索結果ランキング部22に出力する。検索結果ランキング部22は、検索結果取得部21が出力した2つのクエリとそれぞれに対応する2つの検索結果文書集合の組に対し、クエリ−評価記録記憶部32を参照して、クエリに対する評価記録が含まれるか否かを調べる。もし、いずれの評価記録もクエリ−評価記録記憶部32に含まれない場合、検索結果ランキング部22は、検索結果文書とクエリのみから計算されるランキングスコア(例えば、クエリ単語が含まれる回数、PageRank等の文書スコア)に基づいて2つの検索結果文書集合の各文書に対し重要度を算出し、クエリ類似度計算部23に算出した重要度を出力する。
いずれかの評価記録が、クエリ−評価記録記憶部32に含まれる場合、検索結果ランキング部22はクエリ−評価記録記憶部32を参照する。検索結果ランキング部22は、参照した結果を基に、2つの検索結果文書集合の各文書に対する重要度を算出する。例えば、検索結果ランキング部22は、クエリに対応する文書の評価が高くなるほど重要度がより高く、また文書の評価が低くなるほど重要度がより低くなるよう算出する。検索結果ランキング部22は、その算出した結果をクエリ類似度計算部23に出力する。
上記の重要度を算出する方法(以下、「重要度算出方法」と記載する)は、例えば、高評価された文書で出現頻度が高く、低評価された文書で出現頻度が低い語(特徴語)を特定し、並べ替えたい文書に対し、上で特定された単語の頻度が大きいほど高い重要度を算出する、という方法であってもよい。
また、重要度算出方法は、例えば、クエリと文書の組に対して、文書中のクエリキーワードの出現頻度、文書に付与されたメタデータ(文書の更新日時、文書の長さ等)の値を特徴ベクトルとして、入力文書の特徴ベクトルと、高評価された文書の特徴ベクトルとのユークリッド距離を計算し、距離が小さいほど高い重要度を算出する、という方法であってもよい。
もし、両方の評価記録がクエリ−評価記録記憶部32に含まれるならば、検索結果ランキング部22はそれぞれのクエリに対して、クエリ−評価記録記憶部32を参照する。検索結果ランキング部22は、参照した結果を基に、クエリに対応する評価された文書を上位に、評価されていない文書を下位にするように2つの検索結果文書集合を並べ替える。検索結果ランキング部22は、それぞれの並べ替えによる、2組の2つの検索結果文書集合の組をクエリ類似度計算部23に出力する。
クエリ類似度計算部23は、検索結果ランキング部22から出力された、1組または2組の並べ替えられた検索結果文書集合の組に対し、それぞれの文書で高い重要度を算出された文書同士の類似を重視するように、検索結果文書集合間の類似度を計算する。
[数1]
数式1は、検索結果集合1、検索結果集合2に含まれる文書の組み合わせそれぞれについて、検索結果集合1での重要度と、検索結果集合2での重要度との積が大きいほど大きい重みをつけて、類似度を足し合わせたものである。2組入力された場合には、数式1は、それぞれの組で計算された値の平均を用いる。
特に、sim(d1,d2)を文書の一致で判断する場合、類似度は以下の式で計算される。
[数2]
[クエリ類似度評価システムの動作]
次に、本発明を実施するための最良の形態におけるクエリ類似度評価システムの動作について、図1を適宜参酌しつつ、図2を用いて説明する。なお、本発明の実施形態では、クエリ類似度評価システムを動作させることによってクエリ類似度評価方法が実施されるため、本発明の実施形態におけるクエリ類似度評価方法の説明は、以下のクエリ類似度評価システムの動作説明に代える。
次に、図2を参照して本発明を実施するための最良の形態におけるクエリ類似度評価システムの全体の動作について詳細に説明する。図2は、本発明の実施形態に係るクエリ類似度評価システムの処理を表すフローチャートである。
まず、検索結果取得部21は、2つのクエリに対する検索結果文書集合を、検索対象文書記憶部31から参照して特定し、2つのクエリとそれぞれのクエリに対する検索結果文書集合を検索結果ランキング部22に出力する(ステップA1)。
次に、ステップA1での2つのクエリとそれぞれの検索結果について、検索結果ランキング部22は、クエリ−評価記録記憶部32に、評価記録が存在するかどうかを判定する。クエリ−評価記録記憶部32に、評価記録が存在するならば、処理はステップA4に進む。クエリ−評価記録記憶部32に、評価記録が存在しないならば、処理はステップA3に進む(ステップA2)。
次に、検索結果ランキング部22は、ステップA1での2つのクエリとそれぞれのクエリに対する検索結果文書の集合に対し、重要度を算出する(ステップA3)。例えば、ステップA1での2つのクエリとそれぞれのクエリに対する検索結果ランキング部22は、検索結果文書の集合に対して、検索結果の並べ替えを行う等である。
次に、検索結果ランキング部22は、にステップA1での2つのクエリとそれぞれのクエリに対する検索結果文書の集合に対し、クエリ−評価記録記憶部32に存在する評価記録を特定する(ステップA4)。
次に、検索結果ランキング部22は、ステップA4で特定された、評価記録、クエリ、クエリに対する検索結果文書の集合に対し、クエリに対する検索結果文書の集合2つの各文書に対し、評価記録で評価された文書ほど高くなるように重要度を算出する。2つの各文書の評価記録が特定された場合には、検索結果ランキング部22は、2種類の重要度を算出する。検索結果ランキング部22は、それぞれの評価記録に基づき重要度を算出された、2つの検索結果文書集合の組、1組または2組を、クエリ類似度計算部23に出力する(ステップA5)。
次に、クエリ類似度計算部23は、ステップA3ないし、ステップA5での、1組または2組の2つの検索結果文書集合に対し、高い重要度の文書同士の類似を重視するよう、類似度を計算する。クエリ類似度計算部23は、2組の2つの検索結果文書集合が出力された場合には、部それぞれの組の類似度の平均を出力する(ステップA6)。
[プログラム]
本発明を実施するための最良の形態におけるクエリ類似度評価システムのプログラムは、コンピュータに、図2に示すステップA1〜A6を実行させるプログラムであればよい。このプログラムをコンピュータに導入し、実行することによって、本発明を実施するための最良の形態におけるクエリ類似度評価システムと、クエリ類似度評価方法と、を実現することができる。
[コンピュータ]
図3を用いて、本発明を実施するための最良の形態におけるクエリ類似度評価システムを実現するコンピュータについて説明する。図3は、本発明を実施するための最良の形態の構成を実現するコンピュータの一例を示すブロック図である。
図3は、本発明を実施するための最良の形態におけるクエリ類似度評価システムのハードウェア構成図である。図3に示すように、クエリ類似度評価システムは、例えばCPU(Central Processing Unit)1、RAM(Random Access Memory)2、記憶装置3、通信インターフェース4、入力装置5、出力装置6等を含む。
検索結果取得部21、検索結果ランキング部22等は、例えば、CPU1 が、プログラムをRAM2に読み出し、実行することによって実現される。検索結果取得部21、検索結果ランキング部22等が情報の送受信を行う動作は、例えばOS(Operating System)が提供する機能を使ってアプリケーションプログラムが通信インターフェース4を制御することによって実現される。記憶装置3は、例えば、ハードディスクや、フラッシュメモリである。入力装置5は、例えばキーボードやマウス等である。出力装置6は、例えばディスプレイ等である。
具体的な例を用いて本発明の実施形態の動作を説明する。
図4に示すように、検索対象文書記憶部31は、検索対象文書データを記憶している。ここで、図4に示す検索対象文書データは、例えば、6つの各文書に対してのデータ集合を示す。例えば、検索対象文書データは、文書のID、文書のタイトル、文書の更新日時が現在から何日前なのか、文書の被リンク数、文書の長さ(文字数)等の、データ集合である。
図5に示すように、クエリ−評価記録記憶部32は、クエリと当該クエリに対する評価記録(クエリ−評価記録)を記憶している。
ここで、図5に示すクエリ−評価記録は、例えば、クエリ「mysql メモリ 設定」を入力して検索している際に行われた評価1回につき、クエリ、評価された文書のID、評価内容(Goodなら探していた文書であることを表し、Badなら探していた文書と異なっていることを表す)等の、データ集合である。
以下、「mysql メモリ 設定」と「my.cnf cache size」の2つのクエリが入力された場合(case1)と、「mysql メモリ 設定」と、「mysql インデックス作成」の2つのクエリが入力された場合(case2)との、クエリ類似度を計算する際の具体的な処理を記述する。
case1においては、どちらのクエリもmysqlのメモリに関する設定方法の検索を意図しており、検索意図が似ている。case2においては、「mysql メモリ 設定」はメモリの設定方法の検索を意図しており、「mysql インデックス作成」はフィールドのインデックスの作成方法を意図しているため、検索意図が異なる。ただし、case2のクエリは、どちらも処理速度を上げるための方法であるため、同一の文書に記述があることもある。
まず、検索結果取得部21は、検索対象文書記憶部31を参照して、それぞれのクエリにより検索される文書を特定する。例えば、図6に示すように、例えば、case1の場合では、検索結果取得部21は、クエリが本文中に含まれる文書を特定し、クエリ「mysql メモリ 設定」に対しては文書ID 0、1、2、3、5の文書を、クエリ「my.cnf cache size」に対しては文書ID 0、2、3の文書を検索結果として特定する。
図7に示すように、例えば、case2の場合では、検索結果取得部21は、クエリ「mysql メモリ 設定」に対しては文書ID 0、1、2、3、5の文書を、クエリ「mysql インデックス作成」に対しては文書ID 0、1、4、5の文書を検索結果として特定する。検索結果取得部21は、それぞれのクエリと検索結果文書IDの集合を検索結果ランキング部22に出力する。
次に、検索結果ランキング部22は、クエリ−評価記録記憶部32を参照し、case1、case2ともに、検索結果取得部21によって出力された2つのクエリのうち、「mysql メモリ 設定」の評価記録のみが存在することを特定する。
ここでは、具体的な例として、クエリが完全に一致する評価記録を用いたが、以下のクエリ類似度を計算する際の具体的な処理では、クエリをキーワードに分解し(例えば、「mysql メモリ 設定」を「mysql」、「メモリ」、「設定」に分解)、キーワードが含まれる評価記録を用いるようにしても良い。
次に、検索結果ランキング部22は、評価記録が存在したクエリ「mysql メモリ 重い」の評価記録(評価記録ID 0、1)に基づき、評価記録で高評価の(Goodと評価された)文書ID3の文書の重要度を高く、評価記録で低評価の(Badと評価された)文書ID5の文書に重要度を低く出力された2つの検索結果のランキングを行う。
例えば、検索結果ランキング部22は、高評価の文書ID3の文書で頻度が高く、低評価の文書ID5の文書で頻度が低い語「buffer」、「pool」、「設定ファイル」を特徴語として特定し、「buffer」、「pool」、「設定ファイル」の本文での出現頻度の和を重要度として算出する。そして、図8に示すように、例えば、case1では、検索結果ランキング部22は、クエリ「mysql メモリ 設定」の検索結果文書集合と、クエリ「my.cnf cache size」の検索結果文書集合に対する、順位、文書ID、スコア等のランキング結果を得る。図9に示すように、例えば、case2では、検索結果ランキング部22は、クエリ「mysql メモリ 設定」の検索結果文書集合と、クエリ「mysql インデックス作成」の検索結果文書集合に対する、順位、文書ID、スコア等のランキング結果を得る。
ここで、検索結果ランキング部22の評価方法としては、逆に低評価された文書のみで頻度が高い語を特定し、その語の頻度が小さいほど大きい重要度を算出してもよい。また、検索結果ランキング部22の評価方法としては、メタデータを用い、高評価された文書のスコアを+1、低評価された文書のスコアを−1として、メタデータ(例だと、更新日時、被リンク数、長さ)からスコアを出力する関数を学習し、関数の出力する値を重要度としてもよい。
ここでは、検索結果Sの中での文書dの重要度は、検索結果S内での順位order(d)を利用して以下のように計算される。また、検索結果S1の中での文書d1の重要度は順位order1(d)を、検索結果S2の中での文書d2の重要度は順位order2(d)を利用して計算される。
[数3]
次に、クエリ類似度計算部23は、検索結果ランキング部22から入力された図8または図9の重要度のついた検索結果文書2つを入力として、以下のように類似度を計算する。
[数6]
従来手法の場合では、検索結果の共通の文書の割合では、case1でそれぞれの検索結果の3/5、3/3であり、平均すると0.8、case2ではそれぞれの検索結果の3/5、3/4であり平均すると0.675となり検索意図が異なるクエリに対しても、類似度を大きく計算してしまっていた。
一方、本発明の実施形態では、検索意図が同じcase1では1.0、検索意図が異なるcase2では0.335と、検索意図が異なるクエリに対してより小さい類似度を計算することができる。
以上、実施形態を用いて本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。この出願は、2012年9月28日に出願された日本出願特願2012−217118を基礎とする優先権を主張し、その開示の全てをここに取り込む。
2 RAM
3 記憶装置
4 通信インターフェース
5 入力装置
6 出力装置
21 検索結果取得部
22 検索結果ランキング部
23 クエリ類似度計算部
31 検索対象文書記憶部
32 クエリ−評価記録記憶部
Claims (10)
- 第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定する検索結果ランキング手段と、
前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算手段と、を備え、
前記検索結果ランキング手段は、評価が高い文書と評価が低い文書それぞれの特徴語を特定し、評価が高い文書の特徴語の出現頻度が高い文書に対しては前記重要度を高く、評価が低い文書の特徴語の出現頻度が高い文書に対しては前記重要度を低く算出することを特徴とするクエリ類似度評価システム。 - 第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定する検索結果ランキング手段と、
前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算手段と、を備え、
前記検索結果ランキング手段が、評価が高い文書と評価が低い文書それぞれの特徴語を特定し、評価が高い文書の特徴語の出現頻度が高い文書に対しては前記重要度を高く、評価が低い文書の特徴語の出現頻度が高い文書に対しては前記重要度を低く算出することを特徴とするクエリ類似度評価システム。 - 第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定する検索結果ランキング手段と、
前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算手段と、を備え、
前記クエリ類似度計算手段は、検索結果集合1をS1、検索結果集合2をS2、文書dの検索結果集合1での前記重要度(検索結果集合1内の文書での総和が1となるように正規化されていることとする)をw1(d)、文書dの検索結果集合2での前記重要度をw2(d)、文書d1と文書d2の類似度をsim(d1、d2)として、アルゴリズム
- 第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定する検索結果ランキング手段と、
前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算手段と、を備え、
前記クエリ類似度計算手段は、第1のクエリが検索された複数の文書と第2のクエリが検索された複数の文書との間の類似度に、各文書の前記重要度に応じた重みをつけることによって、第1のクエリと第2のクエリとの間の類似度を計算することを特徴とするクエリ類似度評価システム。 - 前記検索結果ランキング手段は、
少なくとも前記第1のクエリと前記第2のクエリを含む複数のクエリの類似度を評価する際に、前記各クエリによって得られる結果の文書集合のそれぞれに対して、前記クエリの過去の文書集合の評価結果と今回の文書集合を比較することによって、当該文書集合に含まれる各文書の前記重要度を算出することを特徴とする請求項1から4のいずれか1項に記載のクエリ類似度評価システム。 - クエリ類似度評価システムが、
第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの重要度を決定する検索結果ランキングステップと、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算ステップと、を備え、
前記検索結果ランキングステップは、評価が高い文書と評価が低い文書それぞれの特徴語を特定し、評価が高い文書の特徴語の出現頻度が高い文書に対しては前記重要度を高く、評価が低い文書の特徴語の出現頻度が高い文書に対しては前記重要度を低く算出することを特徴とするクエリ類似度評価方法。 - クエリ類似度評価システムが、
第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの重要度を決定する検索結果ランキングステップと、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算するクエリ類似度計算ステップと、を備え、
前記検索結果ランキングステップは、評価が高い文書と評価が低い文書それぞれに付与されたメタデータを参照し、評価が高い文書とメタデータの値が近い文書ほど前記重要度を高く、評価が低い文書のメタデータと近い文書ほど前記重要度を低く算出することを特徴とするクエリ類似度評価方法。 - 前記検索結果ランキングステップは、少なくとも前記第1のクエリと前記第2のクエリを含む複数のクエリの類似度を評価する際に前記各クエリによって得られる結果の文書集合のそれぞれに対して、前記クエリの過去の文書集合の評価結果と今回の文書集合を比較することによって、当該文書集合に含まれる各文書の前記重要度を算出することを特徴とする請求項6または7に記載のクエリ類似度評価方法。
- コンピュータによって、第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定し、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算させ、
評価が高い文書と評価が低い文書それぞれの特徴語を特定し、評価が高い文書の特徴語の出現頻度が高い文書に対しては前記重要度を高く、評価が低い文書の特徴語の出現頻度が高い文書に対しては前記重要度を低く算出するためのプログラム。 - コンピュータによって、第1のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第1の重要度を決定し、第2のクエリが検索された複数の文書のそれぞれの評価結果に基づいて、前記複数の文書のそれぞれの第2の重要度を決定し、前記文書集合の各文書の第1及び第2の重要度に基づき、前記複数のクエリの類似度を計算させ、
評価が高い文書と評価が低い文書それぞれに付与されたメタデータを参照し、評価が高い文書とメタデータの値が近い文書ほど前記重要度を高く、評価が低い文書のメタデータと近い文書ほど前記重要度を低く算出させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012217118 | 2012-09-28 | ||
JP2012217118 | 2012-09-28 | ||
PCT/JP2013/005406 WO2014050002A1 (ja) | 2012-09-28 | 2013-09-12 | クエリ類似度評価システム、評価方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014050002A1 JPWO2014050002A1 (ja) | 2016-08-22 |
JP6299596B2 true JP6299596B2 (ja) | 2018-03-28 |
Family
ID=50387446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014538145A Active JP6299596B2 (ja) | 2012-09-28 | 2013-09-12 | クエリ類似度評価システム、評価方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150248454A1 (ja) |
JP (1) | JP6299596B2 (ja) |
WO (1) | WO2014050002A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7400175B1 (ja) | 2023-07-28 | 2023-12-19 | 株式会社神島組 | 割岩装置および当該割岩装置への潤滑剤供給方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10353964B2 (en) * | 2014-09-15 | 2019-07-16 | Google Llc | Evaluating semantic interpretations of a search query |
CN106780050A (zh) * | 2016-12-12 | 2017-05-31 | 国信优易数据有限公司 | 受灾程度评估方法、系统及电子设备 |
JP2019057110A (ja) * | 2017-09-21 | 2019-04-11 | データ・サイエンティスト株式会社 | 検索目的推察支援装置、検索目的推察支援システム、及び検索目的推察支援方法 |
JP6528341B1 (ja) * | 2017-12-19 | 2019-06-12 | 株式会社プロモスト | 情報処理装置、情報処理方法及びプログラム |
KR20190104773A (ko) * | 2018-03-02 | 2019-09-11 | 삼성전자주식회사 | 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체 |
KR102635811B1 (ko) * | 2018-03-19 | 2024-02-13 | 삼성전자 주식회사 | 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법 |
RU2731658C2 (ru) | 2018-06-21 | 2020-09-07 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения |
JP6680956B1 (ja) * | 2018-11-06 | 2020-04-15 | データ・サイエンティスト株式会社 | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 |
JP6924450B2 (ja) * | 2018-11-06 | 2021-08-25 | データ・サイエンティスト株式会社 | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 |
RU2733481C2 (ru) | 2018-12-13 | 2020-10-01 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система генерирования признака для ранжирования документа |
RU2744029C1 (ru) | 2018-12-29 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ формирования обучающего набора для алгоритма машинного обучения |
WO2020148844A1 (ja) * | 2019-01-17 | 2020-07-23 | 株式会社プロモスト | 情報処理装置、情報処理方法及びプログラム |
JP7224392B2 (ja) * | 2021-04-09 | 2023-02-17 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732088B1 (en) * | 1999-12-14 | 2004-05-04 | Xerox Corporation | Collaborative searching by query induction |
US7149732B2 (en) * | 2001-10-12 | 2006-12-12 | Microsoft Corporation | Clustering web queries |
US7480648B2 (en) * | 2004-12-06 | 2009-01-20 | International Business Machines Corporation | Research rapidity and efficiency improvement by analysis of research artifact similarity |
US7904440B2 (en) * | 2007-04-26 | 2011-03-08 | Microsoft Corporation | Search diagnostics based upon query sets |
US8090709B2 (en) * | 2007-06-28 | 2012-01-03 | Microsoft Corporation | Representing queries and determining similarity based on an ARIMA model |
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
US8019748B1 (en) * | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
US20090271374A1 (en) * | 2008-04-29 | 2009-10-29 | Microsoft Corporation | Social network powered query refinement and recommendations |
US8073869B2 (en) * | 2008-07-03 | 2011-12-06 | The Regents Of The University Of California | Method for efficiently supporting interactive, fuzzy search on structured data |
JP5504595B2 (ja) * | 2008-08-05 | 2014-05-28 | 株式会社リコー | 情報処理装置、情報検索システム、情報処理方法およびプログラム |
JP5163379B2 (ja) * | 2008-09-11 | 2013-03-13 | 富士通株式会社 | 文書群検出方法及び文書群検出装置 |
JP5286007B2 (ja) * | 2008-09-18 | 2013-09-11 | 日本電信電話株式会社 | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2010122932A (ja) * | 2008-11-20 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、および文書検索プログラム |
US8606786B2 (en) * | 2009-06-22 | 2013-12-10 | Microsoft Corporation | Determining a similarity measure between queries |
JP5165719B2 (ja) * | 2010-03-30 | 2013-03-21 | ヤフー株式会社 | 情報処理装置、データ抽出方法及びプログラム |
US8954413B2 (en) * | 2010-04-12 | 2015-02-10 | Thermopylae Sciences and Technology | Methods and apparatus for adaptively harvesting pertinent data |
US8768861B2 (en) * | 2010-05-31 | 2014-07-01 | Yahoo! Inc. | Research mission identification |
IT1400269B1 (it) * | 2010-05-31 | 2013-05-24 | Google Inc | Distanza di editazione generalizzata per interrogazioni |
US20120005021A1 (en) * | 2010-07-02 | 2012-01-05 | Yahoo! Inc. | Selecting advertisements using user search history segmentation |
US8799260B2 (en) * | 2010-12-17 | 2014-08-05 | Yahoo! Inc. | Method and system for generating web pages for topics unassociated with a dominant URL |
US8756241B1 (en) * | 2012-08-06 | 2014-06-17 | Google Inc. | Determining rewrite similarity scores |
-
2013
- 2013-09-12 WO PCT/JP2013/005406 patent/WO2014050002A1/ja active Application Filing
- 2013-09-12 JP JP2014538145A patent/JP6299596B2/ja active Active
- 2013-09-12 US US14/430,292 patent/US20150248454A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7400175B1 (ja) | 2023-07-28 | 2023-12-19 | 株式会社神島組 | 割岩装置および当該割岩装置への潤滑剤供給方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2014050002A1 (ja) | 2014-04-03 |
US20150248454A1 (en) | 2015-09-03 |
JPWO2014050002A1 (ja) | 2016-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6299596B2 (ja) | クエリ類似度評価システム、評価方法、及びプログラム | |
US9053115B1 (en) | Query image search | |
US8161036B2 (en) | Index optimization for ranking using a linear model | |
US8775410B2 (en) | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface | |
US8171031B2 (en) | Index optimization for ranking using a linear model | |
US20190362267A1 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US7647331B2 (en) | Detecting duplicate images using hash code grouping | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
US9652558B2 (en) | Lexicon based systems and methods for intelligent media search | |
US8019758B2 (en) | Generation of a blended classification model | |
US20120278321A1 (en) | Visualization of concepts within a collection of information | |
US9177057B2 (en) | Re-ranking search results based on lexical and ontological concepts | |
US20100042610A1 (en) | Rank documents based on popularity of key metadata | |
JP2010009577A (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
US20110270828A1 (en) | Providing search results in response to a search query | |
US20170083553A1 (en) | Tiering of posting lists in search engine index | |
US9298757B1 (en) | Determining similarity of linguistic objects | |
US20110270849A1 (en) | Providing search results in response to a search query | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
EP2192503A1 (en) | Optimised tag based searching | |
US20140280086A1 (en) | Method and apparatus for document representation enhancement via social information integration in information retrieval systems | |
US20200278989A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN112740202A (zh) | 使用内容标签执行图像搜索 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6299596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |