JP5838086B2 - 減少クエリを推薦する検索システムおよび検索方法 - Google Patents

減少クエリを推薦する検索システムおよび検索方法 Download PDF

Info

Publication number
JP5838086B2
JP5838086B2 JP2011279933A JP2011279933A JP5838086B2 JP 5838086 B2 JP5838086 B2 JP 5838086B2 JP 2011279933 A JP2011279933 A JP 2011279933A JP 2011279933 A JP2011279933 A JP 2011279933A JP 5838086 B2 JP5838086 B2 JP 5838086B2
Authority
JP
Japan
Prior art keywords
query
terms
weight value
term
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011279933A
Other languages
English (en)
Other versions
JP2012133785A (ja
Inventor
知 勳 崔
知 勳 崔
知 昇 金
知 昇 金
允 植 李
允 植 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2012133785A publication Critical patent/JP2012133785A/ja
Application granted granted Critical
Publication of JP5838086B2 publication Critical patent/JP5838086B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、減少クエリを推薦する検索システムおよび検索方法に関する。
従来技術における検索方法は、統合検索や商品検索でクエリに対する検索結果がない場合、または少ない数の検索結果のみを含む場合が極めて多い。このような場合、クエリが極めて長いか、クエリが詳細過ぎて、クエリと関係のない付加語が含まれることが大部分である。例えば、商品検索として「正官庄(登録商標)レッドマックスプラス」や「フィリップス(登録商標)スチームアイロン2860」または「アビーノ(登録商標)デイリーモイスチャーボディウォッシュ(354ml)+ストレスリリーフバブルバース(295ml)」のようなクエリは、クエリが極めて長く、詳細過ぎる場合に該当する。また、「ベネトン(登録商標)ファーフォックスマフラー」や「アブソリュート宮の本来価格」または「セルフ前髪パーマ」などのようなクエリは付加語によって検索結果がないか、少ない数の検索結果のみを含む場合に該当する。その他にも、「ジュエリー名品時計タグホイヤー」や「ラコステ(登録商標)・ゴンユ短靴」または「輸入アズナブールフランスエトロヘアピン」などのようにカテゴリー名/ブランド名/製造会社名を羅列する形態のクエリに対しても検索結果がないか、少ない数の検索結果のみを含む場合が存在する。すなわち、適した類似の商品や検索結果が存在するにも関わらず、全てのクエリに含まれた用語に全てが適する商品や検索結果がないか不足している。
本発明は、より効果的に検索結果を提供することのできるシステムおよび検索方法を提供する。
本発明の目的は、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリ(reduction query)を提供することによって、極めて長いクエリや検索結果が存在しないか、または検索結果の数が少ないクエリに対しても効果的に検索結果を提供することのできる検索システムおよび検索方法を提供する。
本発明の目的は、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出することのできる検索システムおよび検索方法を提供する。
本発明の目的は、各用語に対して文書上における重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することのできる検索システムおよび検索方法を提供する。
本発明の目的は、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる検索システムおよび検索方法を提供する。
本発明の一実施形態に係る検索システムは、入力されたクエリから2以上の用語を抽出する用語抽出部と、抽出された用語それぞれの加重値を算出する加重値算出部であって、前記抽出された用語それぞれに対して、クエリログに含まれたクエリの数、および該当用語と前記クエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第1加重値、前記クエリログに含まれたクエリの数と該当用語と前記クエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第2加重値、および前記第1加重値の前記第2加重値に対する比率に基づいて算出される第3加重値のうち少なくとも1つの加重値を用いて前記抽出された用語それぞれの加重値を算出する加重値算出部と、算出さ れた加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する減少クエリ推薦部と、を備えることを特徴とする。
クエリは、クエリを介した検索結果が予め選定された数以下であるクエリを含んでもよい。
用語抽出部は、クエリを形態素分析して複数の用語を抽出する形態素分析部と、クエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部と、を備えてもよい。
相互の情報量は、クエリログで互いに隣接した用語がそれぞれ用いられた回数および互いに隣接した用語が共に用いられた回数を用いて算出されてもよい。
加重値算出部は、前記抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第4加重値をさらに用いて前記抽出された用語それぞれの加重値を算出してもよい。

減少クエリ推薦部は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去する用語除去部と、除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成する減少クエリ生成部と、を備えてもよい。
減少クエリ生成部は、加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合に基づいて少なくとも1つの減少クエリを生成してもよい。
検索システムは、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する検索結果提供部をさらに備えてもよい。
検索結果提供部は、少なくとも1つの減少クエリおよび少なくとも減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供してもよい。
検索結果提供部は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供するか、または少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供してもよい。
クエリは、商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下であるクエリを含んでもよい。
本発明の一実施形態に係る検索方法は、入力されたクエリから2以上の用語を抽出し、抽出された用語それぞれの加重値を算出し、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供することを特徴とする。
本発明によると、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリを提供することによって、極めて長いクエリや検索結果が存在しないか、検索結果の数が少ないクエリに対しても効果的に検索結果を提供することができる。
本発明によると、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出することができる。
本発明によると、各用語に対して文書上における重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することができる。
本発明によると、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる。
本発明の一実施形態に係る商品検索で任意の用語をユーザ人気および商品の特殊性に応じて示すグラフである。 本発明の一実施形態に係るウィークコンセプト抽出のための相互の情報量の閾値を説明するグラフである。 本発明の一実施形態に係る入力されたクエリで抽出された用語と用語ごとに算出された加重値を示した図である。 本発明の一実施形態に係る減少クエリを生成する方法を説明する図である。 本発明の一実施形態に係る検索システムの内部構成を説明するブロック図である。 本発明の一実施形態に係る検索方法を示すフローチャートである。
以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。
図1は、本発明の一実施形態に係る商品検索で任意の用語をユーザの人気および商品の特殊性に応じて示すグラフである。図1に示したグラフ100において、x軸は用語に対するユーザ人気を示し、y軸は商品の特殊性を示す。図1に示すグラフ100は、商品検索でクエリが極めて長いか詳細な場合やクエリと関係のない付加語が含まれた場合、ユーザ人気の低い用語と商品の特殊性が低い用語を除去することでクエリによって検索された商品や検索結果が存在しないか、検索された商品や検索結果の数が少ないときに検索品質が落ちる問題を解決できる。例えば、グラフ100において、クエリに含まれる用語のうち「230ml」や「21インチ」、「ジュエリー」、「輸入」、「有名人の名前」、および「価格比較」などは、商品検索においてユーザ人気や商品の特殊性またはユーザ人気および商品の特殊性の両方が低いため、検索された商品や検索結果の数が予め選定された数以下である場合にはクエリから除去されてもよい。この場合、「230ml」や「21インチ」は、ユーザがあまり使用しない用語であり、「輸入」、「有名人の名前」および「価格比較」は単一ショッピングのクエリになり難い付加語であり、「ジュエリー」は商品の特殊性が足りない用語でありそれぞれ除去されてもよい。
一方、図1に示す領域110内の用語「アズナブール」、「エアマックス(登録商標)」、「50d」、「ジーンズ」、「ワンピース」は、ユーザの人気や商品の特殊性、またはユーザの人気および商品の特殊性の両方が高いため、減少クエリ(reduction query)を構成する用語として用いてもよい。
まず、ユーザから入力されるクエリで前述した用語を抽出するため、本実施形態に係る検索システムは、クエリを形態素分析によって形態素ごとに用語を抽出する。その後、用語間の相互の情報量を用いて必要に応じて互いに隣接した用語を結合してもよい。例えば、クエリの「輸入アズナブールフランスエトロヘアピン」を形態素分析する場合、「輸入」、「アズナ」、「ブール」、「フランス」、「エトロ」、「ヘア」、「ピン」のような用語が抽出される。しかし、用語の「アズナ」と「ブール」そして「ヘア」や「ピン」のような単語はそれぞれの用語に分離する場合、クエリの意図が曖昧になる。したがって、この場合には「アズナブール」および「ヘアピン」のように結合された場合がクエリの意図にさらに近いこともある。他の例として、「アビーノ(登録商標)」、「デイリー」、「モイスチャー」、「ボディ」、「ウォッシュ」の「ボディ/ウォッシュ」や、「フィリップス(登録商標)」、「スチーム」、「アイロン」、「2860」の「スチーム」、「アイロン」は、それぞれの用語に分離するより結合されることがクエリの意図にさらに近い。また、「バーバリー」、「トレンチ」、「コート」の「トレンチ」、「コート」などはそれぞれの用語に分離するより結合されることがクエリの意図にさらに近い。したがって、検索システムは、前述したように、「ボディ」、「ウォッシュ」、「スチーム」、「アイロン」、および「トレンチ」、「コート」をそれぞれ1つの用語「ボディウォッシュ」、「スチームアイロン」および「トレンチコート」に結合して用いる。
このため、検索システムは、形態素分析によって抽出された用語のうち互いに隣接した用語に対して相互の情報量を算出する。例えば、相互の情報量は下記の数式(1)のように算出する。
・・・(1)
ここで、「MI」は相互の情報量であり、「x」および「y」は互いに隣接した用語である。また、「n(x、y)」はクエリログで「x」および「y」が1つのクエリに含まれた場合の数であり、「n(x)」はクエリログで「x」が含まれたクエリの数であり、「n(y)」はクエリログで「y」が含まれたクエリの数である。また、「T」はクエリログで用語出現の全体の数である。
このように、検索システムは互いに隣接した用語間の相互の情報量を算出した後、相互の情報量に対する閾値を用いて結合する用語のウィークコンセプト(weak concept)を抽出してもよい。このとき、ウィークコンセプトを抽出するための閾値は下記の数式(2)のように定義される。
・・・(2)
ここで、「p(weakconcept=1|x、y)」は用語「x」、「y」がウィークコンセプトである確率、「p(weakconcept=0|x、y)」は用語「x」、「y」がウィークコンセプトではない確率である。
図2は、本発明の一実施形態に係るウィークコンセプトを抽出するための相互の情報量の閾値を説明するグラフである。グラフ200において、x軸は相互の情報量の値を示し、y軸は比率を示す。より詳しくは、用語「x」、「y」に対する相互の情報量の値を区間ごとにヒストグラムに表すと、前述した「p(weakconcept=1|x、y)」と「p(weakconcept=0|x、y)」の頻度を確認することができ、このような頻度を比率として示してもよい。このとき、第1折れ線210は「p(weakconcept=1|x、y)」を示し、第2折れ線220は「p(weakconcept=0|x、y)」を示す。すなわち、グラフ200は相互の情報量の値が1.0に近いほど用語「x」、「y」がウィークコンセプトである確率の増加を示す。
数式2を参照すると、「p(weakconcept=1|x、y)/p(weakconcept=0|x、y)」の値が1.0よりも大きいということは、グラフ200で第1折れ線210と第2折れ線220が交差する地点である。このときの相互の情報量区間を閾値に定義し、閾値以上の相互の情報量を有する用語「x」、「y」をウィークコンセプトとして抽出してもよい。この場合、閾値が極めて大きければ、ウィークコンセプトの抽出再現率(カバレッジ)は落ち、極めて小さければ、ウィークコンセプトの抽出正確率は落ちることがある。
図3は、本発明の一実施形態に係る入力されたクエリから抽出された用語と用語ごとに算出された加重値を示す図である。加重値300は、クエリである「輸入アズナブールフランスエトロヘアピン」から図1を参照して説明した方法のように、「輸入」、「アズナブール」、「フランス」、「エトロ」、および「ヘアピン」を抽出した後、それぞれの用語に対して算出された加重値を示す。ここで、「加重値」はそれぞれの用語に対して検索の重要性を数値化し、除去する用語を選択するための基準として用いる。これによって、図3に示す加重値は説明の理解のための一例に過ぎず、本実施形態における「加重値」が図3に示す一例に限定されることはない。例えば、後述する第1加重値〜第4加重値の全てを用いてもよいが、第1加重値〜第4加重値のうち少なくとも1つの加重値を用いてもよい。また、第1加重値〜第4加重値ではない他の用語の重要性が数値化された加重値を用いてもよい。
加重値300において「termNo」は用語を識別するために任意に付加した識別子であり、「term」は抽出されたそれぞれの用語である。
「IDF(inverted document frequency)」は、文書で特定用語の露出頻度を用いて算出される第1加重値として、下記の数式(3)のように算出される。
・・・(3)
ここで、「t」は該当用語であり、「n」は該当する全体文書の数である。また、「df」は用語「t」が含まれた文書の数であり、すなわち、用語「t」を含む文書の頻度である。また、「k」は変数であって、一例として、数字2のように予め設定された定数が代入される。
「QE(Query Exactly match)」は、該当用語とクエリログに含まれたクエリが正確にマッチングされる数を用いて算出される第2加重値として、下記の数式(4)のように算出される。
・・・(4)
ここで、「QE」は用語「t」に対する「QE」であり、「eqf」は該当用語「t」とクエリログに含まれたクエリが正確にマッチングされる数であり、「t」はクエリログに含まれた全体クエリの数である。このとき、「正確にマッチングされる」ことは該当用語がクエリとして入力された場合である。
「QP(Query Partially match)」は、該当用語とクエリログに含まれたクエリが部分的にマッチングされる数を用いて算出される第3加重値として、下記の数式(5)のように算出される。
・・・(5)
ここで、「QP」は用語「t」に対する「QP」であり、「pqf」は該当用語「t」とクエリログに含まれたクエリが部分的にマッチングされる数であり、「t」はクエリログに含まれた全体クエリの数である。このとき、「部分的にマッチングされる」とは該当用語がクエリに含まれた場合をいう。
「QE/QP ratio」とは「QE」と「QP」の比率を用いて算出される第4加重値として、下記の数式(6)のように算出される。
・・・(6)
ここで、「QEQP」は、用語「t」に対する「QE/QP ratio」である。
「weight」は、用語に付与される最終加重値であり、第1加重値〜第4加重値のうち少なくとも1つの加重値を用いて算出される。図3の一例として、最終加重値は下記の数式(7)のように算出される。
・・・(7)
ここで、「weight」は用語「t」の最終加重値であり、「a」、「b」、「c」および「d」は予め決定された値であり、それぞれ第1加重値〜第4加重値に対する加重値である。すなわち、図3の一例として、第1加重値〜第4加重値の加重和として最終加重値「weight」が算出される。
検索システムは用語それぞれの加重値が算出されると、図4に示すように、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。
図4は、本発明の一実施形態に係る減少クエリを生成する方法を説明する図である。図4において、数字が記載された四角ボックスそれぞれは1つの用語を意味し、四角ボックスの中の数字は該当用語の加重値を意味する。
第1ステップは用語の加重値を算出するステップであり、第1点線ボックス410は任意のクエリから抽出された6個の用語および該当用語の算出された加重値を示す。
第2ステップは、加重値を基準にして用語を整列するステップであり、第2点線ボックス420は前述した6個の用語が加重値を基準にして整列した場合を示す。
第3ステップは予め選定された順位(図4では5位)以下の用語を除去するステップであり、第3点線ボックス430は2つの用語が除去された場合を示す。図4で除去された用語に該当する四角ボックスは点線で表示した。
第4ステップは加重値が最も高い用語をキー用語として選定するステップであり、第4点線ボックス440は加重値が「1.0」の用語をキー用語として選定された場合を示す。
第5ステップはキー用語と残り3つの候補用語として減少クエリを推薦するステップであり、第5点線ボックス450は加重値が「0.5」の用語、加重値が「0.7」の用語、および加重値が「0.9」の用語を順に除去し、残りの用語の組合せで減少クエリを生成する場合を示す。
例えば、クエリである「輸入アズナブールフランスエトロヘアピン」に対して、用語「輸入」および「フランス」が削除された減少クエリ「アズナブールエトロヘアピン」、用語「フランス」および「エトロ」が削除された異なる減少クエリ「輸入アズナブールヘアピン」を推薦してもよい。商品検索または統合検索などからこのような用語減少の効果は、検索された商品の数または検索結果の増加のように表してもよい。
図5は、本発明の一実施形態に係る検索システムの内部構成を説明するブロック図である。図5に示すように、本実施形態に係る検索システム500は、用語抽出部510、加重値算出部520、減少クエリ推薦部530、および検索結果提供部540を備える。ここで、検索結果提供部540は必要に応じて含んでもよい。例えば、検索システム500は減少クエリを提供し、他のシステムから提供される減少クエリをユーザに提供したり、減少クエリによる検索結果をユーザに提供したりしてもよい。
用語抽出部510は入力されたクエリから2以上の用語を抽出する。ここで、クエリは、クエリを介した検索結果が予め選定された数以下のクエリを対象にしてもよい。他の例として、クエリは商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下のクエリを対象にしてもよい。このとき、用語抽出部510は単純に形態素分析によって用語を抽出することなく、前述したように、ウィークコンセプト抽出によって相互の情報量が閾値以上の互いに隣接した用語を結合して1つの用語として抽出してもよい。このため、図5に示すように、用語抽出部510は、クエリを形態素分析して複数の用語を抽出する形態素分析部511およびクエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部512を備える。
加重値算出部520は抽出された用語それぞれの加重値を算出する。この場合、加重値算出部520は抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数および該当用語とクエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、クエリログに含まれたクエリの数と該当用語とクエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および第2加重値の第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて抽出された用語それぞれの加重値を算出する。
減少クエリ推薦部530は、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。すなわち、減少クエリ推薦部530は加重値が低い一定数の用語を除去し、残りの用語の組合せを用いて減少クエリを提供する。
このため、減少クエリ推薦部530は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去する用語除去部531、および除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成する減少クエリ生成部532を備える。この場合、減少クエリ生成部532は加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合せに基づいて少なくとも1つの減少クエリを生成する。
検索結果提供部540は、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する。一例として、検索結果提供部540は、少なくとも1つの減少クエリおよび少なくとも1つの減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供する。例えば、第1減少クエリの検索結果が5個であり、第2減少クエリの検索結果が40個、第3減少クエリの検索結果が50個である場合、検索結果提供部540は「第1減少クエリ:5個、第2減少クエリ:40個、第3減少クエリ:50個」のように、減少クエリおよび減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリの検索結果をユーザに提供する。
他の例として、検索結果提供部540は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供したり、または、少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供したりしてもよい。すなわち、前述した例で、検索結果提供部540は、最も多い検索結果を有する減少クエリの第3減少クエリに対する検索結果50個をユーザに提供したり、全ての検索結果95個をユーザに提供したりしてもよい。この場合、重複する検索結果は除去されて提供される。
図5で省略された内容は図1〜図4を参照してもよい。
図6は、本発明の一実施形態に係る検索方法を示すフローチャートである。本実施形態に係る検索方法は、図5を参照して説明した検索システム500によって行われてもよい。図6では検索システム500によって各ステップが行われる過程を説明することで検索方法について説明する。この場合、必要に応じてステップS640を含んでもよい。例えば、ステップS640は、検索システム500に関連する異なるシステムによって行われる。
図6を参照すると、ステップS610において、検索システム500は入力されたクエリから2以上の用語を抽出する。ここで、クエリは、クエリを介した検索結果が予め選定された数以下のクエリを対象にしてもよい。他の例として、クエリは商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下のクエリを対象にしてもよい。このとき、図5に示した検索システム500は、単に形態素分析によって用語を抽出することなく、既に前述したように、ウィークコンセプト抽出によって相互の情報量が閾値以上の互いに隣接した用語を結合して1つの用語として抽出してもよい。このために、検索システム500は、ステップS610にクエリを形態素分析して複数の用語を抽出するステップ(図示せず)およびクエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である、互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部(図示せず)を備えて行ってもよい。
次に、ステップS620において、検索システム500は抽出された用語それぞれの加重値を算出する。この場合、検索システム500は抽出された用語それぞれに対して、全体文書の数および該当用語を含む文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数および該当用語とクエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、クエリログに含まれたクエリの数と該当用語とクエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および第2加重値の第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて抽出された用語それぞれの加重値を算出する。
次に、ステップS630において、検索システム500は算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。すなわち、検索システム500は加重値が低い一定数の用語を除去し、残りの用語の組合せを用いて減少クエリを提供する。
このため、検索システム500は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去するステップ(図示せず)および除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成するステップ(図示せず)を含む。この場合、検索システム500は加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合に基づいて少なくとも1つの減少クエリを生成する。
次に、ステップS640において、検索システム500は、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する。一例として、検索システム500は、少なくとも1つの減少クエリおよび少なくとも1つの減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供する。例えば、第1減少クエリの検索結果が5個であり、第2減少クエリの検索結果が40個、第3減少クエリの検索結果が50個である場合、検索システム500は「第1減少クエリ:5個、第2減少クエリ:40個、第3減少クエリ:50個」のように、減少クエリおよび減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリの検索結果をユーザに提供する。
他の例として、検索システム500は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供したり、または、少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供したりする。すなわち、前述した例で、検索システム500は、最も多い検索結果を有する減少クエリの第3減少クエリに対する検索結果50個をユーザに提供したり全ての検索結果95個をユーザに提供したりする。この場合、重複する検索結果は除去されて提供される。
図6で省略された内容は図1〜図4を参照してもよい。
このように、本発明の実施形態に係るシステムおよび方法を用いると、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリを提供することで極めて長いクエリや検索結果が存在しないか検索結果の数が少ないクエリに対しても効果的に検索結果を提供することができる。このとき、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出してもよく、各用語に対して文書上の重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することができる。また、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる。
本発明の実施形態に係る検索方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などの単独または組み合わせたものを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フレキシブルディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。プログラム命令の例としては、コンパイラによって生成されるような機械コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
上述したように本発明を限定された実施形態と図面とによって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形をすることが可能である。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められる。
500 検索システム
510 用語抽出部
520 加重値算出部
530 減少クエリ推薦部
540 検索結果提供部

Claims (17)

  1. 入力されたクエリから2以上の用語を抽出する用語抽出部と、
    前記抽出された用語それぞれの加重値を算出する加重値算出部であって、前記抽出された用語それぞれに対して、クエリログに含まれたクエリの数、および該当用語と前記クエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第1加重値、前記クエリログに含まれたクエリの数と該当用語と前記クエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第2加重値、および前記第1加重値の前記第2加重値に対する比率に基づいて算出される第3加重値のうち少なくとも1つの加重値を用いて前記抽出された用語それぞれの加重値を算出する加重値算出部と、
    前記算出された加重値を基準にして前記抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する減少クエリ推薦部と、
    を備えることを特徴とする検索システム。
  2. 前記クエリは、前記クエリを介した検索結果が予め選定された数以下であるクエリを含むことを特徴とする請求項1に記載の検索システム。
  3. 前記用語抽出部は、
    前記クエリを形態素分析して複数の用語を抽出する形態素分析部と、
    クエリログを用いて前記複数の用語のうち前記クエリ内で互いに隣接した用語間の相互の情報量を算出し、前記相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部と、
    を備えることを特徴とする請求項1または2に記載の検索システム。
  4. 前記相互の情報量は、
    前記クエリログで前記互いに隣接した用語がそれぞれ用いられた回数および前記互いに隣接した用語が共に用いられた回数を用いて算出されることを特徴とする請求項3に記載の検索システム。
  5. 前記加重値算出部は、
    前記抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第4加重値をさらに用いて前記抽出された用語それぞれの加重値を算出することを特徴とする請求項1〜4のいずれか1項に記載の検索システム。
  6. 前記減少クエリ推薦部は、
    前記抽出された用語から前記加重値を基準にして予め選定された順位以下の用語を除去する用語除去部と、
    前記除去された用語を除いた残りの用語を用いて前記少なくとも1つの減少クエリを生成する減少クエリ生成部と、
    を備えることを特徴とする請求項1〜5のいずれか1項に記載の検索システム。
  7. 前記減少クエリ生成部は、
    前記加重値が最も高い用語をキー用語として選定し、キー用語と前記残りの用語のうち他の用語の組合に基づいて前記少なくとも1つの減少クエリを生成することを特徴とする請求項6に記載の検索システム。
  8. 前記少なくとも1つの減少クエリを用いて前記クエリを入力したユーザに検索結果を提供する検索結果提供部をさらに備えることを特徴とする請求項1〜7のいずれか1項に記載の検索システム。
  9. 前記検索結果提供部は、
    前記少なくとも1つの減少クエリによる検索結果を前記ユーザに提供することを特徴とする請求項8に記載の検索システム。
  10. 前記クエリは商品検索のためにユーザから入力されたクエリとして、前記クエリによって検索された商品が予め選定された数以下であるクエリを含むことを特徴とする請求項1〜9のいずれか1項に記載の検索システム。
  11. 入力されたクエリから2以上の用語を抽出し、
    前記抽出された用語それぞれに対して、クエリログに含まれたクエリの数、および該当用語と前記クエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第1加重値、前記クエリログに含まれたクエリの数と該当用語と前記クエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第2加重値、および前記第1加重値の前記第2加重値に対する比率に基づいて算出される第3加重値のうち少なくとも1つの加重値を用いて前記抽出された用語それぞれの加重値を算出し、
    前記算出された加重値を基準にして前記抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供することを特徴とする検索方法。
  12. 前記クエリは、前記クエリを介した検索結果が予め選定された数以下であるクエリを含むことを特徴とする請求項11に記載の検索方法。
  13. 前記入力されたクエリから2以上の用語を抽出することは、
    前記クエリを形態素分析して複数の用語を抽出し、
    クエリログを用いて前記複数の用語のうち前記クエリ内で互いに隣接した用語間の相互の情報量を算出し、前記相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合することを特徴とする請求項11または12に記載の検索方法。
  14. 前記抽出された用語それぞれの加重値を算出することは、
    前記抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第4加重値をさらに用いて前記抽出された用語それぞれの加重値を算出することを特徴とする請求項11〜13のいずれか1項に記載の検索方法。
  15. 前記少なくとも1つの減少クエリを提供することは、
    前記抽出された用語から前記加重値を基準にして予め選定された順位以下の用語を除去し、
    前記除去された用語を除いた残りの用語を用いて前記少なくとも1つの減少クエリを生成することを特徴とする請求項11〜14のいずれか1項に記載の検索方法。
  16. 前記少なくとも1つの減少クエリを用いて前記クエリを入力したユーザに検索結果を提供することを特徴とする請求項11〜15のいずれか1項に記載の検索方法。
  17. 請求項11〜16のいずれか1項の方法を行うプログラムを記録したコンピュータで読み出し可能な記録媒体。
JP2011279933A 2010-12-23 2011-12-21 減少クエリを推薦する検索システムおよび検索方法 Active JP5838086B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2010-0133136 2010-12-23
KR20100133136 2010-12-23
KR1020110121487A KR101850886B1 (ko) 2010-12-23 2011-11-21 감소 질의를 추천하는 검색 시스템 및 방법
KR10-2011-0121487 2011-11-21

Publications (2)

Publication Number Publication Date
JP2012133785A JP2012133785A (ja) 2012-07-12
JP5838086B2 true JP5838086B2 (ja) 2015-12-24

Family

ID=46318299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011279933A Active JP5838086B2 (ja) 2010-12-23 2011-12-21 減少クエリを推薦する検索システムおよび検索方法

Country Status (3)

Country Link
US (1) US9128982B2 (ja)
JP (1) JP5838086B2 (ja)
KR (1) KR101850886B1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515973B1 (en) * 2011-02-08 2013-08-20 Google Inc. Identifying geographic features from query prefixes
US9477748B2 (en) * 2013-12-20 2016-10-25 Adobe Systems Incorporated Filter selection in search environments
KR102052604B1 (ko) * 2014-02-28 2019-12-05 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치
US9753967B2 (en) * 2014-03-31 2017-09-05 Samsung Electronics Co., Ltd. Computing system with error detection mechanism and method of operation thereof
US10417687B1 (en) * 2014-12-12 2019-09-17 Amazon Technologies, Inc. Generating modified query to identify similar items in a data store
US10083238B2 (en) * 2015-09-28 2018-09-25 Oath Inc. Multi-touch gesture search
CN106445921B (zh) * 2016-09-29 2019-05-07 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106503258B (zh) * 2016-11-18 2020-05-12 深圳市世强元件网络有限公司 一种网站站内精确搜索方法
CN106873801A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于生成输入法词库中的词条组合的方法和装置
US10860809B2 (en) * 2019-04-09 2020-12-08 Sas Institute Inc. Word embeddings and virtual terms
US11556550B2 (en) * 2021-04-15 2023-01-17 RELX Inc. Methods and systems for no fail searching

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064584A (ja) * 1992-06-24 1994-01-14 Sharp Corp 文章検索装置
JP3611913B2 (ja) 1995-11-29 2005-01-19 沖電気工業株式会社 類似検索方法および装置
US6073130A (en) * 1997-09-23 2000-06-06 At&T Corp. Method for improving the results of a search in a structured database
JP2000029890A (ja) * 1998-07-10 2000-01-28 Nippon Telegr & Teleph Corp <Ntt> データベース検索方法及び装置及びデータベース検索プログラムを格納した記憶媒体
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP2002049638A (ja) 2000-05-26 2002-02-15 Fujitsu Ltd 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20040220907A1 (en) * 2003-04-30 2004-11-04 Camarillo David W. Technique for searching for contact information concerning desired parties
JP4574186B2 (ja) 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP2006163623A (ja) 2004-12-03 2006-06-22 Nippon Hoso Kyokai <Nhk> 質問応答装置及び質問応答プログラム、並びに、テレビ受像機
US7406465B2 (en) 2004-12-14 2008-07-29 Yahoo! Inc. System and methods for ranking the relative value of terms in a multi-term search query using deletion prediction
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
KR100816912B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
JP2008003721A (ja) * 2006-06-20 2008-01-10 Canon Software Inc 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体
US8001114B2 (en) * 2006-07-18 2011-08-16 Wilson Chu Methods and apparatuses for dynamically searching for electronic mail messages
US7505973B2 (en) * 2007-01-16 2009-03-17 Microsoft Corporation Efficient paging of search query results
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
JP5332128B2 (ja) 2007-03-30 2013-11-06 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8051056B2 (en) * 2007-05-29 2011-11-01 Microsoft Corporation Acquiring ontological knowledge from query logs
US8032527B2 (en) * 2007-08-29 2011-10-04 Google Inc. Search filtering
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US8583670B2 (en) * 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
US8019748B1 (en) * 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
KR100931025B1 (ko) * 2008-03-18 2009-12-10 한국과학기술원 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8423350B1 (en) * 2009-05-21 2013-04-16 Google Inc. Segmenting text for searching
US8392440B1 (en) * 2009-08-15 2013-03-05 Google Inc. Online de-compounding of query terms
AU2011291544B2 (en) * 2010-08-19 2015-03-26 Google Llc Predictive query completion and predictive search results

Also Published As

Publication number Publication date
JP2012133785A (ja) 2012-07-12
US9128982B2 (en) 2015-09-08
KR101850886B1 (ko) 2018-04-23
KR20120132610A (ko) 2012-12-06
US20120166450A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
JP5838086B2 (ja) 減少クエリを推薦する検索システムおよび検索方法
Yu et al. Click prediction for web image reranking using multimodal sparse coding
CN104281698B (zh) 一种高效的大数据查询方法
CN104978320B (zh) 一种基于相似度的知识推荐方法和设备
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及系统
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
Yang et al. Learning tuple compatibility for conditional outfit recommendation
CN103324631B (zh) 提供数据搜索的方法及装置
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
CN104915860A (zh) 一种商品推荐方法及装置
Jiang et al. DeepProduct: Mobile product search with portable deep features
US20160342615A1 (en) Method and device for generating pileup file from compressed genomic data
Shafqat et al. A hybrid GAN-based approach to solve imbalanced data problem in recommendation systems
Gu et al. Fashion coordinates recommendation based on user behavior and visual clothing style
Zhou et al. Attention Calibration for Transformer-based Sequential Recommendation
CN103942693B (zh) 识别杂货铺的方法、装置及搜索店铺的方法、系统
Dodds et al. Learning embeddings for product visual search with triplet loss and online sampling
Deulkar et al. An improved memetic algorithm for web search
CN107729344A (zh) 网站数据爬取方法、装置、计算机设备及可读存储介质
JP5634859B2 (ja) サイトクラスタシステムおよびサイトクラスタ方法
Kaliciak et al. Combining visual and textual systems within the context of user feedback
Seebacher et al. Patent retrieval: a multi-modal visual analytics approach
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
Gama et al. Simple Modification for an Apriori Algorithm With Combination Reduction and Iteration Limitation Technique.
JP2011024473A (ja) アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150724

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151109

R150 Certificate of patent or registration of utility model

Ref document number: 5838086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250