JP4839295B2 - クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム - Google Patents

クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム Download PDF

Info

Publication number
JP4839295B2
JP4839295B2 JP2007285707A JP2007285707A JP4839295B2 JP 4839295 B2 JP4839295 B2 JP 4839295B2 JP 2007285707 A JP2007285707 A JP 2007285707A JP 2007285707 A JP2007285707 A JP 2007285707A JP 4839295 B2 JP4839295 B2 JP 4839295B2
Authority
JP
Japan
Prior art keywords
query
site
clicks
calculating
variance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007285707A
Other languages
English (en)
Other versions
JP2009116422A (ja
Inventor
基裕 小間
洋信 井上
健吾 海老原
達洋 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007285707A priority Critical patent/JP4839295B2/ja
Publication of JP2009116422A publication Critical patent/JP2009116422A/ja
Application granted granted Critical
Publication of JP4839295B2 publication Critical patent/JP4839295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネットのポータルサイト等における検索技術に関する。
インターネット上には膨大な量の情報が存在するため、その中から所望の情報を効率的に発見するツールとして各種の検索サービスがポータルサイト等において提供されている。ユーザは、クエリ(キーワード、ターム)を入力して検索を行い、検索結果の一覧から所望のサイトを選択するといった検索操作によりサイトを閲覧する。
ところで、検索サービスは、知りたい情報を掲載しているページ(記事)を探すためだけではなく、ある特定のサイトに移動するのが目的で用いられていることが多々ある。例えば、会社名、サイト名、大学名、個人名等を入力して、その主体が運営しているサイトを検索する場合である。このような場合に入力されるクエリをナビゲーショナルクエリという。
また、ウェブブラウザには、ユーザが所望のウェブページのURLを予め登録しておくブックマーク機能がある。このブックマークへの登録は、一般には、ユーザが所望のウェブページをウェブブラウザ上に表示させた状態でブックマーク登録のメニュー操作を行うことで実行される。
しかし、ユーザは複数のサイトを次々と辿って閲覧するため、他のウェブページへの遷移後にブックマークに登録する場合には、所望のウェブページを改めて表示させてから登録操作を行う必要があり、その操作が煩雑である。特に、ブックマークに登録されるウェブページは、そのサイトのトップページであることが多いため、ユーザの閲覧履歴を辿るのも時間がかかってしまう。
そのため、ブックマークの代わりに検索サイトが用いられることがある。すなわち、ユーザが所望のサイトが検索結果として出力されるようなクエリを検索サイトにて選定して入力し、検索結果から所望のサイトを閲覧するのである。このことからも、ナビゲーショナルクエリは、ユーザがブックマークしていないサイトを閲覧するために入力するクエリとも換言することができる。
検索サービスを提供するポータルサイト側でこのようなナビゲーショナルクエリと、そのナビゲーショナルクエリに対応するサイトの対応関係の情報を抽出できることは検索サービスの向上に有効である。例えば、ナビゲーショナルクエリで検索が行なわれた場合に、ナビゲーショナルクエリに対応するサイトを検索結果の先頭に持っていくこともできるし、ナビゲーショナルクエリに対応するサイトにユーザを誘導することもできるようになる。
特開2001−312518号公報
上述したように、ナビゲーショナルクエリと対応するサイトの対応関係の情報を抽出できることは有用であるが、従来、そのための有効な方法が存在しなかった。すなわち、ナビゲーショナルクエリを抽出する方法としては、サイトのURL(Uniform Resource Locator)やサイトのタイトル等を静的に解析する方法が考えられるが、ナビゲーショナルクエリに対応するサイトは時間的に変動する可能性があり、上記のような静的な解析方法では十分に対応できないものであった。例えば、ある有名人の公式サイトとブログサイトがあり、通常であれば多くのユーザが有名人名のクエリで検索して公式サイトにアクセスしていたものが、ニュース等の時事的な影響によりユーザがブログサイトへアクセスするようになることがある。このように、ナビゲーショナルクエリは時期により変動する可能性がある。
一方、特許文献1には、所定のキーワードに対して1つのURLが対応するように記憶されたデータベースを用いて検索を行ない、検索結果からのリンクに対してアクセス数をカウントすることで、ホームページに対するニーズをカウントできるようにした検索システムが開示されている。しかしながら、上述したナビゲーショナルクエリの性質を考慮したものではなく、ナビゲーショナルクエリを抽出する方法としては使用できない。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、ナビゲーショナルクエリと対応するサイトの対応関係の情報を十分な精度で抽出することのできるクエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラムを提供することにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、コンピュータが、クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する工程と、前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する工程と、前記コンピュータが、算出された前記第1の分散値が所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する工程とを備えるクエリ抽出方法を要旨としている。
また、請求項2に記載されるように、コンピュータが、クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する工程と、前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する工程と、前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数率に基づく第2の分散値を算出する工程と、前記コンピュータが、算出された前記第1の分散値および前記第2の分散値がそれぞれ所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する工程とを備えるクエリ抽出方法として構成することができる。
また、請求項3に記載されるように、請求項1または2のいずれか一項に記載のクエリ抽出方法において、前記第1の分散値を算出する工程は、最大クリック回数の偏差2乗からその他のクリック回数の偏差2乗和を差し引くことで前記第1の分散値を算出するようにすることができる。
また、請求項4に記載されるように、請求項3に記載のクエリ抽出方法において、前記クエリに対する検索一覧を表示する画面には、当該検索一覧を変更するためのボタンが表示され、前記第1の分散値を算出する工程は、更に、前記表示されたボタンのクリック回数の偏差2乗を差し引くことで前記第1の分散値を算出するようにすることができる。
また、請求項5に記載されるように、請求項2に記載のクエリ抽出方法において、前記第2の分散値を算出する工程は、最大クリック回数率の偏差2乗からその他のクリック回数率の偏差2乗和を差し引くことで前記第2の分散値を算出するようにすることができる。
また、請求項6に記載されるように、請求項5に記載のクエリ抽出方法において、前記クエリに対する検索一覧と、表示された検索一覧を変更するためのボタンとが一画面上に表示され、前記第2の分散値を算出する工程は、更に、前記表示されたボタンのクリック回数率の偏差2乗を差し引くことで前記第2の分散値を算出するようにすることができる。
また、請求項7に記載されるように、請求項1乃至6のいずれか一項に記載のクエリ抽出方法において、前記クリックログを集計する工程は、ユーザ毎に前記クリックログを集計し、前記分散値を算出する工程は、前記ユーザ毎のクリックログに基づいて、ユーザが2回目以降に入力したクエリに対応するクリックログを前記分散値の算出に用いるようにすることができる。
また、請求項8、9に記載されるように、クエリ抽出装置として構成することができる。
また、請求項10、11に記載されるように、クエリ抽出プログラムとして構成することができる。
本発明のクエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラムにあっては、検索サービスのクリックログに基づいて各クエリに対するサイト毎のクリック回数に基づく分散値を算出し、その分散値が所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出するようにしているので、ナビゲーショナルクエリと対応するサイトの対応関係の情報を十分な精度で抽出することができる。
以下、本発明の好適な実施形態につき説明する。
<システム構成>
図1は本発明の一実施形態にかかるシステムの構成例を示す図である。
図1において、インターネット等のネットワーク2には、ユーザが利用する複数のクライアント端末1と、検索および閲覧の対象となるコンテンツを提供する複数のWebサーバ4と、本発明を適用した検索サーバ3とが接続されている。
クライアント端末1は、ユーザからクエリを入力するクエリ入力部101と、ユーザから検索実行指示を受け付ける検索実行指示受付部102と、クエリ入力部101でクエリが入力される都度に検索サーバ3に対してクエリを送信するとともに、検索実行指示受付部102で検索実行指示を受け付けた際に検索サーバ3に対してクエリを送信するクエリ送信部103とを備えている。
また、クライアント端末1は、検索サーバ3から推奨サイト(ナビゲーショナルクエリとして特に推奨するサイトの要約およびURL)を受信する推奨サイト受信部104と、検索サーバ3から検索一覧(検索によりヒットしたサイトの要約およびURLの一覧)を受信する検索一覧受信部105と、推奨サイト受信部104で受信した推奨サイトおよび検索一覧受信部105で受信した検索一覧に基づいて画面表示を制御する表示制御部106とを備えている。なお、推奨サイトおよび検索一覧に含まれるURLは、検索結果からのユーザによるサイト選択の履歴をクリックログとして検索サーバ3側で取得するため、サイトを直接に示すURLではなく、いったん検索サーバ3にアクセスし、そこから目的のサイトにリダイレクトするリダイレクトURLとなっている。このリダイレクトURLには、検索サーバ3へのエントリとなるURLのほか、検索に用いられたクエリや選択されたサイトを特定する情報が含まれている。
また、クライアント端末1は、表示制御部106によって表示された推奨サイトもしくは検索一覧からユーザによるサイト選択を受け付けるサイト選択受付部107と、このサイト選択受付部107で選択されたサイトのURL(リダイレクトURL)に応じて検索サーバ3にアクセスを行い、検索サーバ3から目的のサイトのURLへのアクセス切り替えを指示するリダイレクトレスポンスを受けて目的のサイトであるWebサーバ4にアクセスを行なうリダイレクト処理部108とを備えている。
クライアント端末1における機能部101〜108は、コンピュータハードウェア上で実行されるコンピュータソフトウェア(プログラム)により実現される。
一方、検索サーバ3は、クライアント端末1からネットワーク2を介してクエリ(単にユーザにより入力されただけのクエリの場合と、検索実行指示を伴う場合とがある)を受信するクエリ受信部301と、このクエリ受信部301で受信したクエリに基づいて、単にユーザにより入力されただけのクエリの場合、ナビゲーショナルクエリDB312を検索してナビゲーショナルクエリが見つかった場合に推奨サイトとして出力するとともに、検索実行指示を伴うクエリの場合、コンテンツDB311を検索して検索一覧を出力する検索処理部302とを備えている。
また、検索サーバ3は、検索処理部302から出力された推奨サイトをネットワーク2を介してクライアント端末1に送信する推奨サイト送信部303と、検索処理部302から出力された検索一覧をネットワーク2を介してクライアント端末1に送信する検索一覧送信部304とを備えている。
また、検索サーバ3は、クライアント端末1からネットワーク2を介してリダイレクトURLによるアクセスを受け付け、リダイレクトレスポンスを返送するリダイレクト処理部305と、このリダイレクト処理部305が処理を行ったタイミングでリダイレクトURLからクエリおよび選択されたサイトを特定し、クリックログをクエリログDB313に記録するクリックログ収集部306とを備えている。
また、検索サーバ3は、所定のタイミングで、クエリログDB313のクエリログに基づいて、クエリ毎にクリック回数によるナビゲーショナルクエリとしての確からしさを示す指標である第1スコア(第1の分散値)を算出してスコアリングDB314に登録する第1スコア算出部307と、クエリ毎にクリック回数率によるナビゲーショナルクエリとしての確からしさを示す指標である第2スコア(第2の分散値)を算出してスコアリングDB314に登録する第2スコア算出部308と、スコアリングDB314のスコアリング結果に基づいてナビゲーショナルクエリを抽出し、ナビゲーショナルクエリDB312に登録するナビゲーショナルクエリ抽出部309とを備えている。
検索サーバ3における機能部301〜309は、コンピュータハードウェア上で実行されるコンピュータソフトウェア(プログラム)により実現される。
図2は検索サーバ3に設けられた各データベースのデータ構造例を示す図である。
図2(a)はコンテンツDB311のデータ構造例を示しており、「クエリ」フィールドと、そのクエリに対応する「サイトURL」フィールドとを含んでいる。「サイトURL」フィールドには複数のURLが含まれてもよい。
図2(b)はナビゲーショナルクエリDB312のデータ構造例を示しており、「ナビゲーショナルクエリ」フィールドと、そのナビゲーショナルクエリに対応する「サイトURL」フィールドとを含んでいる。ナビゲーショナルクエリに対応するサイトURLは原則として1つである。
図2(c)はクエリログDB313のデータ構造例を示しており、「クエリ」フィールドと、そのクエリに対する検索一覧の表示順序に応じた、「1件目URLおよびクリック回数」フィールド、「1件目URLのクリック回数率」フィールド、・・・、「N件目URLおよびクリック回数」フィールド、「N件目URLのクリック回数率」フィールドと、「合計クリック回数」フィールドと、「平均クリック回数」フィールドと、「平均クリック回数率」フィールドと、「「次へ/再検索」クリック回数」フィールドと、「「次へ/再検索」クリック回数率」フィールドとを含んでいる。ここで、1〜N件目URLのクリック回数は、そのクエリに対する検索一覧から複数のユーザによりその順位のURLに対応するサイトが選択された回数の所定期間内における積算値である。合計クリック回数は、そのクエリに対する1〜N件目URLのクリック回数の合計値である。平均クリック回数は、そのクエリに対する1〜N件目URLのクリック回数の平均値である。「次へ/再検索」クリック回数は、検索時に最初に表示されるN件分の検索一覧からユーザによりサイトの選択が行なわれず、次の検索一覧ページへの切り替えや再検索が行なわれた回数である。また、「〜回数率」は、集計対象の全クエリの合計クリック回数の総和を母数にした比率である。
なお、検索一覧の表示順序に応じた1〜N件目のURLについては別のテーブルで管理してもよい。また、1〜N件目URLのクリック回数率、合計クリック回数、平均クリック回数、平均クリック回数率、「次へ/再検索」クリック回数率等をテーブルに含めず、後述するスコア算出時に計算するようにしてもよい。
図2(d)はスコアリングDB314のデータ構造例を示しており、「クエリ」フィールドと、そのクエリに対する「第1スコア」フィールドと、「第2スコア」フィールドと、対応する「最大クリック回数(率)URL」フィールドとを含んでいる。最大クリック回数(率)URLは、第1/第2スコア計算にあたって最大クリック回数と把握したサイトに対応するURLである。なお、最大クリック回数(率)URLについては別のテーブルで管理してもよい。
<動作>
図3は上述した実施形態の処理例を示すシーケンス図である。
図3において、ユーザがクライアント端末1に対してクエリ入力部101によりクエリを入力すると(ステップS101)、クライアント端末1のクエリ送信部103は検索サーバ3に対して検索実行指示を伴わないクエリを送信する(ステップS102)。
検索サーバ3は、クエリ受信部301により検索実行指示を伴わないクエリを受信すると、検索処理部302によりナビゲーショナルクエリDB312を検索する(ステップS103)。この際、検索処理部302は入力されたクエリがナビゲーショナルクエリDB312に存在する場合、そのナビゲーショナルクエリに対応するサイトを推奨サイトとして出力する。そして、検索サーバ3の推奨サイト送信部303は検索処理部302の検索結果である推奨サイトをクライアント端末1に送信する(ステップS104)。
クライアント端末1は、推奨サイト受信部104により推奨サイトを受信すると、表示制御部106により画面に推奨サイトを表示してユーザに提示する(ステップS105)。図4(a)は検索画面の例を示しており、クエリ入力欄11にクエリ「○○太郎」が入力された結果、推奨サイトを示す吹き出し12が表示された状態を示している。この場合、OKボタン13をクリックすることで、そのサイトにアクセスして閲覧を行なうことができる。
図3に戻り、その後、ユーザが検索実行指示を行なって検索実行指示受付部102により受け付けられると(ステップS106)、クライアント端末1のクエリ送信部103は検索サーバ3に対して検索実行指示を伴うクエリを送信する(ステップS107)。
検索サーバ3は、クエリ受信部301により検索実行指示を伴うクエリを受信すると、検索処理部302によりコンテンツDB311を検索し、検索一覧を出力する(ステップS108)。なお、ここでは検索処理部302がコンテンツDB311による通常の検索処理を行なうことを想定しているが、コンテンツDB311とともにナビゲーショナルクエリDB312を検索し、入力されたクエリがナビゲーショナルクエリである場合(ナビゲーショナルクエリDB312で検索にヒットしたものがある場合)には、検索一覧の最上位にナビゲーショナルクエリに対応するサイトを表示するよう表示順位の変更を行なうようにしてもよい。
次いで、検索サーバ3の検索一覧送信部304は検索処理部302の検索結果である検索一覧をクライアント端末1に送信する(ステップS109)。
クライアント端末1は、検索一覧受信部105により検索一覧を受信すると、表示制御部106により画面に検索一覧を表示してユーザに提示する(ステップS110)。図4(b)は検索画面の例を示しており、クエリ入力欄11にクエリ「○○太郎」が入力され、検索実行指示ボタン14が押された結果、検索一覧15として「1.太郎のブログ 2.○○太郎公式サイト 3.○○太郎のファンクラブ ・・・」が表示された状態を示している。なお、検索画面の下部には検索一覧他ページ選択欄16が併せて表示され、「次へ」をクリックすることで検索一覧の次のページが表示され、ページ番号をクリックすることで任意のページの検索一覧が表示される。
図3に戻り、ユーザは検索一覧もしくは推奨サイトの表示から所望のサイトを選択し、これがサイト選択受付部107により受け付けられると(ステップS111)、クライアント端末1のリダイレクト処理部108は検索一覧もしくは推奨サイトに埋め込まれたリダイレクトURLに基づいて検索サーバ3にアクセスする(ステップS112)。検索サーバ3のリダイレクト処理部305はアクセスを受けると、目的のサイトの本来のURLへのアクセス切り替えを指示するリダイレクトレスポンスをクライアント端末1に送信する(ステップS113)。これと並行して、検索サーバ3のクリックログ収集部306はリダイレクトURLからクエリおよび選択されたサイトを特定し、クリックログをクエリログDB313に記録する(ステップS114)。なお、クリックログ収集部306は、クライアント端末1から検索サーバ3に対して検索一覧の他のページの表示が要求された場合や、再検索が要求された場合にも、クリックログをクエリログDB313に記録する。
そして、クライアント端末1のリダイレクト処理部108はリダイレクトレスポンスに基づいてWebサーバ4にアクセスし(ステップS115)、Webサーバ4はクライアント端末1にページコンテンツを含むレスポンスを送信する(ステップS116)。クライアント端末1はこのレスポンスに基づいて表示を行い(ステップS117)、ユーザはコンテンツの閲覧を行なう。
その後、所定のタイミングによるバッチ処理等により、検索サーバ3の第1スコア算出部307はクエリログDB313のクエリログに基づいて第1スコアを算出し、算出した第1スコアをスコアリングDB314に登録する(ステップS121)。また、第2スコア算出部308はクエリログDB313のクエリログに基づいて第2スコアを算出し、算出した第2スコアをスコアリングDB314に登録する(ステップS122)。スコアの算出の詳細については後述する。
次いで、ナビゲーショナルクエリ抽出部309はスコアリングDB314のスコアリング結果に基づいてナビゲーショナルクエリを抽出し、ナビゲーショナルクエリDB312に登録する(ステップS123)。ナビゲーショナルクエリの抽出の詳細については後述する。
このように、ユーザの入力するクエリおよびその検索結果からのサイトの選択の行動に基づいてナビゲーショナルクエリを抽出し、次回以降の検索に反映するようにしているため、時期により変動する可能性のあるナビゲーショナルクエリに適切に対応することができる。
図5は第1スコア算出部307および第2スコア算出部308による第1スコアおよび第2スコアの算出の処理例を示す図である。
図5において、第1スコアおよび第2スコアの算出の処理を開始すると(ステップS201)、第1スコア算出部307はクエリログDB313から1つのクエリを選択する(ステップS202)。
次いで、1件目〜N件目URLのクリック回数の中で最大のものを変数$MAXに設定し(ステップS203)、平均クリック回数を変数$AVEに設定し(ステップS204)、「次へ/再検索」クリック回数を変数$BADに設定する(ステップS205)。
そして、クリック回数が最大のものを除く1件目〜N件目URLのクリック回数をΣの計算において毎回、変数$EACHとして、次式で第1スコアを計算する(ステップS206)。式の意味するところについては後述する。
第1スコア=($MAX−$AVE)
−Σ($EACH−$AVE)
−($BAD−$AVE)
次いで、第2スコア算出部308は、1件目〜N件目URLのクリック回数率の中で最大のものを変数$MAXに設定し(ステップS207)、平均クリック回数率を変数$AVEに設定し(ステップS208)、「次へ/再検索」クリック回数率を変数$BADに設定する(ステップS209)。
そして、クリック回数率が最大のものを除く1件目〜N件目URLのクリック回数率をΣの計算において毎回、変数$EACHとして、次式で第2スコアを計算する(ステップS210)。式の意味するところについては後述する。
第2スコア=($MAX−$AVE
−Σ($EACH−$AVE
−($BAD−$AVE
次いで、処理対象のクエリと算出された第1スコア、第2スコアとクリック回数(率)が最大のURLを、スコアリングDB314のクエリ、第1スコア、第2スコア、最大クリック回数(率)URLに登録する(ステップS211)。
次いで、対象となるクエリにつき処理済であるか否か判断し(ステップS212)、処理済でない場合(ステップS212のNo)は次のクエリの選択(ステップS202)に戻り、処理済である場合(ステップS212のYes)は第1スコアおよび第2スコアの算出の処理を終了する(ステップS213)。
図6はナビゲーショナルクエリ抽出部309によるナビゲーショナルクエリ抽出の処理例を示すフローチャートである。
図6において、ナビゲーショナルクエリ抽出の処理を開始すると(ステップS301)、ナビゲーショナルクエリ抽出部309はスコアリングDB314から1つのクエリを選択する(ステップS302)。
次いで、第1スコアが所定値以上であるか否か判断し(ステップS303)、所定値以上である場合(ステップS303のYes)、続いて第2スコアが所定値以上であるか否か判断する(ステップS304)。
第2スコアが所定値以上である場合(ステップS304のYes)、処理対象のクエリと最大クリック回数(率)のURLを、ナビゲーショナルクエリDB312のナビゲーショナルクエリとサイトURLに登録する(ステップS305)。
第1スコアが所定値以上でない場合(ステップS303のNo)、第2スコアが所定値以上でない場合(ステップS304のNo)、もしくは、ナビゲーショナルクエリDB312への登録(ステップS305)の後、対象となるクエリにつき処理済であるか否か判断し(ステップS306)、処理済でない場合(ステップS306のNo)は次のクエリの選択(ステップS302)に戻り、処理済である場合(ステップS306のYes)はナビゲーショナルクエリ抽出の処理を終了する(ステップS307)。
<第1スコアおよび第2スコアの意味>
以下、第1スコアおよび第2スコアの意味について説明する。
本発明では、検索サービスにおけるクリックログのデータを解析し、ナビゲーショナルクエリと非ナビゲーショナルクエリの自動的な選別を行なっている。この際、上記の実施形態では、分散値の計算方法を応用して、ナビゲーショナルクエリとしての確からしさを示す指標である第1スコアおよび第2スコアを算出し(第1スコアおよび第2スコアは一種の分散値でもある。)、その両者が所定の閾値を超えるものをナビゲーショナルクエリとして抽出している。なお、ナビゲーショナルクエリを抽出する精度は若干低下するが、第1スコアのみを用い、その第1スコアが所定の閾値を超えるものをナビゲーショナルクエリとして抽出するようにしてもよい。
ナビゲーショナルクエリは、
(1)検索一覧における一箇所のサイトが集中してクリックされる。
(2)必ず検索一覧の1ページ目に目的のサイトが含まれる。
(3)「次へ」や「再検索」はクリックされない。
という特性を有している。
ここで、ナビゲーショナルクエリの場合は、上記の「検索一覧における一箇所のサイトが集中してクリックされる」という特性があるので、ナビゲーショナルクエリであるか否かの判定には、分散値の使用が適しているとも考えられる。分散値とは、「平均値との偏差2乗和」を「要素数」で割ったものである。一つの要素が他の要素と比べて突出していれば、分散値は高くなるので、ナビゲーショナルクエリである場合は分散値が高くなる。また、全ての要素が平均値に近ければ、分散値は小さくなる。
しかし、それぞれの要素がバラバラであれば、平均値との偏差が大きくなり、分散値も大きくなる。そのため、クリックされる箇所とされない箇所が数箇所に分かれる場合も分散値が高くなってしまい、ナビゲーショナルクエリであるか否かを正確に判定することができない。
そこで、本実施形態では、分散値をそのまま適用するのではなく、最大クリック回数の偏差2乗からその他のクリック回数の偏差2乗和を差し引くようにしている。これにより、「ある一箇所のサイトが集中してクリック」されるナビゲーショナルクエリの場合、クリック回数による偏差2乗の値は大きくなり、その他のクリック回数の偏差2乗和の値は相対的に小さくなり、全体のスコア値は大きくなる。また、クリックされる箇所とされない箇所が数箇所に分かれる場合(ナビゲーショナルクエリではない場合)、その他のクリック回数の偏差2乗和が大きくなり、スコア値を引き下げる。この手法の利点としては、クリック回数にバラつきがある場合は差分が小さくなり、さらに、均等にクリックされるような場合は、差分値が負の値となることである。その結果、一箇所のサイトのみが集中してクリックされている状態を示す指標とすることができる。
また、上述した「必ず検索一覧の1ページ目に目的のサイトが含まれる」というナビゲーショナルクエリの特性に基づき、計算に使用するクリック回数としては、検索一覧の最初の1ページ目に表示されるN件(例えば、10件)に制限することができる。
図7は、横軸に、あるクエリに対する検索一覧の表示順位順のサイトをとり、縦軸に、各サイトに対する選択クリック数を示したものである。第1スコアの算出式の第1項「($MAX−$AVE)」は図7では1番目のサイトに対応するものであり(常に1番目になるとは限らない)、第2項「−Σ($EACH−$AVE)」は図7では2番目〜N番目のサイトについての総和である。
一方、第1スコアの算出式における第3項「−($BAD−$AVE)」は、「「次へ」や「再検索」はクリックされない」というナビゲーショナルクエリの特性に基づき、「次へ/再検索」が行なわれたことによるナビゲーショナルクエリではないとのユーザの判断を反映させたものである。
第2スコアは、第1スコアがクリック回数(絶対回数)に基づいて算出するのに対し、クリック回数率に基づいて算出するものである。すなわち、「検索要求が高いクエリではスコアが高くなりがち」になることから、その影響を除去するためのものである。例えば、検索回数のうちの1%がクリックされた場合を考えたとき、人気のあるサイトであるが故に検索回数が日頃から多いクエリの場合と、そうでないクエリ(検索回数が低い)の場合、クリック回数のみでスコアリングした場合では、検索回数が多いクエリの方がスコアが高くなってしまう。
そこで、第1スコアの算出式と同様の式において、クリック回数をクリック回数率に置き換えて第2スコアを算出することで、「クリック分散の形状」に関してスコアリングを行なう。ただし、クリック回数率に基づいて算出する場合、インプレッションが低いクエリのスコアが高くなってしまうため、単独で用いるのではなく、第1スコアが所定の閾値より大きいものにつき、更に第2スコアが所定の閾値より大きいか否かを確認するのに用いる。これにより、ナビゲーショナルクエリの判定精度を高めることができる。
<変形例>
ナビゲーショナルクエリがブックマークの代わりに用いられることに対応するため、ユーザが2回目以降に入力したクエリに対応するクリックログを第1スコアおよび第2スコアの算出に用いるようにすることができる。
この場合の処理の流れは次のようになる。
(1)検索サーバ3は、ユーザIDによるログインにより、ユーザ毎の検索履歴を管理する。
(2)クリックログ収集部306は、クリックログをユーザID毎にクエリログDB313に記憶する。
(3)第1スコア算出部307および第2スコア算出部308は、ユーザが始めて入力したクエリに対するクリックログはスコアの算出には用いないで、第1スコアおよび第2スコアを算出する。
これにより、ユーザが一度閲覧したサイトに対するナビゲーショナルクエリを抽出することができる。
<総括>
以上説明したように、本発明の実施形態によれば、ナビゲーショナルクエリを精度よく自動的に抽出することができる。
そして、そのナビゲーショナルクエリを検索サービスにおいて用いることにより、例えば、
(1)ナビゲーショナルクエリに対応するサイトが検索結果の2番目以降にある場合には、表示順序を変更して先頭に移動させることで、ユーザのニーズに即応した検索結果とする。
(2)クライアント端末で入力されているクエリを取得し、そのクエリに対応するサイトをユーザにサジェストして誘導することで、ユーザの操作性を向上させる。
等の有用な用途に活用することができる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
本発明の一実施形態にかかるシステムの構成例を示す図である。 各データベースのデータ構造例を示す図である。 実施形態の処理例を示すシーケンス図である。 検索時の画面表示例を示す図である。 第1スコアおよび第2スコアの算出の処理例を示す図である。 ナビゲーショナルクエリ抽出の処理例を示すフローチャートである。 第1スコアの算出式における第1項および第2項の説明図である。
符号の説明
1 クライアント端末
101 クエリ入力部
102 検索実行指示受付部
103 クエリ送信部
104 推奨サイト受信部
105 検索一覧受信部
106 表示制御部
107 サイト選択受付部
108 リダイレクト処理部
2 ネットワーク
3 検索サーバ
301 クエリ受信部
302 検索処理部
303 推奨サイト送信部
304 検索一覧送信部
305 リダイレクト処理部
306 クリックログ収集部
307 第1スコア算出部
308 第2スコア算出部
309 ナビゲーショナルクエリ抽出部
311 コンテンツDB
312 ナビゲーショナルクエリDB
313 クエリログDB
314 スコアリングDB
4 Webサーバ

Claims (11)

  1. コンピュータが、クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する工程と、
    前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する工程と、
    前記コンピュータが、算出された前記第1の分散値が所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する工程と
    を備えたことを特徴とするクエリ抽出方法。
  2. コンピュータが、クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する工程と、
    前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する工程と、
    前記コンピュータが、前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数率に基づく第2の分散値を算出する工程と、
    前記コンピュータが、算出された前記第1の分散値および前記第2の分散値がそれぞれ所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する工程と
    を備えたことを特徴とするクエリ抽出方法。
  3. 請求項1または2のいずれか一項に記載のクエリ抽出方法において、
    前記第1の分散値を算出する工程は、最大クリック回数の偏差2乗からその他のクリック回数の偏差2乗和を差し引くことで前記第1の分散値を算出する
    ことを特徴とするクエリ抽出方法。
  4. 請求項3に記載のクエリ抽出方法において、
    前記クエリに対する検索一覧を表示する画面には、当該検索一覧を変更するためのボタンが表示され、
    前記第1の分散値を算出する工程は、更に、前記表示されたボタンのクリック回数の偏差2乗を差し引くことで前記第1の分散値を算出する
    ことを特徴とするクエリ抽出方法。
  5. 請求項2に記載のクエリ抽出方法において、
    前記第2の分散値を算出する工程は、最大クリック回数率の偏差2乗からその他のクリック回数率の偏差2乗和を差し引くことで前記第2の分散値を算出する
    ことを特徴とするクエリ抽出方法。
  6. 請求項5に記載のクエリ抽出方法において、
    前記クエリに対する検索一覧と、表示された検索一覧を変更するためのボタンとが一画面上に表示され、
    前記第2の分散値を算出する工程は、更に、前記表示されたボタンのクリック回数率の偏差2乗を差し引くことで前記第2の分散値を算出する
    ことを特徴とするクエリ抽出方法。
  7. 請求項1乃至6のいずれか一項に記載のクエリ抽出方法において、
    前記クリックログを集計する工程は、ユーザ毎に前記クリックログを集計し、
    前記分散値を算出する工程は、前記ユーザ毎のクリックログに基づいて、ユーザが2回目以降に入力したクエリに対応するクリックログを前記分散値の算出に用いる
    ことを特徴とするクエリ抽出方法。
  8. クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する手段と、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する手段と、
    算出された前記第1の分散値が所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する手段と
    を備えたことを特徴とするクエリ抽出装置。
  9. クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する手段と、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する手段と、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数率に基づく第2の分散値を算出する手段と、
    算出された前記第1の分散値および前記第2の分散値がそれぞれ所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する手段と
    を備えたことを特徴とするクエリ抽出装置。
  10. 処理装置を構成するコンピュータを、
    クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する手段、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する手段、
    算出された前記第1の分散値が所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する手段、
    として機能させるためのクエリ抽出プログラム。
  11. 処理装置を構成するコンピュータを、
    クエリに対する検索一覧からの複数のサイトに対する個々の選択の履歴を示すクリックログを前記クエリ毎に集計する手段、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数に基づく第1の分散値を算出する手段、
    前記クリックログに基づいて、各クエリに対するサイト毎のクリック回数率に基づく第2の分散値を算出する手段、
    算出された前記第1の分散値および前記第2の分散値がそれぞれ所定値以上のクエリと、当該クエリに対する検索一覧内におけるクリック回数が最上位のサイト情報を抽出する手段、
    として機能させるためのクエリ抽出プログラム。
JP2007285707A 2007-11-02 2007-11-02 クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム Active JP4839295B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007285707A JP4839295B2 (ja) 2007-11-02 2007-11-02 クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007285707A JP4839295B2 (ja) 2007-11-02 2007-11-02 クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム

Publications (2)

Publication Number Publication Date
JP2009116422A JP2009116422A (ja) 2009-05-28
JP4839295B2 true JP4839295B2 (ja) 2011-12-21

Family

ID=40783533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007285707A Active JP4839295B2 (ja) 2007-11-02 2007-11-02 クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム

Country Status (1)

Country Link
JP (1) JP4839295B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5014387B2 (ja) * 2009-08-20 2012-08-29 ヤフー株式会社 情報アクセス支援装置および情報アクセス支援方法
JP5378272B2 (ja) * 2010-03-11 2013-12-25 日本電信電話株式会社 クエリ特徴量算出方法及び装置及びプログラム
JP5421960B2 (ja) * 2011-07-29 2014-02-19 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP5579140B2 (ja) * 2011-09-05 2014-08-27 日本電信電話株式会社 文書検索装置及び方法及びプログラム
JP5903370B2 (ja) * 2012-11-14 2016-04-13 日本電信電話株式会社 情報検索装置、情報検索方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000123105A (ja) * 1999-12-07 2000-04-28 Adc Technology Kk サイト案内システム
JP4535765B2 (ja) * 2004-04-23 2010-09-01 富士通株式会社 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Also Published As

Publication number Publication date
JP2009116422A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
JP5170804B2 (ja) 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
KR101708448B1 (ko) 예측 쿼리 제안 캐싱
US7962466B2 (en) Automated tool for human assisted mining and capturing of precise results
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US7962477B2 (en) Blending mobile search results
US20080104042A1 (en) Personalized Search Using Macros
JP4839295B2 (ja) クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
US10262064B2 (en) Information processing apparatus, information processing method, information processing program, recording medium having stored therein information processing program
JP5734332B2 (ja) 広告情報提供装置
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
JP5331166B2 (ja) 検索サーバ及び方法
JP5230715B2 (ja) 検索支援装置
EP2662785A2 (en) A method and system for non-ephemeral search
JP2006277288A (ja) 表示時間測定システム、表示時間測定方法、検索システムおよび検索方法
JP5222691B2 (ja) 検索情報提供システム
KR100688344B1 (ko) 위치기반 지능형 검색 서비스 방법
JP2008171110A (ja) サイト検索システム、検索サーバ、プログラム
JP2011227572A (ja) 閲覧端末及び方法
JP2002215675A (ja) 情報検索システム
KR20040074693A (ko) 웹사이트 평가 시스템 및 그 방법
JP4859891B2 (ja) コンテンツに関連する情報を提供するサーバ、システム及び方法
JP2010086180A (ja) デバイスを調整した検索方法、プログラム及びサーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111003

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4839295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350