JP2011002972A - クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置 - Google Patents

クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置 Download PDF

Info

Publication number
JP2011002972A
JP2011002972A JP2009144827A JP2009144827A JP2011002972A JP 2011002972 A JP2011002972 A JP 2011002972A JP 2009144827 A JP2009144827 A JP 2009144827A JP 2009144827 A JP2009144827 A JP 2009144827A JP 2011002972 A JP2011002972 A JP 2011002972A
Authority
JP
Japan
Prior art keywords
query
genre
search
web page
domain information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009144827A
Other languages
English (en)
Other versions
JP5133946B2 (ja
Inventor
Motohiro Koma
基裕 小間
Kengo Ebihara
健吾 海老原
Tatsuhiro Niwa
達洋 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009144827A priority Critical patent/JP5133946B2/ja
Publication of JP2011002972A publication Critical patent/JP2011002972A/ja
Application granted granted Critical
Publication of JP5133946B2 publication Critical patent/JP5133946B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザによって指定されたクエリに連動して有用な情報を提供するための技術を提供する。
【解決手段】クエリ分析装置により、検索サービスにおいて指定されたクエリのジャンルを分析する。そのために、クエリ分析装置は、インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースと、検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出し、この選択頻度から前記クエリと関連性の高いウェブページを抽出する関連ページ抽出手段と、前記関連ページ抽出手段により抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するジャンル決定手段と、を備えて構成される。
【選択図】図8

Description

本発明は、インターネットを利用した情報検索の分野に属し、特に、ユーザによって指定されたクエリに基づいて有用な情報を提供するためのクエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置に関する。
従来、インターネットを利用した一般的な検索サービスでは、ユーザがクエリ(キーワードなどの検索条件)による検索要求を行うと、これに応答してクエリに適合するウェブページの情報(例えば、タイトル、URL、スニペットなど)が検索結果として提供されるようになっている。このとき、検索結果とともにクエリに関連する情報を提供することが行われている。例えば、検索サービスの他、ショッピング、オークション、天気、ニュース等の様々なジャンルのサービス(以下、プロパティ)を提供するポータルサイトでは、検索結果とともにクエリに関連するポータルサイト内のプロパティに誘導するための情報を提供することが試みられている。
また、特許文献1には、種類キーワード(ジャンルキーワード)と行為キーワード(目的キーワード)からなるクエリを指定することで、ユーザの目的にあった情報を検索できる情報検索方法が開示されている。
特開2002−183203号公報
ところで、インターネットによる検索サービスの利用価値は、情報の豊富さと新しさ(更新頻度の高さ)にあるといえる。つまり、ユーザが検索サービスを利用するのは、時事・流行に応じた旬な情報を入手したい場合が多く、同じクエリにより検索したユーザの検索意図(どのようなジャンルの情報を入手したいかということ)はほぼ同じであると考えることができる。したがって、クエリごとにユーザの検索意図を把握できれば、同じクエリにより検索したユーザに対して、その検索意図に応じた有用な情報を提供することができる。
しかしながら、従来の検索サービスでは、あるクエリが属するジャンルを一意に決定できないため、クエリに連動してユーザに有用な情報を提供することは困難となっている。
例えば、“ABC”というタイトルの小説が出版された後、テレビドラマ化又は映画化された場合、検索サービスにおいて“ABC”というクエリが指定されると、少なくとも書籍販売、テレビ、映画がこのクエリに関連するジャンルに該当する。このような場合、どのジャンルの情報がユーザにとって有用なのか(検索意図に合致しているか)は、ジャンルに関するクエリが指定されない限り、検索サービス側で判断することは困難である。また、“ABC”というクエリによる大多数のユーザの検索意図は、小説が出版された直後は“書籍販売”、テレビドラマ化された直後は“テレビ”、映画化された直後は”映画”というように、時事・流行に応じて変化することとなる。
一方で、ポータルサイトのプロパティには、サイト内検索可能となっているプロパティがある。このような場合、クエリの使用頻度を解析することで、クエリの盛り上がりを把握することができる。例えば、映画のプロパティにおいて、“ABC”というクエリによる検索頻度が高ければ、“ABC”の映画に関する情報を入手したいユーザが多数いると判断できる。
しかしながら、プロパティによってはサイト内検索可能となっていないプロパティや、サイト内検索の利用頻度が低いプロパティもあるため、プロパティごとにクエリの利用状況の記録(クエリログ)を取っても、単純に比較することはできない。また、プロパティで提供されるサイト内検索を行うユーザは、ネット知識が豊富で自分が入手したい情報を明確に認識している一部のユーザであると考えられる。
したがって、プロパティごとのクエリログを解析しても、世間一般のユーザの検索意図が反映されるとはいえないので、クエリに連動してユーザに有用な情報を提供することは困難となっている。
本発明は、ユーザによって指定されたクエリに連動して有用な情報を提供するために、ユーザの検索意図を適切に判定できるクエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置を提供することを目的とする。
上記目的を達成するため、請求項1に記載の発明は、インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースと、
検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出し、この選択頻度から前記クエリと関連性の高いウェブページを抽出する関連ページ抽出手段と、
前記関連ページ抽出手段により抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するジャンル決定手段と、を備えることを特徴とするクエリ分析装置である。
請求項2に記載の発明は、請求項1に記載のクエリ分析装置において、前記関連ページ抽出手段は、前記クリックログを一定期間ごとに取得して、関連ページを抽出することを特徴とする。
請求項3に記載の発明は、請求項1又は2に記載のクエリ分析装置において、前記関連ページ抽出手段は、前記選択頻度がしきい値以上のウェブページを抽出することを特徴とする。
請求項4に記載の発明は、請求項1から3のいずれか一項に記載のクエリ分析装置において、前記ジャンル決定手段は、前記関連ページ抽出手段により抽出されたそれぞれのウェブページを各ジャンルに分類したジャンル分布を算出し、このジャンル分布における分布度に基づいて当該クエリのジャンルを判定することを特徴とする。
請求項5に記載の発明は、インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースを備えたクエリ分析装置におけるクエリ分析方法であって、
検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出するステップと、
この選択頻度から前記クエリと関連性の高いウェブページを抽出するステップと、
前記抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するステップと、を有することを特徴とする。
請求項6に記載の発明は、インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースを備えたクエリ分析装置のコンピュータに、
検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出するステップと、
この選択頻度から前記クエリと関連性の高いウェブページを抽出するステップと、
前記抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するステップと、を実行させるためのプログラムである。
請求項7に記載の発明は、請求項1から4のいずれか一項に記載のクエリ分析装置と、
インターネットを介して接続されたクライアント端末からの検索要求を受け付ける検索要求受付手段と、
前記検索要求受付手段により受け付けた検索要求に含まれるクエリに適合するサイトを検索する検索実行手段と、
前記検索実行手段により取得された検索結果を前記クライアント端末に提供する検索結果提供手段と、を備えた情報検索装置であって、
前記検索結果提供手段は、前記クエリ分析装置により決定されたクエリのジャンルに基づいて前記検索結果を編集して提供することを特徴とする。
本発明によれば、ユーザがクエリによりどのような情報を入手したいのかを適切に判定できるので、そのクエリに連動して有用な情報を提供することができる。
本発明に係る情報検索装置を適用したネットワーク構成の一例について示す図である。 検索サーバのクエリ分析装置としての機能を実現するハードウェア構成の一例を示す図である。 サイト分類データベースのデータ構成の一例を示す図である。 クエリ分類データベースのデータ構成の一例を示す図である。 検索データベースのデータ構成の一例を示す図である。 クリックログデータベースのデータ構成の一例を示す図である。 一般的な検索結果画面の表示例について示す図である。 クエリ分析処理の一例について示すフローチャートである。 検索処理の一例について示すフローチャートである。 本発明が適用された検索結果画面の表示例について示す図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
図1は、本発明に係る情報検索装置を適用したネットワーク構成の概要について示す図である。本実施形態では、検索サーバ1が本発明に係る情報検索装置を構成している。
図1に示すように、検索サーバ1には、パーソナルコンピュータ2aや携帯端末2b等のクライアント端末2、及び様々な情報を公開しているウェブサーバ3が通信ネットワークNを介して接続され、互いにデータ通信可能となっている。通信ネットワークNは、インターネットや電気通信事業者等の電話回線網、携帯電話通信網等である。
図1において、検索サーバ1は、クライアント端末2に対して一般的な検索サービスを提供する。具体的には、クライアント端末2においてクエリによる検索要求がなされると、検索サーバ1は指定されたクエリに適合する検索結果(例えば、ウェブサーバ3が提供するウェブページ等)をクライアント端末2に提供する。そして、クライアント端末2においてユーザが所望の検索結果を選択すると、そのウェブページに遷移するようになっている。
検索サーバ1は、本発明に係るクエリ分析装置1Aとしての機能、及びクエリによる検索を実行する検索エンジン1Bとしての機能を備えている。検索サーバ1にクエリ分析装置1Aとしての機能を設けることで、検索エンジン1Bがクライアント端末2に検索結果を提供するときに、ユーザにとって有用な情報を付加できるようにしている。
ここで、検索サーバ1による検索サービスは、例えば、ポータルサイトの1サービスとして提供されるものとする。すなわち、ポータルサイトは、検索サービスの他、ショッピング、オークション、天気、ニュース等の様々なジャンルのサービス(プロパティ)を提供する。そして、本実施形態では、検索サーバ1は、クエリによる検索要求に応答してクエリに適合する検索結果を提供するとともに、クエリが属するジャンルに対応するプロパティに誘導するための情報を提供するようになっている。
図2は、検索サーバ1のクエリ分析装置1Aとしての機能を実現するハードウェア構成の一例を示す図である。
図2に示すように、クエリ分析装置1Aは、制御部11、記憶部(補助記憶)12、入出力部13、通信部14、サイト分類データベース15及びクエリ分類データベース16等を備えた一般的なコンピュータによって実現される。各ブロックはバスライン20により電気的に接続されている。
制御部11は、演算/制御装置としてのCPU(Central Processing Unit)111、主記憶装置としてのRAM(Random Access Memory)112及びROM(Read Only Memory)113で構成される。
ROM113には、BIOS(Basic Input Output System)と呼ばれるプログラムや基本的な設定データが記憶されている。RAM112には、記憶部12から読み出されたOSや各種アプリケーションなどのプログラムが展開される。
CPU111は、RAM112に展開されたプログラムに従って各種処理を実行し、各ブロックを制御する。
記憶部12は、例えばハードディスク等で構成され、OS、各種アプリケーションプログラム(例えば、サーバ用プログラムやウェブアプリケーションプログラム)、及び各種データ等が記憶されている。
入出力部13は、検索サーバ1の管理者が利用するためのユーザインターフェースを構成する。
通信部14は、TCP/IP等の通信プロトコルに従って処理を行い、通信ネットワークNを介してクライアント端末2とデータの送受信を行う。
サイト分類データベース15は、個々のウェブページが属するジャンル、ここではクエリに対応する検索結果が属するジャンルを判定するときに参照される。クエリに対応する検索結果とは、クエリによる検索要求に応答して実行された検索の結果である。このサイト分類データベース15は、例えば、予めポータルサイト運営者によって構築される。
図3は、サイト分類データベースのデータ構成の一例を示す図である。図3に示すように、ジャンルとそのジャンルを代表するウェブサイトのドメイン情報、及びそのジャンルに関する有用な情報(推奨サイト)が対応付けて登録されている。
ここで、ドメイン情報とは、ウェブサイトを公開しているコンピュータ(ウェブサーバ)を識別するための情報である。したがって、同一ウェブサイトを構成するウェブページであれば、URLには同じドメイン情報が含まれることになる。
また、サイト分類データベース15におけるジャンルは、ポータルサイトが提供するプロパティに対応して設けられている。すなわち、図3に示すジャンル“映画”は劇場公開されている話題の映画に関する情報などを提供するプロパティに対応し、“仕事探し”は就職、転職、求人募集に関する情報などを提供するプロパティに対応し、“お笑い”はお笑い芸人のおすすめ動画などを配信するプロパティに対応し、“書籍販売”は出版されている本・雑誌に関する情報の提供及び本・雑誌を販売するプロパティに対応している。
図3におけるジャンル“映画”について説明すると、代表サイトのドメイン情報として“eiga.com”、“movies.co.jp”、“cinema.co.jp”、・・が登録されている。このようなドメイン情報をURLに含んでいるウェブページ、すなわち、代表サイトを構成しているウェブページは、ジャンル“映画”に分類されることとなる。また、ジャンル“映画”の推奨サイトとして“yah!映画”(ポータルサイトが提供するプロパティ)が登録されている。クライアント端末2からジャンル“映画”に属するクエリによる検索要求がなされたときに、この推奨サイトの情報が提供されることとなる。
なお、ジャンルごとの代表サイトとしては、例えば、そのジャンルに関連する情報を提供しているウェブサイトであってページビューが多いウェブサイトや、主要企業が提供しているウェブサイト(例えば、ジャンル“映画”に対しては映画配給会社のウェブサイトなど)が選定される。
図2において、クエリ分類データベース16は、クエリが属するジャンルを判定するときに参照される。このクエリ分類データベース16は、検索エンジン1Bで蓄積されているクリックログに基づいて、後述するクエリ分析処理によって所定期間ごとに更新される。
図4は、クエリ分類データベース16のデータ構成の一例を示す図である。図4に示すように、クエリ別にジャンルとその分布度が登録されている。すなわち、クエリ分類データベース16では、検索サービスにおいて、個々のクエリがどのようなジャンルの情報検索に用いられたかが示される。
図4におけるクエリ“ABC”について説明すると、映画20%、お笑い5%、書籍販売70%という分布になっている。この分布は、クエリ“ABC”による検索結果から、映画関連のウェブページにアクセスしたユーザが20%、お笑い関連のウェブページにアクセスしたユーザが5%、書籍販売関連のウェブページにアクセスしたユーザが70%であったことを示している。
それぞれのクエリについて分布度が最も高いジャンルが、そのクエリによるユーザの検索意図を表すジャンルであると判断できる。例えば、クエリ“ABC”についていえば、“書籍販売”がクエリ“ABC”によるユーザの検索意図を表している、すなわち書籍を購入(又は購入検討)するために“ABC”というクエリで検索を行ったユーザが最も多かったということになる。
検索サーバ1の検索エンジン1Bとしての機能は、図2に示すクエリ分析装置1Aを実現するハードウェア構成とほぼ同様の構成により実現される。図2におけるサイト分類データベース15及びクエリ分類データベース16の代わりに、検索データベース(図5参照)及びクリックログデータベース(図6参照)を備えている。すなわち、検索エンジン1Bは、制御部11、記憶部(補助記憶)12、入出力部13、通信部14、検索データベース及びクリックログデータベース等を備えた一般的なコンピュータによって実現される。
図5は、検索データベースのデータ構成の一例を示す図である。
検索データベースは、クエリによる検索要求に応答して情報を検索するときに参照される。この検索データベースには、個々のクエリに対して、このクエリに適合する複数のウェブページが登録されている。例えば、データ収集プログラムがインターネット上を巡回して公開されているウェブページを自動収集し、収集したウェブページを登録することによって検索データベースが構築される。
図5に示すように、検索データベースは、例えばインデックス部IDXとデータベース部DBで構成されている。
インデックス部IDXには、キーワードごとにウェブIDが登録されている。図5(a)では、キーワード“YAH”に対してウェブID“#01,#02,#11,・・”が登録され、キーワード“XYZ”に対してウェブID“#21,#03,#211,・・”が登録されている。
データベース部DBにはウェブIDごとに、例えばウェブページのタイトル、URL、サイト説明(本文の抜粋、スニペット)などが登録されている。なお、データベース部DBに含まれるデータはこれに限定されず、検索結果としてクライアント端末2に提供する内容(例えば、画像ファイル等)が適宜登録されている。図5(b)では、ウェブID“#01”の内容として、タイトル“YAH!Japan”、URL“http://www.yah.co.jp”、“最大級のポータルサイト!・・”という説明が登録されている。
図6は、クリックログデータベースのデータ構成の一例を示す図である。
クリックログデータベースには、クエリごとに、そのクエリに対応する検索結果の中から選択(クリック)されたウェブページ及びクリック日時が逐一記録されて蓄積される。図6では、例えば、クエリ“ABC”による検索結果の中から“URL1”のウェブページが“2009/06/06/10:00”に選択されたこと、“URL2”のウェブページが“2009/06/06/12:30”に選択されたこと等々が記録されている。このクリックログデータベースを利用して、ウェブページごとのクリック率(CTR,クリック回数÷表示回数)を算出することができる。
検索サーバ1のクエリ分析装置1A及び検索エンジン1Bとしての機能は、上述した構成により実現されている。すなわち、検索エンジン1Bとしての検索サーバ1のCPU111は、サーバ用ソフトウェアを実行することにより、クライアント端末2で起動されたウェブブラウザからの検索要求に応答してウェブページの検索を実行し、検索結果を提供する。クライアント端末2において検索結果の選択が行われると、このクリック状況をクリックログに記録する。
例えば、図7(a)に示すように、検索窓に“ABC”と入力されクエリ“ABC”による検索要求がなされると、検索データベースを参照して適合するウェブページを抽出し、検索結果をクライアント端末2に提供する。図7(a)では、クエリ“ABC”による検索結果として、(1)ドラマ“ABC”に関する情報が公開されているウェブページ、(2)小説“ABC”に関する情報が公開されているウェブページ、(3)小説“ABC”を購入できる書籍販売のウェブページが提供されている。
図7(a)に示す検索結果画面において、(3)書籍販売のウェブページが選択されると、図7(b)に示す書籍販売のウェブページに遷移する。このとき、検索結果の中から書籍販売のウェブページがクリックされたことを示すクリックログが記録される。
さらに本実施形態では、クエリ分析装置1Aとしての検索サーバ1のCPU111が、検索エンジン1Bにより生成されるクリックログに基づいてクエリのジャンル分布を解析し、クエリのジャンルを判定するようになっている。これにより、クエリによる検索要求がなされたときに、検索結果とともにクエリに関連する有用な情報を提供することが可能となる。
図8は、検索サーバ1におけるクエリ分析処理の一例について示すフローチャートである。このクエリ分析処理がクエリ分析装置1Aとしての機能に他ならない。このクエリ分析処理は、所定期間ごとに実行されるようになっている。
ステップS101では、クリックログデータベース(図6参照)からクエリごとに蓄積されたクリックログを取得する。なお、図6では省略しているが、クリックログデータベースには、検索結果の累積表示回数も記録されている。
ステップS102では、個々のクエリについて、検索結果ごと、すなわちウェブページ(URL)ごとにクリック率を算出する。具体的には、クリックログに記録されているウェブページごとのクリック回数を、当該クエリの検索結果として表示された回数で除算した値がクリック率となる。クリック率が高いほどユーザによる選択頻度が高いウェブページとなる。
ステップS103では、クエリごとにクリック率の高いウェブページ、例えばクリック率が上位所定数分のウェブページ又はクリック率がしきい値以上のウェブページを抽出する。つまり、クエリに対応する検索結果の中でユーザの選択頻度が高いウェブページが、当該クエリによるユーザの検索意図を反映しているウェブページとなるので。このようなウェブページを抽出する。
ステップS104では、ステップS103で抽出したウェブページのURLからドメイン情報を特定する。例えば、抽出したウェブページのURLが“http://www.eiga.com/roadshow/featured/ABC・・”であれば、“eiga.com”の部分をドメイン情報として特定する。このドメイン情報は、例えば、URLの記述に基づいて‘/’の位置に基づいて特定してもよいし、正規表現を用いて特定することとしてもよい。
ステップS105では、サイト分類データベース15を参照して、ステップS104で特定したドメインが属するジャンルを判定する。つまり、ステップS103で抽出したウェブページが属するジャンルを、そのドメイン情報に基づいて判定する。例えば、特定したドメイン情報が“eiga.com”となる場合、図3に示すサイト分類データベース15に従うと、このドメインが属するジャンルは“映画”となる。したがって、ドメイン情報として“eiga.com”がURLに含まれているウェブページのジャンルは“映画”となる。URLの細部が異なっていてもドメイン情報が同じであれば、同じジャンルに分類されることとなる。
ステップS103で抽出したウェブページのすべてについて、これらが属するジャンルを判定する。ステップS105までの処理により、クエリによるユーザの検索意図を反映しているウェブページ(クリック率の高いウェブページ)がどのジャンルに属するか判定されることとなる。
ステップS106では、クエリごとにジャンル分布を算出する。具体的には、各ジャンルに属するウェブページを計数し、それに基づいて分布度(ジャンル別の計数値/全ジャンルの計数値)を算出する。このとき、ウェブページごとのクリック率により重み付けして分布度を算出するようにしてもよい。
ステップS107では、算出したジャンル分布をクエリ分類データベース16に反映して更新する。クエリ分類データベースに登録されているクエリごとのジャンル分布により、そのクエリが属するジャンル、すなわちそのクエリによるユーザの検索意図を適切に把握することができる。
例えば、“ABC”というタイトルの小説が出版された後、テレビドラマ化又は映画化された場合、検索サービスにおいて“ABC”というクエリが指定されると、少なくとも書籍販売、テレビ、映画がこのクエリに関連するジャンルに該当する。このような場合であっても、クエリ“ABC”による検索意図を適切に把握することができる。
例えば、映画化された直後には、クエリ“ABC”によるジャンル分布において“映画”が大きな割合を占めることとなるので、クエリ“ABC”の映画に関する情報を検索したいというユーザの検索意図を認識できる。すなわち、時事・流行に応じてクエリによるユーザの検索意図が変化した場合に対応することができる。
このように、実施形態に係るクエリ分析装置としての検索サーバ1は、インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベース(15)と、検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度(クリック率)を算出し、この選択頻度からクエリと関連性の高いウェブページを抽出する関連ページ抽出手段(図8のステップS102,S103)と、関連ページ抽出手段により抽出されたそれぞれのウェブページのドメイン情報と、サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、クエリのジャンルを判定するジャンル決定手段(図8のステップS104〜S106)と、を備えている。
これにより、クエリによるユーザの検索意図(検索傾向、どのジャンルの情報を入手したいか)を示すクリックログに基づいて、当該クエリと関連性の高いジャンル、つまりユーザがクエリによりどのような情報を入手したいのかを適切に判定できるので、そのクエリに連動して有用な情報を提供することができる。また、ドメイン情報を利用してジャンルを特定するので、サイト分類データベース15の構築が簡単(ウェブページごとのURLを登録しておく必要はない)で、検索結果の中から選択されたウェブページがいずれかのジャンルに属する可能性も高くなる。したがって、クリックログに基づく正確なクエリの分析が可能となり、クエリのジャンルを適切に決定することができる。
また、検索サーバ1が備える関連ページ抽出手段は、クリックログを一定期間ごとに取得して、関連ページを抽出する。すなわち、図8に示すクエリ分析処理は、一定期間ごとに更新される。これにより、時々刻々と変化するクリックログに基づいてクエリのジャンルが判定されることとなるので、時事・流行に応じてクエリによるユーザの検索意図が変化しても、現時点で最適なクエリのジャンルを判定することができる。
さらに、検索サーバ1が備える関連ページ抽出手段は、選択頻度がしきい値以上の(検索意図が表れていると考えられる)ウェブページを抽出する。すなわち、クエリによるユーザの検索意図が表れていると考えられる場合にだけ、そのウェブページを抽出して分析するようにしている。これにより、判定されたクエリのジャンルが的外れなものとなるのを防止できる。
またさらに、検索サーバ1が備えるジャンル決定手段は、関連ページ抽出手段により抽出されたそれぞれのウェブページを各ジャンルに分類したジャンル分布を算出し、このジャンル分布における分布度に基づいて当該クエリのジャンルを判定する。これにより、ジャンル分布を考慮したうえでクエリのジャンルを適切に判定でき、例えば、分布度が突出しているジャンルが複数あるときには、この複数のジャンルをクエリのジャンルとして判定することもできる。
図9は、検索サーバ1における検索処理の一例について示すフローチャートである。この検索処理が検索エンジン1Bとしての機能に他ならない。
ステップS201では、クライアント端末2からクエリによる検索要求があったか否かを判定する。具体的には、クライアント端末2において起動されたウェブブラウザにより、検索サーバ1により提供される検索サービス(例えば、ポータルサイトのトップページ)にアクセスされ、検索窓にクエリが入力されて検索を指示する操作(検索ボタンのクリック操作)が行われると、検索サーバ1に対してクエリによる検索要求が送信される。ステップS201では、この検索要求の有無を判定することとなる。そして、クライアント端末2から検索要求があったと判定した場合はステップS202に移行し、検索要求がないと判定した場合は処理を終了する。
ステップS202では、検索要求に含まれるクエリを取得する。
ステップS203では、検索データベースを参照して、クエリに適合するウェブページを検索結果として抽出する。例えば、クエリ“YAH”が指定された場合、図5に示す検索データベースに従うと、ウェブID“#01,#02,・・”に対応するウェブページ、すなわち“YAH!Japan”や“YAHメール”などがクエリ“YAH”に適合するウェブページとして抽出される。
ステップS204では、クエリ分類データベース16を参照して、クエリのジャンルを取得する。例えば、クエリ“ABC”が指定された場合、図4に示すクエリ分類データベースに従うと、分布度が最も高い“書籍販売”というジャンルが取得される。
ステップS205では、抽出した検索結果を含めて提供する情報を編集し、検索結果画面を生成する。このとき、ステップS204で取得されたクエリのジャンルに関連する情報であって、ユーザに有用な情報(例えば、クエリのジャンルに対応するプロパティに誘導するための情報)を検索結果画面において提供する。本実施形態では、クエリ分析装置1Aによりクエリのジャンルが判定されているので、このような情報の提供が可能となる。
例えば、クエリ“ABC”のジャンルが“書籍販売”となっていれば、ポータルサイトが提供する書籍販売のプロパティに誘導するための情報をサイト分類データベース15から読み出して、検索結果画面内に配置する。
ステップS206では、検索要求したクライアント端末2に対して検索結果画面のファイルを送信する。クライアント端末2のウェブブラウザ上では、クエリによる検索結果と、クエリのジャンルに対応するプロパティに誘導するための情報を含んで構成された検索結果画面が表示されることとなる(図10参照)。
ステップS207では、検索結果画面においてユーザが検索結果を選択する操作を行ったか否かを判定する。そして、検索結果が選択されたと判定した場合はステップS208に移行し、検索結果が選択されないと判定した場合は処理を終了(又は選択されるまで待機)する。
ステップS208では、指定されたクエリに対応するクリックログに、選択された検索結果とその日時を記録する。
例えば、図10に示すように、クエリ“ABC”による検索要求がなされると、ウェブ検索結果の他に、おすすめサイトとしてポータルサイトが提供する書籍販売プロパティに誘導するための広告情報が提供される。なお、図10に示す広告情報は、サイト分類データベース15にて特定される推奨サイトにおいて、クエリ“ABC”で検索したサイト内検索の検索結果である。この広告情報が選択されると、書籍販売プロパティで小説“ABC”を紹介し、容易に購入可能となっているウェブページに遷移することとなる。クエリ“ABC”により小説“ABC”を購入するための情報を検索しようとしていたユーザにとっては、極めて有用な情報となる。
このように、情報検索装置としての検索サーバ1は、クエリ分析装置(1A)と、インターネットを介して接続されたクライアント端末(2)からの検索要求を受け付ける検索要求受付手段(図9のステップS201,S202)と、検索要求受付手段により受け付けた検索要求に含まれるクエリに適合するサイトを検索する検索実行手段(ステップS203)と、検索実行手段により取得された検索結果(ウェブ検索結果)をクライアント端末に提供する検索結果提供手段(ステップS204〜S206)と、を備えて構成されている。
そして、検索結果提供手段は、クエリ分析装置により決定されたクエリのジャンルに基づいて検索結果を編集して提供する。具体的には、クエリのジャンルに対応するプロパティに誘導するための情報を検索結果に追加する。
これにより、クエリによる検索に伴い、ユーザに有用な情報が効果的に提供されることとなるので、ユーザにとって利便性に優れた検索サービスが実現される。一方、検索サービスを提供するポータルサイトにとっては、ユーザに有用な自社サイト(プロパティ)を推薦することにより潜在的な顧客を誘導することができるので、新規顧客の獲得に有効であるとともに、広告効果も期待できる。
以上、本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で変更可能である。
例えば、上記実施形態では、検索結果の編集の一例として、クエリのジャンルに対応するプロパティに誘導するための情報を検索結果に追加する場合について説明したが、クエリのジャンルに基づいて検索結果の絞込み又は並び替えを行うようにしてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 検索サーバ(クエリ分析装置、情報検索装置)
2 クライアント端末
3 ウェブサーバ
N 通信ネットワーク
11 制御部(関連ページ抽出手段、ジャンル判定手段、検索要求受付手段、検索実行手段、検索結果提供手段)
12 記憶部
13 入出力部
14 通信部
15 サイト分類データベース
16 クエリ分類データベース
20 バスライン

Claims (7)

  1. インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースと、
    検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出し、この選択頻度から前記クエリと関連性の高いウェブページを抽出する関連ページ抽出手段と、
    前記関連ページ抽出手段により抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するジャンル決定手段と、
    を備えることを特徴とするクエリ分析装置。
  2. 前記関連ページ抽出手段は、前記クリックログを一定期間ごとに取得して、関連ページを抽出することを特徴とする請求項1に記載のクエリ分析装置。
  3. 前記関連ページ抽出手段は、前記選択頻度がしきい値以上のウェブページを抽出することを特徴とする請求項1又は2に記載のクエリ分析装置。
  4. 前記ジャンル決定手段は、前記関連ページ抽出手段により抽出されたそれぞれのウェブページを各ジャンルに分類したジャンル分布を算出し、このジャンル分布における分布度に基づいて当該クエリのジャンルを判定することを特徴とする請求項1から3のいずれか一項に記載のクエリ分析装置。
  5. インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースを備えたクエリ分析装置におけるクエリ分析方法であって、
    検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出するステップと、
    この選択頻度から前記クエリと関連性の高いウェブページを抽出するステップと、
    前記抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するステップと、
    を有することを特徴とするクエリ分析方法。
  6. インターネット上で公開されているサイトのドメイン情報を予めジャンル別に分類して登録したサイト分類データベースを備えたクエリ分析装置のコンピュータに、
    検索サービスにおいて指定されたクエリに対するクリックログに基づいて、検索結果ごとの選択頻度を算出するステップと、
    この選択頻度から前記クエリと関連性の高いウェブページを抽出するステップと、
    前記抽出されたそれぞれのウェブページのドメイン情報と、前記サイト分類データベースに登録されたドメイン情報に対応付けられたジャンルに基づいて、前記クエリのジャンルを判定するステップと、
    を実行させるためのプログラム。
  7. 請求項1から4のいずれか一項に記載のクエリ分析装置と、
    インターネットを介して接続されたクライアント端末からの検索要求を受け付ける検索要求受付手段と、
    前記検索要求受付手段により受け付けた検索要求に含まれるクエリに適合するサイトを検索する検索実行手段と、
    前記検索実行手段により取得された検索結果を前記クライアント端末に提供する検索結果提供手段と、を備えた情報検索装置であって、
    前記検索結果提供手段は、前記クエリ分析装置により決定されたクエリのジャンルに基づいて前記検索結果を編集して提供することを特徴とする情報検索装置。
JP2009144827A 2009-06-18 2009-06-18 情報検索装置及び情報検索方法 Active JP5133946B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009144827A JP5133946B2 (ja) 2009-06-18 2009-06-18 情報検索装置及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009144827A JP5133946B2 (ja) 2009-06-18 2009-06-18 情報検索装置及び情報検索方法

Publications (2)

Publication Number Publication Date
JP2011002972A true JP2011002972A (ja) 2011-01-06
JP5133946B2 JP5133946B2 (ja) 2013-01-30

Family

ID=43560885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009144827A Active JP5133946B2 (ja) 2009-06-18 2009-06-18 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP5133946B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120134081A (ko) * 2011-05-31 2012-12-11 아지노모토 가부시키가이샤 수지 조성물
CN105512156A (zh) * 2014-10-20 2016-04-20 腾讯科技(深圳)有限公司 点击模型生成方法和装置
JP2017211786A (ja) * 2016-05-24 2017-11-30 ヤフー株式会社 分類装置、分類方法および分類プログラム
KR20180011254A (ko) * 2016-01-07 2018-01-31 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
JP2018156429A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6401428B1 (ja) * 2017-04-27 2018-10-10 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2018195076A (ja) * 2017-05-17 2018-12-06 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP6479239B1 (ja) * 2018-04-19 2019-03-06 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム
JP2020016960A (ja) * 2018-07-23 2020-01-30 Zホールディングス株式会社 推定装置、推定方法及び推定プログラム
JP2020047102A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020057188A (ja) * 2018-10-02 2020-04-09 Zホールディングス株式会社 提供装置、提供方法及び提供プログラム
JP2021108198A (ja) * 2018-09-06 2021-07-29 ヤフー株式会社 監視装置、ショッピングサーバ、監視方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604603B2 (ja) * 2015-09-18 2019-11-13 Zホールディングス株式会社 検索装置、検索方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078446A (ja) * 2002-08-14 2004-03-11 Nec Corp キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP2008181186A (ja) * 2007-01-23 2008-08-07 Yahoo Japan Corp クエリーログを利用したキーワードとサイトの関連度を求める方法
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
JP2009104607A (ja) * 2007-10-22 2009-05-14 Gmarket Inc ウェブサイトの運営方法及びオンラインシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078446A (ja) * 2002-08-14 2004-03-11 Nec Corp キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP2008181186A (ja) * 2007-01-23 2008-08-07 Yahoo Japan Corp クエリーログを利用したキーワードとサイトの関連度を求める方法
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
JP2009104607A (ja) * 2007-10-22 2009-05-14 Gmarket Inc ウェブサイトの運営方法及びオンラインシステム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120134081A (ko) * 2011-05-31 2012-12-11 아지노모토 가부시키가이샤 수지 조성물
CN105512156B (zh) * 2014-10-20 2020-02-07 腾讯科技(深圳)有限公司 点击模型生成方法和装置
CN105512156A (zh) * 2014-10-20 2016-04-20 腾讯科技(深圳)有限公司 点击模型生成方法和装置
KR102092691B1 (ko) * 2016-01-07 2020-03-24 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
JP2018518788A (ja) * 2016-01-07 2018-07-12 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド ウェブページトレーニング方法及び装置、検索意図識別方法及び装置
KR20180011254A (ko) * 2016-01-07 2018-01-31 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
JP2017211786A (ja) * 2016-05-24 2017-11-30 ヤフー株式会社 分類装置、分類方法および分類プログラム
JP2018156429A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6401428B1 (ja) * 2017-04-27 2018-10-10 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JP7017865B2 (ja) 2017-05-17 2022-02-09 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP2018195076A (ja) * 2017-05-17 2018-12-06 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP6479239B1 (ja) * 2018-04-19 2019-03-06 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム
JP2019191686A (ja) * 2018-04-19 2019-10-31 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム
JP2020016960A (ja) * 2018-07-23 2020-01-30 Zホールディングス株式会社 推定装置、推定方法及び推定プログラム
JP7174551B2 (ja) 2018-07-23 2022-11-17 ヤフー株式会社 推定装置、推定方法及び推定プログラム
JP2021108198A (ja) * 2018-09-06 2021-07-29 ヤフー株式会社 監視装置、ショッピングサーバ、監視方法、及びプログラム
JP7171811B2 (ja) 2018-09-06 2022-11-15 ヤフー株式会社 監視装置、ショッピングサーバ、監視方法、及びプログラム
JP2020047102A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020057188A (ja) * 2018-10-02 2020-04-09 Zホールディングス株式会社 提供装置、提供方法及び提供プログラム

Also Published As

Publication number Publication date
JP5133946B2 (ja) 2013-01-30

Similar Documents

Publication Publication Date Title
JP5133946B2 (ja) 情報検索装置及び情報検索方法
US8768772B2 (en) System and method for selecting advertising in a social bookmarking system
US8015065B2 (en) Systems and methods for assigning monetary values to search terms
US7831474B2 (en) System and method for associating an unvalued search term with a valued search term
US20070067217A1 (en) System and method for selecting advertising
US20060064411A1 (en) Search engine using user intent
US20080172370A1 (en) Providing virtual really simple syndication (rss) feeds
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
US20130060747A1 (en) Web search system with group interaction support
US20100042718A1 (en) System And Method For Tracking User Activity Related To Network Resources Using A Browser
JP5507469B2 (ja) 格納されたクエリ情報を使用したコンテンツの提供
US20120246139A1 (en) System and method for resume, yearbook and report generation based on webcrawling and specialized data collection
US20100125781A1 (en) Page generation by keyword
JP2010113542A (ja) 情報提供システム、情報処理装置及びそのプログラム
JP5511782B2 (ja) 新規広告可能なurl提供システムおよび新規広告可能なurl提供方法を実行するためのプログラム
TWI417751B (zh) Information providing device, information providing method, information application program, and information recording medium
JP5548900B2 (ja) 複数の属性を利用したWebページ推薦方法
TWI399657B (zh) A provider, a method of providing information, a program, and an information recording medium
JP5185891B2 (ja) コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム
KR20130065779A (ko) 사용자 소셜 특성을 이용한 콘텐츠 서비스 제공 장치 및 방법
JP4934154B2 (ja) コンテンツ提供装置
JP5382601B2 (ja) 情報提示装置、情報提示方法、および情報提示用プログラム
Wu et al. A quality analysis of keyword searching in different search engines projects
JP6228425B2 (ja) 広告生成装置および広告生成方法
JP3933617B2 (ja) 共有情報検索方法、共有情報検索プログラム、および情報共有システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5133946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350