JP5200750B2 - 情報検索装置、情報検索方法、プログラム、および記録媒体 - Google Patents

情報検索装置、情報検索方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JP5200750B2
JP5200750B2 JP2008205582A JP2008205582A JP5200750B2 JP 5200750 B2 JP5200750 B2 JP 5200750B2 JP 2008205582 A JP2008205582 A JP 2008205582A JP 2008205582 A JP2008205582 A JP 2008205582A JP 5200750 B2 JP5200750 B2 JP 5200750B2
Authority
JP
Japan
Prior art keywords
search
query
node
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008205582A
Other languages
English (en)
Other versions
JP2010039997A (ja
Inventor
盈輝 徐
禎史 荒木
哲也 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008205582A priority Critical patent/JP5200750B2/ja
Publication of JP2010039997A publication Critical patent/JP2010039997A/ja
Application granted granted Critical
Publication of JP5200750B2 publication Critical patent/JP5200750B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索に関し、より詳細には、過去の検索履歴を効率的に利用し、新たな情報検索を行う、情報検索装置、情報検索方法、プログラム、および記録媒体に関する。
情報処理装置の性能向上およびネットワーク通信速度の向上から、インターネットといったネットワークを介した情報検索が普及している。ネットワークを介した情報検索は、多くの場合、クライアントコンピュータ(以下、クライアントとして参照する。)のユーザが、ウェブブラウザを介して検索要求をウェブサーバに送付することにより実行される。検索要求を受領したウェブサーバは、検索要求に含まれる検索クエリーから検索語または検索語の語列を抽出し、SQLパーサなどを使用してSQL文に設定する。そして、ウェブサーバは、ウェブサーバに接続されたデータベースに照会を発行し、データベースでの検索結果を、検索要求の発行元のクライアントに返すことにより、ユーザが、ウェブサーバを使用した情報検索の結果を利用可能とする。
情報検索を考えてみれば、ユーザは、多くの場合、一定の検索エンジンのURL(Uniform Resource Locator)を「ブックマーク」や、「お気に入り」に登録して、繰り返し一定の検索エンジンにアクセスして種々の情報検索を実行する。このため、検索エンジンを管理するウェブサーバには、特定のユーザに関する検索履歴が、アクセスログなどとして蓄積されて行く。これは、例えば、商業用の検索エンジンばかりではなく、企業、官公庁、大学、公共施設での検索サービスを提供するウェブサーバでも同様である。
上述した場合、新に受領した検索要求に対し、ウェブサーバに蓄積された検索履歴を使用して検索要求を拡張して検索クエリーを生成することにより、ユーザによる検索効率をより高めることができると考えられる。
これまで、ユーザによるネットワークを介した検索効率を改善する種々の検討がなされている。例えば、特開2006−127529号公報(特許文献1)は、ウェブページの検索の効率を向上させるため、ウェブページに階層構造を設け、階層ごとにウェブページのページ重要性ランキングを計算しておき、階層構造にわたるランダムウォークを使用してページ重要性に関連付けて、ウェブページを検索するシステムを開示する。
また、特開2002−304411号公報(特許文献2)では、利用者識別情報および検索語を使用して、利用者の過去の利用履歴情報および検索情報の分野を区分して新たな利用履歴情報を生成して検索結果の優先順位を決定する情報検索配信システムを開示する。さらに、特開2004−185339号公報(特許文献3)は、ユーザが現在閲覧している文書および文書に付随する情報と、ユーザが過去に指定した検索語の履歴とから検索式を自動的に生成する文書検索システムを開示する。
特開2006−127529号公報 特開2002−304411号公報 特開2004−185339号公報
特許文献1に記載されたシステムは、ウェブページのページ重要性に関連してランダムウォークを使用してウェブページの検索を実行する点は開示する。しかしながら、多くの文書は、ウェブページのページ単位で重要性が割り与えられていない。このため、特許文献1に記載のシステムは、既存のウェブページについて階層構造を生成しなければ適用できず、現在、インターネットに存在する文書数を考慮すれば現実的なものと言うことはできない。また、検索要求の履歴を効果的に利用することを課題とするものではない。
また、特許文献2は、利用者の過去の履歴情報および検索情報の分野を使用して検索結果を生成し、検索結果の優先順位を決定するシステムを開示している。しかしながら、特許文献2に記載されたシステムは、検索結果の優先順位を、利用者の過去の利用履歴情報を使用して決定するものであり、利用履歴を使用するものの、利用履歴を利用して検索範囲を拡張することを課題とするものではない。
さらに特許文献3は、特定ユーザが現在閲覧している文書および文書に付随する情報と、特定ユーザが過去に指定した検索語の履歴とを使用して検索式を自動生成するシステムを開示する。しかしながら、ユーザが閲覧している文書から検索式を自動作成するものであり、検索の多様性や任意性に制限がある。また、特許文献3に記載された技術は、特定のユーザが過去に指定した検索語の履歴を使用して新たな検索語を作製する点で、他のユーザの検索履歴を利用したり、また閲覧済文書についての履歴を含ませて検索効率を向上させることを課題とするものではない。
本発明は、上記従来技術の問題点に鑑みてなされたものであり、本発明では、検索語、ユーザ、閲覧済文書などを含む過去の検索履歴を有効に利用して、検索範囲を拡大させることが可能な情報検索装置、情報検索方法、プログラム、および記録媒体を提供することを目的とする。
また、本発明は、複数の異なるユーザが行った検索の検索履歴を、爾後の検索処理に反映させることにより、検索範囲を自動的に拡張し、検索効率を高めることを可能とする、情報検索装置、情報検索方法、プログラム、および記録媒体を提供することを目的とする。
本発明は、上記課題を解決するために、検索履歴のユーザ、検索クエリー、閲覧済文書の情報を抽出し、検索履歴から隣接グラフを生成する。隣接グラフは、クエリー間、ユーザ間、閲覧文書間、クエリー−ユーザ間、閲覧文書−クエリー間にリンクを定義することにより生成される。また、各リンクには、リンクの端点ノード間の属性により決定される重み付けが定義されていて、隣接グラフを、隣接マトリックスの対応する端点ノード(i,j)についての重み付け値を要素とする隣接マトリックスとして生成する。
隣接マトリックスは、ランダムウォークランキング方法を使用して、クエリー、ユーザ、閲覧済文書の類似性に関連して、それぞれ最関連と推定される最関連検索語が抽出される。各最関連検索語は、ユーザが発行した検索クエリーqnewが含む検索語または検索語列に論理和されて、{qnew+qo}として、並列検索を実行するための拡張検索クエリーを生成するために利用される。
本発明では、ランダムウォークランキングは、リスタートベクトルを使用して実行され、リスタートベクトルで初期化し、ランキングベクトルを、試行ベクトルとして反復的に使用するランダムウォーキング計算を実行させる。
反復計算は、最新のランキングベクトルと、その反復サイクルでの試行ベクトルとの間の距離、すなわち、内積が設定した小値ε以下となった場合に停止される。反復計算の終了時点では、クエリーに関して、クエリーの類似性の高さに応じてランキングベクトルの要素値が与えられる。また、ユーザおよび閲覧済文書についても、類似度に関連して要素値が与えられる。
検索クエリー、ユーザ、閲覧済文書のそれぞれの種類ごとに最大の要素値を与える端点ノードのうちのクエリーノードが、最関連検索語として抽出され、拡張検索クエリーを生成するために使用される。
拡張検索クエリーは、文書データベースに発行され、情報検索が実行された後に、適切な形式の構造化文書として編集され、クライアントのユーザに検索結果として提示される。
すなわち、本発明によれば、検索語、ユーザ、閲覧済文書などを含む過去の検索履歴を有効に利用して、検索範囲を拡大させることが可能な情報検索装置、情報検索方法、プログラム、および記録媒体を提供することが可能となる。
また、本発明によれば、複数の異なるユーザが行った検索の検索履歴を、爾後の検索処理に反映させることにより、検索範囲を自動的に拡張し、検索効率を高めることを可能とする、情報検索装置、情報検索方法、プログラム、および記録媒体を提供することが可能となる。
以下、本発明を実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。図1は、本実施形態の情報検索装置100の機能ブロックを示す。情報検索装置100は、ウェブサーバとして構成されており、クライアントコンピュータ(以下、単にクライアントとして参照する。)からの検索要求を受領して文書検索を実行し、検索結果を検索要求の要求元に返す。
情報検索装置100は、インターネット、ワイアドまたはワイアレス通信を使用するローカルエリアネットワーク(LAN)、またはワイドエリアネットワーク(WAN)などを含むネットワーク140を介して複数のクライアント(図示せず)のユーザから、文書の検索要求を受領する。クライアントは、情報検索装置100にアクセスするため、Internet Explorer、Mozilla、Opera、NetscapeNavigator(商標)などのブラウザソフトウェアを実装していて、ユーザによる検索要求の発行指令を受領してHTTPプロトコルなどを使用し、検索エンジンとして構成される情報検索装置100に検索要求を発行する。
情報検索装置100は、クライアントが検索要求の作製を容易にするため、クライアントからの要求に応じて検索要求フォームをダウンロードする。クライアントのユーザは、入力フィールドから検索語または複数の検索語を入力して、入力後にSUBMITすると、入力された検索語を含む検索クエリーを、GETメソッドまたはPOSTメソッドにより情報検索装置100に対して送付する。
クライアントからの検索要求は、ネットワーク140を介してネットワークインタフェース部112が受領し、OSI基本参照モデルにいうところの、データリンク層、ネットワーク層、トランスポート層を経て、本実施形態の情報検索方法を実行するサーバプログラムに検索クエリーを渡している。
本実施形態の情報検索装置100は、より詳細には、中央処理装置(CPU)がRAMなどの実行空間にプログラムを展開してデータを読込、CPUによるプログラムの実行によりコンピュータ上に各機能部が実現されている。ネットワークインタフェース部112が受領した検索クエリーは、要求処理部114に送付される。要求処理部114では、検索クエリーに含まれるユーザIDなどを検査して、情報処理装置100に当該ユーザが既登録であるか否かを判断し、既登録ユーザでない場合には、新規ユーザアカウントおよびパスワードの登録処理を実行する。
さらに、要求処理部114は、ユーザからアクセスを受領して、ログ管理部116を呼出し、検索要求を送付したユーザのユーザID、タイムスタンプ、アクセス回数、特定の文書に対するアクセス開始から、アクセス終了までの時間幅で与えられるアクセス期間などをモニタし、取得した各情報を、履歴データベース(以下、データベースにつき、DBとして略記する。)130に登録する。
さらに、要求処理部114は、ユーザが新規であると判断した場合、グラフ管理部118を呼出してユーザの少なくともユーザID、ユーザ名などを通知して、隣接グラフの新たなノードとして登録する処理を依頼する。また、要求処理部114は、ユーザからの検索要求が含む検索クエリーを検査し、ログ管理部116に検索クエリーが新規であるか否かの検査を依頼する。ログ管理部116は、要求処理部114に対して検索クエリーが新規か、新規でないかの判断結果を通知する。そして検索クエリーが新規であるとの通知を受領した場合、要求処理部114は、グラフ管理部118に対して、新たな検索クエリーを、隣接グラフの新たなノードとして追加するように指令を発行する。
グラフ管理部118は、上述した新規なノードの検出に対応して隣接グラフの新たなノードを追加する処理の他、隣接グラフを構成するためのグラフDB132を管理する。グラフ管理部118は、隣接グラフが存在しない場合、ノードの蓄積に対応して、ノードの追加および追加されたノードを含む隣接グラフのグラフデータを更新する処理を実行する。このため、グラフ管理部118は、ログ管理部116に対して、グラフ管理部118が検索処理中のノードに関連する履歴を、履歴DB130を参照して取得し、グラフDB132の適切なテーブルの項目に登録する処理を実行する。
さらに、グラフ管理部118は、履歴DB130を参照してユーザによる文書の閲覧履歴を取得し、グラフDB132に登録する。グラフ管理部118が管理するグラフデータは、クエリーノードテーブル、閲覧文書ノードテーブル、ユーザノードテーブルに登録されて管理される。さらに、グラフ管理部118は、登録された各テーブルのエントリ項目について、項目間のリンクを生成させ、各リンクについての重み付け値を計算し、隣接グラフの要素値として登録する。
また、ユーザからの検索要求を受領し、各ノードに対する更新処理が終了した後、グラフ管理部118は、最関連検索語決定部120を呼出して、ユーザが現在検索を要求する検索クエリーの拡張処理を指令する。検索クエリーの拡張処理は、本実施形態では、ユーザ、クエリー、または閲覧済文書に最も関連する検索クエリーを、グラフDB132に登録された隣接グラフの解析に基づいて抽出し、SQLパーサなどを使用してユーザが送付した検索クエリーに<OR>属性で追加する処理によって実行することができ、以後、拡張された検索クエリーを、拡張検索クエリーとして参照する。
拡張検索クエリーは、SQL文を文書DB134へと送付され、データベースサーバにより、文書の検索が実行された後、情報検索装置100の検索実行部122に対し、文書の抽出結果が返される。文書DB134の検索結果は、検索実行部122から検索結果編集部124へとい送付され、検索結果からHTMLやXMLなどの構造化文書が作成され、ネットワークインタフェース部112を介して検索要求の要求元のクライアントに返され、ユーザの検索要求に関連する一連のトランザクションが完了する。
図2は、本実施形態の履歴DB130およびグラフDB132が管理する、各テーブルのデータ構造を示す。データ構造200は、履歴DB130が管理するテーブルを示し、データ構造250は、グラフDB132が管理するテーブルを示す。データ構造200は、履歴DB130が管理するテーブルであり、テーブル210は、ユーザが閲覧した文書に関連するデータを登録する。また、テーブル220は、検索要求が含む検索クエリーとユーザとを関連付けるとともに、当該検索により検索された一致スコアの上位K番目を意味するtopKの文書Id、タイムスタンプ、閲覧時間間隔などが登録されている。また、テーブル220には、その他、オプションフィールドなどが設けられ、特定の用途に対するデータの拡張を許容する構成とされている。
また、データ構造200には、ユーザのユーザId、ログイン名、パスワードなどを格納するテーブル230が含まれていて、情報検索装置100にアクセスするユーザについて隣接グラフのノードとして設定可能とする。なお、後述するデータ構造250についても同様であるが、ユーザに関連するユーザId、ログイン名、パスワードなどについては、ユーザ情報を専ら管理するユーザ情報DBに登録し、要求処理部114がその処理の必要に応じて、ユーザDBにアクセスして、グラフDB132での処理のために利用させることができる。
データ構造250は、グラフDB132が隣接グラフを作製する処理のために管理する情報および隣接グラフ自体の情報を含んで生成される。テーブル260は、検索クエリーに関連して文書DB134の文書がどのようにアクセスされたかを登録する文書−検索クエリー間のアクセス履歴を登録する。また、テーブル270は、文書DB134内で、文書の閲覧履歴を登録しており、文書が閲覧履歴を有している場合に与えられるvisDocId、すなわち閲覧済文書識別値に関連付けて、閲覧済み文書が含む、検索対象のキーワードとして使用される単語または単語リスト、滞在時間、検索日、閲覧頻度などを登録する。また、データ構造250は、テーブル280としてユーザに関連する情報も登録しているが、テーブル280は、別途構成されるユーザDBが利用できる場合には、データ構造250に含まれなくともよい。
さらに、データ構造250は、隣接グラフ290を含んで構成されている。隣接グラフ290は、2次元配列として定義され、好適にはグラフテーブルとして表現することができる。この隣接グラフ290、すなわちグラフテーブルは、データ構造250が含む各テーブルを参照し、ノード間に重み付け値を割り当てて生成され、特定の検索要求を受領した場合に、隣接グラフからユーザ、検索クエリー、および閲覧済文書に関連して最関連の検索語を推定し、その時点で受領した検索クエリーを、最関連検索語決定部120が決定した最関連検索語で拡張させるために利用される。
また、隣接グラフ290を含め、情報検索装置100が新たな検索クエリー、ユーザを検出した場合、データ構造200およびデータ構造250が更新され、これらに対応して隣接グラフも更新される。なお、本実施形態では隣接グラフは、2次元配列を使用するマトリックス形式で生成され、線形代数の各処理を使用して最関連検索語の探索および決定を実行する。
図3は、本実施形態の情報検索方法の処理についての概略的なフローチャートを示す。図3の処理は、ステップS300から開始し、ステップS301でユーザから検索要求を受領する。ステップS302で、当該検索要求を発行したユーザのユーザIdなどを、ユーザ情報をルックアップして検査し、当該ユーザが登録されていない場合(no)、ステップS307で新たなユーザノードとして、ユーザテーブルに登録し、処理をステップS303に渡す。また、ステップS302の判断でユーザが既登録であると判断した場合(yes)、ステップS303で、検索クエリーが新規であるか否かを判断し、検索クエリーが新規な場合(yes)、ステップS303で検索クエリーをクエリーテーブルに追加する。
なお、検索クエリーは、単一の検索語または複数の検索語を含んでおり、ステップS303の処理では、検索クエリーが含む検索語を識別してクエリーテーブルに登録する。
一方、ステップS304では、検索クエリー、ユーザ、または検索クエリーおよびユーザの両方が新規であった場合、グラフテーブルに新規ノードとして追加する。そして、ステップS305では、隣接グラフの行列要素として登録するべき重み付け値を計算し、対応する検索クエリーId、ユーザId、閲覧済文書Idなどに対応付けてマトリックスを更新する。ステップS306では、ユーザ、文書、検索クエリーの各ノードについて生成された重み付け値を使用して、RWR(Random Walk Ranking)付けを実行して、最関連検索語を抽出し、ユーザから受領した検索クエリーに倫理和し、拡張検索クエリーを生成する。
ステップS308では文書DB134に対して拡張検索クエリーを発行し、ステップS309で、文書DB134から検索結果を受領する。ステップS310では、検索結果を類似度などを使用してランク付けし、構造化文書として編集し、ユーザに検索結果を送付した後、処理をステップS301に戻し、以後のユーザからの検索要求の処理を反復する。
図4は、本実施形態で、隣接グラフを構成するために使用する、図2に示したデータ構造250の更新処理のフローチャートを示す。図4の処理は、ステップS400から開始し、ステップS401で、履歴DB130に接続する。ステップS402で、各テーブルのレコードを検査し、処理対象とするべき各テーブルのレコードに空があるか否かを判断する。ステップS402の判断で、各テーブルが空のレコードを有していると判断された場合(yes)、ステップS403で、ユーザノード情報を検索して登録するべき情報を抽出し、ユーザノードテーブルに追加登録する。
ステップS404では、クエリーノード情報を検索して、登録するべき情報を抽出し、クエリーノードテーブルに追加登録する。さらに、ステップS405では、閲覧済み文書ノード情報を検索して、登録するべき情報を抽出し、閲覧済み文書テーブルに登録する。その後、処理をステップS402に戻し、登録するべき各テーブルの情報がある場合、各テーブルのレコードの空きがなくなるまでステップS403〜ステップS405の処理を反復させ、データ構造250を更新してゆく。
一方、ステップS402でテーブルがすでに空のレコードを有していないと判断された場合(no)、ステップS406で、新に登録されたノードを抽出し、追加ノードリストに一時的に登録する。ステップS407では、追加ノードリスト中の全ノードについて処理が終了したか否かを判断し、全ノードについて処理を終了した場合(yes)、処理をステップS412に分岐させ、処理を終了させる。
また、ステップS407で追加ノードリスト内に未処理のノードが残っている場合(no)、ステップS408で、各テーブルのサイズがしきい値以下かを判断する。各テーブルのサイズがしきい値以下である場合(yes)、ステップS409で、各テーブルに該当するノードの情報を追加する。一方、ステップS408の判断で各テーブルのサイズがしきい値を超えると判断した場合(no)、処理をステップS410に分岐させる。ステップS410では、各テーブルから最古のタイムスタンプを有するノードの情報を削除する。その後、ステップS411では、各テーブルのトップレコードに処理中のノードの情報を記入し処理をステップS407に戻し、追加ノードリストの項目全部について処理が終了するまで、処理を反復させる。
図4に示した処理を使用することにより、履歴DB130に新たなノードとして追加するべき情報が追加された場合に、対応してデータ構造250をアップデートさせることができる。なお、図4の処理は、検索要求を受領した段階で検索クエリーについてはオンザフライでグラフデータに反映される。また、ユーザなどの他のノードについては、情報処理装置100が例えば、定期メンテナンスや、夜間などアクセス数が低い時間帯に定期的に履歴DBをポーリングして、新規履歴データを検査することによって実行してもよい。なお、テーブルのサイズや隣接グラフのサイズについて設定されるしきい値は、システム制限によるものであって、使用するシステムの能力に応じて変更され、特に制限はない。
図5は、本実施形態で、データ構造250を使用して、隣接グラフの要素値を決定する処理のフローチャートを示す。処理は、ステップS500から開始し、ステップS501で、ユーザノードテーブルからユーザノード情報を抽出し、グラフテーブルのユーザノードを登録するUNTに格納する。ステップS502では、クエリーノードテーブルからクエリーノード情報を抽出し、グラフテーブルのQNTに登録する。ステップS503では、閲覧済文書ノードテーブルから閲覧済文書ノード情報を抽出し、グラフテーブルのVDNTに格納する。なお、UNT、QNT、VDNTは、それぞれ2次元配列として構成することができ、隣接マトリックスを与えるグラフテーブルの部分行列を構成する。
上述のようにして規定されたマトリックスの行および列の要素数は、等しく、この結果、隣接グラフは、正方行列を構成し、その要素は、各ノード間に定義される重み付け値として生成される。以下に説明するステップS504〜ステップS508は、重み付け値としての要素値を計算してグラフテーブルに登録する処理である。
ステップS504では、ユーザ間のリンクの定義づけに従い、当該リンクの重み付け値を計算し、これをUser_link_weight(i,j)としてグラフテーブルに登録する。ステップS505では、クエリー間のリンクの定義付けに従い、当該リンクの重み付け値を計算し、これをQuery_link_weight(i,j)として、グラフテーブルに登録する。ステップS506では、ユーザ−クエリー間のリンクの定義付けに従い、当該リンクの重み付け値を計算し、これをUser_query_link_weight(i,j)としてグラフテーブルに登録する。また、ステップS507では、ユーザ−閲覧済文書間に定義されたリンクに従い、当該リンクの重み付け値User_vd_link_weight(i,j)を計算し、グラフテーブルに登録する。さらにステップS508では、クエリー−閲覧済文書間に定義されたリンクに従い、当該リンクの重み付け値Query_vd_link_weight(i,j)を計算し、グラフテーブルに登録する。
ステップS509では、ユーザ、クエリー、閲覧済文書を行ノードおよび列ノードとするグラフテーブルとして隣接グラフデータを確定し、ステップS510で処理を終了する。なお、図4で説明した各ノードの追加があった場合、追加するべき、ユーザ、クエリー、閲覧済文書の各属性の末尾に新規行および新規列を追加し、追加するべきノードについての各重み付け値を登録することにより、ノードの追加に対応付けて隣接グラフを更新する。
図6には、図5の定義済み処理であるステップS504〜ステップS508を実行するための疑似コードを、例示的にプログラミング言語としてC++を使用してコーディングした場合の実施形態を示す。図5の各枠線内の疑似コードが、図5のステップS504〜ステップS508の処理を実行するための疑似コードに対応する。なお各重み付け値を計算する上で、本実施形態では以下の基準を使用して不正規ノードの登録を排除することで、検索精度を向上させている。
<閲覧済文書についての不正規インスタンスの登録排除>
閲覧済文書について不正規インスタンスとして排除する事例を以下に、例示的に列挙する。
(1)同一のユーザからの短時間で発生した多量の検索要求。
(2)同一のユーザからの短時間で発生した多量の検索要求。
(3)長すぎる検索クエリーを含む検索要求または不正な検索要求を含む検索要求。
上述した事例(1)および(2)は、いわゆるスパマーからのアタックを排除する目的であり、事例(3)は、検索クエリーの冗長化による処理効率の低下防止および不正要求に関連するデータが最関連検索語の推定に影響を及ぼさないようにするためである。
<検索クエリーおよび文書についての不正規・冗長インスタンスの登録排除>
検索クエリーに関連して不正規インスタンスの登録を排除する基準例を、以下に例示的に列挙する。
(1)同一ユーザによる複数の検索クエリーに対しては、同一の検索語を含む場合にでも異なる検索クエリーIdが割り当てられるが、グラフ生成においては、当該重複登録された検索クエリーのうち、最新のタイムスタンプを有するインスタンスをノードとして採用する。
(2)文書の閲覧を行わなかった検索クエリーについては、グラフ生成から排除する。
(3)設定したしきい値よりも閲覧頻度の低い閲覧済文書はグラフ生成から排除する。
(4)オプション構成として、閲覧頻度が低下する傾向にある文書についてグラフ生成から排除する。
以下、各ノード間について定義される数学的なリンク定義式を説明する。対となる端点ノードi、jが決定されると、対応する各ノード属性を使用して、リンクについての重み付け値が計算される。この重み付け値が隣接グラフ、すなわち、グラフテーブルの行列要素として登録される。以下、各リンクについての定義式を説明する。
<link(qi→vdj)>
link(χi→χj)(χ=u、q、vd)は、ノードχi、ノードχjを各端点とするリンクを意味し、以下、ui、uj、vdi、vdjについて同様の表記を採用する。link(qi→vdj)は、閲覧済文書が含む検索語または検索語のセマンティック上での類似性に基づいて与えられる重みである。例えば、閲覧文書が検索クエリーの検索語を含む場合には、Query_vd_link_weight(i,j)=1であり、それ以外の場合には、Query_vd_link_weight(i,j)=0である。ない、セマンティック類似性を利用する場合、文書検索の際に得られた相対類似度(完全に類似する場合に値=1)の値を重み付け値として与える。
<link(qi→uj)>
link(qi→uj)は、検索クエリーの作製者が対象としているユーザか否かの2値判断で割り当てられ、検索クエリーqiが判断中のユーザにより発行されたものである場合、User_query_link_weight(i,j)=1とされ、それ以外の場合は、User_query_link_weight(i,j)=0が与えられる。
<link(qi→qj)>
link(qi→qj)は、検索クエリー間の時系列的関係を含む類似性の重みであり、図7で与えられる関数で定義される。図7は、関数span(qi,qj)の例示的な実施形態の関数を示した図である。図7に示すように、関数span(qi,qj)は、対象とされる検索クエリーqiとqjとの間に発行された検索クエリーの数であるkに応じて、単調減少する関数f(k)で与えられる。なお、λは、λ>−1を満たす実数である。
図7に示されるようにlink(qi→qj)は、i=jで、0とされ、j=i±1で、検索クエリーの類似性を与えるSim(qi,qj)の値と、任意に設定される値|Q|の逆数との和に、f(0)の値を乗じて与えられるように定義されている。なお、f(0)は、qi、qjが、時系列的に隣接する検索クエリーであることに対応する値であり、f(0)=(1+λ)で与えられ、値|Q|は、確率的にみて隣接する検索クエリーが類似する程度に対応して設定される値である。例えば、値|Q|は、ノードqiが関連するQ個のノードを有している場合、検索クエリーの内容を考慮しなければ、当該ノードqiを受領した後、関連する検索クエリーを受領する確率は、単純計算で、1/Qとなる。検索クエリーの内容的な関連性を導入するため、後述する図8で詳細に説明するSim(qi,qj)を導入して検索クエリーqiを受領した後、検索クエリーqjを受領する確率を調整する。さらに、値=1/|Q|は、ノードqiとノードqjとの間の関連づけが0とならないようにするため、適宜設定することができる。
さらにlink(qi→qj)は、j=i、j=i±1以外については、span(qi,qj)の大きさおよび検索クエリー間の類似性に関連し、span(qi,qj)の値が大きくなればなるほど、クエリー間の類似性によりその重みが与えられるように定義される。なお、図8には、関数Sim(qi,qj)を与える関数の実施形態を例示する。検索クエリー間の類似性は、(a)検索の結果抽出された文書のうち、類似性が上位K番目までの文書Idなどの共通性に基づいて検索クエリーの類似性尺度を与える、検索履歴類似度、(b)各検索クエリーに関連して閲覧された閲覧済文書の類似性を使用する閲覧履歴類似度、(c)検索クエリーqi、qjが含む検索語Wsの全種類に対する共通する検索語Wsの割合を使用する内容類似度、および(d)検索類似度、閲覧類似度、内容類似度を適切な定数α(0<α<1)を使用して複合化させた複合的類似度として定義できる。
なお、FeedSimの関数としては、検索履歴類似度でも閲覧履歴類似度でも利用することができる。さらに、他の類似尺度を使用することも、検索クエリー間の類似性を与える限り、いかなる関数形式で与えることができる。
<link(ui→uj)>
ユーザ間に定義するリンクは、検索クエリーを基準尺度として使用する場合、ユーザが発行した検索クエリーの類似性を重み付け尺度として与えることができ、本実施形態では、検索クエリーを、検索クエリーが含む検索語ベクトルとし、検索クエリーqiと検索クエリーqjとの内積として与えることができる。また、ユーザ間の関係は、外部要因を類似性の尺度として使用することもでき、例えば、RSSなどを介してブックマーク情報にアクセスできる場合には、ユーザ間に共通するブックマーク情報の存在を使用して類似性尺度を計算することもできる。
<link(ui→vdj)>
link(ui→vdj)は、ユーザが閲覧した文書について、ユーザと文書間に定義される重み付け値であり、<link(ui→vdj)は、特定のユーザuiが閲覧済文書vdjを閲覧した場合には、User_vd_link_weight(i,j)=1として設定し、それ以外の場合には、User_vd_link_weight(i,j)=0を与える。
以上のリンク定義付けを使用して隣接グラフの各ノードについて重み付け値を計算し、グラフテーブルの(i,j)座標値に対応させて重み付け値Wi,jを登録することで、グラフテーブル、すなわち隣接グラフが完成する。
図9は、本実施形態で生成される隣接グラフ900の実施形態を示す。図9に示すように隣接グラフ900は、複数のサブブロックに分割できる。各ブロックは、ノード属性の順序に対応して、図9に示す実施形態では、それぞれ、link(qi→qj)を与え、ブロック910と、link(ui→qj)を与え、ブロック920と、link(ui→vdj)を与えるブロック930と、link(ui→uj)を与えるブロック940とされる。なお、対角ブロックを挟んで、(i,j)→(j,i)で与えられる各ブロックの値は、ブロック910〜ブロック930の値と同一である。
また、各要素の値は、0の値が多く存在し、隣接グラフ900は、このため疎な行列を構成し、CCS(Compressed Column Storage)などの手法を使用してデータ圧縮が可能となる。なお、図9に示した各ノードの配列は、例示的なものであり、行および列のシーケンスが一致していれば、特に制限はない。なお、ブロック950は、0行列であり、本実施形態で閲覧済文書間にリンクを生成する必要がないことから、重みを割り当てていないことに対応する。なお、閲覧済み文書間にページ関係など、何らかの重み付けを導入する場合には、ブロック950に有為な値を設定することもできる。
本実施形態の最関連検索語決定部120は、検索クエリーに対する最関連の過去に登録された検索語を検索する場合に、ランダムウォークを使用して要素のランク付けを、下記式(1)を使用して実行する。
Figure 0005200750

上記式(1)中、vectU′は、ランキングベクトル、cは、正の定数、Aは、隣接グラフに対応する隣接マトリックス、vectUは、試行ベクトル、vectVは、リスタートベクトルである。
図10は、本実施形態の最関連検索語決定部120が実行する処理ポリシー1000を示した図である。図10には、上記式(1)の関係を、行列要素およびベクトル要素を使用して概略的に示した。隣接マトリックス1010は、図9で説明したように、複数のブロックマトリックスを含んで構成され、また0ブロックマトリックスを含んでいる。本実施形態のランキングベクトルは、ランキングベクトルを試行ベクトルvectUとしてランダムウォークによる反復計算により、vectUとvectU′との距離、すなわち、内積が収束した場合に、vectUまたはvectU′の要素値の大きさを使用して、抽出するべき検索語または検索語列を決定するために利用される。
最関連検索語決定処理は、まず、上記式(1)でRWR式を定義し、リスタートベクトルvectを初期化することから開始する。リスタートベクトルvectの実施形態を、vectとして図10示す。リスタートベクトルvectは、隣接マトリックスに登録されるノード属性のうち、ユーザから検索要求を受領した場合、受領した検索要求が含む検索クエリーを、要素の影響を受けるブロックにつき、クエリーノードを登録する。例えば、修正するべきブロックの最後行および最後列に追加し、対応するマトリックスの列位置jに、整数値=1を設定して初期化される。
なお、ユーザ、閲覧済文書などに関連して行および列を追加する場合、ユーザ、閲覧済み文書に関連する行列要素値の他、クエリーノードについても、類似度を判断して列要素および行要素を取得し、追加することができる。この実施形態では、新に追加されたユーザ、閲覧済文書に関連しても、検索クエリーを類似修正することができるので、より類似検索性を改善させることができる。
影響を受けるブロックは、図9の実施形態では、ブロック920、ブロック930である。この場合、新に受領した検索クエリーqnewを使用して、SQL文に含ませてSydney full text searchを実行し、その結果を取得してグラフテーブルに追加するべき値を計算し登録する。登録するべき重み付けの値は、説明する実施形態では、閲覧順位がトップ1000以内にランキングされていなければ、重み付け値=0として設定する。この実施形態において使用することができるSQL文の疑似コードを下記式(2)に示す。
Figure 0005200750
そして、RWR反復計算を開始する時点で、試行ベクトルを、vectvect
として初期設定する。その後、上記式(1)の計算を実行して更新ランキングベクトルvectU′を計算する。その後、vectU′を、vectUの値に設定してさらにvectU′の値を更新し、最終的にvectU′と、vectUとの間の距離が収束した段階で、最後のvectU′を定常状態ベクトルとして確定する。上記処理は、span(qi,qj)を考慮して、最もspanの値が離れたクエリー間での類似度の高さを反復して計算させることに対応し、収束に成功した場合、追加するべき最関連検索語を指定することが適切なためである。
図11には、本実施形態の最関連検索語決定部120が実行する処理のフローチャートを示す。図11の処理は、ステップS1100から開始し、ステップS1101で、新たな検索要求を受領する。ステップS1102では、検索要求内の検索語または検索語列を含ませてグラフデータおよび隣接マトリックスを再構築する。ステップS1103では、リスタートベクトルを初期化し、ステップS1104で、ランダムウォークによりランキングベクトルを決定する。
ステップS1105では、ランキングベクトルの要素を、クエリーノード、ユーザノード、閲覧済文書ノードのタイプごとにソーティングし、ステップS1106で、それぞれ値がトップの要素に対応する最関連検索語を選択し、それぞれq、u、vdとして決定する。その後、ステップS1107で、検索クエリーとして、{qnew+q}、{qnew+vd}、{qnew+u}として検索クエリーを拡張し、検索エンジンの並列検索を実行する拡張検索クエリーを発行する。その後、ステップS1108で最関連検索語決定部120の処理を終了させる。
図12は、図11のステップ1104の定義済み処理を、疑似コードとして示す。図12に示すように、まず、第1行目で、リスタートベクトルを初期化し、第4行目で、上記式(1)にしたがって、vect′の値を更新する。第5行目では、vectU′、とvectUとの間の距離を計算し、距離が設定した少値ε以下か否かの判断を使用して、RWR計算の収束を判定する。なお、小値εの値は、収束性および精度を考慮して適宜設定でき、コンピュータのアンダーフロー以上の値であれば適宜設定することができる。
収束した場合、第7行目で、収束結果を示す変数IterResult=trueに設定し、さらに第9行目では、反復回数が設定回数を超えたか否かを判断し、超えた場合、収束結果を示す変数IterResult=faultを設定し、処理を検索実行部122に渡し、以後の検索を実行する。そして、収束せずまた反復回数を超えていない場合、第16行目で、vectvect′に設定し、収束したか、または反復回数が設定した上限値を超えるまで反復計算を実行させる。
関連する検索語を抽出処理で、例えば、特異値分解を使用して特異値の大きさに応じて最関連検索語を決定することもできる。しかしながら、特異値分解を陽に使用して最関連検索語を抽出処理は、O(M)(Mは、隣接グラフのノード数)に対応する計算量を要し、隣接マトリックスの要素数の増大に対応して計算量が非線形に増加するので、計算効率は、充分とはいえない。しかしながら、本発明のRWRを使用した最関連検索語抽出は、O(N×K)(Nは、隣接マトリックスの非ゼロ要素数であり、Kは、反復回数である。)程度の計算量増加で済み、より効率的で、検索要求を受領した時点でオンザフライの拡張検索を可能とする。
本実施形態の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本実施形態の情報検索装置100の機能ブロックを示した図。 本実施形態の履歴DB130およびグラフDB132が管理する、各テーブルのデータ構造を示した図。 本実施形態の情報検索方法の処理についての概略的なフローチャートを示した図。 本実施形態で、隣接グラフを構成するために使用する、図2に示したデータ構造250の更新処理のフローチャート。 データ構造250を使用して、隣接グラフの要素値を決定する処理のフローチャート。 図5の定義済み処理であるステップS504〜ステップS508を実行するための疑似コードを、例示的にプログラミング言語としてC++を使用してコーディングした場合の実施形態を示した図。 関数span(qi,qj)の例示的な実施形態の関数を示した図。 関数Sim(qi,qj)を与える関数の実施形態を例示した図。 本実施形態で生成される隣接グラフ900の実施形態を示した図。 本実施形態の最関連検索語決定部120が実行する処理ポリシー1000を示した図。 本実施形態の最関連検索語決定部120が実行する処理のフローチャート。 図11のステップ1104の定義済み処理を、疑似コードとして示した図。
符号の説明
100…情報検索装置、112…ネットワークインタフェース部、114…要求処理部、116…ログ管理部、118…グラフ管理部、120…最関連検索語決定部、122…検索実行部、124…検索結果編集部、130…履歴DB、132…グラフDB、134…文書DB、140…ネットワーク

Claims (10)

  1. ネットワークを介して受領した検索要求の履歴を追加して情報検索を実行する情報検索装置であって、
    ネットワークを介して外部から送付される検索要求を受領して前記検索要求の履歴を登録し、前記検索要求に含まれる検索クエリーから、検索語または検索語列を抽出する要求処理手段と、
    前記要求処理手段からの前記検索要求の履歴を受領して履歴データベースを更新するログ管理手段と、
    前記検索要求の履歴および前記検索クエリーを使用して、前記検索要求のユーザノード、クエリーノード、および閲覧履歴の登録された閲覧済文書ノードに関する情報を登録し、前記情報から前記各ノード間のリンクについて定義された重み付け値を計算し、計算された前記重み付け値を要素とする隣接マトリックスを生成するグラフ管理手段と、
    外部から別の検索要求を受領して、前記別の検索要求から前記隣接マトリックスに少なくともクエリーノードを追加し、前記追加したクエリーノードに対応する要素を初期設定したベクトルを生成して前記隣接マトリックスを使用してランキングベクトルが収束するまで反復計算して前記別の検索要求に含まれる検索クエリーを拡張するための最関連検索語を決定し、前記別の検索要求に含まれる検索クエリーを拡張した拡張検索クエリーを生成する最関連検索語決定手段と、
    前記拡張検索クエリーを受領して、文書データベースに照会を実行し、検索結果を受領する検索実行手段と、
    前記検索結果を編集して構造化文書を作成し、前記検索要求の送付元に前記構造化文書を送付させる検索結果編集手段と
    を含む情報検索装置。
  2. 前記ノード間のリンクは、少なくとも前記ユーザノード間、前記クエリーノード間、および前記クエリーノードと閲覧済文書ノードとの間に定義され、前記ユーザノード間のリンクは、ユーザが過去に送付した検索クエリーの類似性について重み付け値が与えられ、前記クエリーノード間のリンクは、複数の検索クエリーの間の時系列的間隔を使用して前記検索クエリー間の類似性について重み付け値が与えられ、前記クエリーノードと閲覧済文書ノードとの間に定義されるリンクは、前記クエリーノードに対応する前記検索語と前記閲覧済文書ノードに登録された閲覧済文書の類似度についての重み付け値が与えられる、請求項1に記載の情報検索装置。
  3. 前記最関連検索語決定手段は、直前の反復サイクルのランキングベクトルを、試行ベクトルとして設定し、前記試行ベクトルを使用して前記隣接マトリックスによる反復計算を実行してランキングベクトルを更新する反復計算を実行し、最新のランキングベクトルと、当該反復サイクルでの試行ベクトルとの間の内積が設定された少値以下となった場合に収束を判定して、前記最新のランキングベクトルから前記最関連検索語を決定する、請求項1または2に記載の情報検索装置。
  4. 前記グラフ管理手段は、前記別の検索要求に含まれる検索クエリーを使用して前記隣接マトリックスの前記クエリーノードと前記閲覧済文書ノードとの間の重み付け値を使用して前記隣接マトリックスを更新する、請求項2または3に記載の情報検索装置。
  5. ネットワークを介して受領した検索要求の履歴を追加してコンピュータが実行する情報検索方法であって、前記コンピュータが、
    ネットワークを介して外部から送付される検索要求を受領して前記検索要求の履歴を登録し、前記検索要求に含まれる検索クエリーから、検索語または検索語列を抽出するステップと、
    前記検索要求の履歴を受領して履歴データベースを更新するステップと、
    前記検索要求の履歴および前記検索クエリーを使用して、前記検索要求のユーザノード、クエリーノード、および閲覧履歴の登録された閲覧済文書ノードに関する情報を登録し、前記情報から前記各ノード間のリンクについて定義された重み付け値を計算し、計算された前記重み付け値を要素とする隣接マトリックスを生成するステップと、
    外部から別の検索要求を受領して、前記別の検索要求から前記隣接マトリックスに少なくともクエリーノードを追加し、前記追加したクエリーノードに対応する要素を初期設定したベクトルを生成して前記隣接マトリックスを使用してランキングベクトルが収束するまで反復計算して前記別の検索要求に含まれる検索クエリーを拡張するための最関連検索語を決定し、前記別の検索要求に含まれる検索クエリーを拡張した拡張検索クエリーを生成するステップと、
    前記拡張検索クエリーを受領して、文書データベースに照会を実行し、検索結果を受領するステップと、
    前記検索結果を編集して構造化文書を作成し、前記検索要求の送付元に前記構造化文書を送付するステップと
    を実行する、情報検索方法。
  6. 前記ノード間のリンクが、少なくとも前記ユーザノード間、前記クエリーノード間、および前記クエリーノードと閲覧済文書ノードとの間に定義され、さらに、前記隣接マトリックスを生成するステップは、
    前記ユーザノード間のリンクに対して、ユーザが過去に送付した検索クエリーの類似性について重み付け値を計算するステップと、
    前記クエリーノード間のリンクに対して、複数の検索クエリーの間の時系列的間隔を使用して前記検索クエリー間の類似性について重み付け値を計算するステップと、
    前記クエリーノードと閲覧済文書ノードとの間に定義されるリンクに対して、前記クエリーノードに対応する前記検索語と前記閲覧済文書ノードに登録された閲覧済文書の類似度についての重み付け値を計算するステップと
    を含む、請求項5に記載の情報検索方法。
  7. 前記拡張検索クエリーを生成するステップは、
    直前の反復サイクルのランキングベクトルを、試行ベクトルとして設定するステップと、
    前記試行ベクトルを使用して前記隣接マトリックスを使用した反復計算を実行してランキングベクトルを更新するステップと、
    最新のランキングベクトルと、当該反復サイクルでの試行ベクトルとの間の内積が設定された少値以下となった場合に収束を判定して、前記最新のランキングベクトルから前記最関連検索語を決定するステップと
    を含む、請求項5または6に記載の情報検索方法。
  8. 前記隣接マトリックスを生成するステップは、前記別の検索要求に含まれる検索クエリーを使用して前記隣接マトリックスの前記クエリーノードと前記閲覧済文書ノードとの間の重み付け値を使用して前記隣接マトリックスを更新する、請求項5または6に記載の情報検索方法。
  9. 情報処理装置が請求項6〜8のいずれか1項に記載の各ステップを実行するためのコンピュータ実行可能なプログラム。
  10. 請求項9に記載のコンピュータ実行可能なプログラムを記録したコンピュータ可読な記録媒体。
JP2008205582A 2008-08-08 2008-08-08 情報検索装置、情報検索方法、プログラム、および記録媒体 Expired - Fee Related JP5200750B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008205582A JP5200750B2 (ja) 2008-08-08 2008-08-08 情報検索装置、情報検索方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008205582A JP5200750B2 (ja) 2008-08-08 2008-08-08 情報検索装置、情報検索方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2010039997A JP2010039997A (ja) 2010-02-18
JP5200750B2 true JP5200750B2 (ja) 2013-06-05

Family

ID=42012432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008205582A Expired - Fee Related JP5200750B2 (ja) 2008-08-08 2008-08-08 情報検索装置、情報検索方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP5200750B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180078712A (ko) * 2016-12-30 2018-07-10 서울대학교산학협력단 그래프 랭킹 수행 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5084859B2 (ja) * 2010-03-17 2012-11-28 ヤフー株式会社 情報処理装置、データ抽出方法、及びプログラム
JP5467062B2 (ja) * 2011-01-17 2014-04-09 日本電信電話株式会社 情報推薦装置及び方法及びプログラム
JP6773972B2 (ja) * 2016-09-30 2020-10-21 富士通株式会社 データ変換プログラム、データ変換方法、およびデータ変換装置
CN111599463B (zh) * 2020-05-09 2023-07-14 吾征智能技术(北京)有限公司 基于声音认知模型的智能辅助诊断系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041700A (ja) * 2005-08-01 2007-02-15 Nippon Telegr & Teleph Corp <Ntt> トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体
JP4750628B2 (ja) * 2006-06-14 2011-08-17 日本電信電話株式会社 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180078712A (ko) * 2016-12-30 2018-07-10 서울대학교산학협력단 그래프 랭킹 수행 방법 및 장치

Also Published As

Publication number Publication date
JP2010039997A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
US11314823B2 (en) Method and apparatus for expanding query
US8150846B2 (en) Content searching and configuration of search results
Ahmadi-Abkenari et al. An architecture for a focused trend parallel Web crawler with the application of clickstream analysis
US7925641B2 (en) Indexing web content of a runtime version of a web page
US20090248661A1 (en) Identifying relevant information sources from user activity
US9495453B2 (en) Resource download policies based on user browsing statistics
CN103530339A (zh) 移动应用信息推送方法和装置
JP5200750B2 (ja) 情報検索装置、情報検索方法、プログラム、および記録媒体
WO2006124287A2 (en) Importance ranking for a hierarchical collection of objects
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
Bakariya et al. An inclusive survey on data preprocessing methods used in web usage mining
KR101244357B1 (ko) 웹 자원 아카이빙을 위한 장치 및 방법
KR100975510B1 (ko) 웹 페이지 색인 업데이트 방법 및 시스템
Bharamagoudar et al. Literature survey on web mining
JP5379627B2 (ja) 検索制御装置、検索制御方法、及びプログラム
WO2023045378A1 (zh) 向用户推荐物品信息的方法、设备、存储介质及程序产品
Khanchana et al. An efficient web page prediction based on access time-length and frequency
KR101780581B1 (ko) 온라인 상에 노출된 사용자의 정보를 관리하는 방법 및 장치
US20240086941A1 (en) Systems and methods to identify technographics for a company
CN111460307B (zh) 一种移动终端精确搜索方法和装置
Jindal et al. Data Mining in Web Search Engine Optimization and User Assisted Rank Results‖
Attia et al. Computer and Information Sciences
JP6040136B2 (ja) 特徴スコア計算装置、特徴スコア計算方法及び特徴スコア計算プログラム
JP5914186B2 (ja) 情報処理装置および情報処理方法
Rajkumar et al. Crawler for Image Acquisition from World Wide Web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130128

R151 Written notification of patent or utility model registration

Ref document number: 5200750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees