JP5235730B2 - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents

文書検索装置、文書検索方法および文書検索プログラム Download PDF

Info

Publication number
JP5235730B2
JP5235730B2 JP2009056583A JP2009056583A JP5235730B2 JP 5235730 B2 JP5235730 B2 JP 5235730B2 JP 2009056583 A JP2009056583 A JP 2009056583A JP 2009056583 A JP2009056583 A JP 2009056583A JP 5235730 B2 JP5235730 B2 JP 5235730B2
Authority
JP
Japan
Prior art keywords
score
document
cluster
electronic document
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009056583A
Other languages
English (en)
Other versions
JP2010211486A (ja
Inventor
良彦 数原
幸生 植松
俊介 小長井
大和 高橋
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009056583A priority Critical patent/JP5235730B2/ja
Publication of JP2010211486A publication Critical patent/JP2010211486A/ja
Application granted granted Critical
Publication of JP5235730B2 publication Critical patent/JP5235730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書群中から任意のクエリに対応する電子文書を検索する文書検索装置に関し、特に検索結果のランキングに使用される文書重要度の算出時間を削減する技術に関する。
大量の電子文書(Webページ:以下ページと略する。)群を検索する文書検索システムにおいて、ページ間のリンク構造に基づく各ページの重要度(以下、スコアとする。)を算出して検索結果のランキングに利用する手法が知られている。
このようなページへの重要度付与手法の一例として「ページランク」が挙げられる。「ページランク」は、有益な文書から閲覧(リンク)される文書はより有益であるという考え方に基づき、リンク構造を基にWebページをスコア付けする方法である。
「ページランク」の算出では、URL(Uniform Resource Locator)を持つWebページのリンク構造を行列として保持し、大規模な反復計算を行い、収束した値をWebページの重要度として用いるため、計算コストが膨大となる。特に、新規のページが追加されてリンク構造が変化した際には、初めからページランクの再計算を行う必要があり、その都度処理時間がかかる。
そこで、例えば非特許文献1のようなページランクの推定方法が提案されている。この推定方法では、ページランクの再計算の際にページ全体のリンク構造ではなく、再計算を行う対象ページの近傍の部分リンク構造に着目してページランクに基づく再計算を行い、近似値を算出している。
Ziv Bar−Yossef and Li−Tal Mashiach."Local Approximation of PageRank and Reverse PageRank" In Proceedings of the 17th ACM International Conference on Information and Knowledge Management(CIKM2008),pp.279−288,2008.
しかしながら、上述のような従来の手法では、追加ページの近傍の部分リンク構造を取得してスコア計算手法の反復計算を行うため、適切な近似値計算ができるとは限らないばかりか、処理コストがかかるおそれがある。
本発明は、このような問題を解決するためになされたものであり、新規ページが追加されたときページ群のスコア再計算の反復回数を減少させる技術を提供することを解決課題としている。
そこで本発明は、前記課題を解決するため、新規追加されたページをサイトやディレクトリなどの単位をクラスタとし、該追加ページの重要度を同一クラスタに属する電子文書群の平均値と推定したうえで、該推定値を用いてページ群全体のスコアを再計算する。
本発明の一態様は、検索キーワードに基づき電子文書群を検索し、各電子文書について算出されたスコアを検索ランキングの一指標とする文書検索装置であって、前記電子文書群に新規に追加された電子文書を、URLから一意に決定されるクラスタに分類するクラスタ生成手段と、前記電子文書群の既存文書のうち、前記クラスタと同一クラスタに属する電子文書のスコアの平均値を算出し、該平均値を前記追加文書のスコアの推定値とするスコア推定手段と、を備え、前記電子文書の追加に伴い電子文書群のスコアに変動が生じたときに、前記推定値を利用して変動後の各電子文書のスコアを再計算する。
本発明の他の態様は、検索キーワードに基づき電子文書群を検索し、各電子文書について算出されたスコアを検索ランキングの一指標とする文書検索方法であって、クラスタ生成手段が、前記電子文書群に新規に追加された電子文書を、URLから一意に決定されるクラスタに分類する第1ステップと、スコア推定手段が、前記電子文書群の既存文書のうち前記クラスタと同一クラスタに属する電子文書のスコアの平均値を算出し、該平均値を前記追加文書の推定値とする第2ステップと、スコア算出手段が、前記電子文書の追加に伴い電子文書群のスコアに変動が生じたときに、前記推定値を利用して変動後の各電子文書のスコアを再計算する第3ステップと、を有する。
なお、本発明は、前記文書検索装置としてコンピュータを機能させるプログラムの態様として提供してもよい。
本発明によれば、新規ページが追加されたときにスコア計算の反復回数が減少するため、スコア計算処理全体を高速に行うことができる。
本発明の実施形態に係る文書検索装置の構成図。 同 追加ページのスコア推定値算出の処理フロー。 同 追加ページのスコア推定値の算出例。
以下、本発明の実施形態を説明する。ここでは以前から保持しているページ集合に関してはスコアの算出が終わっているとし、新しく追加されたページのスコア、および該ページの追加によってスコアが変化する他ページのスコアをより短時間で算出しなければならない状況を想定している。
追加ページのスコアは、同じホストや同じディレクトリに含まれる他のページと近い値を持つと仮定する。即ち、ページを分類するクラスタの単位としてホスト、ディレクトリ、およびサイトを想定し、追加ページのスコアの推定値は、該追加ページが含まれるクラスタに既に存在する他のページのスコアの平均値とする。ここでは追加ページの推定値を少ない処理時間で推測し、スコア算出処理の反復回数を減らすことにより、スコア算出アルゴリズム全体の処理時間を削減可能としている。
以下、図面に基づき本発明の実施形態に係る文書検索装置を具体的に説明する。図1に示すように、文書検索装置1は、検索語(クエリ)を指示するユーザ端末Tおよびページ群が格納されているコンテンツサーバ群Sと通信可能にネットワーク接続されている。
前記ユーザ端末Tは、前記文書検索装置1と通信可能で、ユーザとのインタフェースとしてのブラウザを備えていればよく、パーソナルコンピュータ(PC)や携帯電話などのモバイル端末であってもよい。なお、図1中は省略されているが、通常は前記文書検索装置1には複数の前記ユーザ端末Tが接続される。
前記文書検索装置1は、前記コンテンツサーバ群Sに存在するページ群を検索するいわゆる検索エンジンとして機能し、通常のコンピュータのハードウェア資源、即ちCPU(Central Processor Unit)、メモリ(RAM)、ハードディスクドライブ装置、通信インタフェースなどを備えている。このハードウェア資源とソフトウェアとの協働の結果、前記文書検索装置1は、文書収集手段であるクローラ2,文書データベース3,スコア算出手段4,スコア情報データベース5,追加ページデータベース6,クラスタ生成手段7,スコア推定手段8,推定値データベース9を実装する。ここでは前記各データベース3.5.6.9は、ハードディスクドライブ装置上に構築されている。
前記クローラ2は、前記通信インタフェースを通じて前記コンテンツサーバ群Sにアクセスし、検索対象となるページ群を収集して前記文書データベース3に格納する。この収集処理は通常、一定期間ごとに行われる。
前記スコア算出手段4は、スコア計算アルゴリズムに基づいて前記文書データベース3に格納された各ページのスコアを算出する。ここでは算出したスコアと各ページの識別子であるURLとを対応づけて、前記スコア情報データベース5に格納する。なお、前記スコア情報データベース5の格納データ例を表1に示す。
Figure 0005235730
前記追加ページデータベース6には、前記コンテンツサーバ群Sに新たに追加されたスコア未算出のページのURLが格納される。この追加ページは、前記クローラ2によってページ群が収集されたときに選別され、前記追加データベース6に格納される。なお、前記追加ページデータベース6の格納データ例を表2に示す。
Figure 0005235730
前記クラスタ生成手段7は、前記追加ページデータベース6に格納された追加ページを、サイトやディレクトリなどのクラスタに分類する。
前記スコア推定手段8は、前記スコア情報データベース5の格納情報を基に、前記クラスタに分類された追加ページのスコアの推定値を算出し、該推定値を各追加ページのURLと対応づけて前記推定値データベース9に格納する。なお、前記推定値データベース9の格納データ例を表3に示す。
Figure 0005235730
また、前記スコア算出手段4は、前記推定値データベース9に格納されたスコアの推定値を用いて、スコア計算アルゴリズムに基づく反復計算を行い、ページ群のスコアを再計算して前記スコア情報データベース5に格納する。ここで再計算されたページ群のスコアは、図示省略の検索実行手段の検索に反映される。
即ち、前記ユーザ端末Tから投入されたクエリ(検索キーワード)に基づきページ群を検索し、前記ユーザ端末Tに応答する検索結果のランキング(並べ替える)の一指標として各ページのスコアが利用される。以下、前記クラスタ生成手段7およびスコア推定手段8の実行するスコア推定値の算出処理を図2のフローチャートに基づき説明する。
S01:まず、前記クラスタ生成手段7は、前記追加ページデータベース6から全てのレコード(追加ページ群)を読み込み、各ページを同一クラスタにまとめる。
クラスタの単位は、URLによって一意に決定されるものであれば本手法を適用可能である。例えばホスト(ドメイン)、サイト、ディレクトリなどでよい。
ここでサイトとは、インターネットサービスを提供しているプロバイダ(ISP)のホームページサービスやブログなどのURLの一部が一定の規則性を持つ、サービス利用者が自由に作成できるようなWEB文書群をまとめる単位である。
クラスタを生成する具体的な方法としては、例えば文字列検索技術のひとつであるパターンマッチングにより追加ページのURLを解析して、クラスタの単位に該当する文字列を含むページを同一クラスタにまとめればよい。なお、クラスタとしてどの単位を用いるかは、仕様に応じて予めプログラムに設定しておけばよい。
S02:前記スコア推定手段8は、S01で生成されたクラスタ群から任意のクラスタCiを選択し、該クラスタCiに含まれる追加ページkを取得する。追加ページkは単数であっても複数であってもよい。
S03:前記スコア推定手段8は、前記スコア情報データベース5を参照し、クラスタCiと同一クラスタに含まれるスコア算出済みのページが存在するか否かを確認する。存在する場合はS04の処理を行い、存在しない場合はS05に進む。
S04:前記スコア推定手段8は、前記スコア情報データベース5からクラスタCiと同一クラスタに含まれるページ群およびそのスコアを取得し、該取得したページ群のスコアの平均値を算出する。この平均値の算出方法は、以下の式(1)で表される。この式(1)はプログラムに定義されているものとする。
Figure 0005235730
式(1)において、Ciはクラスタ、pjはクラスタCiに含まれるページ、score(pj)はpjのスコアを表す。また、|Ci|はクラスタCiに含まれるスコア計算済みページの数であり、追加ページkの数は含まない。
算出したスコアの平均値score(Ci)を、クラスタCiに追加されたページkのスコア推定値とする。追加ページkが複数ある場合は、それぞれに同じ値を付与する。
なお、サイトをクラスタとした場合の追加ページのスコア推定例を図3に示す。ここではサイトAに既に存在するページmのスコア「0.4」およびページnのスコア「0.2」から平均値「0.3」を求め、サイトAに新たに追加されたページkのスコア推定値としている。
S05:ここではクラスタCiと同一クラスタに含まれるページが前記スコア情報データベース5に存在しない場合、即ちクラスタCiが新規クラスタの場合の処理を示している。
この場合には、前記スコア推定手段8はクラスタCiのスコア平均値score(Ci)として初期値dを付与し、該初期値dを追加ページkのスコア推定値とする。追加ページkが複数ある場合は、それぞれに同じ値dを付与する。
これにより追加ページkが新規クラスタに分類され、推定値の基準となるスコアがない場合に対応することができる。なお、初期値dは、固定値としてプログラムに設定しておけばよい。
S06:前記スコア推定手段8は、クラスタCiの各追加ページkについて算出したスコア推定値を、各ページのURLと対応付けて前記推定値データベース9に格納する。
S07:前記スコア推定手段8は、スコア平均値の算出処理が終了していないクラスタCiが残っているか否かを確認する。未処理のクラスタが残っている場合はS02に戻り、全てのクラスタCiについて処理が終了するまでS02〜S06を繰り返す。
このように、全てのクラスタCiについて追加ページkのスコア推定値を算出した後、前記スコア算出手段4は、ページkの追加により変化したリンク構造に基づいて、追加ページkおよび以前から前記スコア情報データベース5に保持しているページ群のスコアの再計算を行う。
このとき追加ページkに対して算出されているスコア推定値をデータベース9から取得する。このスコア推定値を利用してページ群のスコアを再計算することで、再計算の過程における反復計算回数を低減させることができる。
これによりスコア再計算処理が高速化し、検索結果に最新のスコアを迅速に反映させることができる。再計算によりスコアが決定された追加ページkのデータは、前記スコア情報データベース5に格納し、前記推定値データベース9から削除してもよい。
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載した範囲内で適宜変形することができる。例えば、前記クラスタ生成手段7、前記スコア推定手段8、前記追加ページデータベース6、前記推定値データベース9は、必ずしも前記文書検索装置1に実装される必要はなく、前記文書検索装置1にネットワークを介して接続された図外のサーバ内にそれぞれ実装した構成であってもよい。
この場合には、前記スコア算出手段4は、前記通信インタフェースを介して前記スコア情報データベース5および前記推定値データベース9にアクセスして、ページ群のスコアを再計算する。
本発明は、前記文書検索装置1の各手段2〜9の一部もしくは全部としてコンピュータを機能させるプログラムに構成することもできる。この場合には、前記実施形態の処理ステップ(S01〜S07など)の全てあるいは一部をコンピュータに実行させる。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置(光学ドライブ装置など)を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…文書検索装置
2…クローラ
3…文書データベース
4…スコア算出手段
5…スコア情報データベース
6…追加ページデータベース
7…クラスタ生成手段
8…スコア推定手段
9…推定値データベース
S…コンテンツサーバ群
T…ユーザ端末

Claims (7)

  1. 検索キーワードに基づき電子文書群を検索し、各電子文書について算出されたスコアを検索ランキングの一指標とする文書検索装置であって、
    前記電子文書群に新規に追加された電子文書を、URLから一意に決定されるクラスタに分類するクラスタ生成手段と、
    前記電子文書群の既存文書のうち、前記クラスタと同一クラスタに属する電子文書のスコアの平均値を算出し、該平均値を前記追加文書のスコアの推定値とするスコア推定手段と、を備え、
    前記電子文書の追加に伴い電子文書群のスコアに変動が生じたときに、前記推定値を利用して変動後の各電子文書のスコアを再計算する
    ことを特徴とする文書検索装置。
  2. 前記クラスタ生成手段は、前記追加文書を格納するデータベースを参照して前記追加文書を前記クラスタに分類し、
    前記スコア算出手段は、前記推定値を格納するデータベースを参照して前記再計算を行う
    ことを特徴とする請求項1記載の文書検索装置。
  3. 前記スコア推定手段は、前記クラスタと同一クラスタに属する既存文書が存在しないときに、あらかじめ設定した初期値を前記スコアの推定値とする
    ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。
  4. 検索キーワードに基づき電子文書群を検索し、各電子文書について算出されたスコアを検索ランキングの一指標とする文書検索方法であって、
    クラスタ生成手段が、前記電子文書群に新規に追加された電子文書を、URLから一意に決定されるクラスタに分類する第1ステップと、
    スコア推定手段が、前記電子文書群の既存文書のうち前記クラスタと同一クラスタに属する電子文書のスコアの平均値を算出し、該平均値を前記追加文書のスコアの推定値とする第2ステップと、
    スコア算出手段が、前記電子文書の追加に伴い電子文書群のスコアに変動が生じたときに、前記推定値を利用して変動後の各電子文書のスコアを再計算する第3ステップと、
    を有することを特徴とする文書検索方法。
  5. 前記第1ステップは、前記追加文書を格納するデータベースを参照して前記追加文書を前記クラスタに分類し、
    前記第3ステップは、前記推定値を格納するデータベースを参照して前記再計算を行う
    ことを特徴とする請求項4記載の文書検索方法。
  6. 前記スコア推定手段が、前記クラスタと同一クラスタに属する既存文書が存在しないときに、あらかじめ設定した初期値を前記スコアの推定値とするステップをさらに有する
    ことを特徴とする請求項4または5のいずれか1項に記載の文書検索方法。
  7. 請求項1〜3のいずれか1項に記載の文書検索装置としてコンピュータを機能させることを特徴とする文書検索プログラム。
JP2009056583A 2009-03-10 2009-03-10 文書検索装置、文書検索方法および文書検索プログラム Active JP5235730B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009056583A JP5235730B2 (ja) 2009-03-10 2009-03-10 文書検索装置、文書検索方法および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009056583A JP5235730B2 (ja) 2009-03-10 2009-03-10 文書検索装置、文書検索方法および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2010211486A JP2010211486A (ja) 2010-09-24
JP5235730B2 true JP5235730B2 (ja) 2013-07-10

Family

ID=42971578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009056583A Active JP5235730B2 (ja) 2009-03-10 2009-03-10 文書検索装置、文書検索方法および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP5235730B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5286162B2 (ja) * 2009-06-05 2013-09-11 株式会社エヌ・ティ・ティ・ドコモ 情報検索サーバ、情報検索方法及び情報検索プログラム
EP2620015B1 (en) 2010-09-22 2019-02-20 Nec Corporation A wireless station, an interference estimation method, a wireless communication system and a computer program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005056206A (ja) * 2003-08-05 2005-03-03 Recruit Co Ltd ページ重要度算出システム
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
JP2007140973A (ja) * 2005-11-18 2007-06-07 National Institute Of Information & Communication Technology ページリランキング装置、ページリランキングプログラム

Also Published As

Publication number Publication date
JP2010211486A (ja) 2010-09-24

Similar Documents

Publication Publication Date Title
US8738656B2 (en) Method and system for processing a group of resource identifiers
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
JP4756953B2 (ja) 情報検索装置および情報検索方法
US20110078140A1 (en) Method and system for user guided search navigation
US20100262610A1 (en) Identifying Subject Matter Experts
US20070276807A1 (en) Search Ranking Method for File System and Related Search Engine
US20120023127A1 (en) Method and system for processing a uniform resource locator
JP2006127529A (ja) 階層を考慮したウェブページのランク付け
US20080091708A1 (en) Enhanced Detection of Search Engine Spam
US6981037B1 (en) Method and system for using access patterns to improve web site hierarchy and organization
US20090187516A1 (en) Search summary result evaluation model methods and systems
JP2010538386A (ja) クエリ別検索コレクション生成方法およびシステム
RU2733482C2 (ru) Способ и система для обновления базы данных поискового индекса
CN105359140A (zh) 可变搜索查询垂直访问
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5235730B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
US20110072045A1 (en) Creating Vertical Search Engines for Individual Search Queries
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5462713B2 (ja) Webページ収集装置、方法及びプログラム
JP5358481B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350