JP4708436B2 - 信頼性のある文書の識別 - Google Patents

信頼性のある文書の識別 Download PDF

Info

Publication number
JP4708436B2
JP4708436B2 JP2007549632A JP2007549632A JP4708436B2 JP 4708436 B2 JP4708436 B2 JP 4708436B2 JP 2007549632 A JP2007549632 A JP 2007549632A JP 2007549632 A JP2007549632 A JP 2007549632A JP 4708436 B2 JP4708436 B2 JP 4708436B2
Authority
JP
Japan
Prior art keywords
candidate document
candidate
document
documents
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007549632A
Other languages
English (en)
Other versions
JP2008527505A (ja
Inventor
エグノール,ダニエル
チョードリー,ジータ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008527505A publication Critical patent/JP2008527505A/ja
Application granted granted Critical
Publication of JP4708436B2 publication Critical patent/JP4708436B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Description

背景
発明の技術分野
ここに説明する実施形態は、全体として情報の取得、より詳細には場所についての文書の信頼性の識別に関する。
従来技術の説明
最新のコンピュータネットワーク、特にインターネットにより、大量の情報を広範に、かつ簡単に利用することが可能になった。たとえばインターネットのサーチエンジンは、インターネットにリンクされた数百万のウェブ文書を検索する。インターネットに接続している使用者は、簡単な検索クエリを入力し、検索クエリに関連するウェブ文書を素早く見つけることができる。
使用者が、特定の場所に関連する文書を探そうとすることが多くある。しかし、この場所に関して信頼できる文書が、その場所のアドレスを含んでいない場合もある。アドレスがサブドキュメント内にあるか、または分析(たとえばインデックス化)が不可能である画像内に配置されている場合もある。こうしたことによって、信頼できる文書を識別することが困難となっている。
概要
一態様では、コンピュータ可読の媒体が、場所に関連する文書を識別するための命令、文書と関連する信号のセットを決定するための命令、および信号に基づき場所についての文書の信頼性を決定するための命令を含む、コンピュータが実行可能な命令を記憶することが可能である。
本明細書に含まれ、これの一部をなす添付の図面は、本発明の実施形態を示し、説明部分と共に発明を説明する。
発明の詳細な説明
以下の本発明の詳細な説明では、添付の図面を参照する。異なる図において同一の符号が使用される場合は、同じまたは類似の要素を示す。また、以下の詳細な説明は発明を限定するものではない。
概観
図1は、本発明の原理に従う構想を示す例示的な図である。場所に関する文書のコーパス100を想定する。文書は、特定の地理的な場所に関連するという意味において場所に関するが、必ずしも同じ地理的領域には限られない。たとえば企業別のリストは、その企業の特定の住所に関連するため、場所関連文書としてみなされることが可能である。
コーパス100内の文書は、関連する場所を決定するために分析されることが可能である。たとえば、セット110内の文書が同じ場所に関連するものであると仮定する。セット110内の各文書は、何らかの形でその場所に言及する。たとえば、セット110内の
文書は、その場所における企業、企業の住所、および/またはその企業と関連する電話番号について触れていることが可能である。セット内の1つの文書は、他の文書よりその場所に関してより信頼できるものである可能性がある。たとえば、その場所のレストランのホームページに対応する文書は、レストランの批評に対応する文書よりも場所に関してより信頼できると考えることができる。本発明の原理に従うシステムおよび方法は、場所に関連する文書の信頼性を決定することが可能である。
ここで用いられる「文書」という用語は、機械により可読であり、かつ機械に記憶可能であるあらゆる作業生産物として、広く解釈されるものとする。文書には、たとえば電子メール、ウェブサイト、企業リスト、ファイル、ファイルの組み合わせ、他のファイルへのリンクが組み込まれる1つまたは複数のファイル、ニュースグループ投稿、ブログ、ウェブ広告等を含めることができる。インターネットに関しては、一般的な文書はウェブページである。ウェブページは、テキスト情報を含むことが多く、組み込まれた情報(たとえばメタ情報、画像、ハイパーリンク等)および/または組み込まれた命令(たとえばジャバスクリプト等)を含むことが可能である。ここで用いられる「リンク」という用語は、ある文書へ/から別の文書または同じ文書の別の部分から/へのあらゆる言及を含むものとして、広く解釈されるものとする。
例示的なネットワーク構成
図2は、本発明の原理に従うシステムおよび方法を実施できるネットワーク200の例示的な図である。ネットワーク200は、ネットワーク250を介してマルチサーバ220から240に接続されるマルチクライアント210を含むことが可能である。簡潔にするため、2つのクライアント210と、3つのサーバ220から240がネットワーク250に接続されて示されているが、実際にはクライアントおよびサーバの数はこれより多い、または少ない可能性がある。また、場合によってはクライアントがサーバの機能を行い、サーバがクライアントの機能を行うことが可能である。
クライアント210は、クライアントエンティティを含むことが可能である。エンティティは、ワイヤレス電話、パソコン、個人用デジタル補助装置(PDA)、ノートパソコンまたはその他の種類のコンピュータまたは通信装置、スレッドまたはこれらの機器の1つにおいて作動するプロセス、および/またはこれらの機器の1つにおいて実施可能であるオブジェクト等の機器として定義することができる。サーバ220から240は、本発明の原理に従う方法で文書を収集、処理、検索、および/または維持するサーバエンティティを含むことが可能である。
本発明の原理に従う実施形態として、サーバ220はクライアント210により使用可能であるサーチエンジン225を含むことが可能である。サーバ220は、文書(たとえばウェブ文書)のコーパス内に潜りこみ、文書をインデックス化し、文書と関連する情報を文書の保存場所に記憶する。サーバ230および240は、サーバ120により潜入または分析される文書を記憶または維持することが可能である。
サーバ220から240は個別のエンティティとして示されているが、サーバ220から240の1つまたは複数は、別の1つまたは複数のサーバ220から240の1つまたは複数の機能を実行することが可能である。たとえば、サーバ220から240の2つまたはそれ以上のサーバを、単一のサーバとして実施することが可能である。また、サーバ220から240のうちの1つのサーバを、2つまたはそれ以上の個別の(場合によっては分散型の)装置として実施することも可能である。
ネットワーク250は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、たとえば公衆交換電話網(PSTN)のような電話網、イントラネット、イン
ターネット、メモリ装置、またはネットワークの組み合わせを含むことができる。クライアント210およびサーバ220から240は、有線、無線、および/または光学的接続を介して接続できる。
例示的なクライアント/サーバアーキテクチャ
図3は、本発明の原理に従う実施形態による1つまたは複数のクライアント210および/またはサーバ220から240に対応することができるクライアントまたはサーバのエンティティ(以後「クライアント/サーバエンティティ」と称する)の例示的な図である。クライアント/サーバエンティティは、バス310と、プロセッサ320と、メインメモリ330と、読み出し専用メモリ(ROM)340と、記憶装置350と、入力装置360と、出力装置370と、通信インタフェース380とを含むことが可能である。バス310は、クライアント/サーバエンティティの要素間の通信を可能にするパスを含むことができる。
プロセッサ320は、従来型のプロセッサ、マイクロプロセッサ、または命令を解釈し実行する処理ロジックを含むことが可能である。メインメモリ330は、ランダムアクセスメモリ(RAM)、またはプロセッサ320による実行のための情報および命令を記憶できるその他の種類の動的記憶装置を含むことが可能である。ROM340は、従来型のROM装置、またはプロセッサ320が使用するための静的な情報および命令を記憶できるその他の種類の静的記憶装置を含むことが可能である。記憶装置350は、磁気および/または光学記録媒体とその対応ドライブを含むことが可能である。
入力装置360は、キーボード、マウス、ペン、音声認識および/または生体識別メカニズム等の、クライアント/サーバエンティティに操作者が情報を入力することを可能にする従来型のメカニズムを含むことができる。出力装置370は、ディスプレイ、プリンタ、スピーカ等の、操作者に対して情報を出力する従来型のメカニズムを含むことが可能である。通信インタフェース380は、クライアント/サーバエンティティが別の装置および/またはシステムと通信することを可能にするトランシーバのような任意のメカニズムを含むことが可能である。たとえば、通信インタフェース380は、ネットワーク250のようなネットワークを介して別の装置またはシステムと通信するためのメカニズムを含むことが可能である。
以下に詳細に説明するように、本発明の原理に従うクライアント/サーバエンティティは、文書処理に関連する特定の操作を実行することができる。クライアント/サーバエンティティは、メモリ330のようなコンピュータで読み取り可能な媒体に含まれるソフトウェア命令をプロセッサ320が実行したことに応じて、これらの操作を実行することができる。コンピュータで読み取り可能な媒体は、物理または論理メモリ装置および/または搬送波として定義できる。
ソフトウェア命令は、データ記憶装置350のような別のコンピュータで読み取り可能な媒体、または別の装置から通信インタフェース380を介してメモリ330へ読み込まれることが可能である。メモリ330内に含まれるソフトウェア命令は、後述する処理をプロセッサ320に実行させることができる。または、本発明の原理に従う処理を実施するために、配線で接続された回路をソフトウェア命令の代わりに、またはこれと組み合わせて使用することも可能である。したがって、本発明の原理に従う実施形態は、特定のハードウェア回路およびソフトウェアの組み合わせに限定されない。
例示的な処理
図4は、本発明の原理に従う実施形態による、場所に関する文書の信頼性を決定するための例示的な処理を示すフローチャートである。一実施形態では、図4の処理はサーバ2
20(図2)により実行される。別の実施形態では、図4の処理が別の装置、または装置のグループにより実行される。
処理は、特定の場所に関連する文書の候補のセットを識別することにより開始する(ブロック410)。文書のコーパスが分析され、たとえば場所の住所全体または一部分、場所に関連する電話番号全体またはその一部分、および/または場所に関連する企業の名称全体または一部分のような、場所に関連する情報を含むテキストの断片(テキストの断片が文書の一部または文書全体として定義できる)が識別される。これらの断片に関連する文書は、候補となる文書の第1グループとして含めることができる。
場所に関連する情報を含む文書は、その場所についての信頼できる文書にリンクすることが多くあり得る。したがって、第1グループの候補文書によりリンクされる文書は、候補文書の第2グループとして含めることができる。候補文書の第3グループは、たとえば第1および第2グループの候補文書のアドレスの部分を除去することによって、第1および第2グループの候補文書のアドレスから識別できる。たとえば、ある候補文書がアドレスhttp://www.abcdef.com/ghijk/lmnop/qrst.htmを含むと仮定する。追加の候補文書を識別するために、このアドレスの一部を除去することが可能である。たとえば以下の追加の候補文書を第3グループに含めることが可能である(これらが存在する場合)。(1)http://www.abcdef.com/ghijk/lmnop、(2)http://www.abcdef.com/ghijk、(3)http://www.abcdef.com。候補文書のセットはさらに展開されるか、または当業者に自明な別の方法によってさらに展開されることが可能である。
候補文書の第1、第2および第3グループは、候補文書のセットを形成するために組み合わせることができる。図5は、本発明の原理に従う実施形態によりいかにして文書が候補文書として選択可能かを示す例示的な図である。図5に示されるように、グループ(A)は、場所に関連する情報を含むテキストの断片を有する文書を含むことが可能である。これはたとえば、場所の住所の全体または一部、場所に関連する電話番号全体またはその一部、および/または場所に関連する企業の名称全体または一部が含まれる。グループ(B)は、グループ(A)の文書によりリンクされる文書を含むことが可能であり、グループ(C)はグループ(A)および(B)の文書のアドレスから形成される文書を含むことが可能である。候補文書のセットは、グループ(A)、(B)、(C)の文書から形成できる。
図4に戻ると、候補文書のセットに関連する信号が決定されることが可能である(ブロック420)。信号は、候補文書に関連するメタデータに対応することができる。信号の一種は、他の候補文書を示す候補文書内のアウトリンクの数に関連していることが可能である。信頼できる文書とは、多数の候補文書からのアウトリンクに対応するリンク先であることが可能である。
別の種類の信号は、候補文書を示すアウトリンクのアンカーテキストに関連することが可能である。アンカーテキストは、文書コーパス内の任意の文書に関連することができ、アンカーテキストが、場所に関連する企業の名称全体または一部に一致するか否かを決定するため分析されることが可能である。この状況においてテキストマッチングには注意を要する場合がある。というのも、部分的な名称および/またはスペルミスを含む様々な表現が、企業の名称に関してあり得るからである。したがって、単語および/またはバイグラムの発生頻度に基づき単語および/またはバイグラムを記録するテキスト類似度技術を使用することが可能である。
単語および/またはバイグラムの発生頻度は、文書を地理的領域(たとえば郵便番号)ごとに分析することによって決定可能である。たとえば、特定の地理的領域に関連することが分かっている文書のセット内の全ての単語およびバイグラムが有効とされることができる。バイグラム「New York」はニューヨーク市の領域においてよく使われると仮定すると、これはニューヨーク市領域では重要度が高い。さらに、「Pandella
Shop」というバイグラムはニューヨーク市領域ではまれであると仮定すると、これはニューヨーク市領域では重要度が低くなる。
地理的領域ごとにありふれた、またはまれである単語および/またはバイグラムを識別するために、各地理的領域にヒストグラムを作成することが可能である。上記の例では、ニューヨーク市領域に関連するヒストグラムでは、バイグラム「New York」はありふれており(すなわち、ニューヨーク市領域と関連する文書に頻出する)、バイグラム「Pandella Shop」はまれである(すなわちニューヨーク市領域に関連する文書での発生は非常にまれである)と示されてよい。
アンカーテキストが場所に関連する企業の名称の全体または一部に一致するか否かを決定するために、任意の周知のテキスト類似度技術が使用可能である。一般的ではない単語および/またはバイグラム(たとえば「Pandella Shop」)に対しては、部分的なテキスト一致またはスペルミスのあるテキスト一致に関して、一般的な単語および/またはバイグラム(たとえば「New York」)に対する場合よりも許容の幅を広げることが可能である。信頼できる文書とは、そのアンカーテキストが企業の名称の全体または一部に一致するアウトリンクに対応するリンク先であることが可能である。
別の種類の信号は、候補文書の文書タイトルに関連することが可能である。候補文書のテキストが、場所に関連する企業の名称の全体または一部に文書のタイトルが一致するか否かを決定するために分析されることが可能である。候補文書のタイトルが企業の名称全体または一部に一致するか否かを決定するために、上述の技術と類似のテキスト類似度技術を使用することが可能である。信頼できる文書は、企業の名称全体または一部に一致するタイトルを含むことが可能である。
別の種類の信号は、候補文書に関連するドメイン名に関連することが可能である。ドメイン名のテキストが、場所に関連する企業の名称の全体または一部にテキストが一致するか否かを決定するために分析される。ドメイン名は、企業の名称がつなげられた形、および/または切り詰めた形であることが多い(たとえばBob’s Billiard Shopの場合は、BobsBilliard.comまたはBobsBilliardShop.comとなる)。上述のテキスト類似度技術の代わりに、またはこれに加えて、任意の周知の文字部分列マッチング技術が、企業の名称の全体または一部に候補文書に関連するドメイン名が一致するかを決定するために使用可能である。信頼できる文書は、企業の名称の全体または一部に一致するドメイン名に関連することが可能である。
セット内の異なる候補文書用の信号は、信頼性スコアを取得するために評価され、何らかの形で組み合わせられることができる(ブロック430)。たとえば、値(またはスコア)が信号に関して導出され、値(またはスコア)は何らかの方法で評価されることができる。一実施形態では、たとえばアンカーテキストおよび/またはドメイン名に関連する信号のような1つまたは複数の信号に関連する値(またはスコア)が、別の1つまたは複数の信号に関連する値(またはスコア)より高く評価されることが可能である。値(またはスコア)は、たとえばセット内の各候補文書用に信頼性スコアを取得するために合算して組み合わせることが可能である。
一実施形態では、候補文書用の信頼性スコアは、候補文書が1つの場所(多数の場所と
は対照的に)に関連している場合、高められることが可能である。一部の候補文書は、異なる場所を示すテキストの断片を含むが、同じ文書に言及(たとえばリンク)していることがある。たとえば、1つの候補文書は場所Aに言及し、文書Aにリンクしており、その一方で別の候補文書が場所Bに言及するとともに同様に文書Aにリンクしているかもしれない。また、一部の候補文書は、多数の場所に関連している可能性がある。たとえば、候補文書が、たとえば多数の場所にある企業の場合など、場所AおよびBに言及していることがある。1つの場所に特定される候補文書の信頼性スコアは高められる。
候補文書の信頼性は信頼性スコアに基づき決定できる(ブロック440)。信頼性スコアがより高い文書は、信頼性スコアが低い文書よりも場所に関してより信頼できると決定できる。
次いで、候補文書は、その信頼性に基づき処理されることができる(ブロック450)。たとえば、候補文書の信頼性スコアは、候補文書に関連するその後の処理段階または序列、配列、重要度の管理および/またはその他のユーザインタフェース要素のために使用されることが可能である。たとえば、場所に関する検索クエリを後から受けると、より信頼できる文書が、信頼性が低い文書より目立つ形で検索結果において提示されることが可能である。
実施例
図6は、本発明の原理に従う実施形態により文書の信頼性を識別する際に考慮できる信号の例示的な図である。図6に示されるように、文書610はペンシルバニア州 15302 オークモント 123 メインストリート所在のBig Nick’s Pizza Jointに関連する場所について信頼できる(すなわち、高い信頼性スコアを得る)と決定できる。上述の通り、文書610を場所に関して信頼できると識別するために、信号の組み合わせが使用できる。
信頼できる文書610は、場所または企業の名称の全体または一部に言及する多数の文書からのアウトリンクに対応するリンク先である。信頼できる文書610は、アンカーテキストが企業の名称の全体または一部(たとえばBig Nick’s Pizza Joint、Big Nick’s Pizza、Big Nick’s、Big Nick’s Pizza Restaurant、Big Nick’s Pizza、Big Nick Pizza Joint)に一致するアウトリンクに対応するリンク先でもある。信頼できる文書610は、企業の名称の全体または一部に一致するタイトルも含む(たとえばBig Nick’s Pizza Joint)。信頼できる文書610は、企業の名称の全体または一部に一致するドメイン名を含む(たとえばwww.bignicks.com)。また、信頼できる文書610は、単一の場所に関連する(たとえばペンシルバニア州 オークモント 123 メインストリート)。
様々な信号が評価され、組み合わされると、文書610は、ペンシルバニア州 15302 オークモント 123 メインストリートの住所にある企業Big Nick’s
Pizza Jointに関連する場所に対して高い信頼性スコアを得ることが可能である。
総括
本発明の原理に従うシステムおよび方法は、場所に関連する文書の信頼性を決定することができる。ここで使用される「場所」とは、住所および/またはその住所に所在の企業を指す。
本発明の好適な実施形態の上記の説明は、例示的なものであり、包括的または本発明で
開示される特定の形態に限定する性質のものではない。修正および変形は、上述の教示に照らして、または発明の実施により習得されることが可能である。
たとえば、図4に関して一連の行為が説明されたが、本発明の原理に従う別の実施形態においてこれらの行為の順序を修正することが可能である。さらに、従属しない行為を並行して行うことも可能である。
当該技術分野における通常の知識を有する者には、上述の発明の態様が、様々なソフトウェア、ファームウェアおよびハードウェアにおいて、図面に示される実施形態で実施され得ることが明らかであろう。本発明の原理に従う実施態様において使用される実際のソフトウェアコードまたは特殊化された制御ハードウェアによって本発明は限定されない。したがって、態様の操作およびふるまいが、特定のソフトウェアコードに言及せずに説明された。当業者であれば、本明細書の説明に基づいて上記態様を実施するソフトウェアおよび制御ハードウェアを設計することが可能であろう。
本出願において使用された要素、行為または命令は、いずれも明示的にその旨が記載されていない限り、本発明において重大または必須であると解されるべきではない。また、冠詞「a」は、1つまたは複数のものを含むものとする。1つのみのものがあることを示す場合は、「1つ」またはこれに類似の表現が使用される。さらに、「に基づき」という表現は、明示的に別段に定められていない限り「少なくとも部分的に基づき」という意味を有するものとする。
本発明の原理に従う構想を示す例示的な図である。 本発明の原理に従うシステムおよび方法が実施可能であるネットワークの例示的な図である。 本発明の原理に従う実施形態による図2のクライアントまたはサーバの例示的な図である。 本発明の原理に従う実施形態による場所についての文書の信頼性を決定する例示的な処理のフローチャートである。 本発明の原理に従う実施形態により、文書が候補文書として選択される方法を示す例示的な図である。 本発明の原理に従う実施形態により、文書の信頼性を識別する際に考慮される信号の例示的な図である。

Claims (26)

  1. サーバに関連する1つ以上のプロセッサによって実現される方法であって、
    一の地理的な場所に関連する文書のセットを候補文書として識別することと、
    他の前記候補文書を示す、前記候補文書からのアウトリンクの数、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書を示すリンクに関連するアンカーテキスト、前記地理的な場所における企業の名称の全体または一部に一致する、前記候補文書のタイトル、または、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書に関連するドメイン名、のうちの少なくとも1つに関連付けられ、前記候補文書と関連する信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    前記信号に基づき前記地理的な場所における前記企業の前記候補文書の信頼性の指標を、前記サーバに関連する1つ以上のプロセッサにより算出することと、
    前記サーバに関連する1つ以上のプロセッサにより、別の1つの前記候補文書に関して、1つの前記候補文書に、前記地理的な場所における前記企業に関するこれらの信頼性の指標に基づき順位を付けることとを含む方法。
  2. 文書のセットを識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記場所に関連する情報を含むテキストの断片を識別するために文書コーパス内の文書を分析することと、
    前記サーバに関連する1つ以上のプロセッサにより、前記テキストの断片を含む文書を候補文書として識別することとを含む、請求項1に記載の方法。
  3. 前記地理的な場所に関連する前記情報が、前記地理的な場所の住所の全体または一部、前記地理的な場所に関連する電話番号の全体または一部、または前記地理的な場所における前記企業の名称の全体または一部のうち少なくとも1つを含む、請求項2に記載の方法。
  4. 文書のセットを識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書がリンクしている文書を識別することと、
    前記サーバに関連する1つ以上のプロセッサにより、前記識別された文書を候補文書として識別することとをさらに含む、請求項2に記載の方法。
  5. 文書のセットを識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書のアドレスの一部を削除することにより追加の文書を識別することと、
    前記サーバに関連する1つ以上のプロセッサにより、前記追加の文書を候補文書として識別することとをさらに含む、請求項4に記載の方法。
  6. 前記候補文書に関連する信号を識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、他の前記候補文書を示す前記候補文書からのアウトリンクの数を識別することを含み、
    前記候補文書の信頼性の指標を算出することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書を示す別の前記候補文書からの前記アウトリンクの数に基づき、前記候補文書の信頼性スコアを生成することを含む、請求項1に記載の方法。
  7. 前記候補文書と関連する信号を識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書を示す前記リンクに関連する前記アンカーテキストを識別することを含み、
    前記候補文書の信頼性の指標を算出することは、
    前記サーバに関連する1つ以上のプロセッサにより、アンカーテキストが前記場所における前記企業の前記名称の全体または一部に一致している前記候補文書が、1つまたは複数のリンクにより示されているか否かに基づいて、1つの前記候補文書の信頼性スコアを生成することを含む、請求項1に記載の方法。
  8. 前記候補文書に関連する信号を識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書の前記タイトルを識別することを含み、
    前記候補文書の信頼性の指標を算出することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書に関連するタイトルが前記地理的な場所における前記企業の前記名称の全体または一部に一致するか否かに基づき、1つの前記候補文書の信頼性スコアを生成することを含む、請求項1に記載の方法。
  9. 前記候補文書に関連する信号を識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書に関連する前記ドメイン名を識別することを含み、
    前記候補文書の信頼性の指標を算出することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書に関連するドメイン名が前記地理的な場所における前記企業の前記名称の全体または一部に一致するか否かに基づき、1つの前記候補文書の信頼性スコアを生成することを含む、請求項1に記載の方法。
  10. 前記候補文書に関連する信号を識別することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書が関連している場所を識別することを含み、
    前記候補文書の信頼性の指標を算出することは、
    前記サーバに関連する1つ以上のプロセッサにより、前記候補文書が単一の地理的な場所と関連しているか否かに基づいて1つの前記候補文書の前記信頼性の指標を高めることをさらに含む、請求項1に記載の方法。
  11. 前記信号は、前記候補文書に関連する複数の異なる種類のデータに関連付けられ、他の前記候補文書を示す、前記候補文書からのアウトリンクの数、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書を示すリンクに関連するアンカーテキスト、前記地理的な場所における企業の名称の全体または一部に一致する、前記候補文書のタイトル、または、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書に関連するドメイン名を含み、前記方法は、
    前記異なる種類のデータを評価することと、
    前記候補文書用の前記評価されたデータを組み合わせることと、
    前記組み合わされた評価データに基づき前記候補文書に信頼性スコアを割り当てることとをさらに含む、請求項1に記載の方法。
  12. 一の企業に関連する文書のセットを候補文書として識別する手段と、
    他の前記候補文書を示す、前記候補文書からのアウトリンクの数、前記同一の企業の名称の全体または一部に一致し、前記候補文書を示すリンクに関連するアンカーテキスト、前記同一の企業の名称の全体または一部に一致する、前記候補文書のタイトル、または、前記同一の企業の名称の全体または一部に一致し、前記候補文書に関連するドメイン名、の複数に関連付けられ、各前記候補文書と関連する複数の信号を識別する手段と、
    前記信号に基づき前記同一の企業に関する前記候補文書の信頼性の指標を算出する手段と
    別の1つの前記候補文書に関して、1つの前記候補文書に、前記同一の企業の信頼性の指標に基づき順位を付けるための手段とを備えるシステム。
  13. 命令を記憶するメモリと、
    前記メモリ内の前記命令を実行するプロセッサとを備え、前記プロセッサは、
    一の地理的な場所に関連する一組の文書を、候補文書として識別し、
    他の前記候補文書を示す、前記候補文書からのアウトリンクの数、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書を示すリンクに関連するアンカーテキスト、前記地理的な場所における企業の名称の全体または一部に一致する、前記候補文書のタイトル、または、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書に関連するドメイン名、のうちの少なくとも1つに関連づけられ、各前記候補文書に関連する複数の信号を識別し、
    前記信号に基づき前記候補文書に信頼性スコアを割り当て、前記信頼性スコアは前記地理的な場所における企業についての前記候補文書の信頼性の指標を示し、
    前記信頼性スコアに基づき前記候補文書を処理するシステム。
  14. 前記一組の文書を識別するときに、前記プロセッサは、前記地理的な場所に関連する情報を有するテキストの断片を含む文書を検知するために、文書コーパス内において、文書を分析するように構成されている、請求項13に記載のシステム。
  15. 前記地理的な場所に関連する前記情報は、前記地理的な場所の住所の全体または一部、前記地理的な場所に関連する電話番号の全体または一部、または前記地理的な場所における前記企業の名称の全体または一部のうち少なくとも1つを含む、請求項14に記載のシステム。
  16. 前記一組の文書を識別するとき、前記プロセッサはさらに、前記候補文書によりリンクされる文書を候補文書として識別するように構成される、請求項14に記載のシステム。
  17. 前記一組の文書を識別するとき、前記プロセッサはさらに、前記候補文書のアドレスの一部を削除することにより文書を候補文書として識別するように構成される、請求項16に記載のシステム。
  18. 複数の信号を識別するとき、前記プロセッサは、前記他の候補文書を示す前記候補文書からの前記アウトリンクの数を決定するように構成され、
    前記候補文書の信頼性スコアを割り当てるとき、前記プロセッサは、1つの前記候補文書を示す他の候補文書からのアウトリンクの数に基づき前記1つの前記候補文書の信頼性スコアを生成するように構成される、請求項13に記載のシステム。
  19. 前記複数の信号を識別するとき、前記プロセッサは、前記候補文書へのリンクに関連する前記アンカーテキストを識別するように構成され、
    前記候補文書の信頼性スコアを割り当てるとき、前記プロセッサは、前記地理的な場所における前記企業の名称の全体または一部にアンカーテキストが一致する前記候補文書への1つまたは複数のリンクに基づき1つの前記文書の信頼性スコアを生成するように構成される、請求項13に記載のシステム。
  20. 複数の信号を識別するとき、前記プロセッサは、前記候補文書のタイトルを識別するように構成され、
    前記候補文書に信頼性スコアを割り当てるとき、前記プロセッサは、前記地理的な場所における前記企業の名称の全体または一部に一致するタイトルを前記候補文書が含むか否かに基づき、1つの前記候補文書の信頼性スコアを生成するように構成される、請求項13に記載のシステム。
  21. 複数の信号を識別するとき、前記プロセッサは、前記候補文書に関連するドメイン名を識別するように構成され、
    前記候補文書に信頼性スコアを割り当てるとき、前記プロセッサは、前記地理的な場所における前記企業の名称の全体または一部に一致するドメイン名に1つの前記候補文書が関連するか否かに基づき、前記1つの前記候補文書の信頼性スコアを生成するように構成される、請求項13に記載のシステム。
  22. 複数の信号を識別するとき、前記プロセッサは、前記候補文書が関連している前記地理的な場所を決定するように構成され、
    前記候補文書に信頼性スコアを割り当てるとき、前記プロセッサは、1つの前記候補文書が単一の場所に関連している場合に前記1つの前記候補文書に割り当てられている前記信頼性スコアを高めるように構成される、請求項13に記載のシステム。
  23. 前記信号は、前記候補文書に関連する複数の異なる種類のデータに関連付けられており、他の前記候補文書を示す、前記候補文書からのアウトリンクの数、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書を示すリンクに関連するアンカーテキスト、前記地理的な場所における企業の名称の全体または一部に一致する、前記候補文書のタイトル、または、前記地理的な場所における企業の名称の全体または一部に一致し、前記候補文書に関連するドメイン名を含み、
    前記候補文書に信頼性スコアを割り当てるときに、前記プロセッサは、
    前記異なる種類のデータを評価し、
    前記候補文書についての前記評価されたデータを組み合わせ、
    前記組み合わせた評価されたデータに基づき前記候補文書に信頼性スコアを生成するように構成される、請求項13に記載のシステム。
  24. 前記候補文書の処理のとき、前記プロセッサは、1つの前記候補文書をその信頼性スコアに基づき、少なくとも別の1つの前記候補文書に関して順位付けるように構成される、請求項13に記載のシステム。
  25. 請求項1に記載の方法を実行するための命令を含む、コンピュータにより読み取り可能な媒体。
  26. サーバに関連する1つ以上のプロセッサによって実現される方法であって、
    同一の地理的な場所に関連する文書のセットを候補文書として、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    各前記候補文書用に、前記候補文書を示す1つまたは複数の前記候補文書からのアウトリンクの数に基づき第1信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    各前記候補文書用に、前記地理的な場所に関連する企業の企業名称の全体または一部に一致するアンカーテキストがあるか否かに基づき前記候補文書を示すリンクに関連する第2信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    各前記候補文書用に、前記候補文書のタイトルが前記企業名称の全体または一部に一致するか否かに基づき第3信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    各前記候補文書用に、前記候補文書に関連するドメイン名が前記企業名称の全体または一部に一致するか否かに基づき第4信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    各前記候補文書用に、前記候補文書が単一の場所に関連するか否かに基づき第5信号を、前記サーバに関連する1つ以上のプロセッサにより識別することと、
    前記第1、第2、第3、第4および第5信号を、前記サーバに関連する1つ以上のプロセッサにより評価することと、
    各前記候補文書についてスコアを生成するために、前記評価された第1、第2、第3、第4、第5信号を、前記サーバに関連する1つ以上のプロセッサにより組み合わせることと、
    前記スコアに基づき前記候補文書を、前記サーバに関連する1つ以上のプロセッサにより処理することとを含む方法。
JP2007549632A 2004-12-30 2005-12-30 信頼性のある文書の識別 Expired - Fee Related JP4708436B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/024,967 US20060149800A1 (en) 2004-12-30 2004-12-30 Authoritative document identification
US11/024,967 2004-12-30
PCT/US2005/047400 WO2006074056A1 (en) 2004-12-30 2005-12-30 Authoritative document identification

Publications (2)

Publication Number Publication Date
JP2008527505A JP2008527505A (ja) 2008-07-24
JP4708436B2 true JP4708436B2 (ja) 2011-06-22

Family

ID=36101575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007549632A Expired - Fee Related JP4708436B2 (ja) 2004-12-30 2005-12-30 信頼性のある文書の識別

Country Status (7)

Country Link
US (2) US20060149800A1 (ja)
EP (1) EP1859367A1 (ja)
JP (1) JP4708436B2 (ja)
KR (1) KR100974906B1 (ja)
CN (1) CN101128822A (ja)
CA (1) CA2593424A1 (ja)
WO (1) WO2006074056A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7962462B1 (en) * 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US20080065694A1 (en) * 2006-09-08 2008-03-13 Google Inc. Local Search Using Address Completion
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US20140188919A1 (en) * 2007-01-26 2014-07-03 Google Inc. Duplicate document detection
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8312010B1 (en) * 2007-08-16 2012-11-13 Google Inc. Local business ranking using mapping information
US20090164449A1 (en) * 2007-12-20 2009-06-25 Yahoo! Inc. Search techniques for chat content
JP4518168B2 (ja) * 2008-03-21 2010-08-04 富士ゼロックス株式会社 関連文書提示システム及びプログラム
US8271195B2 (en) 2009-01-30 2012-09-18 Navteq B.V. Method for representing linear features in a location content management system
US20100198503A1 (en) * 2009-01-30 2010-08-05 Navteq North America, Llc Method and System for Assessing Quality of Location Content
US8554871B2 (en) 2009-01-30 2013-10-08 Navteq B.V. Method and system for exchanging location content data in different data formats
US8775074B2 (en) * 2009-01-30 2014-07-08 Navteq B.V. Method and system for refreshing location code data
US8898173B1 (en) 2010-05-14 2014-11-25 Google Inc. Ranking location search results based on multiple distance measures
US20150169626A1 (en) * 2012-01-09 2015-06-18 Google Inc. System and method for identifying a new geographical area name
US10789417B1 (en) * 2012-05-24 2020-09-29 The Boeing Company Method and apparatus for identifying relationships between documents
US9418156B2 (en) * 2012-08-10 2016-08-16 Google Inc. Providing local data with search results
JP5544401B2 (ja) * 2012-08-15 2014-07-09 株式会社ゼンリンデータコム 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム
US9009197B2 (en) * 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US9659064B1 (en) 2013-03-15 2017-05-23 Google Inc. Obtaining authoritative search results
US9058374B2 (en) * 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
WO2016171927A1 (en) 2015-04-20 2016-10-27 Unified Compliance Framework (Network Frontiers) Structured dictionary
US10614075B2 (en) * 2015-12-28 2020-04-07 Verizon Patent and Licencing Inc. Systems and methods for scoring and using popularity of entities in a media-content-based social network to provide a media service
US10679088B1 (en) * 2017-02-10 2020-06-09 Proofpoint, Inc. Visual domain detection systems and methods
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10824817B1 (en) 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
WO2022047252A1 (en) 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US20220084091A1 (en) * 2020-09-17 2022-03-17 Mastercard International Incorporated Continuous learning for seller disambiguation, assessment, and onboarding to electronic marketplaces
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250931A (ja) * 1999-03-01 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 位置情報の自動抽出装置および自動抽出方法と記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
WO2001063479A1 (en) * 2000-02-22 2001-08-30 Metacarta, Inc. Spatially coding and displaying information
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2003173280A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2004227165A (ja) * 2003-01-21 2004-08-12 Nippon Telegr & Teleph Corp <Ntt> ドキュメントスコア計算方法及び装置並びにプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
US6701307B2 (en) * 1998-10-28 2004-03-02 Microsoft Corporation Method and apparatus of expanding web searching capabilities
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
WO2001065410A2 (en) * 2000-02-28 2001-09-07 Geocontent, Inc. Search engine for spatial data indexing
AU2001253161A1 (en) * 2000-04-04 2001-10-15 Stick Networks, Inc. Method and apparatus for scheduling presentation of digital content on a personal communication device
US7487112B2 (en) * 2000-06-29 2009-02-03 Barnes Jr Melvin L System, method, and computer program product for providing location based services and mobile e-commerce
US7233942B2 (en) * 2000-10-10 2007-06-19 Truelocal Inc. Method and apparatus for providing geographically authenticated electronic documents
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US20020133374A1 (en) * 2001-03-13 2002-09-19 Agoni Anthony Angelo System and method for facilitating services
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
CA2519236A1 (en) * 2003-03-18 2004-09-30 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
US7848945B2 (en) * 2003-07-03 2010-12-07 Travelweb Llc System and method for indexing travel accommodations in a network environment
US20050216362A1 (en) * 2003-12-09 2005-09-29 Rajesh Navar Method of and system for providing an online marketplace having global reach and local focus
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7231405B2 (en) * 2004-05-08 2007-06-12 Doug Norman, Interchange Corp. Method and apparatus of indexing web pages of a web site for geographical searchine based on user location
US7464076B2 (en) * 2004-05-15 2008-12-09 International Business Machines Corporation System and method and computer program product for ranking logical directories
US7991755B2 (en) * 2004-12-17 2011-08-02 International Business Machines Corporation Dynamically ranking nodes and labels in a hyperlinked database

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250931A (ja) * 1999-03-01 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 位置情報の自動抽出装置および自動抽出方法と記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
WO2001063479A1 (en) * 2000-02-22 2001-08-30 Metacarta, Inc. Spatially coding and displaying information
JP2003524259A (ja) * 2000-02-22 2003-08-12 メタカルタ インコーポレイテッド 情報の空間符号化及び表示
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2003173280A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2004227165A (ja) * 2003-01-21 2004-08-12 Nippon Telegr & Teleph Corp <Ntt> ドキュメントスコア計算方法及び装置並びにプログラム

Also Published As

Publication number Publication date
US20120173544A1 (en) 2012-07-05
KR20070094941A (ko) 2007-09-27
EP1859367A1 (en) 2007-11-28
US20060149800A1 (en) 2006-07-06
WO2006074056A1 (en) 2006-07-13
CA2593424A1 (en) 2006-07-13
KR100974906B1 (ko) 2010-08-09
CN101128822A (zh) 2008-02-20
JP2008527505A (ja) 2008-07-24
US8650197B2 (en) 2014-02-11

Similar Documents

Publication Publication Date Title
JP4708436B2 (ja) 信頼性のある文書の識別
KR100944744B1 (ko) 원하는 레포지토리의 결정
JP4633803B2 (ja) 曖昧な地理的参照の分類
JP4850845B2 (ja) 方法、システムおよびメモリ装置
US9418128B2 (en) Linking documents with entities, actions and applications
JP5069285B2 (ja) ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬
US8255386B1 (en) Selection of documents to place in search index
KR101037144B1 (ko) 검색 결과의 향상
KR101016683B1 (ko) 검색 결과를 제공하기 위한 시스템 및 방법
KR20070092755A (ko) 로컬 항목 추출
JP2009508267A (ja) ブログ文書のランク付け
US8713071B1 (en) Detecting mirrors on the web
JP2007520788A (ja) ウェブページに対する地理的位置識別子の割当て
US8521746B1 (en) Detection of bounce pad sites
US7836108B1 (en) Clustering by previous representative
US8661069B1 (en) Predictive-based clustering with representative redirect targets
US20130086083A1 (en) Transferring ranking signals from equivalent pages
US20080033953A1 (en) Method to search transactional web pages
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2018005759A (ja) 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100914

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100922

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101007

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110316

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees