JP4636473B2 - リンク情報抽出装置、リンク情報抽出方法およびプログラム - Google Patents

リンク情報抽出装置、リンク情報抽出方法およびプログラム Download PDF

Info

Publication number
JP4636473B2
JP4636473B2 JP2008212923A JP2008212923A JP4636473B2 JP 4636473 B2 JP4636473 B2 JP 4636473B2 JP 2008212923 A JP2008212923 A JP 2008212923A JP 2008212923 A JP2008212923 A JP 2008212923A JP 4636473 B2 JP4636473 B2 JP 4636473B2
Authority
JP
Japan
Prior art keywords
url
electronic information
information
slash
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008212923A
Other languages
English (en)
Other versions
JP2010049473A (ja
Inventor
憲和 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biglobe Inc filed Critical Biglobe Inc
Priority to JP2008212923A priority Critical patent/JP4636473B2/ja
Priority to US12/536,781 priority patent/US8433666B2/en
Publication of JP2010049473A publication Critical patent/JP2010049473A/ja
Application granted granted Critical
Publication of JP4636473B2 publication Critical patent/JP4636473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、リンク情報抽出装置、リンク情報抽出方法およびプログラムに関する。
ブログまたはHP(ホームページ)などのURLが付加された多くの電子情報の中から、特定の電子情報を探し出していく調査作業が行われている。
特許文献1には、電子情報の一例として、スパムブログ(spam blog)が記載されている。以下では、スパムブログを、スプログ(splog)と称する。
特定の電子情報が、例えば、スプログである場合、調査作業は、スプログに詳しいエキスパート(以下、単に「エキスパート」と称する)によって行われている。
例えば、エキスパートは、実際に、ブログ本文およびブログにリンクされているHPを閲覧して、そのブログが、悪質なアフィリエイトサイト、つまり、スプログであると判定し、そのブログを特定するためのブラックリストを作成していた。
なお、エキスパートは、同一ドメインからの大量ブログ投稿、コメント・トラックバック投稿、dos(Denial of Services)/ddos(Distributed Denial of Service)攻撃ユーザなどを参考にしながら、調査対象のブログがスプログか否かを判定する。
一方、特定の電子情報が、特定の趣味に関する内容が記載された電子情報である場合、調査作業は、その特定の趣味に詳しいユーザによって行われている。
特開2008−33599号公報
調査作業は、人によって行われる。このため、調査作業を行う人の負担が大きいという課題があった。
本発明の目的は、上述した課題を解決することが可能なリンク情報抽出装置、リンク情報抽出方法およびプログラムを提供することにある。
本発明のリンク情報抽出装置は、特定種類に分類された第1リンク情報を記憶する記憶手段と、複数の電子情報を入手する入手手段と、前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手段と、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手段と、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手段と、を含む。
本発明のリンク情報抽出方法は、リンク情報抽出装置が行うリンク情報抽出方法であって、特定種類に分類された第1リンク情報を記憶手段に記憶する記憶ステップと、複数の電子情報を入手する入手ステップと、前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類ステップと、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成ステップと、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力ステップと、を含む。
本発明のプログラムは、コンピュータに、特定種類に分類された第1リンク情報を記憶手段に記憶する記憶手順と、複数の電子情報を入手する入手手順と、前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手順と、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手順と、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手順と、を実行させる。
本発明によれば、多くの電子情報の中から特定の電子情報を探し出していく調査作業を行う作業者の負担を少なくすることが可能になる。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明の一実施形態のURL(Uniform Resource Locator)抽出装置を示したブロック図である。URL抽出装置は、一般的にリンク情報抽出装置と呼ぶことができる。URLは、一般的にリンク情報と呼ぶことができる。
図1において、URL抽出装置1は、利用者PC(Personal Computer)2とブログサーバ3とネットワーク4のそれぞれと接続される。
利用者PC2は、URL抽出装置1の利用者によって使用される。利用者PC2は、例えば、利用者の操作に応じて、URL抽出装置1に動作開始信号を提供する。
ブログサーバ3は、一般的に記憶装置と呼ぶことができる。ブログサーバ3は、複数のブログを記憶するブログ記憶部31を含む。ブログは、一般的に電子情報と呼ぶことができる。
URL抽出装置1は、ブラックリストDB(database)11と、ブログ取得部12と、分類部13と、生成部14と、出力部15と、を含む。分類部13は、記憶部13aと、抽出部13bと、比較部13cと、を含む。出力部15は、ホワイトリストDB15aと、出力制御部15bと、を含む。
ブラックリストDB11は、一般的に記憶手段と呼ぶことができる。
ブラックリストDB11は、スプログに記載されたURLが属する種類に分類されたURL(以下「ブラックリストURL」と称する)を記憶する。スプログに記載されたURLが属する種類は、一般的に特定種類と呼ぶことができる。
ブラックリストURLは、一般的に第1URLまたは第1リンク情報と呼ぶことができる。なお、ブラックリストURLは、1つでもよいし複数でもよい。以下では、複数のブラックリストURLがブラックリストDB11内に存在するものとして説明する。
ブログ取得部12は、一般的に入手手段と呼ぶことができる。
ブログ取得部12は、利用者PC2とブログサーバ3とネットワーク4のそれぞれと通信可能である。ブログ取得部12は、複数のブログを入手する。
本実施形態では、ブログ取得部12は、利用者PC2から動作開始信号を受け付けると、ブログサーバ3内のブログ記憶部31から、複数のブログを取得することによって、複数のブログを入手する。
なお、ブログ取得部12は、利用者PC2から複数のブログを受け付けることによって、複数のブログを入手してもよい。
ブログ取得部12は、複数のブログを入手すると、その複数のブログを、分類部13に提供する。
分類部13は、一般的に分類手段と呼ぶことができる。
分類部13は、ブログ取得部12から複数のブログを受け付けると、ブログのそれぞれを、ブラックリストDB11内のブラックリストURLが記載されているブログ(以下「第1ブログ」と称する)と、ブラックリストDB11内のブラックリストURLが記載されていないブログ(以下「第2ブログ」と称する)と、に分類する。
第1ブログは、一般的に第1電子情報と呼ぶことができる。第2ブログは、一般的に第2電子情報と呼ぶことができる。
記憶部13aは、分類部13の分類結果を記憶する。
抽出部13bは、ブログ取得部12から提供されたブログごとに、ブログに記載されたURLを抽出する。
ブログに記載されたURLは、少なくとも、ブログのリンクタグに記載されている、リンク先のURLである。なお、ブログに記載されたURLは、ブログのリンクタグに記載されている、リンク先のURLと、ブログの本文に記載されているURLと、の両方でもよい。
抽出部13bは、ブログごとに、ブログから抽出されたURLと、ブログの識別情報(例えば、ブログのURLまたはIPアドレスまたはブログそのもの)と、を関連づける。抽出部13bは、その関連づけられたURLとブログの識別情報とを、比較部13cに提供する。
比較部13cは、抽出部13bからURLとブログの識別情報とを受け付けると、受け付けられたURLと、ブラックリストDB11内のブラックリストURLと、を比較する。
受け付けられたURLに、ブラックリストURLのいずれかが含まれる(該当する)と、比較部13cは、ブラックリストURLを含むURLに関連づけられているブログの識別情報に、スプログを意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
一方、受け付けられたURLに、ブラックリストURLのいずれもが含まれない(該当しない)と、比較部13cは、ブラックリストURLを含まないURLに関連づけられているブログの識別情報に、正常を意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
図2は、記憶部13aに記憶されたブログの識別情報の一例を示した説明図である。図2では、記載を簡単にするために、ブログの識別情報としてブログ名を使用している。
スプログを意味するフラグが付けられたブログ(例えば、図2に示したブログA〜C)は、第1ブログとなる。正常を意味するフラグが付けられたブログ(例えば、図2に示したブログD〜G)は、第2ブログとなる。
図1に戻って、生成部14は、一般的に生成手段と呼ぶことができる。
生成部14は、第1ブログに、ブラックリストURL以外のURL(以下「非該当URL」と称する)が記載されている場合に、非該当URLに基づいて、第3URLを生成する。なお、非該当URLは、一般的に第2URLまたは第2リンク情報と呼ぶことができる。また、第3URLは、一般的に第3リンク情報と呼ぶことができる。
例えば、生成部14は、非該当URL内にスラッシュが存在する場合、非該当URLと同一のURLを分解URLとして生成し、さらに、非該当URLから、非該当URL内のスラッシュ以下の部分を削除して、分解URLを生成する。各分解URLは、第3URLに対応する。
なお、非該当URL内に複数のスラッシュが存在する場合、生成部14は、非該当URLと同一のURLを分解URLとして生成し、さらに、スラッシュごとに、非該当URLからそのスラッシュ以下の部分を削除して、複数の分解URLを生成する。生成部14は、分解URLを出力部15に提供する。
出力部15は、一般的に出力手段と呼ぶことができる。
出力部15は、分解URLが、スプログに記載されたURLに分類される可能性の程度を表す可能性情報(以下「スコア」と称する)を、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて生成する。
例えば、出力部15は、分解URLごとに、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて、スコアを生成する。
出力部15は、そのスコアとその分解URLとを、互いに関連づけて、利用者PC2にリスト形式で出力する。以下、このリスト形式の出力を、出力リストと称する。
なお、出力部15は、複数の分解URLの中に、関連するスコアが示す可能性の程度が他の分解URLよりも高く、かつ、該他の分解URLに属する、特定URLが存在する場合、該他の分解URLを、出力リストから削除する。この場合、出力部15は、他の分解URLが削除された出力リストを、利用者PC2に出力する。
また、出力部15は、分解URLと関連づけられたスコアが示す可能性の程度が、予め設定された値を超える場合、その分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶する。
なお、利用者PC2が、出力部15からの出力リストを表示している間、利用者が、その出力リストを見ながら利用者PC2を操作して、リスト内の任意の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶してもよい。この場合、出力部15は、分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶しなくてもよい。
また、分解URLが、新たなブラックリストURLとして、ブラックリストDB11に追加記憶されると、分類部13(具体的には、比較部13c)は、既に第2ブログと分類されたブログのうち、新たなブラックリストURLが記載されているブログを、第1ブログに再分類し、第1ブログを示すリスト(例えば、第1ブログのURLを示したURLリスト)を、利用者PC2に出力する。
このリストには、最初から第1ブログに分類されたブログ、および、第2ブログに分類された後に第1ブログに再分類されたブログ(例えば、そのブログのURL)が示される。
ホワイトリストDB15aは、一般的に格納手段と呼ぶことができる。
ホワイトリストDB15aは、スプログに記載されたURLに分類されないURL(以下「ホワイトリストURL」と称する)を格納する。ホワイトリストURLは、一般的に第4URLまたは第4リンク情報と呼ぶことができる。
出力制御部15bは、一般的に出力制御手段と呼ぶことができる。
出力制御部15bは、出力部15が行う上記処理を実行する。また、出力制御部15bは、分解URLが、ホワイトリストDB15aに格納されていると、その分解URLを出力リストから削除する。
出力制御部15bは、上述したような分解URLの削除処理が行われた出力リストを、利用者PC2に出力する。
なお、図1に示したURL抽出装置1は、CD−ROM、ハードディスクまたはメモリに記録されたプログラムに従って動作するコンピュータによって実現されてもよい。CD−ROM、ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。
この場合、コンピュータは、そのプログラムを記録媒体から読み取り実行することによって、ブラックリストDB11、ブログ取得部12、分類部13、生成部14、および、出力部15として機能し、URL抽出装置1が実現される。
次に、動作を説明する。
図3は、URL抽出装置1の動作を説明するためのフローチャートである。以下、図3を参照してURL抽出装置1の動作を説明する。
ステップ301では、ブログ取得部12は、利用者PC2から動作開始信号を受け付けると、ブログサーバ3内のブログ記憶部31から複数のブログを入手し、その複数のブログを分類部13(具体的には、抽出部13b)に提供する。
続いて、ステップ302では、抽出部13bは、ブログ取得部12から複数のブログを受け付けると、ブログごとに、ブログに記載されたURLを抽出する。
本実施形態では、抽出部13bは、対象ブログの本文とリンクの中から、リンクタグ(HTML(HyperText Markup Language)形式の場合 <a href="リンク先のURL">リンク名</a>)を検索し、リンク先のURLを抽出する。さらに、抽出部13bは、対象ブログの本文に記載されているURLを抽出する。
抽出部13bは、ブログごとに、ブログから抽出されたURLとブログの識別情報とを関連づけ、その関連づけられたURLとブログの識別情報とを、比較部13cに提供する。
続いて、ステップ303では、比較部13cは、抽出部13bからURLとブログの識別情報とを受け付けると、受け付けられたURLと、ブラックリストDB11内のブラックリストURLと、を比較する。
受け付けられたURLに、ブラックリストURLのいずれかが含まれる(該当する)と、比較部13cは、ブラックリストURLを含むURLに関連づけられているブログの識別情報に、スプログを意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
一方、受け付けられたURLに、ブラックリストURLのいずれもが含まれない(該当しない)と、比較部13cは、ブラックリストURLを含まないURLに関連づけられているブログの識別情報に、正常を意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
続いて、ステップ304では、生成部14は、スプログとフラグ付けされたブログ(第1ブログ)に記載された全てのURLの中から、ブラックリストDB11に記憶されたブラックリストURLに該当しなかった非該当URLを抽出する。
続いて、ステップ305では、生成部14は、非該当URLに基づいて、分解URLを生成する。
例えば、非該当URL内に複数のスラッシュが存在する場合、生成部14は、非該当URLと同一のURLを分解URLとして生成し、さらに、スラッシュごとに、非該当URLからそのスラッシュ以下の部分を削除して、複数の分解URLを生成する。
換言すると、生成部14は、非該当URLを、ドメインを含むディレクトリが「/(スラッシュ)」のいずれかで区切られる全てのパターンに分解して、分解URLを生成する。
例えば、非該当URLが「http://ドメイン/ディレクトリ1/ディレクトリ2/ディレクトリ3」である場合、生成部14は、「ドメイン」、「ドメイン/ディレクトリ1」、「ドメイン/ディレクトリ1ディレクトリ2」、「ドメイン/ディレクトリ1/ディレクトリ2/ディレクトリ3」というように、ドメインを含む全通りパターンを、分解URLとして生成する。
ただし、生成部14は、「ディレクトリ1」、「ディレクトリ2/ディレクトリ3」等のように、ドメインを含まない全通りのパターンを、分解URLとして生成しても構わない。
また、ドメインが、サブドメインを含む場合、生成部14は、ドメインを、サブドメインとメインドメインの間で区切り、その区切り結果を、分解URLに加えても構わない。
例えば、非該当URLが「http://サブドメイン.メインドメイン/・・・」である場合、生成部14は、「サブドメイン.メインドメイン」、「メインドメイン」などを、分解URLとして生成してもよい。
生成部14は、分解URLを出力部15に提供する。
続いて、ステップ306では、出力部15(具体的には、出力制御部15b)は、分解URLごとに、スコアを、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて生成する。
出力制御部15bは、そのスコアとその分解URLとを、互いに関連づけて、スコアに基づき順位付けして、リスト形式で出力する。このリスト形式の出力は、出力リストとして利用される。
ここで、出力制御部15bによるスコアの算出例を説明する。
スコア例1:〔「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数/「分解URLを含み」and「全対象ブログ(のリンク先URL)」を満たすブログの数〕にて演算される値(以下「第1値」と称する)を、スコアとして使用する。
なお、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数は、対象となる分解URL(以下「対象分解URL」と称する)を含むブログのうち、スプログと認定されているブログの数を意味する。
また、「分解URLを含み」and「全対象ブログ(のリンク先URL)」を満たすブログの数は、対象分解URLを含むブログの数を意味する。
よって、第1値は、対象分解URLを含むブログのうち、スプログと認定されているブログの割合を示す。
このため、第1値が1に近いほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数と、第2ブログのうち対象分解URLが記載されているブログの数と、の和を算出することによって、対象分解URLを含むブログの数を求める。
出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうちスプログと認定されているブログの数を求める。
したがって、出力制御部15bは、対象分解URLと、第1ブログと、第2ブログと、に基づいて、第1値を求めることになる。
この場合、さらに、スコアとして、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数(以下「第2値」と称する)が追加されてもよい。
第2値は、対象分解URLを含むブログのうちスプログと認定されているブログの数を示す。なお、出力制御部15bは、対象分解URLと、第1ブログと、に基づいて、第2値を求めることになる。
このため、例えば、分解URL同士で第1値が等しい場合、第2値が大きいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
スコア例2:〔「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数/スプログと認定されたブログ(のリンク先URL)の数〕にて演算される値(以下「第3値」と称する)を、スコアとして使用する。
なお、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数は、スプログと認定されたブログのうち、対象分解URLを含むブログの数を意味する。
よって、第3値は、スプログと認定されたブログのうち、対象分解URLを含むブログの割合を示す。
このため、第3値が1に近いほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
なお、出力制御部15bは、第1ブログの数をカウントすることによって、スプログと認定されたブログの数を求める。
また、出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうちスプログと認定されているブログの数を求める。
したがって、出力制御部15bは、対象分解URLと、第1ブログと、に基づいて、第3値を求めることになる。
この場合、さらに、スコアとして、〔「分解URLを含み」and「正常なブログと認定されたブログ(のリンク先URL)」を満たすブログの数/正常なブログと認定されたブログ(のリンク先URL)の数〕にて演算される値(以下「第4値」と称する)が追加されてもよい。
なお、「分解URLを含み」and「正常なブログと認定されたブログ(のリンク先URL)」を満たすブログの数は、正常と認定されたブログのうち、対象分解URLを含むブログの数を意味する。
よって、第4値は、正常と認定されているブログのうち、対象分解URLを含むブログの割合を示す。
このため、第4値が小さいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
よって、例えば、分解URL同士で第3値が等しい場合、第4値が小さいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
出力制御部15bは、第2ブログの数をカウントすることによって、正常と認定されたブログの数を求める。
出力制御部15bは、第2ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうち正常と認定されているブログの数を求める。
したがって、出力制御部15bは、対象分解URLと、第2ブログと、に基づいて、第4値を求めることになる。
なお、出力制御部15bによるスコアの算出は、スコア例1、2に限らず適宜変更可能である。
例えば、スコア例2では、第3値をスコアとして用いて、第4値を補助的なスコアとして用いたが、第4値をスコアとして用いてもよい。この場合、第3値が補助的なスコアとして用いられることが望ましい。
続いて、ステップ307では、出力制御部15bは、出力リスト上の分解URLを、ホワイトリストDB15aに記憶されたホワイトリストURLと比較し、両者が完全一致していると、出力リストから、その分解URLを削除する。
例えば、ホワイトリストURLとして「www.***.jp」が記憶されていると、出力制御部15bは、分解URL「www.***.jp」を削除するが、分解URL「www.***.jp/spam」を削除しない。
続いて、ステップ308では、上位スコアの分解URLが、下位スコアの分解URL全てを含む、もしくは、下位スコアの分解URLに属する場合、出力制御部15bは、その下位スコアの分解URLを、出力リストから削除する。出力制御部15bは、その出力リストを、利用者PC2に出力する。
続いて、ステップ309では、出力制御部15bは、出力リスト上の分解URLのうち、既定のスコア以上の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶する。
なお、利用者PC2が、出力部15からの出力リストを表示している間、利用者が、その出力リストを見ながら利用者PC2を操作して、リスト内の任意の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶してもよい。
この場合、ブラックリストDB11に追加記憶するブラックリストURL候補が、利用者に提供されるため、利用者は、その候補の中から、新たなブラックリストURLを適宜選択すればよい。よって、利用者がブラックリストURLを探し出す作業を軽減することが可能になる。
続いて、ステップ310では、比較部13cは、正常なブログとフラグ付け(認定)された第1ブログと、更新されたブラックリストDB11内のブラックリストURLと、を比較し、ブラックリストURLが記載されている第1ブログのフラグを、記憶部13a上でスプログに変更(認定)記憶する。
続いて、ステップ311では、比較部13cは、スプログのフラグがついたブログのリスト(例えば、スプログのフラグがついたブログのURLのリスト)を抽出し、そのリストを、利用者PC2に出力したり、そのリスト上のブログを削除、もしくは、そのブログへのリンクを削除したりする。
このため、スプログのフラグがついたブログ、または、そのブログのURLリストを抽出することができ、精度よくスプログを除外することが可能になる。
なお、URLのリストが利用者PC2に出力された場合、利用者PC2の利用者が、そのリストを見ながら、リストに示されたブログを削除、もしくは、そのブログへのリンクを削除したりしてもよい。
この場合、スプログ候補が、利用者に提供されるため、利用者は、その候補の中から、スプログを適宜選択して、そのスプログを削除、もしくは、そのスプログへのリンクを削除すればよい。よって、利用者がスプログを探し出す作業を軽減することが可能になる。
次に、具体的な例を用いて、URL抽出装置1の動作を説明する。
図4は、ブログ取得部12が抽出部13bに提供したブログの一例(ブログA)を示した説明図である。
図5は、ブラックリストDB11内のブラックリストURLを示した説明図である。
この場合、ステップ302では、抽出部13bは、ブログAから、「http://domain1/dir1/dir2/dir3/」と「http://domein2/dir4/dir5/dir6/」を抽出する。
続いて、ステップ303では、比較部13cは、「http://domain1/dir1/dir2/dir3/」にブラックリストURL「domain1/dir1」が含まれる(「domain1/dir1/dir2/dir3/」がブラックリストURL「domain1/dir1」の配下である)ため、「http://domain1/dir1/dir2/dir3/」がブラックリストURL「domain1/dir1」に該当すると判断し、ブログAをスプログとフラグ付けして記憶部13aに記憶する。
続いて、ステップ304では、生成部14は、ブログAのリンク先URLから、ブラックリストURLに該当しない「http://domein2/dir4/dir5/dir6/」を、非該当URLとして抽出する。
続いて、ステップ305では、生成部14は、非該当URLである「http://domein2/dir4/dir5/dir6/」から、分解URLとして、「domain2」、「domain2/dir4」、「domain2/dir4/dir5」および「domain2/dir4/dir5/dir6」を生成する。以下、記載を簡単にするために「domain2/dir4/dir5」、「domain2/dir4/dir5/dir6」についての説明は省略する。
ステップ306については、以下の状況での動作を説明する。なお、ステップ306は、出力制御部15bによって行われる。
スプログとフラグ付けられたブログを、「ブログA」、「ブログB」、「ブログC」とし、正常なブログとフラグ付けされたブログを、「ブログD」、「ブログE」、「ブログF」、「ブログG」とする。
「domain2」を含むブログを、「ブログA」、「ブログB」、「ブログD」、「ブログE」とし、「domain2」を含まないブログを、「ブログC」、「ブログF」、「ブログG」とする。
「domain2/dir4」を含むブログを、「ブログA」、「ブログB」とし、「domain2/dir4」を含まないブログを、「ブログC」、「ブログD」、「ブログE」、「ブログF」、「ブログG」とする。
(スコア例1の計算例)
・分解URL「domain2」について
分解URL「domain2」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
対象ブログ全体の中で分解URL「domain2」を含むブログの数:4(ブログA、B、DおよびE)
よって、分解URL「domain2」のスコア=2/4=0.5
なお、2/4=0.5は、分解URL「domain2」を含むブログのうち、スプログと認定されているブログの割合を示す。
・分解URL「domain2/dir4」について
分解URL「domain2/dir4」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
対象ブログ全体の中で分解URL「domain2/dir4」を含むブログの数:2(ブロブAおよびB)
よって、分解URL「domain2/dir4」のスコア=2/2=1.0
なお、2/2=1.0は、分解URL「domain2/dir4」を含むブログのうち、スプログと認定されているブログの割合を示す。
・スコアによる順位付け
スコアが、分解URL「domain2」より分解URL「domain2/dir4」が高いので、分解URL「domain2/dir4」が分解URL「domain2」よりも上位となる。
(スコア例2の計算例)
・分解URL「domain2」について
分解URL「domain2」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
スプログとフラグ付けられたブログの数:3(ブログA、BおよびC)
よって、分解URL「domain2」のスコア=2/3=0.67
なお、2/3=0.67は、スプログと認定されたブログのうち、分解URL「domain2」を含むブログの割合を示す。
分解URL「domain2」を含み、かつ、正常なブログとフラグが付けられたブログの数:2(ブロブDおよびE)
正常なブログとフラグが付けられたブログの数:4(ブログD、E、FおよびG)
分解URL「domain2」のもう一つのスコア=2/4=0.5
なお、2/4=0.5は、正常と認定されたブログのうち、分解URL「domain2」を含むブログの割合を示す。
・分解URL「domain2/dir4」について
分解URL「domain2/dir4」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブログAおよびB)
スプログとフラグ付けられたブログの数:3(ブログA、BおよびC)
よって、分解URL「domain2/dir4」のスコア=2/3=0.67
なお、2/3=0.67は、スプログと認定されたブログのうち、分解URL「domain2/dir4」を含むブログの割合を示す。
分解URL「domain2/dir4」を含み、かつ、正常なブログとフラグが付けられたブログの数:0
正常なブログとフラグが付けられたブログの数:4(ブログD、E、FおよびG)
分解URL「domain2/dir4」のもう一つのスコア=0/4=0.0
なお、0.0は、正常と認定されたブログのうち、分解URL「domain2/dir4」を含むブログの割合を示す。
・スコアによる順位付け
スコアが分解URL「domain2」と分解URL「domain2/dir4」とで同じだが、もう一つのスコアが分解URL「domain2/dir4」の方が低いので、分解URL「domain2」より分解URL「domain2/dir4」が上位となる。
出力制御部15bは、そのスコアとその分解URLとを、互いに関連づけて、スコアに基づき順位付けして、出力リストを生成する。
図6は、スコア例1を用いて生成された出力リストを示した説明図である。
図7は、ホワイトリストDB15a内のホワイトリストURLを示した説明図である。
続いて、ステップ307では、図6に示した出力リスト上の分解URL「domain4/dir9」が、図7に示したホワイトリストDB15a内のホワイトリストURL「domain4/dir9」に完全一致するので、出力制御部15bは、出力リストから、分解URL「domain4/dir9」を削除する。
図8は、図6に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
続いて、ステップ308では、出力リストの1位の分解URL「domain2/dir4」の一部を含む分解URL「domain2」が6位に存在するので、出力制御部15bは、出力リストから、6位の分解URL「domain2」を削除する。
図9は、図8に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
続いて、ステップ309では、出力制御部15bは、出力リスト内の分解URLのうち、既定のスコア(例えば、0.8とする)以上の分解URL「domain2/dir4」等を、ブラックリストDB11に追加する。
図10は、図5に示したブラックリストDB11に、新たなブラックリストURLとして、分解URL「domain2/dir4」が追加された状態を示した説明図である。
続いて、ステップ310では、分類部13は、既に第2ブログと分類されたブログ(ブログD、E、FおよびG)のうち、新たなブラックリストURLが記載されているブログを、第1ブログに再分類する。
続いて、ステップ311では、分類部13は、第1ブログを示すリスト(例えば、第1ブログのURLを示したURLリスト)を、利用者PC2に出力する。
上記実施形態では、電子情報としてブログを用いたが、電子情報は、ブログに限らず、HP、電子メールでもよい。
また、上記実施形態において、ステップ306とステップ307の順序を逆にしてもよい。この場合、ホワイトリストURLのスコアを算出する処理を省略できる。よって、処理の簡略化を図ることが可能になる。
また、上記実施形態において、スプログを、ある特定のブログ(例えば、ある同一の興味を持つ人のブログ、あるカテゴリのブログなど)とし、ブラックリストURLを、その特定のブログのURLとし、正常なブログを、その他のブログとし、ホワイトリストURLを、その他のブログのURLとすることで、対象のブログをある特定のブログとその他のブログに分けることができ、その特定のブログ(のURL)を抽出することが可能になる。
この場合、例えば、同一興味を持つ人のブログのブックマークリストを作成できる。
次に、本実施形態の効果を説明する。
本実施形態では、分類部13は、電子情報のそれぞれを、特定種類に分類された第1URL(第1リンク情報)が記載されている第1電子情報と、第1URLが記載されていない第2電子情報と、に分類する。
生成部14は、第1電子情報に、第1URL以外の第2URL(第2リンク情報)が記載されている場合に、第2URLに基づいて、第3URL(第3リンク情報)を生成する。
出力部15は、第3URLのスコアを、その第3URLと、少なくとも第1電子情報または第2電子情報と、に基づいて生成し、スコアとその第3URLとを、互いに関連づけて出力する。
スコアは、第3URLが、特定種類に分類される可能性の程度を表す。
このため、電子情報を第1電子情報に分類するために使用される第1URLの候補として、第3URLを挙げることができると共に、第3URLを第1URLとして使用できる可能性を示すことができる。
よって、電子情報を第1電子情報に分類する作業を行う作業者を支援することが可能になる。したがって、作業者の負担を少なくすることが可能になる。
本実施形態では、特定種類として、スプログに記載されたURLが属する種類が用いられている。
この場合、電子情報をスプログに分類するために使用されるブラックリストURLの候補として、第3URLを挙げることができると共に、第3URLをブラックリストURLとして使用できる可能性を示すことができる。
このため、電子情報を、日々増殖していくスプログに分類する作業を行う作業者を支援することが可能になる。したがって、作業者の負担を少なくすることが可能になる。
本実施形態では、第2URL内にスラッシュが存在する場合、生成部14は、第2URLと同一のURLを、第3URLとして生成し、さらに、第2URLから、その第2URL内のスラッシュ以下の部分を削除して、第3URLを生成する。
この場合、第2URLと同一のURLの他に、第2URLに関連するURLを、第3URLとして生成することができる。
このため、第1URLについての多くの候補を挙げることができる。また、特定種類に分類されるURLの共通部分を、第1URLの候補として挙げることが可能になる。
本実施形態では、第2URL内に複数のスラッシュが存在する場合、生成部14は、第2URLと同一のURLを、第3URLとして生成し、さらに、スラッシュごとに、第2URLからそのスラッシュ以下の部分を削除して、複数の第3URLを生成する。
この場合、第1URLについてのより多くの候補を挙げることができる。また、特定種類に分類されるURLの共通部分を、第1URLの候補として挙げることが可能になる。
本実施形態では、出力部15は、複数の第3URLの中に、スコアが示す可能性の程度が他の第3URLよりも高く、かつ、該他の第3URLに属する、特定URLが存在する場合、該他の第3URLを削除する。
この場合、重複している可能性がある第3URLを削除することが可能になる。
本実施形態では、出力部15は、第3URLがホワイトリストDB15aに格納されていると、その第3URLを削除する。
この場合、既に特定種類に分類されないと判定されているURLを、第1URLの候補からはずすことが可能になる。
本実施形態では、出力部15は、第3URLと関連づけられたスコアが示す可能性の程度が、予め設定された値を超える場合、その第3URLを、新たな第1URLとして、ブラックリストDB11に追加記憶する。
この場合、特定種類に分類される可能性が高い第3URLを、新たな第1URLとして、自動的に、ブラックリストDB11に追加記憶することが可能になる。
本実施形態では、分類部13は、第3URLが、新たな第1URLとしてブラックリストDB11に追加記憶されると、第2電子情報のうち、新たな第1URLが記載されている第5電子情報を、第1電子情報に再分類し、第1電子情報を示すリストを出力する。
この場合、ブラックリストDB11の更新に伴って、分類をやり直すことができる。
本実施形態では、ブログ取得部12は、ブログサーバ3から複数の電子情報を取得する。
この場合、複数の電子情報の収集が容易になる。
以上説明した実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
例えば、各リンク情報は、ブログやホームページなどのURLに限らず、トラックバックURL、または、コメント元URLなどでもよい。
本発明の一実施形態のURL抽出装置を示したブロック図である。 記憶部13aに記憶されたブログの識別情報の一例を示した説明図である。 URL抽出装置1の動作を説明するためのフローチャートである。 ブログの一例(ブログA)を示した説明図である。 ブラックリストDB11内のブラックリストURLを示した説明図である。 スコア1を用いて生成された出力リストを示した説明図である。 ホワイトリストDB15a内のホワイトリストURLを示した説明図である。 図6に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。 図8に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。 図5に示したブラックリストDB11に、新たなブラックリストURLとして、分解URL「domain2/dir4」が追加された状態を示した説明図である。
符号の説明
1 URL抽出装置
11 ブラックリストDB
12 ブログ取得部
13 分類部
13a 記憶部
13b 抽出部
13c 比較部
14 生成部
15 出力部
15a ホワイトリストDB
15b 出力制御部
2 利用者PC
3 ブログサーバ
31 ブログ記憶部
4 ネットワーク

Claims (20)

  1. 第1URLを記憶する記憶手段と、
    複数の電子情報を入手する入手手段と、
    前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手段と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手段と、
    前記第3URLごとに、前記複数の電子情報のうち当該第3URLが記載されている電子情報の数、前記分類手段にて前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手段と、を含むリンク情報抽出装置。
  2. 第1URLを記憶する記憶手段と、
    複数の電子情報を入手する入手手段と、
    前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手段と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手段と、
    前記第3URLごとに、前記分類手段にて前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記分類手段にて前記第1電子情報に分類された電子情報の数で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手段と、を含むリンク情報抽出装置。
  3. 第1URLを記憶する記憶手段と、
    複数の電子情報を入手する入手手段と、
    前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手段と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手段と、
    前記第3URLごとに、前記分類手段にて前記第2電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記分類手段にて前記第2電子情報に分類された電子情報で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手段と、を含むリンク情報抽出装置。
  4. 請求項1から3のいずれか1項に記載のリンク情報抽出装置において、
    前記第1URLは、前記電子情報をスパムブログに分類するために使用されるURLであり、
    前記第3URLのスコアは、当該第3URLが前記スパムブログに記載されたURLに分類される可能性の程度を表す可能性情報である、リンク情報抽出装置。
  5. 請求項1から3のいずれか1項に記載のリンク情報抽出装置において、
    前記第1URLは、特定のブログのURLである、リンク情報抽出装置。
  6. 請求項1から5のいずれか1項に記載のリンク情報抽出装置において、
    前記生成手段は、前記第2URL内に複数のスラッシュが存在する場合、前記第2URLと同一のURLを、前記第3URLとして生成し、さらに、当該スラッシュごとに、前記第2URLから当該スラッシュ以下の部分を削除して、複数の前記第3URLを生成する、リンク情報抽出装置。
  7. 請求項1または2に記載のリンク情報抽出装置において、
    前記出力手段は、前記複数の第3URLの中に、前記スコアが他の第3URLよりも高く、かつ、当該他の第3URLに属する、特定URLが存在する場合、当該他の第3URLを削除する、リンク情報抽出装置。
  8. 請求項1または2に記載のリンク情報抽出装置において、
    前記出力手段は、前記第3URLと関連づけられたスコアが、予め設定された値を超える場合、当該第3URLを、新たな前記第1URLとして、前記記憶手段に追加記憶する、リンク情報抽出装置。
  9. 請求項に記載のリンク情報抽出装置において、
    前記分類手段は、前記第3URLが、前記新たな第1URLとして前記記憶手段に追加記憶されると、前記第2URLのうち、前記新たな第1URLが記載されている第5電子情報を、前記第1電子情報に再分類し、前記第1電子情報を示すリストを出力する、リンク情報抽出装置。
  10. 請求項1からのいずれか1項に記載のリンク情報抽出装置において、
    前記入手手段は、複数の電子情報を記憶する記憶装置と通信可能であり、当該記憶装置から当該複数の電子情報を取得することによって、前記複数の電子情報を入手する、リンク情報抽出装置。
  11. リンク情報抽出装置が行うリンク情報抽出方法であって、
    第1URLを記憶手段に記憶する記憶ステップと、
    複数の電子情報を入手する入手ステップと、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類ステップと、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成ステップと、
    前記第3URLごとに、前記複数の電子情報のうち当該第3URLが記載されている電子情報の数、前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力ステップと、を含むリンク情報抽出方法。
  12. リンク情報抽出装置が行うリンク情報抽出方法であって、
    第1URLを記憶手段に記憶する記憶ステップと、
    複数の電子情報を入手する入手ステップと、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類ステップと、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成ステップと、
    前記第3URLごとに、前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記第1電子情報に分類された電子情報の数で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力ステップと、を含むリンク情報抽出方法。
  13. リンク情報抽出装置が行うリンク情報抽出方法であって、
    第1URLを記憶手段に記憶する記憶ステップと、
    複数の電子情報を入手する入手ステップと、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類ステップと、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成ステップと、
    前記第3URLごとに、前記第2電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記第2電子情報に分類された電子情報で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力ステップと、を含むリンク情報抽出方法。
  14. 請求項11から13のいずれか1項に記載のリンク情報抽出方法において、
    前記第1URLは、前記電子情報をスパムブログに分類するために使用されるURLであり、
    前記第3URLのスコアは、当該第3URLが前記スパムブログに記載されたURLに分類される可能性の程度を表す可能性情報である、リンク情報抽出方法。
  15. 請求項11から13のいずれか1項に記載のリンク情報抽出方法において、
    前記第1URLは、特定のブログのURLである、リンク情報抽出方法。
  16. コンピュータに、
    第1URLを記憶手段に記憶する記憶手順と、
    複数の電子情報を入手する入手手順と、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手順と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手順と、
    前記第3URLごとに、前記複数の電子情報のうち当該第3URLが記載されている電子情報の数、前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手順と、を実行させるためのプログラム。
  17. コンピュータに、
    第1URLを記憶手段に記憶する記憶手順と、
    複数の電子情報を入手する入手手順と、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手順と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手順と、
    前記第3URLごとに、前記第1電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記第1電子情報に分類された電子情報の数で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手順と、を実行させるためのプログラム。
  18. コンピュータに、
    第1URLを記憶手段に記憶する記憶手順と、
    複数の電子情報を入手する入手手順と、
    前記入手された電子情報のそれぞれを、前記記憶手段内の第1URLが記載されている第1電子情報と、当該第1URLが記載されていない第2電子情報と、に分類する分類手順と、
    前記第1電子情報に、前記第1URL以外の第2URLが記載されており、かつ、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLと、前記第2URLから前記スラッシュ以下の部分を削除したURLとを、それぞれ、第3URLとして生成する生成手順と、
    前記第3URLごとに、前記第2電子情報に分類された電子情報のうち当該第3URLが記載されている電子情報の数を、前記第2電子情報に分類された電子情報で割ることによって、当該第3URLのスコアを生成し、当該第3URLのスコアと当該第3URLとを、互いに関連づけて出力する出力手順と、を実行させるためのプログラム。
  19. 請求項16から18のいずれか1項に記載のプログラムにおいて、
    前記第1URLは、前記電子情報をスパムブログに分類するために使用されるURLであり、
    前記第3URLのスコアは、当該第3URLが前記スパムブログに記載されたURLに分類される可能性の程度を表す可能性情報である、プログラム。
  20. 請求項16から18のいずれか1項に記載のプログラムにおいて、
    前記第1URLは、特定のブログのURLである、プログラム。
JP2008212923A 2008-08-21 2008-08-21 リンク情報抽出装置、リンク情報抽出方法およびプログラム Active JP4636473B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008212923A JP4636473B2 (ja) 2008-08-21 2008-08-21 リンク情報抽出装置、リンク情報抽出方法およびプログラム
US12/536,781 US8433666B2 (en) 2008-08-21 2009-08-06 Link information extracting apparatus, link information extracting method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008212923A JP4636473B2 (ja) 2008-08-21 2008-08-21 リンク情報抽出装置、リンク情報抽出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010049473A JP2010049473A (ja) 2010-03-04
JP4636473B2 true JP4636473B2 (ja) 2011-02-23

Family

ID=41697271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008212923A Active JP4636473B2 (ja) 2008-08-21 2008-08-21 リンク情報抽出装置、リンク情報抽出方法およびプログラム

Country Status (2)

Country Link
US (1) US8433666B2 (ja)
JP (1) JP4636473B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066980A (ja) * 2008-09-10 2010-03-25 Kddi Corp スパムブログ検知装置、スパムブログ検知方法及びプログラム
CA2722980C (fr) * 2009-12-01 2019-01-08 Inside Contactless Procede de controle d`acces a une interface sans contact dans un circuit integre a double interface de communication avec et sans contact
JP5165720B2 (ja) * 2010-03-31 2013-03-21 ヤフー株式会社 スパムブログ抽出装置及び方法
JP5749053B2 (ja) * 2010-03-31 2015-07-15 株式会社ブロードバンドセキュリティ ファイルのアップロード遮断システム及びファイルのアップロード遮断方法
JP5623983B2 (ja) * 2011-06-14 2014-11-12 Kddi株式会社 Id割当装置、方法及びプログラム
WO2013041022A1 (zh) * 2011-09-22 2013-03-28 北京奇虎科技有限公司 一种网址导航页面生成方法、装置以及程序
US12019613B2 (en) * 2019-07-18 2024-06-25 EMC IP Holding Company LLC Data integrity and consensuses with blockchain
CN111031024B (zh) * 2019-12-07 2022-02-11 杭州安恒信息技术股份有限公司 一种暗链验证平台及其暗链验证方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8117195B1 (en) * 2006-03-22 2012-02-14 Google Inc. Providing blog posts relevant to search results
JP4679461B2 (ja) 2006-07-28 2011-04-27 Necビッグローブ株式会社 サイトサービス装置、サイトサービスシステム、サイト管理方法、及びプログラム
US8260910B2 (en) * 2006-09-19 2012-09-04 Oracle America, Inc. Method and apparatus for monitoring a data stream to detect a pattern of data elements using bloom filters
US20080091708A1 (en) * 2006-10-16 2008-04-17 Idalis Software, Inc. Enhanced Detection of Search Engine Spam
US20080114755A1 (en) * 2006-11-15 2008-05-15 Collective Intellect, Inc. Identifying sources of media content having a high likelihood of producing on-topic content
US7788264B2 (en) * 2006-11-29 2010-08-31 Nec Laboratories America, Inc. Systems and methods for classifying content using matrix factorization
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US8010527B2 (en) * 2007-06-29 2011-08-30 Fuji Xerox Co., Ltd. System and method for recommending information resources to user based on history of user's online activity
JP4429356B2 (ja) * 2007-12-26 2010-03-10 富士通株式会社 属性抽出処理方法及び装置
US8150779B1 (en) * 2009-06-01 2012-04-03 Symantec Corporation Validating the detection of spam based entities in social networking contexts

Also Published As

Publication number Publication date
US8433666B2 (en) 2013-04-30
US20100049688A1 (en) 2010-02-25
JP2010049473A (ja) 2010-03-04

Similar Documents

Publication Publication Date Title
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP4708436B2 (ja) 信頼性のある文書の識別
JP5420243B2 (ja) 所望リポジトリの判定
JP4922692B2 (ja) 検索クエリー作成装置
US7895515B1 (en) Detecting indicators of misleading content in markup language coded documents using the formatting of the document
JP2005085285A5 (ja)
JP2014112433A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
JP2011138248A (ja) 検索支援プログラム、検索支援装置、及び検索支援方法
JP5676522B2 (ja) 文字列変換方法及びプログラム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP2009122807A (ja) 連想検索システム
JP2004151855A (ja) 電子文書検索システム
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP4853915B2 (ja) 検索システム
JP4189387B2 (ja) 知識検索システム、知識検索方法及びプログラム
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2009271798A (ja) 業界マップ生成システム
CN115048483A (zh) 信息管理系统
JP5055202B2 (ja) キーワード比較システム、キーワード比較方法およびキーワード比較プログラム
JP2009199356A (ja) ファイルイベント相関生成装置、管理装置、及びコンピュータプログラム
JP2018072873A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5334639B2 (ja) 情報処理装置、データ記憶方法及びプログラム、並びに情報処理システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101116

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4636473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250