JP2007188356A - 不正ハイパーリンク検出装置及びその方法 - Google Patents

不正ハイパーリンク検出装置及びその方法 Download PDF

Info

Publication number
JP2007188356A
JP2007188356A JP2006006720A JP2006006720A JP2007188356A JP 2007188356 A JP2007188356 A JP 2007188356A JP 2006006720 A JP2006006720 A JP 2006006720A JP 2006006720 A JP2006006720 A JP 2006006720A JP 2007188356 A JP2007188356 A JP 2007188356A
Authority
JP
Japan
Prior art keywords
hyperlink
link
word
source
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006006720A
Other languages
English (en)
Other versions
JP4767694B2 (ja
Inventor
Noriko Oshima
紀子 大島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006006720A priority Critical patent/JP4767694B2/ja
Priority to CNB2007100013177A priority patent/CN100462976C/zh
Priority to US11/623,135 priority patent/US8359294B2/en
Publication of JP2007188356A publication Critical patent/JP2007188356A/ja
Application granted granted Critical
Publication of JP4767694B2 publication Critical patent/JP4767694B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ハイパーリンクの意味的不整合を高精度で検出可能な不正ハイパーリンク検出装置を提供する。
【解決手段】不正ハイパーリンク検出装置10は、リンク元のHTMLファイル26からテキストを抽出するリンク元テキスト抽出部12と、リンク先のHTMLファイル26からテキストを抽出するリンク先テキスト抽出部14と、抽出されたテキストを単語に分解する形態素解析部16と、品詞ごとに重み付けをする重み付け部18と、リンク元の単語がリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出し、リンク先の単語がリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する整合率算出部20と、両整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出部22手段と、整合率及び関連度をCSV形式で出力するCSV出力部24とを備える。
【選択図】図1

Description

本発明は、不正ハイパーリンク検出装置及びその方法に関し、さらに詳しくは、HTML(Hyper Text Markup Language)ファイルに張られたハイパーリンクの意味的不整合を検出する不正ハイパーリンク検出装置及びその方法に関する。
WWW(World Wide Web)においては、HTML形式で記述された多数の文書(以下「HTMLファイル」ともいう。)の間にハイパーリンク(以下単に「リンク」ともいう。)が張られる。リンクを張るためには、リンク元の文書内にリンク先のファイル名又はアンカー名(URL;Uniform Resource Locator)が埋め込まれる。リンクが正しく張られていると、ウェブブラウザは、リンクテキストに対するクリック操作に応じてリンク先のHTMLファイルにアクセスし、その文書を表示する。
しかしながら、リンクが間違って張られていると、エラーが表示されるか、全く関係のない文書が表示される。前者は「論理的不整合」と呼ばれ、最初から存在しないか、最初は存在したが、後から存在しなくなったファイル名又はアンカー名が埋め込まれている場合に起きる。一方、後者は「意味的不整合」と呼ばれ、実際には存在するが、意味的に間違ったファイル名が埋め込まれている場合に起きる。リンクの論理的不整合を自動的に検出できるツールは広く一般に提供されているが、リンクの意味的不整合を自動的に検出できるツールはまだ提供されていない。ただし、次のアイデアは既に提案されている。
特開2004−220193号公報(下記の特許文献1)は、HTMLサイトの作成者が意図するHTMLファイルのリンクによるサイト構成を実際のHTMLサイトが満たしているかを検査し、特にあるURLから他のURLに移動のために設けられたオブジェクトからのリンクが正しく張られているかどうかを容易に確認することができるHTMLリンク検査システムを開示している([要約]の[課題]参照)。このシステムは、複数の、ハイパーテキスト言語により作成されるHTMLファイルからなるウェブサイトに対して、あらかじめウェブ中のHTMLファイル同士のリンクによる関係を管理するサイト構成管理手段と、ウェブサイト中で利用される、所定オブジェクトにより張られるリンクについて、リンク元とリンク先のHTMLファイルの関係情報を管理する画像リンク管理手段と、HTML中のリンク情報を抽出するリンク情報抽出手段と、画像により張られるリンクがサイト構成管理手段に管理されている構成に沿っているか否かを検査するリンク検査手段とを備える([要約]の[解決手段]参照)。
しかしながら、このシステムでは、リンクを検査するために、HTMLサイトの作成者が意図するHTMLファイルのリンクによるサイト構成をあらかじめ登録しておかなければならない。
また、特開2004−139304号公報(下記の特許文献2)は、ハイパーテキストデータベースを対象とし、論理的に不整合(本発明でいう「意味的不整合」に相当)なリンク箇所及びその訂正候補を自動的に求めて訂正するハイパーテキスト検査装置を開示している([要約]の[課題]参照)。情報収集手段はハイパーテキストを構成するページ及びリンクに関する情報をハイパーテキストデータベースベースから収集して情報記憶部に記憶する。条件判定手段は、情報記憶部を参照し、リンク情報を項目毎にグループ化し、グループから外れた特異なリンクをリンク不整合として抽出する。候補計算手段は、条件判定手段が抽出した特異なリンクのリンク情報を、グループと同一のリンク情報にするような訂正候補を計算する。訂正反映手段は、条件判定手段が検出したリンク不整合の箇所と候補計算手段が計算した訂正候補とに基づいてハイパーテキストデータベースを更新する([要約]の[解決手段]参照)。条件判定手段は情報記憶部から、リンク元表記に含まれる単語がリンク先文書のタイトル、見出し、強調文字列に含まれないリンクを抽出し、不適正スコアを付与する(段落[0095]参照)。また、条件判定手段は、情報記憶部に格納されているリンクの、リンク元表記を単語に分割する。リンク元表記を単語に分割する方法としては、形態素解析を使う、字種の変わり目で切る、n文字毎に切るなどの方法がある(段落[0134]参照)。
この装置は、リンク元からリンク先への一方向にのみチェックを行い、リンク元表記に含まれている単語がリンク先表記に含まれていない場合にのみ不適正と判断している。そのため、たとえばリンク元表記が「People Finder ポートレットの構成」で、リンク先表記が「ピープル・ファインダー構成モード」の場合、不適正と判断することができない。リンク元表記に含まれている「構成」という単語がリンク先表記にも含まれているからである。また、この装置は、多対多のリンク関係を持った大規模な対象には適用できるが、1対1のリンク関係しか持たないような小規模な対象には、リンク元やリンク先の情報をグループ化することが不可能なために適用できない。
また、特開2005−173671号公報(下記の特許文献3)は、ハイパーテキストのリンクの論理的不整合(本発明でいう「意味的不整合」に相当)を自動検出するリンク診断装置を開示している([要約]の[課題]参照)。リンク特徴抽出手段は、リンクの論理的(意味的)な不整合らしさを示すリンク特徴情報として、(A)リンク単独で求めることができるリンク特徴情報、(B)リンクとリンク先の文書データとの関係にもとづいて求めることができるリンク特徴情報、又は(C)リンクを所定の条件に従ってグループ化した場合に求めることができるリンク特徴情報を抽出する。不整合学習手段は、各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める。不整合判定手段は、未判定のリンクのリンク特徴情報と不整合学習手段が求めた識別関数とを用いて、判定対象のリンクが不整合か否かを判定する([要約]の[解決手段]参照)。この装置にも上述したハイパーテキスト検査装置と同様の問題がある。
特開2004−220193号公報 特開2004−139304号公報 特開2005−173671号公報
本発明の目的は、ハイパーリンクの意味的不整合を検出可能な不正ハイパーリンク検出装置及びその方法を提供することである。
本発明のもう1つの目的は、検出精度の高い不正ハイパーリンク検出装置及びその方法を提供することである。
課題を解決するための手段及び発明の効果
本発明による不正ハイパーリンク検出装置は、第1の抽出手段と、第2の抽出手段と、形態素解析手段と、整合率算出手段と、関連度算出手段とを備える。第1の抽出手段は、ハイパーリンク元のHTMLファイルの中からテキストを抽出する。第2の抽出手段は、ハイパーリンク先のHTMLファイルの中からテキストを抽出する。形態素解析手段は、第1及び第2の抽出手段により抽出されたテキストを1又は2以上の単語に分解する。整合率算出手段は、形態素解析手段により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第1の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第2の整合率として算出する。関連度算出手段は、整合率算出手段により算出された第1及び第2の整合率に応じてハイパーリンクの確からしさを示す関連度を算出する。
この不正ハイパーリンク検出装置によれば、ハイパーリンク元からハイパーリンク先への一方向だけでなく、ハイパーリンク先からハイパーリンク元への逆方向でもチェックしているため、ハイパーリンクの意味的不整合を高い精度で検出することができる。
好ましくは、不正ハイパーリンク検出装置はさらに、整合率算出手段により第1及び第2の整合率を算出するために品詞ごとに重み付けをする重み付け手段を備える。
この場合、不正ハイパーリンクの検出精度はさらに高くなる。
本発明による不正ハイパーリンク検出方法は上記装置の動作方法である。本発明による不正ハイパーリンク検出プログラムはコンピュータを上記各手段として機能させるための物である。上記装置は上記プログラムをコンピュータにインストールすることにより生産される。上記方法は上記装置を使用することにより実施される。上記プログラムは上記装置の生産及び上記方法の使用に用いられる。
以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
図1を参照して、本発明の実施の形態による不正ハイパーリンク検出装置10は、リンク元テキスト抽出部12と、リンク先テキスト抽出部14と、形態素解析部16と、重み付け部18と、整合率算出部20と、関連度算出部22と、CSV(Comma Separated Values)出力部24とを備える。
リンク元テキスト抽出部12は、リンク元のHTMLファイル26の中からテキストを抽出する。リンク先テキスト抽出部14は、リンク先のHTMLファイル26の中からテキストを抽出する。形態素解析部16は、リンク元テキスト抽出部12及びリンク先テキスト抽出部14により抽出されたテキストを1又は2以上の単語に分解する。重み付け部18は、整合率算出部20により整合率を算出するために品詞ごとに重み付けをする。整合率算出部20は、形態素解析部16により得られた単語を参照し、リンク元の単語がリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出し、かつリンク先の単語がリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する。関連度算出部22は、整合率算出部20により算出された整合率に応じてリンクの確からしさを示す関連度を算出する。CSV出力部24は、整合率算出部20により算出された整合率及び関連度算出部22により算出された関連度をCSV形式で出力する。
リンク元テキスト抽出部12、リンク先テキスト抽出部14、形態素解析部16、重み付け部18、整合率算出部20、関連度算出部22、及びCSV出力部24は、コンピュータ(WWWサーバなど)のハードウェア資源(CPU(Central Processing Unit)、半導体メモリ、ハードディスク、キーボード、マウス、ディスプレイなど)により実現される。HTMLファイル26は、これと同じコンピュータ内の記憶媒体(ハードディスクなど)や、インターネット又はイントラネット経由で接続された他のコンピュータの記憶媒体に保存されている。
次に、不正ハイパーリンク検出装置10の動作を説明する。
図2を参照して、リンク元テキスト抽出部12は、リンクの意味的不整合を検出しようとする対象のHTMLファイル26の中からテキストを抽出する(S1)。具体的には図3を参照して、リンク元テキスト抽出部12は、リンク元のHTMLファイル26にアクセスし(S101)、そのHTMLファイル26を検索してリンクタグ(たとえば<A HREF="file001.html">リンクを指定する</A>)を見つけ出す(S102)。HREF属性(HREF="")にはリンク先のファイル名(本例では"file001.html")又はURLが記述され、<A HREF="">と</A>との間にはリンクテキスト(本例では「リンクを指定する」)が記述される。ウェブブラウザはリンクテキストを表示し、リンクテキストに対するクリック操作に応じてリンク先のHTMLファイルにアクセスする。リンク元テキスト抽出部12は、見つけ出したリンクタグ<A HREF="">及び</A>の間のリンクテキストを抽出する(S103)。
再び図2を参照して、リンク先テキスト抽出部14は、リンク先のHTMLファイル26の中からテキストを抽出する(S2)。具体的には図4を参照して、リンク先テキスト抽出部14は、リンク元テキスト抽出部12により見つけ出されたリンクタグがNAME属性を有しているか否かを判別する(S201)。リンクタグがNAME属性を有している場合、当該リンクはリンク先のHTMLファイル26内における特定位置を指定している。この場合、たとえば<A HREF="file001.html#anchor001">のように"#"の後にアンカー名(キーワード)(本例では"anchor001")が埋め込まれ、リンク先のHTMLファイル26内における特定位置には、<A NAME="anchor001">のように同じアンカー名が埋め込まれる。また、当該リンクがリンク元と同じHTMLファイル26(同一ページ)内における特定位置を指定する場合、たとえば<A HREF="#anchor001">のように"#"の前のファイル名が省略される。
リンクタグがNAME属性を有していない場合(S201でNO)、リンク先テキスト抽出部14は、リンク先のHTMLファイル26にアクセスし(S202)、そのHTMLファイル26を検索してタイトルタグ<TITLE>リンクの指定</TITLE>を見つけ出す(S203)。<TITLE>と</TITLE>との間にはタイトルテキスト(本例では「リンクの指定」)が記述される。ウェブブラウザはタイトルテキストをタイトルバーに表示する。
タイトルタグがある場合(S204でYES)、リンク先テキスト抽出部14は、見つけ出したタイトルタグ<TITLE>及び</TITLE>の間のタイトルテキストを抽出する(S205)。一方、タイトルタグがない場合(S204でNO)、リンク先テキスト抽出部14は、リンク先のHTMLファイル26を検索してヘッダタグ<HEAD>リンクを指定する方法の解説</HEAD>を見つけ出す(S206)。<HEAD>と</HEAD>との間にはヘッダテキスト(本例では「リンクを指定する方法の解説」)が記述される。ウェブブラウザはヘッダテキスト(タイトルテキストを除く)を何も表示しない。リンク先テキスト抽出部14は、見つけ出したヘッダタグ<HEAD>及び</HEAD>の間のヘッダテキストを抽出する(S207)。
一方、リンクタグがNAME属性を有している場合(S201でYES)、リンク先テキスト抽出部14は、当該リンクがリンク元と同じHTMLファイル26内における特定位置を指定しているか否か、つまり"#"の前のファイル名が省略されているか否かを判別する(S208)。当該リンクがリンク元と異なるHTMLファイル26内における特定位置を指定している場合(S208でNO)、リンク先テキスト抽出部14は、リンク先のHTMLファイル26にアクセスする(S209)。一方、当該リンクがリンク元と同じHTMLファイル26内における特定位置を指定している場合(S208でYES)、リンク先テキスト抽出部14は、ステップS209をスキップして次のステップS210に進む。
リンク先テキスト抽出部14は、リンク先と同一又は異なるHTMLファイル26を検索してアンカータグ<A NAME="anchor001">リンクの指定</A>を見つけ出す(S210)。<A NAME="">と</A>との間にはアンカーテキスト(本例では「リンクの指定」)が記述される。リンク先テキスト抽出部14は、見つけ出したアンカータグ<A NAME="">及び</A>の間のアンカーテキストを抽出する(S211)。
また、アンカーテキストがない場合、アンカータグの前後所定バイト(たとえば150バイト)中でアンカータグに最も近い見出しタグ又は強調タグを見つけ出し、そのタグ間のテキストを抽出するようにしてもよい。これらのタグもない場合は不正リンクの検出は不可能として検索を断念するようにしてもよい。
再び図2を参照して、形態素解析部16は、リンク元テキスト抽出部12により抽出されたリンク元のテキストを1又は2以上の単語に分解し(S3)、かつリンク先テキスト抽出部14により抽出されたリンク先のテキストを1又は2以上の単語に分解する(S4)。日本語では品詞は一般に、動詞、形容詞、形容動詞、名詞、副詞、連体詞、接続詞、感動詞、助動詞、及び助詞の10種類に分類されるが、ここでの形態素解析部16は動詞をサ変動詞とそれ以外の動詞とに分類する。
続いて、重み付け部18は、品詞ごとに所望の重み係数を設定する(S5)。具体的には図5を参照して、重み付け部18は、利用者の選択操作に応じて検出モードを設定する(S501)。ここでは、(A)通常モード、(B)完全一致モード、(C)試行モードの3種類の検出モードが用意されている。重み付け部18は、設定された検出モードを判別し(S502)、検出モードに応じて次の通り重み係数を設定する。
(A)通常モード
通常モードは、チェック対象のボリュームが大きく、細かくチェックする時間がないために、重大な意味的不整合だけを検出したい場合に有効である。このモードでは、内容の格となる名詞及び動詞のみにポイントを付与する。ただし、内容の格に影響を与えないサ変動詞にはポイントを付与しない。そのために、重み付け部18は、名詞の重み係数=1、サ変動詞以外の動詞の重み係数=1、その他の品詞の重み係数=0と設定する(S503)。
(B)完全一致モード
完全一致モードは、リンク元のテキストとリンク先のテキストとが完全に一致するように構成したサイトにおいて意味的不整合を検出したい場合に有効である。このモードでは、テキストが完全に一致しない場合は意味的不整合が発生していると考えられるので、全ての品詞に同じポイントを付与する。そのために、重み付け部18は、全品詞の重み係数=1と設定する(S504)。
(C)試行モード
試行モードは、チェック対象の構成が不明で、意味的不整合を可能性があるものを含めて可能な限り検出したい場合に有効である。このモードでは、内容の格となる名詞及び動詞(サ変動詞を除く)に大きいポイントを付与し、内容の格とならないが、内容を示す形容詞、副詞及びサ変動詞に小さいポイントを付与する。そのために、重み付け部18は、名詞の重み係数=1、サ変動詞以外の動詞の重み係数=1、形容詞の重み係数=0.2、副詞の重み係数=0.2、サ変動詞の重み係数=0.2、その他の品詞の重み係数=0と設定する(S505)。
再び図2を参照して、整合率算出部20は、形態素解析部16により得られたリンク元の単語が形態素解析部16により得られたリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出する(S6)。
具体的には図6を参照して、整合率算出部20は、あらかじめ定められた基本ポイントに重み付け部18により設定された重み係数を乗算することによりリンク元に存在する各単語の付与ポイントを算出し(S601)、その付与ポイントの合計を算出する(S602)。
続いて、整合率算出部20は、リンク元に存在する各単語はリンク先にも存在するか否かを判別する(S603)。リンク元に存在する単語がリンク先にも存在する場合(S603でYES)、リンク先存在フラグ=1と設定し(S604)、リンク元に存在する単語がリンク先に存在しない場合(S603でNO)、リンク先存在フラグ=0と設定する(S605)。
続いて、整合率算出部20は、リンク元に存在する各単語の付与ポイントに対応のリンク先存在フラグを乗算することによりリンク元に存在する各単語の取得ポイントを算出し(S606)、その取得ポイントの合計を算出する(S607)。
そして、リンク元に存在する単語の合計取得ポイントをリンク元に存在する単語の合計付与ポイントで除算することにより、リンク元からリンク先への整合率を算出する(S608)。
再び図2を参照して、整合率算出部20は上記と逆方向に、形態素解析部16により得られたリンク先の単語が形態素解析部16により得られたリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する(S7)。
具体的には図7を参照して、整合率算出部20は、あらかじめ定められた基本ポイントに重み付け部18により設定された重み係数を乗算することによりリンク先に存在する各単語の付与ポイントを算出し(S701)、その付与ポイントの合計を算出する(S702)。
続いて、整合率算出部20は、リンク先に存在する各単語はリンク元にも存在するか否かを判別する(S703)。リンク先に存在する単語がリンク元にも存在する場合(S703でYES)、リンク元存在フラグ=1と設定し(S704)、リンク先に存在する単語がリンク元に存在しない場合(S703でNO)、リンク元存在フラグ=0と設定する(S705)。
続いて、整合率算出部20は、リンク先に存在する各単語の付与ポイントに対応のリンク元存在フラグを乗算することによりリンク先に存在する各単語の取得ポイントを算出し(S706)、その取得ポイントの合計を算出する(S707)。
そして、リンク先に存在する単語の合計取得ポイントをリンク元に存在する単語の合計付与ポイントで除算することにより、リンク先からリンク元への整合率を算出する(S708)。
以下に、リンク元から抽出されたテキストが「正しい結果を得るために検索する」で、リンク先から抽出されたテキストが「正しい結果を得るための検索」であった場合における整合率の計算例を表1〜表6に示す。本例では基本ポイントをいずれも10に設定している。
表1は、通常モードにおけるリンク元からリンク先への整合率の計算例を示す。
Figure 2007188356
表2は、通常モードにおけるリンク先からリンク元への整合率の計算例を示す。
Figure 2007188356
表3は、完全一致モードにおけるリンク元からリンク先への整合率の計算例を示す。
Figure 2007188356
表4は、完全一致モードにおけるリンク先からリンク元への整合率の計算例を示す。
Figure 2007188356
表5は、試行モードにおけるリンク元からリンク先への整合率の計算例を示す。
Figure 2007188356
表6は、試行モードにおけるリンク先からリンク元への整合率の計算例を示す。
Figure 2007188356
再び図2を参照して、関連度算出部22は、整合率算出部20により算出された双方向の整合率に応じてリンクの確からしさを示す関連度を算出する(S8)。関連度はリンクが正しく張られている可能性を示す指標であればよく、その計算方法は特に限定されないが、双方向で算出された整合率の相加平均や相乗平均など、両者を代表する値を算出すればよい。また、双方向の整合率を上記3種類の検出モードで算出することにより合計6つの整合率を算出し、6つとも100%の場合は関連度を100%、5つのみが100%の場合は90%、4つのみが100%の場合は80%、3つのみが100%の場合は70%、2つのみが100%の場合は60%、1つのみが100%の場合は50%、6つとも0%の場合は0%、それら以外は10%というように、整合率と関連度との関係をあらかじめ定めておいてもよい。
続いて、CSV出力部24は、整合率算出部20により算出された整合率及び関連度算出部22により算出された関連度をCSV形式で出力する(S9)。
以上、本発明の実施の形態による不正ハイパーリンク検出装置10によれば、リンク元からリンク先への一方向だけでなく、リンク先からリンク元への逆方向でもチェックしているため、リンクの意味的不整合を高い精度で検出することができる。しかも、品詞ごとに重み付けをしているため、その検出精度はさらに高くなる。
また、3種類の検出モードが用意されているため、検出精度を重視したり、検出所要時間を重視したりするなど、検出対象の特性に応じてリンクの意味的不整合を適切に検出することができる。
また、リンク先の全てのテキストを抽出するのではなく、リンク先の文書を特徴付けるタイトルテキスト等のみを抽出しているので、検出処理に要する時間を短くすることができる。
上記実施の形態ではリンク先からタイトルテキスト、ヘッダテキスト、アンカーテキスト、見出しテキスト、強調テキストなどを抽出しているが、これらはあくまで例示であって、リンク先の文書を特徴付けるテキストを抽出すればよい。
また、上記実施の形態では検出モードは3種類であるが、その数及び内容は特に限定されるものではなく、たとえば名詞の重み係数のみを1に設定し、その他の品詞の重み係数を0に設定することにより、名詞だけをチェック対象にしてもよい。また、本発明は日本語以外の言語にも適用可能である。
以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。
本発明の実施の形態による不正ハイパーリンク検出装置のハードウェア構成を示す機能ブロック図である。 図1に示した不正ハイパーリンク検出装置の動作方法(不正ハイパーリンク検出プログラムの実行手順)を示すフロー図である。 図2中のリンク元テキスト抽出処理の詳細(サブルーチン)を示すフロー図である。 図2中のリンク先テキスト抽出処理の詳細(サブルーチン)を示すフロー図である。 図2中の重み付け処理の詳細(サブルーチン)を示すフロー図である。 図2中のリンク元からリンク先への整合率算出処理の詳細(サブルーチン)を示すフロー図である。 図2中のリンク先からリンク元への整合率算出処理の詳細(サブルーチン)を示すフロー図である。
符号の説明
10 不正ハイパーリンク検出装置
12 リンク元テキスト抽出部
14 リンク先テキスト抽出部
16 形態素解析部
18 重み付け部
20 整合率算出部
22 関連度算出部
24 CSV出力部
26 HTMLファイル

Claims (13)

  1. ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出装置であって、
    ハイパーリンク元のHTMLファイルの中からテキストを抽出する第1の抽出手段と、
    ハイパーリンク先のHTMLファイルの中からテキストを抽出する第2の抽出手段と、
    前記第1及び第2の抽出手段により抽出されたテキストを1又は2以上の単語に分解する形態素解析手段と、
    前記形態素解析手段により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第1の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第2の整合率として算出する整合率算出手段と、
    前記整合率算出手段により算出された第1及び第2の整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出手段とを備えたことを特徴とする不正ハイパーリンク検出装置。
  2. 請求項1に記載の不正ハイパーリンク検出装置であってさらに、
    前記整合率算出手段により第1及び第2の整合率を算出するために品詞ごとに重み付けをする重み付け手段を備えたことを特徴とする不正ハイパーリンク検出装置。
  3. 請求項2に記載の不正ハイパーリンク検出装置であって、
    前記重み付け手段は、
    品詞ごとに所望の重み係数を設定する重み係数設定手段を含み、
    前記整合率算出手段は、
    あらかじめ定められた基本ポイントに前記重み係数設定手段により設定された重み係数を乗算することによりハイパーリンク元の単語の付与ポイントを算出する手段と、
    あらかじめ定められた基本ポイントに前記重み係数設定手段により設定された重み係数を乗算することによりハイパーリンク先の単語の付与ポイントを算出する手段と、
    ハイパーリンク元の単語がハイパーリンク先に存在する場合、リンク先存在フラグを1に設定し、ハイパーリンク元の単語がハイパーリンク先に存在しない場合、リンク先存在フラグを0に設定する手段と、
    ハイパーリンク先の単語がハイパーリンク元に存在する場合、リンク元存在フラグを1に設定し、ハイパーリンク先の単語がハイパーリンク元に存在しない場合、リンク元存在フラグを0に設定する手段と、
    前記算出されたハイパーリンク元の単語の付与ポイントに前記設定されたリンク先存在フラグを乗算することによりハイパーリンク元の単語の取得ポイントを算出する手段と、
    前記算出されたハイパーリンク先の単語の付与ポイントに前記設定されたリンク元存在フラグを乗算することによりハイパーリンク先の単語の取得ポイントを算出する手段と、
    前記算出されたハイパーリンク元の単語の取得ポイントの合計を前記算出されたハイパーリンク元の単語の付与ポイントの合計で除算することにより前記第1の整合率を算出する手段と、
    前記算出されたハイパーリンク先の単語の取得ポイントの合計を前記算出されたハイパーリンク先の単語の付与ポイントの合計で除算することにより前記第2の整合率を算出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
  4. 請求項3に記載の不正ハイパーリンク検出装置であって、
    前記重み係数設定手段は、名詞及び動詞(サ変動詞を除く)の重み係数を0よりも大きい値に設定し、その他の品詞の重み係数を0に設定することを特徴とする不正ハイパーリンク検出装置。
  5. 請求項3に記載の不正ハイパーリンク検出装置であって、
    前記重み係数設定手段は、名詞及び動詞(サ変動詞を除く)の重み係数を0よりも大きい第1の値に設定し、形容詞、副詞及びサ変動詞の重み係数を前記第1の値よりも小さくかつ0よりも大きい第2の値に設定し、その他の品詞の重み係数を0に設定することを特徴とする不正ハイパーリンク検出装置。
  6. 請求項1に記載の不正ハイパーリンク検出装置であって、
    前記第1の抽出手段は、
    ハイパーリンク元のHTMLファイルを検索してリンクタグを見つけ出す手段と、
    前記見つけ出したリンクタグ間のリンクテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
  7. 請求項1に記載の不正ハイパーリンク検出装置であって、
    前記第2の抽出手段は、
    ハイパーリンク先のHTMLファイルを検索してタイトルタグを見つけ出す手段と、
    前記見つけ出したタイトルタグ間のタイトルテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
  8. 請求項7に記載の不正ハイパーリンク検出装置であって、
    前記第2の抽出手段はさらに、
    タイトルタグがない場合、ハイパーリンク先のHTMLファイルを検索してヘッダタグを見つけ出す手段と、
    前記見つけ出したヘッダタグ間のヘッダテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
  9. 請求項7に記載の不正ハイパーリンク検出装置であって、
    前記第2の抽出手段はさらに、
    ハイパーリンクがHTMLファイル内における特定位置を指定している場合、その特定位置に埋め込まれたアンカータグ間のアンカーテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
  10. ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出方法であって、
    ハイパーリンク元のHTMLファイルの中からテキストを抽出するステップと、
    ハイパーリンク先のHTMLファイルの中からテキストを抽出するステップと、
    前記抽出されたテキストを形態素解析により1又は2以上の単語に分解するステップと、
    前記形態素解析により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第1の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第2の整合率として算出するステップと、
    前記算出された第1及び第2の整合率に応じてハイパーリンクの確からしさを示す関連度を算出するステップとを備えたことを特徴とする不正ハイパーリンク検出方法。
  11. 請求項10に記載の不正ハイパーリンク検出方法であってさらに、
    前記第1及び第2の整合率を算出するために品詞ごとに重み付けをするステップを備えたことを特徴とする不正ハイパーリンク検出方法。
  12. ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出プログラムであって、
    ハイパーリンク元のHTMLファイルの中からテキストを抽出するステップと、
    ハイパーリンク先のHTMLファイルの中からテキストを抽出するステップと、
    前記抽出されたテキストを形態素解析により1又は2以上の単語に分解するステップと、
    前記形態素解析により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第1の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第2の整合率として算出するステップと、
    前記算出された第1及び第2の整合率に応じてハイパーリンクの確からしさを示す関連度を算出するステップとをコンピュータに実行させることを特徴とする不正ハイパーリンク検出プログラム。
  13. 請求項12に記載の不正ハイパーリンク検出プログラムであってさらに、
    前記第1及び第2の整合率を算出するために品詞ごとに重み付けをするステップをコンピュータに実行させることを特徴とする不正ハイパーリンク検出プログラム。

JP2006006720A 2006-01-13 2006-01-13 不正ハイパーリンク検出装置及びその方法 Expired - Fee Related JP4767694B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006006720A JP4767694B2 (ja) 2006-01-13 2006-01-13 不正ハイパーリンク検出装置及びその方法
CNB2007100013177A CN100462976C (zh) 2006-01-13 2007-01-09 错误超链接检测设备及其方法
US11/623,135 US8359294B2 (en) 2006-01-13 2007-01-15 Incorrect hyperlink detecting apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006006720A JP4767694B2 (ja) 2006-01-13 2006-01-13 不正ハイパーリンク検出装置及びその方法

Publications (2)

Publication Number Publication Date
JP2007188356A true JP2007188356A (ja) 2007-07-26
JP4767694B2 JP4767694B2 (ja) 2011-09-07

Family

ID=38343475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006006720A Expired - Fee Related JP4767694B2 (ja) 2006-01-13 2006-01-13 不正ハイパーリンク検出装置及びその方法

Country Status (3)

Country Link
US (1) US8359294B2 (ja)
JP (1) JP4767694B2 (ja)
CN (1) CN100462976C (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003108A (ja) * 2008-06-20 2010-01-07 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法、およびコンピュータプログラム
JP2010044708A (ja) * 2008-08-18 2010-02-25 Fujitsu Ltd Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP2010152730A (ja) * 2008-12-25 2010-07-08 Sony Corp コンテンツ利用管理装置、コンテンツ利用管理方法、およびプログラム
WO2014207941A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 判定装置、判定方法、及びプログラム
JP2017199139A (ja) * 2016-04-26 2017-11-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4329839B2 (ja) * 2007-04-20 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びプログラム
CN101599043B (zh) * 2008-06-02 2013-07-17 松下电器产业株式会社 追踪文档的关联信息的方法和系统
JP5359399B2 (ja) * 2009-03-11 2013-12-04 ソニー株式会社 テキスト分析装置および方法、並びにプログラム
US8346878B2 (en) * 2009-11-06 2013-01-01 International Business Machines Corporation Flagging resource pointers depending on user environment
CN102117280B (zh) * 2009-12-31 2013-08-07 北京金山软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
CN102117279B (zh) * 2009-12-31 2014-05-21 北京金山办公软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
CN101894134B (zh) * 2010-06-21 2012-04-11 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN103365831B (zh) * 2012-03-29 2017-07-21 深圳市世纪光速信息技术有限公司 一种为文本添加超级链接的方法和装置
CN106649327A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网页链接的检测方法和装置
CN108255866B (zh) * 2016-12-29 2020-10-27 北京国双科技有限公司 检查网站中链接的方法和装置
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
US10977333B2 (en) 2018-09-24 2021-04-13 International Business Machines Corporation Link corrections by cognitive analysis of web resources
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质
CN113919347B (zh) * 2021-12-14 2022-04-05 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6601066B1 (en) * 1999-12-17 2003-07-29 General Electric Company Method and system for verifying hyperlinks
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US7219298B2 (en) * 2001-03-15 2007-05-15 International Business Machines Corporation Method, system, and program for verifying network addresses included in a file
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US6647222B1 (en) 2002-06-07 2003-11-11 Xerox Corporation Print media supply identification for a copier or printer
JP4093012B2 (ja) * 2002-10-17 2008-05-28 日本電気株式会社 ハイパーテキスト検査装置および方法並びにプログラム
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
JP2004220193A (ja) 2003-01-10 2004-08-05 Ricoh Co Ltd Htmlリンク検査システム
JP4172388B2 (ja) 2003-12-08 2008-10-29 日本電気株式会社 リンク診断装置、リンク診断方法およびリンク診断プログラム。
JP2005346598A (ja) 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
CN100388280C (zh) * 2005-01-26 2008-05-14 威盛电子股份有限公司 超链接自动重导与管理系统及其方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003108A (ja) * 2008-06-20 2010-01-07 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法、およびコンピュータプログラム
JP4569671B2 (ja) * 2008-06-20 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法、およびコンピュータプログラム
US8102544B2 (en) 2008-06-20 2012-01-24 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and computer-readable storage medium for computer program
JP2010044708A (ja) * 2008-08-18 2010-02-25 Fujitsu Ltd Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP2010152730A (ja) * 2008-12-25 2010-07-08 Sony Corp コンテンツ利用管理装置、コンテンツ利用管理方法、およびプログラム
US8782806B2 (en) 2008-12-25 2014-07-15 Sony Corporation Content usage managing apparatus, content usage managing method and program
WO2014207941A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 判定装置、判定方法、及びプログラム
JP5886477B2 (ja) * 2013-06-28 2016-03-16 楽天株式会社 判定装置、判定方法、及びプログラム
US10585965B2 (en) 2013-06-28 2020-03-10 Rakuten, Inc. Determination device, determination method, and program
JP2017199139A (ja) * 2016-04-26 2017-11-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Also Published As

Publication number Publication date
US8359294B2 (en) 2013-01-22
CN100462976C (zh) 2009-02-18
CN101000628A (zh) 2007-07-18
US20080172220A1 (en) 2008-07-17
JP4767694B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
JP4767694B2 (ja) 不正ハイパーリンク検出装置及びその方法
US8060501B1 (en) Document ranking based on semantic distance between terms in a document
CN101454750B (zh) 命名实体的消歧
US8122026B1 (en) Finding and disambiguating references to entities on web pages
US7627571B2 (en) Extraction of anchor explanatory text by mining repeated patterns
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US10552467B2 (en) System and method for language sensitive contextual searching
US9846720B2 (en) System and method for refining search results
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
US20070094246A1 (en) System and method for searching dates efficiently in a collection of web documents
JP2002334034A (ja) コンテンツをクライアントへ提供する方法、装置、及びコンピュータ・プログラム
US20110179012A1 (en) Network-oriented information search system and method
JP2007072646A (ja) 検索装置、検索方法およびプログラム
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Radoev et al. A language adaptive method for question answering on French and English
US20080040352A1 (en) Method for creating a disambiguation database
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4864095B2 (ja) 知識相関サーチエンジン
JP2008257511A (ja) 専門用語抽出装置、方法及びプログラム
US20080033953A1 (en) Method to search transactional web pages
US20220147574A9 (en) Expert stance classification using computerized text analytics
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
JP6787101B2 (ja) 検索プログラム、検索装置、および検索方法
JP2005316590A (ja) 情報検索装置
Layfield et al. Experiments with document retrieval from small text collections using latent semantic analysis or term similarity with query coordination and automatic relevance feedback

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071204

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071228

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080526

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20110620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D14

LAPS Cancellation because of no payment of annual fees