JP2007188356A

JP2007188356A - 不正ハイパーリンク検出装置及びその方法

Info

Publication number: JP2007188356A
Application number: JP2006006720A
Authority: JP
Inventors: Noriko Oshima; 紀子大島
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-01-13
Filing date: 2006-01-13
Publication date: 2007-07-26
Anticipated expiration: 2026-01-13
Also published as: US8359294B2; CN100462976C; CN101000628A; US20080172220A1; JP4767694B2

Abstract

【課題】ハイパーリンクの意味的不整合を高精度で検出可能な不正ハイパーリンク検出装置を提供する。
【解決手段】不正ハイパーリンク検出装置１０は、リンク元のＨＴＭＬファイル２６からテキストを抽出するリンク元テキスト抽出部１２と、リンク先のＨＴＭＬファイル２６からテキストを抽出するリンク先テキスト抽出部１４と、抽出されたテキストを単語に分解する形態素解析部１６と、品詞ごとに重み付けをする重み付け部１８と、リンク元の単語がリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出し、リンク先の単語がリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する整合率算出部２０と、両整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出部２２手段と、整合率及び関連度をＣＳＶ形式で出力するＣＳＶ出力部２４とを備える。
【選択図】図１

Description

本発明は、不正ハイパーリンク検出装置及びその方法に関し、さらに詳しくは、ＨＴＭＬ(Hyper Text Markup Language)ファイルに張られたハイパーリンクの意味的不整合を検出する不正ハイパーリンク検出装置及びその方法に関する。

ＷＷＷ(World Wide Web)においては、ＨＴＭＬ形式で記述された多数の文書（以下「ＨＴＭＬファイル」ともいう。）の間にハイパーリンク（以下単に「リンク」ともいう。）が張られる。リンクを張るためには、リンク元の文書内にリンク先のファイル名又はアンカー名（ＵＲＬ;Uniform Resource Locator）が埋め込まれる。リンクが正しく張られていると、ウェブブラウザは、リンクテキストに対するクリック操作に応じてリンク先のＨＴＭＬファイルにアクセスし、その文書を表示する。

しかしながら、リンクが間違って張られていると、エラーが表示されるか、全く関係のない文書が表示される。前者は「論理的不整合」と呼ばれ、最初から存在しないか、最初は存在したが、後から存在しなくなったファイル名又はアンカー名が埋め込まれている場合に起きる。一方、後者は「意味的不整合」と呼ばれ、実際には存在するが、意味的に間違ったファイル名が埋め込まれている場合に起きる。リンクの論理的不整合を自動的に検出できるツールは広く一般に提供されているが、リンクの意味的不整合を自動的に検出できるツールはまだ提供されていない。ただし、次のアイデアは既に提案されている。

特開２００４−２２０１９３号公報（下記の特許文献１）は、ＨＴＭＬサイトの作成者が意図するＨＴＭＬファイルのリンクによるサイト構成を実際のＨＴＭＬサイトが満たしているかを検査し、特にあるＵＲＬから他のＵＲＬに移動のために設けられたオブジェクトからのリンクが正しく張られているかどうかを容易に確認することができるＨＴＭＬリンク検査システムを開示している（［要約］の［課題］参照）。このシステムは、複数の、ハイパーテキスト言語により作成されるＨＴＭＬファイルからなるウェブサイトに対して、あらかじめウェブ中のＨＴＭＬファイル同士のリンクによる関係を管理するサイト構成管理手段と、ウェブサイト中で利用される、所定オブジェクトにより張られるリンクについて、リンク元とリンク先のＨＴＭＬファイルの関係情報を管理する画像リンク管理手段と、ＨＴＭＬ中のリンク情報を抽出するリンク情報抽出手段と、画像により張られるリンクがサイト構成管理手段に管理されている構成に沿っているか否かを検査するリンク検査手段とを備える（［要約］の［解決手段］参照）。

しかしながら、このシステムでは、リンクを検査するために、ＨＴＭＬサイトの作成者が意図するＨＴＭＬファイルのリンクによるサイト構成をあらかじめ登録しておかなければならない。

また、特開２００４−１３９３０４号公報（下記の特許文献２）は、ハイパーテキストデータベースを対象とし、論理的に不整合（本発明でいう「意味的不整合」に相当）なリンク箇所及びその訂正候補を自動的に求めて訂正するハイパーテキスト検査装置を開示している（［要約］の［課題］参照）。情報収集手段はハイパーテキストを構成するページ及びリンクに関する情報をハイパーテキストデータベースベースから収集して情報記憶部に記憶する。条件判定手段は、情報記憶部を参照し、リンク情報を項目毎にグループ化し、グループから外れた特異なリンクをリンク不整合として抽出する。候補計算手段は、条件判定手段が抽出した特異なリンクのリンク情報を、グループと同一のリンク情報にするような訂正候補を計算する。訂正反映手段は、条件判定手段が検出したリンク不整合の箇所と候補計算手段が計算した訂正候補とに基づいてハイパーテキストデータベースを更新する（［要約］の［解決手段］参照）。条件判定手段は情報記憶部から、リンク元表記に含まれる単語がリンク先文書のタイトル、見出し、強調文字列に含まれないリンクを抽出し、不適正スコアを付与する（段落［００９５］参照）。また、条件判定手段は、情報記憶部に格納されているリンクの、リンク元表記を単語に分割する。リンク元表記を単語に分割する方法としては、形態素解析を使う、字種の変わり目で切る、ｎ文字毎に切るなどの方法がある（段落［０１３４］参照）。

この装置は、リンク元からリンク先への一方向にのみチェックを行い、リンク元表記に含まれている単語がリンク先表記に含まれていない場合にのみ不適正と判断している。そのため、たとえばリンク元表記が「People Finder ポートレットの構成」で、リンク先表記が「ピープル・ファインダー構成モード」の場合、不適正と判断することができない。リンク元表記に含まれている「構成」という単語がリンク先表記にも含まれているからである。また、この装置は、多対多のリンク関係を持った大規模な対象には適用できるが、１対１のリンク関係しか持たないような小規模な対象には、リンク元やリンク先の情報をグループ化することが不可能なために適用できない。

また、特開２００５−１７３６７１号公報（下記の特許文献３）は、ハイパーテキストのリンクの論理的不整合（本発明でいう「意味的不整合」に相当）を自動検出するリンク診断装置を開示している（［要約］の［課題］参照）。リンク特徴抽出手段は、リンクの論理的（意味的）な不整合らしさを示すリンク特徴情報として、（Ａ）リンク単独で求めることができるリンク特徴情報、（Ｂ）リンクとリンク先の文書データとの関係にもとづいて求めることができるリンク特徴情報、又は（Ｃ）リンクを所定の条件に従ってグループ化した場合に求めることができるリンク特徴情報を抽出する。不整合学習手段は、各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める。不整合判定手段は、未判定のリンクのリンク特徴情報と不整合学習手段が求めた識別関数とを用いて、判定対象のリンクが不整合か否かを判定する（［要約］の［解決手段］参照）。この装置にも上述したハイパーテキスト検査装置と同様の問題がある。
特開２００４−２２０１９３号公報特開２００４−１３９３０４号公報特開２００５−１７３６７１号公報

本発明の目的は、ハイパーリンクの意味的不整合を検出可能な不正ハイパーリンク検出装置及びその方法を提供することである。

本発明のもう１つの目的は、検出精度の高い不正ハイパーリンク検出装置及びその方法を提供することである。

課題を解決するための手段及び発明の効果

本発明による不正ハイパーリンク検出装置は、第１の抽出手段と、第２の抽出手段と、形態素解析手段と、整合率算出手段と、関連度算出手段とを備える。第１の抽出手段は、ハイパーリンク元のＨＴＭＬファイルの中からテキストを抽出する。第２の抽出手段は、ハイパーリンク先のＨＴＭＬファイルの中からテキストを抽出する。形態素解析手段は、第１及び第２の抽出手段により抽出されたテキストを１又は２以上の単語に分解する。整合率算出手段は、形態素解析手段により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第１の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第２の整合率として算出する。関連度算出手段は、整合率算出手段により算出された第１及び第２の整合率に応じてハイパーリンクの確からしさを示す関連度を算出する。

この不正ハイパーリンク検出装置によれば、ハイパーリンク元からハイパーリンク先への一方向だけでなく、ハイパーリンク先からハイパーリンク元への逆方向でもチェックしているため、ハイパーリンクの意味的不整合を高い精度で検出することができる。

好ましくは、不正ハイパーリンク検出装置はさらに、整合率算出手段により第１及び第２の整合率を算出するために品詞ごとに重み付けをする重み付け手段を備える。

この場合、不正ハイパーリンクの検出精度はさらに高くなる。

本発明による不正ハイパーリンク検出方法は上記装置の動作方法である。本発明による不正ハイパーリンク検出プログラムはコンピュータを上記各手段として機能させるための物である。上記装置は上記プログラムをコンピュータにインストールすることにより生産される。上記方法は上記装置を使用することにより実施される。上記プログラムは上記装置の生産及び上記方法の使用に用いられる。

以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。

図１を参照して、本発明の実施の形態による不正ハイパーリンク検出装置１０は、リンク元テキスト抽出部１２と、リンク先テキスト抽出部１４と、形態素解析部１６と、重み付け部１８と、整合率算出部２０と、関連度算出部２２と、ＣＳＶ(Comma Separated Values)出力部２４とを備える。

リンク元テキスト抽出部１２は、リンク元のＨＴＭＬファイル２６の中からテキストを抽出する。リンク先テキスト抽出部１４は、リンク先のＨＴＭＬファイル２６の中からテキストを抽出する。形態素解析部１６は、リンク元テキスト抽出部１２及びリンク先テキスト抽出部１４により抽出されたテキストを１又は２以上の単語に分解する。重み付け部１８は、整合率算出部２０により整合率を算出するために品詞ごとに重み付けをする。整合率算出部２０は、形態素解析部１６により得られた単語を参照し、リンク元の単語がリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出し、かつリンク先の単語がリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する。関連度算出部２２は、整合率算出部２０により算出された整合率に応じてリンクの確からしさを示す関連度を算出する。ＣＳＶ出力部２４は、整合率算出部２０により算出された整合率及び関連度算出部２２により算出された関連度をＣＳＶ形式で出力する。

リンク元テキスト抽出部１２、リンク先テキスト抽出部１４、形態素解析部１６、重み付け部１８、整合率算出部２０、関連度算出部２２、及びＣＳＶ出力部２４は、コンピュータ（ＷＷＷサーバなど）のハードウェア資源（ＣＰＵ(Central Processing Unit)、半導体メモリ、ハードディスク、キーボード、マウス、ディスプレイなど）により実現される。ＨＴＭＬファイル２６は、これと同じコンピュータ内の記憶媒体（ハードディスクなど）や、インターネット又はイントラネット経由で接続された他のコンピュータの記憶媒体に保存されている。

次に、不正ハイパーリンク検出装置１０の動作を説明する。

図２を参照して、リンク元テキスト抽出部１２は、リンクの意味的不整合を検出しようとする対象のＨＴＭＬファイル２６の中からテキストを抽出する（Ｓ１）。具体的には図３を参照して、リンク元テキスト抽出部１２は、リンク元のＨＴＭＬファイル２６にアクセスし（Ｓ１０１）、そのＨＴＭＬファイル２６を検索してリンクタグ（たとえば<A HREF="file001.html">リンクを指定する</A>）を見つけ出す（Ｓ１０２）。HREF属性（HREF=""）にはリンク先のファイル名（本例では"file001.html"）又はＵＲＬが記述され、<A HREF="">と</A>との間にはリンクテキスト（本例では「リンクを指定する」）が記述される。ウェブブラウザはリンクテキストを表示し、リンクテキストに対するクリック操作に応じてリンク先のＨＴＭＬファイルにアクセスする。リンク元テキスト抽出部１２は、見つけ出したリンクタグ<A HREF="">及び</A>の間のリンクテキストを抽出する（Ｓ１０３）。

再び図２を参照して、リンク先テキスト抽出部１４は、リンク先のＨＴＭＬファイル２６の中からテキストを抽出する（Ｓ２）。具体的には図４を参照して、リンク先テキスト抽出部１４は、リンク元テキスト抽出部１２により見つけ出されたリンクタグがNAME属性を有しているか否かを判別する（Ｓ２０１）。リンクタグがNAME属性を有している場合、当該リンクはリンク先のＨＴＭＬファイル２６内における特定位置を指定している。この場合、たとえば<A HREF="file001.html#anchor001">のように"#"の後にアンカー名（キーワード）（本例では"anchor001"）が埋め込まれ、リンク先のＨＴＭＬファイル２６内における特定位置には、<A NAME="anchor001">のように同じアンカー名が埋め込まれる。また、当該リンクがリンク元と同じＨＴＭＬファイル２６（同一ページ）内における特定位置を指定する場合、たとえば<A HREF="#anchor001">のように"#"の前のファイル名が省略される。

リンクタグがNAME属性を有していない場合（Ｓ２０１でＮＯ）、リンク先テキスト抽出部１４は、リンク先のＨＴＭＬファイル２６にアクセスし（Ｓ２０２）、そのＨＴＭＬファイル２６を検索してタイトルタグ<TITLE>リンクの指定</TITLE>を見つけ出す（Ｓ２０３）。<TITLE>と</TITLE>との間にはタイトルテキスト（本例では「リンクの指定」）が記述される。ウェブブラウザはタイトルテキストをタイトルバーに表示する。

タイトルタグがある場合（Ｓ２０４でＹＥＳ）、リンク先テキスト抽出部１４は、見つけ出したタイトルタグ<TITLE>及び</TITLE>の間のタイトルテキストを抽出する（Ｓ２０５）。一方、タイトルタグがない場合（Ｓ２０４でＮＯ）、リンク先テキスト抽出部１４は、リンク先のＨＴＭＬファイル２６を検索してヘッダタグ<HEAD>リンクを指定する方法の解説</HEAD>を見つけ出す（Ｓ２０６）。<HEAD>と</HEAD>との間にはヘッダテキスト（本例では「リンクを指定する方法の解説」）が記述される。ウェブブラウザはヘッダテキスト（タイトルテキストを除く）を何も表示しない。リンク先テキスト抽出部１４は、見つけ出したヘッダタグ<HEAD>及び</HEAD>の間のヘッダテキストを抽出する（Ｓ２０７）。

一方、リンクタグがNAME属性を有している場合（Ｓ２０１でＹＥＳ）、リンク先テキスト抽出部１４は、当該リンクがリンク元と同じＨＴＭＬファイル２６内における特定位置を指定しているか否か、つまり"#"の前のファイル名が省略されているか否かを判別する（Ｓ２０８）。当該リンクがリンク元と異なるＨＴＭＬファイル２６内における特定位置を指定している場合（Ｓ２０８でＮＯ）、リンク先テキスト抽出部１４は、リンク先のＨＴＭＬファイル２６にアクセスする（Ｓ２０９）。一方、当該リンクがリンク元と同じＨＴＭＬファイル２６内における特定位置を指定している場合（Ｓ２０８でＹＥＳ）、リンク先テキスト抽出部１４は、ステップＳ２０９をスキップして次のステップＳ２１０に進む。

リンク先テキスト抽出部１４は、リンク先と同一又は異なるＨＴＭＬファイル２６を検索してアンカータグ<A NAME="anchor001">リンクの指定</A>を見つけ出す（Ｓ２１０）。<A NAME="">と</A>との間にはアンカーテキスト（本例では「リンクの指定」）が記述される。リンク先テキスト抽出部１４は、見つけ出したアンカータグ<A NAME="">及び</A>の間のアンカーテキストを抽出する（Ｓ２１１）。

また、アンカーテキストがない場合、アンカータグの前後所定バイト（たとえば１５０バイト）中でアンカータグに最も近い見出しタグ又は強調タグを見つけ出し、そのタグ間のテキストを抽出するようにしてもよい。これらのタグもない場合は不正リンクの検出は不可能として検索を断念するようにしてもよい。

再び図２を参照して、形態素解析部１６は、リンク元テキスト抽出部１２により抽出されたリンク元のテキストを１又は２以上の単語に分解し（Ｓ３）、かつリンク先テキスト抽出部１４により抽出されたリンク先のテキストを１又は２以上の単語に分解する（Ｓ４）。日本語では品詞は一般に、動詞、形容詞、形容動詞、名詞、副詞、連体詞、接続詞、感動詞、助動詞、及び助詞の１０種類に分類されるが、ここでの形態素解析部１６は動詞をサ変動詞とそれ以外の動詞とに分類する。

続いて、重み付け部１８は、品詞ごとに所望の重み係数を設定する（Ｓ５）。具体的には図５を参照して、重み付け部１８は、利用者の選択操作に応じて検出モードを設定する（Ｓ５０１）。ここでは、（Ａ）通常モード、（Ｂ）完全一致モード、（Ｃ）試行モードの３種類の検出モードが用意されている。重み付け部１８は、設定された検出モードを判別し（Ｓ５０２）、検出モードに応じて次の通り重み係数を設定する。

（Ａ）通常モード
通常モードは、チェック対象のボリュームが大きく、細かくチェックする時間がないために、重大な意味的不整合だけを検出したい場合に有効である。このモードでは、内容の格となる名詞及び動詞のみにポイントを付与する。ただし、内容の格に影響を与えないサ変動詞にはポイントを付与しない。そのために、重み付け部１８は、名詞の重み係数＝１、サ変動詞以外の動詞の重み係数＝１、その他の品詞の重み係数＝０と設定する（Ｓ５０３）。

（Ｂ）完全一致モード
完全一致モードは、リンク元のテキストとリンク先のテキストとが完全に一致するように構成したサイトにおいて意味的不整合を検出したい場合に有効である。このモードでは、テキストが完全に一致しない場合は意味的不整合が発生していると考えられるので、全ての品詞に同じポイントを付与する。そのために、重み付け部１８は、全品詞の重み係数＝１と設定する（Ｓ５０４）。

（Ｃ）試行モード
試行モードは、チェック対象の構成が不明で、意味的不整合を可能性があるものを含めて可能な限り検出したい場合に有効である。このモードでは、内容の格となる名詞及び動詞（サ変動詞を除く）に大きいポイントを付与し、内容の格とならないが、内容を示す形容詞、副詞及びサ変動詞に小さいポイントを付与する。そのために、重み付け部１８は、名詞の重み係数＝１、サ変動詞以外の動詞の重み係数＝１、形容詞の重み係数＝０．２、副詞の重み係数＝０．２、サ変動詞の重み係数＝０．２、その他の品詞の重み係数＝０と設定する（Ｓ５０５）。

再び図２を参照して、整合率算出部２０は、形態素解析部１６により得られたリンク元の単語が形態素解析部１６により得られたリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出する（Ｓ６）。

具体的には図６を参照して、整合率算出部２０は、あらかじめ定められた基本ポイントに重み付け部１８により設定された重み係数を乗算することによりリンク元に存在する各単語の付与ポイントを算出し（Ｓ６０１）、その付与ポイントの合計を算出する（Ｓ６０２）。

続いて、整合率算出部２０は、リンク元に存在する各単語はリンク先にも存在するか否かを判別する（Ｓ６０３）。リンク元に存在する単語がリンク先にも存在する場合（Ｓ６０３でＹＥＳ）、リンク先存在フラグ＝１と設定し（Ｓ６０４）、リンク元に存在する単語がリンク先に存在しない場合（Ｓ６０３でＮＯ）、リンク先存在フラグ＝０と設定する（Ｓ６０５）。

続いて、整合率算出部２０は、リンク元に存在する各単語の付与ポイントに対応のリンク先存在フラグを乗算することによりリンク元に存在する各単語の取得ポイントを算出し（Ｓ６０６）、その取得ポイントの合計を算出する（Ｓ６０７）。

そして、リンク元に存在する単語の合計取得ポイントをリンク元に存在する単語の合計付与ポイントで除算することにより、リンク元からリンク先への整合率を算出する（Ｓ６０８）。

再び図２を参照して、整合率算出部２０は上記と逆方向に、形態素解析部１６により得られたリンク先の単語が形態素解析部１６により得られたリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する（Ｓ７）。

具体的には図７を参照して、整合率算出部２０は、あらかじめ定められた基本ポイントに重み付け部１８により設定された重み係数を乗算することによりリンク先に存在する各単語の付与ポイントを算出し（Ｓ７０１）、その付与ポイントの合計を算出する（Ｓ７０２）。

続いて、整合率算出部２０は、リンク先に存在する各単語はリンク元にも存在するか否かを判別する（Ｓ７０３）。リンク先に存在する単語がリンク元にも存在する場合（Ｓ７０３でＹＥＳ）、リンク元存在フラグ＝１と設定し（Ｓ７０４）、リンク先に存在する単語がリンク元に存在しない場合（Ｓ７０３でＮＯ）、リンク元存在フラグ＝０と設定する（Ｓ７０５）。

続いて、整合率算出部２０は、リンク先に存在する各単語の付与ポイントに対応のリンク元存在フラグを乗算することによりリンク先に存在する各単語の取得ポイントを算出し（Ｓ７０６）、その取得ポイントの合計を算出する（Ｓ７０７）。

そして、リンク先に存在する単語の合計取得ポイントをリンク元に存在する単語の合計付与ポイントで除算することにより、リンク先からリンク元への整合率を算出する（Ｓ７０８）。

以下に、リンク元から抽出されたテキストが「正しい結果を得るために検索する」で、リンク先から抽出されたテキストが「正しい結果を得るための検索」であった場合における整合率の計算例を表１〜表６に示す。本例では基本ポイントをいずれも１０に設定している。

表１は、通常モードにおけるリンク元からリンク先への整合率の計算例を示す。

表２は、通常モードにおけるリンク先からリンク元への整合率の計算例を示す。

表３は、完全一致モードにおけるリンク元からリンク先への整合率の計算例を示す。

表４は、完全一致モードにおけるリンク先からリンク元への整合率の計算例を示す。

表５は、試行モードにおけるリンク元からリンク先への整合率の計算例を示す。

表６は、試行モードにおけるリンク先からリンク元への整合率の計算例を示す。

再び図２を参照して、関連度算出部２２は、整合率算出部２０により算出された双方向の整合率に応じてリンクの確からしさを示す関連度を算出する（Ｓ８）。関連度はリンクが正しく張られている可能性を示す指標であればよく、その計算方法は特に限定されないが、双方向で算出された整合率の相加平均や相乗平均など、両者を代表する値を算出すればよい。また、双方向の整合率を上記３種類の検出モードで算出することにより合計６つの整合率を算出し、６つとも１００％の場合は関連度を１００％、５つのみが１００％の場合は９０％、４つのみが１００％の場合は８０％、３つのみが１００％の場合は７０％、２つのみが１００％の場合は６０％、１つのみが１００％の場合は５０％、６つとも０％の場合は０％、それら以外は１０％というように、整合率と関連度との関係をあらかじめ定めておいてもよい。

続いて、ＣＳＶ出力部２４は、整合率算出部２０により算出された整合率及び関連度算出部２２により算出された関連度をＣＳＶ形式で出力する（Ｓ９）。

以上、本発明の実施の形態による不正ハイパーリンク検出装置１０によれば、リンク元からリンク先への一方向だけでなく、リンク先からリンク元への逆方向でもチェックしているため、リンクの意味的不整合を高い精度で検出することができる。しかも、品詞ごとに重み付けをしているため、その検出精度はさらに高くなる。

また、３種類の検出モードが用意されているため、検出精度を重視したり、検出所要時間を重視したりするなど、検出対象の特性に応じてリンクの意味的不整合を適切に検出することができる。

また、リンク先の全てのテキストを抽出するのではなく、リンク先の文書を特徴付けるタイトルテキスト等のみを抽出しているので、検出処理に要する時間を短くすることができる。

上記実施の形態ではリンク先からタイトルテキスト、ヘッダテキスト、アンカーテキスト、見出しテキスト、強調テキストなどを抽出しているが、これらはあくまで例示であって、リンク先の文書を特徴付けるテキストを抽出すればよい。

また、上記実施の形態では検出モードは３種類であるが、その数及び内容は特に限定されるものではなく、たとえば名詞の重み係数のみを１に設定し、その他の品詞の重み係数を０に設定することにより、名詞だけをチェック対象にしてもよい。また、本発明は日本語以外の言語にも適用可能である。

以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。

本発明の実施の形態による不正ハイパーリンク検出装置のハードウェア構成を示す機能ブロック図である。図１に示した不正ハイパーリンク検出装置の動作方法（不正ハイパーリンク検出プログラムの実行手順）を示すフロー図である。図２中のリンク元テキスト抽出処理の詳細（サブルーチン）を示すフロー図である。図２中のリンク先テキスト抽出処理の詳細（サブルーチン）を示すフロー図である。図２中の重み付け処理の詳細（サブルーチン）を示すフロー図である。図２中のリンク元からリンク先への整合率算出処理の詳細（サブルーチン）を示すフロー図である。図２中のリンク先からリンク元への整合率算出処理の詳細（サブルーチン）を示すフロー図である。

符号の説明

１０不正ハイパーリンク検出装置
１２リンク元テキスト抽出部
１４リンク先テキスト抽出部
１６形態素解析部
１８重み付け部
２０整合率算出部
２２関連度算出部
２４ＣＳＶ出力部
２６ＨＴＭＬファイル

Claims

ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出装置であって、
ハイパーリンク元のＨＴＭＬファイルの中からテキストを抽出する第１の抽出手段と、
ハイパーリンク先のＨＴＭＬファイルの中からテキストを抽出する第２の抽出手段と、
前記第１及び第２の抽出手段により抽出されたテキストを１又は２以上の単語に分解する形態素解析手段と、
前記形態素解析手段により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第１の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第２の整合率として算出する整合率算出手段と、
前記整合率算出手段により算出された第１及び第２の整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出手段とを備えたことを特徴とする不正ハイパーリンク検出装置。
請求項１に記載の不正ハイパーリンク検出装置であってさらに、
前記整合率算出手段により第１及び第２の整合率を算出するために品詞ごとに重み付けをする重み付け手段を備えたことを特徴とする不正ハイパーリンク検出装置。
請求項２に記載の不正ハイパーリンク検出装置であって、
前記重み付け手段は、
品詞ごとに所望の重み係数を設定する重み係数設定手段を含み、
前記整合率算出手段は、
あらかじめ定められた基本ポイントに前記重み係数設定手段により設定された重み係数を乗算することによりハイパーリンク元の単語の付与ポイントを算出する手段と、
あらかじめ定められた基本ポイントに前記重み係数設定手段により設定された重み係数を乗算することによりハイパーリンク先の単語の付与ポイントを算出する手段と、
ハイパーリンク元の単語がハイパーリンク先に存在する場合、リンク先存在フラグを１に設定し、ハイパーリンク元の単語がハイパーリンク先に存在しない場合、リンク先存在フラグを０に設定する手段と、
ハイパーリンク先の単語がハイパーリンク元に存在する場合、リンク元存在フラグを１に設定し、ハイパーリンク先の単語がハイパーリンク元に存在しない場合、リンク元存在フラグを０に設定する手段と、
前記算出されたハイパーリンク元の単語の付与ポイントに前記設定されたリンク先存在フラグを乗算することによりハイパーリンク元の単語の取得ポイントを算出する手段と、
前記算出されたハイパーリンク先の単語の付与ポイントに前記設定されたリンク元存在フラグを乗算することによりハイパーリンク先の単語の取得ポイントを算出する手段と、
前記算出されたハイパーリンク元の単語の取得ポイントの合計を前記算出されたハイパーリンク元の単語の付与ポイントの合計で除算することにより前記第１の整合率を算出する手段と、
前記算出されたハイパーリンク先の単語の取得ポイントの合計を前記算出されたハイパーリンク先の単語の付与ポイントの合計で除算することにより前記第２の整合率を算出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
請求項３に記載の不正ハイパーリンク検出装置であって、
前記重み係数設定手段は、名詞及び動詞（サ変動詞を除く）の重み係数を０よりも大きい値に設定し、その他の品詞の重み係数を０に設定することを特徴とする不正ハイパーリンク検出装置。
請求項３に記載の不正ハイパーリンク検出装置であって、
前記重み係数設定手段は、名詞及び動詞（サ変動詞を除く）の重み係数を０よりも大きい第１の値に設定し、形容詞、副詞及びサ変動詞の重み係数を前記第１の値よりも小さくかつ０よりも大きい第２の値に設定し、その他の品詞の重み係数を０に設定することを特徴とする不正ハイパーリンク検出装置。
請求項１に記載の不正ハイパーリンク検出装置であって、
前記第１の抽出手段は、
ハイパーリンク元のＨＴＭＬファイルを検索してリンクタグを見つけ出す手段と、
前記見つけ出したリンクタグ間のリンクテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
請求項１に記載の不正ハイパーリンク検出装置であって、
前記第２の抽出手段は、
ハイパーリンク先のＨＴＭＬファイルを検索してタイトルタグを見つけ出す手段と、
前記見つけ出したタイトルタグ間のタイトルテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
請求項７に記載の不正ハイパーリンク検出装置であって、
前記第２の抽出手段はさらに、
タイトルタグがない場合、ハイパーリンク先のＨＴＭＬファイルを検索してヘッダタグを見つけ出す手段と、
前記見つけ出したヘッダタグ間のヘッダテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
請求項７に記載の不正ハイパーリンク検出装置であって、
前記第２の抽出手段はさらに、
ハイパーリンクがＨＴＭＬファイル内における特定位置を指定している場合、その特定位置に埋め込まれたアンカータグ間のアンカーテキストを抽出する手段とを含むことを特徴とする不正ハイパーリンク検出装置。
ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出方法であって、
ハイパーリンク元のＨＴＭＬファイルの中からテキストを抽出するステップと、
ハイパーリンク先のＨＴＭＬファイルの中からテキストを抽出するステップと、
前記抽出されたテキストを形態素解析により１又は２以上の単語に分解するステップと、
前記形態素解析により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第１の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第２の整合率として算出するステップと、
前記算出された第１及び第２の整合率に応じてハイパーリンクの確からしさを示す関連度を算出するステップとを備えたことを特徴とする不正ハイパーリンク検出方法。
請求項１０に記載の不正ハイパーリンク検出方法であってさらに、
前記第１及び第２の整合率を算出するために品詞ごとに重み付けをするステップを備えたことを特徴とする不正ハイパーリンク検出方法。
ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出プログラムであって、
ハイパーリンク元のＨＴＭＬファイルの中からテキストを抽出するステップと、
ハイパーリンク先のＨＴＭＬファイルの中からテキストを抽出するステップと、
前記抽出されたテキストを形態素解析により１又は２以上の単語に分解するステップと、
前記形態素解析により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第１の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第２の整合率として算出するステップと、
前記算出された第１及び第２の整合率に応じてハイパーリンクの確からしさを示す関連度を算出するステップとをコンピュータに実行させることを特徴とする不正ハイパーリンク検出プログラム。
請求項１２に記載の不正ハイパーリンク検出プログラムであってさらに、
前記第１及び第２の整合率を算出するために品詞ごとに重み付けをするステップをコンピュータに実行させることを特徴とする不正ハイパーリンク検出プログラム。