JP4172388B2 - リンク診断装置、リンク診断方法およびリンク診断プログラム。 - Google Patents

リンク診断装置、リンク診断方法およびリンク診断プログラム。 Download PDF

Info

Publication number
JP4172388B2
JP4172388B2 JP2003408436A JP2003408436A JP4172388B2 JP 4172388 B2 JP4172388 B2 JP 4172388B2 JP 2003408436 A JP2003408436 A JP 2003408436A JP 2003408436 A JP2003408436 A JP 2003408436A JP 4172388 B2 JP4172388 B2 JP 4172388B2
Authority
JP
Japan
Prior art keywords
link
information
determination
inconsistency
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003408436A
Other languages
English (en)
Other versions
JP2005173671A (ja
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003408436A priority Critical patent/JP4172388B2/ja
Publication of JP2005173671A publication Critical patent/JP2005173671A/ja
Application granted granted Critical
Publication of JP4172388B2 publication Critical patent/JP4172388B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ハイパーテキスト管理装置に適用されるリンク診断装置、リンク診断方法およびリンク診断プログラムに関し、特にリンク元表記やリンク関係の論理的な不整合を検出するリンク診断装置、リンク診断方法およびリンク診断プログラムに関する。
近年、インターネット利用者の増大に伴って、各企業が運営するWebサイトは、規模が大きくなり更新がめまぐるしく行われている。サイトの規模が大きくなり更新頻度が増加すると、ファイル間のリンク誤りなどの不整合が発生しやすくなる。
リンク不整合には、物理的不整合および論理的不整合の2種類がある。物理的不整合とは、リンク先文書にアクセスした際に、何らかのエラーが発生する不整合である。例えば、物理的不整合として、リンク先文書にアクセスした際に、HTTP(HyperText Transfer Protocol )サーバからの「404 Not Found 」,「403 Forbidden 」,「501 Internal Server Error 」のエラーが発生する場合がある。また、例えば、物理的不整合として、ネットワークやサーバの混雑時にタイムアウトのエラーが発生する場合や、存在しないサーバ名を指定してアクセスしようとしたことによって生ずるDNS(Domain Name Server)エラーなどがある。
また、論理的不整合とは、リンク先文書にアクセスした際にエラーは発生しないが、ユーザがリンク元表記から期待した内容とは異なる内容の文書にアクセスしてしまう不整合である。論理的不整合は、誤った製品情報にリンクされている場合や、リンク元表記に一貫性がない場合などに発生する。
ハイパーテキストのリンク関係の誤りを検出する技術として、特許文献1には、WWWサーバ内のドキュメントのリンクを階層的に検索しリンク先にアクセスすることによりスペルミスなどの間違いを検出するWWWサーバのリンク情報チェックシステムが記載されている。特許文献1に記載されたリンク情報チェックシステムでは、データ処理装置は、ハイパーテキストのリンクを階層的にチェックし、リンク先にアクセスした時にエラーが発生したか否かによって誤り箇所を検出する。
なお、特許文献2には、複数文書の特徴ベクトルにもとづいて、リンク元文書の特徴ベクトルを生成する文書特徴抽出装置が記載されている。特許文献2に記載された文書特徴抽出装置は、特徴ベクトルの類似度にもとづいて、リンク元文書および複数のリンク先文書をクラスタ単位に分ける。そして、文書特徴抽出装置は、複数のクラスタのうち、リンク元文書を含むクラスタに含まれる文書の特徴ベクトルのみを用いて、リンク元文書の特徴ベクトルを生成する。
また、特許文献3には、Webサイトの内部構造にもとづいて情報検索を容易にできるWebサイトの内部構造推定装置が記載されている。特許文献3に記載された内部構造推定装置は、各ページからリンクのメタ情報を抽出する。内部構造推定装置は、メタ情報およびリンクタイプの組にもとづいて学習し、リンク分類木を獲得する。そして、内部構造推定装置は、獲得したリンク分類木を利用してWebサイトの内部構造を推定する。
特開平11−85801号公報(第3−4頁、第1−3図) 特開2000−181936号公報(第3−8頁、第1−6図) 特開2003−186883号公報(第8−11頁、第1−9図)
特許文献1に記載されたリンク情報チェックシステムによれば、物理的不整合を自動検出することはできる。しかし、リンク先文書にアクセスした際にエラーが発生するか否かを基準にリンクの不整合を検出しているので、リンク先文書にアクセスした際にエラーを発生しない論理的不整合を自動検出することはできない。
また、特許文献1に記載されたリンク情報チェックシステムによれば、リンクの不整合箇所を検出できるが、リンクが不整合になる要因を特定することはできない。そのため、不整合箇所の修正を対処療法的に行うことになってしまう。
また、特許文献2に記載された文書特徴抽出装置では、リンク元文書の特徴ベクトルを生成して、生成した特徴ベクトルを用いて文書の分類を行っているにすぎず、文書間のリンクの不整合を検出することはできない。さらに、特許文献3に記載された内部構造推定装置では、リンク分類木を獲得し、Webサイト単位の情報検索を行うために、獲得したリンク分類木を利用してWebサイトの内部構造の推定を行っているにすぎず、リンクの不整合を検出することはできない。
そこで、本発明は、上記課題を解決するためになされたものであって、ハイパーテキストのリンクの論理的不整合を自動検出することができるリンク診断装置、リンク診断方法およびリンク診断プログラムを提供することを目的とする。また、本発明は、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができるリンク診断装置、リンク診断方法およびリンク診断プログラムを提供することを目的とする。
本発明によるリンク診断装置は、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出するリンク特徴抽出手段と、予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段と、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定する不整合判定手段とを備えたことを特徴とする。なお、リンクの属性とは、例えば、リンク元の文書のリンク部分の表記であるリンク元表記、リンク元の文書の所在を示すアドレス、リンク先の文書の所在を示すアドレスのことである。
また、リンク診断装置は、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、不整合が生じているか否かの判定結果とを記憶する判定済みリンク情報記憶手段と、未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込む判定済みリンク情報読込手段と、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいて、少なくとも判定済みリンク情報に含まれる情報、判定済みリンク情報に含まれる情報の位置若しくは大きさ、判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出するリンク特徴抽出手段と、リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を導出する識別関数導出手段と、識別関数導出手段によって導出された識別関数を記憶する識別関数記憶手段と、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えたものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて識別関数を求め、求めた識別関数を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。
また、リンク診断装置は、不整合判定手段による未判定のリンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、フィードバック手段は、未判定のリンクに対する不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、確認結果にもとづいて、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段は、フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、識別関数導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出するものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて識別関数を更新することができ、最適な識別関数を用いてリンクの論理的不整合を自動検出することができる。
また、リンク診断装置は、不整合判定手段による未判定リンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、フィードバック手段は、未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、確認結果にもとづいて、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段は、フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、識別関数導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出し、未判定リンク情報読込手段は、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込み、リンク特徴抽出手段は、未判定リンク情報読込手段によって読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、不整合判定手段は、リンク特徴抽出手段が新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、識別関数導出手段によって再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した識別関数を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。
また、リンク診断装置は、リンク特徴情報と不整合判定手段によってリンク特徴情報と比較される識別関数を導出するための識別関数導出アルゴリズムとの組合せのうち、リンク特徴情報とリンクに不整合が生じているか否かの判定結果の精度が最も高くなる識別関数導出アルゴリズムとの組合せを決定する最適組合せ決定手段を備え、最適組合せ決定手段は、判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませ、リンク特徴抽出手段に、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定め、識別関数導出手段に、個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させ、不整合判定手段に、個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された識別関数を用いて再度判定を行わせ、不整合判定手段に再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定するものであってもよい。そのような構成によれば、ユーザあは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。
また、リンク特徴抽出手段は、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出するものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。
また、リンク特徴抽出手段は、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出するものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。
本発明によるリンク診断方法は、未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、識別関数記憶手段が、予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を記憶し、不整合判定手段が、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定することを特徴とする。
また、リンク診断方法は、未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、判定済みリンク情報記憶手段が、リンク情報のうち予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、不整合が生じているか否かの判定結果とを記憶し、未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、判定済みリンク情報読込手段が、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいて、少なくとも判定済みリンク情報に含まれる情報、判定済みリンク情報に含まれる情報の位置若しくは大きさ、判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、識別関数導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を導出し、識別関数記憶手段が、識別関数導出手段によって導出された識別関数を記憶し、不整合判定手段が、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて識別関数を求め、求めた識別関数を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。
また、リンク診断方法は、フィードバック手段が、不整合判定手段による未判定のリンクに対する不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、フィードバック手段が、未判定のリンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段が、フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、識別関数導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出するものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて識別関数を更新することができ、最適な識別関数を用いてリンクの論理的不整合を自動検出することができる。
また、リンク診断方法は、フィードバック手段が、不整合判定手段による未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、フィードバック手段が、未判定のリンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段が、フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、識別関数導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出し、未判定リンク情報読込手段が、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、不整合判定手段が、リンク特徴抽出手段が新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、識別関数導出手段によって再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した識別関数を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。
また、リンク診断方法は、最適組合せ決定手段が、判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませ、リンク特徴抽出手段に、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定め、識別関数導出手段に、個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させ、不整合判定手段に、個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された識別関数を用いて再度判定を行わせ、不整合判定手段に再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定するものであってもよい。そのような構成によれば、ユーザは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。
また、リンク診断方法は、最適組合せ決定手段が、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる各組合せと、各組合せにおける不整合判定手段に再度判定させた結果の精度とを一覧表示するものであってもよい。そのような構成によれば、ユーザは、統計計算の処理のフェーズにおいて試行錯誤しなくても判定精度の高いアルゴリズムとリンク特徴情報との組合せを知ることができる。
また、リンク診断方法は、リンク特徴抽出手段が、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出するものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。
また、リンク診断方法は、リンク特徴抽出手段が、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出するものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。
また、リンク診断方法は、識別関数導出手段が、ユーザの入力操作に従ってリンク特徴情報の種類と、識別関数導出アルゴリズムの種類と、識別関数導出アルゴリズムに適用されるパラメータとを指定され、リンク特徴抽出手段に、ユーザの入力操作に従って指定された種類のリンク特徴情報を抽出させ、識別関数導出手段が、ユーザの入力操作に従って指定され、かつ判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ不整合が生じているか否かの判定結果とを用いて、ユーザの入力操作に従って指定された識別関数導出アルゴリズムおよびパラメータに従って、識別関数を導出し、識別関数記憶手段が、識別関数導出手段によって導出された識別関数を記憶し、不整合判定手段が、ユーザの入力操作に従って指定され、かつ未判定リンク情報にもとづいて抽出したリンク特徴情報と識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、ユーザは、各アルゴリズムを用いた場合の判定精度を確認し、試行錯誤しながら判定精度の高いアルゴリズムを選択して自動判定させることができる。
また、リンク診断方法は、不整合判定手段が、リンク特徴情報と識別関数とを用いて未判定のリンクに不整合が生じているか否かを判定するとともに、不整合が生じているか否かの判定結果の信頼性を示す確信度を算出し、判定を行った各リンクごとに、不整合が生じているか否かの判定結果および確信度を表示するものであってもよい。そのような構成によれば、ユーザは、確信度を確認することによって、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。
また、リンク診断方法は、不整合判定手段が、判定を行った各リンクのリンク情報を、確信度に応じて色分けして表示するものであってもよい。そのような構成によれば、ユーザは、リンク情報の色分けを識別することによって、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。
また、リンク診断方法は、不整合判定手段が、判定を行った各リンクのリンク情報を、確信度をソートキーとして並べ替えて表示するものであってもよい。そのような構成によれば、ユーザは、確信度の順にリンク情報を確認できるので、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。
また、リンク診断方法は、不整合判定手段が、不整合が生じているか否かの判定対象となるリンクに対する不整合が生じているか否かの判定結果とともに、判定対象となるリンクとリンク元表記が共通するリンクのグループ、判定対象となるリンクとリンク先アドレスが共通するリンクのグループ、判定対象となるリンクとリンク元アドレスおよびリンク元表記が共通するリンクのグループ、判定対象となるリンクとリンク元アドレスおよびリンク先アドレスが共通するリンクのグループのうちのいずれか1つのグループまたはいずれか複数のグループを表示するものであってもよい。そのような構成によれば、ユーザは、不整合と判定された箇所をどのように修正すればよいかを容易に判断することができる。
また、リンク診断方法は、不整合判定手段が、不整合が生じていると判定されたリンクのリンク元となる文書に含まれる各リンクによって構成されるグループを表示し、ユーザの入力操作に従って文書の指定を入力し、文書の指定入力した場合、文書を表示するとともに不整合が生じているリンクの箇所を特定して表示するものであってもよい。そのような構成によれば、ユーザは、文書内のどこに不整合が存在するかを素早く把握することができる。
本発明によるリンク診断プログラムは、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段とを備えたコンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、および未判定リンク情報にもとづいて抽出されたリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定する処理を実行させることを特徴とする。
また、リンク診断プログラムは、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち予めリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、不整合が生じているか否かの判定結果とを記憶する判定済みリンク情報記憶手段と、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段とを備えたコンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込む処理、読み込まれた未判定リンク情報にもとづいて、少なくとも未判定リンク情報に含まれる情報、未判定リンク情報に含まれる情報の位置若しくは大きさ、未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、読み込まれた判定済みリンク情報にもとづいて、少なくとも判定済みリンク情報に含まれる情報、判定済みリンク情報に含まれる情報の位置若しくは大きさ、判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、読み込まれた不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、識別関数を導出する処理、および未判定リンク情報にもとづいて抽出されたリンク特徴情報を座標上にプロットした点、識別関数記憶手段が記憶する識別関数とを比較して未判定リンク情報に含まれるリンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定する処理を実行させるものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて識別関数を求め、求めた識別関数を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。
また、リンク診断プログラムは、コンピュータに、未判定のリンクに対する不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力する処理、未判定のリンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込む処理、再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、および判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する処理を実行させるものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて識別関数を更新することができ、最適な識別関数を用いてリンクの論理的不整合を自動検出することができる。
また、リンク診断プログラムは、コンピュータに、未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力する処理、未判定のリンクに対する不整合が生じているか否かの判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込む処理、再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する処理、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込む処理、読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出する処理、および新規の未判定リンク情報にもとづいて抽出されたリンク特徴情報と再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させるものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した識別関数を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。
また、リンク診断プログラムは、コンピュータに、リンク特徴情報と不整合判定手段によってリンク特徴情報と比較される識別関数を導出するための識別関数導出アルゴリズムとの組合せのうち、リンク特徴情報とリンクに不整合が生じているか否かの判定結果の精度が最も高くなる識別関数導出アルゴリズムとの組合せを決定する最適組合せ決定処理を実行させ、最適組合せ決定処理において、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませる処理、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させる処理、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定める処理、個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させる処理、個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された識別関数を用いて再度判定を行わせる処理、および再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を個々の組合せごとに行うことによって、再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する処理を実行させるものであってもよい。そのような構成によれば、ユーザは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。
また、リンク診断プログラムは、コンピュータに、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する処理を実行させるものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。
また、リンク診断プログラムは、コンピュータに、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出する処理を実行させるものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。
本発明によれば、リンクの属性を示すリンク情報にもとづいてリンク特徴情報を抽出する。また、抽出したリンク特徴情報に着目して、リンク特徴情報と、不整合が生じているか否かの判定結果との関係を示す識別関数を用いて、未判定のリンクが不整合か否かを判定する。従って、ハイパーテキストのリンクの論理的不整合を自動検出することができる。
実施の形態1.
本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明によるリンク診断装置の構成の一例を示すブロック図である。図1に示すように、リンク診断装置は、キーボードやマウスなどの入力装置11と、ディスプレイ装置や印刷装置などの出力装置12と、プログラムに従って動作するデータ処理装置20と、各情報を記憶する記憶装置30とを含む。
記憶装置30は、例えば、磁気ディスク装置によって実現される。図1に示すように、記憶装置30は、未判定リンク情報記憶部31、判定済みリンク情報記憶部32、リンク特徴記憶部33および学習結果記憶部34を含む。
未判定リンク情報記憶部31は、リンク(ハイパーリンク)によって対応づけられた複数の文書を含むハイパーテキストから抽出したリンク情報のうち、文書間のリンクに不整合があるか否か未判定であるリンク情報を記憶する。リンク情報とは、アクセス先(指定先)の文書をアクセス元(指定元)の文書に関連づけるハイパーテキストのリンクの属性を示す情報である。本実施の形態では、未判定リンク情報記憶部31は、リンク情報として、リンク元文書上のリンク部分の表記であるリンク元表記、リンク元文書の所在を示すリンク元アドレス、およびリンク先文書の所在を示すリンク先アドレスを記憶する。なお、未判定リンク情報記憶部31は、リンク情報として、リンクのtarget属性、 style属性、リンク元文書やリンク先文書の本文、更新日付、取得日時、およびエラーが発生したか否かなど取得時の状態を示す情報を記憶してもよい。
また、未判定リンク情報記憶部31は、リンク情報に対応づけて、ハイパーテキストを構成する文書間のリンクを識別するためのリンクIDを記憶する。本実施の形態では、未判定リンク情報記憶部31が、予めリンクごとに「L131」,「L141」などの識別情報をリンクIDとして記憶している場合を説明する。なお、リンクIDを付与される識別情報は、本実施の形態で示す形式の情報に限られない。例えば、文書にも文書ID「xxxx」を付与し、文書に対応するyyy 番目のリンクに、リンクID「xxxxyyy 」を付与してもよい。
判定済みリンク情報記憶部32は、既に文書間のリンクに不整合があるか否か判定済みであるリンクのリンク情報、リンクIDおよび不整合があるか否かの判定結果を対応づけて記憶する。以下、不整合があるか否かの判定結果を、不整合判定結果と記す。判定済みリンク情報記憶部32は、不整合判定結果として、これから判定対象となるサイトの過去の判定結果を記憶してもよいし、判定対象のサイトとは異なるサイトの過去の判定結果を記憶してもよい。
リンク特徴記憶部33は、後述するリンク特徴抽出手段22が抽出するリンク特徴情報を記憶する。また、学習結果記憶部34は、後述する不整合学習手段23が求める学習結果を記憶する。
データ処理装置20は、判定済みリンク情報アクセス手段21、リンク特徴抽出手段22、不整合学習手段23、未判定リンク情報アクセス手段24、不整合判定手段25および結果反映手段26を含む。
判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32から判定済みのリンク情報、リンクIDおよび不整合判定結果を読み込み、リンク特徴抽出手段22に出力する。
リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、リンクに論理的な不整合が生じていることの確からしさを示す特徴情報(以下、リンク特徴情報と記す)を抽出する。また、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報をリンク特徴記憶部33に記憶させる。また、判定済みリンク情報アクセス手段21からリンク情報および不整合判定結果が入力された場合には、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報とともに、不整合判定結果をリンク特徴記憶部33に記憶させる。
リンク特徴情報は、文書間のリンクに不整合が生じていることの確からしさを示す情報である。すなわち、リンク特徴情報が所定の内容(例えば、所定の範囲の値)である場合、判定対象のリンクが不整合であると判断できる確率が高くなる。リンク特徴情報は、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」の3種類に大別される。
(A)リンク単独で求めることができるリンク特徴情報の例として、例えば、「リンク元表記に含まれるキーワード」,「リンク先アドレスに含まれるドメイン名またはディレクトリ名」,「リンク元アドレスに含まれるドメイン名またはディレクトリ名」,「文書内におけるリンク元表記の出現位置または表示面積」が挙げられる。
リンク元表記に含まれるキーワードは、リンク元表記に含まれる単語のうちキーワードとして用いられる単語である。リンク元表記に含まれるキーワードは、そのリンクのリンク元表記にスペルミスがあるか否かを判定するために用いられる。例えば、判定済みのデータ中のあるリンクの不整合の原因が特定のリンク元表記のスペルミスであるとする。すると、そのリンク元表記に含まれるキーワードと同じキーワードが判定対象のリンク元表記に使用されている場合には、判定対象のリンクが不整合である可能性が高くなる。
また、リンク元表記として混同して利用されやすく、リンク元表記の一貫性を失いやすいキーワードがある。そのようなキーワードが判定対象のリンク元表記に使用されている場合には、判定対象のリンクに不整合がある可能性が高くなる。例えば、「新着情報」および「イベント情報」は、ともに何か新しい情報を提供する場合に用いられるキーワードであり混同して用いられやすい。従って、リンク元表記が「新着情報」や「イベント情報」をキーワードとして含む場合には、判定対象のリンクが不整合である可能性が高くなる
リンク先アドレスに含まれるドメイン名またはディレクトリ名は、リンク先アドレスの正当性を判定するために用いられる。例えば、サイトリニューアルなどによって、あるドメインやディレクトリに含まれる文書が削除されり他の場所に移動された場合には、その削除または移動された文書を参照しているリンクが不整合になる可能性が高くなる。
リンク元アドレスに含まれるドメイン名またはディレクトリ名は、サイトを管理するサイト管理者(ユーザ)の管理状況に由来するリンク不整合を判定するために用いられる。一般に、大規模なサイトを管理する場合には、複数のサイト管理者が分業して管理作業を行うことが多い。この場合、各サイト管理者はドメイン単位やディレクトリ単位に役割分担することが多いので、一部サイト管理者の分担領域の管理が十分でない場合には、その分担領域のドメインまたはディレクトリに含まれる文書からのリンクは、リンク不整合になる可能性が高くなる。
文書内におけるリンク元表記の出現位置あるいは表示面積は、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定するために用いられる。例えば、リンク元表記の出現位置が文書の下部に位置し、リンク元表記の大きさも小さい場合、リンク元表記は文書内で目立ちにくい。そのため、そのリンクに不整合があっても、サイト管理者が不整合のチェックの際に見落としてしまい不整合の状態のままになってしまう可能性が高くなる。
リンク特徴情報としてリンク元表記に含まれるキーワードを求める場合、リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報に含まれるリンク元表記から、キーワードを抽出する。リンク特徴情報としてドメイン名またはディレクトリ名を求める場合、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク元アドレスまたはリンク先アドレスから、ドメイン名やディレクトリ名を抽出する。
リンク特徴情報としてリンク元表記の出現位置または表示面積を求める場合、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク元アドレスにもとづいて、リンク元からリンク元文書を読み込む。そして、リンク特徴抽出手段22は、リンク情報に含まれるリンク元表記および読み込んだリンク元文書にもとづいて、文書内におけるリンク元表記の出現位置や表示位置を求める。なお、リンク特徴抽出手段22がリンク元文書をリンク元アドレスにもとづいて読み込むのでなく、予め未判定リンク情報記憶部31および判定済みリンク情報記憶部32がリンク情報としてリンク元文書を記憶していてもよい。
(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報の例として、例えば、「リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数(以下、タイトル出現回数と記す)」,「リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数(以下、本文出現回数と記す)」,「リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数(以下、強調表示回数と記す)」が挙げられる。なお、キーワードが強調表示されているとは、例えば、文書内でキーワードが太字で表示されていたり、大きい文字サイズで表示されていることである。
タイトル出現回数、本文出現回数および強調表示回数は、いずれもリンク元表記とリンク先文書との対応関係が正しいか否かを判定するために用いられる。すなわち、タイトル出現回数、本文出現回数および強調表示回数の値が大きくなるに従って、リンクが不整合である確率が低くなる。なお、文書の長さが長くなるに従って、一般に、タイトル出現回数、本文出現回数および強調表示回数の値が大きくなる。文書の長さが長い場合には、タイトル出現回数、本文出現回数および強調表示回数を、文書の長さで除算して正規化した値をリンク特徴情報として用いてもよい。
タイトル出現回数、本文出現回数および強調表示回数を求める場合、リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報に含まれるリンク元表記からキーワードを抽出する。また、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク先アドレスにもとづいて、リンク先からリンク先文書を読み込む。そして、リンク特徴抽出手段22は、抽出したキーワードおよび読み込んだリンク先文書にもとづいて、タイトル出現回数、本文出現回数および強調表示回数を求める。なお、リンク特徴抽出手段22がリンク先文書をリンク先アドレスにもとづいて読み込むのでなく、予め未判定リンク情報記憶部31および判定済みリンク情報記憶部32がリンク情報としてリンク先文書を記憶していてもよい。
(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報の例として、例えば、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」,「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」,「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」,「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」が挙げられる。なお、学習とは、後述するように、学習処理のフェーズにおいて識別関数を求める処理のことである。
「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、同じ名前で誤った文書を参照しているリンクの不整合を判定するために用いられる。図2は、同じ名前で誤った文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図2において、文書111は、製品αについての情報が記述されている文書であり、文書112は、製品βについての情報が記述されている文書である。
本例では、3つの文書113,114,115にそれぞれ記載されている同一のリンク元表記「製品α」から、製品αの情報が記載されている文書111に正しくリンクされている(リンク131,141,151)。一方、文書116に記載されているリンク元表記「製品α」からは、誤って製品βの情報が記載されている文書112にリンクされている(リンク161)。
図3は、リンク特徴情報として、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図2に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図2に示すリンクの対応関係がある場合に、同一のリンク元表記で各リンクをグループ化すると、図3に示すように、リンク特徴抽出手段22は、リンク元表記が「製品α」である4つのリンク131,141,151,161のグループを作る。図3において、リンクID「L131」は図2のリンク131に対応するID、リンクID「L141」は図2のリンク141に対応するID、リンクID「L151」は図2のリンク151に対応するID、およびリンクID「L161」は図2のリンク161に対応するIDである。
また、リンク特徴抽出手段22は、グループ化した4つのリンク131,141,151,161のうち、リンク先アドレスが「文書111のアドレス」である3つのリンク131,141,151のサブグループを作る。また、リンク特徴抽出手段22は、リンク先アドレスが「文書112のアドレス」である1つのリンク161を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。
図3に示すように、リンク元表記が「製品α」でありリンク先アドレスが「文書111のアドレス」であるサブグループのリンク数の割合は、3/4=0.75と求められる。また、リンク元表記が「製品α」でありリンク先アドレスが「文書112のアドレス」であるサブグループのリンク数の割合は、1/4=0.25と求められる。従って、リンク特徴情報として求められる「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、リンク131,141,151では0.75と求められ、リンク161では0.25と求められる。このように、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。
「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」は、同じ文書を誤った名前で参照しているリンクの不整合を判別するために用いられる。図4は、同じ文書を誤った名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図4において、文書221は、サイトの更新履歴が記述されている新着情報を含む文書であり、文書222は、セミナや展示会などのイベントの予定が記述されているイベント情報を含む文書である。
本例では、3つの文書223,224,225のリンク元表記「新着情報」から、それぞれ文書221に正しくリンクされている(リンク231,241,251)。一方、文書226のリンク元表記「イベント情報」からは、本来文書222にリンクすべきであるが、誤って文書221にリンクされている(リンク261)。
図5は、リンク特徴情報として、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図4に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図4に示すリンクの対応関係がある場合に、同一のリンク先アドレスでグループ化すると、図5に示すように、リンク特徴抽出手段22は、リンク先アドレスが「文書221のアドレス」である4つのリンク231,241,251,261のグループを作る。図5において、リンクID「L231」は図4のリンク231に対応するID、リンクID「L241」は図4のリンク241に対応するID、リンクID「L251」は図4のリンク251に対応するID、およびリンクID「L261」は図4のリンク261に対応するIDである。
また、リンク特徴抽出手段22は、グループ化した4つのリンク231,241,251,261のうち、リンク元表記が「新着情報」である3つのリンク231,241,251のサブグループを作る。また、リンク特徴抽出手段22は、リンク元表記が「イベント情報」である1つのリンク261を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。
図5に示すように、リンク先アドレスが「文書221のアドレス」でありリンク元表記が「新着情報」であるサブグループのリンク数の割合は、3/4=0.75と求められる。また、リンク先アドレスが「文書221のアドレス」でありリンク元表記が「イベント情報」であるサブグループのリンク数の割合は、1/4=0.25と求められる。したがって、リンク特徴情報として求められる「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」は、リンク231,241,251では0.75と求められ、リンク261では0.25と求められる。このように、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。
「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、一つの文書から同じ名前で異なる文書を参照しているリンクの不整合を判定するために用いられる。図6は、一つの文書から同じ名前で異なる文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図6において、文書631は、最新バージョンのソフトウェアXの情報が記述されている文書であり、文書632は、古いバージョンのソフトウェアXの情報が記述されている文書である。
本例では、文書633のリンク元表記「ソフトX最新版」からのリンクのうち、2つのリンク331,332が文書631に正しく対応している。一方、文書633のリンク元表記「ソフトX最新版」からのリンクのうち、リンク333は、古いバージョンのソフトウェアXの情報が記述されている文書632に対応したままとなっている。
図7は、リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図6に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図6に示すリンクの対応関係がある場合に、同一のリンク元アドレスおよび同一のリンク元表記でグループ化すると、リンク特徴抽出手段22は、図7に示すように、リンク元アドレスが「文書633のアドレス」でありリンク元表記が「ソフトX最新版」である3つのリンク331,332,333のグループを作る。図7において、リンクID「L331」は図6のリンク331に対応するID、リンクID「L332」は図6のリンク332に対応するID、およびリンクID「L333」は図6のリンク333に対応するIDである。
また、リンク特徴抽出手段22は、グループ化した3つのリンク331,332,333のうち、リンク先アドレスが「文書631のアドレス」である2つのリンク331,332のサブグループを作る。また、リンク特徴抽出手段22は、リンク先アドレスが「文書632のアドレス」である1つのリンク333を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。
図7に示すように、リンク先アドレスが「文書631のアドレス」であるサブグループのリンク数の割合は、2/3=0.67と求められる。また、リンク先アドレスが「文書632のアドレス」であるサブグループのリンク数の割合は、1/3=0.33と求められる。このように、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。
なお、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を計算するためのグループ化の条件は、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を計算する場合のグループ化条件をより厳しくしたものとなっている。したがって、リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」と、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」とを組み合わせて用いることによって判定精度をより高めることができる。
「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」は、一つの文書から別の一つの文書を異なる名前で参照しているリンクの不整合を判定するために用いられる。図8は、一つの文書から別の一つの文書を異なる名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図8において、文書841は、2002年の年次報告が記述されている文書である。
本例では、文書842のリンク元表記「年次報告2002」から、文書841に正しくリンクしている(リンク422)。一方、同じ文書842から同じ文書841に対応しているリンク421については、文書842のリンク元表記が「年次報告2003」になっており、リンク元表記とリンク先文書の内容とが食い違っている。
図9は、リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図8に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図8に示すリンクの対応関係がある場合に、同一のリンク元アドレスおよび同一のリンク先アドレスでグループ化すると、リンク特徴抽出手段22は、図9に示すように、リンク元アドレスが「文書842のアドレス」でありリンク先アドレスが「文書841のアドレス」である2つのリンク421,422のグループを作る。図9において、リンクID「L421」は図8のリンク421に対応するID、およびリンクID「L422」は図8のリンク422に対応するIDである。
また、リンク特徴抽出手段22は、グループ化した2つのリンク421,422のうち、リンク元表記が「年次報告2003」である1つのリンク421を含むサブグループを作る。また、リンク特徴抽出手段22は、グループ化した2つのリンク421,422のうち、リンク元表記が「年次報告2002」である1つのリンク422を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。
図9に示すように、リンク元表記が「年次報告2003」であるサブグループのリンク数の割合は、1/2=0.5と求められる。また、リンク元表記が「年次報告2002」であるサブグループのリンク数の割合は、1/2=0.5と求められる。「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。
なお、図9に示す例では、いずれのサブグループのリンク数の割合も0.5で同じである。そのため、リンク特徴情報として「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を用いるだけでは、いずれのリンクが不整合であるか直ちに判断することができないが、いずれかのリンクに不整合があることが分かる。
この場合、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を計算するためのグループ化の条件は、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を計算する場合のグループ化条件をより厳しくしたものとなっている。したがって、リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」と、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」とを組み合わせて用いることによって判定精度をより高めることができる。
図10は、リンク特徴抽出手段22からリンク特徴記憶部33に入力され、リンク特徴記憶部33が記憶するリンク特徴情報、リンクIDおよび不整合判定結果のデータ構造の例を示す説明図である。図10(a)は、リンク特徴記憶部33が、リンク特徴情報として、リンク元表記に含まれるキーワード、タイトル出現回数および強調表示回数を記憶する場合の例である。また、図10(a)に示すように、リンク特徴記憶部33は、各リンク特徴情報と、リンクIDと、不整合判定結果とを対応づけて記憶する。
図10(a)に示す例では、リンクID「L11」のリンクのリンク元表記には、キーワードとして「新着」および「情報」が含まれていることがわかる。また、「新着」および「情報」のキーワードがリンク先文書のタイトル中に合計で7回出現していることがわかる。また、「新着」および「情報」のキーワードがリンク先文書の本文中に合計で8回強調表示されていることがわかる。さらに、リンクID「L11」のリンクは、不整合判定結果が「○」であり、正常と判定されたリンクであることがわかる。
また、リンクID「L12」のリンクのリンク元表記には、キーワードとして「イベント」および「情報」が含まれていることがわかる。また、「イベント」および「情報」のキーワードがリンク先文書のタイトル中に合計で5回出現しており、リンク先文書の本文中に合計で3回強調表示されていることがわかる。さらに、リンクID「L12」のリンクは、不整合判定結果が「×」であり、不整合と判定されたリンクであることがわかる。
なお、図10(a)に例示するデータ構造では、リンク特徴記憶部33が、リンク特徴情報として、キーワードなどの質的データ(数量でないデータ)と、出現回数などの量的データとを混在して記憶する場合を説明したが、リンク特徴記憶部33は、量的データのみを含むリンク特徴情報を記憶するものであってもよい。
例えば、後述するように、不整合学習手段23は、所定の学習アルゴリズムを用いて、リンクが不整合であるか否かを判定するための識別関数を算出する。不整合学習手段23が学習アルゴリズムとして線形判別分析法やニューラルネットワークなど用いる場合には、不整合学習手段23に量的データが入力されなければならない。この場合、キーワードを数値データに変換することによって、リンク特徴記憶部33は、量的データのみを含むリンク特徴情報を記憶していてもよい。
図10(b)は、リンク特徴記憶部33が、量的データのみを含むリンク特徴情報を記憶する場合の例である。なお、図10(b)に示す各リンク特徴情報は、図10(a)に示す各リンク特徴情報を全て量的データに変換にしたものに相当する。図10(b)に示す例では、各キーワードがそれぞれダミー変数に変換されて記憶されている。例えば、図10(b)に示すように、各キーワードは、リンク元表記に含まれていれば「1」に変換され、リンク元表記に含まれていなければ「0」に変換されて、リンク特徴記憶部33に記憶される。
また、リンク特徴情報は質的データのみを含むものであってもよい。例えば、学習アルゴリズムとして決定木(decision tree )などが用いられる場合には、不整合学習手段23に質的データが入力されなければならない。この場合、各項目をカテゴリ化(分類)することによって、リンク特徴記憶部33は、質的データのみを含むリンク特徴情報を記憶していてもよい。
図10(c)は、リンク特徴記憶部33が、質的データのみを含むリンク特徴情報を記憶する場合の例である。なお、図10(c)に示す各リンク特徴情報は、図10(a),(b)に示す各リンク特徴情報を全て質的データに変換したものに相当する。図10(c)に示す例では、各キーワードは、リンク元表記に含まれていれば「含む」に、リンク元表記に含まれていなければ「含まない」にカテゴリ化されてリンク特徴記憶部33に記憶される。
また、タイトル出現回数は最小値が「5」であり最大値が「7」であるので、回数「5」から「7」までの区間を3つにカテゴリ化すると、回数「5」の場合を「少」、回数「6」の場合を「中」、および回数「7」の場合を「多」とカテゴリ化することができる。本例では、図10(c)に示すように、リンク特徴記憶部33は、タイトル出現回数を「少」,「中」,「多」の3つにカテゴリ化した質的データを記憶している。
また、強調表示回数は最小値が「3」であり最大値が「8」であるので、回数「3」から「8」までの区間を3つにカテゴリ化すると、回数「3」または「4」の場合を「少」、回数「5」または「6」の場合を「中」、および回数「7」または「8」の場合を「多」とカテゴリ化することができる。本例では、図10(c)に示すように、リンク特徴記憶部33は、強調表示回数を「少」,「中」,「多」の3つにカテゴリ化した質的データを記憶している。
なお、図10(c)に示す例では、最小値から最大値までの区間をデータの値にもとづいて「少」,「中」,「多」の3つにカテゴリ化する場合を説明したが、データを3つにカテゴリ化する方法は、本実施の形態で示した方法に限られない。例えば、データ数にもとづいて、データ数が3等分されるようにデータを3つにカテゴリ化してもよい。また、本例では、「少」,「中」,「多」の3つのカテゴリに変換する場合を説明したが、変換するカテゴリの数は、本実施の形態で示した場合に限られない。例えば、2つにカテゴリ化したり5つにカテゴリ化するなど、他の任意の数のカテゴリに分類してもよい。
また、図10に示す例では、リンク特徴記憶部33が既に判定済みのリンクのリンク特徴情報を記憶する場合を説明したが、リンク特徴記憶部33が未判定のリンクのリンク特徴情報を記憶する場合も図10に示した場合と同様である。未判定のリンクのリンク特徴情報を記憶する場合、リンク特徴記憶部33は、不整合判定結果として、未判定であることを示す識別子を記憶する。例えば、リンク特徴記憶部33は、不整合判定結果として、「?」,「−」,「−1」などの識別子を記憶する。
不整合学習手段23は、リンク特徴記憶部33が記憶するリンク特徴情報と不整合判定結果とにもとづいて、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と、リンクが不整合と判定された割合との関係を統計計算する。不整合学習手段23は、統計計算をすることによって、あるリンクが不整合であるか否かを判定するために用いられる識別関数を求める。識別関数は、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と、その判定の判定結果との関係を示している。
また、不整合学習手段23は、求めた識別関数を学習結果記憶部34に記憶させる。この場合、不整合学習手段23は、求めた識別関数とともに、不整合学習手段23が識別関数を求めるために用いた学習アルゴリズムの種類を、学習結果記憶部34に記憶させる。なお、本実施の形態では、不整合学習手段23は、識別関数として、識別関数を表現するためのパラメータ(識別関数に含まれる係数)を学習結果記憶部34に記憶させる。
未判定リンク情報アクセス手段24は、未判定リンク情報記憶部31からリンクが不整合か否か未判定のリンク情報を読み込み、リンク特徴抽出手段22に出力する。
不整合判定手段25は、リンク特徴記憶部33が記憶するリンク特徴情報のうち、不整合か否か未判定のリンクのリンク特徴情報と、学習結果記憶部34が記憶する識別関数とを用いて、未判定のリンクに不整合があるか否かを判定する。
結果反映手段26は、不整合判定手段25が判定した不整合の判定結果を出力装置12に出力する機能を備える。また、結果反映手段26は、サイト管理者の操作に従って、文書の修正や判定結果の訂正をする機能を備える。例えば、サイト管理者は、出力装置12に出力された不整合の判定結果を確認すると、入力装置11を操作して、不整合のある文書の修正指示を入力する。また、不整合の判定結果に誤りがある場合には、サイト管理者は、入力装置11を操作して、不整合の判定結果の訂正指示を入力する。なお、判定結果を訂正するとは、不整合がある旨の判定結果に対して訂正指示がされた場合には判定結果の内容を「不整合がない」に変更し、不整合がない旨の判定結果に対して訂正指示がされた場合には判定結果の内容を「不整合がある」に変更することをいう。
サイト管理者の確認結果(文書の修正指示、または判定結果の訂正指示)が入力されると、結果反映手段26は、サイト管理者の確認結果を判定済みリンク情報アクセス手段21にフィードバックする。本実施の形態において、確認結果をフィードバックするとは、サイト管理者の確認結果が入力された場合に、結果反映手段26が判定済みリンク情報アクセス手段21に情報の更新を指示し、判定済みリンク情報アクセス手段21が判定済みリンク情報記憶部32に記憶される情報を更新することをいう。すなわち、確認結果がフィードバックされると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する。なお、リンク特徴記憶部33が記憶する情報が更新されると、不整合学習手段23は、更新されたデータにもとづいて識別関数を再計算する。
未判定リンク情報記憶手段は、未判定リンク情報記憶部31によって実現される。未判定リンク情報読込手段は、未判定リンク情報アクセス手段24によって実現される。関係情報記憶手段は、学習結果記憶部34によって実現される。不整合判定手段は、不整合判定手段25および出力装置12によって実現される。判定済みリンク情報記憶手段は、判定済みリンク情報記憶部32によって実現される。判定済みリンク情報読込手段は、判定済みリンク情報アクセス手段21によって実現される。関係情報導出手段は、不整合学習手段23によって実現される。フィードバック手段は、判定済みリンク情報アクセス手段21および結果反映手段26によって実現される。
また、本実施の形態において、関係情報導出手段が導出する関係情報は、不整合学習手段23が求める識別関数に相当する。また、関係情報導出アルゴリズムは、不整合学習手段23が識別関数を求めるために用いる学習アルゴリズムに相当する。また、判定対象となるリンクから特定可能なリンク特徴情報は、「(A)リンク単独で求めることがきるリンク特徴情報」に相当する。また、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報は、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」に相当する。また、所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報は、「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」に相当する。
次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」および「結果確認処理」の3つの独立したフェーズの処理を実行する。「学習処理」とは、判定済みのリンク情報にもとづいて、リンク診断装置が不整合の判定に用いるための識別関数を求める処理である。「判定処理」とは、リンク診断装置が、未判定のリンクに対して、不整合があるか否かを判定する処理である。「結果確認処理」とは、リンク不整合の判定結果を出力(表示)し、判定結果を確認したサイト管理者の操作に従って文書を修正または判定結果を訂正する処理である。なお、本実施の形態では、識別関数を求めることを学習すると記す。
リンク診断装置が実行する学習処理の動作について説明する。図11は、リンク診断装置が実行する学習処理の処理経過の一例を示す流れ図である。データ処理装置20の不整合学習手段23は、サイト管理者の入力操作に従って、学習するための各設定情報の入力を受け付ける(ステップS11)。ステップS11において、不整合学習手段23は、例えば、学習に用いる過去の判定済みリンクに対応するデータ、学習に用いるリンク特徴情報の種類、および学習に用いる学習アルゴリズムの種類の選択指示の入力を受け付ける。
図12は、サイト管理者が学習するための各設定情報を入力するための学習設定画面の一例を示す説明図である。不整合学習手段23は、例えば、図12に示す学習設定画面をディスプレイ装置である出力装置12に表示させる。図12に示すように、学習設定画面1201には、判定済みデータ一覧1211、リンク特徴情報一覧1212、学習アルゴリズム一覧1213および学習ボタン1214が含まれている。
判定済みデータ一覧1211には、過去の判定済みリンクを含む各サイトの名前、URLおよび診断した日時が含まれる。なお、判定済みデータ一覧1211には、参考データとして、各サイトの文書数、リンク数および不整合と判定されたリンク数の割合などが含まれていてもよい。本例では、サイト名「AAA Corp.」のサイトの判定済みリンクに対応するデータのうち、診断日時が「2003年10月24日」および「2003年10月17日」のデータを用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、判定済みデータ一覧1211を含む学習設定画面1201を出力装置12に表示させて、サイト管理者にデータの選択を促す。サイト管理者は、表示された判定済みデータ一覧1211のチェックボックス1215をチェックすることによって、学習に用いるデータを選択する。
リンク特徴情報一覧1212には、学習に利用できるリンク特徴情報の種類がリスト表示される。リンク特徴情報一覧1212にリスト表示されるリンク特徴情報は、前述の「(A)リンク単独で求めることがきるリンク特徴情報」の各情報、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」の各情報、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」の各情報である。本例では、リンク特徴情報のうち、タイトル出現回数および強調表示回数を用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、リンク特徴情報一覧1212を含む学習設定画面1201を出力装置12に表示させて、サイト管理者にリンク特徴情報の種類の選択を促す。サイト管理者は、リンク特徴情報一覧1212のチェックボックス1216をチェックすることによって、学習に用いるリンク特徴情報の種類を選択する。
なお、本例では、判定済みデータ一覧1211とリンク特徴情報1212とを同一の学習設定画面1201に表示し、各設定情報を同時に設定できる場合を説明したが、学習設定画面の表示方法は本実施の形態で示した方法に限られない。例えば、不整合学習手段23は、判定済みデータ一覧1211と、リンク特徴情報一覧1212とを、それぞれ別の画面で出力装置12に表示させてもよい。また、例えば、学習に利用するリンク特徴情報を対話的に設定できるインタフェースを用いてもよい。
学習アルゴリズム一覧1213には、不整合学習手段23が識別関数を求める際に用いる学習アルゴリズムがリスト表示される。識別関数を計算するための学習アルゴリズムとして、統計学で一般的に用いられる手法である線形判別法、パタン認識や機械学習で用いられる決定木、およびニューラルネットワークなどを用いることができる。本例では、学習アルゴリズムのうち、線形判別法を用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、学習アルゴリズム一覧1213を含む学習設定画面1201を出力装置12に表示させて、サイト管理者に学習アルゴリズムの種類の選択を促す。サイト管理者は、学習アルゴリズム一覧1213のチェックボックス1217をチェックすることによって、学習に用いる学習アルゴリズムの種類を選択する。
また、学習アルゴリズムを選択するだけでなく、学習アルゴリズム一覧1213から各学習アルゴリズムに用いるパラメータの値を入力指定することもできる。例えば、図12に示す例では、決定木の枝刈りの信頼度が「25%」に設定されているが、サイト管理者は、別の値を数値入力することによって信頼度の値を変更して、学習の実行指示をすることもできる。また、学習アルゴリズムとしてニューラルネットワークを選択して学習させる場合には、サイト管理者は、階層数およびニューロンの活性化関数(線形関数またはシグモイド関数)を選択することができる。
なお、図12に示す例では、学習アルゴリズムとして、線形判別法、決定木およびニューラルネットワークがリスト表示される場合を説明したが、リスト表示される学習アルゴリズムは、本例で示したものに限られない。例えば、パタン認識で用いられるk最近接近傍法、ベイズ法、SVM(Support Vector Machine)法などがリスト表示されていてもよい。また、学習アルゴリズムごとに設定できるパラメータは、本実施の形態で示したものに限られない。例えば、学習アルゴリズムとしてニューラルネットワークを用いる場合、ニューロンの数をパラメータとして変更入力できるようにしてもよい。
サイト管理者は、判定済みデータ一覧1211、リンク特徴情報一覧1212および学習アルゴリズム一覧1213から各設定情報を選択すると、学習ボタン1214を押す。サイト管理者によって学習ボタン1214が押されると、不整合学習手段23は、リンク情報、リンク特徴情報の種類および学習アルゴリズムの種類の選択指示の入力を受け付ける。
学習するための各設定情報の入力を受け付けると、データ処理装置20の判定済みリンク情報アクセス手段21は、設定内容に従って、判定済みリンク情報記憶部32から、サイト管理者によって選択されたリンク情報、リンクIDおよび不整合判定結果を読み込む(ステップS12)。そして、判定済みリンク情報アクセス手段21は、読み込んだリンク情報、リンクIDおよび不整合判定結果をリンク特徴抽出手段22に出力する。
リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21から入力されたリンク情報にもとづいて、ステップS11でサイト管理者によって選択された種類のリンク特徴情報を抽出する(ステップS13)。そして、リンク特徴抽出手段22は、抽出したリンク特徴情報と、判定済みリンク情報アクセス手段21から入力されたリンクIDおよび不整合判定結果とを、リンク特徴記憶部33に記憶させる(ステップS13)。
不整合学習手段23は、リンク特徴記憶部33に格納されたリンク特徴情報について、各リンク特徴情報の内容と、不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める(ステップS14)。ステップS14において、不整合学習手段23は、ステップS11でサイト管理者によって選択された学習アルゴリズムを用いて識別関数を求める。そして、不整合学習手段23は、求めた識別関数を学習結果記憶部34に記憶させる。
不整合学習手段23が識別関数を求める手順について説明する。本例では、リンク特徴情報としてタイトル出現回数および強調表示回数を用い、学習アルゴリズムとして線形判別分析(線形判別法)を用いて識別関数を求める場合を説明する。
図13および図14は、不整合学習手段23が識別関数を求める場合の算出過程の例を示す説明図である。本例では、不整合学習手段23が、リンク特徴記憶部33が記憶する図13(a)に示す情報を用いて識別関数を求める場合を説明する。本例では、判定済みリンク情報記憶部32が予めリンクID「L51」から「L58」までに対応する8つのリンク情報を記憶している。リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21から入力されたリンク情報から、タイトル出現回数および強調表示回数を抽出し、判定済みリンク情報アクセス手段21からのリンクIDおよび不整合判定結果とともにリンク特徴記憶部33に記憶させている。そして、リンク特徴記憶部33は、リンク特徴抽出手段22から入力された図13(a)に示すリンク特徴情報、リンクIDおよび不整合判定結果を記憶している。
図13(a)において、不整合判定結果が「○」であるリンクは問題がないリンク(不整合がないリンク)であることを意味する。また、不整合判定結果が「×」であるリンクは不整合があるリンクであることを意味する。
図13(b)は、図13(a)に示すタイトル出現回数と強調表示回数とにもとづいて、各リンクを2次元平面にプロット表示した説明図である。図13(b)では、タイトル出現回数を変量x_1とし強調表示回数を変量x_2として、各リンクをプロット表示している。不整合学習手段23は、図13(b)に示す2次元平面において、不整合判定結果が「○」のリンク群と、不整合判定結果が「×」のリンク群とを分ける直線を求める。
不整合の判定結果が、変量x_1およびx_2によって説明できると考えると、識別関数Zは、式1で表すことができる。すなわち、式1に示す識別関数は、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と、その判定の判定結果との関係を示している。
Z=a_1・x_1+a_2・x_2+a_0 式1
不整合学習手段23は、図13(a)に示すリンクIDに対応する各リンクを、図14(a)に示すように、不整合判定結果が「○」のリンク群と、不整合判定結果が「×」のリンク群とに分ける。また、不整合学習手段23は、各リンクごとに、式1に変量x_1およびx_2を代入した判別得点を求める。
全変動をStおよび級間変動をSbとすると、相関比(Sb/St)が最大となる直線を求めることによって、2つのリンク群を最適に分ける直線を求めることができる。全変動Stは、判別得点の全平均Z_allから、各データがどの程度分散しているかを示す値であり、式2を用いて求められる。
St=ΣiΣj(Z_ij−Z_all) 式2
式2において、iは、いずれのリンク群であるかを示すダミーインデックスである。図14(a)に示すデータの場合、iは、「1」または「2」の2通りの値である。図14(a)に示す例では、不整合判定結果「○」のリンク群ではiが「1」であり、不整合判定結果「×」のリンク群ではiが「2」である。また、jは、そのリンク群のうちのいずれのデータであるかを示すダミーインデックスである。図14(a)に示す例では、、不整合判定結果が「○」または「×」のいずれのリンク群も4つのデータを含むので、iが「1」または「2」のいずれの値であっても、jは、「1」から「4」までの4通りの値である。
また、級間変動Sbは、不整合判定結果が「○」のリンク群、および不整合判定結果が「×」のリンク群が、それぞれ全平均Z_allからどの程度分散しているかを示す値であり、式3を用いて求められる。
Sb=Σi{n_i・(Z_i−Z_all)} 式3
式3において、iは、式2と同様に、いずれのリンク群であるかを示すダミーインデックスである。また、図14(a)に示すデータの場合、iは、「1」または「2」の2通りの値である。n_iは、i番目のリンク群のデータの個数を示す。図14(a)に示すデータの場合、i=1番目の不整合判定結果「○」のリンク群は、リンクID「L51」,「L53」,「L54」,「L57」の4つのデータを含むので、n_1=4である。また、i=2番目の不整合判定結果「×」のリンク群は、リンクID「L52」,「L55」,「L56」,「L58」の4つのデータを含むので、n_2=4である。
図14(a)に示すデータについて、式2および式3を用いて全変動Stおよび級間変動Sbを計算すると、それぞれ式4および式5のように求めることができる。
St=(Z_11−Z_all)+(Z_12−Z_all)+(Z_13−Z_all)+(Z_14−Z_all)+(Z_21−Z_all)+(Z_22−Z_all)+(Z_23−Z_all)+(Z_24−Z_all)
=20・a_1−2・a_1・a_2+28・a_2 式4
Sb=4・(Z_1−Z_all)+4・(Z_2−Z_all)
=8・(a_1+2・a_1・a_2+a_2) 式5
式4および式5で求めた全変動Stおよび級間変動Sbを用いて相関比(Sb/St)を計算すると、式6のように求めることができる。
(Sb/St)=(4・t+8・t+4)/(10・t−t+14) 式6
なお、式6において、tは、(a_1/a_2)を置き換えたものである。相関比(Sb/St)が最大になるのは、(Sb/St)をtで微分したものが0になるときであるので、相関比(Sb/St)が最大となるtの値は、式7で求めることができる。
(21・t−8t−29)/(10・t−t+14)=0 式7
式7で示す方程式を解くと、t=1.381,−1と求めることができる。求めたtの値を式6に代入すると、t=−1を代入した場合に相関比(Sb/St)の値が最小値0となり、t=1.381を代入した場合に相関比(Sb/St)の値が最大値0.71556となる。従って、求めるべき相関関数の条件は(a_1/a_2)=1.381であることがわかる。そこで、式1を変形してt=1.381を代入すると、式8のような変形式が求まる。
Z=(a_1/a_2)・x_1+x_2+(a_0/a_2)
=1.381・x_1+x_2+(a_0/a_2) 式8
不整合判定結果「○」のリンク群と、不整合判定結果「×」のリンク群とを2つに分けるためには、識別関数Zが全平均点(6,5)を通ればよいので、式8にx_1=6およびx_2=5を代入すると式9が成立する。
1.381・6+5+(a_0/a_2)=0 式9
式9を用いて(a_0/a_2)=−13.286と求めることができ、識別関数Zは、式10のように求まる。
Z=1.381・x_1+x_2−13.286 式10
従って、2次元平面上に、1.381・x_1+x_2−13.286=0の直線を引けば、不整合判定結果「○」のリンク群と、不整合判定結果「×」のリンク群とを2つに分けることができる。
図14(b)は、図13(b)に示したリンク分布のプロット図上に、直線1.381・x_1+x_2−13.286=0を引いたものである。図14(b)において、プロット図上で直線の上側に位置する不整合判定結果「○」のリンク群では、式10の識別関数Zが正の値となり、下側に位置する不整合判定結果「×」のリンク群では、式10の識別関数Zが負の値となる。
未判定のリンクに対してリンクが不整合であるか否かを判断する場合には、リンク特徴抽出手段22は、未判定のリンク情報にもとづいて、タイトル出現回数x_1と強調表示回数x_2とをリンク特徴情報として抽出する。また、リンク特徴抽出手段22が抽出したリンク特徴情報を用いて、不整合判定手段25は、各リンク特徴情報を式10に代入して識別関数Zの値を求める。そして、リンク特徴抽出手段22は、求めた識別関数の値が正の値であるか負の値であるかを判定することによって、リンクに不整合があるか否かを判定することができる。
識別関数を求めると、不整合学習手段23は、利用した学習アルゴリズムの種類「線形判別分析」と、識別関数の各係数のパラメータ「1.381」,「1」,「−13.286」とを、学習結果記憶部34に記憶させる。
なお、本例では、リンク特徴情報としてタイトル出現回数と強調表示回数とを用いて2次元平面上における識別関数を求める場合を説明したが、不整合学習手段23が識別情報を求める方法は、本実施の形態で示した場合に限られない。例えば、不整合学習手段23は、他の3以上のリンク特徴情報を用いて多次元データに対する識別関数を求めるようにしてもよい。
また、本実施の形態では、サイト管理者によって指定された判定済みリンク情報をステップS12において全て読み込んだ後に、リンク特徴情報を抽出し識別関数を求める場合を説明したが、識別関数を求める手順は、本実施の形態で示した場合に限られない。例えば、判定済みリンク情報を全て読み込んでから処理するのでなく、判定済みリンク情報を1つ1つ読み込みながら各リンクのリンク特徴情報を抽出し、リンク特徴情報を抽出するごとに識別関数を計算しなおすことによって求めるようにしてもよい。
次に、リンク診断装置が判定処理を実行する動作を説明する。図15は、リンク診断装置が実行する判定処理の処理経過の一例を示す流れ図である。データ処理装置20の不整合判定手段25は、不整合の判定をさせたいリンクを選択入力するための設定画面を出力装置12に出力(表示)させて、サイト管理者に判定対象のリンクの選択を促す。サイト管理者は、入力装置11を操作して、不整合の有無を判定させたいリンクを選択する。データ処理装置20の未判定リンク情報アクセス手段24は、サイト管理者によって選択されたリンクに対応するリンク情報およびリンクIDを、未判定リンク情報記憶部31から読み込む(ステップS21)。そして、未判定リンク情報アクセス手段24は、読み込んだ未判定のリンク情報およびリンクIDをリンク特徴抽出手段22に出力する。
図16は、サイト管理者が不整合の判定をさせたいリンクを含むサイトを選択入力するための判定設定画面の一例を示す説明図である。不整合判定手段25は、例えば、図16に示す判定設定画面をディスプレイ装置である出力装置12に表示させる。図16に示すように、判定設定画面1602には、未判定データ一覧1621および判定ボタン1622が含まれている。本例では、未判定データのうち、サイト名「AAA Corp.」のサイトのデータが、サイト管理者によって選択入力される場合を説明する。不整合判定手段25は、図16に示すように、未判定データ一覧1621を含む判定設定画面1602を出力装置12に表示させて、サイト管理者に判定対象のリンクを含むサイトの選択を促す。サイト管理者は、未判定データ一覧1621のチェックボックス1623をチェックすることによって、判定対象のサイトを選択する。
サイト管理者は、図16に示す判定設定画面1602において、不整合を判定させたいリンクを含むサイトを未判定データ一覧1621から選択すると、判定ボタン1622を押す。サイト管理者によって判定ボタン1622が押されると、未判定リンク情報アクセス手段24は、未判定リンク情報記憶部31から、選択されたサイトに対応する未判定のリンク情報およびリンクIDを読み込んで、リンク特徴抽出手段22に出力する。
なお、判定ボタン1622が押されると、未判定リンク情報アクセス手段24は、選択された判定対象のサイトからデータを読み込み、読み込んだデータからリンク情報を抽出してもよい。この場合、未判定リンク情報アクセス手段24は、抽出したリンク情報を未判定リンク情報記憶部31に一旦記憶させる。そして、未判定リンク情報アクセス手段24は、一旦記憶させたリンク情報を未判定リンク情報記憶部31から読み込んで、リンク特徴抽出手段22に出力する。
リンク特徴抽出手段22は、未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、図11に示す「学習処理」において用いたリンク特徴情報と同じ種類のリンク特徴情報を抽出する(ステップS22)。そして、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報をリンク特徴記憶部33に記憶させる。例えば、図12から図14に示す例では、学習処理においてリンク特徴情報としてテキスト出現回数および強調表示回数を用いているので、リンク特徴抽出手段22は、未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、テキスト出現回数および強調表示回数を抽出する。
不整合判定手段25は、リンク特徴記憶部33から抽出したリンク特徴情報と、学習結果記憶部34が記憶する識別関数とを用いて、判定対象のリンクに不整合があるか否かを判定する(ステップS23)。
例えば、学習結果記憶部34が、学習アルゴリズムの種類として「線形判別分析」と、識別関数のパラメータとして「1.381」,「1」,「−13.286」を記憶している場合を説明する。不整合判定手段25は、学習結果記憶部34が記憶する識別関数のパラメータにもとづいて、識別関数「Z=1.381・x_1+x_2−13.286」を復元する。また、不整合判定手段25は、復元した識別関数Zを用いて、未判定のリンク特徴情報に対して識別関数の値を求める。そして、不整合判定手段25は、求めた値が正の値であるか負の値であるかを判断することによって、判定対象のリンクが「問題ない(不整合がない)」か「不整合がある」かを判定する。
次に、リンク診断装置が実行する結果確認処理の動作を説明する。図17は、リンク診断装置が実行する結果確認処理の処理経過の一例を示す流れ図である。データ処理装置20の結果反映手段26は、不整合判定手段25が判定したリンク不整合の判定結果を出力装置12に出力させる(ステップS31)。また、ステップS31において、結果反映手段26は、各リンクの判定結果を、リンク元アドレス単位でグループ化して出力装置12に出力させる。
図18は、不整合判定手段25が判定したリンク不整合の判定結果を表示するための結果確認画面の一例を示す説明図である。結果反映手段26は、例えば、図18に示す結果確認画面をディスプレイ装置である出力装置12に表示させる。図18に示すように、結果確認画面1803には、判定結果一覧1831および登録ボタン1832が含まれている。
図18に示すように、判定結果一覧1831には、各リンクごとの情報として、リンクID、リンク元アドレス、リンク先アドレス、リンク元アンカ(リンク元表記)、判定結果および確信度が含まれる。図18において、判定結果「×」はその判定結果に対応するリンクに不整合があることを示し、判定結果「○」はその判定結果に対応するリンクが不整合のない正しいリンクであることを示す。また、不整合があるリンクと不整合がないリンクとを色分けして表示してもよい。この場合、結果反映手段26は、図18に示す判定結果一覧1831において、不整合判定手段25が不整合があると判定したリンクの各情報の欄には色を付けて出力装置12に表示させてもよい。そのようにすれば、サイト管理者に、どのリンクに不整合があるかを分かりやすく表示することができる。
また、確信度とは、判定結果がどの程度信頼できるかの目安を示す数値である。例えば、学習アルゴリズムとして線形判別分析を用いた場合、判定結果に対応するリンクの分離平面からの距離を確信度として用いてもよい。
なお、本例では、不整合があれば対応するリンクの各情報に色を付けて表示する場合を説明したが、画面上での色分け方法は、本例で示した場合に限られない。例えば、結果反映手段26は、確信度の大きさに応じて色の明度や彩度を変化させて対応するリンクの各情報を出力装置12に表示させてもよい。また、本例では、全てのリンクに対して「○」または「×」の不整合判定結果を表示する場合を説明したが、判定結果の表示方法は、本例で示した場合に限られない。例えば、確信度が閾値以下のリンクについては、不整合があるか否かの判定を行わず未判定表示としてもよい。この場合、未判定としたリンクが不整合であるか否かの判定は、サイト管理者の最終判断にゆだねるようにしてもい。
また、結果反映手段26は、図18に示す結果確認画面1803において、判定結果一覧1831の各項目名の箇所「リンクID」,「リンク元アドレス」,「リンク先アドレス」,「リンク元アンカ」,「判定結果」,「確信度」を、出力装置12にそれぞれリンク表示させる。結果反映手段26は、サイト管理者によって各項目名がマウスクリックされると、それぞれの項目をソートキーとして各リンクの情報を並べ替えて出力装置12に表示させる。例えば、「判定結果」の項目名をマウスクリックして各リンクの情報を判定結果の順番に並べ替えさせれば、サイト管理者は、不整合があるリンクの情報だけ注目して効率的に確認することができる。
また、各リンクの情報を確信度の昇順に並べ替えさせれば、サイト管理者は、不整合判定手段25が判定した判定結果を、信頼度の低いものからチェックすることが可能である。特に、学習アルゴリズムとしてSVM法を用いて学習および不整合の判定を行った場合には、SVM法ではデータ全体のばらつきを見るのでなく分離平面近辺のデータだけに着目してデータの分類を行うので、分離平面近辺のデータが精度に大きく影響する。そのため、信頼度の低いものからチェックして訂正結果を反映させることによって、判定精度を向上させやすくなる。
なお、本例では、ソートキーとして「リンクID」,「リンク元アドレス」,「リンク先アドレス」,「リンク元アンカ」,「判定結果」,「確信度」を用いる場合を説明したが、ソートキーは、本例で示したものに限られない。例えば、データのページ中の不整合件数やページビュー(page view )をソートキーとして用いてもよい。また、ディレクトリごとの不整合件数や不整合を含むページ数を計数して不整合のディレクトリ順に並べ替えて表示できるものであってもよい。
結果反映手段26は、サイト管理者の入力指示に従って、サイト管理者によって不整合の判定結果が正しいと判断された場合の操作入力がされたか、判定結果が誤っていると判断された場合の操作入力がされたかを判断する(ステップS32)。結果反映手段26は、図18に示す結果確認画面1803において、判定結果一覧1831のリンク元アドレス中の各文書アドレスも出力装置12にそれぞれリンク表示させている。サイト管理者は、不整合があると判定されたリンクの判定結果を確認したい場合には、対応するリンク元アドレス中の文書アドレスの部分をマウスクリックする。すると、結果反映手段26は、文書修正画面を呼び出して出力装置12に表示させる。
図19は、サイト管理者が、不整合の判定結果が正しいか否かを確認するとともに、文書を修正するための文書修正画面の一例を示す説明図である。図19に示すように文書修正画面1904には、ブラウザ表示部1941、ソースコード表示部1942およびメニュー部1943が含まれる。
ブラウザ表示部1941は、図18に示す結果確認画面1803からマウスクリックされた文書を、ブラウザを用いて表示する画面である。結果反映手段26は、ブラウザ表示部1941において、図18に示す結果確認画面1803においてマウスクリックされた行に対応するリンクの箇所1950を出力装置12にハイライト表示させる。例えば、図18に示す結果確認画面1803においてリンクID「L412」の行にあるリンク元アドレス「文書D41のアドレス」がマウスクリックされたとすると、ブラウザ表示部1941において、リンクID「L412」に対応するリンク元表記「イベント情報」の箇所1950がハイライト表示される。そのようにすることにより、サイト管理者が、ブラウザ上でどのリンクの動作を確認すればよいのかを素早く把握することができる。
図19の文書修正画面1904におけるソースコード表示部1942は、ブラウザ表示部1941が表示している文書のHTML(Hyper Text Markup Language)形式のソースコードを表示する画面である。結果反映手段26は、ソースコード表示部1942において、ブラウザ表示部1941でハイライト表示させている箇所1950に対応するリンク(リンクID「L412」)について、そのリンクに対応するソースコード内の箇所1951を出力装置12にハイライト表示させる。本例では、ブラウザ表示部1941でハイライト表示されているリンク元表記「イベント情報」の箇所1950に対応するリンク(リンクID「L412」)について、そのリンクに対応するソースコード内の箇所1951がハイライト表示されている。そのようにすることにより、サイト管理者は、ソースコード中のどの位置を修正する必要があるのかを素早く把握することができる。
メニュー画面1943には、画面操作用のメニューボタンが配置されている。メニュー画面1943には、メニューボタンとして、「次の不整合」ボタン1944、「前の不整合」ボタン1945、「グループ表示」ボタン1946、「文書修正」ボタン1947および「判定結果訂正」ボタン1948が含まれる。
「次の不整合」ボタン1944は、リンク不整合をナビゲートするためのボタンである。すなわち、サイト管理者によって選択されたデータ中にリンク不整合の箇所が複数含まれる場合に、サイト管理者が「次の不整合」ボタン1944を押すと、結果反映手段26は、閲覧中の文書内に存在するリンクに対応する部分のうち、不整合判定手段25が不整合であると判定した次のリンクに対応する部分を出力装置12に強調表示させる。また、「次の不整合」ボタン1944を押した場合に、閲覧中の文書内に他の不整合があるリンクに対応する部分が存在しない場合には、結果反映手段26は、データ中に含まれる次の文書中で不整合があると判定されたリンクに対応する箇所を強調表示させる。
「前の不整合」ボタン1945も、「次の不整合」ボタン1944と同様に、ナビゲート用のボタンである。すなわち、サイト管理者が「前の不整合」ボタン1945を押すと、結果反映手段26は、閲覧中の文書内に存在するリンクに対応する部分のうち、不整合判定手段25が不整合があると判定した前のリンクに対応する部分を出力装置12に強調表示させる。サイト管理者は、「次の不整合」ボタン1944および「前の不整合」ボタン1945を用いることによって、不整合判定手段25が不整合と判定したリンクに対応する部分のみを効率良くチェックすることができる。
結果反映手段26は、ブラウザ表示部1941およびソースコード表示部1942において、不整合があるリンクに対応する部分をハイライト表示させることによって、サイト管理者に判定結果の確認を促す。サイト管理者は、文書修正画面1904を確認し、表示された判定結果が正しく不整合があると判断した場合には、入力装置11を操作して判定結果が正しいと判断した場合の入力操作を行う。本実施の形態では、サイト管理者は、判定結果が正しいと判断した場合には、入力装置11を操作して、不整合があると判定されたリンクに対応する文書の修正指示を入力する。結果反映手段26は、サイト管理者が判定結果を正しいと判断した場合の操作入力を行ったと判断すると、出力装置12にリンクグループ画面を出力(表示)させる(ステップS33)。なお、リンクグループ画面とは、後述するように、ハイライト表示されている箇所のリンクについて、グループ化された情報を確認するための画面である。
図19に示す例では、「グループ表示」ボタン1946は、ハイライト表示されている箇所のリンクと「リンク元表記が同じリンク」、「リンク先アドレスが同じリンク」、「リンク元アドレスおよびリンク元表記が同じリンク」、および「リンク元アドレスおよびリンク先アドレスが同じリンク」をグループ化して、リンクグループ画面を表示させるためのボタンである。サイト管理者は、ハイライト表示されている箇所のリンクについて、グループ化された情報を確認することによって、文書をどのように修正すればよいかの指針を得ることができる。
サイト管理者は、表示された判定結果が正しくリンクに不整合があると判断すると、「グループ表示」ボタン1946を押す。すると、結果反映手段26は、判定結果を正しいと判断した場合の入力操作が行われたと判断して、リンクグループ画面を表示させる。そして、サイト管理者は、表示されたリンクグループ画面を確認しながら、文書をどのように修正すべきかを検討する。
図20は、リンクグループ画面の一例を示す説明図である。結果反映手段26は、例えば、図20に示すリンクグループ画面2005をディスプレイ装置である出力装置12に表示させる。図20に示すリンクグループ画面2005では、結果反映手段26は、リンクID「L412」のリンク、およびリンクID「L412」とリンク元表記が同じリンク(本例では、リンクID「L421」,「L431」)のグループ化情報を出力装置12に表示させている。図20に示すように、リンクID「421」,「431」のリンクのリンク先アドレスは、ともに「文書D44のアドレス」であることがわかる。
また、図20に示すリンクグループ画面2005では、結果反映手段26は、リンクID「L412」とリンク先アドレスが同じリンク(本例では、リンクID「L411」,「L425」)のグループ化情報を出力装置12に表示させている。図20に示すように、リンクID「L411」,「L425」のリンクのリンク元表記は、ともに「プレリリース」であることがわかる。したがって、サイト管理者は、リンクID「L412」のリンクに対応するリンク元表記を「プレスリリース」に修正するか、またはリンク先アドレスを「文書D44のアドレス」に修正すれば、不整合を解消できる可能性があることがわかる。
なお、図18に示す例ではリンクID「L412」のリンクとリンク元アドレスおよびリンク元表記が同じリンクは存在しないので、図20に示すリンクグループ画面2005では、「リンク元アドレスおよびリンク元表記が同じリンク」のグループ化表示がされていない。また、リンクID「L412」のリンクとリンク元アドレスおよびリンク先アドレスが同じリンクも存在していないので、図20に示すリンクグループ画面2005では、「リンク元アドレスおよびリンク先アドレスが同じリンク」のグループ化表示がされていない。
結果反映手段26は、サイト管理者の修正操作に従って、文書を更新する(ステップS34)。結果反映手段26は、判定済みリンク情報アクセス手段21に、判定済みリンク情報記憶部32が記憶する情報の更新を指示する。すると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する(ステップS35)。すなわち、判定済みリンク情報アクセス手段21は、不整合判定手段25が不整合判定したリンクのリンク情報、リンクIDおよび不整合判定結果を、判定済みリンク情報記憶部32に新たに記憶させる。
例えば、サイト管理者は、リンクグループ画面を確認して修正方法の検討が終わると、図19に示す文書修正画面1904のソースコード表示部1942にソースコードの修正内容を入力して、「文書修正」ボタン1947を押す。「文書修正」ボタン1947が押されると、結果反映手段26は、文書のソースコードを更新する。また、判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32に、判定済みのリンク情報、リンクIDおよび不整合判定結果を新たに記憶させる。すなわち、修正指示されたソースコードが実際のサイトに反映されると同時に、サイト管理者の確認結果がフィードバックされる。
なお、判定済みリンク情報記憶部32が記憶する情報が更新されると、未判定リンク情報アクセス手段24は、更新された情報に対応するリンク情報およびリンクID(すなわち、判定処理を終了したリンクのリンク情報およびリンクID)を、未判定リンク情報記憶部31から削除する。
判定済みリンク情報記憶部32が記憶する情報が更新されると、更新されたリンク情報を用いて図11に示すステップS11からステップS14までの学習処理が再度実行される(ステップS36)。すなわち、不整合学習手段23は、更新されたリンク情報を用いて、統計計算して新たな識別関数を求める。
ステップS32において、サイト管理者が判定結果を正しくないと判断した場合の入力操作が行われた場合には、結果反映手段26は、サイト管理者の操作に従って判定結果を訂正する(ステップS37)。本実施の形態では、サイト管理者によって不整合の判定結果の訂正指示が入力されると、結果反映手段26は、判定結果を訂正する。結果反映手段26は、判定済みリンク情報アクセス手段21に、判定済みリンク情報記憶部32が記憶する情報の更新を指示する。すると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する(ステップS35)。すなわち、判定済みリンク情報アクセス手段21は、不整合判定手段25が不整合判定したリンクのリンク情報、リンクIDおよび訂正された不整合判定結果を、判定済みリンク情報記憶部32に新たに記憶させる。
例えば、サイト管理者は、不整合判定手段25が判定した判定結果が誤っていると判断した場合には、図19に示す文書修正画面1904の「判定結果訂正」ボタン1948を押す。すると、結果反映手段26は、判定結果を訂正する。また、判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32に、判定済みのリンク情報、リンクIDおよび訂正された不整合判定結果を新たに記憶させる。すなわち、サイト管理者によって訂正指示された判定結果が訂正されて、サイト管理者の確認結果がフィードバックされる。
例えば、不整合判定手段25が「不整合である」と判定した結果が誤りである場合に、サイト管理者によって「判定結果訂正」ボタン1948が押されると、判定結果が「不整合でない」に訂正される。また、不整合判定手段25が「不整合でない」と判定した結果が誤りである場合に、サイト管理者によって「判定結果訂正」ボタン1948が押されると、判定結果が「不整合である」に訂正される。判定済みリンク情報記憶部32が記憶する情報が更新されると、更新されたリンク情報を用いて、ステップS11からステップS14までの学習処理が再度実行され、不整合学習手段23は、統計計算して新たな識別関数を求める。
なお、判定済みリンク情報記憶部32が記憶する情報が更新されると、未判定リンク情報アクセス手段24は、更新された情報に対応するリンク情報およびリンクID(すなわち、判定処理を終了したリンクのリンク情報およびリンクID)を、未判定リンク情報記憶部31から削除する。
また、図19に示す例では、不整合判定手段25が「不整合である」と判定したリンクのみをチェックする場合を説明したが、サイト管理者が不整合判定の結果を確認する方法は、本実施の形態で示した場合に限られない。例えば、図18に示す結果確認画面の先頭から順番に「不整合でない」と判定されたリンクもチェックするようにしてもよい。また、リンクを確信度の順に表示させ、確信度の順番に「不整合でない」と判定されたリンクをチェックするようにしてもよい。
また、本実施の形態では、サイト管理者によって選択されたデータに対応する全てのリンクについて不整合の判定結果を出力し、サイト管理者が全てのリンクの判定結果を含む結果確認画面を確認した後に、不整合学習手段23が再学習する場合を説明したが、不整合判定から再学習までの手順は、本実施の形態で示した場合に限られない。例えば、選択されたデータに対応するリンクを不整合学習手段23が1つずつ不整合判定し、1つずつの判定結果に対するサイト管理者の確認結果をフィードバックするようにしてもよい。そして、確認結果が1つずつフィードバックされるごとに不整合学習手段23が再学習し、不整合学習手段23が再学習して求めた識別関数を用いて、不整合判定手段25が次のリンクを判定する手順を繰り返し実行するようにしてもよい。
また、本実施の形態では、結果確認処理において1つ1つのリンクの判定結果をサイト管理者が確認しフィードバックする場合を説明したが、判定結果をフィードバックする手順は、本実施の形態で示した場合に限られない。例えば、ある程度判定結果の確認情報を蓄積しておき、蓄積した確認情報を一括して判定済みリンク情報記憶部32に反映させて、判定済みリンク情報記憶部32が記憶する更新されたリンク情報を用いて、不整合学習手段23が再学習を行うようにしてもよい。
また、リンク診断装置を初めて用いる場合には、判定済みリンク情報記憶部32が判定済みの情報を記憶していないので学習処理を行えない。リンク診断装置を初めて用いる場合には、予め人為的に不整合があるか否かを判断した結果情報を判定済みリンク情報記憶部32に記憶させて、学習処理を実行するようにしてもよい。
また、リンク診断装置を初めて用いる場合には、学習結果記憶部34に予め識別関数の初期値を記憶させて、不整合判定手段25が識別関数の初期値を用いて不整合の判定をするようにしてもよい。この場合、例えば、学習アルゴリズムとして線形判別法を用いる場合に、学習結果記憶部34が識別関数のパラメータとして全て係数「0」の値を記憶していてもよい。また、不整合判定手段25は、各リンク特徴情報について計算した識別関数の値が負の場合に加えて「0」になる場合も不整合であると判定するようにしてもよい。そして、サイト管理者の修正指示に従って適切な識別関数が求められるようにしてもよい。さらに、学習結果記憶部34が識別関数の各係数の初期値としてランダムに選択された値を予め記憶していてもよい。
以上のように、本実施の形態によれば、リンク診断装置は、判定済みのリンク情報にもとづいて、論理的な不整合が生じていることの確からしさを示すリンク特徴情報として、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を抽出する。また、リンク診断装置は、各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を示す識別関数を統計的に求める。そして、リンク診断装置は、求めた識別関数を用いて未判定のリンクが不整合か否かを判定する。従って、文書の取得時にエラーを発生しない論理的不整合を検知することができ、ハイパーテキストのリンクの論理的不整合を自動検出することができる。
また、本実施の形態によれば、リンク診断装置は、判定対象となるリンクが不整合か否かの判定結果に加え、判定結果の確信度を出力する。そして、リンク診断装置は、判定結果または確信度に応じてリンクを色分けして表示する。そのため、どのリンクが不整合であるかや、どのリンクからチェックすべきかを、サイト管理者が判断しやすくなる。
また、本実施の形態によれば、リンク診断装置は、文書内における不整合箇所をハイライト表示する。そのため、サイト管理者は、文書内のどこに不整合が存在するかを素早く把握することができる。
また、本実施の形態によれば、リンク診断装置は、不整合と判定したリンクと「リンク元表記が同じリンク」,「リンク先アドレスが同じリンク」,「リンク元アドレスとリンク元表記が同じリンク」,「リンク元アドレスとリンク先アドレスが同じリンク」をグループ化表示することによって、正しいリンクがどのようなリンクかという指針を与える。そのため、サイト管理者は、不整合と判定された箇所をどのように修正すればよいかを容易に判断することができる。
また、本実施の形態によれば、識別関数を求めるために利用可能な学習アルゴリズムと使用するパラメータを選択することができる。そのため、サイト管理者は、各学習アルゴリズムを用いた場合の判定精度を確認し、試行錯誤しながら判定精度の高い学習アルゴリズムを選択して自動判定させることができる。
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図21は、リンク診断装置の他の構成例を示すブロック図である。図21に示すように、リンク診断装置のデータ処理装置40は、第1の実施の形態で示した構成に加えて、学習方式決定手段27を含む。本実施の形態では、リンク診断装置は、サイト管理者によって選択入力された複数の学習アルゴリズムのうち最適な1の学習アルゴリズムを選択し、選択した学習アルゴリズムとリンク特徴情報との最適な組み合わせを自動的に決定する。そして、リンク診断装置は、決定した学習アルゴリズムとリンク特徴情報との組合せにもとづいて、学習処理、判定処理および結果確認処理を実行する。
学習方式決定手段27は、判定済みリンク情報に対して交差検定を行うことによって、リンクの発生傾向に応じて、最適な学習アルゴリズムおよびリンク特徴情報の組み合わせを自動的に決定する。なお、交差検定とは、学習アルゴリズムとリンク特徴情報とを様々に組み合わせて、各組合せごとに判定精度を求めることをいう。
本実施の形態において、最適組合せ決定手段は、学習方式決定手段27および出力装置12によって実現される。
次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」および「結果確認処理」の3つの独立したフェーズの処理に加え、「交差検定処理」を実行する。「交差検定処理」とは、判定済みリンク情報に対して交差検定を行うことによって、最適な学習アルゴリズムおよびリンク特徴情報の組み合わせを自動的に決定する処理である。なお、「学習処理」、「判定処理」および「結果確認処理」については、第1の実施の形態で示した処理と同様である。
図22は、リンク診断装置が実行する交差検定処理の処理経過の一例を示す流れ図である。データ処理装置40の学習方式決定手段27は、サイト管理者の入力操作に従って、交差検定を行うための各設定情報の入力を受け付ける(ステップS40)。ステップS40において、学習方式決定手段27は、例えば、交差検定を行う対象となる検定済みデータおよび学習アルゴリズムの選択指示の入力を受け付ける。
図23は、サイト管理者が交差検定を行うための各設定情報を入力するための交差検定設定画面の一例を示す説明図である。学習方式決定手段27は、例えば、図23に示す交差検定設定画面をディスプレイ装置である出力装置12に表示させる。図23に示すように、交差検定設定画面2306には、判定済みデータ一覧2361、学習アルゴリズム一覧2362および交差検定ボタン2363が含まれている。
学習方式決定手段27は、交差検定設定画面2306を出力装置12に表示させて、サイト管理者に判定済みデータおよび学習アルゴリズムの種類の選択を促す。「交差検定処理」のフェーズにおいて、サイト管理者は、図23に示す交差検定設定画面2306から、交差検定を行う対象となる判定済みデータと、学習アルゴリズムの種類とを選択する。この場合に、サイト管理者は、交差検定設定画面2306に含まれる判定済みデータ一覧2361から判定済みデータを選択し、交差検定設定画面2306に含まれる学習アルゴリズム一覧2362から学習アルゴリズムの種類を選択する。
本例では、図23に示すように、判定済みデータ一覧2361から「2003年10月17日」に診断された「AAA Corp.」のデータが、サイト管理者によって交差検定の対象として選択された場合を説明する。学習方式決定手段27は、判定済みデータ一覧2361を含む交差検定設定画面2306を出力装置12に表示させて、サイト管理者に判定済みデータの選択を促す。サイト管理者は、判定済みデータ一覧2361のチェックボックス2364をチェックすることによって、交差検定させたいデータを選択する。
また、本例では、学習アルゴリズム一覧2362から、サイト管理者によって線形判別分析、決定木およびニューラルネットワークの3種類の学習アルゴリズムが選択されている。学習方式決定手段27は、学習アルゴリズム一覧2362を含む交差検定設定画面2306を出力装置12に表示させて、サイト管理者に学習アルゴリズムの種類の選択を促す。サイト管理者は、学習アルゴリズム一覧2362のチェックボックス2365をチェックすることによって、複数の学習アルゴリズムを選択する。
また、本例では、決定木については、場合には枝刈りの信頼レベルを「25%」,「50%」,「75%」の「25%」刻みで3通り行うように選択されている。更に、ニューラルネットワークについては、階層数を「2」,「3」,「4」の3通りで行い、活性化関数を線形関数およびシグモイド関数の2通りで行うよう選択されている。
サイト管理者は、判定済みデータ一覧2361および学習アルゴリズム一覧2362から各設定情報を選択すると、交差検定ボタン2363を押す。サイト管理者によって交差検定ボタン2363が押されると、学習方式決定手段27は、サイト管理者によって選択された判定済みデータおよび学習アルゴリズムの種類の入力を受け付ける。
交差検定を行うための各設定情報の入力を受け付けると、学習方式決定手段27は、設定内容に従って、判定済みリンク情報アクセス手段21にリンク情報の読み込みを指示する。判定済みリンク情報アクセス手段21は、学習方式決定手段27の指示に従って、判定済みリンク情報記憶部32から、サイト管理者によって選択されたデータに対応するリンク情報、リンクIDおよびリンク情報に付与されている不整合判定結果を読み込む(ステップS41)。
学習方式決定手段27は、リンク特徴抽出手段22に、リンク特徴情報の抽出を指示する。リンク特徴抽出手段22は、学習方式決定手段27の指示に従って、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を全て抽出する(ステップS42)。
学習方式決定手段27は、リンクの不整合判定結果およびリンク特徴情報のうちのn%のデータをトレーニングデータとして、(100−n)%のデータをテストデータとして分割する(ステップS43)。例えば、100件のリンクについて不整合判定結果およびリンク特徴情報がある場合に、n=80とすると、学習方式決定手段27は、100件のデータから、乱数などを用いて任意の80件のリンクの不整合判定結果およびリンク特徴情報をトレーニングデータとして分割する。、また、この場合、学習方式決定手段27は、残りの20件のリンクの不整合判定結果およびリンク特徴情報のデータをテストデータとして分割する。
学習方式決定手段27は、学習アルゴリズムとリンク特徴情報との全ての組み合わせのうち、精度を評価する組み合わせを1つ選択する(ステップS44)。
図23に示す例では、学習アルゴリズムとして線形判別分析、決定木およびニューラルネットワークの3種類が選択され、決定木において枝刈りの信頼レベルとして「25%」,「50%」,「75%」の3通りが選択され、ニューラルネットワークにおいて階層数として「2」,「3」,「4」の3通りが選択され、活性化関数として線形関数およびシグモイド関数の2通りが選択されている。この場合、学習アルゴリズムの組合せの数は、1+3+3・2=10通りである。
また、リンク特徴情報の種類が11種類あるとすると、1種類だけ使う場合が11通り、2種類だけ使う場合が11!/{(11−2)!・2!}=55通り、3種類だけ使う場合が11!/{(11−3)!・3!}=165通り、4種類だけ使う場合が11!/{(11−4)!・4!}=330通り、5種類だけ使う場合が11!/{(11−5)!・5!}=462通りである。1種類〜11種類まで使う場合の数を合計すると、2・(11+55+165+330+462)+1=2047通りである。なお、本計算では、x種類(ただしx<11)だけ使う場合の組み合わせの数が、(11−x)種類だけ使う場合の組み合わせの数と等しくなることを利用している。
従って、図23に示す例では、学習アルゴリズムとリンク特徴情報との組合せは、全部で10・2047=20470通りである。
学習方式決定手段27は、不整合学習手段23に識別関数の算出を指示する。不整合学習手段23は、学習方式決定手段27の指示に従って、トレーニングデータの不整合判定結果と、ステップS44で選択したリンク特徴情報および学習アルゴリズムとを用いて、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と不整合と判定された割合との関係を統計計算することによって識別関数を求める(ステップS45)。
学習方式決定手段27は、不整合判定手段25に、テストデータに対応する各リンクが不整合か否かの判定を指示する。不整合判定手段25は、学習方式決定手段27の指示に従って、テストデータについて、ステップS44で選択したリンク特徴情報と、ステップS45の学習で求めた識別関数とを用いて、テストデータの各リンクが不整合か否かを判定する。そして、学習方式決定手段27は、不整合判定の出力結果が判定済みリンク情報として記録されていたテストデータの不整合判定結果と一致するか否かを判定(一致するものを計数)し、判定精度を求める(ステップS46)。
学習方式決定手段27は、学習アルゴリズムとリンク特徴情報との組み合わせのうち、精度判定を行っていない組み合わせがあるか否かを判定する(ステップS47)。精度判定を行っていない組み合わせがあると判断した場合には、学習方式決定手段27は、ステップS44に戻り、他の組み合わせを選択してステップS44からステップS47までの処理を繰り返し実行する。
ステップS47において、全ての組み合わせについて精度判定を終了したと判断した場合には、学習方式決定手段27は、精度判定を行った組み合わせのうち、最も判定精度の値が大きい組み合わせの場合の学習アルゴリズムおよびリンク特徴情報を選択する。そして、学習方式決定手段27は、選択した組合せおよび判定精度の値を出力する(ステップS48)。
ステップS48において、学習方式決定手段27は、選択した学習アルゴリズムとリンク特徴情報との組合せを最適な組合せとして決定し、決定した組合せおよび判定精度の値を出力する。この場合、学習方式決定手段27は、例えば、決定したアルゴリズムとリンク特徴情報との組合せおよび判定精度の対応関係を、ディスプレイ装置である出力装置12に一覧表示させてもよい。そのようにすることにより、サイト管理者は、学習処理のフェーズにおいて試行錯誤しなくても判定精度の高い学習アルゴリズムとリンク特徴情報との組合せを知ることができる。
なお、本実施の形態では、トレーニングデータとテストデータとを、それぞれn%と(100−n)%とに分割して1度だけ交差検定を行う方法について説明したが、交差検定の方法は、本実施の形態で示した場合に限られない。例えば、リンク数のn%のトレーニングデータをm通り作成し、ステップS45およびステップS46の処理をm回繰り返し実行して、学習方式決定手段27は、m個の判定精度の平均値を計算するようにしてもよい。
また、判定精度が高いリンク特徴情報の組合せから、サイト管理者は、判定対象のサイトにおける不整合発生の要因を推定することができる。例えば、「リンク元表記に含まれるキーワード」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトには、リンク元表記の間違いやスペルミスを要因とする不整合が多いと推定することができる。
また、「リンク先アドレスに含まれるドメイン名あるいはディレクトリ名」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトには、指定先のドメインまたはディレクトリから文書が削除されていることが不整合の要因であると推定することができる。
また、「リンク元アドレスに含まれるドメイン名あるいはディレクトリ名」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトの一部のサイト管理者の分担領域の管理が十分でないことが不整合の要因であると推定することができる。
また、「文書内におけるリンクの出現位置または表示面積」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトでリンク元表記が文書内で目立ちにくいリンクが、チェックの際に見落とされていることが不整合の原因であると推定することができる。
また、タイトル出現回数、本文出現回数または強調表示回数をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、リンク元表記とリンク先文書との対応関係が崩れていることが不整合の原因であると推定することができる。
また、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、同じ名前で誤った文書を参照していることを要因とする不整合が多いと推定することができる。
また、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、同じ文書を誤った名前で参照していることを要因とする不整合が多いと推定することができる。
また、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、一つの文書から同じ名前で異なる文書を参照していることを要因とする不整合が多いと推定することができる。
また、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、一つの文書から別の一つの文書に、異なる名前で参照していることを要因とする不整合が多いと推定することができる。
以上のように、本実施の形態によれば、リンク診断装置は、リンク不整合の発生傾向に応じて、最も判定精度が高い学習アルゴリズムとリンク特徴情報との組合せを自動的に決定する。そのため、サイト管理者は、学習処理のフェーズにおいて、試行錯誤する必要がなく、最も判定精度の高い学習アルゴリズムとリンク特徴情報との組合せを指定することができる。
また、本実施の形態によれば、サイト管理者は、判定精度が高いリンク特徴情報の組合せから、判定対象のサイトにおける不整合傾向を推定することができる。従って、サイト管理者は、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図24は、リンク診断装置の更に他の構成例を示すブロック図である。図24に示すように、本実施の形態では、データ処理装置50に実行させるためのリンク診断プログラム60が含まれる。
リンク診断プログラム60は、データ処理装置50にリンク診断の各処理を実行させるためのプログラムである。リンク診断プログラム60は、データ処理装置50によって読み込まれる。データ処理装置50は、読み込んだリンク診断プログラム60をメモリ(図示せず)に記憶させる。そして、データ処理装置50は、読み込んだリンク診断プログラム60に従ってリンク診断の各処理を実行する。本実施の形態において、データ処理装置50は、リンク診断プログラム60に従って、第1の実施の形態で示したデータ処理装置20が実行する処理、および第2の実施の形態で示したデータ処理装置40が実行する処理と同様の処理を実行する。
なお、本実施の形態において、データ処理装置50は、例えば、コンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、および抽出されたリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させるためのリンク診断プログラム60を読み込んで、リンク診断の各処理を実行する。
次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」、「結果確認処理」および「交差検定処理」の4つの独立したフェーズの処理を実行する。
「学習処理」のフェーズでは、サイト管理者が学習に利用する過去の判定済みデータと、学習に利用するリンク特徴情報の種類とを指定すると、データ処理装置50は、判定済みリンク情報記憶部32からリンク情報、リンクIDおよび不整合判定結果を読み込み、指定されたリンクのリンク特徴情報を抽出する。そして、データ処理装置50は、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と不整合と判定された割合との関係を統計計算することによって、あるリンクが不整合か否かを判定するための識別関数を求める。
「判定処理」のフェーズでは、サイト管理者が判定したい未判定データを指定すると、データ処理装置50は、未判定リンク情報記憶部31から不整合か否か未判定のリンク情報を読み出し、学習に用いられたのと同じ種類のリンク特徴情報を抽出する。そして、データ処理装置50は、未判定のリンクのリンク特徴情報に対して、学習処理のフェーズで求めた識別関数を用いて、判定対象のリンクが不整合か否かを判定する。
「結果確認処理」のフェーズでは、データ処理装置50は、各リンクの判定結果をリンク元アドレス単位でグループ化して出力装置12に表示させる。サイト管理者に各リンクのチェックを促し、サイト管理者の入力指示に従って文書の修正を行った場合には、データ処理装置50は、判定対象のリンクに不整合がある旨を判定済みリンク情報記憶部32に反映させる。また、データ処理装置50は、出力した判定結果が誤っている場合には判定結果を訂正して判定済みリンク情報記憶部32に反映させる。また、データ処理装置50は、反映した結果を用いて識別関数を再計算する。
「交差検定処理」のフェーズでは、データ処理装置50は、判定済みリンク情報記憶部32から、リンク情報、リンクIDおよびリンク情報に付与された不整合判定結果を読み込む。データ処理装置50は、リンク情報から、「(A)リンク単独で求めることがきるリンク特徴情報」,「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」,「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を全て抽出する。データ処理装置50は、リンクの不整合判定結果とリンク特徴情報とのデータのうち、n%をトレーニングデータとして、(100−n)%をテストデータとして分割する。そして、データ処理装置50は、学習アルゴリズムとリンク特徴情報との全ての組合せから1つの組み合わせを選択し、トレーニングデータを用いて各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める。
データ処理装置50は、テストデータについて、学習に用いたリンク特徴情報と学習処理で求めた識別関数とを用いてテストデータの各リンクが不整合か否かを判定する。データ処理装置50は、不整合判定の出力結果が判定済みリンク情報として記録されていたものと一致するか否かを判断(一致するものを計数)し、判定精度を求める。
データ処理装置50は、学習アルゴリズムとリンク特徴情報との組み合わせのうち、精度判定を行っていない組み合わせがあるか否かを判定する。データ処理装置50は、精度判定を行っていない組み合わせがあると判断した場合には、他の組み合わせを選択して繰り返し判定精度を求め、最終的に最も精度が高い組合せと判定精度とを出力する。
本発明によるリンク診断装置は、Webサイト内のハイパーテキストを管理するためのハイパーテキスト管理装置に適用することができる。例えば、Webサイトの編集者が、リンク診断装置を適用したハイパーテキスト管理装置を用いて、Webサイトのうち自分が編集を担当する範囲のハイパーテキストの品質を調べて保証する用途に利用することができる。また、企業がWebサイトの構築をアウトソーシングしている場合に、企業の受け入れ担当者が、ハイパーテキスト管理装置を用いて、外部から納入されたWebサイトを構成するハイパーテキストの品質をチェックする用途に利用することができる。また、Webサイト構築のコンサルタントが、ハイパーテキスト管理装置を用いて、顧客や見込み顧客である企業のWebサイトを構成するハイパーテキストの品質を診断し、企業に対してWebサイトの改善提案を行う用途に利用することができる。
本発明によるリンク診断装置の構成の一例を示すブロック図である。 同じ名前で誤った文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。 リンク特徴情報として、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。 同じ文書を誤った名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。 リンク特徴情報として、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。 一つの文書から同じ名前で異なる文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。 リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。 一つの文書から別の一つの文書を異なる名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。 リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。 リンク特徴記憶部33が記憶するリンク特徴情報、リンクIDおよび不整合判定結果のデータ構造の例を示す説明図である。 リンク診断装置が実行する学習処理の処理経過の一例を示す流れ図である。 学習設定画面の一例を示す説明図である。 不整合学習手段23が識別関数Zを求める場合の算出過程の例を示す説明図である。 図13に示す不整合学習手段23が識別関数Zを求める場合の算出過程の例を示す説明図の続きである。 リンク診断装置が実行する判定処理の処理経過の一例を示す流れ図である。 判定設定画面の一例を示す説明図である。 リンク診断装置が実行する結果確認処理の処理経過の一例を示す流れ図である。 結果確認画面の一例を示す説明図である。 文書修正画面の一例を示す説明図である。 リンクグループ画面の一例を示す説明図である。 リンク診断装置の他の構成例を示すブロック図である。 リンク診断装置が実行する交差検定処理の処理経過の一例を示す流れ図である。 交差検定設定画面の一例を示す説明図である。 リンク診断装置の更に他の構成例を示すブロック図である。
符号の説明
11 入力装置
12 出力装置
20 データ処理装置
21 判定済みリンク情報アクセス手段
22 リンク特徴抽出手段
23 不整合学習手段
24 未判定リンク情報アクセス手段
25 不整合判定手段
26 結果反映手段
30 記憶装置
31 未判定リンク情報記憶部
32 判定済みリンク情報記憶部
33 リンク特徴記憶部
34 学習結果記憶部

Claims (28)

  1. 指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、
    前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込む未判定リンク情報読込手段と、
    前記未判定リンク情報読込手段によって読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出するリンク特徴抽出手段と、
    予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段と、
    前記リンク特徴抽出手段が前記未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定する不整合判定手段とを備えた
    ことを特徴とするリンク診断装置。
  2. 指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、
    リンク情報のうち予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記不整合が生じているか否かの判定結果とを記憶する判定済みリンク情報記憶手段と、
    前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込む未判定リンク情報読込手段と、
    前記判定済みリンク情報記憶手段から前記判定済みリンク情報および前記不整合が生じているか否かの判定結果を読み込む判定済みリンク情報読込手段と、
    前記未判定リンク情報読込手段によって読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、前記判定済みリンク情報読込手段によって読み込まれた前記判定済みリンク情報にもとづいて、少なくとも前記判定済みリンク情報に含まれる情報、前記判定済みリンク情報に含まれる情報の位置若しくは大きさ、前記判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出するリンク特徴抽出手段と、
    前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が読み込んだ前記不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を導出する識別関数導出手段と、
    前記識別関数導出手段によって導出された前記識別関数を記憶する識別関数記憶手段と、
    前記リンク特徴抽出手段が前記未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えた
    ことを特徴とするリンク診断装置。
  3. 不整合判定手段による未判定のリンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、
    前記フィードバック手段は、前記未判定のリンクに対する前記不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、前記確認結果にもとづいて、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させ、
    判定済みリンク情報読込手段は、前記フィードバック手段がリンク情報および前記不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、前記判定済みリンク情報記憶手段から判定済みリンク情報および前記不整合が生じているか否かの判定結果を再度読み込み、
    リンク特徴抽出手段は、前記判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
    識別関数導出手段は、前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が再度読み込んだ前記不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する
    請求項2記載のリンク診断装置。
  4. 不整合判定手段による未判定リンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、
    前記フィードバック手段は、前記未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、前記確認結果にもとづいて、リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させ、
    判定済みリンク情報読込手段は、前記フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および前記不整合が生じているか否かの判定結果を再度読み込み、
    リンク特徴抽出手段は、前記判定済みリンク情報読込手段によって再度読み込まれた前記判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
    識別関数導出手段は、前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が再度読み込んだ前記不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出し、
    未判定リンク情報読込手段は、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込み、
    前記リンク特徴抽出手段は、前記未判定リンク情報読込手段によって読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、
    不整合判定手段は、前記リンク特徴抽出手段が前記新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、識別関数導出手段によって再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定する
    請求項2または請求項3記載のリンク診断装置。
  5. リンク特徴情報と不整合判定手段によってリンク特徴情報と比較される識別関数を導出するための識別関数導出アルゴリズムとの組合せのうち、リンク特徴情報とリンクに不整合が生じているか否かの判定結果の精度が最も高くなる識別関数導出アルゴリズムとの組合せを決定する最適組合せ決定手段を備え、
    最適組合せ決定手段は、
    判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませ、
    リンク特徴抽出手段に、前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、
    前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定め、
    識別関数導出手段に、個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させ、
    不整合判定手段に、前記個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された前記識別関数を用いて再度判定を行わせ、
    前記不整合判定手段に再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を前記個々の組合せごとに行うことによって、前記不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する
    請求項2から請求項4のうちのいずれか1項に記載のリンク診断装置。
  6. リンク特徴抽出手段は、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する請求項1から請求項5のうちのいずれか1項に記載のリンク診断装置。
  7. リンク特徴抽出手段は、
    判定対象となるリンクから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワード、
    リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
    リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
    文書内におけるリンク元表記の出現位置もしくは表示面積、
    または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
    または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
    同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
    同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
    のうちのいずれか1種類または複数種類の情報を抽出する
    請求項6記載のリンク診断装置。
  8. 未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、
    未判定リンク情報読込手段が、前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込み、
    リンク特徴抽出手段が、前記未判定リンク情報読込手段によって読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、
    識別関数記憶手段が、予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を記憶し、
    不整合判定手段が、前記リンク特徴抽出手段が前記未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定する
    ことを特徴とするリンク診断方法。
  9. 未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、
    判定済みリンク情報記憶手段が、リンク情報のうち予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記不整合が生じているか否かの判定結果とを記憶し、
    未判定リンク情報読込手段が、前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込み、
    判定済みリンク情報読込手段が、前記判定済みリンク情報記憶手段から前記判定済みリンク情報および不整合が生じているか否かの判定結果を読み込み、
    リンク特徴抽出手段が、前記未判定リンク情報読込手段によって読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、前記判定済みリンク情報読込手段によって読み込まれた前記判定済みリンク情報にもとづいて、少なくとも前記判定済みリンク情報に含まれる情報、前記判定済みリンク情報に含まれる情報の位置若しくは大きさ、前記判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出し、
    識別関数導出手段が、前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が読み込んだ不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を導出し、
    識別関数記憶手段が、前記識別関数導出手段によって導出された前記識別関数を記憶し、
    不整合判定手段が、前記リンク特徴抽出手段が前記未判定リンク情報にもとづいて抽出したリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定する
    ことを特徴とするリンク診断方法。
  10. フィードバック手段が、不整合判定手段による未判定のリンクに対する不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、
    フィードバック手段が、前記未判定のリンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、
    判定済みリンク情報読込手段が、前記フィードバック手段がリンク情報および前記不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、前記判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、
    リンク特徴抽出手段が、前記判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
    識別関数導出手段が、前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が再度読み込んだ前記不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する
    請求項9記載のリンク診断方法。
  11. フィードバック手段が、不整合判定手段による未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力し、
    フィードバック手段が、前記未判定のリンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、
    判定済みリンク情報読込手段が、前記フィードバック手段がリンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込み、
    リンク特徴抽出手段が、前記判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
    識別関数導出手段が、前記リンク特徴抽出手段が前記判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、前記判定済みリンク情報読込手段が再度読み込んだ前記不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出し、
    未判定リンク情報読込手段が、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込み、
    前記リンク特徴抽出手段が、前記未判定リンク情報読込手段によって読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、
    不整合判定手段が、前記リンク特徴抽出手段が前記新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、識別関数導出手段によって再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定する
    請求項9または請求項10記載のリンク診断方法。
  12. 最適組合せ決定手段が、
    判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませ、
    リンク特徴抽出手段に、前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、
    前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定め、
    識別関数導出手段に、個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させ、
    不整合判定手段に、前記個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された前記識別関数を用いて再度判定を行わせ、
    前記不整合判定手段に再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を前記個々の組合せごとに行うことによって、前記不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する
    請求項9から請求項11のうちのいずれか1項に記載のリンク診断方法。
  13. 最適組合せ決定手段が、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる各組合せと、前記各組合せにおける不整合判定手段に再度判定させた結果の精度とを一覧表示する請求項12記載のリンク診断方法。
  14. リンク特徴抽出手段が、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する請求項8から請求項13のうちのいずれか1項に記載のリンク診断方法。
  15. リンク特徴抽出手段が、
    判定対象となるリンクから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワード、
    リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
    リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
    文書内におけるリンク元表記の出現位置もしくは表示面積、
    または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
    または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
    同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
    同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
    のうちのいずれか1種類または複数種類の情報を抽出する
    請求項14記載のリンク診断方法。
  16. 識別関数導出手段が、ユーザの入力操作に従ってリンク特徴情報の種類と、識別関数導出アルゴリズムの種類と、前記識別関数導出アルゴリズムに適用されるパラメータとを指定され、リンク特徴抽出手段に、ユーザの入力操作に従って指定された種類のリンク特徴情報を抽出させ、
    識別関数導出手段が、ユーザの入力操作に従って指定され、かつ判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ不整合が生じているか否かの判定結果とを用いて、ユーザの入力操作に従って指定された識別関数導出アルゴリズムおよびパラメータに従って、識別関数を導出し、
    識別関数記憶手段が、識別関数導出手段によって導出された識別関数を記憶し、
    不整合判定手段が、ユーザの入力操作に従って指定され、かつ未判定リンク情報にもとづいて抽出したリンク特徴情報と前記識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定する
    請求項9から請求項15のうちのいずれか1項に記載のリンク診断方法。
  17. 不整合判定手段が、リンク特徴情報と識別関数とを用いて未判定のリンクに不整合が生じているか否かを判定するとともに、不整合が生じているか否かの判定結果の信頼性を示す確信度を算出し、判定を行った各リンクごとに、不整合が生じているか否かの判定結果および確信度を表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。
  18. 不整合判定手段が、判定を行った各リンクのリンク情報を、確信度に応じて色分けして表示する請求項17記載のリンク診断方法。
  19. 不整合判定手段が、判定を行った各リンクのリンク情報を、確信度をソートキーとして並べ替えて表示する請求項17または請求項18記載のリンク診断方法。
  20. 不整合判定手段が、不整合が生じているか否かの判定対象となるリンクに対する不整合が生じているか否かの判定結果とともに、前記判定対象となるリンクとリンク元表記が共通するリンクのグループ、前記判定対象となるリンクとリンク先アドレスが共通するリンクのグループ、前記判定対象となるリンクとリンク元アドレスおよびリンク元表記が共通するリンクのグループ、前記判定対象となるリンクとリンク元アドレスおよびリンク先アドレスが共通するリンクのグループのうちのいずれか1つのグループまたはいずれか複数のグループを表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。
  21. 不整合判定手段が、不整合が生じていると判定されたリンクのリンク元となる文書に含まれる各リンクによって構成されるグループを表示し、ユーザの入力操作に従って前記文書の指定を入力し、前記文書の指定入力した場合、前記文書を表示するとともに不整合が生じているリンクの箇所を特定して表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。
  22. 指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段とを備えたコンピュータに、
    前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込む処理、
    読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、および
    前記未判定リンク情報にもとづいて抽出されたリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに、前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かを判定する処理
    を実行させるためのリンク診断プログラム。
  23. 指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち予め前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記不整合が生じているか否かの判定結果とを記憶する判定済みリンク情報記憶手段と、予め不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記不整合が生じているか否かの判定結果との関係を示す識別関数を記憶する識別関数記憶手段とを備えたコンピュータに、
    前記未判定リンク情報記憶手段から前記未判定リンク情報を読み込む処理、
    前記判定済みリンク情報記憶手段から前記判定済みリンク情報および不整合が生じているか否かの判定結果を読み込む処理、
    読み込まれた前記未判定リンク情報にもとづいて、少なくとも前記未判定リンク情報に含まれる情報、前記未判定リンク情報に含まれる情報の位置若しくは大きさ、前記未判定リンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記未判定リンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、
    読み込まれた前記判定済みリンク情報にもとづいて、少なくとも前記判定済みリンク情報に含まれる情報、前記判定済みリンク情報に含まれる情報の位置若しくは大きさ、前記判定済みリンク情報に含まれる情報が指定先の文書中に引用されている数、または所定の条件に従ってグループ化されたグループ内における前記判定済みリンク情報に含まれる情報をもつリンクの割合のいずれかを、リンク特徴情報として抽出する処理、
    前記判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、読み込まれた前記不整合が生じているか否かの判定結果とを用いて、当該リンク特徴情報とリンクが不整合であると判定された割合との関係と統計計算することによって、識別関数を導出する処理、および
    前記未判定リンク情報にもとづいて抽出されたリンク特徴情報を座標上にプロットした点、前記識別関数記憶手段が記憶する前記識別関数とを比較して前記未判定リンク情報に含まれる前記リンク元表記から期待される指定先の文書の内容と実際の指定先の文書の内容とに不整合が生じているか否か未判定のリンクに不整合が生じているか否かを判定する処理
    を実行させるためのリンク診断プログラム。
  24. コンピュータに、
    未判定のリンクに対する不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力する処理、
    前記未判定のリンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、
    リンク情報および前記不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、前記判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を再度読み込む処理、
    再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、および
    判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する処理
    を実行させる請求項23記載のリンク診断プログラム。
  25. コンピュータに、
    未判定のリンクに対する判定がなされる度に不整合が生じているか否かの判定結果を出力して、前記不整合が生じているか否かの判定結果が正しいか否かの確認をユーザに促し、ユーザの入力操作に従って前記不整合が生じているか否かの判定結果が正しいか否かの確認結果を入力する処理、
    前記未判定のリンクに対する不整合が生じているか否かの判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、
    リンク情報および不整合が生じているか否かの判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および前記不整合が生じているか否かの判定結果を再度読み込む処理、
    再度読み込まれた前記判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、
    前記判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた前記不整合が生じているか否かの判定結果とを用いて、識別関数を再度導出する処理、
    未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込む処理、
    読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出する処理、および
    前記新規の未判定リンク情報にもとづいて抽出されたリンク特徴情報と再度導出された識別関数とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理
    を実行させる請求項23または請求項24記載のリンク診断プログラム。
  26. コンピュータに、
    リンク特徴情報と不整合判定手段によってリンク特徴情報と比較される識別関数を導出するための識別関数導出アルゴリズムとの組合せのうち、リンク特徴情報とリンクに不整合が生じているか否かの判定結果の精度が最も高くなる識別関数導出アルゴリズムとの組合せを決定する最適組合せ決定処理を実行させ、
    最適組合せ決定処理において、
    判定済みリンク情報記憶手段から判定済みリンク情報および不整合が生じているか否かの判定結果を読み込ませる処理、
    前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させる処理、
    前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の識別関数導出アルゴリズムのうちの1種類とからなる組合せを複数定める処理、
    個々の組合せごとに、組合せを構成する識別関数導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、読み込まれた不整合が生じているか否かの判定結果とを用いて識別関数を導出させる処理、
    前記個々の組合せごとに、既に不整合が生じているか否かの判定結果が得られているリンクに対して、組合せに応じて導出された前記識別関数を用いて再度判定を行わせる処理、および
    再度判定させた結果と既に得られている不整合が生じているか否かの判定結果との比較を前記個々の組合せごとに行うことによって、再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する処理
    を実行させる請求項23から請求項25のうちのいずれか1項に記載のリンク診断プログラム。
  27. コンピュータに、
    リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する処理
    を実行させる請求項22から請求項26のうちのいずれか1項に記載のリンク診断プログラム。
  28. コンピュータに、
    判定対象となるリンクから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワード、
    リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
    リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
    文書内におけるリンク元表記の出現位置もしくは表示面積、
    または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
    リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
    リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
    または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
    同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
    同一リンク元アドレスであって同一リンク元表記のグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
    同一リンク元アドレスであって同一リンク先アドレスのグループ内で、識別関数を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
    のうちのいずれか1種類または複数種類の情報を抽出する処理
    を実行させる請求項27記載のリンク診断プログラム。
JP2003408436A 2003-12-08 2003-12-08 リンク診断装置、リンク診断方法およびリンク診断プログラム。 Expired - Fee Related JP4172388B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003408436A JP4172388B2 (ja) 2003-12-08 2003-12-08 リンク診断装置、リンク診断方法およびリンク診断プログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003408436A JP4172388B2 (ja) 2003-12-08 2003-12-08 リンク診断装置、リンク診断方法およびリンク診断プログラム。

Publications (2)

Publication Number Publication Date
JP2005173671A JP2005173671A (ja) 2005-06-30
JP4172388B2 true JP4172388B2 (ja) 2008-10-29

Family

ID=34730125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003408436A Expired - Fee Related JP4172388B2 (ja) 2003-12-08 2003-12-08 リンク診断装置、リンク診断方法およびリンク診断プログラム。

Country Status (1)

Country Link
JP (1) JP4172388B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4767694B2 (ja) 2006-01-13 2011-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 不正ハイパーリンク検出装置及びその方法
JP5187064B2 (ja) * 2008-08-18 2013-04-24 富士通株式会社 Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP2010140409A (ja) * 2008-12-15 2010-06-24 Mitsubishi Electric Corp 監視画面生成装置
JP2010176583A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
JP5671891B2 (ja) * 2010-09-01 2015-02-18 日本電気株式会社 タグ付け装置、タグ付け方法およびプログラム
JP5974663B2 (ja) * 2012-06-21 2016-08-23 富士通株式会社 分析装置、分析方法及び分析プログラム
JP5408380B1 (ja) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
US12099820B2 (en) 2019-10-15 2024-09-24 UiPath, Inc. Training and using artificial intelligence (AI) / machine learning (ML) models to automatically supplement and/or complete code of robotic process automation workflows

Also Published As

Publication number Publication date
JP2005173671A (ja) 2005-06-30

Similar Documents

Publication Publication Date Title
US11972203B1 (en) Using anchors to generate extraction rules
US10783324B2 (en) Wizard for configuring a field extraction rule
US7814111B2 (en) Detection of patterns in data records
US11769003B2 (en) Web element rediscovery system and method
EP2289007B1 (en) Search results ranking using editing distance and document information
JP5040925B2 (ja) 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
JP4997856B2 (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
TWI556180B (zh) 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法
US10127313B2 (en) Method of retrieving attributes from at least two data sources
US20030023593A1 (en) Real-time adaptive data mining system and method
JP5318190B2 (ja) 情報処理装置及び情報処理方法及びプログラム
JP2004139304A (ja) ハイパーテキスト検査装置および方法並びにプログラム
JP2007058514A (ja) 情報処理装置及び情報処理方法及びプログラム
JP2008134705A (ja) データ処理方法及びデータ分析装置
JP4172388B2 (ja) リンク診断装置、リンク診断方法およびリンク診断プログラム。
JP6276126B2 (ja) 問題構造抽出支援システム、問題構造抽出支援方法及びプログラム
CN113032548A (zh) 信息处理装置、存储介质及信息处理方法
CN110188207A (zh) 知识图谱构建方法及装置、可读存储介质、电子设备
JPH08314751A (ja) 障害対策支援方法
US11481304B1 (en) User action generated process discovery
JP2000222215A (ja) 手順ベース事例検索システム
CN111158973A (zh) 一种web应用动态演化监测方法
JP2009169573A (ja) 解析結果出力装置、及び解析結果出力方法
JP6901533B2 (ja) 計算機システム及び業務の支援方法
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080722

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees