JP2005173671A - Device, method and program for link diagnosis - Google Patents

Device, method and program for link diagnosis Download PDF

Info

Publication number
JP2005173671A
JP2005173671A JP2003408436A JP2003408436A JP2005173671A JP 2005173671 A JP2005173671 A JP 2005173671A JP 2003408436 A JP2003408436 A JP 2003408436A JP 2003408436 A JP2003408436 A JP 2003408436A JP 2005173671 A JP2005173671 A JP 2005173671A
Authority
JP
Japan
Prior art keywords
link
information
determined
determination
undetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003408436A
Other languages
Japanese (ja)
Other versions
JP4172388B2 (en
Inventor
Hidenori Kawai
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003408436A priority Critical patent/JP4172388B2/en
Publication of JP2005173671A publication Critical patent/JP2005173671A/en
Application granted granted Critical
Publication of JP4172388B2 publication Critical patent/JP4172388B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically detect the logical inconsistency of a link in a hypertext. <P>SOLUTION: A link feature extracting means 22 extracts, as link feature information showing a logical inconsistence likelihood of a link, (A) link feature information which can be found from the link alone, (B) link feature information which can be obtained based upon the relation between the link and document data at a link destination, or (C) link feature information which can be obtained when links are grouped according to a specified condition. An inconsistency learning means 23 obtains a discrimination function by statistically calculating the relation between contents of respective pieces of link feature information and the rate of links decided as inconsistent links. An inconsistency determination means 25 determines whether a link to be decided is inconsistent by using the link feature information on an undecided link and the discrimination function obtained by the inconsistency learning means 23. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、ハイパーテキスト管理装置に適用されるリンク診断装置、リンク診断方法およびリンク診断プログラムに関し、特にリンク元表記やリンク関係の論理的な不整合を検出するリンク診断装置、リンク診断方法およびリンク診断プログラムに関する。   The present invention relates to a link diagnosis apparatus, a link diagnosis method, and a link diagnosis program applied to a hypertext management apparatus, and in particular, a link diagnosis apparatus, a link diagnosis method, and a link that detect a logical inconsistency in link source notation and link relation. Regarding diagnostic programs.

近年、インターネット利用者の増大に伴って、各企業が運営するWebサイトは、規模が大きくなり更新がめまぐるしく行われている。サイトの規模が大きくなり更新頻度が増加すると、ファイル間のリンク誤りなどの不整合が発生しやすくなる。   In recent years, with the increase in the number of Internet users, the websites operated by each company have become larger and are being updated rapidly. As the site size increases and the update frequency increases, inconsistencies such as link errors between files tend to occur.

リンク不整合には、物理的不整合および論理的不整合の2種類がある。物理的不整合とは、リンク先文書にアクセスした際に、何らかのエラーが発生する不整合である。例えば、物理的不整合として、リンク先文書にアクセスした際に、HTTP(HyperText Transfer Protocol )サーバからの「404 Not Found 」,「403 Forbidden 」,「501 Internal Server Error 」のエラーが発生する場合がある。また、例えば、物理的不整合として、ネットワークやサーバの混雑時にタイムアウトのエラーが発生する場合や、存在しないサーバ名を指定してアクセスしようとしたことによって生ずるDNS(Domain Name Server)エラーなどがある。   There are two types of link mismatch: physical mismatch and logical mismatch. A physical inconsistency is an inconsistency in which some error occurs when a linked document is accessed. For example, when a linked document is accessed as a physical inconsistency, an error “404 Not Found”, “403 Forbidden”, or “501 Internal Server Error” from an HTTP (HyperText Transfer Protocol) server may occur. is there. In addition, for example, a physical inconsistency may include a time-out error when the network or server is congested, or a DNS (Domain Name Server) error caused by attempting to access a server name that does not exist. .

また、論理的不整合とは、リンク先文書にアクセスした際にエラーは発生しないが、ユーザがリンク元表記から期待した内容とは異なる内容の文書にアクセスしてしまう不整合である。論理的不整合は、誤った製品情報にリンクされている場合や、リンク元表記に一貫性がない場合などに発生する。   The logical inconsistency is an inconsistency in which an error does not occur when a linked document is accessed, but a document having a content different from the content expected by the user from the link source notation is accessed. Logical inconsistency occurs when linked to incorrect product information or when the link source notation is not consistent.

ハイパーテキストのリンク関係の誤りを検出する技術として、特許文献1には、WWWサーバ内のドキュメントのリンクを階層的に検索しリンク先にアクセスすることによりスペルミスなどの間違いを検出するWWWサーバのリンク情報チェックシステムが記載されている。特許文献1に記載されたリンク情報チェックシステムでは、データ処理装置は、ハイパーテキストのリンクを階層的にチェックし、リンク先にアクセスした時にエラーが発生したか否かによって誤り箇所を検出する。   As a technique for detecting a hypertext link relation error, Patent Document 1 discloses a WWW server link that hierarchically searches for a document link in a WWW server and detects an error such as a spelling error by accessing a link destination. An information check system is described. In the link information check system described in Patent Document 1, the data processing apparatus hierarchically checks hypertext links and detects an error location depending on whether an error has occurred when the link destination is accessed.

なお、特許文献2には、複数文書の特徴ベクトルにもとづいて、リンク元文書の特徴ベクトルを生成する文書特徴抽出装置が記載されている。特許文献2に記載された文書特徴抽出装置は、特徴ベクトルの類似度にもとづいて、リンク元文書および複数のリンク先文書をクラスタ単位に分ける。そして、文書特徴抽出装置は、複数のクラスタのうち、リンク元文書を含むクラスタに含まれる文書の特徴ベクトルのみを用いて、リンク元文書の特徴ベクトルを生成する。   Patent Document 2 describes a document feature extraction apparatus that generates a feature vector of a link source document based on feature vectors of a plurality of documents. The document feature extraction apparatus described in Patent Document 2 divides a link source document and a plurality of link destination documents into cluster units based on the similarity of feature vectors. Then, the document feature extraction apparatus generates a feature vector of the link source document using only the feature vector of the document included in the cluster including the link source document among the plurality of clusters.

また、特許文献3には、Webサイトの内部構造にもとづいて情報検索を容易にできるWebサイトの内部構造推定装置が記載されている。特許文献3に記載された内部構造推定装置は、各ページからリンクのメタ情報を抽出する。内部構造推定装置は、メタ情報およびリンクタイプの組にもとづいて学習し、リンク分類木を獲得する。そして、内部構造推定装置は、獲得したリンク分類木を利用してWebサイトの内部構造を推定する。   Patent Document 3 describes an internal structure estimation apparatus for a website that can easily search for information based on the internal structure of the website. The internal structure estimation device described in Patent Literature 3 extracts link meta information from each page. The internal structure estimation device learns based on the set of meta information and link type, and acquires a link classification tree. Then, the internal structure estimation device estimates the internal structure of the website using the acquired link classification tree.

特開平11−85801号公報(第3−4頁、第1−3図)JP-A-11-85801 (page 3-4, FIG. 1-3) 特開2000−181936号公報(第3−8頁、第1−6図)JP 2000-181936 A (page 3-8, FIG. 1-6) 特開2003−186883号公報(第8−11頁、第1−9図)Japanese Patent Laid-Open No. 2003-186883 (pages 8-11 and 1-9)

特許文献1に記載されたリンク情報チェックシステムによれば、物理的不整合を自動検出することはできる。しかし、リンク先文書にアクセスした際にエラーが発生するか否かを基準にリンクの不整合を検出しているので、リンク先文書にアクセスした際にエラーを発生しない論理的不整合を自動検出することはできない。   According to the link information check system described in Patent Document 1, it is possible to automatically detect a physical mismatch. However, since link inconsistency is detected based on whether an error occurs when accessing the linked document, logical inconsistency that does not cause an error when accessing the linked document is automatically detected. I can't do it.

また、特許文献1に記載されたリンク情報チェックシステムによれば、リンクの不整合箇所を検出できるが、リンクが不整合になる要因を特定することはできない。そのため、不整合箇所の修正を対処療法的に行うことになってしまう。   Further, according to the link information check system described in Patent Document 1, it is possible to detect a mismatched portion of the link, but it is not possible to specify the cause of the mismatched link. For this reason, the inconsistent portion is corrected in a coping therapy.

また、特許文献2に記載された文書特徴抽出装置では、リンク元文書の特徴ベクトルを生成して、生成した特徴ベクトルを用いて文書の分類を行っているにすぎず、文書間のリンクの不整合を検出することはできない。さらに、特許文献3に記載された内部構造推定装置では、リンク分類木を獲得し、Webサイト単位の情報検索を行うために、獲得したリンク分類木を利用してWebサイトの内部構造の推定を行っているにすぎず、リンクの不整合を検出することはできない。   In addition, the document feature extraction apparatus described in Patent Document 2 merely generates a feature vector of a link source document, classifies the document using the generated feature vector, and there is no link between documents. A match cannot be detected. Furthermore, in the internal structure estimation device described in Patent Document 3, in order to acquire a link classification tree and perform information retrieval for each Web site, the internal structure of the Web site is estimated using the acquired link classification tree. It is just doing and it cannot detect link inconsistencies.

そこで、本発明は、上記課題を解決するためになされたものであって、ハイパーテキストのリンクの論理的不整合を自動検出することができるリンク診断装置、リンク診断方法およびリンク診断プログラムを提供することを目的とする。また、本発明は、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができるリンク診断装置、リンク診断方法およびリンク診断プログラムを提供することを目的とする。   Accordingly, the present invention has been made to solve the above-described problems, and provides a link diagnosis apparatus, a link diagnosis method, and a link diagnosis program that can automatically detect a logical mismatch of hypertext links. For the purpose. The present invention also provides a link diagnosis apparatus and a link diagnosis that analyze a cause of link mismatch based on a tendency of occurrence of link mismatch and analyze not only a mismatched part but also a site construction problem. It is an object to provide a method and a link diagnostic program.

本発明によるリンク診断装置は、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出するリンク特徴抽出手段と、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段と、リンク特徴抽出手段によって抽出されたリンク特徴情報と関係情報とを用いて、判未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えたことを特徴とする。なお、リンクの属性とは、例えば、リンク元の文書のリンク部分の表記であるリンク元表記、リンク元の文書の所在を示すアドレス、リンク先の文書の所在を示すアドレスのことである。   The link diagnosis apparatus according to the present invention is the link information of the link information that indicates whether or not inconsistency occurs in the link information indicating the attribute of the hypertext link that associates the designated document with the designated document. Undecided link information storage means for storing decision link information, undecided link information reading means for reading the undetermined link information from the undetermined link information storage means, and undetermined link information read by the undetermined link information reading means Based on the link feature extraction means for extracting link feature information indicating the probability that a mismatch has occurred in the link, and the link feature information of a link for which a determination has been made as to whether or not a mismatch has occurred. Relation information storage means for storing relation information indicating the relation between the judgment result and the judgment result of the judgment, and the link feature extracted by the link feature extraction means By using the broadcast and related information, characterized by comprising a mismatch determination means for determining whether or not an inconsistency link determine undetermined occurs. The link attribute is, for example, a link source notation that is a notation of a link part of a link source document, an address that indicates the location of the link source document, and an address that indicates the location of the link destination document.

また、リンク診断装置は、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、判定の判定結果とを記憶する判定済みリンク情報記憶手段と、未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込む判定済みリンク情報読込手段と、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出するリンク特徴抽出手段と、リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を導出する関係情報導出手段と、関係情報導出手段によって導出された関係情報を記憶する関係情報記憶手段と、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えたものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて関係情報を求め、求めた関係情報を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。   In addition, the link diagnosis apparatus is undecided, which is link information of a link that has not been determined whether or not inconsistency occurs in the link information indicating the attribute of the hypertext link that associates the designated document with the designated document. Undecided link information storage means for storing link information, determined link information that is link information of a link for which inconsistency has already occurred in the link information, a determination result of determination, and Determined link information storage means for storing, undecided link information reading means for reading undetermined link information from the undetermined link information storage means, and determined link information and determination results read from the determined link information storage means Based on the link information reading means and the undetermined link information read by the undetermined link information reading means, the link is inconsistent. Link feature extraction means for extracting link feature information indicating the likelihood of being linked, and extracting link feature information based on the determined link information read by the determined link information reading means; and a link feature extraction means, Link features of links that have already been determined whether or not inconsistency has occurred using the link feature information extracted based on the determined link information and the determination result read by the determined link information reading means. Relation information deriving means for deriving relation information indicating the relation between the information and the determination result of the judgment, relation information storage means for storing the relation information derived by the relation information deriving means, and link feature extraction means for undetermined link information It is not possible to determine whether or not there is a mismatch in an undetermined link using the link feature information and relationship information extracted based on It is those with a focus determination unit may. According to such a configuration, it is possible to obtain relationship information based on the determined link information, and easily determine whether or not there is a mismatch in the determination target link using the obtained relationship information.

また、リンク診断装置は、不整合判定手段による未判定のリンクに対する判定の判定結果と、リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、フィードバック手段は、未判定のリンクに対する判定の判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力され、確認結果にもとづいて、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段は、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、関係情報導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出するものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて関係情報を更新することができ、最適な関係情報を用いてリンクの論理的不整合を自動検出することができる。   Further, the link diagnosis apparatus includes a feedback unit that stores the determination result for the undecided link by the inconsistency determining unit and the link information of the link in the determined link information storage unit, and the feedback unit Outputs the judgment result of the judgment for the link, prompts the user to confirm whether the judgment result is correct, inputs the confirmation result of confirmation from the user, and determines the link information and judgment result based on the confirmation result The determined link information reading means stores the determined link information and the determination result from the determined link information storage means after the feedback means stores the link information and the determination result in the determined link information storage means. The link feature extraction means reads again by the determined link information reading means. The link feature information is extracted again based on the determined determined link information, and the relation information deriving means re-extracts the link feature information extracted based on the determined link information by the link feature extracting means, and the determined link information reading means. The relationship information may be derived again using the determination result read again. According to such a configuration, the relationship information can be updated by reflecting the user confirmation result, and the logical inconsistency of the link can be automatically detected using the optimum relationship information.

また、リンク診断装置は、不整合判定手段による未判定リンクに対する判定の判定結果と、リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、フィードバック手段は、未判定のリンクに対する判定がなされる度に判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力され、確認結果にもとづいて、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段は、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、関係情報導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出し、未判定リンク情報読込手段は、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込み、リンク特徴抽出手段は、未判定リンク情報読込手段によって読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、不整合判定手段は、リンク特徴抽出手段が新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、関係情報導出手段によって再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した関係情報を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。   The link diagnosis apparatus further includes feedback means for storing the determination result for the undecided link by the inconsistency determining means and the link information of the link in the determined link information storage means, and the feedback means is an undetermined link. Each time a determination is made, the determination result is output, prompting the user to confirm whether the determination result is correct, the confirmation result of confirmation is input from the user, and the link information and the determination result are obtained based on the confirmation result. The determined link information storage means stores the determined link information reading means, and the feedback means stores the link information and the determination result in the determined link information storage means, and then determines the determined link information from the determined link information storage means. Then, the determination result is read again, and the link feature extraction means uses the determined link information reading means. The link feature information is extracted again based on the determined link information read again, and the relationship information deriving unit re-extracts the link feature information extracted based on the determined link information by the link feature extracting unit, and the determined link information. Using the determination result read again by the reading means, the relationship information is derived again, and the undetermined link information reading means is updated each time new undetermined link information is added to the undetermined link information storage means. The undetermined link information is read, the link feature extracting means extracts the link feature information based on the new undetermined link information read by the undetermined link information reading means, and the inconsistency determining means includes the link feature extracting means. Using link feature information extracted based on new undecided link information and relationship information derived again by relationship information deriving means , It may be configured to determine whether an inconsistency link undetermined occurs. According to such a configuration, the logical inconsistency of the link can be automatically detected automatically using the relationship information reflecting the updated content every time the determined link information is updated. Further, every time undetermined link information is added, a logical inconsistency of the link can be automatically detected in real time.

また、リンク診断装置は、リンクに不整合が生じているか否かの判定結果の精度が最も高くなるリンク特徴情報および関係情報導出アルゴリズムの組合せを決定する最適組合せ決定手段を備え、最適組合せ決定手段は、判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませ、リンク特徴抽出手段に、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定め、関係情報導出手段に、個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた判定結果とを用いて関係情報を導出させ、不整合判定手段に、個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された関係情報を用いて再度判定を行わせ、不整合判定手段に再度判定させた結果と既に得られている判定結果との比較を個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定するものであってもよい。そのような構成によれば、ユーザあは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。   In addition, the link diagnosis apparatus includes an optimum combination determination unit that determines a combination of the link feature information and the relationship information derivation algorithm that maximizes the accuracy of the determination result of whether or not the link is inconsistent. Causes the determined link information reading means to read the determined link information and the determination result from the determined link information storage means, and causes the link feature extraction means to extract a plurality of types of link feature information based on the determined link information. , A plurality of combinations consisting of some or all of the plurality of types of link feature information and one type of the plurality of types of relationship information deriving algorithms are determined, and the relationship information deriving means determines a combination for each individual combination. Link feature information constituting the combination according to the constituting relation information derivation algorithm, and determined link information reading means Therefore, the relation information is derived using the read judgment result, and the inconsistency judgment means derives the relation information derived according to the combination for the link for which the judgment result has already been obtained for each combination. The result of making the inconsistency determination means re-determine by comparing each of the results obtained by making the determination again using the non-match determination means and comparing the determination results already obtained for each combination. May be obtained for each combination, and the combination having the highest accuracy may be specified. According to such a configuration, the user can analyze the cause of the link inconsistency based on the tendency of occurrence of the link inconsistency and analyze not only the inconsistent portion but also the problem in the site construction. .

また、リンク特徴抽出手段は、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出するものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。   In addition, the link feature extraction means, as the link feature information, the link feature information that can be specified from the link that is the target of determination as to whether or not inconsistency occurs, the description content of the link that is the target of determination and the link destination document of the link One or more types of link feature information that can be specified from the above, or link feature information that indicates the size of the group to which the link to be determined belongs when the links are grouped according to a predetermined condition Information may be extracted. According to such a configuration, the link feature information can be easily extracted based on the link source notation, the link source document, and the link destination document, and the logical inconsistency of the link can be automatically detected.

また、リンク特徴抽出手段は、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出するものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。   In addition, the link feature extraction means includes a keyword included in the link source notation corresponding to the link feature information identifiable from the link to be determined, a domain name or directory name included in the link destination address, and a domain included in the link source address Included in the link source notation corresponding to link feature information that can be identified from the name or directory name, the appearance position or display area of the link source notation in the document, or the description contents of the link to be judged and the link destination document The number of times the keyword appears in the title of the linked document, the number of times the keyword included in the link source notation appears in the text of the linked document, and the number of times the keyword included in the link source notation is highlighted in the linked document Or when links are grouped according to predetermined conditions Ratio of links with the same link destination address as the link for deriving the relationship information or the link to be judged in the group of the same link source notation corresponding to the link feature information indicating the size of the group to which the link belongs In the same link destination address group, the ratio of links that have the same link source notation as the link for deriving the relationship information or the link to be judged, in the same link source address and the same link source notation group The ratio of the link for deriving the relationship information or the link having the same link destination address as the link to be judged, the link for deriving the relationship information in the group of the same link source address and the same link destination address Or one of the ratios of links that have the same link source notation as the link to be judged It may be one for extracting a plurality of types of information. According to such a configuration, it is possible to determine whether or not there is a spelling error in the link source notation of the determination target link. Further, the validity of the link destination address can be determined. In addition, it is possible to determine link inconsistency derived from the management status of the user who manages the site. Further, it is possible to determine whether or not there is a mismatch based on the conspicuousness in the document of the link source notation. It is also possible to determine whether or not the correspondence between the link source notation and the link destination document is correct. Further, it is possible to determine inconsistency of a link that refers to an incorrect document with the same name. It is also possible to determine inconsistencies in links that refer to the same document with an incorrect name. Further, it is possible to determine inconsistency of links that refer to different documents with the same name from the same document. Furthermore, it is possible to determine inconsistencies in links that refer to the same document from the same document with different names.

本発明によるリンク診断方法は、未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、関係情報記憶手段が、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を記憶し、不整合判定手段が、リンク特徴抽出手段によって抽出されたリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定することを特徴とする。   In the link diagnosis method according to the present invention, the undetermined link information storage unit is undetermined whether or not inconsistency occurs in the link information indicating the hypertext link attribute that associates the designated document with the designated document. The undetermined link information that is the link information of the link is stored, the undetermined link information reading means reads the undetermined link information from the undetermined link information storage means, and the link feature extracting means is read by the undetermined link information reading means. Based on the read undetermined link information, link feature information indicating the probability of inconsistency in the link is extracted, and the relationship information storage means has already determined whether or not inconsistency has occurred. Relationship information indicating the relationship between the link feature information of the link being performed and the determination result of the determination is stored, and the inconsistency determination unit is operated by the link feature extraction unit. With out link feature information and the related information, and judging whether or not an inconsistency link undetermined occurs.

また、リンク診断方法は、未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、判定済みリンク情報記憶手段が、リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、判定の判定結果とを記憶し、未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、判定済みリンク情報読込手段が、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出し、関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を導出し、関係情報記憶手段が、関係情報導出手段によって導出された関係情報を記憶し、不整合判定手段が、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて関係情報を求め、求めた関係情報を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。   Further, in the link diagnosis method, the undetermined link information storage means is undetermined whether or not inconsistency occurs in the link information indicating the attribute of the hypertext link that associates the designated document with the designated document. The undetermined link information that is link information of the link is stored, and the determined link information storage means is determined to be link information of a link that has already been determined whether or not inconsistency occurs in the link information. The link information and the determination result of the determination are stored, the undetermined link information reading means reads the undetermined link information from the undetermined link information storage means, and the determined link information reading means is read from the determined link information storage means. The determined link information and the determination result are read, and the link feature extraction means also applies to the undetermined link information read by the undetermined link information reading means. Therefore, link feature information indicating the likelihood of inconsistency in the link is extracted, link feature information is extracted based on the determined link information read by the determined link information reading means, and the relationship information The derivation unit uses the link feature information extracted by the link feature extraction unit based on the determined link information and the determination result read by the determined link information reading unit to determine whether or not there is a mismatch. Deriving relationship information indicating the relationship between the link feature information of the link already performed and the determination result of the determination, the relationship information storage unit stores the relationship information derived by the relationship information deriving unit, and the mismatch determination unit However, using the link feature information extracted by the link feature extraction means based on the undetermined link information and the relationship information, an inconsistency occurs in the undetermined link. Luke may be configured to determine whether. According to such a configuration, it is possible to obtain relationship information based on the determined link information, and easily determine whether or not there is a mismatch in the determination target link using the obtained relationship information.

また、リンク診断方法は、フィードバック手段が、不整合判定手段による未判定のリンクに対する判定の判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力され、フィードバック手段が、未判定のリンクに対する判定の判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段が、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出するものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて関係情報を更新することができ、最適な関係情報を用いてリンクの論理的不整合を自動検出することができる。   In the link diagnosis method, the feedback means outputs the determination result of the undecided link by the inconsistency determination means, prompts the user to check whether the determination result is correct, and confirms the confirmation result from the user. The feedback means stores the determination result of the determination for the undetermined link and the link information of the link in the determined link information storage means based on the confirmation result, and the determined link information reading means returns the feedback. After the means stores the link information and the determination result in the determined link information storage means, the determined link information and the determination result are read again from the determined link information storage means, and the link feature extraction means reads the determined link information reading means. The link feature information is extracted again based on the determined link information read again by The relation information deriving means derives the relation information again using the link feature information extracted again by the link feature extracting means based on the determined link information and the determination result read again by the determined link information reading means. It may be. According to such a configuration, the relationship information can be updated by reflecting the user confirmation result, and the logical inconsistency of the link can be automatically detected using the optimum relationship information.

また、リンク診断方法は、フィードバック手段が、不整合判定手段による未判定のリンクに対する判定がなされる度に判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力され、フィードバック手段が、未判定のリンクに対する判定の判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、判定済みリンク情報読込手段が、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出し、未判定リンク情報読込手段が、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込み、リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、不整合判定手段が、リンク特徴抽出手段が新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、関係情報導出手段によって再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した関係情報を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。   In the link diagnosis method, the feedback unit outputs a determination result each time a determination is made on an undecided link by the inconsistency determination unit, and prompts the user to confirm whether the determination result is correct. The confirmation result of confirmation is input, and the feedback means stores the judgment result of judgment for the undecided link and the link information of the link in the judged link information storage means based on the confirmation result, and reads the judged link information. After the feedback means stores the link information and the determination result in the determined link information storage means, the determined link information and the determination result are read again from the determined link information storage means, and the link feature extraction means is determined Link feature information based on the determined link information read again by the link information reading means The relationship information deriving unit extracts the relationship information using the link feature information extracted again by the link feature extracting unit based on the determined link information and the determination result read again by the determined link information reading unit. Derived again, the undetermined link information reading means reads new undetermined link information each time new undetermined link information is added to the undetermined link information storage means, and the link feature extracting means reads the undetermined link information. Link feature information is extracted based on the new undecided link information read by the information reading means, the inconsistency determining means is the link feature information extracted by the link feature extracting means based on the new undetermined link information, and Using the relationship information derived again by the relationship information deriving means, it is determined whether or not an inconsistent link is inconsistent. Good. According to such a configuration, the logical inconsistency of the link can be automatically detected automatically using the relationship information reflecting the updated content every time the determined link information is updated. Further, every time undetermined link information is added, a logical inconsistency of the link can be automatically detected in real time.

また、リンク診断方法は、最適組合せ決定手段が、判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませ、リンク特徴抽出手段に、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定め、関係情報導出手段に、個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた判定結果とを用いて関係情報を導出させ、不整合判定手段に、個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された関係情報を用いて再度判定を行わせ、不整合判定手段に再度判定させた結果と既に得られている判定結果との比較を個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定するものであってもよい。そのような構成によれば、ユーザは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。   In the link diagnosis method, the optimum combination determination unit causes the determined link information reading unit to read the determined link information and the determination result from the determined link information storage unit, and the link feature extraction unit converts the determined link information into the determined link information. Based on a plurality of types of link feature information extracted, a plurality of combinations consisting of some or all of the plurality of types of link feature information and one type of a plurality of types of relationship information derivation algorithms are determined to derive relationship information. According to the relation information derivation algorithm that constitutes the combination for each individual combination, the means derives the relation information using the link feature information that constitutes the combination and the determination result read by the determined link information reading means, For the inconsistency judgment means, depending on the combination for each link for which a judgment result has already been obtained By making a determination again using the derived relationship information and comparing the result of the determination made again by the inconsistency determination means with the already obtained determination result for each combination, the inconsistency determination means The accuracy of the result determined again may be obtained for each combination, and the combination having the highest accuracy may be specified. According to such a configuration, the user can analyze the cause of link inconsistency based on the tendency of occurrence of link inconsistency, and can analyze not only the inconsistent portion but also problems in site construction.

また、リンク診断方法は、最適組合せ決定手段が、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる各組合せと、各組合せにおける不整合判定手段に再度判定させた結果の精度とを一覧表示するものであってもよい。そのような構成によれば、ユーザは、統計計算の処理のフェーズにおいて試行錯誤しなくても判定精度の高いアルゴリズムとリンク特徴情報との組合せを知ることができる。   Further, in the link diagnosis method, the optimum combination determining means is configured such that each combination including a part or all of a plurality of types of link feature information and one type of a plurality of types of relation information derivation algorithms, A list of the accuracy of the result determined again by the inconsistency determination means may be displayed. According to such a configuration, the user can know a combination of an algorithm with high determination accuracy and link feature information without trial and error in the statistical calculation processing phase.

また、リンク診断方法は、リンク特徴抽出手段が、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出するものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。   In addition, the link diagnosis method is such that the link feature extraction unit can identify link feature information that can be identified from the link that is the target of determination as to whether or not inconsistency has occurred, and the link that is the target of determination and the link destination of the link. One type of link feature information that can be identified from the description content of the document, or link feature information that indicates the size of the group to which the link to be judged belongs when the links are grouped according to a predetermined condition, or A plurality of types of link feature information may be extracted. According to such a configuration, the link feature information can be easily extracted based on the link source notation, the link source document, and the link destination document, and the logical inconsistency of the link can be automatically detected.

また、リンク診断方法は、リンク特徴抽出手段が、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出するものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。   In addition, the link diagnosis method is such that the link feature extraction means includes a keyword included in the link source notation corresponding to the link feature information that can be specified from the link to be determined, the domain name or directory name included in the link destination address, the link source Corresponds to link feature information that can be identified from the domain name or directory name included in the address, the appearance position or display area of the link source notation in the document, or the description contents of the link to be judged and the link destination document. The number of times the keyword included in the link source notation appears in the title of the linked document, the number of times the keyword included in the link source notation appears in the text of the linked document, and the keyword included in the link source notation is highlighted in the link destination document Group links according to the number of times displayed or given conditions In the same link source notation group corresponding to the link feature information indicating the size of the group to which the link to be judged belongs, the same link destination address as the link for deriving the relationship information or the link to be judged Of links with the same link source address, the ratio of links with the same link source notation as the link for deriving the relationship information or the link to be judged within the same link destination address group, the same link source address and the same link source The ratio of links with the same link destination address as the link for deriving the relationship information or the link to be judged within the group indicated, the relationship information within the group with the same link source address and the same link destination address Of the percentage of links that have the same link source notation as the link to be derived or the link to be judged It may be configured to extract either one or more types of information. According to such a configuration, it is possible to determine whether or not there is a spelling error in the link source notation of the determination target link. Further, the validity of the link destination address can be determined. In addition, it is possible to determine link inconsistency derived from the management status of the user who manages the site. Further, it is possible to determine whether or not there is a mismatch based on the conspicuousness in the document of the link source notation. It is also possible to determine whether or not the correspondence between the link source notation and the link destination document is correct. Further, it is possible to determine inconsistency of a link that refers to an incorrect document with the same name. It is also possible to determine inconsistencies in links that refer to the same document with an incorrect name. Further, it is possible to determine inconsistency of links that refer to different documents with the same name from the same document. Furthermore, it is possible to determine inconsistencies in links that refer to the same document from the same document with different names.

また、リンク診断方法は、関係情報導出手段が、ユーザからリンク特徴情報の種類と、関係情報導出アルゴリズムの種類と、関係情報導出アルゴリズムに適用されるパラメータとを指定され、リンク特徴抽出手段に、ユーザから指定された種類のリンク特徴情報を抽出させ、関係情報導出手段が、ユーザに指定され、かつ判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、ユーザに指定された関係情報導出アルゴリズムおよびパラメータに従って、関係情報を導出し、関係情報記憶手段が、関係情報導出手段によって導出された関係情報を記憶し、不整合判定手段が、ユーザに指定され、かつ未判定リンク情報にもとづいて抽出したリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定するものであってもよい。そのような構成によれば、ユーザは、各アルゴリズムを用いた場合の判定精度を確認し、試行錯誤しながら判定精度の高いアルゴリズムを選択して自動判定させることができる。   In the link diagnosis method, the relationship information deriving means is designated by the user the type of the link feature information, the type of the relationship information deriving algorithm, and the parameter applied to the relationship information deriving algorithm. The link feature information of the type specified by the user is extracted, and the relationship information deriving means is read by the link feature information specified by the user and extracted based on the determined link information and the determined link information reading means. Using the determination result, the relationship information is derived in accordance with the relationship information derivation algorithm and parameters designated by the user, the relationship information storage means stores the relationship information derived by the relationship information derivation means, and the inconsistency determination means Link characteristic information specified by the user and extracted based on the undetermined link information and related information. There are, may be configured to determine whether an inconsistency link undetermined occurs. According to such a configuration, the user can confirm the determination accuracy when each algorithm is used, and can automatically select an algorithm with high determination accuracy while performing trial and error.

また、リンク診断方法は、不整合判定手段が、リンク特徴情報と関係情報とを用いて未判定のリンクに不整合が生じているか否かを判定するとともに、判定結果の信頼性を示す確信度を算出し、判定を行った各リンクごとに、判定結果および確信度を表示するものであってもよい。そのような構成によれば、ユーザは、確信度を確認することによって、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。   In the link diagnosis method, the inconsistency determination means determines whether or not there is an inconsistency in an undetermined link using the link feature information and the relationship information, and the reliability indicating the reliability of the determination result. And the determination result and the certainty factor may be displayed for each link for which the determination has been made. According to such a configuration, the user can easily determine which link is inconsistent and which link should be checked by confirming the certainty factor.

また、リンク診断方法は、不整合判定手段が、判定を行った各リンクのリンク情報を、確信度に応じて色分けして表示するものであってもよい。そのような構成によれば、ユーザは、リンク情報の色分けを識別することによって、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。   Further, the link diagnosis method may display the link information of each link determined by the inconsistency determination unit in a color-coded manner according to the certainty factor. According to such a configuration, the user can easily determine which link is inconsistent and which link should be checked by identifying the color classification of the link information.

また、リンク診断方法は、不整合判定手段が、判定を行った各リンクのリンク情報を、確信度をソートキーとして並べ替えて表示するものであってもよい。そのような構成によれば、ユーザは、確信度の順にリンク情報を確認できるので、どのリンクが不整合であるかや、どのリンクからチェックすべきかを判断しやすくなる。   The link diagnosis method may display the link information of each link for which the inconsistency determination unit has performed the determination by rearranging the certainty factor as a sort key. According to such a configuration, the user can check link information in order of certainty, so that it is easy to determine which link is inconsistent and from which link to check.

また、リンク診断方法は、不整合判定手段が、不整合が生じているか否かの判定対象となるリンクに対する判定の判定結果とともに、判定対象となるリンクとリンク元表記が共通するリンクのグループ、判定対象となるリンクとリンク先アドレスが共通するリンクのグループ、判定対象となるリンクとリンク元アドレスおよびリンク元表記が共通するリンクのグループ、判定対象となるリンクとリンク元アドレスおよびリンク先アドレスが共通するリンクのグループのうちのいずれか1つのグループまたはいずれか複数のグループを表示するものであってもよい。そのような構成によれば、ユーザは、不整合と判定された箇所をどのように修正すればよいかを容易に判断することができる。   In addition, the link diagnosis method includes a group of links in which the inconsistency determination unit has a common link source notation and the determination target link together with the determination result of the determination target link whether or not inconsistency occurs. A group of links having the same link destination address and a link to be determined, a group of links having the same link source address and link source notation, a link to be determined, a link source address and a link destination address Any one of a group of common links or any of a plurality of groups may be displayed. According to such a configuration, the user can easily determine how to correct the portion determined to be inconsistent.

また、リンク診断方法は、不整合判定手段が、不整合が生じていると判定されたリンクのリンク元となる文書に含まれる各リンクによって構成されるグループを表示し、ユーザから文書の指定を入力され、指定が入力された場合、文書を表示するとともに不整合が生じているリンクの箇所を特定して表示するものであってもよい。そのような構成によれば、ユーザは、文書内のどこに不整合が存在するかを素早く把握することができる。   In the link diagnosis method, the inconsistency determination means displays a group constituted by each link included in the document that is the link source of the link determined to have inconsistency, and the user designates the document. When the input is made and the designation is inputted, the document may be displayed and the location of the link where the inconsistency is generated may be specified and displayed. According to such a configuration, the user can quickly grasp where inconsistency exists in the document.

本発明によるリンク診断プログラムは、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段とを備えたコンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、および抽出されたリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させることを特徴とする。   The link diagnosis program according to the present invention is the link information of the link information indicating whether or not there is a mismatch among the link information indicating the hypertext link attribute that associates the specified document with the specified document. The undecided link information storage means for storing the judgment link information and the relation information indicating the relation between the link feature information of the link for which the judgment as to whether or not inconsistency has already been made and the judgment result of judgment are stored The process of reading the undetermined link information from the undetermined link information storage means to the computer provided with the relationship information storage means, and the probability that the link is inconsistent based on the read undetermined link information. Whether there is an inconsistency in an undetermined link using the extracted link feature information and the extracted link feature information and relationship information Characterized in that to execute processing of determining.

また、リンク診断プログラムは、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、判定の判定結果とを記憶する判定済みリンク情報記憶手段と、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段とを備えたコンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込む処理、読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出する処理、判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、読み込まれた判定結果とを用いて、関係情報を導出する処理、および未判定リンク情報にもとづいて抽出されたリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させるものであってもよい。そのような構成によれば、判定済みのリンク情報にもとづいて関係情報を求め、求めた関係情報を用いて、判定対象のリンクに不整合があるか否かを容易に判定することができる。   In addition, the link diagnosis program is undecided, which is link information of an undecided link in the link information indicating the hypertext link attribute that associates the designated document with the designated document. Undecided link information storage means for storing link information, determined link information that is link information of a link for which inconsistency has already occurred in the link information, a determination result of determination, and And a relation information storage for storing relation information indicating a relation between link feature information of a link for which a determination as to whether or not inconsistency has already occurred and a determination result of the determination is performed. A process of reading the undetermined link information from the undetermined link information storage means, and the determined link information from the determined link information storage means. And a process of reading the determination result, a process of extracting link feature information indicating the probability that the link is inconsistent based on the read undetermined link information, and based on the read determined link information Processing for extracting link feature information, processing for deriving relationship information using link feature information extracted based on determined link information, and read determination result, and extraction based on undetermined link information Using the link feature information and the relationship information, it may be possible to execute a process for determining whether or not an indeterminate link is inconsistent. According to such a configuration, it is possible to obtain relationship information based on the determined link information, and easily determine whether or not there is a mismatch in the determination target link using the obtained relationship information.

また、リンク診断プログラムは、コンピュータに、未判定のリンクに対する判定の判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力される処理、未判定のリンクに対する判定の判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込む処理、再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、および判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた判定結果とを用いて、関係情報を再度導出する処理を実行させるものであってもよい。そのような構成によれば、ユーザの確認結果を反映させて関係情報を更新することができ、最適な関係情報を用いてリンクの論理的不整合を自動検出することができる。   In addition, the link diagnosis program outputs a determination result of the determination for the undetermined link to the computer, prompts the user to confirm whether or not the determination result is correct, and receives a confirmation result from the user. Processing for storing the determination result of the determination for the undetermined link and the link information of the link in the determined link information storage unit based on the confirmation result, and storing the link information and the determination result in the determined link information storage unit Later, processing for re-reading the determined link information and determination result from the determined link information storage means, processing for re-extracting link feature information based on the re-read determined link information, and again based on the determined link information The relationship information is derived again using the extracted link feature information and the determination result read again. Or it may be to execute the management. According to such a configuration, the relationship information can be updated by reflecting the user confirmation result, and the logical inconsistency of the link can be automatically detected using the optimum relationship information.

また、リンク診断プログラムは、コンピュータに、未判定のリンクに対する判定がなされる度に判定結果を出力して、判定結果が正しいか否かの確認をユーザに促し、ユーザから確認の確認結果を入力される処理、未判定のリンクに対する判定の判定結果と、リンクのリンク情報とを、確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込む処理、再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた判定結果とを用いて、関係情報を再度導出する処理、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、新規の未判定リンク情報を読み込む処理、読み込まれた新規の未判定リンク情報にもとづいてリンク特徴情報を抽出する処理、および新規の未判定リンク情報にもとづいて抽出されたリンク特徴情報と再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させるものであってもよい。そのような構成によれば、判定済みリンク情報が更新されるごとに更新内容を反映した関係情報を用いて、リンクの論理的不整合を適切に自動検出することができる。また、未判定リンク情報が追加されるごとにリアルタイムにリンクの論理的不整合を自動検出することができる。   The link diagnosis program outputs a determination result to the computer every time a determination is made for an undetermined link, prompts the user to check whether the determination result is correct, and inputs the confirmation result from the user. Processing, the determination result of the determination for the undetermined link and the link information of the link stored in the determined link information storage unit based on the confirmation result, the link information and the determination result of the determined link information storage unit , The process of re-reading the determined link information and the determination result from the determined link information storage unit, the process of re-extracting the link feature information based on the re-read determined link information, and the determined link information Using the link feature information re-extracted from the original and the determination result read again, the relationship information is derived again. Processing, and whenever new undetermined link information is added to the undetermined link information storage means, new undetermined link information is read, and link feature information is extracted based on the read new undetermined link information. And a process for determining whether or not there is a mismatch in the undetermined link using the link feature information extracted based on the new undetermined link information and the relationship information derived again. It may be allowed. According to such a configuration, the logical inconsistency of the link can be automatically detected automatically using the relationship information reflecting the updated content every time the determined link information is updated. Further, every time undetermined link information is added, a logical inconsistency of the link can be automatically detected in real time.

また、リンク診断プログラムは、コンピュータに、リンクに不整合が生じているか否かの判定結果の精度が最も高くなるリンク特徴情報および関係情報導出アルゴリズムの組合せを決定する最適組合せ決定処理を実行させ、最適組合せ決定処理において、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませる処理、判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させる処理、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定める処理、個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、読み込まれた判定結果とを用いて関係情報を導出させる処理、個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された関係情報を用いて再度判定を行わせる処理、および再度判定させた結果と既に得られている判定結果との比較を個々の組合せごとに行うことによって、再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する処理を実行させるものであってもよい。そのような構成によれば、ユーザは、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。   Further, the link diagnosis program causes the computer to execute an optimum combination determination process for determining a combination of the link feature information and the relationship information derivation algorithm that gives the highest accuracy of the determination result as to whether or not the link is inconsistent, In the optimum combination determination process, a process of reading the determined link information and the determination result from the determined link information storage unit, a process of extracting a plurality of types of link feature information based on the determined link information, a plurality of types of link feature information A process for determining a plurality of combinations consisting of some or all of them and one of a plurality of types of relationship information deriving algorithms, and a link that configures a combination according to a relationship information deriving algorithm that forms a combination for each individual combination The relationship information is derived using the feature information and the read judgment result. Processing, processing for making a determination again using the relationship information derived according to the combination, and a result of the determination again for each link for which a determination result has already been obtained The result of the determination again is obtained for each combination by performing a comparison with the determination result for each combination, and a process for specifying the combination with the highest accuracy is executed. Good. According to such a configuration, the user can analyze the cause of link inconsistency based on the tendency of occurrence of link inconsistency, and can analyze not only the inconsistent portion but also problems in site construction.

また、リンク診断プログラムは、コンピュータに、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する処理を実行させるものであってもよい。そのような構成によれば、リンク元表記、リンク元の文書およびリンク先の文書にもとづいて容易にリンク特徴情報を抽出することができ、リンクの論理的不整合を自動検出することができる。   In addition, the link diagnosis program, on the computer, as link feature information, link feature information that can be specified from the link that is the target of determination as to whether or not inconsistency has occurred, the link that is the target of determination, and the link destination document of the link One or more types of link feature information that can be identified from the description content, or link feature information that indicates the size of the group to which the link to be determined belongs when the links are grouped according to a predetermined condition A process of extracting link feature information may be executed. According to such a configuration, the link feature information can be easily extracted based on the link source notation, the link source document, and the link destination document, and the logical inconsistency of the link can be automatically detected.

また、リンク診断プログラムは、コンピュータに、判定対象となるリンクから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワード、リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、文書内におけるリンク元表記の出現位置もしくは表示面積、または判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当するリンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合のうちのいずれか1種類または複数種類の情報を抽出する処理を実行させるものであってもよい。そのような構成によれば、判定対象のリンクのリンク元表記にスペルミスがあるか否かを判定することができる。また、リンク先アドレスの正当性を判定することができる。また、サイトを管理するユーザの管理状況に由来するリンク不整合を判定することができる。また、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定することができる。また、リンク元表記とリンク先文書との対応関係が正しいか否かを判定することができる。また、同じ名前で誤った文書を参照しているリンクの不整合を判定することができる。また、同じ文書を誤った名前で参照しているリンクの不整合を判別することができる。また、同じ文書から同じ名前で異なる文書を参照しているリンクの不整合を判定することができる。更に、同じ文書から別の同じ文書を異なる名前で参照しているリンクの不整合を判定することができる。   The link diagnosis program is also included in the keyword included in the link source notation corresponding to the link feature information identifiable from the link to be determined, the domain name or directory name included in the link destination address, and the link source address. Link source notation corresponding to link feature information that can be identified from the domain name or directory name to be displayed, the appearance position or display area of the link source notation in the document, or the description contents of the link to be judged and the link destination document The number of times the keyword included in the URL appears in the title of the linked document, the number of times the keyword included in the link source notation appears in the text of the linked document, and the keyword included in the link source notation is highlighted in the linked document. Group links according to the number of times or according to predetermined conditions In the same link source notation group corresponding to the link feature information indicating the size of the group to which the link to be judged belongs, the same link destination address as the link for deriving the relationship information or the link to be judged Of links with the same link source address, the ratio of links with the same link source notation as the link for deriving the relationship information or the link to be judged within the same link destination address group, the same link source address and the same link source The ratio of links with the same link destination address as the link for deriving the relationship information or the link to be judged within the group indicated, the relationship information within the group with the same link source address and the same link destination address Of the percentage of links that have the same link source notation as the link to be derived or the link to be judged Or it may be to execute a process of extracting any one or more types of information. According to such a configuration, it is possible to determine whether or not there is a spelling error in the link source notation of the determination target link. Further, the validity of the link destination address can be determined. In addition, it is possible to determine link inconsistency derived from the management status of the user who manages the site. Further, it is possible to determine whether or not there is a mismatch based on the conspicuousness in the document of the link source notation. It is also possible to determine whether or not the correspondence between the link source notation and the link destination document is correct. Further, it is possible to determine inconsistency of a link that refers to an incorrect document with the same name. It is also possible to determine inconsistencies in links that refer to the same document with an incorrect name. Further, it is possible to determine inconsistency of links that refer to different documents with the same name from the same document. Furthermore, it is possible to determine inconsistencies in links that refer to the same document from the same document with different names.

本発明によれば、リンクの属性を示すリンク情報にもとづいてリンク特徴情報を抽出する。また、抽出したリンク特徴情報に着目して、リンク特徴情報と、不整合と判定された判定結果との関係を示す関係情報を用いて、未判定のリンクが不整合か否かを判定する。従って、ハイパーテキストのリンクの論理的不整合を自動検出することができる。   According to the present invention, link feature information is extracted based on link information indicating link attributes. Further, paying attention to the extracted link feature information, it is determined whether or not the undetermined link is inconsistent by using relationship information indicating the relationship between the link feature information and the determination result determined as inconsistent. Therefore, it is possible to automatically detect a logical mismatch of hypertext links.

実施の形態1.
本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明によるリンク診断装置の構成の一例を示すブロック図である。図1に示すように、リンク診断装置は、キーボードやマウスなどの入力装置11と、ディスプレイ装置や印刷装置などの出力装置12と、プログラムに従って動作するデータ処理装置20と、各情報を記憶する記憶装置30とを含む。
Embodiment 1 FIG.
A first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of a link diagnosis apparatus according to the present invention. As shown in FIG. 1, the link diagnosis apparatus includes an input device 11 such as a keyboard and a mouse, an output device 12 such as a display device and a printing device, a data processing device 20 that operates according to a program, and a memory that stores information. Device 30.

記憶装置30は、例えば、磁気ディスク装置によって実現される。図1に示すように、記憶装置30は、未判定リンク情報記憶部31、判定済みリンク情報記憶部32、リンク特徴記憶部33および学習結果記憶部34を含む。   The storage device 30 is realized by a magnetic disk device, for example. As illustrated in FIG. 1, the storage device 30 includes an undetermined link information storage unit 31, a determined link information storage unit 32, a link feature storage unit 33, and a learning result storage unit 34.

未判定リンク情報記憶部31は、リンク(ハイパーリンク)によって対応づけられた複数の文書を含むハイパーテキストから抽出したリンク情報のうち、文書間のリンクに不整合があるか否か未判定であるリンク情報を記憶する。リンク情報とは、アクセス先(指定先)の文書をアクセス元(指定元)の文書に関連づけるハイパーテキストのリンクの属性を示す情報である。本実施の形態では、未判定リンク情報記憶部31は、リンク情報として、リンク元文書上のリンク部分の表記であるリンク元表記、リンク元文書の所在を示すリンク元アドレス、およびリンク先文書の所在を示すリンク先アドレスを記憶する。なお、未判定リンク情報記憶部31は、リンク情報として、リンクのtarget属性、 style属性、リンク元文書やリンク先文書の本文、更新日付、取得日時、およびエラーが発生したか否かなど取得時の状態を示す情報を記憶してもよい。   The undetermined link information storage unit 31 is undetermined whether there is an inconsistency in the link between documents among the link information extracted from the hypertext including a plurality of documents correlated by the link (hyperlink). Store link information. The link information is information indicating a hypertext link attribute that associates an access destination (designation destination) document with an access source (designation source) document. In the present embodiment, the undetermined link information storage unit 31 uses, as link information, a link source notation that is a notation of a link part on the link source document, a link source address indicating the location of the link source document, and a link destination document. The link destination address indicating the location is stored. The undetermined link information storage unit 31 obtains, as link information, the link target attribute, style attribute, text of the link source document and link destination document, update date, acquisition date, and whether an error has occurred. Information indicating the state of the above may be stored.

また、未判定リンク情報記憶部31は、リンク情報に対応づけて、ハイパーテキストを構成する文書間のリンクを識別するためのリンクIDを記憶する。本実施の形態では、未判定リンク情報記憶部31が、予めリンクごとに「L131」,「L141」などの識別情報をリンクIDとして記憶している場合を説明する。なお、リンクIDを付与される識別情報は、本実施の形態で示す形式の情報に限られない。例えば、文書にも文書ID「xxxx」を付与し、文書に対応するyyy 番目のリンクに、リンクID「xxxxyyy 」を付与してもよい。   Further, the undetermined link information storage unit 31 stores a link ID for identifying a link between documents constituting the hypertext in association with the link information. In the present embodiment, a case will be described in which the undetermined link information storage unit 31 stores identification information such as “L131” and “L141” for each link in advance as a link ID. The identification information to which the link ID is assigned is not limited to the information in the format shown in this embodiment. For example, the document ID “xxxx” may be assigned to the document, and the link ID “xxxxyyy” may be assigned to the yyy th link corresponding to the document.

判定済みリンク情報記憶部32は、既に文書間のリンクに不整合があるか否か判定済みであるリンクのリンク情報、リンクIDおよび不整合があるか否かの判定結果を対応づけて記憶する。以下、不整合があるか否かの判定結果を、不整合判定結果と記す。判定済みリンク情報記憶部32は、不整合判定結果として、これから判定対象となるサイトの過去の判定結果を記憶してもよいし、判定対象のサイトとは異なるサイトの過去の判定結果を記憶してもよい。   The determined link information storage unit 32 stores the link information of the link that has already been determined whether or not there is a mismatch between the documents, the link ID, and the determination result whether or not there is a mismatch. . Hereinafter, the determination result of whether or not there is an inconsistency is referred to as an inconsistency determination result. The determined link information storage unit 32 may store a past determination result of a site to be determined as a mismatch determination result, or store a past determination result of a site different from the determination target site. May be.

リンク特徴記憶部33は、後述するリンク特徴抽出手段22が抽出するリンク特徴情報を記憶する。また、学習結果記憶部34は、後述する不整合学習手段23が求める学習結果を記憶する。   The link feature storage unit 33 stores link feature information extracted by a link feature extraction unit 22 described later. Further, the learning result storage unit 34 stores a learning result obtained by the inconsistency learning unit 23 described later.

データ処理装置20は、判定済みリンク情報アクセス手段21、リンク特徴抽出手段22、不整合学習手段23、未判定リンク情報アクセス手段24、不整合判定手段25および結果反映手段26を含む。   The data processing device 20 includes a determined link information access unit 21, a link feature extraction unit 22, an inconsistency learning unit 23, an undetermined link information access unit 24, an inconsistency determination unit 25, and a result reflection unit 26.

判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32から判定済みのリンク情報、リンクIDおよび不整合判定結果を読み込み、リンク特徴抽出手段22に出力する。   The determined link information access unit 21 reads the determined link information, the link ID, and the inconsistency determination result from the determined link information storage unit 32 and outputs them to the link feature extraction unit 22.

リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、リンクに論理的な不整合が生じていることの確からしさを示す特徴情報(以下、リンク特徴情報と記す)を抽出する。また、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報をリンク特徴記憶部33に記憶させる。また、判定済みリンク情報アクセス手段21からリンク情報および不整合判定結果が入力された場合には、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報とともに、不整合判定結果をリンク特徴記憶部33に記憶させる。   The link feature extraction unit 22 is characterized by the probability that a logical inconsistency has occurred in the link based on the link information input from the determined link information access unit 21 or the undetermined link information access unit 24. Information (hereinafter referred to as link feature information) is extracted. The link feature extraction unit 22 stores the link ID and the extracted link feature information in the link feature storage unit 33. When link information and an inconsistency determination result are input from the determined link information access unit 21, the link feature extraction unit 22 stores the inconsistency determination result together with the link ID and the extracted link feature information as a link feature. Store in the unit 33.

リンク特徴情報は、文書間のリンクに不整合が生じていることの確からしさを示す情報である。すなわち、リンク特徴情報が所定の内容(例えば、所定の範囲の値)である場合、判定対象のリンクが不整合であると判断できる確率が高くなる。リンク特徴情報は、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」の3種類に大別される。   The link feature information is information indicating the probability of inconsistency in the links between documents. That is, when the link feature information has a predetermined content (for example, a value in a predetermined range), the probability that the determination target link can be determined to be inconsistent is increased. The link feature information includes “(A) link feature information that can be obtained by a link alone”, “(B) link feature information that can be obtained based on the relationship between a link and its linked document”, and “(C 3) “link feature information that can be obtained by grouping links according to predetermined conditions”.

(A)リンク単独で求めることができるリンク特徴情報の例として、例えば、「リンク元表記に含まれるキーワード」,「リンク先アドレスに含まれるドメイン名またはディレクトリ名」,「リンク元アドレスに含まれるドメイン名またはディレクトリ名」,「文書内におけるリンク元表記の出現位置または表示面積」が挙げられる。   (A) Examples of link feature information that can be obtained by a link alone include, for example, “keyword included in link source notation”, “domain name or directory name included in link destination address”, and “link source address” Domain name or directory name ”and“ appearance position or display area of link source notation in document ”.

リンク元表記に含まれるキーワードは、リンク元表記に含まれる単語のうちキーワードとして用いられる単語である。リンク元表記に含まれるキーワードは、そのリンクのリンク元表記にスペルミスがあるか否かを判定するために用いられる。例えば、判定済みのデータ中のあるリンクの不整合の原因が特定のリンク元表記のスペルミスであるとする。すると、そのリンク元表記に含まれるキーワードと同じキーワードが判定対象のリンク元表記に使用されている場合には、判定対象のリンクが不整合である可能性が高くなる。   The keyword included in the link source notation is a word used as a keyword among the words included in the link source notation. The keyword included in the link source notation is used to determine whether or not there is a spelling error in the link source notation of the link. For example, it is assumed that the cause of inconsistency of a certain link in determined data is a spelling error of a specific link source notation. Then, when the same keyword as the keyword included in the link source notation is used in the determination target link source notation, there is a high possibility that the determination target link is inconsistent.

また、リンク元表記として混同して利用されやすく、リンク元表記の一貫性を失いやすいキーワードがある。そのようなキーワードが判定対象のリンク元表記に使用されている場合には、判定対象のリンクに不整合がある可能性が高くなる。例えば、「新着情報」および「イベント情報」は、ともに何か新しい情報を提供する場合に用いられるキーワードであり混同して用いられやすい。従って、リンク元表記が「新着情報」や「イベント情報」をキーワードとして含む場合には、判定対象のリンクが不整合である可能性が高くなる   In addition, there are keywords that are easily confused as the link source notation and easily lose the consistency of the link source notation. When such a keyword is used in the determination target link source notation, there is a high possibility that the determination target link is inconsistent. For example, “new arrival information” and “event information” are both keywords used when providing new information, and are easily confused. Therefore, when the link source notation includes “new arrival information” or “event information” as keywords, there is a high possibility that the determination target link is inconsistent.

リンク先アドレスに含まれるドメイン名またはディレクトリ名は、リンク先アドレスの正当性を判定するために用いられる。例えば、サイトリニューアルなどによって、あるドメインやディレクトリに含まれる文書が削除されり他の場所に移動された場合には、その削除または移動された文書を参照しているリンクが不整合になる可能性が高くなる。   The domain name or directory name included in the link destination address is used to determine the validity of the link destination address. For example, if a document included in a domain or directory is deleted or moved to another location due to a site renewal, etc., links that refer to the deleted or moved document may become inconsistent. Becomes higher.

リンク元アドレスに含まれるドメイン名またはディレクトリ名は、サイトを管理するサイト管理者(ユーザ)の管理状況に由来するリンク不整合を判定するために用いられる。一般に、大規模なサイトを管理する場合には、複数のサイト管理者が分業して管理作業を行うことが多い。この場合、各サイト管理者はドメイン単位やディレクトリ単位に役割分担することが多いので、一部サイト管理者の分担領域の管理が十分でない場合には、その分担領域のドメインまたはディレクトリに含まれる文書からのリンクは、リンク不整合になる可能性が高くなる。   The domain name or directory name included in the link source address is used to determine link inconsistency derived from the management status of the site administrator (user) who manages the site. In general, when managing a large-scale site, a plurality of site managers often divide and perform management work. In this case, each site administrator often divides roles into domain units or directory units, so if some of the site administrators do not have sufficient management of the division area, the documents contained in the domain or directory of that division area The link from is likely to be a link mismatch.

文書内におけるリンク元表記の出現位置あるいは表示面積は、リンク元表記の文書内での目立ちやすさにもとづいて不整合か否かを判定するために用いられる。例えば、リンク元表記の出現位置が文書の下部に位置し、リンク元表記の大きさも小さい場合、リンク元表記は文書内で目立ちにくい。そのため、そのリンクに不整合があっても、サイト管理者が不整合のチェックの際に見落としてしまい不整合の状態のままになってしまう可能性が高くなる。   The appearance position or display area of the link source notation in the document is used to determine whether or not there is a mismatch based on the conspicuousness in the document of the link source notation. For example, when the appearance position of the link source notation is located at the bottom of the document and the size of the link source notation is small, the link source notation is not easily noticeable in the document. For this reason, even if the link is inconsistent, there is a high possibility that the site administrator will overlook the inconsistency and remain in an inconsistent state.

リンク特徴情報としてリンク元表記に含まれるキーワードを求める場合、リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報に含まれるリンク元表記から、キーワードを抽出する。リンク特徴情報としてドメイン名またはディレクトリ名を求める場合、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク元アドレスまたはリンク先アドレスから、ドメイン名やディレクトリ名を抽出する。   When obtaining a keyword included in the link source notation as the link feature information, the link feature extracting unit 22 uses the link source notation included in the link information input from the determined link information access unit 21 or the undetermined link information access unit 24. , Extract keywords. When the domain name or directory name is obtained as the link feature information, the link feature extraction unit 22 extracts the domain name or directory name from the link source address or link destination address included in the input link information.

リンク特徴情報としてリンク元表記の出現位置または表示面積を求める場合、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク元アドレスにもとづいて、リンク元からリンク元文書を読み込む。そして、リンク特徴抽出手段22は、リンク情報に含まれるリンク元表記および読み込んだリンク元文書にもとづいて、文書内におけるリンク元表記の出現位置や表示位置を求める。なお、リンク特徴抽出手段22がリンク元文書をリンク元アドレスにもとづいて読み込むのでなく、予め未判定リンク情報記憶部31および判定済みリンク情報記憶部32がリンク情報としてリンク元文書を記憶していてもよい。   When the appearance position or display area of the link source notation is obtained as the link feature information, the link feature extraction unit 22 reads the link source document from the link source based on the link source address included in the input link information. Then, the link feature extraction unit 22 obtains the appearance position and the display position of the link source notation in the document based on the link source notation included in the link information and the read link source document. The link feature extraction unit 22 does not read the link source document based on the link source address, but the undetermined link information storage unit 31 and the determined link information storage unit 32 store the link source document as link information in advance. Also good.

(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報の例として、例えば、「リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数(以下、タイトル出現回数と記す)」,「リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数(以下、本文出現回数と記す)」,「リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数(以下、強調表示回数と記す)」が挙げられる。なお、キーワードが強調表示されているとは、例えば、文書内でキーワードが太字で表示されていたり、大きい文字サイズで表示されていることである。   (B) As an example of link feature information that can be obtained based on the relationship between a link and its linked document, for example, “the number of times the keyword included in the link source notation appears in the title of the linked document (hereinafter, title "Number of occurrences"), "Number of times the keyword included in the link source notation appears in the text of the linked document (hereinafter referred to as the number of occurrences of the text)", "Keyword included in the link source notation in the link destination document The number of times of highlighting (hereinafter referred to as the number of highlights). The keyword being highlighted is, for example, that the keyword is displayed in bold or in a large character size in the document.

タイトル出現回数、本文出現回数および強調表示回数は、いずれもリンク元表記とリンク先文書との対応関係が正しいか否かを判定するために用いられる。すなわち、タイトル出現回数、本文出現回数および強調表示回数の値が大きくなるに従って、リンクが不整合である確率が低くなる。なお、文書の長さが長くなるに従って、一般に、タイトル出現回数、本文出現回数および強調表示回数の値が大きくなる。文書の長さが長い場合には、タイトル出現回数、本文出現回数および強調表示回数を、文書の長さで除算して正規化した値をリンク特徴情報として用いてもよい。   The number of title appearances, the number of appearances of text, and the number of highlights are used to determine whether or not the correspondence between the link source notation and the link destination document is correct. That is, as the value of the title appearance count, the text appearance count, and the highlight display count increases, the probability that the link is inconsistent decreases. Note that as the length of the document increases, the values of the title appearance count, the text appearance count, and the highlight display count generally increase. When the length of the document is long, a value obtained by dividing the number of appearances of the title, the number of appearances of the text, and the number of highlights by dividing the length of the document may be used as the link feature information.

タイトル出現回数、本文出現回数および強調表示回数を求める場合、リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21または未判定リンク情報アクセス手段24から入力されたリンク情報に含まれるリンク元表記からキーワードを抽出する。また、リンク特徴抽出手段22は、入力されたリンク情報に含まれるリンク先アドレスにもとづいて、リンク先からリンク先文書を読み込む。そして、リンク特徴抽出手段22は、抽出したキーワードおよび読み込んだリンク先文書にもとづいて、タイトル出現回数、本文出現回数および強調表示回数を求める。なお、リンク特徴抽出手段22がリンク先文書をリンク先アドレスにもとづいて読み込むのでなく、予め未判定リンク情報記憶部31および判定済みリンク情報記憶部32がリンク情報としてリンク先文書を記憶していてもよい。   When obtaining the number of title appearances, the number of appearances of text, and the number of highlights, the link feature extraction unit 22 uses the link source notation included in the link information input from the determined link information access unit 21 or the undetermined link information access unit 24. Extract keywords. Further, the link feature extraction unit 22 reads a link destination document from the link destination based on the link destination address included in the input link information. Then, the link feature extraction unit 22 obtains the title appearance count, the text appearance count, and the highlight display count based on the extracted keyword and the read link destination document. The link feature extraction unit 22 does not read the link destination document based on the link destination address, but the undetermined link information storage unit 31 and the determined link information storage unit 32 store the link destination document as link information in advance. Also good.

(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報の例として、例えば、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」,「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」,「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」,「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」が挙げられる。なお、学習とは、後述するように、学習処理のフェーズにおいて識別関数を求める処理のことである。   (C) As an example of link feature information that can be obtained by grouping links according to a predetermined condition, for example, “a link having the same link destination address as a link to be learned or determined in a group of the same link source notation "Rate", "Percentage of links that have the same link source notation as the link to be learned or judged in the group with the same link destination address", "Learning or judgment target in the group with the same link source address and the same link source notation" The ratio of links having the same link source address as the link to be learned or determined in the group of the same link source address and the same link destination address ”. Note that learning is processing for obtaining an identification function in a phase of learning processing, as will be described later.

「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、同じ名前で誤った文書を参照しているリンクの不整合を判定するために用いられる。図2は、同じ名前で誤った文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図2において、文書111は、製品αについての情報が記述されている文書であり、文書112は、製品βについての情報が記述されている文書である。   “Percentage of links with the same link destination address as the link to be learned or judged in the same link source notation group” is used to judge inconsistency of links that refer to the wrong document with the same name. It is done. FIG. 2 is an explanatory diagram illustrating an example of a correspondence relationship of links between documents when an inconsistency referring to an incorrect document with the same name occurs. In FIG. 2, a document 111 is a document in which information about the product α is described, and a document 112 is a document in which information about the product β is described.

本例では、3つの文書113,114,115にそれぞれ記載されている同一のリンク元表記「製品α」から、製品αの情報が記載されている文書111に正しくリンクされている(リンク131,141,151)。一方、文書116に記載されているリンク元表記「製品α」からは、誤って製品βの情報が記載されている文書112にリンクされている(リンク161)。   In this example, the same link source notation “product α” described in each of the three documents 113, 114, and 115 is correctly linked to the document 111 in which information on the product α is described (link 131, 141, 151). On the other hand, the link source notation “product α” described in the document 116 is erroneously linked to the document 112 in which information on the product β is described (link 161).

図3は、リンク特徴情報として、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図2に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図2に示すリンクの対応関係がある場合に、同一のリンク元表記で各リンクをグループ化すると、図3に示すように、リンク特徴抽出手段22は、リンク元表記が「製品α」である4つのリンク131,141,151,161のグループを作る。図3において、リンクID「L131」は図2のリンク131に対応するID、リンクID「L141」は図2のリンク141に対応するID、リンクID「L151」は図2のリンク151に対応するID、およびリンクID「L161」は図2のリンク161に対応するIDである。   FIG. 3 is an explanatory diagram illustrating an example of a calculation process in the case of obtaining “a ratio of links having the same link destination address as a link to be learned or determined in a group represented by the same link source” as the link feature information. . In this example, a case will be described in which link feature information is obtained when there is a link correspondence between documents shown in FIG. When there is a link correspondence shown in FIG. 2 and each link is grouped with the same link source notation, as shown in FIG. 3, the link feature extraction means 22 has the link source notation “product α”. A group of four links 131, 141, 151, 161 is created. 3, the link ID “L131” corresponds to the link 131 in FIG. 2, the link ID “L141” corresponds to the link 141 in FIG. 2, and the link ID “L151” corresponds to the link 151 in FIG. The ID and the link ID “L161” are IDs corresponding to the link 161 in FIG.

また、リンク特徴抽出手段22は、グループ化した4つのリンク131,141,151,161のうち、リンク先アドレスが「文書111のアドレス」である3つのリンク131,141,151のサブグループを作る。また、リンク特徴抽出手段22は、リンク先アドレスが「文書112のアドレス」である1つのリンク161を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。   The link feature extraction unit 22 creates a subgroup of three links 131, 141, 151 whose link destination address is “address of document 111” among the four links 131, 141, 151, 161 grouped. . The link feature extraction unit 22 creates a subgroup including one link 161 whose link destination address is “the address of the document 112”. The link feature extraction means 22 obtains the number of links included in each subgroup. Then, the link feature extraction unit 22 obtains the ratio of the number of links of each subgroup in the entire group.

図3に示すように、リンク元表記が「製品α」でありリンク先アドレスが「文書111のアドレス」であるサブグループのリンク数の割合は、3/4=0.75と求められる。また、リンク元表記が「製品α」でありリンク先アドレスが「文書112のアドレス」であるサブグループのリンク数の割合は、1/4=0.25と求められる。従って、リンク特徴情報として求められる「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、リンク131,141,151では0.75と求められ、リンク161では0.25と求められる。このように、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。   As shown in FIG. 3, the ratio of the number of links of the subgroup whose link source notation is “product α” and whose link destination address is “address of document 111” is obtained as 3/4 = 0.75. Further, the ratio of the number of links of the subgroup whose link source notation is “product α” and whose link destination address is “address of document 112” is obtained as 1/4 = 0.25. Therefore, the “ratio of links having the same link destination address as the link to be learned or determined within the group of the same link source notation” obtained as the link feature information is obtained as 0.75 for the links 131, 141, and 151. In the link 161, 0.25 is obtained. Thus, the smaller the “percentage of links that have the same link destination address as the link to be learned or judged in the group of the same link source notation” means that it belongs to the minority subgroup when grouped. And the possibility of inconsistency increases.

「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」は、同じ文書を誤った名前で参照しているリンクの不整合を判別するために用いられる。図4は、同じ文書を誤った名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図4において、文書221は、サイトの更新履歴が記述されている新着情報を含む文書であり、文書222は、セミナや展示会などのイベントの予定が記述されているイベント情報を含む文書である。   “Percentage of links that have the same link source notation as a link to be learned or judged within a group with the same link destination address” is used to determine inconsistencies in links that refer to the same document with an incorrect name. It is done. FIG. 4 is an explanatory diagram showing an example of a correspondence relationship between links between documents when an inconsistency referring to the same document with an incorrect name has occurred. In FIG. 4, a document 221 is a document including newly arrived information describing a site update history, and a document 222 is a document including event information describing an event schedule such as a seminar or an exhibition. .

本例では、3つの文書223,224,225のリンク元表記「新着情報」から、それぞれ文書221に正しくリンクされている(リンク231,241,251)。一方、文書226のリンク元表記「イベント情報」からは、本来文書222にリンクすべきであるが、誤って文書221にリンクされている(リンク261)。   In this example, the link source notation “new arrival information” of the three documents 223, 224, 225 is correctly linked to the document 221 (links 231, 241, 251). On the other hand, the link source notation “event information” of the document 226 should be originally linked to the document 222 but is erroneously linked to the document 221 (link 261).

図5は、リンク特徴情報として、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図4に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図4に示すリンクの対応関係がある場合に、同一のリンク先アドレスでグループ化すると、図5に示すように、リンク特徴抽出手段22は、リンク先アドレスが「文書221のアドレス」である4つのリンク231,241,251,261のグループを作る。図5において、リンクID「L231」は図4のリンク231に対応するID、リンクID「L241」は図4のリンク241に対応するID、リンクID「L251」は図4のリンク251に対応するID、およびリンクID「L261」は図4のリンク261に対応するIDである。   FIG. 5 is an explanatory diagram illustrating an example of a calculation process in the case of obtaining “a ratio of links having the same link source notation as a learning or determination target link within a group having the same link destination address” as link feature information. . In this example, a case will be described in which link feature information is obtained when there is a link correspondence between documents shown in FIG. If there is a link correspondence shown in FIG. 4 and grouping with the same link destination address, as shown in FIG. 5, the link feature extraction means 22 has a link destination address “address of document 221”. A group of two links 231, 241, 251, 261 is created. 5, the link ID “L231” corresponds to the ID corresponding to the link 231 in FIG. 4, the link ID “L241” corresponds to the ID corresponding to the link 241 in FIG. 4, and the link ID “L251” corresponds to the link 251 in FIG. The ID and the link ID “L261” are IDs corresponding to the link 261 in FIG.

また、リンク特徴抽出手段22は、グループ化した4つのリンク231,241,251,261のうち、リンク元表記が「新着情報」である3つのリンク231,241,251のサブグループを作る。また、リンク特徴抽出手段22は、リンク元表記が「イベント情報」である1つのリンク261を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。   Further, the link feature extraction means 22 creates a subgroup of three links 231, 241, 251 whose link source notation is “new arrival information” among the four links 231, 241, 251, 261 grouped. Further, the link feature extraction unit 22 creates a subgroup including one link 261 whose link source notation is “event information”. The link feature extraction means 22 obtains the number of links included in each subgroup. Then, the link feature extraction unit 22 obtains the ratio of the number of links of each subgroup in the entire group.

図5に示すように、リンク先アドレスが「文書221のアドレス」でありリンク元表記が「新着情報」であるサブグループのリンク数の割合は、3/4=0.75と求められる。また、リンク先アドレスが「文書221のアドレス」でありリンク元表記が「イベント情報」であるサブグループのリンク数の割合は、1/4=0.25と求められる。したがって、リンク特徴情報として求められる「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」は、リンク231,241,251では0.75と求められ、リンク261では0.25と求められる。このように、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。   As shown in FIG. 5, the ratio of the number of links in the subgroup whose link destination address is “document 221 address” and whose link source notation is “new arrival information” is obtained as 3/4 = 0.75. Further, the ratio of the number of links in the subgroup whose link destination address is “document 221 address” and whose link source notation is “event information” is obtained as 1/4 = 0.25. Therefore, the “ratio of links having the same link source notation as the link to be learned or determined within the group of the same link destination address” obtained as the link feature information is obtained as 0.75 for the links 231, 241, 251. The link 261 requires 0.25. Thus, the smaller the “percentage of links with the same link source notation as the link to be learned or judged within the group with the same link destination address” means that it belongs to the minority subgroup when grouped. And there is a high possibility of inconsistencies.

「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」は、一つの文書から同じ名前で異なる文書を参照しているリンクの不整合を判定するために用いられる。図6は、一つの文書から同じ名前で異なる文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図6において、文書631は、最新バージョンのソフトウェアXの情報が記述されている文書であり、文書632は、古いバージョンのソフトウェアXの情報が記述されている文書である。   “The ratio of links that have the same link destination address as the link to be learned or judged in the group with the same link source address and the same link source notation” refers to links that refer to different documents with the same name from one document. Used to determine inconsistencies. FIG. 6 is an explanatory diagram illustrating an example of a correspondence relationship of links between documents in a case where inconsistency in which different documents with the same name are referred to from one document has occurred. In FIG. 6, a document 631 is a document in which information about the latest version of software X is described, and a document 632 is a document in which information about an old version of software X is described.

本例では、文書633のリンク元表記「ソフトX最新版」からのリンクのうち、2つのリンク331,332が文書631に正しく対応している。一方、文書633のリンク元表記「ソフトX最新版」からのリンクのうち、リンク333は、古いバージョンのソフトウェアXの情報が記述されている文書632に対応したままとなっている。   In this example, of the links from the link source notation “software X latest version” of the document 633, two links 331 and 332 correspond to the document 631 correctly. On the other hand, among the links from the link source notation “software X latest version” of the document 633, the link 333 remains corresponding to the document 632 in which information of the old version of the software X is described.

図7は、リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図6に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図6に示すリンクの対応関係がある場合に、同一のリンク元アドレスおよび同一のリンク元表記でグループ化すると、リンク特徴抽出手段22は、図7に示すように、リンク元アドレスが「文書633のアドレス」でありリンク元表記が「ソフトX最新版」である3つのリンク331,332,333のグループを作る。図7において、リンクID「L331」は図6のリンク331に対応するID、リンクID「L332」は図6のリンク332に対応するID、およびリンクID「L333」は図6のリンク333に対応するIDである。   FIG. 7 shows an example of a calculation process in the case of obtaining “a ratio of links having the same link destination address as a link to be learned or determined in a group having the same link source address and the same link source notation” as the link feature information. It is explanatory drawing shown. In this example, a case will be described in which link feature information is obtained when there is a link correspondence between documents shown in FIG. If there is a link correspondence shown in FIG. 6 and grouping is performed with the same link source address and the same link source notation, the link feature extracting unit 22 sets the link source address to “document 633” as shown in FIG. A group of three links 331, 332, and 333 having the link source notation “software X latest version”. In FIG. 7, the link ID “L331” corresponds to the link 331 in FIG. 6, the link ID “L332” corresponds to the link 332 in FIG. 6, and the link ID “L333” corresponds to the link 333 in FIG. ID.

また、リンク特徴抽出手段22は、グループ化した3つのリンク331,332,333のうち、リンク先アドレスが「文書631のアドレス」である2つのリンク331,332のサブグループを作る。また、リンク特徴抽出手段22は、リンク先アドレスが「文書632のアドレス」である1つのリンク333を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。   Further, the link feature extraction unit 22 creates a subgroup of two links 331 and 332 whose link destination address is “address of document 631” among the three links 331, 332 and 333 grouped. The link feature extraction unit 22 creates a subgroup including one link 333 whose link destination address is “the address of the document 632”. The link feature extraction means 22 obtains the number of links included in each subgroup. Then, the link feature extraction unit 22 obtains the ratio of the number of links of each subgroup in the entire group.

図7に示すように、リンク先アドレスが「文書631のアドレス」であるサブグループのリンク数の割合は、2/3=0.67と求められる。また、リンク先アドレスが「文書632のアドレス」であるサブグループのリンク数の割合は、1/3=0.33と求められる。このように、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。   As shown in FIG. 7, the ratio of the number of links in the subgroup whose link destination address is “document 631 address” is obtained as 2/3 = 0.67. Further, the ratio of the number of links in the subgroup whose link destination address is “document 632 address” is obtained as 1/3 = 0.33. Thus, the smaller the “ratio of links with the same link source address and the same link destination address as the link to be learned or judged in the same link source notation group”, the smaller the subgroup of the minority group when it is grouped. Means that it belongs, and there is a high possibility of inconsistency.

なお、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を計算するためのグループ化の条件は、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を計算する場合のグループ化条件をより厳しくしたものとなっている。したがって、リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」と、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」とを組み合わせて用いることによって判定精度をより高めることができる。   Note that the grouping condition for calculating the “ratio of links having the same link destination address as the link to be learned or judged within the group of the same link source address and the same link source notation” is “same link source notation”. In this group, the grouping condition in the case of calculating “the ratio of links having the same link destination address as the link to be learned or determined” is made stricter. Therefore, as the link feature information, “the ratio of links having the same link destination address as the link to be learned or determined in the same link source address and the same link source notation group” and “in the same link source notation group The determination accuracy can be further improved by using a combination of “the ratio of links having the same link destination address as the learning or determination target link”.

「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」は、一つの文書から別の一つの文書を異なる名前で参照しているリンクの不整合を判定するために用いられる。図8は、一つの文書から別の一つの文書を異なる名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。図8において、文書841は、2002年の年次報告が記述されている文書である。   "The ratio of links that have the same link source notation as the link to be learned or discriminated in the group of the same link source address and the same link destination address" refers to one document from another document with a different name. Used to determine inconsistencies in existing links. FIG. 8 is an explanatory diagram illustrating an example of a correspondence relationship of links between documents in a case where an inconsistency in which another document is referred to by a different name from one document is generated. In FIG. 8, a document 841 is a document in which an annual report for 2002 is described.

本例では、文書842のリンク元表記「年次報告2002」から、文書841に正しくリンクしている(リンク422)。一方、同じ文書842から同じ文書841に対応しているリンク421については、文書842のリンク元表記が「年次報告2003」になっており、リンク元表記とリンク先文書の内容とが食い違っている。   In this example, the link source notation “annual report 2002” of the document 842 is correctly linked to the document 841 (link 422). On the other hand, for the link 421 corresponding to the same document 841 from the same document 842, the link source notation of the document 842 is “Annual Report 2003”, and the link source notation and the contents of the link destination document are different. Yes.

図9は、リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。本例では、図8に示す文書間のリンクの対応関係がある場合に、リンク特徴情報を求める場合を説明する。図8に示すリンクの対応関係がある場合に、同一のリンク元アドレスおよび同一のリンク先アドレスでグループ化すると、リンク特徴抽出手段22は、図9に示すように、リンク元アドレスが「文書842のアドレス」でありリンク先アドレスが「文書841のアドレス」である2つのリンク421,422のグループを作る。図9において、リンクID「L421」は図8のリンク421に対応するID、およびリンクID「L422」は図8のリンク422に対応するIDである。   FIG. 9 shows an example of a calculation process in the case of obtaining “a ratio of links having the same link source notation as a learning target or a discrimination target within a group of the same link source address and the same link destination address” as the link feature information. It is explanatory drawing shown. In this example, a case will be described in which link feature information is obtained when there is a link correspondence between documents shown in FIG. If there is a link correspondence shown in FIG. 8 and grouping is performed using the same link source address and the same link destination address, the link feature extraction unit 22 sets the link source address to “document 842” as shown in FIG. A group of two links 421 and 422 whose link destination address is “address of document 841”. 9, the link ID “L421” is an ID corresponding to the link 421 in FIG. 8, and the link ID “L422” is an ID corresponding to the link 422 in FIG.

また、リンク特徴抽出手段22は、グループ化した2つのリンク421,422のうち、リンク元表記が「年次報告2003」である1つのリンク421を含むサブグループを作る。また、リンク特徴抽出手段22は、グループ化した2つのリンク421,422のうち、リンク元表記が「年次報告2002」である1つのリンク422を含むサブグループを作る。リンク特徴抽出手段22は、各サブグループに含まれるリンク数を求める。そして、リンク特徴抽出手段22は、グループ全体に占める各サブグループのリンク数の割合を求める。   Further, the link feature extraction means 22 creates a subgroup including one link 421 whose link source notation is “annual report 2003” among the two links 421 and 422 that are grouped. Further, the link feature extraction unit 22 creates a subgroup including one link 422 whose link source notation is “annual report 2002” among the two links 421 and 422 that are grouped. The link feature extraction means 22 obtains the number of links included in each subgroup. Then, the link feature extraction unit 22 obtains the ratio of the number of links of each subgroup in the entire group.

図9に示すように、リンク元表記が「年次報告2003」であるサブグループのリンク数の割合は、1/2=0.5と求められる。また、リンク元表記が「年次報告2002」であるサブグループのリンク数の割合は、1/2=0.5と求められる。「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」が小さいほど、グループ化した時に少数派のサブグループに属することを意味しており、不整合である可能性が高くなる。   As shown in FIG. 9, the ratio of the number of links in the subgroup whose link source notation is “annual report 2003” is obtained as 1/2 = 0.5. Further, the ratio of the number of links of the subgroup whose link source notation is “Annual Report 2002” is obtained as 1/2 = 0.5. The smaller the "percentage of links with the same link source notation in the group of the same link source address and the same link destination address", the smaller the subgroup of the minority group when grouped. And there is a high possibility of inconsistency.

なお、図9に示す例では、いずれのサブグループのリンク数の割合も0.5で同じである。そのため、リンク特徴情報として「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を用いるだけでは、いずれのリンクが不整合であるか直ちに判断することができないが、いずれかのリンクに不整合があることが分かる。   In the example shown in FIG. 9, the ratio of the number of links in any subgroup is 0.5, which is the same. Therefore, using only the ratio of links having the same link source notation as the link to be learned or determined in the group of the same link source address and the same link destination address as the link feature information, any link is inconsistent. It is not possible to immediately determine if there is, but it can be seen that there is an inconsistency in one of the links.

この場合、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を計算するためのグループ化の条件は、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を計算する場合のグループ化条件をより厳しくしたものとなっている。したがって、リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」と、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」とを組み合わせて用いることによって判定精度をより高めることができる。   In this case, the grouping condition for calculating the “ratio of links having the same link source notation as the link to be learned or determined within the group of the same link source address and the same link destination address” is “same link destination”. The grouping condition for calculating “the ratio of links having the same link source notation as the link to be learned or determined in the address group” is made stricter. Therefore, as the link feature information, “the ratio of links having the same link source notation as the link to be learned or determined in the group of the same link source address and the same link destination address” and “in the group of the same link destination address” The determination accuracy can be further increased by using a combination of “the ratio of links having the same link source notation as the link to be learned or determined”.

図10は、リンク特徴抽出手段22からリンク特徴記憶部33に入力され、リンク特徴記憶部33が記憶するリンク特徴情報、リンクIDおよび不整合判定結果のデータ構造の例を示す説明図である。図10(a)は、リンク特徴記憶部33が、リンク特徴情報として、リンク元表記に含まれるキーワード、タイトル出現回数および強調表示回数を記憶する場合の例である。また、図10(a)に示すように、リンク特徴記憶部33は、各リンク特徴情報と、リンクIDと、不整合判定結果とを対応づけて記憶する。   FIG. 10 is an explanatory diagram illustrating an example of the data structure of the link feature information, the link ID, and the inconsistency determination result input from the link feature extraction unit 22 to the link feature storage unit 33 and stored in the link feature storage unit 33. FIG. 10A shows an example in which the link feature storage unit 33 stores, as link feature information, a keyword, a title appearance count, and a highlight display count included in the link source notation. As shown in FIG. 10A, the link feature storage unit 33 stores each link feature information, link ID, and inconsistency determination result in association with each other.

図10(a)に示す例では、リンクID「L11」のリンクのリンク元表記には、キーワードとして「新着」および「情報」が含まれていることがわかる。また、「新着」および「情報」のキーワードがリンク先文書のタイトル中に合計で7回出現していることがわかる。また、「新着」および「情報」のキーワードがリンク先文書の本文中に合計で8回強調表示されていることがわかる。さらに、リンクID「L11」のリンクは、不整合判定結果が「○」であり、正常と判定されたリンクであることがわかる。   In the example shown in FIG. 10A, it can be seen that the link source notation of the link with the link ID “L11” includes “new arrival” and “information” as keywords. It can also be seen that the keywords “New Arrival” and “Information” appear seven times in the title of the linked document. It can also be seen that the keywords “New Arrival” and “Information” are highlighted eight times in total in the text of the linked document. Further, the link with the link ID “L11” has a mismatch determination result of “◯”, which indicates that the link is determined to be normal.

また、リンクID「L12」のリンクのリンク元表記には、キーワードとして「イベント」および「情報」が含まれていることがわかる。また、「イベント」および「情報」のキーワードがリンク先文書のタイトル中に合計で5回出現しており、リンク先文書の本文中に合計で3回強調表示されていることがわかる。さらに、リンクID「L12」のリンクは、不整合判定結果が「×」であり、不整合と判定されたリンクであることがわかる。   It can also be seen that the link source notation of the link with the link ID “L12” includes “event” and “information” as keywords. It can also be seen that the keywords “event” and “information” appear five times in the title of the linked document, and are highlighted three times in the text of the linked document. Furthermore, the link with the link ID “L12” has an inconsistency determination result of “x”, which indicates that the link is determined to be inconsistent.

なお、図10(a)に例示するデータ構造では、リンク特徴記憶部33が、リンク特徴情報として、キーワードなどの質的データ(数量でないデータ)と、出現回数などの量的データとを混在して記憶する場合を説明したが、リンク特徴記憶部33は、量的データのみを含むリンク特徴情報を記憶するものであってもよい。   In the data structure illustrated in FIG. 10A, the link feature storage unit 33 mixes qualitative data such as keywords (non-quantity data) and quantitative data such as the number of appearances as the link feature information. However, the link feature storage unit 33 may store link feature information including only quantitative data.

例えば、後述するように、不整合学習手段23は、所定の学習アルゴリズムを用いて、リンクが不整合であるか否かを判定するための識別関数を算出する。不整合学習手段23が学習アルゴリズムとして線形判別分析法やニューラルネットワークなど用いる場合には、不整合学習手段23に量的データが入力されなければならない。この場合、キーワードを数値データに変換することによって、リンク特徴記憶部33は、量的データのみを含むリンク特徴情報を記憶していてもよい。   For example, as will be described later, the inconsistency learning unit 23 uses a predetermined learning algorithm to calculate an identification function for determining whether or not the link is inconsistent. When the inconsistency learning unit 23 uses a linear discriminant analysis method or a neural network as a learning algorithm, quantitative data must be input to the inconsistency learning unit 23. In this case, the link feature storage unit 33 may store link feature information including only quantitative data by converting the keyword into numerical data.

図10(b)は、リンク特徴記憶部33が、量的データのみを含むリンク特徴情報を記憶する場合の例である。なお、図10(b)に示す各リンク特徴情報は、図10(a)に示す各リンク特徴情報を全て量的データに変換にしたものに相当する。図10(b)に示す例では、各キーワードがそれぞれダミー変数に変換されて記憶されている。例えば、図10(b)に示すように、各キーワードは、リンク元表記に含まれていれば「1」に変換され、リンク元表記に含まれていなければ「0」に変換されて、リンク特徴記憶部33に記憶される。   FIG. 10B shows an example in which the link feature storage unit 33 stores link feature information including only quantitative data. Note that the link feature information shown in FIG. 10B corresponds to the link feature information shown in FIG. 10A converted into quantitative data. In the example shown in FIG. 10B, each keyword is converted into a dummy variable and stored. For example, as shown in FIG. 10B, each keyword is converted to “1” if it is included in the link source notation, and is converted to “0” if it is not included in the link source notation. It is stored in the feature storage unit 33.

また、リンク特徴情報は質的データのみを含むものであってもよい。例えば、学習アルゴリズムとして決定木(decision tree )などが用いられる場合には、不整合学習手段23に質的データが入力されなければならない。この場合、各項目をカテゴリ化(分類)することによって、リンク特徴記憶部33は、質的データのみを含むリンク特徴情報を記憶していてもよい。   The link characteristic information may include only qualitative data. For example, when a decision tree or the like is used as a learning algorithm, qualitative data must be input to the inconsistency learning unit 23. In this case, the link feature storage unit 33 may store link feature information including only qualitative data by categorizing (classifying) each item.

図10(c)は、リンク特徴記憶部33が、質的データのみを含むリンク特徴情報を記憶する場合の例である。なお、図10(c)に示す各リンク特徴情報は、図10(a),(b)に示す各リンク特徴情報を全て質的データに変換したものに相当する。図10(c)に示す例では、各キーワードは、リンク元表記に含まれていれば「含む」に、リンク元表記に含まれていなければ「含まない」にカテゴリ化されてリンク特徴記憶部33に記憶される。   FIG. 10C shows an example in which the link feature storage unit 33 stores link feature information including only qualitative data. Note that the link feature information shown in FIG. 10C corresponds to the link feature information shown in FIGS. 10A and 10B all converted into qualitative data. In the example shown in FIG. 10C, each keyword is categorized as “include” if it is included in the link source notation, and “not included” if it is not included in the link source notation. 33.

また、タイトル出現回数は最小値が「5」であり最大値が「7」であるので、回数「5」から「7」までの区間を3つにカテゴリ化すると、回数「5」の場合を「少」、回数「6」の場合を「中」、および回数「7」の場合を「多」とカテゴリ化することができる。本例では、図10(c)に示すように、リンク特徴記憶部33は、タイトル出現回数を「少」,「中」,「多」の3つにカテゴリ化した質的データを記憶している。   Since the minimum value of the number of appearances of the title is “5” and the maximum value is “7”, when the section from the number of times “5” to “7” is categorized into three, the number of times “5” is displayed. The case of “small”, the number of times “6” can be categorized as “medium”, and the case of the number of times “7” can be categorized as “many”. In this example, as shown in FIG. 10C, the link feature storage unit 33 stores qualitative data in which the number of title appearances is categorized into “low”, “medium”, and “high”. Yes.

また、強調表示回数は最小値が「3」であり最大値が「8」であるので、回数「3」から「8」までの区間を3つにカテゴリ化すると、回数「3」または「4」の場合を「少」、回数「5」または「6」の場合を「中」、および回数「7」または「8」の場合を「多」とカテゴリ化することができる。本例では、図10(c)に示すように、リンク特徴記憶部33は、強調表示回数を「少」,「中」,「多」の3つにカテゴリ化した質的データを記憶している。   Further, since the minimum number of highlights is “3” and the maximum value is “8”, when the section from the number of times “3” to “8” is categorized into three, the number of times “3” or “4” ”Can be categorized as“ low ”, the number of times“ 5 ”or“ 6 ”as“ medium ”, and the number of times“ 7 ”or“ 8 ”as“ many ”. In this example, as shown in FIG. 10C, the link feature storage unit 33 stores qualitative data categorized into three categories of “low”, “medium”, and “high” as the number of highlights. Yes.

なお、図10(c)に示す例では、最小値から最大値までの区間をデータの値にもとづいて「少」,「中」,「多」の3つにカテゴリ化する場合を説明したが、データを3つにカテゴリ化する方法は、本実施の形態で示した方法に限られない。例えば、データ数にもとづいて、データ数が3等分されるようにデータを3つにカテゴリ化してもよい。また、本例では、「少」,「中」,「多」の3つのカテゴリに変換する場合を説明したが、変換するカテゴリの数は、本実施の形態で示した場合に限られない。例えば、2つにカテゴリ化したり5つにカテゴリ化するなど、他の任意の数のカテゴリに分類してもよい。   In the example shown in FIG. 10C, the case has been described in which the interval from the minimum value to the maximum value is categorized into “low”, “medium”, and “high” based on the data value. The method of categorizing data into three is not limited to the method shown in this embodiment. For example, the data may be categorized into three so that the number of data is equally divided into three based on the number of data. In this example, the case of conversion into three categories of “small”, “medium”, and “many” has been described, but the number of categories to be converted is not limited to the case shown in the present embodiment. For example, it may be classified into any other number of categories such as categorizing into two or categorizing into five.

また、図10に示す例では、リンク特徴記憶部33が既に判定済みのリンクのリンク特徴情報を記憶する場合を説明したが、リンク特徴記憶部33が未判定のリンクのリンク特徴情報を記憶する場合も図10に示した場合と同様である。未判定のリンクのリンク特徴情報を記憶する場合、リンク特徴記憶部33は、不整合判定結果として、未判定であることを示す識別子を記憶する。例えば、リンク特徴記憶部33は、不整合判定結果として、「?」,「−」,「−1」などの識別子を記憶する。   In the example illustrated in FIG. 10, the case has been described in which the link feature storage unit 33 stores link feature information of a link that has already been determined, but the link feature storage unit 33 stores link feature information of an undetermined link. The case is the same as that shown in FIG. When storing the link feature information of the undetermined link, the link feature storage unit 33 stores an identifier indicating that the link has not been determined as the inconsistency determination result. For example, the link feature storage unit 33 stores identifiers such as “?”, “−”, “−1” as the inconsistency determination result.

不整合学習手段23は、リンク特徴記憶部33が記憶するリンク特徴情報と不整合判定結果とにもとづいて、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と、リンクが不整合と判定された割合との関係を統計計算する。不整合学習手段23は、統計計算をすることによって、あるリンクが不整合であるか否かを判定するために用いられる識別関数を求める。識別関数は、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と、その判定の判定結果との関係を示している。   Based on the link feature information stored in the link feature storage unit 33 and the inconsistency determination result, the inconsistency learning unit 23 determines the content of each link feature information (for example, the magnitude of the value of the link feature information) and the link. Statistically calculate the relationship between the percentage determined to be inconsistent. The inconsistency learning means 23 obtains an identification function used for determining whether or not a certain link is inconsistent by performing statistical calculation. The identification function indicates the relationship between the link feature information of a link for which a determination as to whether or not inconsistency has already been made and the determination result of the determination.

また、不整合学習手段23は、求めた識別関数を学習結果記憶部34に記憶させる。この場合、不整合学習手段23は、求めた識別関数とともに、不整合学習手段23が識別関数を求めるために用いた学習アルゴリズムの種類を、学習結果記憶部34に記憶させる。なお、本実施の形態では、不整合学習手段23は、識別関数として、識別関数を表現するためのパラメータ(識別関数に含まれる係数)を学習結果記憶部34に記憶させる。   The inconsistency learning unit 23 stores the obtained discrimination function in the learning result storage unit 34. In this case, the inconsistency learning unit 23 causes the learning result storage unit 34 to store the type of learning algorithm used by the inconsistency learning unit 23 to obtain the discrimination function together with the obtained discrimination function. In the present embodiment, the inconsistency learning unit 23 causes the learning result storage unit 34 to store a parameter for expressing the discriminant function (coefficient included in the discriminant function) as the discriminant function.

未判定リンク情報アクセス手段24は、未判定リンク情報記憶部31からリンクが不整合か否か未判定のリンク情報を読み込み、リンク特徴抽出手段22に出力する。   The undetermined link information access unit 24 reads undetermined link information as to whether or not the link is inconsistent from the undetermined link information storage unit 31, and outputs it to the link feature extraction unit 22.

不整合判定手段25は、リンク特徴記憶部33が記憶するリンク特徴情報のうち、不整合か否か未判定のリンクのリンク特徴情報と、学習結果記憶部34が記憶する識別関数とを用いて、未判定のリンクに不整合があるか否かを判定する。   The inconsistency determination means 25 uses the link feature information of the link that has not been determined whether or not inconsistency among the link feature information stored in the link feature storage unit 33 and the identification function stored in the learning result storage unit 34. It is determined whether or not there is an inconsistency in the undetermined link.

結果反映手段26は、不整合判定手段25が判定した不整合の判定結果を出力装置12に出力する機能を備える。また、結果反映手段26は、サイト管理者の操作に従って、文書の修正や判定結果の訂正をする機能を備える。例えば、サイト管理者は、出力装置12に出力された不整合の判定結果を確認すると、入力装置11を操作して、不整合のある文書の修正指示を入力する。また、不整合の判定結果に誤りがある場合には、サイト管理者は、入力装置11を操作して、不整合の判定結果の訂正指示を入力する。なお、判定結果を訂正するとは、不整合がある旨の判定結果に対して訂正指示がされた場合には判定結果の内容を「不整合がない」に変更し、不整合がない旨の判定結果に対して訂正指示がされた場合には判定結果の内容を「不整合がある」に変更することをいう。   The result reflection unit 26 has a function of outputting the inconsistency determination result determined by the inconsistency determination unit 25 to the output device 12. The result reflection unit 26 has a function of correcting the document and correcting the determination result according to the operation of the site administrator. For example, when the site manager confirms the inconsistency determination result output to the output device 12, the site administrator operates the input device 11 to input a correction instruction for the inconsistent document. If there is an error in the inconsistency determination result, the site administrator operates the input device 11 to input a correction instruction for the inconsistency determination result. To correct the determination result, when a correction instruction is given for the determination result indicating that there is an inconsistency, the content of the determination result is changed to “no inconsistency” and a determination is made that there is no inconsistency. When a correction instruction is given for the result, it means that the content of the determination result is changed to “inconsistent”.

サイト管理者の確認結果(文書の修正指示、または判定結果の訂正指示)が入力されると、結果反映手段26は、サイト管理者の確認結果を判定済みリンク情報アクセス手段21にフィードバックする。本実施の形態において、確認結果をフィードバックするとは、サイト管理者の確認結果が入力された場合に、結果反映手段26が判定済みリンク情報アクセス手段21に情報の更新を指示し、判定済みリンク情報アクセス手段21が判定済みリンク情報記憶部32に記憶される情報を更新することをいう。すなわち、確認結果がフィードバックされると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する。なお、リンク特徴記憶部33が記憶する情報が更新されると、不整合学習手段23は、更新されたデータにもとづいて識別関数を再計算する。   When the confirmation result of the site administrator (document correction instruction or determination result correction instruction) is input, the result reflection unit 26 feeds back the site administrator confirmation result to the determined link information access unit 21. In the present embodiment, feedback of the confirmation result means that, when the confirmation result of the site administrator is input, the result reflection means 26 instructs the determined link information access means 21 to update the information, and the determined link information This means that the access means 21 updates the information stored in the determined link information storage unit 32. That is, when the confirmation result is fed back, the determined link information access unit 21 updates the information stored in the determined link information storage unit 32 according to the instruction of the result reflection unit 26. When the information stored in the link feature storage unit 33 is updated, the inconsistency learning unit 23 recalculates the identification function based on the updated data.

未判定リンク情報記憶手段は、未判定リンク情報記憶部31によって実現される。未判定リンク情報読込手段は、未判定リンク情報アクセス手段24によって実現される。関係情報記憶手段は、学習結果記憶部34によって実現される。不整合判定手段は、不整合判定手段25および出力装置12によって実現される。判定済みリンク情報記憶手段は、判定済みリンク情報記憶部32によって実現される。判定済みリンク情報読込手段は、判定済みリンク情報アクセス手段21によって実現される。関係情報導出手段は、不整合学習手段23によって実現される。フィードバック手段は、判定済みリンク情報アクセス手段21および結果反映手段26によって実現される。   The undetermined link information storage unit is realized by the undetermined link information storage unit 31. The undetermined link information reading unit is realized by the undetermined link information access unit 24. The relationship information storage means is realized by the learning result storage unit 34. The inconsistency determination unit is realized by the inconsistency determination unit 25 and the output device 12. The determined link information storage unit is realized by the determined link information storage unit 32. The determined link information reading unit is realized by the determined link information access unit 21. The relationship information deriving unit is realized by the inconsistency learning unit 23. The feedback means is realized by the determined link information access means 21 and the result reflection means 26.

また、本実施の形態において、関係情報導出手段が導出する関係情報は、不整合学習手段23が求める識別関数に相当する。また、関係情報導出アルゴリズムは、不整合学習手段23が識別関数を求めるために用いる学習アルゴリズムに相当する。また、判定対象となるリンクから特定可能なリンク特徴情報は、「(A)リンク単独で求めることがきるリンク特徴情報」に相当する。また、判定対象となるリンクとリンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報は、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」に相当する。また、所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報は、「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」に相当する。   In the present embodiment, the relationship information derived by the relationship information deriving unit corresponds to an identification function obtained by the inconsistency learning unit 23. The relation information derivation algorithm corresponds to a learning algorithm used by the inconsistency learning unit 23 to obtain an identification function. Further, the link feature information that can be specified from the link to be determined corresponds to “(A) Link feature information that can be obtained by a link alone”. The link feature information that can be identified from the link to be determined and the description content of the link destination document is “(B) Link feature information that can be obtained based on the relationship between the link and the link destination document”. Is equivalent to. In addition, the link feature information indicating the size of the group to which the determination target link belongs when the links are grouped according to a predetermined condition is “(C) Link feature that can be obtained by grouping links according to a predetermined condition”. Corresponds to “information”.

次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」および「結果確認処理」の3つの独立したフェーズの処理を実行する。「学習処理」とは、判定済みのリンク情報にもとづいて、リンク診断装置が不整合の判定に用いるための識別関数を求める処理である。「判定処理」とは、リンク診断装置が、未判定のリンクに対して、不整合があるか否かを判定する処理である。「結果確認処理」とは、リンク不整合の判定結果を出力(表示)し、判定結果を確認したサイト管理者の操作に従って文書を修正または判定結果を訂正する処理である。なお、本実施の形態では、識別関数を求めることを学習すると記す。   Next, the operation will be described. In the present embodiment, the link diagnosis apparatus executes processing of three independent phases of “learning processing”, “determination processing”, and “result confirmation processing”. The “learning process” is a process for obtaining an identification function to be used by the link diagnosis apparatus for determining inconsistency based on the determined link information. The “determination process” is a process in which the link diagnosis apparatus determines whether or not there is a mismatch with an undetermined link. The “result confirmation process” is a process for outputting (displaying) the determination result of link mismatch and correcting the document or correcting the determination result according to the operation of the site administrator who confirmed the determination result. In the present embodiment, it is described that learning to obtain an identification function is learned.

リンク診断装置が実行する学習処理の動作について説明する。図11は、リンク診断装置が実行する学習処理の処理経過の一例を示す流れ図である。データ処理装置20の不整合学習手段23は、サイト管理者の入力操作に従って、学習するための各設定情報の入力を受け付ける(ステップS11)。ステップS11において、不整合学習手段23は、例えば、学習に用いる過去の判定済みリンクに対応するデータ、学習に用いるリンク特徴情報の種類、および学習に用いる学習アルゴリズムの種類の選択指示の入力を受け付ける。   An operation of learning processing executed by the link diagnosis apparatus will be described. FIG. 11 is a flowchart illustrating an example of the progress of the learning process executed by the link diagnosis apparatus. The inconsistency learning unit 23 of the data processing device 20 accepts input of setting information for learning in accordance with the input operation of the site manager (step S11). In step S11, the inconsistency learning unit 23 receives, for example, input of selection instructions for data corresponding to past determined links used for learning, types of link feature information used for learning, and types of learning algorithm used for learning. .

図12は、サイト管理者が学習するための各設定情報を入力するための学習設定画面の一例を示す説明図である。不整合学習手段23は、例えば、図12に示す学習設定画面をディスプレイ装置である出力装置12に表示させる。図12に示すように、学習設定画面1201には、判定済みデータ一覧1211、リンク特徴情報一覧1212、学習アルゴリズム一覧1213および学習ボタン1214が含まれている。   FIG. 12 is an explanatory diagram illustrating an example of a learning setting screen for inputting setting information for the site administrator to learn. The inconsistency learning unit 23 displays, for example, a learning setting screen illustrated in FIG. 12 on the output device 12 that is a display device. As shown in FIG. 12, the learning setting screen 1201 includes a determined data list 1211, a link feature information list 1212, a learning algorithm list 1213, and a learning button 1214.

判定済みデータ一覧1211には、過去の判定済みリンクを含む各サイトの名前、URLおよび診断した日時が含まれる。なお、判定済みデータ一覧1211には、参考データとして、各サイトの文書数、リンク数および不整合と判定されたリンク数の割合などが含まれていてもよい。本例では、サイト名「AAA Corp.」のサイトの判定済みリンクに対応するデータのうち、診断日時が「2003年10月24日」および「2003年10月17日」のデータを用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、判定済みデータ一覧1211を含む学習設定画面1201を出力装置12に表示させて、サイト管理者にデータの選択を促す。サイト管理者は、表示された判定済みデータ一覧1211のチェックボックス1215をチェックすることによって、学習に用いるデータを選択する。   The determined data list 1211 includes the name, URL, and diagnosis date and time of each site including past determined links. The determined data list 1211 may include, as reference data, the number of documents at each site, the number of links, the ratio of the number of links determined to be inconsistent, and the like. In this example, learning is performed using data having a diagnosis date of “October 24, 2003” and “October 17, 2003” among the data corresponding to the determined link of the site having the site name “AAA Corp.”. The case where it does is demonstrated. As shown in FIG. 12, the inconsistency learning unit 23 displays a learning setting screen 1201 including the determined data list 1211 on the output device 12 to prompt the site administrator to select data. The site administrator selects data to be used for learning by checking the check box 1215 of the displayed determined data list 1211.

リンク特徴情報一覧1212には、学習に利用できるリンク特徴情報の種類がリスト表示される。リンク特徴情報一覧1212にリスト表示されるリンク特徴情報は、前述の「(A)リンク単独で求めることがきるリンク特徴情報」の各情報、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」の各情報、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」の各情報である。本例では、リンク特徴情報のうち、タイトル出現回数および強調表示回数を用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、リンク特徴情報一覧1212を含む学習設定画面1201を出力装置12に表示させて、サイト管理者にリンク特徴情報の種類の選択を促す。サイト管理者は、リンク特徴情報一覧1212のチェックボックス1216をチェックすることによって、学習に用いるリンク特徴情報の種類を選択する。   The link feature information list 1212 displays a list of types of link feature information that can be used for learning. The link feature information displayed in the list in the link feature information list 1212 includes the information of “(A) Link feature information that can be obtained by a link alone” and the relationship between “(B) link and its linked document”. Each information of “link feature information that can be obtained based on” and “link feature information that can be obtained by grouping (C) links according to a predetermined condition”. In this example, a case will be described in which learning is performed using the number of title appearances and the number of highlights in the link feature information. As shown in FIG. 12, the inconsistency learning unit 23 displays a learning setting screen 1201 including a link feature information list 1212 on the output device 12, and prompts the site administrator to select the type of link feature information. The site manager selects the type of link feature information used for learning by checking the check box 1216 of the link feature information list 1212.

なお、本例では、判定済みデータ一覧1211とリンク特徴情報1212とを同一の学習設定画面1201に表示し、各設定情報を同時に設定できる場合を説明したが、学習設定画面の表示方法は本実施の形態で示した方法に限られない。例えば、不整合学習手段23は、判定済みデータ一覧1211と、リンク特徴情報一覧1212とを、それぞれ別の画面で出力装置12に表示させてもよい。また、例えば、学習に利用するリンク特徴情報を対話的に設定できるインタフェースを用いてもよい。   In this example, the case where the determined data list 1211 and the link feature information 1212 are displayed on the same learning setting screen 1201 and each setting information can be set at the same time has been described. It is not restricted to the method shown by the form. For example, the inconsistency learning unit 23 may cause the output device 12 to display the determined data list 1211 and the link feature information list 1212 on different screens. Further, for example, an interface that can interactively set link feature information used for learning may be used.

学習アルゴリズム一覧1213には、不整合学習手段23が識別関数を求める際に用いる学習アルゴリズムがリスト表示される。識別関数を計算するための学習アルゴリズムとして、統計学で一般的に用いられる手法である線形判別法、パタン認識や機械学習で用いられる決定木、およびニューラルネットワークなどを用いることができる。本例では、学習アルゴリズムのうち、線形判別法を用いて学習する場合を説明する。不整合学習手段23は、図12に示すように、学習アルゴリズム一覧1213を含む学習設定画面1201を出力装置12に表示させて、サイト管理者に学習アルゴリズムの種類の選択を促す。サイト管理者は、学習アルゴリズム一覧1213のチェックボックス1217をチェックすることによって、学習に用いる学習アルゴリズムの種類を選択する。   The learning algorithm list 1213 displays a list of learning algorithms that are used when the inconsistency learning unit 23 obtains an identification function. As a learning algorithm for calculating the discriminant function, a linear discriminant method that is a method generally used in statistics, a decision tree used in pattern recognition or machine learning, a neural network, or the like can be used. In this example, a case will be described in which learning is performed using a linear discriminant method among learning algorithms. As shown in FIG. 12, the inconsistency learning unit 23 displays a learning setting screen 1201 including a learning algorithm list 1213 on the output device 12, and prompts the site administrator to select the type of learning algorithm. The site manager selects the type of learning algorithm used for learning by checking the check box 1217 of the learning algorithm list 1213.

また、学習アルゴリズムを選択するだけでなく、学習アルゴリズム一覧1213から各学習アルゴリズムに用いるパラメータの値を入力指定することもできる。例えば、図12に示す例では、決定木の枝刈りの信頼度が「25%」に設定されているが、サイト管理者は、別の値を数値入力することによって信頼度の値を変更して、学習の実行指示をすることもできる。また、学習アルゴリズムとしてニューラルネットワークを選択して学習させる場合には、サイト管理者は、階層数およびニューロンの活性化関数(線形関数またはシグモイド関数)を選択することができる。   In addition to selecting a learning algorithm, a parameter value used for each learning algorithm can be input and designated from the learning algorithm list 1213. For example, in the example shown in FIG. 12, the pruning reliability of the decision tree is set to “25%”, but the site administrator changes the reliability value by entering another value. It is also possible to instruct the execution of learning. When a neural network is selected as a learning algorithm for learning, the site manager can select the number of layers and the activation function (linear function or sigmoid function) of neurons.

なお、図12に示す例では、学習アルゴリズムとして、線形判別法、決定木およびニューラルネットワークがリスト表示される場合を説明したが、リスト表示される学習アルゴリズムは、本例で示したものに限られない。例えば、パタン認識で用いられるk最近接近傍法、ベイズ法、SVM(Support Vector Machine)法などがリスト表示されていてもよい。また、学習アルゴリズムごとに設定できるパラメータは、本実施の形態で示したものに限られない。例えば、学習アルゴリズムとしてニューラルネットワークを用いる場合、ニューロンの数をパラメータとして変更入力できるようにしてもよい。   In the example shown in FIG. 12, the case where the linear discriminant method, the decision tree, and the neural network are displayed as a list has been described as the learning algorithm. However, the learning algorithm displayed as a list is limited to the one shown in this example. Absent. For example, a k nearest neighbor method, a Bayes method, an SVM (Support Vector Machine) method, or the like used in pattern recognition may be displayed in a list. The parameters that can be set for each learning algorithm are not limited to those shown in the present embodiment. For example, when a neural network is used as a learning algorithm, the number of neurons may be changed and input as a parameter.

サイト管理者は、判定済みデータ一覧1211、リンク特徴情報一覧1212および学習アルゴリズム一覧1213から各設定情報を選択すると、学習ボタン1214を押す。サイト管理者によって学習ボタン1214が押されると、不整合学習手段23は、リンク情報、リンク特徴情報の種類および学習アルゴリズムの種類の選択指示の入力を受け付ける。   When the site manager selects each setting information from the determined data list 1211, the link feature information list 1212, and the learning algorithm list 1213, the site manager presses a learning button 1214. When the site manager presses the learning button 1214, the inconsistency learning unit 23 receives input of selection instructions for the link information, the type of link feature information, and the type of learning algorithm.

学習するための各設定情報の入力を受け付けると、データ処理装置20の判定済みリンク情報アクセス手段21は、設定内容に従って、判定済みリンク情報記憶部32から、サイト管理者によって選択されたリンク情報、リンクIDおよび不整合判定結果を読み込む(ステップS12)。そして、判定済みリンク情報アクセス手段21は、読み込んだリンク情報、リンクIDおよび不整合判定結果をリンク特徴抽出手段22に出力する。   When receiving the input of each setting information for learning, the determined link information access unit 21 of the data processing device 20 in accordance with the setting content, the link information selected by the site administrator from the determined link information storage unit 32, The link ID and inconsistency determination result are read (step S12). Then, the determined link information access unit 21 outputs the read link information, link ID, and inconsistency determination result to the link feature extraction unit 22.

リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21から入力されたリンク情報にもとづいて、ステップS11でサイト管理者によって選択された種類のリンク特徴情報を抽出する(ステップS13)。そして、リンク特徴抽出手段22は、抽出したリンク特徴情報と、判定済みリンク情報アクセス手段21から入力されたリンクIDおよび不整合判定結果とを、リンク特徴記憶部33に記憶させる(ステップS13)。   The link feature extraction unit 22 extracts the link feature information of the type selected by the site manager in step S11 based on the link information input from the determined link information access unit 21 (step S13). Then, the link feature extraction unit 22 stores the extracted link feature information and the link ID and the mismatch determination result input from the determined link information access unit 21 in the link feature storage unit 33 (step S13).

不整合学習手段23は、リンク特徴記憶部33に格納されたリンク特徴情報について、各リンク特徴情報の内容と、不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める(ステップS14)。ステップS14において、不整合学習手段23は、ステップS11でサイト管理者によって選択された学習アルゴリズムを用いて識別関数を求める。そして、不整合学習手段23は、求めた識別関数を学習結果記憶部34に記憶させる。   The inconsistency learning unit 23 calculates an identification function for the link feature information stored in the link feature storage unit 33 by statistically calculating the relationship between the content of each link feature information and the proportion of links determined to be inconsistent. Obtained (step S14). In step S14, the inconsistency learning unit 23 obtains an identification function using the learning algorithm selected by the site manager in step S11. The inconsistency learning unit 23 stores the obtained discriminant function in the learning result storage unit 34.

不整合学習手段23が識別関数を求める手順について説明する。本例では、リンク特徴情報としてタイトル出現回数および強調表示回数を用い、学習アルゴリズムとして線形判別分析(線形判別法)を用いて識別関数を求める場合を説明する。   A procedure by which the inconsistency learning unit 23 obtains an identification function will be described. In this example, a case will be described in which the number of title appearances and the number of highlights are used as link feature information, and a discrimination function is obtained using linear discriminant analysis (linear discriminant method) as a learning algorithm.

図13および図14は、不整合学習手段23が識別関数を求める場合の算出過程の例を示す説明図である。本例では、不整合学習手段23が、リンク特徴記憶部33が記憶する図13(a)に示す情報を用いて識別関数を求める場合を説明する。本例では、判定済みリンク情報記憶部32が予めリンクID「L51」から「L58」までに対応する8つのリンク情報を記憶している。リンク特徴抽出手段22は、判定済みリンク情報アクセス手段21から入力されたリンク情報から、タイトル出現回数および強調表示回数を抽出し、判定済みリンク情報アクセス手段21からのリンクIDおよび不整合判定結果とともにリンク特徴記憶部33に記憶させている。そして、リンク特徴記憶部33は、リンク特徴抽出手段22から入力された図13(a)に示すリンク特徴情報、リンクIDおよび不整合判定結果を記憶している。   13 and 14 are explanatory diagrams illustrating an example of a calculation process when the inconsistency learning unit 23 obtains an identification function. In this example, a case will be described in which the inconsistency learning unit 23 obtains an identification function using information shown in FIG. 13A stored in the link feature storage unit 33. In this example, the determined link information storage unit 32 stores eight pieces of link information corresponding to the link IDs “L51” to “L58” in advance. The link feature extraction unit 22 extracts the number of appearances of the title and the number of highlights from the link information input from the determined link information access unit 21, and together with the link ID and the inconsistency determination result from the determined link information access unit 21. It is stored in the link feature storage unit 33. The link feature storage unit 33 stores the link feature information, the link ID, and the inconsistency determination result shown in FIG. 13A input from the link feature extraction unit 22.

図13(a)において、不整合判定結果が「○」であるリンクは問題がないリンク(不整合がないリンク)であることを意味する。また、不整合判定結果が「×」であるリンクは不整合があるリンクであることを意味する。   In FIG. 13A, a link with a mismatch determination result of “◯” means that there is no problem (a link without mismatch). In addition, a link whose inconsistency determination result is “x” means that there is a mismatch.

図13(b)は、図13(a)に示すタイトル出現回数と強調表示回数とにもとづいて、各リンクを2次元平面にプロット表示した説明図である。図13(b)では、タイトル出現回数を変量x_1とし強調表示回数を変量x_2として、各リンクをプロット表示している。不整合学習手段23は、図13(b)に示す2次元平面において、不整合判定結果が「○」のリンク群と、不整合判定結果が「×」のリンク群とを分ける直線を求める。   FIG. 13B is an explanatory diagram in which each link is plotted and displayed on a two-dimensional plane based on the number of title appearances and the number of highlights shown in FIG. In FIG. 13B, each link is plotted and displayed with the number of title appearances as a variable x_1 and the number of highlights as a variable x_2. The inconsistency learning unit 23 obtains a straight line that divides the link group having the mismatch determination result “◯” and the link group having the mismatch determination result “×” in the two-dimensional plane illustrated in FIG.

不整合の判定結果が、変量x_1およびx_2によって説明できると考えると、識別関数Zは、式1で表すことができる。すなわち、式1に示す識別関数は、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と、その判定の判定結果との関係を示している。   Considering that the determination result of inconsistency can be explained by the variables x_1 and x_2, the discriminant function Z can be expressed by Equation 1. That is, the discriminant function shown in Expression 1 indicates the relationship between the link feature information of a link that has already been determined whether or not inconsistency has occurred and the determination result of the determination.

Z=a_1・x_1+a_2・x_2+a_0 式1 Z = a_1 · x_1 + a_2 · x_2 + a_0 Equation 1

不整合学習手段23は、図13(a)に示すリンクIDに対応する各リンクを、図14(a)に示すように、不整合判定結果が「○」のリンク群と、不整合判定結果が「×」のリンク群とに分ける。また、不整合学習手段23は、各リンクごとに、式1に変量x_1およびx_2を代入した判別得点を求める。   As shown in FIG. 14A, the inconsistency learning unit 23 sets each link corresponding to the link ID shown in FIG. 13A to a link group whose inconsistency determination result is “◯”, and the inconsistency determination result. Is divided into “×” links. The inconsistency learning unit 23 obtains a discrimination score obtained by substituting the variables x_1 and x_2 into Equation 1 for each link.

全変動をStおよび級間変動をSbとすると、相関比(Sb/St)が最大となる直線を求めることによって、2つのリンク群を最適に分ける直線を求めることができる。全変動Stは、判別得点の全平均Z_allから、各データがどの程度分散しているかを示す値であり、式2を用いて求められる。   When the total variation is St and the variation between classes is Sb, a straight line that optimally divides the two link groups can be obtained by obtaining a straight line that maximizes the correlation ratio (Sb / St). The total variation St is a value indicating how much each data is distributed from the total average Z_all of the discrimination scores, and is obtained using Equation 2.

St=ΣiΣj(Z_ij−Z_all) 式2 St = ΣiΣj (Z_ij-Z_all) 2 Equation 2

式2において、iは、いずれのリンク群であるかを示すダミーインデックスである。図14(a)に示すデータの場合、iは、「1」または「2」の2通りの値である。図14(a)に示す例では、不整合判定結果「○」のリンク群ではiが「1」であり、不整合判定結果「×」のリンク群ではiが「2」である。また、jは、そのリンク群のうちのいずれのデータであるかを示すダミーインデックスである。図14(a)に示す例では、、不整合判定結果が「○」または「×」のいずれのリンク群も4つのデータを含むので、iが「1」または「2」のいずれの値であっても、jは、「1」から「4」までの4通りの値である。   In Expression 2, i is a dummy index indicating which link group is included. In the case of the data shown in FIG. 14A, i has two values “1” or “2”. In the example shown in FIG. 14A, i is “1” in the link group with the inconsistency determination result “◯”, and i is “2” in the link group with the inconsistency determination result “×”. Moreover, j is a dummy index indicating which data in the link group. In the example shown in FIG. 14A, since any link group having an inconsistency determination result of “◯” or “×” includes four data, i is any value of “1” or “2”. Even so, j has four values from “1” to “4”.

また、級間変動Sbは、不整合判定結果が「○」のリンク群、および不整合判定結果が「×」のリンク群が、それぞれ全平均Z_allからどの程度分散しているかを示す値であり、式3を用いて求められる。   The inter-class variation Sb is a value indicating how far the link group with the inconsistency determination result “◯” and the link group with the inconsistency determination result “×” are dispersed from the total average Z_all. , Using Equation 3.

Sb=Σi{n_i・(Z_i−Z_all)} 式3 Sb = Σi {n_i · (Z_i−Z_all) 2 } Equation 3

式3において、iは、式2と同様に、いずれのリンク群であるかを示すダミーインデックスである。また、図14(a)に示すデータの場合、iは、「1」または「2」の2通りの値である。n_iは、i番目のリンク群のデータの個数を示す。図14(a)に示すデータの場合、i=1番目の不整合判定結果「○」のリンク群は、リンクID「L51」,「L53」,「L54」,「L57」の4つのデータを含むので、n_1=4である。また、i=2番目の不整合判定結果「×」のリンク群は、リンクID「L52」,「L55」,「L56」,「L58」の4つのデータを含むので、n_2=4である。   In Expression 3, i is a dummy index indicating which link group is the same as Expression 2. In the case of the data shown in FIG. 14A, i has two values “1” or “2”. n_i indicates the number of data of the i-th link group. In the case of the data shown in FIG. 14A, the link group of the i = 1st inconsistency determination result “◯” includes four data with link IDs “L51”, “L53”, “L54”, and “L57”. N_1 = 4 because it is included. In addition, since the link group of the i = 2nd inconsistency determination result “x” includes four pieces of data with link IDs “L52”, “L55”, “L56”, and “L58”, n_2 = 4.

図14(a)に示すデータについて、式2および式3を用いて全変動Stおよび級間変動Sbを計算すると、それぞれ式4および式5のように求めることができる。   When the total variation St and the interclass variation Sb are calculated for the data shown in FIG. 14A using Equation 2 and Equation 3, they can be obtained as Equation 4 and Equation 5, respectively.

St=(Z_11−Z_all)+(Z_12−Z_all)+(Z_13−Z_all)+(Z_14−Z_all)+(Z_21−Z_all)+(Z_22−Z_all)+(Z_23−Z_all)+(Z_24−Z_all)
=20・a_1−2・a_1・a_2+28・a_2 式4
St = (Z_11−Z_all) 2 + (Z_12−Z_all) 2 + (Z_13−Z_all) 2 + (Z_14−Z_all) 2 + (Z_21−Z_all) 2 + (Z_22−Z_all) 2 + (Z_23−Z_all) 2 + (Z — 24−Z_all) 2
= 20 · a_1 2 -2 · a_1 · a_2 + 28 · a_2 2 Formula 4

Sb=4・(Z_1−Z_all)+4・(Z_2−Z_all)
=8・(a_1+2・a_1・a_2+a_2) 式5
Sb = 4 · (Z_1−Z_all) 2 + 4 · (Z_2−Z_all) 2
= 8 · (a — 1 2 +2 • a — 1 • a — 2 + a — 2 2 ) Equation 5

式4および式5で求めた全変動Stおよび級間変動Sbを用いて相関比(Sb/St)を計算すると、式6のように求めることができる。   When the correlation ratio (Sb / St) is calculated using the total variation St and the interclass variation Sb obtained by Equation 4 and Equation 5, it can be obtained as Equation 6.

(Sb/St)=(4・t+8・t+4)/(10・t−t+14) 式6 (Sb / St) = (4 · t 2 + 8 · t + 4) / (10 · t 2 −t + 14) Equation 6

なお、式6において、tは、(a_1/a_2)を置き換えたものである。相関比(Sb/St)が最大になるのは、(Sb/St)をtで微分したものが0になるときであるので、相関比(Sb/St)が最大となるtの値は、式7で求めることができる。   In Expression 6, t is obtained by replacing (a_1 / a_2). Since the correlation ratio (Sb / St) is maximized when (Sb / St) differentiated by t is 0, the value of t at which the correlation ratio (Sb / St) is maximized is It can be obtained by Expression 7.

(21・t−8t−29)/(10・t−t+14)=0 式7 (21 · t 2 −8t−29) / (10 · t 2 −t + 14) 2 = 0 Equation 7

式7で示す方程式を解くと、t=1.381,−1と求めることができる。求めたtの値を式6に代入すると、t=−1を代入した場合に相関比(Sb/St)の値が最小値0となり、t=1.381を代入した場合に相関比(Sb/St)の値が最大値0.71556となる。従って、求めるべき相関関数の条件は(a_1/a_2)=1.381であることがわかる。そこで、式1を変形してt=1.381を代入すると、式8のような変形式が求まる。   Solving the equation shown in Equation 7, t = 1.381, -1. When the obtained value of t is substituted into Equation 6, the value of correlation ratio (Sb / St) becomes the minimum value 0 when t = −1 is substituted, and the correlation ratio (Sb when t = 1.382 is substituted. / St) is the maximum value of 0.71556. Therefore, it can be seen that the condition of the correlation function to be obtained is (a_1 / a_2) = 1.382. Therefore, if equation 1 is modified and t = 1.381 is substituted, a modified equation such as equation 8 is obtained.

Z=(a_1/a_2)・x_1+x_2+(a_0/a_2)
=1.381・x_1+x_2+(a_0/a_2) 式8
Z = (a_1 / a_2) .x_1 + x_2 + (a_0 / a_2)
= 1.381 · x_1 + x_2 + (a — 0 / a — 2) Equation 8

不整合判定結果「○」のリンク群と、不整合判定結果「×」のリンク群とを2つに分けるためには、識別関数Zが全平均点(6,5)を通ればよいので、式8にx_1=6およびx_2=5を代入すると式9が成立する。   In order to divide the link group of the inconsistency determination result “◯” and the link group of the inconsistency determination result “×” into two, the discriminant function Z only has to pass through the total average point (6, 5). Substituting x_1 = 6 and x_2 = 5 into Equation 8 establishes Equation 9.

1.381・6+5+(a_0/a_2)=0 式9 1.381 · 6 + 5 + (a — 0 / a — 2) = 0 Equation 9

式9を用いて(a_0/a_2)=−13.286と求めることができ、識別関数Zは、式10のように求まる。   Using equation 9, (a_0 / a_2) = − 13.286 can be obtained, and the discriminant function Z is obtained as in equation 10.

Z=1.381・x_1+x_2−13.286 式10 Z = 1.382.x_1 + x_2-13.286 Equation 10

従って、2次元平面上に、1.381・x_1+x_2−13.286=0の直線を引けば、不整合判定結果「○」のリンク群と、不整合判定結果「×」のリンク群とを2つに分けることができる。   Accordingly, if a straight line of 1.381 · x_1 + x_2−13.286 = 0 is drawn on the two-dimensional plane, the link group of the inconsistency determination result “◯” and the link group of the inconsistency determination result “×” are 2 It can be divided into two.

図14(b)は、図13(b)に示したリンク分布のプロット図上に、直線1.381・x_1+x_2−13.286=0を引いたものである。図14(b)において、プロット図上で直線の上側に位置する不整合判定結果「○」のリンク群では、式10の識別関数Zが正の値となり、下側に位置する不整合判定結果「×」のリンク群では、式10の識別関数Zが負の値となる。   FIG. 14B is obtained by subtracting the straight line 1.381 · x_1 + x_2−13.286 = 0 from the plot of the link distribution shown in FIG. 13B. In FIG. 14B, in the mismatch determination result “◯” link group located on the upper side of the straight line on the plot diagram, the discriminant function Z of Expression 10 has a positive value, and the mismatch determination result located on the lower side. In the “×” link group, the discriminant function Z in Expression 10 is a negative value.

未判定のリンクに対してリンクが不整合であるか否かを判断する場合には、リンク特徴抽出手段22は、未判定のリンク情報にもとづいて、タイトル出現回数x_1と強調表示回数x_2とをリンク特徴情報として抽出する。また、リンク特徴抽出手段22が抽出したリンク特徴情報を用いて、不整合判定手段25は、各リンク特徴情報を式10に代入して識別関数Zの値を求める。そして、リンク特徴抽出手段22は、求めた識別関数の値が正の値であるか負の値であるかを判定することによって、リンクに不整合があるか否かを判定することができる。   When determining whether or not the link is inconsistent with the undetermined link, the link feature extracting unit 22 calculates the title appearance count x_1 and the highlight display count x_2 based on the undetermined link information. Extracted as link feature information. Also, using the link feature information extracted by the link feature extraction unit 22, the inconsistency determination unit 25 substitutes each link feature information into Equation 10 to obtain the value of the identification function Z. Then, the link feature extraction unit 22 can determine whether or not there is a mismatch in the link by determining whether the value of the obtained identification function is a positive value or a negative value.

識別関数を求めると、不整合学習手段23は、利用した学習アルゴリズムの種類「線形判別分析」と、識別関数の各係数のパラメータ「1.381」,「1」,「−13.286」とを、学習結果記憶部34に記憶させる。   When the discriminant function is obtained, the inconsistency learning means 23 uses the type of learning algorithm used “linear discriminant analysis” and parameters “1.381”, “1”, “−13.286” of coefficients of the discriminant function. Is stored in the learning result storage unit 34.

なお、本例では、リンク特徴情報としてタイトル出現回数と強調表示回数とを用いて2次元平面上における識別関数を求める場合を説明したが、不整合学習手段23が識別情報を求める方法は、本実施の形態で示した場合に限られない。例えば、不整合学習手段23は、他の3以上のリンク特徴情報を用いて多次元データに対する識別関数を求めるようにしてもよい。   In this example, the case where the identification function on the two-dimensional plane is obtained using the number of appearances of the title and the number of highlights as the link feature information has been described. However, the method by which the inconsistency learning unit 23 obtains the identification information is It is not limited to the case shown in the embodiment. For example, the inconsistency learning unit 23 may obtain an identification function for multidimensional data using other three or more link feature information.

また、本実施の形態では、サイト管理者によって指定された判定済みリンク情報をステップS12において全て読み込んだ後に、リンク特徴情報を抽出し識別関数を求める場合を説明したが、識別関数を求める手順は、本実施の形態で示した場合に限られない。例えば、判定済みリンク情報を全て読み込んでから処理するのでなく、判定済みリンク情報を1つ1つ読み込みながら各リンクのリンク特徴情報を抽出し、リンク特徴情報を抽出するごとに識別関数を計算しなおすことによって求めるようにしてもよい。   In the present embodiment, the case has been described in which the link feature information is extracted and the identification function is obtained after all the determined link information designated by the site administrator is read in step S12. The procedure for obtaining the identification function is as follows. However, the present invention is not limited to this case. For example, instead of processing after all the determined link information is read, the link feature information of each link is extracted while reading the determined link information one by one, and the identification function is calculated each time the link feature information is extracted. You may make it obtain | require by correcting.

次に、リンク診断装置が判定処理を実行する動作を説明する。図15は、リンク診断装置が実行する判定処理の処理経過の一例を示す流れ図である。データ処理装置20の不整合判定手段25は、不整合の判定をさせたいリンクを選択入力するための設定画面を出力装置12に出力(表示)させて、サイト管理者に判定対象のリンクの選択を促す。サイト管理者は、入力装置11を操作して、不整合の有無を判定させたいリンクを選択する。データ処理装置20の未判定リンク情報アクセス手段24は、サイト管理者によって選択されたリンクに対応するリンク情報およびリンクIDを、未判定リンク情報記憶部31から読み込む(ステップS21)。そして、未判定リンク情報アクセス手段24は、読み込んだ未判定のリンク情報およびリンクIDをリンク特徴抽出手段22に出力する。   Next, an operation in which the link diagnosis apparatus executes determination processing will be described. FIG. 15 is a flowchart illustrating an example of a process progress of a determination process executed by the link diagnosis apparatus. The inconsistency determination unit 25 of the data processing device 20 outputs (displays) a setting screen for selecting and inputting a link to be determined to be inconsistent to the output device 12, and the site administrator selects a link to be determined. Prompt. The site administrator operates the input device 11 to select a link for which it is determined whether or not there is a mismatch. The undetermined link information access unit 24 of the data processing device 20 reads link information and link ID corresponding to the link selected by the site manager from the undetermined link information storage unit 31 (step S21). Then, the undetermined link information access unit 24 outputs the read undetermined link information and link ID to the link feature extraction unit 22.

図16は、サイト管理者が不整合の判定をさせたいリンクを含むサイトを選択入力するための判定設定画面の一例を示す説明図である。不整合判定手段25は、例えば、図16に示す判定設定画面をディスプレイ装置である出力装置12に表示させる。図16に示すように、判定設定画面1602には、未判定データ一覧1621および判定ボタン1622が含まれている。本例では、未判定データのうち、サイト名「AAA Corp.」のサイトのデータが、サイト管理者によって選択入力される場合を説明する。不整合判定手段25は、図16に示すように、未判定データ一覧1621を含む判定設定画面1602を出力装置12に表示させて、サイト管理者に判定対象のリンクを含むサイトの選択を促す。サイト管理者は、未判定データ一覧1621のチェックボックス1623をチェックすることによって、判定対象のサイトを選択する。   FIG. 16 is an explanatory diagram illustrating an example of a determination setting screen for a site administrator to selectively input a site including a link that is to be determined to be inconsistent. The inconsistency determination unit 25 displays, for example, the determination setting screen illustrated in FIG. 16 on the output device 12 that is a display device. As shown in FIG. 16, the determination setting screen 1602 includes an undetermined data list 1621 and a determination button 1622. In this example, a case will be described in which data of a site having a site name “AAA Corp.” is selected and input by a site administrator among undecided data. As shown in FIG. 16, the inconsistency determination unit 25 displays a determination setting screen 1602 including an undecided data list 1621 on the output device 12 and prompts the site administrator to select a site including a determination target link. The site administrator selects a site to be determined by checking the check box 1623 of the undetermined data list 1621.

サイト管理者は、図16に示す判定設定画面1602において、不整合を判定させたいリンクを含むサイトを未判定データ一覧1621から選択すると、判定ボタン1622を押す。サイト管理者によって判定ボタン1622が押されると、未判定リンク情報アクセス手段24は、未判定リンク情報記憶部31から、選択されたサイトに対応する未判定のリンク情報およびリンクIDを読み込んで、リンク特徴抽出手段22に出力する。   When the site manager selects a site including a link to be determined to be inconsistent from the undecided data list 1621 on the determination setting screen 1602 shown in FIG. 16, the site administrator presses a determination button 1622. When the determination button 1622 is pressed by the site administrator, the undetermined link information access unit 24 reads the undetermined link information and link ID corresponding to the selected site from the undetermined link information storage unit 31, and links Output to the feature extraction means 22.

なお、判定ボタン1622が押されると、未判定リンク情報アクセス手段24は、選択された判定対象のサイトからデータを読み込み、読み込んだデータからリンク情報を抽出してもよい。この場合、未判定リンク情報アクセス手段24は、抽出したリンク情報を未判定リンク情報記憶部31に一旦記憶させる。そして、未判定リンク情報アクセス手段24は、一旦記憶させたリンク情報を未判定リンク情報記憶部31から読み込んで、リンク特徴抽出手段22に出力する。   When the determination button 1622 is pressed, the undetermined link information access unit 24 may read data from the selected determination target site and extract link information from the read data. In this case, the undetermined link information access unit 24 temporarily stores the extracted link information in the undetermined link information storage unit 31. Then, the undetermined link information access unit 24 reads the link information once stored from the undetermined link information storage unit 31 and outputs it to the link feature extraction unit 22.

リンク特徴抽出手段22は、未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、図11に示す「学習処理」において用いたリンク特徴情報と同じ種類のリンク特徴情報を抽出する(ステップS22)。そして、リンク特徴抽出手段22は、リンクIDおよび抽出したリンク特徴情報をリンク特徴記憶部33に記憶させる。例えば、図12から図14に示す例では、学習処理においてリンク特徴情報としてテキスト出現回数および強調表示回数を用いているので、リンク特徴抽出手段22は、未判定リンク情報アクセス手段24から入力されたリンク情報にもとづいて、テキスト出現回数および強調表示回数を抽出する。   Based on the link information input from the undetermined link information access unit 24, the link feature extraction unit 22 extracts the same type of link feature information as the link feature information used in the “learning process” shown in FIG. S22). Then, the link feature extraction unit 22 stores the link ID and the extracted link feature information in the link feature storage unit 33. For example, in the examples shown in FIGS. 12 to 14, since the number of text appearances and the number of highlights are used as the link feature information in the learning process, the link feature extraction unit 22 is input from the undetermined link information access unit 24. Based on the link information, the number of text appearances and the number of highlights are extracted.

不整合判定手段25は、リンク特徴記憶部33から抽出したリンク特徴情報と、学習結果記憶部34が記憶する識別関数とを用いて、判定対象のリンクに不整合があるか否かを判定する(ステップS23)。   The inconsistency determination means 25 determines whether or not there is an inconsistency in the determination target link using the link feature information extracted from the link feature storage unit 33 and the identification function stored in the learning result storage unit 34. (Step S23).

例えば、学習結果記憶部34が、学習アルゴリズムの種類として「線形判別分析」と、識別関数のパラメータとして「1.381」,「1」,「−13.286」を記憶している場合を説明する。不整合判定手段25は、学習結果記憶部34が記憶する識別関数のパラメータにもとづいて、識別関数「Z=1.381・x_1+x_2−13.286」を復元する。また、不整合判定手段25は、復元した識別関数Zを用いて、未判定のリンク特徴情報に対して識別関数の値を求める。そして、不整合判定手段25は、求めた値が正の値であるか負の値であるかを判断することによって、判定対象のリンクが「問題ない(不整合がない)」か「不整合がある」かを判定する。   For example, the case where the learning result storage unit 34 stores “linear discriminant analysis” as the type of learning algorithm and “1.381”, “1”, “−13.286” as parameters of the discriminating function will be described. To do. The inconsistency determination unit 25 restores the discriminant function “Z = 1.382 · x_1 + x_2-13.286” based on the discriminant function parameter stored in the learning result storage unit 34. Further, the inconsistency determination unit 25 obtains the value of the identification function for the undetermined link feature information using the restored identification function Z. The inconsistency determination unit 25 determines whether the determined link is “no problem (no inconsistency)” or “inconsistency” by determining whether the obtained value is a positive value or a negative value. Judgment is made.

次に、リンク診断装置が実行する結果確認処理の動作を説明する。図17は、リンク診断装置が実行する結果確認処理の処理経過の一例を示す流れ図である。データ処理装置20の結果反映手段26は、不整合判定手段25が判定したリンク不整合の判定結果を出力装置12に出力させる(ステップS31)。また、ステップS31において、結果反映手段26は、各リンクの判定結果を、リンク元アドレス単位でグループ化して出力装置12に出力させる。   Next, the operation of the result confirmation process executed by the link diagnosis apparatus will be described. FIG. 17 is a flowchart illustrating an example of a process progress of a result confirmation process executed by the link diagnosis apparatus. The result reflection unit 26 of the data processing device 20 causes the output device 12 to output the link mismatch determination result determined by the mismatch determination unit 25 (step S31). In step S31, the result reflection unit 26 groups the determination results of each link in units of link source addresses and causes the output device 12 to output them.

図18は、不整合判定手段25が判定したリンク不整合の判定結果を表示するための結果確認画面の一例を示す説明図である。結果反映手段26は、例えば、図18に示す結果確認画面をディスプレイ装置である出力装置12に表示させる。図18に示すように、結果確認画面1803には、判定結果一覧1831および登録ボタン1832が含まれている。   FIG. 18 is an explanatory diagram illustrating an example of a result confirmation screen for displaying the determination result of the link mismatch determined by the mismatch determination unit 25. The result reflection unit 26 displays, for example, a result confirmation screen shown in FIG. 18 on the output device 12 that is a display device. As shown in FIG. 18, the result confirmation screen 1803 includes a determination result list 1831 and a registration button 1832.

図18に示すように、判定結果一覧1831には、各リンクごとの情報として、リンクID、リンク元アドレス、リンク先アドレス、リンク元アンカ(リンク元表記)、判定結果および確信度が含まれる。図18において、判定結果「×」はその判定結果に対応するリンクに不整合があることを示し、判定結果「○」はその判定結果に対応するリンクが不整合のない正しいリンクであることを示す。また、不整合があるリンクと不整合がないリンクとを色分けして表示してもよい。この場合、結果反映手段26は、図18に示す判定結果一覧1831において、不整合判定手段25が不整合があると判定したリンクの各情報の欄には色を付けて出力装置12に表示させてもよい。そのようにすれば、サイト管理者に、どのリンクに不整合があるかを分かりやすく表示することができる。   As shown in FIG. 18, the determination result list 1831 includes a link ID, a link source address, a link destination address, a link source anchor (link source notation), a determination result, and a certainty factor as information for each link. In FIG. 18, the determination result “×” indicates that the link corresponding to the determination result is inconsistent, and the determination result “◯” indicates that the link corresponding to the determination result is a correct link without inconsistency. Show. Also, links with inconsistencies and links without inconsistencies may be displayed in different colors. In this case, the result reflecting unit 26 adds a color to each information column of the link determined by the inconsistency determining unit 25 in the determination result list 1831 shown in FIG. May be. By doing so, it is possible to display in an easy-to-understand manner which link is inconsistent to the site administrator.

また、確信度とは、判定結果がどの程度信頼できるかの目安を示す数値である。例えば、学習アルゴリズムとして線形判別分析を用いた場合、判定結果に対応するリンクの分離平面からの距離を確信度として用いてもよい。   The certainty factor is a numerical value indicating how much the determination result is reliable. For example, when linear discriminant analysis is used as the learning algorithm, the distance from the separation plane of the link corresponding to the determination result may be used as the certainty factor.

なお、本例では、不整合があれば対応するリンクの各情報に色を付けて表示する場合を説明したが、画面上での色分け方法は、本例で示した場合に限られない。例えば、結果反映手段26は、確信度の大きさに応じて色の明度や彩度を変化させて対応するリンクの各情報を出力装置12に表示させてもよい。また、本例では、全てのリンクに対して「○」または「×」の不整合判定結果を表示する場合を説明したが、判定結果の表示方法は、本例で示した場合に限られない。例えば、確信度が閾値以下のリンクについては、不整合があるか否かの判定を行わず未判定表示としてもよい。この場合、未判定としたリンクが不整合であるか否かの判定は、サイト管理者の最終判断にゆだねるようにしてもい。   In this example, when there is an inconsistency, a case is described in which each piece of information of a corresponding link is displayed with a color. However, the color classification method on the screen is not limited to the case shown in this example. For example, the result reflection unit 26 may display each piece of information on the corresponding link on the output device 12 by changing the brightness or saturation of the color according to the magnitude of the certainty factor. Further, in this example, the case where the inconsistency determination result of “O” or “×” is displayed for all links has been described, but the display method of the determination result is not limited to the case shown in this example. . For example, for a link with a certainty factor equal to or less than a threshold value, it may be determined as undecided without determining whether or not there is a mismatch. In this case, the determination as to whether or not the undetermined link is inconsistent may be left to the site administrator's final determination.

また、結果反映手段26は、図18に示す結果確認画面1803において、判定結果一覧1831の各項目名の箇所「リンクID」,「リンク元アドレス」,「リンク先アドレス」,「リンク元アンカ」,「判定結果」,「確信度」を、出力装置12にそれぞれリンク表示させる。結果反映手段26は、サイト管理者によって各項目名がマウスクリックされると、それぞれの項目をソートキーとして各リンクの情報を並べ替えて出力装置12に表示させる。例えば、「判定結果」の項目名をマウスクリックして各リンクの情報を判定結果の順番に並べ替えさせれば、サイト管理者は、不整合があるリンクの情報だけ注目して効率的に確認することができる。   Further, the result reflection means 26 displays the “link ID”, “link source address”, “link destination address”, and “link source anchor” of each item name in the determination result list 1831 on the result confirmation screen 1803 shown in FIG. , “Judgment result” and “confidence” are displayed on the output device 12 as links. When the item name is clicked with the mouse by the site administrator, the result reflecting means 26 rearranges the information of each link using each item as a sort key and displays it on the output device 12. For example, if the item name of “judgment result” is clicked with the mouse and the information of each link is rearranged in the order of the judgment result, the site administrator can efficiently check only the information of the link with inconsistency. can do.

また、各リンクの情報を確信度の昇順に並べ替えさせれば、サイト管理者は、不整合判定手段25が判定した判定結果を、信頼度の低いものからチェックすることが可能である。特に、学習アルゴリズムとしてSVM法を用いて学習および不整合の判定を行った場合には、SVM法ではデータ全体のばらつきを見るのでなく分離平面近辺のデータだけに着目してデータの分類を行うので、分離平面近辺のデータが精度に大きく影響する。そのため、信頼度の低いものからチェックして訂正結果を反映させることによって、判定精度を向上させやすくなる。   If the information of each link is rearranged in ascending order of certainty, the site administrator can check the determination result determined by the inconsistency determination unit 25 from the one with the low reliability. In particular, when learning and inconsistency are determined using the SVM method as a learning algorithm, the SVM method classifies data by focusing only on data in the vicinity of the separation plane rather than looking at variations in the entire data. The data near the separation plane greatly affects the accuracy. For this reason, it is easy to improve the determination accuracy by checking from the low reliability and reflecting the correction result.

なお、本例では、ソートキーとして「リンクID」,「リンク元アドレス」,「リンク先アドレス」,「リンク元アンカ」,「判定結果」,「確信度」を用いる場合を説明したが、ソートキーは、本例で示したものに限られない。例えば、データのページ中の不整合件数やページビュー(page view )をソートキーとして用いてもよい。また、ディレクトリごとの不整合件数や不整合を含むページ数を計数して不整合のディレクトリ順に並べ替えて表示できるものであってもよい。   In this example, the case where “link ID”, “link source address”, “link destination address”, “link source anchor”, “judgment result”, “confidence” is used as the sort key has been described. The present invention is not limited to that shown in this example. For example, the number of inconsistencies in a data page or a page view may be used as a sort key. Alternatively, the number of inconsistencies for each directory and the number of pages including inconsistencies may be counted and displayed in the order of inconsistent directories.

結果反映手段26は、サイト管理者の入力指示に従って、サイト管理者によって不整合の判定結果が正しいと判断された場合の操作入力がされたか、判定結果が誤っていると判断された場合の操作入力がされたかを判断する(ステップS32)。結果反映手段26は、図18に示す結果確認画面1803において、判定結果一覧1831のリンク元アドレス中の各文書アドレスも出力装置12にそれぞれリンク表示させている。サイト管理者は、不整合があると判定されたリンクの判定結果を確認したい場合には、対応するリンク元アドレス中の文書アドレスの部分をマウスクリックする。すると、結果反映手段26は、文書修正画面を呼び出して出力装置12に表示させる。   The result reflecting means 26 operates according to an input instruction from the site administrator when an operation input is made by the site administrator when the inconsistency determination result is determined to be correct or when the determination result is determined to be incorrect. It is determined whether an input has been made (step S32). The result reflecting means 26 also displays the document addresses in the link source addresses of the determination result list 1831 on the output device 12 on the result confirmation screen 1803 shown in FIG. When the site administrator wants to confirm the determination result of the link determined to be inconsistent, the site manager clicks the portion of the document address in the corresponding link source address. Then, the result reflection unit 26 calls the document correction screen and displays it on the output device 12.

図19は、サイト管理者が、不整合の判定結果が正しいか否かを確認するとともに、文書を修正するための文書修正画面の一例を示す説明図である。図19に示すように文書修正画面1904には、ブラウザ表示部1941、ソースコード表示部1942およびメニュー部1943が含まれる。   FIG. 19 is an explanatory diagram showing an example of a document correction screen for the site administrator to check whether or not the inconsistency determination result is correct and to correct the document. As shown in FIG. 19, the document correction screen 1904 includes a browser display unit 1941, a source code display unit 1942, and a menu unit 1943.

ブラウザ表示部1941は、図18に示す結果確認画面1803からマウスクリックされた文書を、ブラウザを用いて表示する画面である。結果反映手段26は、ブラウザ表示部1941において、図18に示す結果確認画面1803においてマウスクリックされた行に対応するリンクの箇所1950を出力装置12にハイライト表示させる。例えば、図18に示す結果確認画面1803においてリンクID「L412」の行にあるリンク元アドレス「文書D41のアドレス」がマウスクリックされたとすると、ブラウザ表示部1941において、リンクID「L412」に対応するリンク元表記「イベント情報」の箇所1950がハイライト表示される。そのようにすることにより、サイト管理者が、ブラウザ上でどのリンクの動作を確認すればよいのかを素早く把握することができる。   The browser display unit 1941 is a screen that displays, using a browser, a document that is clicked by the mouse on the result confirmation screen 1803 shown in FIG. The result reflection unit 26 causes the browser display unit 1941 to highlight the link location 1950 corresponding to the line clicked with the mouse on the result confirmation screen 1803 shown in FIG. For example, when the link source address “address of document D41” in the row of the link ID “L412” on the result confirmation screen 1803 shown in FIG. 18 is clicked with the mouse, the browser display unit 1941 corresponds to the link ID “L412”. The link source notation “event information” 1950 is highlighted. By doing so, the site administrator can quickly grasp which link operation should be confirmed on the browser.

図19の文書修正画面1904におけるソースコード表示部1942は、ブラウザ表示部1941が表示している文書のHTML(Hyper Text Markup Language)形式のソースコードを表示する画面である。結果反映手段26は、ソースコード表示部1942において、ブラウザ表示部1941でハイライト表示させている箇所1950に対応するリンク(リンクID「L412」)について、そのリンクに対応するソースコード内の箇所1951を出力装置12にハイライト表示させる。本例では、ブラウザ表示部1941でハイライト表示されているリンク元表記「イベント情報」の箇所1950に対応するリンク(リンクID「L412」)について、そのリンクに対応するソースコード内の箇所1951がハイライト表示されている。そのようにすることにより、サイト管理者は、ソースコード中のどの位置を修正する必要があるのかを素早く把握することができる。   A source code display unit 1942 on the document correction screen 1904 in FIG. 19 is a screen that displays HTML (Hyper Text Markup Language) format source code of the document displayed by the browser display unit 1941. In the source code display unit 1942, the result reflection unit 26 uses a location 1951 in the source code corresponding to the link (link ID “L412”) corresponding to the location 1950 highlighted on the browser display unit 1941. Is highlighted on the output device 12. In this example, for the link (link ID “L412”) corresponding to the location 1950 of the link source notation “event information” highlighted on the browser display unit 1941, the location 1951 in the source code corresponding to the link is It is highlighted. By doing so, the site administrator can quickly grasp which position in the source code needs to be corrected.

メニュー画面1943には、画面操作用のメニューボタンが配置されている。メニュー画面1943には、メニューボタンとして、「次の不整合」ボタン1944、「前の不整合」ボタン1945、「グループ表示」ボタン1946、「文書修正」ボタン1947および「判定結果訂正」ボタン1948が含まれる。   On the menu screen 1943, menu buttons for screen operation are arranged. The menu screen 1943 includes a “next inconsistency” button 1944, a “previous inconsistency” button 1945, a “group display” button 1946, a “document correction” button 1947, and a “judgment result correction” button 1948 as menu buttons. included.

「次の不整合」ボタン1944は、リンク不整合をナビゲートするためのボタンである。すなわち、サイト管理者によって選択されたデータ中にリンク不整合の箇所が複数含まれる場合に、サイト管理者が「次の不整合」ボタン1944を押すと、結果反映手段26は、閲覧中の文書内に存在するリンクに対応する部分のうち、不整合判定手段25が不整合であると判定した次のリンクに対応する部分を出力装置12に強調表示させる。また、「次の不整合」ボタン1944を押した場合に、閲覧中の文書内に他の不整合があるリンクに対応する部分が存在しない場合には、結果反映手段26は、データ中に含まれる次の文書中で不整合があると判定されたリンクに対応する箇所を強調表示させる。   The “next mismatch” button 1944 is a button for navigating the link mismatch. That is, when the site administrator presses the “next inconsistency” button 1944 when the data selected by the site administrator includes a plurality of link inconsistent portions, the result reflecting means 26 displays the document being viewed. Among the portions corresponding to the existing links, the portion corresponding to the next link determined to be inconsistent by the inconsistency determining means 25 is highlighted on the output device 12. When the “next inconsistency” button 1944 is pressed, if there is no portion corresponding to another inconsistent link in the document being viewed, the result reflecting means 26 is included in the data. The part corresponding to the link determined to be inconsistent in the next document to be displayed is highlighted.

「前の不整合」ボタン1945も、「次の不整合」ボタン1944と同様に、ナビゲート用のボタンである。すなわち、サイト管理者が「前の不整合」ボタン1945を押すと、結果反映手段26は、閲覧中の文書内に存在するリンクに対応する部分のうち、不整合判定手段25が不整合があると判定した前のリンクに対応する部分を出力装置12に強調表示させる。サイト管理者は、「次の不整合」ボタン1944および「前の不整合」ボタン1945を用いることによって、不整合判定手段25が不整合と判定したリンクに対応する部分のみを効率良くチェックすることができる。   The “previous inconsistency” button 1945 is a navigation button as well as the “next inconsistency” button 1944. That is, when the site administrator presses the “previous inconsistency” button 1945, the result reflection means 26 is inconsistent in the inconsistency determination means 25 in the portion corresponding to the link existing in the document being browsed. The portion corresponding to the previous link determined to be highlighted on the output device 12. By using the “next inconsistency” button 1944 and the “previous inconsistency” button 1945, the site administrator can efficiently check only the portion corresponding to the link determined to be inconsistent by the inconsistency determination means 25. Can do.

結果反映手段26は、ブラウザ表示部1941およびソースコード表示部1942において、不整合があるリンクに対応する部分をハイライト表示させることによって、サイト管理者に判定結果の確認を促す。サイト管理者は、文書修正画面1904を確認し、表示された判定結果が正しく不整合があると判断した場合には、入力装置11を操作して判定結果が正しいと判断した場合の入力操作を行う。本実施の形態では、サイト管理者は、判定結果が正しいと判断した場合には、入力装置11を操作して、不整合があると判定されたリンクに対応する文書の修正指示を入力する。結果反映手段26は、サイト管理者が判定結果を正しいと判断した場合の操作入力を行ったと判断すると、出力装置12にリンクグループ画面を出力(表示)させる(ステップS33)。なお、リンクグループ画面とは、後述するように、ハイライト表示されている箇所のリンクについて、グループ化された情報を確認するための画面である。   The result reflection unit 26 prompts the site administrator to confirm the determination result by causing the browser display unit 1941 and the source code display unit 1942 to highlight the portion corresponding to the inconsistent link. The site administrator confirms the document correction screen 1904, and if it is determined that the displayed determination result is correctly inconsistent, the site administrator operates the input device 11 to perform an input operation when the determination result is determined to be correct. Do. In the present embodiment, when the site administrator determines that the determination result is correct, the site administrator operates the input device 11 to input a document correction instruction corresponding to the link determined to have inconsistency. When the result reflection unit 26 determines that the operation input is performed when the site manager determines that the determination result is correct, the result reflection unit 26 causes the output device 12 to output (display) the link group screen (step S33). As will be described later, the link group screen is a screen for confirming grouped information regarding the highlighted link.

図19に示す例では、「グループ表示」ボタン1946は、ハイライト表示されている箇所のリンクと「リンク元表記が同じリンク」、「リンク先アドレスが同じリンク」、「リンク元アドレスおよびリンク元表記が同じリンク」、および「リンク元アドレスおよびリンク先アドレスが同じリンク」をグループ化して、リンクグループ画面を表示させるためのボタンである。サイト管理者は、ハイライト表示されている箇所のリンクについて、グループ化された情報を確認することによって、文書をどのように修正すればよいかの指針を得ることができる。   In the example shown in FIG. 19, the “group display” button 1946 has a “link with the same link source notation”, “link with the same link destination address”, “link source address and link source” as the highlighted link. This is a button for grouping “links having the same notation” and “links having the same link source address and link destination address” to display a link group screen. The site administrator can obtain guidelines on how to modify the document by checking the grouped information for the highlighted links.

サイト管理者は、表示された判定結果が正しくリンクに不整合があると判断すると、「グループ表示」ボタン1946を押す。すると、結果反映手段26は、判定結果を正しいと判断した場合の入力操作が行われたと判断して、リンクグループ画面を表示させる。そして、サイト管理者は、表示されたリンクグループ画面を確認しながら、文書をどのように修正すべきかを検討する。   When the site manager determines that the displayed determination result is correct and the link is inconsistent, the site manager presses a “group display” button 1946. Then, the result reflecting means 26 determines that the input operation is performed when it is determined that the determination result is correct, and displays the link group screen. Then, the site administrator examines how to correct the document while checking the displayed link group screen.

図20は、リンクグループ画面の一例を示す説明図である。結果反映手段26は、例えば、図20に示すリンクグループ画面2005をディスプレイ装置である出力装置12に表示させる。図20に示すリンクグループ画面2005では、結果反映手段26は、リンクID「L412」のリンク、およびリンクID「L412」とリンク元表記が同じリンク(本例では、リンクID「L421」,「L431」)のグループ化情報を出力装置12に表示させている。図20に示すように、リンクID「421」,「431」のリンクのリンク先アドレスは、ともに「文書D44のアドレス」であることがわかる。   FIG. 20 is an explanatory diagram illustrating an example of a link group screen. The result reflection unit 26 displays, for example, the link group screen 2005 shown in FIG. 20 on the output device 12 that is a display device. In the link group screen 2005 shown in FIG. 20, the result reflection unit 26 links the link ID “L412” and the link with the same link source notation as the link ID “L412” (in this example, link IDs “L421”, “L431”). )) Is displayed on the output device 12. As shown in FIG. 20, the link destination addresses of the links with the link IDs “421” and “431” are both “address of document D44”.

また、図20に示すリンクグループ画面2005では、結果反映手段26は、リンクID「L412」とリンク先アドレスが同じリンク(本例では、リンクID「L411」,「L425」)のグループ化情報を出力装置12に表示させている。図20に示すように、リンクID「L411」,「L425」のリンクのリンク元表記は、ともに「プレリリース」であることがわかる。したがって、サイト管理者は、リンクID「L412」のリンクに対応するリンク元表記を「プレスリリース」に修正するか、またはリンク先アドレスを「文書D44のアドレス」に修正すれば、不整合を解消できる可能性があることがわかる。   In the link group screen 2005 shown in FIG. 20, the result reflecting unit 26 displays grouping information of links having the same link destination address as the link ID “L412” (in this example, link IDs “L411” and “L425”). It is displayed on the output device 12. As shown in FIG. 20, it can be seen that the link source notations of the links with the link IDs “L411” and “L425” are both “pre-release”. Therefore, if the site administrator corrects the link source notation corresponding to the link with the link ID “L412” to “press release” or corrects the link destination address to “address of document D44”, the inconsistency is resolved. It turns out that there is a possibility.

なお、図18に示す例ではリンクID「L412」のリンクとリンク元アドレスおよびリンク元表記が同じリンクは存在しないので、図20に示すリンクグループ画面2005では、「リンク元アドレスおよびリンク元表記が同じリンク」のグループ化表示がされていない。また、リンクID「L412」のリンクとリンク元アドレスおよびリンク先アドレスが同じリンクも存在していないので、図20に示すリンクグループ画面2005では、「リンク元アドレスおよびリンク先アドレスが同じリンク」のグループ化表示がされていない。   In the example shown in FIG. 18, there is no link having the same link source address and link source notation as the link with the link ID “L412”. Therefore, in the link group screen 2005 shown in FIG. "Same link" is not grouped. In addition, since there is no link having the same link source address and link destination address as the link with the link ID “L412”, the link group screen 2005 shown in FIG. 20 has a “link with the same link source address and link destination address”. There is no grouping display.

結果反映手段26は、サイト管理者の修正操作に従って、文書を更新する(ステップS34)。結果反映手段26は、判定済みリンク情報アクセス手段21に、判定済みリンク情報記憶部32が記憶する情報の更新を指示する。すると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する(ステップS35)。すなわち、判定済みリンク情報アクセス手段21は、不整合判定手段25が不整合判定したリンクのリンク情報、リンクIDおよび不整合判定結果を、判定済みリンク情報記憶部32に新たに記憶させる。   The result reflecting means 26 updates the document according to the site manager's correction operation (step S34). The result reflection unit 26 instructs the determined link information access unit 21 to update the information stored in the determined link information storage unit 32. Then, the determined link information access unit 21 updates the information stored in the determined link information storage unit 32 in accordance with the instruction from the result reflection unit 26 (step S35). That is, the determined link information access unit 21 newly stores the link information, link ID, and inconsistency determination result of the link determined by the inconsistency determination unit 25 in the determined link information storage unit 32.

例えば、サイト管理者は、リンクグループ画面を確認して修正方法の検討が終わると、図19に示す文書修正画面1904のソースコード表示部1942にソースコードの修正内容を入力して、「文書修正」ボタン1947を押す。「文書修正」ボタン1947が押されると、結果反映手段26は、文書のソースコードを更新する。また、判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32に、判定済みのリンク情報、リンクIDおよび不整合判定結果を新たに記憶させる。すなわち、修正指示されたソースコードが実際のサイトに反映されると同時に、サイト管理者の確認結果がフィードバックされる。   For example, when the site administrator confirms the link group screen and finishes examining the correction method, the site administrator inputs the correction contents of the source code into the source code display section 1942 of the document correction screen 1904 shown in FIG. "Button 1947 is pressed. When a “document correction” button 1947 is pressed, the result reflection unit 26 updates the source code of the document. The determined link information access unit 21 newly stores the determined link information, the link ID, and the inconsistency determination result in the determined link information storage unit 32. That is, the source code instructed for correction is reflected on the actual site, and at the same time, the confirmation result of the site manager is fed back.

なお、判定済みリンク情報記憶部32が記憶する情報が更新されると、未判定リンク情報アクセス手段24は、更新された情報に対応するリンク情報およびリンクID(すなわち、判定処理を終了したリンクのリンク情報およびリンクID)を、未判定リンク情報記憶部31から削除する。   When the information stored in the determined link information storage unit 32 is updated, the undetermined link information access unit 24 links the link information and link ID corresponding to the updated information (that is, the link for which the determination process has been completed). Link information and link ID) are deleted from the undetermined link information storage unit 31.

判定済みリンク情報記憶部32が記憶する情報が更新されると、更新されたリンク情報を用いて図11に示すステップS11からステップS14までの学習処理が再度実行される(ステップS36)。すなわち、不整合学習手段23は、更新されたリンク情報を用いて、統計計算して新たな識別関数を求める。   When the information stored in the determined link information storage unit 32 is updated, the learning process from step S11 to step S14 shown in FIG. 11 is executed again using the updated link information (step S36). That is, the inconsistency learning unit 23 performs a statistical calculation using the updated link information to obtain a new identification function.

ステップS32において、サイト管理者が判定結果を正しくないと判断した場合の入力操作が行われた場合には、結果反映手段26は、サイト管理者の操作に従って判定結果を訂正する(ステップS37)。本実施の形態では、サイト管理者によって不整合の判定結果の訂正指示が入力されると、結果反映手段26は、判定結果を訂正する。結果反映手段26は、判定済みリンク情報アクセス手段21に、判定済みリンク情報記憶部32が記憶する情報の更新を指示する。すると、判定済みリンク情報アクセス手段21は、結果反映手段26の指示に従って、判定済みリンク情報記憶部32が記憶する情報を更新する(ステップS35)。すなわち、判定済みリンク情報アクセス手段21は、不整合判定手段25が不整合判定したリンクのリンク情報、リンクIDおよび訂正された不整合判定結果を、判定済みリンク情報記憶部32に新たに記憶させる。   In step S32, when an input operation is performed when the site administrator determines that the determination result is not correct, the result reflection unit 26 corrects the determination result in accordance with the operation of the site administrator (step S37). In the present embodiment, when an instruction for correcting the inconsistency determination result is input by the site administrator, the result reflection unit 26 corrects the determination result. The result reflection unit 26 instructs the determined link information access unit 21 to update the information stored in the determined link information storage unit 32. Then, the determined link information access unit 21 updates the information stored in the determined link information storage unit 32 in accordance with the instruction from the result reflection unit 26 (step S35). That is, the determined link information access unit 21 newly stores the link information, the link ID, and the corrected inconsistency determination result of the link determined by the inconsistency determination unit 25 in the determined link information storage unit 32. .

例えば、サイト管理者は、不整合判定手段25が判定した判定結果が誤っていると判断した場合には、図19に示す文書修正画面1904の「判定結果訂正」ボタン1948を押す。すると、結果反映手段26は、判定結果を訂正する。また、判定済みリンク情報アクセス手段21は、判定済みリンク情報記憶部32に、判定済みのリンク情報、リンクIDおよび訂正された不整合判定結果を新たに記憶させる。すなわち、サイト管理者によって訂正指示された判定結果が訂正されて、サイト管理者の確認結果がフィードバックされる。   For example, when the site manager determines that the determination result determined by the inconsistency determination unit 25 is incorrect, the site administrator presses a “determination result correction” button 1948 on the document correction screen 1904 shown in FIG. Then, the result reflection unit 26 corrects the determination result. Further, the determined link information access unit 21 causes the determined link information storage unit 32 to newly store the determined link information, the link ID, and the corrected inconsistency determination result. That is, the determination result instructed to be corrected by the site manager is corrected, and the confirmation result of the site manager is fed back.

例えば、不整合判定手段25が「不整合である」と判定した結果が誤りである場合に、サイト管理者によって「判定結果訂正」ボタン1948が押されると、判定結果が「不整合でない」に訂正される。また、不整合判定手段25が「不整合でない」と判定した結果が誤りである場合に、サイト管理者によって「判定結果訂正」ボタン1948が押されると、判定結果が「不整合である」に訂正される。判定済みリンク情報記憶部32が記憶する情報が更新されると、更新されたリンク情報を用いて、ステップS11からステップS14までの学習処理が再度実行され、不整合学習手段23は、統計計算して新たな識別関数を求める。   For example, when the result of determination by the inconsistency determination unit 25 as “inconsistent” is an error, when the “correction of determination result” button 1948 is pressed by the site administrator, the determination result becomes “not inconsistent”. Will be corrected. In addition, when the result of the determination by the inconsistency determination unit 25 as “not inconsistent” is an error, when the “correction of determination result” button 1948 is pressed by the site administrator, the determination result becomes “inconsistent”. Will be corrected. When the information stored in the determined link information storage unit 32 is updated, the learning process from step S11 to step S14 is performed again using the updated link information, and the inconsistency learning unit 23 performs statistical calculation. To obtain a new discriminant function.

なお、判定済みリンク情報記憶部32が記憶する情報が更新されると、未判定リンク情報アクセス手段24は、更新された情報に対応するリンク情報およびリンクID(すなわち、判定処理を終了したリンクのリンク情報およびリンクID)を、未判定リンク情報記憶部31から削除する。   When the information stored in the determined link information storage unit 32 is updated, the undetermined link information access unit 24 links the link information and link ID corresponding to the updated information (that is, the link for which the determination process has been completed). Link information and link ID) are deleted from the undetermined link information storage unit 31.

また、図19に示す例では、不整合判定手段25が「不整合である」と判定したリンクのみをチェックする場合を説明したが、サイト管理者が不整合判定の結果を確認する方法は、本実施の形態で示した場合に限られない。例えば、図18に示す結果確認画面の先頭から順番に「不整合でない」と判定されたリンクもチェックするようにしてもよい。また、リンクを確信度の順に表示させ、確信度の順番に「不整合でない」と判定されたリンクをチェックするようにしてもよい。   In the example illustrated in FIG. 19, the case has been described in which only the link determined by the inconsistency determination unit 25 to be “inconsistent” is described. However, the method for the site administrator to check the result of the inconsistency determination is as follows. The present invention is not limited to the case described in this embodiment. For example, links determined as “not inconsistent” in order from the top of the result confirmation screen shown in FIG. 18 may be checked. Alternatively, the links may be displayed in the order of certainty, and the links determined as “not inconsistent” in the certainty order may be checked.

また、本実施の形態では、サイト管理者によって選択されたデータに対応する全てのリンクについて不整合の判定結果を出力し、サイト管理者が全てのリンクの判定結果を含む結果確認画面を確認した後に、不整合学習手段23が再学習する場合を説明したが、不整合判定から再学習までの手順は、本実施の形態で示した場合に限られない。例えば、選択されたデータに対応するリンクを不整合学習手段23が1つずつ不整合判定し、1つずつの判定結果に対するサイト管理者の確認結果をフィードバックするようにしてもよい。そして、確認結果が1つずつフィードバックされるごとに不整合学習手段23が再学習し、不整合学習手段23が再学習して求めた識別関数を用いて、不整合判定手段25が次のリンクを判定する手順を繰り返し実行するようにしてもよい。   In this embodiment, inconsistency determination results are output for all links corresponding to the data selected by the site administrator, and the site administrator confirms the result confirmation screen including the determination results for all links. Although the case where the inconsistency learning unit 23 performs relearning later has been described, the procedure from inconsistency determination to relearning is not limited to the case shown in the present embodiment. For example, the inconsistency learning means 23 may determine inconsistencies one by one for the links corresponding to the selected data, and the site administrator's confirmation results for each determination result may be fed back. Then, each time the confirmation result is fed back one by one, the inconsistency learning means 23 re-learns, and the inconsistency determination means 25 uses the discriminant function obtained by re-learning by the inconsistency learning means 23, and the inconsistency determination means 25 receives the next link. It is also possible to repeatedly execute the procedure for determining the above.

また、本実施の形態では、結果確認処理において1つ1つのリンクの判定結果をサイト管理者が確認しフィードバックする場合を説明したが、判定結果をフィードバックする手順は、本実施の形態で示した場合に限られない。例えば、ある程度判定結果の確認情報を蓄積しておき、蓄積した確認情報を一括して判定済みリンク情報記憶部32に反映させて、判定済みリンク情報記憶部32が記憶する更新されたリンク情報を用いて、不整合学習手段23が再学習を行うようにしてもよい。   Further, in the present embodiment, the case has been described in which the site administrator confirms and feeds back the determination result of each link in the result confirmation processing, but the procedure for feeding back the determination result is shown in the present embodiment. Not limited to cases. For example, the confirmation information of the determination result is accumulated to some extent, the accumulated confirmation information is collectively reflected in the determined link information storage unit 32, and the updated link information stored in the determined link information storage unit 32 is stored. It is also possible to use the inconsistency learning means 23 for re-learning.

また、リンク診断装置を初めて用いる場合には、判定済みリンク情報記憶部32が判定済みの情報を記憶していないので学習処理を行えない。リンク診断装置を初めて用いる場合には、予め人為的に不整合があるか否かを判断した結果情報を判定済みリンク情報記憶部32に記憶させて、学習処理を実行するようにしてもよい。   Further, when the link diagnosis apparatus is used for the first time, the learning process cannot be performed because the determined link information storage unit 32 does not store the determined information. When the link diagnosis apparatus is used for the first time, the learning result may be executed by storing in the determined link information storage unit 32 information on the result of determining whether or not there is an artificial inconsistency in advance.

また、リンク診断装置を初めて用いる場合には、学習結果記憶部34に予め識別関数の初期値を記憶させて、不整合判定手段25が識別関数の初期値を用いて不整合の判定をするようにしてもよい。この場合、例えば、学習アルゴリズムとして線形判別法を用いる場合に、学習結果記憶部34が識別関数のパラメータとして全て係数「0」の値を記憶していてもよい。また、不整合判定手段25は、各リンク特徴情報について計算した識別関数の値が負の場合に加えて「0」になる場合も不整合であると判定するようにしてもよい。そして、サイト管理者の修正指示に従って適切な識別関数が求められるようにしてもよい。さらに、学習結果記憶部34が識別関数の各係数の初期値としてランダムに選択された値を予め記憶していてもよい。   When the link diagnostic apparatus is used for the first time, an initial value of the discriminant function is stored in advance in the learning result storage unit 34 so that the inconsistency determination unit 25 determines inconsistency using the initial value of the discriminant function. It may be. In this case, for example, when the linear discriminant method is used as the learning algorithm, the learning result storage unit 34 may store all the values of the coefficient “0” as the parameters of the discrimination function. Further, the inconsistency determination unit 25 may determine that there is inconsistency when the value of the discrimination function calculated for each link feature information is “0” in addition to the negative value. Then, an appropriate identification function may be obtained in accordance with the site manager's correction instruction. Further, the learning result storage unit 34 may store in advance a value selected at random as the initial value of each coefficient of the discrimination function.

以上のように、本実施の形態によれば、リンク診断装置は、判定済みのリンク情報にもとづいて、論理的な不整合が生じていることの確からしさを示すリンク特徴情報として、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を抽出する。また、リンク診断装置は、各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を示す識別関数を統計的に求める。そして、リンク診断装置は、求めた識別関数を用いて未判定のリンクが不整合か否かを判定する。従って、文書の取得時にエラーを発生しない論理的不整合を検知することができ、ハイパーテキストのリンクの論理的不整合を自動検出することができる。   As described above, according to the present embodiment, the link diagnosis apparatus uses “(A” as link feature information indicating the probability that a logical inconsistency has occurred based on the determined link information. ) “Link feature information that can be obtained by a single link”, “(B) Link feature information that can be obtained based on the relationship between a link and its linked document”, and “(C) A group of links according to a predetermined condition” "Link feature information that can be obtained through conversion". The link diagnosis apparatus statistically obtains an identification function indicating the relationship between the contents of each link feature information and the proportion of links determined to be inconsistent. Then, the link diagnosis apparatus determines whether or not the undetermined link is inconsistent using the obtained identification function. Therefore, it is possible to detect a logical inconsistency that does not cause an error when acquiring a document, and it is possible to automatically detect a logical inconsistency of a hypertext link.

また、本実施の形態によれば、リンク診断装置は、判定対象となるリンクが不整合か否かの判定結果に加え、判定結果の確信度を出力する。そして、リンク診断装置は、判定結果または確信度に応じてリンクを色分けして表示する。そのため、どのリンクが不整合であるかや、どのリンクからチェックすべきかを、サイト管理者が判断しやすくなる。   Further, according to the present embodiment, the link diagnosis apparatus outputs a certainty factor of the determination result in addition to the determination result of whether or not the link to be determined is inconsistent. Then, the link diagnosis apparatus displays the links in different colors according to the determination result or the certainty factor. This makes it easier for site managers to determine which links are inconsistent and which links should be checked.

また、本実施の形態によれば、リンク診断装置は、文書内における不整合箇所をハイライト表示する。そのため、サイト管理者は、文書内のどこに不整合が存在するかを素早く把握することができる。   Further, according to the present embodiment, the link diagnosis apparatus highlights inconsistent portions in the document. Therefore, the site administrator can quickly grasp where inconsistencies exist in the document.

また、本実施の形態によれば、リンク診断装置は、不整合と判定したリンクと「リンク元表記が同じリンク」,「リンク先アドレスが同じリンク」,「リンク元アドレスとリンク元表記が同じリンク」,「リンク元アドレスとリンク先アドレスが同じリンク」をグループ化表示することによって、正しいリンクがどのようなリンクかという指針を与える。そのため、サイト管理者は、不整合と判定された箇所をどのように修正すればよいかを容易に判断することができる。   In addition, according to the present embodiment, the link diagnosis apparatus, the link determined to be inconsistent, “the link with the same link source notation”, “the link with the same link destination address”, “the link source address and the link source notation are the same” By displaying “Link” and “Link with the same link source address and link destination address” as a group, a guideline indicating what kind of link is correct is given. Therefore, the site manager can easily determine how to correct the portion determined to be inconsistent.

また、本実施の形態によれば、識別関数を求めるために利用可能な学習アルゴリズムと使用するパラメータを選択することができる。そのため、サイト管理者は、各学習アルゴリズムを用いた場合の判定精度を確認し、試行錯誤しながら判定精度の高い学習アルゴリズムを選択して自動判定させることができる。   In addition, according to the present embodiment, it is possible to select a learning algorithm that can be used for obtaining a discrimination function and a parameter to be used. Therefore, the site manager can check the determination accuracy when using each learning algorithm, and can select and automatically determine a learning algorithm with high determination accuracy through trial and error.

実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図21は、リンク診断装置の他の構成例を示すブロック図である。図21に示すように、リンク診断装置のデータ処理装置40は、第1の実施の形態で示した構成に加えて、学習方式決定手段27を含む。本実施の形態では、リンク診断装置は、サイト管理者によって選択入力された複数の学習アルゴリズムのうち最適な1の学習アルゴリズムを選択し、選択した学習アルゴリズムとリンク特徴情報との最適な組み合わせを自動的に決定する。そして、リンク診断装置は、決定した学習アルゴリズムとリンク特徴情報との組合せにもとづいて、学習処理、判定処理および結果確認処理を実行する。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 21 is a block diagram illustrating another configuration example of the link diagnosis apparatus. As shown in FIG. 21, the data processing device 40 of the link diagnosis device includes a learning method determining unit 27 in addition to the configuration shown in the first embodiment. In the present embodiment, the link diagnosis apparatus selects an optimal learning algorithm from a plurality of learning algorithms selected and input by the site administrator, and automatically selects the optimal combination of the selected learning algorithm and link feature information. To decide. Then, the link diagnosis apparatus executes a learning process, a determination process, and a result confirmation process based on the determined combination of the learning algorithm and the link feature information.

学習方式決定手段27は、判定済みリンク情報に対して交差検定を行うことによって、リンクの発生傾向に応じて、最適な学習アルゴリズムおよびリンク特徴情報の組み合わせを自動的に決定する。なお、交差検定とは、学習アルゴリズムとリンク特徴情報とを様々に組み合わせて、各組合せごとに判定精度を求めることをいう。   The learning method determination unit 27 automatically determines the optimal combination of the learning algorithm and the link feature information according to the link generation tendency by performing cross-validation on the determined link information. Note that cross-validation refers to obtaining determination accuracy for each combination by variously combining a learning algorithm and link feature information.

本実施の形態において、最適組合せ決定手段は、学習方式決定手段27および出力装置12によって実現される。   In the present embodiment, the optimum combination determining unit is realized by the learning method determining unit 27 and the output device 12.

次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」および「結果確認処理」の3つの独立したフェーズの処理に加え、「交差検定処理」を実行する。「交差検定処理」とは、判定済みリンク情報に対して交差検定を行うことによって、最適な学習アルゴリズムおよびリンク特徴情報の組み合わせを自動的に決定する処理である。なお、「学習処理」、「判定処理」および「結果確認処理」については、第1の実施の形態で示した処理と同様である。   Next, the operation will be described. In the present embodiment, the link diagnosis apparatus executes “cross-validation processing” in addition to the processing of three independent phases of “learning processing”, “determination processing”, and “result confirmation processing”. The “cross-validation process” is a process for automatically determining an optimal combination of learning algorithm and link feature information by performing cross-validation on the determined link information. The “learning process”, “determination process”, and “result confirmation process” are the same as the processes described in the first embodiment.

図22は、リンク診断装置が実行する交差検定処理の処理経過の一例を示す流れ図である。データ処理装置40の学習方式決定手段27は、サイト管理者の入力操作に従って、交差検定を行うための各設定情報の入力を受け付ける(ステップS40)。ステップS40において、学習方式決定手段27は、例えば、交差検定を行う対象となる検定済みデータおよび学習アルゴリズムの選択指示の入力を受け付ける。   FIG. 22 is a flowchart illustrating an example of the progress of the cross-validation process executed by the link diagnosis apparatus. The learning method determination means 27 of the data processing device 40 accepts input of setting information for performing cross validation in accordance with the input operation of the site manager (step S40). In step S <b> 40, the learning method determination unit 27 receives, for example, input of validated data to be subjected to cross validation and a learning algorithm selection instruction.

図23は、サイト管理者が交差検定を行うための各設定情報を入力するための交差検定設定画面の一例を示す説明図である。学習方式決定手段27は、例えば、図23に示す交差検定設定画面をディスプレイ装置である出力装置12に表示させる。図23に示すように、交差検定設定画面2306には、判定済みデータ一覧2361、学習アルゴリズム一覧2362および交差検定ボタン2363が含まれている。   FIG. 23 is an explanatory diagram showing an example of a cross-validation setting screen for inputting setting information for the site administrator to perform cross-validation. The learning method determination means 27 displays, for example, the cross-validation setting screen shown in FIG. 23 on the output device 12 that is a display device. As shown in FIG. 23, the cross-validation setting screen 2306 includes a determined data list 2361, a learning algorithm list 2362, and a cross-validation button 2363.

学習方式決定手段27は、交差検定設定画面2306を出力装置12に表示させて、サイト管理者に判定済みデータおよび学習アルゴリズムの種類の選択を促す。「交差検定処理」のフェーズにおいて、サイト管理者は、図23に示す交差検定設定画面2306から、交差検定を行う対象となる判定済みデータと、学習アルゴリズムの種類とを選択する。この場合に、サイト管理者は、交差検定設定画面2306に含まれる判定済みデータ一覧2361から判定済みデータを選択し、交差検定設定画面2306に含まれる学習アルゴリズム一覧2362から学習アルゴリズムの種類を選択する。   The learning method determination means 27 displays the cross-validation setting screen 2306 on the output device 12 and prompts the site administrator to select the determined data and the type of learning algorithm. In the “cross-validation processing” phase, the site administrator selects the determined data to be cross-validated and the type of learning algorithm from the cross-validation setting screen 2306 shown in FIG. In this case, the site administrator selects determined data from the determined data list 2361 included in the cross-validation setting screen 2306, and selects a learning algorithm type from the learning algorithm list 2362 included in the cross-validation setting screen 2306. .

本例では、図23に示すように、判定済みデータ一覧2361から「2003年10月17日」に診断された「AAA Corp.」のデータが、サイト管理者によって交差検定の対象として選択された場合を説明する。学習方式決定手段27は、判定済みデータ一覧2361を含む交差検定設定画面2306を出力装置12に表示させて、サイト管理者に判定済みデータの選択を促す。サイト管理者は、判定済みデータ一覧2361のチェックボックス2364をチェックすることによって、交差検定させたいデータを選択する。   In this example, as shown in FIG. 23, the data of “AAA Corp.” diagnosed on “October 17, 2003” from the determined data list 2361 was selected as the target of cross-validation by the site administrator. Explain the case. The learning method determination unit 27 displays a cross-validation setting screen 2306 including a determined data list 2361 on the output device 12 and prompts the site administrator to select determined data. The site manager selects the data to be cross-validated by checking the check box 2364 of the determined data list 2361.

また、本例では、学習アルゴリズム一覧2362から、サイト管理者によって線形判別分析、決定木およびニューラルネットワークの3種類の学習アルゴリズムが選択されている。学習方式決定手段27は、学習アルゴリズム一覧2362を含む交差検定設定画面2306を出力装置12に表示させて、サイト管理者に学習アルゴリズムの種類の選択を促す。サイト管理者は、学習アルゴリズム一覧2362のチェックボックス2365をチェックすることによって、複数の学習アルゴリズムを選択する。   In this example, three types of learning algorithms, linear discriminant analysis, decision tree, and neural network, are selected from the learning algorithm list 2362 by the site administrator. The learning method determination unit 27 displays a cross-validation setting screen 2306 including a learning algorithm list 2362 on the output device 12 and prompts the site administrator to select the type of learning algorithm. The site administrator selects a plurality of learning algorithms by checking the check box 2365 of the learning algorithm list 2362.

また、本例では、決定木については、場合には枝刈りの信頼レベルを「25%」,「50%」,「75%」の「25%」刻みで3通り行うように選択されている。更に、ニューラルネットワークについては、階層数を「2」,「3」,「4」の3通りで行い、活性化関数を線形関数およびシグモイド関数の2通りで行うよう選択されている。   In this example, the decision tree is selected so that the pruning confidence level is performed in three increments of “25%” of “25%”, “50%”, and “75%”. . Furthermore, with respect to the neural network, the number of layers is selected to be performed in three ways, “2”, “3”, and “4”, and the activation function is selected to be performed in two ways: a linear function and a sigmoid function.

サイト管理者は、判定済みデータ一覧2361および学習アルゴリズム一覧2362から各設定情報を選択すると、交差検定ボタン2363を押す。サイト管理者によって交差検定ボタン2363が押されると、学習方式決定手段27は、サイト管理者によって選択された判定済みデータおよび学習アルゴリズムの種類の入力を受け付ける。   When the site manager selects each setting information from the determined data list 2361 and the learning algorithm list 2362, the site manager presses a cross validation button 2363. When the cross-validation button 2363 is pressed by the site manager, the learning method determination unit 27 receives input of the determined data and the learning algorithm type selected by the site manager.

交差検定を行うための各設定情報の入力を受け付けると、学習方式決定手段27は、設定内容に従って、判定済みリンク情報アクセス手段21にリンク情報の読み込みを指示する。判定済みリンク情報アクセス手段21は、学習方式決定手段27の指示に従って、判定済みリンク情報記憶部32から、サイト管理者によって選択されたデータに対応するリンク情報、リンクIDおよびリンク情報に付与されている不整合判定結果を読み込む(ステップS41)。   When receiving the input of each setting information for cross-validation, the learning method determination means 27 instructs the determined link information access means 21 to read the link information according to the setting contents. The determined link information access means 21 is given to the link information, link ID and link information corresponding to the data selected by the site administrator from the determined link information storage unit 32 according to the instruction of the learning method determination means 27. The inconsistency determination result is read (step S41).

学習方式決定手段27は、リンク特徴抽出手段22に、リンク特徴情報の抽出を指示する。リンク特徴抽出手段22は、学習方式決定手段27の指示に従って、「(A)リンク単独で求めることがきるリンク特徴情報」、「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」、および「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を全て抽出する(ステップS42)。   The learning method determination unit 27 instructs the link feature extraction unit 22 to extract link feature information. The link feature extraction means 22 obtains “(A) link feature information that can be obtained by a link alone” and “(B) the relationship between a link and its linked document according to an instruction from the learning method determination means 27. Link characteristic information "and" (C) link characteristic information that can be obtained by grouping links according to a predetermined condition "are extracted (step S42).

学習方式決定手段27は、リンクの不整合判定結果およびリンク特徴情報のうちのn%のデータをトレーニングデータとして、(100−n)%のデータをテストデータとして分割する(ステップS43)。例えば、100件のリンクについて不整合判定結果およびリンク特徴情報がある場合に、n=80とすると、学習方式決定手段27は、100件のデータから、乱数などを用いて任意の80件のリンクの不整合判定結果およびリンク特徴情報をトレーニングデータとして分割する。、また、この場合、学習方式決定手段27は、残りの20件のリンクの不整合判定結果およびリンク特徴情報のデータをテストデータとして分割する。   The learning method determination unit 27 divides n% of the link mismatch determination result and link feature information as training data and (100−n)% of data as test data (step S43). For example, if there are inconsistency determination results and link feature information for 100 links, and n = 80, the learning method determination unit 27 uses the random number or the like to select any 80 links from 100 data. The inconsistency determination result and the link feature information are divided as training data. In this case, the learning method determination unit 27 divides the remaining 20 inconsistency determination results and link characteristic information data as test data.

学習方式決定手段27は、学習アルゴリズムとリンク特徴情報との全ての組み合わせのうち、精度を評価する組み合わせを1つ選択する(ステップS44)。   The learning method determination means 27 selects one combination for evaluating accuracy among all combinations of the learning algorithm and the link feature information (step S44).

図23に示す例では、学習アルゴリズムとして線形判別分析、決定木およびニューラルネットワークの3種類が選択され、決定木において枝刈りの信頼レベルとして「25%」,「50%」,「75%」の3通りが選択され、ニューラルネットワークにおいて階層数として「2」,「3」,「4」の3通りが選択され、活性化関数として線形関数およびシグモイド関数の2通りが選択されている。この場合、学習アルゴリズムの組合せの数は、1+3+3・2=10通りである。   In the example shown in FIG. 23, three types of linear discriminant analysis, decision tree, and neural network are selected as learning algorithms, and the pruning confidence levels of “25%”, “50%”, and “75%” are selected in the decision tree. Three types are selected, three types of “2”, “3”, and “4” are selected as the number of layers in the neural network, and two types of linear functions and sigmoid functions are selected as activation functions. In this case, the number of combinations of learning algorithms is 1 + 3 + 3 · 2 = 10.

また、リンク特徴情報の種類が11種類あるとすると、1種類だけ使う場合が11通り、2種類だけ使う場合が11!/{(11−2)!・2!}=55通り、3種類だけ使う場合が11!/{(11−3)!・3!}=165通り、4種類だけ使う場合が11!/{(11−4)!・4!}=330通り、5種類だけ使う場合が11!/{(11−5)!・5!}=462通りである。1種類〜11種類まで使う場合の数を合計すると、2・(11+55+165+330+462)+1=2047通りである。なお、本計算では、x種類(ただしx<11)だけ使う場合の組み合わせの数が、(11−x)種類だけ使う場合の組み合わせの数と等しくなることを利用している。   If there are 11 types of link feature information, there are 11 cases where only one type is used, and 11 cases where only two types are used! / {(11-2)!・ 2! } = 55 ways, only 3 types are used! / {(11-3)!・ 3! } = 165 ways to use only 4 types! / {(11-4)!・ 4! } = 330 streets, only 5 types are used! / {(11-5)!・ 5! } = 462. The total number of cases of using 1 to 11 types is 2 · (11 + 55 + 165 + 330 + 462) + 1 = 2047. This calculation uses the fact that the number of combinations when only x types (x <11) are used is equal to the number of combinations when only (11-x) types are used.

従って、図23に示す例では、学習アルゴリズムとリンク特徴情報との組合せは、全部で10・2047=20470通りである。   Therefore, in the example shown in FIG. 23, there are 10 · 2047 = 20470 combinations of learning algorithms and link feature information in total.

学習方式決定手段27は、不整合学習手段23に識別関数の算出を指示する。不整合学習手段23は、学習方式決定手段27の指示に従って、トレーニングデータの不整合判定結果と、ステップS44で選択したリンク特徴情報および学習アルゴリズムとを用いて、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と不整合と判定された割合との関係を統計計算することによって識別関数を求める(ステップS45)。   The learning method determination unit 27 instructs the inconsistency learning unit 23 to calculate the discrimination function. The inconsistency learning unit 23 uses the training data inconsistency determination result, the link feature information selected in step S44 and the learning algorithm in accordance with the instruction of the learning method determination unit 27, and the contents of each link feature information (for example, The identification function is obtained by statistically calculating the relationship between the size of the value of the link feature information and the ratio determined to be inconsistent (step S45).

学習方式決定手段27は、不整合判定手段25に、テストデータに対応する各リンクが不整合か否かの判定を指示する。不整合判定手段25は、学習方式決定手段27の指示に従って、テストデータについて、ステップS44で選択したリンク特徴情報と、ステップS45の学習で求めた識別関数とを用いて、テストデータの各リンクが不整合か否かを判定する。そして、学習方式決定手段27は、不整合判定の出力結果が判定済みリンク情報として記録されていたテストデータの不整合判定結果と一致するか否かを判定(一致するものを計数)し、判定精度を求める(ステップS46)。   The learning method determining unit 27 instructs the inconsistency determining unit 25 to determine whether or not each link corresponding to the test data is inconsistent. The inconsistency determination unit 25 uses the link feature information selected in step S44 and the identification function obtained in the learning in step S45 for the test data in accordance with the instruction from the learning method determination unit 27. It is determined whether or not there is a mismatch. Then, the learning method determination unit 27 determines whether or not the output result of the inconsistency determination matches the inconsistency determination result of the test data recorded as the determined link information (counts that match). The accuracy is obtained (step S46).

学習方式決定手段27は、学習アルゴリズムとリンク特徴情報との組み合わせのうち、精度判定を行っていない組み合わせがあるか否かを判定する(ステップS47)。精度判定を行っていない組み合わせがあると判断した場合には、学習方式決定手段27は、ステップS44に戻り、他の組み合わせを選択してステップS44からステップS47までの処理を繰り返し実行する。   The learning method determination unit 27 determines whether there is a combination for which accuracy determination is not performed among combinations of the learning algorithm and the link feature information (step S47). If it is determined that there is a combination for which accuracy determination is not performed, the learning method determination unit 27 returns to step S44, selects another combination, and repeatedly executes the processing from step S44 to step S47.

ステップS47において、全ての組み合わせについて精度判定を終了したと判断した場合には、学習方式決定手段27は、精度判定を行った組み合わせのうち、最も判定精度の値が大きい組み合わせの場合の学習アルゴリズムおよびリンク特徴情報を選択する。そして、学習方式決定手段27は、選択した組合せおよび判定精度の値を出力する(ステップS48)。   If it is determined in step S47 that the accuracy determination has been completed for all the combinations, the learning method determination unit 27 determines the learning algorithm for the combination having the largest determination accuracy value among the combinations subjected to the accuracy determination, and Select link feature information. Then, the learning method determination means 27 outputs the selected combination and the value of determination accuracy (step S48).

ステップS48において、学習方式決定手段27は、選択した学習アルゴリズムとリンク特徴情報との組合せを最適な組合せとして決定し、決定した組合せおよび判定精度の値を出力する。この場合、学習方式決定手段27は、例えば、決定したアルゴリズムとリンク特徴情報との組合せおよび判定精度の対応関係を、ディスプレイ装置である出力装置12に一覧表示させてもよい。そのようにすることにより、サイト管理者は、学習処理のフェーズにおいて試行錯誤しなくても判定精度の高い学習アルゴリズムとリンク特徴情報との組合せを知ることができる。   In step S48, the learning method determination means 27 determines the combination of the selected learning algorithm and link feature information as the optimal combination, and outputs the determined combination and the value of determination accuracy. In this case, for example, the learning method determination unit 27 may display a list of correspondence relationships between the determined algorithm and link feature information and the determination accuracy on the output device 12 that is a display device. By doing so, the site administrator can know the combination of the learning algorithm with high determination accuracy and the link feature information without trial and error in the learning process phase.

なお、本実施の形態では、トレーニングデータとテストデータとを、それぞれn%と(100−n)%とに分割して1度だけ交差検定を行う方法について説明したが、交差検定の方法は、本実施の形態で示した場合に限られない。例えば、リンク数のn%のトレーニングデータをm通り作成し、ステップS45およびステップS46の処理をm回繰り返し実行して、学習方式決定手段27は、m個の判定精度の平均値を計算するようにしてもよい。   In the present embodiment, the training data and the test data are divided into n% and (100-n)%, respectively, and the method of cross-validation is described. However, the method of cross-validation is as follows. The present invention is not limited to the case described in this embodiment. For example, m types of training data of n% of the number of links are created, and the processing of step S45 and step S46 is repeatedly performed m times so that the learning method determination unit 27 calculates an average value of m determination accuracy. It may be.

また、判定精度が高いリンク特徴情報の組合せから、サイト管理者は、判定対象のサイトにおける不整合発生の要因を推定することができる。例えば、「リンク元表記に含まれるキーワード」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトには、リンク元表記の間違いやスペルミスを要因とする不整合が多いと推定することができる。   Further, the site administrator can estimate the cause of inconsistency at the determination target site from the combination of link feature information with high determination accuracy. For example, if “keywords included in the link source notation” are used as link feature information, and there is a tendency for the determination accuracy to be high, the site administrator may include an error or spelling error in the link source notation on the site to be determined. It can be estimated that there are many inconsistencies as a factor.

また、「リンク先アドレスに含まれるドメイン名あるいはディレクトリ名」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトには、指定先のドメインまたはディレクトリから文書が削除されていることが不整合の要因であると推定することができる。   If the domain accuracy or the directory name included in the link destination address is used as the link feature information, if the determination accuracy tends to increase, the site administrator can specify the specified domain in the target site. Alternatively, it can be estimated that the document is deleted from the directory as a cause of inconsistency.

また、「リンク元アドレスに含まれるドメイン名あるいはディレクトリ名」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトの一部のサイト管理者の分担領域の管理が十分でないことが不整合の要因であると推定することができる。   In addition, if the “domain name or directory name included in the link source address” is used as the link feature information, if there is a tendency for the determination accuracy to increase, the site administrator can select a part of the site administrator of the determination target site. It can be presumed that inconsistent management of these areas is a cause of inconsistency.

また、「文書内におけるリンクの出現位置または表示面積」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトでリンク元表記が文書内で目立ちにくいリンクが、チェックの際に見落とされていることが不整合の原因であると推定することができる。   In addition, if there is a tendency for the determination accuracy to increase when “appearance position or display area of the link in the document” is used as the link feature information, the site administrator can display the link source notation in the document at the determination target site. It can be estimated that the inconspicuous link is caused by an overlooked link being overlooked during the check.

また、タイトル出現回数、本文出現回数または強調表示回数をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、リンク元表記とリンク先文書との対応関係が崩れていることが不整合の原因であると推定することができる。   Further, if the determination accuracy tends to be high when the title appearance count, the text appearance count, or the highlight display count is used as the link feature information, the site administrator can use the link source notation and the link destination document in the determination target site. It can be presumed that the cause of the inconsistency is that the correspondence relationship with is broken.

また、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、同じ名前で誤った文書を参照していることを要因とする不整合が多いと推定することができる。   If the ratio of links that have the same link destination address as the link to be learned or determined in the same link source notation group is used as link feature information, if there is a tendency for the determination accuracy to increase, site management A person can estimate that there are many inconsistencies caused by referring to an incorrect document with the same name at the site to be determined.

また、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、同じ文書を誤った名前で参照していることを要因とする不整合が多いと推定することができる。   If the ratio of links that have the same link source notation as a link to be learned or determined within a group with the same link destination address is used as link feature information, if there is a tendency for the determination accuracy to increase, site management A person can estimate that there are many inconsistencies caused by referring to the same document with a wrong name in the site to be determined.

また、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、一つの文書から同じ名前で異なる文書を参照していることを要因とする不整合が多いと推定することができる。   In addition, the determination accuracy tends to be higher when “the ratio of links having the same link destination address as the link to be learned or determined in the same link source address and the same link source notation group” is used as the link feature information. If there is, the site manager can estimate that there are many inconsistencies caused by referring to different documents with the same name from one document in the determination target site.

また、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」をリンク特徴情報として用いた場合に判定精度が高くなる傾向があれば、サイト管理者は、判定対象のサイトにおいて、一つの文書から別の一つの文書に、異なる名前で参照していることを要因とする不整合が多いと推定することができる。   In addition, the determination accuracy tends to increase when “the ratio of links having the same link source notation as the link to be learned or determined in the group of the same link source address and the same link destination address” is used as the link feature information. If there is, the site manager can estimate that there are many inconsistencies caused by referring to one document from another document with a different name at the determination target site.

以上のように、本実施の形態によれば、リンク診断装置は、リンク不整合の発生傾向に応じて、最も判定精度が高い学習アルゴリズムとリンク特徴情報との組合せを自動的に決定する。そのため、サイト管理者は、学習処理のフェーズにおいて、試行錯誤する必要がなく、最も判定精度の高い学習アルゴリズムとリンク特徴情報との組合せを指定することができる。   As described above, according to the present embodiment, the link diagnosis apparatus automatically determines the combination of the learning algorithm with the highest determination accuracy and the link feature information in accordance with the tendency of occurrence of link mismatch. Therefore, the site administrator does not need to perform trial and error in the learning process phase, and can specify a combination of the learning algorithm with the highest determination accuracy and the link feature information.

また、本実施の形態によれば、サイト管理者は、判定精度が高いリンク特徴情報の組合せから、判定対象のサイトにおける不整合傾向を推定することができる。従って、サイト管理者は、リンク不整合の発生傾向にもとづいてリンク不整合の要因を分析し、不整合箇所の修正だけでなくサイト構築上の問題点を分析することができる。   Further, according to the present embodiment, the site administrator can estimate the inconsistency tendency at the determination target site from the combination of the link feature information with high determination accuracy. Accordingly, the site administrator can analyze the cause of link inconsistency based on the tendency of occurrence of link inconsistency, and can analyze not only the inconsistent portion but also problems in site construction.

実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図24は、リンク診断装置の更に他の構成例を示すブロック図である。図24に示すように、本実施の形態では、データ処理装置50に実行させるためのリンク診断プログラム60が含まれる。
Embodiment 3 FIG.
Next, a third embodiment of the present invention will be described with reference to the drawings. FIG. 24 is a block diagram illustrating still another configuration example of the link diagnosis apparatus. As shown in FIG. 24, in the present embodiment, a link diagnosis program 60 for causing the data processing device 50 to execute is included.

リンク診断プログラム60は、データ処理装置50にリンク診断の各処理を実行させるためのプログラムである。リンク診断プログラム60は、データ処理装置50によって読み込まれる。データ処理装置50は、読み込んだリンク診断プログラム60をメモリ(図示せず)に記憶させる。そして、データ処理装置50は、読み込んだリンク診断プログラム60に従ってリンク診断の各処理を実行する。本実施の形態において、データ処理装置50は、リンク診断プログラム60に従って、第1の実施の形態で示したデータ処理装置20が実行する処理、および第2の実施の形態で示したデータ処理装置40が実行する処理と同様の処理を実行する。   The link diagnosis program 60 is a program for causing the data processing device 50 to execute each process of link diagnosis. The link diagnosis program 60 is read by the data processing device 50. The data processing device 50 stores the read link diagnosis program 60 in a memory (not shown). Then, the data processing device 50 executes each link diagnosis process according to the read link diagnosis program 60. In the present embodiment, the data processing device 50 performs processing executed by the data processing device 20 shown in the first embodiment and the data processing device 40 shown in the second embodiment according to the link diagnosis program 60. The same processing as that executed by is executed.

なお、本実施の形態において、データ処理装置50は、例えば、コンピュータに、未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、および抽出されたリンク特徴情報と関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理を実行させるためのリンク診断プログラム60を読み込んで、リンク診断の各処理を実行する。   In the present embodiment, for example, the data processing device 50 causes the computer to read the undetermined link information from the undetermined link information storage unit, and based on the read undetermined link information, the link is inconsistent. A process of extracting link feature information indicating the probability of occurrence, and a process of determining whether or not a mismatch has occurred in an undetermined link using the extracted link feature information and relationship information The link diagnosis program 60 to be executed is read, and each process of link diagnosis is executed.

次に、動作について説明する。本実施の形態において、リンク診断装置は、「学習処理」、「判定処理」、「結果確認処理」および「交差検定処理」の4つの独立したフェーズの処理を実行する。   Next, the operation will be described. In the present embodiment, the link diagnosis apparatus executes processing of four independent phases of “learning processing”, “determination processing”, “result confirmation processing”, and “cross validation processing”.

「学習処理」のフェーズでは、サイト管理者が学習に利用する過去の判定済みデータと、学習に利用するリンク特徴情報の種類とを指定すると、データ処理装置50は、判定済みリンク情報記憶部32からリンク情報、リンクIDおよび不整合判定結果を読み込み、指定されたリンクのリンク特徴情報を抽出する。そして、データ処理装置50は、各リンク特徴情報の内容(例えば、リンク特徴情報の値の大きさ)と不整合と判定された割合との関係を統計計算することによって、あるリンクが不整合か否かを判定するための識別関数を求める。   In the “learning process” phase, when the site administrator specifies past determined data used for learning and the type of link feature information used for learning, the data processing device 50 determines the determined link information storage unit 32. The link information, the link ID, and the inconsistency determination result are read from, and the link feature information of the designated link is extracted. Then, the data processing apparatus 50 statistically calculates the relationship between the content of each link feature information (for example, the size of the value of the link feature information) and the ratio determined to be inconsistent, so that a link is inconsistent. An identification function for determining whether or not is obtained.

「判定処理」のフェーズでは、サイト管理者が判定したい未判定データを指定すると、データ処理装置50は、未判定リンク情報記憶部31から不整合か否か未判定のリンク情報を読み出し、学習に用いられたのと同じ種類のリンク特徴情報を抽出する。そして、データ処理装置50は、未判定のリンクのリンク特徴情報に対して、学習処理のフェーズで求めた識別関数を用いて、判定対象のリンクが不整合か否かを判定する。   In the “determination process” phase, when the site administrator designates undecided data to be judged, the data processing device 50 reads the undetermined link information from the undetermined link information storage unit 31 to determine whether or not it is inconsistent. Extract link feature information of the same type used. Then, the data processing device 50 determines whether or not the determination target link is inconsistent using the identification function obtained in the learning processing phase with respect to the link characteristic information of the undetermined link.

「結果確認処理」のフェーズでは、データ処理装置50は、各リンクの判定結果をリンク元アドレス単位でグループ化して出力装置12に表示させる。サイト管理者に各リンクのチェックを促し、サイト管理者の入力指示に従って文書の修正を行った場合には、データ処理装置50は、判定対象のリンクに不整合がある旨を判定済みリンク情報記憶部32に反映させる。また、データ処理装置50は、出力した判定結果が誤っている場合には判定結果を訂正して判定済みリンク情報記憶部32に反映させる。また、データ処理装置50は、反映した結果を用いて識別関数を再計算する。   In the “result confirmation processing” phase, the data processing device 50 groups the determination results of each link in units of link source addresses and causes the output device 12 to display them. When the site administrator is prompted to check each link and the document is corrected according to the input instruction of the site administrator, the data processing device 50 stores the determined link information indicating that the determination target link is inconsistent. This is reflected in part 32. In addition, when the output determination result is incorrect, the data processing device 50 corrects the determination result and reflects it in the determined link information storage unit 32. In addition, the data processing device 50 recalculates the discrimination function using the reflected result.

「交差検定処理」のフェーズでは、データ処理装置50は、判定済みリンク情報記憶部32から、リンク情報、リンクIDおよびリンク情報に付与された不整合判定結果を読み込む。データ処理装置50は、リンク情報から、「(A)リンク単独で求めることがきるリンク特徴情報」,「(B)リンクとそのリンク先文書との関係にもとづいて求めることができるリンク特徴情報」,「(C)リンクを所定の条件に従ってグループ化して求めることができるリンク特徴情報」を全て抽出する。データ処理装置50は、リンクの不整合判定結果とリンク特徴情報とのデータのうち、n%をトレーニングデータとして、(100−n)%をテストデータとして分割する。そして、データ処理装置50は、学習アルゴリズムとリンク特徴情報との全ての組合せから1つの組み合わせを選択し、トレーニングデータを用いて各リンク特徴情報の内容と不整合と判定されたリンクの割合との関係を統計計算することによって識別関数を求める。   In the “cross-validation process” phase, the data processing device 50 reads the inconsistency determination result given to the link information, the link ID, and the link information from the determined link information storage unit 32. The data processing apparatus 50 determines from the link information “(A) link feature information that can be obtained by a link alone” and “(B) link feature information that can be obtained based on the relationship between the link and its linked document”. , “(C) Link feature information that can be obtained by grouping links according to predetermined conditions” is extracted. The data processing device 50 divides n% as training data and (100−n)% as test data from the data of the link mismatch determination result and the link feature information. Then, the data processing device 50 selects one combination from all combinations of the learning algorithm and the link feature information, and uses the training data to determine the content of each link feature information and the proportion of links determined to be inconsistent. Determine the discriminant function by statistically calculating the relationship.

データ処理装置50は、テストデータについて、学習に用いたリンク特徴情報と学習処理で求めた識別関数とを用いてテストデータの各リンクが不整合か否かを判定する。データ処理装置50は、不整合判定の出力結果が判定済みリンク情報として記録されていたものと一致するか否かを判断(一致するものを計数)し、判定精度を求める。   The data processing device 50 determines whether or not each link of the test data is inconsistent with respect to the test data, using the link feature information used for learning and the identification function obtained by the learning process. The data processing device 50 determines whether or not the output result of the inconsistency determination matches that recorded as determined link information (counts that match), and obtains determination accuracy.

データ処理装置50は、学習アルゴリズムとリンク特徴情報との組み合わせのうち、精度判定を行っていない組み合わせがあるか否かを判定する。データ処理装置50は、精度判定を行っていない組み合わせがあると判断した場合には、他の組み合わせを選択して繰り返し判定精度を求め、最終的に最も精度が高い組合せと判定精度とを出力する。   The data processing device 50 determines whether there is a combination for which accuracy determination is not performed among combinations of the learning algorithm and the link feature information. If the data processing apparatus 50 determines that there is a combination for which accuracy determination is not performed, the data processing apparatus 50 selects another combination to obtain repeated determination accuracy, and finally outputs the combination with the highest accuracy and the determination accuracy. .

本発明によるリンク診断装置は、Webサイト内のハイパーテキストを管理するためのハイパーテキスト管理装置に適用することができる。例えば、Webサイトの編集者が、リンク診断装置を適用したハイパーテキスト管理装置を用いて、Webサイトのうち自分が編集を担当する範囲のハイパーテキストの品質を調べて保証する用途に利用することができる。また、企業がWebサイトの構築をアウトソーシングしている場合に、企業の受け入れ担当者が、ハイパーテキスト管理装置を用いて、外部から納入されたWebサイトを構成するハイパーテキストの品質をチェックする用途に利用することができる。また、Webサイト構築のコンサルタントが、ハイパーテキスト管理装置を用いて、顧客や見込み顧客である企業のWebサイトを構成するハイパーテキストの品質を診断し、企業に対してWebサイトの改善提案を行う用途に利用することができる。   The link diagnosis apparatus according to the present invention can be applied to a hypertext management apparatus for managing hypertext in a Web site. For example, a website editor may use a hypertext management apparatus to which a link diagnosis apparatus is applied to check and guarantee the quality of hypertext in the range of the website where he is in charge of editing. it can. In addition, when a company outsources the construction of a website, the person in charge of the company uses a hypertext management device to check the quality of the hypertext constituting the website delivered from the outside. Can be used. In addition, a Web site construction consultant uses a hypertext management device to diagnose the quality of hypertext that constitutes a Web site of a company that is a customer or a prospective customer, and proposes improvement of the Web site to the company Can be used.

本発明によるリンク診断装置の構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the link diagnostic apparatus by this invention. 同じ名前で誤った文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。It is explanatory drawing which shows the example of the correspondence of the link between documents when the inconsistency which refers the wrong document with the same name has generate | occur | produced. リンク特徴情報として、「同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。It is explanatory drawing which shows the example of the calculation process in the case of calculating | requiring "the ratio of the link which has the same link destination address as the link used as learning or determination within the group of the same link origin description" as link characteristic information. 同じ文書を誤った名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。It is explanatory drawing which shows the example of the correspondence of the link between documents when the inconsistency which refers the same document with an incorrect name has generate | occur | produced. リンク特徴情報として、「同一リンク先アドレスのグループ内で学習または判定対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。It is explanatory drawing which shows the example of the calculation process in the case of calculating | requiring "the ratio of the link which has the same link origin description as the link used as learning or determination within the group of the same link destination address" as link characteristic information. 一つの文書から同じ名前で異なる文書を参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。It is explanatory drawing which shows the example of the correspondence of the link between documents when the inconsistency which refers to a different document with the same name from one document has generate | occur | produced. リンク特徴情報として、「同一リンク元アドレス、同一リンク元表記のグループ内で学習または判定対象となるリンクと同じリンク先アドレスを持つリンクの割合」を求める場合の算出過程の例を示す説明図である。It is explanatory drawing which shows the example of a calculation process in the case of calculating | requiring "the ratio of the link which has the same link destination address as the link used as learning or determination within the group of the same link origin address and the same link origin notation" as link characteristic information. is there. 一つの文書から別の一つの文書を異なる名前で参照する不整合が発生している場合の文書間のリンクの対応関係の例を示す説明図である。It is explanatory drawing which shows the example of the correspondence of the link between documents when the inconsistency which refers to another one document from one document with a different name has generate | occur | produced. リンク特徴情報として、「同一リンク元アドレス、同一リンク先アドレスのグループ内で学習または判別対象となるリンクと同じリンク元表記を持つリンクの割合」を求める場合の算出過程の例を示す説明図である。It is explanatory drawing which shows the example of the calculation process in the case of calculating | requiring "the ratio of the link which has the same link origin notation as the learning or discrimination | determination object within the group of the same link source address and the same link destination address" as link characteristic information. is there. リンク特徴記憶部33が記憶するリンク特徴情報、リンクIDおよび不整合判定結果のデータ構造の例を示す説明図である。It is explanatory drawing which shows the example of the data structure of the link characteristic information which a link characteristic memory | storage part 33 memorize | stores, link ID, and a mismatch determination result. リンク診断装置が実行する学習処理の処理経過の一例を示す流れ図である。It is a flowchart which shows an example of the process progress of the learning process which a link diagnosis apparatus performs. 学習設定画面の一例を示す説明図である。It is explanatory drawing which shows an example of a learning setting screen. 不整合学習手段23が識別関数Zを求める場合の算出過程の例を示す説明図である。It is explanatory drawing which shows the example of the calculation process in case the mismatching learning means 23 calculates | requires the discrimination function Z. 図13に示す不整合学習手段23が識別関数Zを求める場合の算出過程の例を示す説明図の続きである。FIG. 14 is a continuation of the explanatory diagram showing an example of a calculation process when the inconsistency learning unit 23 shown in FIG. 13 obtains the discriminant function Z. リンク診断装置が実行する判定処理の処理経過の一例を示す流れ図である。It is a flowchart which shows an example of the process progress of the determination process which a link diagnostic apparatus performs. 判定設定画面の一例を示す説明図である。It is explanatory drawing which shows an example of the determination setting screen. リンク診断装置が実行する結果確認処理の処理経過の一例を示す流れ図である。It is a flowchart which shows an example of the process progress of the result confirmation process which a link diagnosis apparatus performs. 結果確認画面の一例を示す説明図である。It is explanatory drawing which shows an example of a result confirmation screen. 文書修正画面の一例を示す説明図である。It is explanatory drawing which shows an example of a document correction screen. リンクグループ画面の一例を示す説明図である。It is explanatory drawing which shows an example of a link group screen. リンク診断装置の他の構成例を示すブロック図である。It is a block diagram which shows the other structural example of a link diagnostic apparatus. リンク診断装置が実行する交差検定処理の処理経過の一例を示す流れ図である。It is a flowchart which shows an example of the process progress of the cross-validation process which a link diagnostic apparatus performs. 交差検定設定画面の一例を示す説明図である。It is explanatory drawing which shows an example of a cross-validation setting screen. リンク診断装置の更に他の構成例を示すブロック図である。It is a block diagram which shows the further another structural example of a link diagnostic apparatus.

符号の説明Explanation of symbols

11 入力装置
12 出力装置
20 データ処理装置
21 判定済みリンク情報アクセス手段
22 リンク特徴抽出手段
23 不整合学習手段
24 未判定リンク情報アクセス手段
25 不整合判定手段
26 結果反映手段
30 記憶装置
31 未判定リンク情報記憶部
32 判定済みリンク情報記憶部
33 リンク特徴記憶部
34 学習結果記憶部
11 Input device 12 Output device 20 Data processing device 21 Determined link information access means 22 Link feature extraction means 23 Inconsistency learning means 24 Undecided link information access means 25 Inconsistency judgment means 26 Result reflection means 30 Storage device 31 Undecided link Information storage unit 32 Determined link information storage unit 33 Link feature storage unit 34 Learning result storage unit

Claims (28)

指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、
未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、
未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出するリンク特徴抽出手段と、
不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段と、
リンク特徴抽出手段によって抽出されたリンク特徴情報と前記関係情報とを用いて、前記判未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えた
ことを特徴とするリンク診断装置。
Undecided to store undetermined link information, which is link information of undetermined links in the link information indicating the hypertext link attributes that associate the designated document with the designated source document Link information storage means;
Undetermined link information reading means for reading undetermined link information from the undetermined link information storage means;
Link feature extraction means for extracting link feature information indicating the probability of inconsistency in the link based on the undetermined link information read by the undetermined link information reading means;
A relationship information storage unit that stores relationship information indicating a relationship between the link feature information of a link for which determination of whether or not inconsistency has already been performed and the determination result of the determination;
Inconsistency determination means for determining whether or not there is a mismatch in the undecided link using the link feature information extracted by the link feature extraction means and the relation information. Link diagnostic device.
指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、
リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記判定の判定結果とを記憶する判定済みリンク情報記憶手段と、
未判定リンク情報記憶手段から未判定リンク情報を読み込む未判定リンク情報読込手段と、
判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込む判定済みリンク情報読込手段と、
未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出するリンク特徴抽出手段と、
リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を導出する関係情報導出手段と、
関係情報導出手段によって導出された関係情報を記憶する関係情報記憶手段と、
リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報と前記関係情報とを用いて、前記未判定のリンクに不整合が生じているか否かを判定する不整合判定手段とを備えた
ことを特徴とするリンク診断装置。
Undecided to store undetermined link information, which is link information of undetermined links in the link information indicating the hypertext link attributes that associate the designated document with the designated source document Link information storage means;
A determined link information storage unit that stores determined link information that is link information of a link that has already been determined whether or not inconsistency occurs in the link information, and a determination result of the determination;
Undetermined link information reading means for reading undetermined link information from the undetermined link information storage means;
A determined link information reading unit that reads the determined link information and the determination result from the determined link information storage unit;
Based on the undetermined link information read by the undetermined link information reading means, link feature information indicating the probability of inconsistency in the link is extracted, and the determination read by the determined link information reading means Link feature extraction means for extracting link feature information based on the completed link information;
It is already determined whether or not there is a mismatch using the link feature information extracted by the link feature extraction unit based on the determined link information and the determination result read by the determined link information reading unit. Relationship information deriving means for deriving relationship information indicating the relationship between the link feature information of the existing link and the determination result of the determination;
Relation information storage means for storing relation information derived by the relation information derivation means;
Inconsistency determination means for determining whether or not there is a mismatch in the undetermined link using the link feature information extracted by the link feature extraction means based on the undetermined link information and the relationship information. A link diagnostic device characterized by that.
不整合判定手段による未判定のリンクに対する判定の判定結果と、前記リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、
フィードバック手段は、前記未判定のリンクに対する判定の判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力され、前記確認結果にもとづいて、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させ、
判定済みリンク情報読込手段は、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、
リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
関係情報導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出する
請求項2記載のリンク診断装置。
A feedback means for storing the determination result of the undecided link by the inconsistency determining means and the link information of the link in the determined link information storage means;
The feedback means outputs a determination result of the determination for the undetermined link, prompts the user to confirm whether the determination result is correct, receives the confirmation result of the confirmation from the user, and based on the confirmation result The link information and the determination result are stored in the determined link information storage means,
The determined link information reading means reads the determined link information and the determination result again from the determined link information storage means after the feedback means stores the link information and the determination result in the determined link information storage means.
The link feature extraction means re-extracts link feature information based on the determined link information read again by the determined link information reading means,
The relationship information deriving unit derives the relationship information again using the link feature information extracted again by the link feature extracting unit based on the determined link information and the determination result read again by the determined link information reading unit. Item 3. The link diagnosis apparatus according to item 2.
不整合判定手段による未判定リンクに対する判定の判定結果と、前記リンクのリンク情報とを判定済みリンク情報記憶手段に記憶させるフィードバック手段を備え、
フィードバック手段は、前記未判定のリンクに対する判定がなされる度に判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力され、前記確認結果にもとづいて、リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させ、
判定済みリンク情報読込手段は、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、
リンク特徴抽出手段は、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
関係情報導出手段は、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出し、
未判定リンク情報読込手段は、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込み、
リンク特徴抽出手段は、未判定リンク情報読込手段によって読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、
不整合判定手段は、リンク特徴抽出手段が前記新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、関係情報導出手段によって再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する
請求項2または請求項3記載のリンク診断装置。
A feedback means for storing the determination result for the undecided link by the inconsistency determining means and the link information of the link in the determined link information storage means;
The feedback means outputs a determination result every time a determination is made for the undetermined link, prompts the user to confirm whether the determination result is correct, and receives the confirmation result of the confirmation from the user, Based on the confirmation result, the link information and the determination result are stored in the determined link information storage means,
The determined link information reading means reads the determined link information and the determination result again from the determined link information storage means after the feedback means stores the link information and the determination result in the determined link information storage means.
The link feature extraction means re-extracts link feature information based on the determined link information read again by the determined link information reading means,
The relationship information deriving unit derives the relationship information again using the link feature information extracted again based on the determined link information by the link feature extracting unit and the determination result read again by the determined link information reading unit,
The undetermined link information reading means reads the new undetermined link information each time new undetermined link information is added to the undetermined link information storage means.
The link feature extraction means extracts link feature information based on the new undetermined link information read by the undetermined link information reading means,
The inconsistency determination means uses the link feature information extracted by the link feature extraction means based on the new undetermined link information and the relationship information derived again by the relationship information derivation means, so that the undetermined link is not determined. The link diagnosis apparatus according to claim 2 or 3, wherein it is determined whether or not matching has occurred.
リンクに不整合が生じているか否かの判定結果の精度が最も高くなるリンク特徴情報および関係情報導出アルゴリズムの組合せを決定する最適組合せ決定手段を備え、
最適組合せ決定手段は、
判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませ、
リンク特徴抽出手段に、前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、
前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定め、
関係情報導出手段に、個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた判定結果とを用いて関係情報を導出させ、
不整合判定手段に、前記個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された前記関係情報を用いて再度判定を行わせ、
不整合判定手段に再度判定させた結果と既に得られている判定結果との比較を前記個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する
請求項2から請求項4のうちのいずれか1項に記載のリンク診断装置。
An optimum combination determining means for determining a combination of link feature information and a relational information derivation algorithm that gives the highest accuracy of the determination result of whether or not there is a mismatch in the link;
The optimum combination determining means is
Let the determined link information reading means read the determined link information and the determination result from the determined link information storage means,
A link feature extracting unit extracts a plurality of types of link feature information based on the determined link information,
Determining a plurality of combinations consisting of a part or all of the plurality of types of link feature information and one type of a plurality of types of relationship information derivation algorithms;
The relationship information deriving means uses the link feature information constituting the combination and the determination result read by the determined link information reading means in accordance with the relationship information deriving algorithm constituting the combination for each combination. Derived,
For the inconsistency determination means, for each of the individual combinations, for the link for which a determination result has already been obtained, the determination is performed again using the relationship information derived according to the combination,
By comparing the result of the determination by the inconsistency determination unit again with the already obtained determination result for each combination, the accuracy of the result of the determination by the inconsistency determination unit is determined again for each combination, The link diagnosis apparatus according to any one of claims 2 to 4, wherein a combination having the highest accuracy is specified.
リンク特徴抽出手段は、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する請求項1から請求項5のうちのいずれか1項に記載のリンク診断装置。   The link feature extraction means includes, as link feature information, link feature information that can be specified from a link that is a target of determination as to whether or not inconsistency occurs, a link that is a target of determination, and a description content of a link destination document of the link Link feature information that can be specified from the link, or one or more types of link feature information indicating the size of the group to which the link to be determined belongs when the links are grouped according to a predetermined condition The link diagnosis apparatus according to claim 1, wherein the link diagnosis apparatus extracts one of the following. リンク特徴抽出手段は、
判定対象となるリンクから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワード、
リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
文書内におけるリンク元表記の出現位置もしくは表示面積、
または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
のうちのいずれか1種類または複数種類の情報を抽出する
請求項6記載のリンク診断装置。
Link feature extraction means
The keyword included in the link source notation that corresponds to the link feature information that can be identified from the link to be judged,
Domain name or directory name included in the link destination address,
Domain name or directory name included in the link source address,
Appearance position or display area of the link source notation in the document,
Alternatively, the number of times a keyword included in the link source notation corresponding to link feature information that can be specified from the link to be determined and the description content of the link destination document of the link appears in the title of the link destination document,
The number of times a keyword included in the link source notation appears in the text of the linked document,
The number of times a keyword included in the link source notation is highlighted in the linked document,
Or, when links are grouped according to a predetermined condition, a link or determination for deriving relationship information within a group with the same link source notation that corresponds to the link feature information indicating the size of the group to which the determination target link belongs Percentage of links that have the same destination address as the target link,
Percentage of links in the group with the same link destination address that have the same link source notation as the link for deriving the relationship information or the link to be determined,
Percentage of links with the same link source address that have the same link destination address as the link for deriving the relationship information or the link to be judged within the same link source notation group,
One or more types of the same link source address and the ratio of the link for deriving the relationship information or the link source notation same as the link to be judged in the group of the same link destination address The link diagnosis apparatus according to claim 6, wherein the information is extracted.
未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、
未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、
リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、
関係情報記憶手段が、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を記憶し、
不整合判定手段が、リンク特徴抽出手段によって抽出されたリンク特徴情報と前記関係情報とを用いて、前記未判定のリンクに不整合が生じているか否かを判定する
ことを特徴とするリンク診断方法。
The undetermined link information storage means is the link information of the undetermined link information indicating whether or not there is a mismatch among the link information indicating the hypertext link attribute that associates the designated document with the designated document. Store judgment link information,
The undetermined link information reading means reads the undetermined link information from the undetermined link information storage means,
The link feature extraction means extracts link feature information indicating the probability that a mismatch has occurred in the link based on the undetermined link information read by the undetermined link information reading means,
The relationship information storage means stores relationship information indicating the relationship between the link feature information of a link that has already been determined whether or not inconsistency has occurred and the determination result of the determination,
A link diagnosis characterized in that a mismatch determination means determines whether or not a mismatch occurs in the undetermined link using the link feature information extracted by the link feature extraction means and the relation information. Method.
未判定リンク情報記憶手段が、指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶し、
判定済みリンク情報記憶手段が、リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記判定の判定結果とを記憶し、
未判定リンク情報読込手段が、未判定リンク情報記憶手段から未判定リンク情報を読み込み、
判定済みリンク情報読込手段が、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込み、
リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出し、判定済みリンク情報読込手段によって読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出し、
関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて抽出したリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を導出し、
関係情報記憶手段が、関係情報導出手段によって導出された関係情報を記憶し、
不整合判定手段が、リンク特徴抽出手段が未判定リンク情報にもとづいて抽出したリンク特徴情報と前記関係情報とを用いて、前記未判定のリンクに不整合が生じているか否かを判定する
ことを特徴とするリンク診断方法。
The undetermined link information storage means is the link information of the undetermined link information indicating whether or not there is a mismatch among the link information indicating the hypertext link attribute that associates the designated document with the designated document. Store judgment link information,
The determined link information storage means stores the determined link information that is the link information of the link that has already been determined whether or not inconsistency occurs in the link information, and the determination result of the determination,
The undetermined link information reading means reads the undetermined link information from the undetermined link information storage means,
The determined link information reading means reads the determined link information and the determination result from the determined link information storage means,
Based on the undetermined link information read by the undetermined link information reading means, the link feature extraction means extracts link feature information indicating the probability that the link is inconsistent, and reads the determined link information. Extract link feature information based on the determined link information read by the means,
Whether the relationship information deriving means uses the link feature information extracted by the link feature extracting means based on the determined link information and the determination result read by the determined link information reading means to determine whether or not there is a mismatch. Deriving relationship information indicating the relationship between the link feature information of a link that has already been determined and the determination result of the determination,
The relationship information storage means stores the relationship information derived by the relationship information derivation means,
The inconsistency determining means determines whether or not there is an inconsistency in the undetermined link using the link feature information extracted by the link feature extracting means based on the undetermined link information and the relation information. Link diagnosis method characterized by the above.
フィードバック手段が、不整合判定手段による未判定のリンクに対する判定の判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力され、
フィードバック手段が、前記未判定のリンクに対する判定の判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、
判定済みリンク情報読込手段が、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、
リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出する
請求項9記載のリンク診断方法。
The feedback means outputs the determination result of the undecided link by the inconsistency determination means, prompts the user to confirm whether the determination result is correct, and receives the confirmation result of the confirmation from the user,
The feedback means stores the determination result of the determination for the undetermined link and the link information of the link in the determined link information storage means based on the confirmation result,
The determined link information reading means reads the determined link information and the determination result again from the determined link information storage means after the feedback means stores the link information and the determination result in the determined link information storage means,
The link feature extraction means extracts link feature information again based on the determined link information read again by the determined link information reading means,
The relationship information deriving unit derives the relationship information again using the link feature information extracted again by the link feature extracting unit based on the determined link information and the determination result read again by the determined link information reading unit. Item 10. The link diagnosis method according to Item 9.
フィードバック手段が、不整合判定手段による未判定のリンクに対する判定がなされる度に判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力され、
フィードバック手段が、前記未判定のリンクに対する判定の判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させ、
判定済みリンク情報読込手段が、フィードバック手段がリンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込み、
リンク特徴抽出手段が、判定済みリンク情報読込手段によって再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出し、
関係情報導出手段が、リンク特徴抽出手段が判定済みリンク情報にもとづいて再度抽出したリンク特徴情報と、判定済みリンク情報読込手段が再度読み込んだ判定結果とを用いて、関係情報を再度導出し、
未判定リンク情報読込手段が、未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込み、
リンク特徴抽出手段が、未判定リンク情報読込手段によって読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出し、
不整合判定手段が、リンク特徴抽出手段が前記新規の未判定リンク情報にもとづいて抽出したリンク特徴情報と、関係情報導出手段によって再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する
請求項9または請求項10記載のリンク診断方法。
The feedback unit outputs a determination result each time a determination is made on an undecided link by the inconsistency determination unit, prompts the user to confirm whether the determination result is correct, and gives the confirmation result of the confirmation from the user. Entered,
The feedback means stores the determination result of the determination for the undetermined link and the link information of the link in the determined link information storage means based on the confirmation result,
The determined link information reading means reads the determined link information and the determination result again from the determined link information storage means after the feedback means stores the link information and the determination result in the determined link information storage means,
The link feature extraction means extracts link feature information again based on the determined link information read again by the determined link information reading means,
The relationship information deriving unit derives the relationship information again using the link feature information extracted again by the link feature extracting unit based on the determined link information and the determination result read again by the determined link information reading unit,
The undetermined link information reading means reads the new undetermined link information each time new undetermined link information is added to the undetermined link information storage means.
Link feature extraction means extracts link feature information based on the new undetermined link information read by the undetermined link information reading means;
The inconsistency determination means uses the link feature information extracted by the link feature extraction means based on the new undetermined link information and the relationship information derived again by the relationship information derivation means, so that the undetermined link is not determined. The link diagnosis method according to claim 9 or 10, wherein it is determined whether or not matching occurs.
最適組合せ決定手段が、
判定済みリンク情報読込手段に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませ、
リンク特徴抽出手段に、前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させ、
前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定め、
関係情報導出手段に、個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、判定済みリンク情報読込手段によって読み込まれた判定結果とを用いて関係情報を導出させ、
不整合判定手段に、前記個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された前記関係情報を用いて再度判定を行わせ、
不整合判定手段に再度判定させた結果と既に得られている判定結果との比較を前記個々の組合せごとに行うことによって、不整合判定手段に再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する
請求項9から請求項11のうちのいずれか1項に記載のリンク診断方法。
The optimum combination determining means is
Let the determined link information reading means read the determined link information and the determination result from the determined link information storage means,
A link feature extracting unit extracts a plurality of types of link feature information based on the determined link information,
Determining a plurality of combinations consisting of a part or all of the plurality of types of link feature information and one type of a plurality of types of relationship information derivation algorithms;
The relationship information deriving means uses the link feature information constituting the combination and the determination result read by the determined link information reading means in accordance with the relationship information deriving algorithm constituting the combination for each combination. Derived,
For the inconsistency determination means, for each of the individual combinations, for the link for which a determination result has already been obtained, the determination is performed again using the relationship information derived according to the combination,
By comparing the result of the determination by the inconsistency determination unit again with the already obtained determination result for each combination, the accuracy of the result of the determination by the inconsistency determination unit is determined again for each combination, The link diagnosis method according to any one of claims 9 to 11, wherein a combination having the highest accuracy is specified.
最適組合せ決定手段が、複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる各組合せと、前記各組合せにおける不整合判定手段に再度判定させた結果の精度とを一覧表示する請求項12記載のリンク診断方法。   The optimum combination determining unit again sets each combination including a part or all of the plurality of types of link feature information and one type of the plurality of types of relation information derivation algorithms, and the mismatch determination unit in each of the combinations. The link diagnosis method according to claim 12, wherein a list of the accuracy of the determined result is displayed. リンク特徴抽出手段が、リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する請求項8から請求項13のうちのいずれか1項に記載のリンク診断方法。   The link feature extraction means, as the link feature information, link feature information that can be specified from the link to be judged whether or not inconsistency occurs, the link to be judged and the description content of the link destination document of the link Link feature information that can be specified from the link, or one or more types of link feature information indicating the size of the group to which the link to be determined belongs when the links are grouped according to a predetermined condition The link diagnosis method according to any one of claims 8 to 13, wherein the link is extracted. リンク特徴抽出手段が、
判定対象となるリンクから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワード、
リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
文書内におけるリンク元表記の出現位置もしくは表示面積、
または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
のうちのいずれか1種類または複数種類の情報を抽出する
請求項14記載のリンク診断方法。
Link feature extraction means
The keyword included in the link source notation that corresponds to the link feature information that can be identified from the link to be judged,
Domain name or directory name included in the link destination address,
Domain name or directory name included in the link source address,
Appearance position or display area of the link source notation in the document,
Alternatively, the number of times a keyword included in the link source notation corresponding to link feature information that can be specified from the link to be determined and the description content of the link destination document of the link appears in the title of the link destination document,
The number of times a keyword included in the link source notation appears in the text of the linked document,
The number of times a keyword included in the link source notation is highlighted in the linked document,
Or, when links are grouped according to a predetermined condition, a link or determination for deriving relationship information within a group with the same link source notation that corresponds to the link feature information indicating the size of the group to which the determination target link belongs Percentage of links that have the same destination address as the target link,
Percentage of links in the group with the same link destination address that have the same link source notation as the link for deriving the relationship information or the link to be determined,
Percentage of links with the same link source address that have the same link destination address as the link for deriving the relationship information or the link to be judged within the same link source notation group,
One or more types of the same link source address and the ratio of the link for deriving the relationship information or the link source notation same as the link to be judged in the group of the same link destination address The link diagnosis method according to claim 14, wherein the link information is extracted.
関係情報導出手段が、ユーザからリンク特徴情報の種類と、関係情報導出アルゴリズムの種類と、前記関係情報導出アルゴリズムに適用されるパラメータとを指定され、リンク特徴抽出手段に、ユーザから指定された種類のリンク特徴情報を抽出させ、
関係情報導出手段が、ユーザに指定され、かつ判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、判定済みリンク情報読込手段が読み込んだ判定結果とを用いて、ユーザに指定された関係情報導出アルゴリズムおよびパラメータに従って、関係情報を導出し、
関係情報記憶手段が、関係情報導出手段によって導出された関係情報を記憶し、
不整合判定手段が、ユーザに指定され、かつ未判定リンク情報にもとづいて抽出したリンク特徴情報と前記関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する
請求項9から請求項15のうちのいずれか1項に記載のリンク診断方法。
The relationship information deriving means is designated by the user the type of the link feature information, the type of the relationship information deriving algorithm, and the parameter applied to the relationship information deriving algorithm, and the type specified by the user in the link feature extracting means Link feature information for
The relationship information specified by the user using the link feature information specified by the user and extracted from the determined link information and the determination result read by the determined link information reading unit. Deriving relationship information according to the derivation algorithm and parameters,
The relationship information storage means stores the relationship information derived by the relationship information derivation means,
The inconsistency determining means determines whether or not an inconsistent link is inconsistent using the link feature information specified by the user and extracted based on the undetermined link information and the relation information. The link diagnosis method according to any one of claims 9 to 15.
不整合判定手段が、リンク特徴情報と関係情報とを用いて未判定のリンクに不整合が生じているか否かを判定するとともに、判定結果の信頼性を示す確信度を算出し、判定を行った各リンクごとに、判定結果および確信度を表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。   The inconsistency determination means uses the link feature information and the relationship information to determine whether or not there is an inconsistency in the undetermined link, calculates a certainty factor indicating the reliability of the determination result, and performs the determination. The link diagnosis method according to any one of claims 8 to 16, wherein a determination result and a certainty factor are displayed for each link. 不整合判定手段が、判定を行った各リンクのリンク情報を、確信度に応じて色分けして表示する請求項17記載のリンク診断方法。   18. The link diagnosis method according to claim 17, wherein the inconsistency determination means displays the link information of each determined link by color coding according to the certainty factor. 不整合判定手段が、判定を行った各リンクのリンク情報を、確信度をソートキーとして並べ替えて表示する請求項17または請求項18記載のリンク診断方法。   19. The link diagnosis method according to claim 17 or 18, wherein the inconsistency determination means rearranges and displays the link information of each determined link by using the certainty factor as a sort key. 不整合判定手段が、不整合が生じているか否かの判定対象となるリンクに対する判定の判定結果とともに、前記判定対象となるリンクとリンク元表記が共通するリンクのグループ、前記判定対象となるリンクとリンク先アドレスが共通するリンクのグループ、前記判定対象となるリンクとリンク元アドレスおよびリンク元表記が共通するリンクのグループ、前記判定対象となるリンクとリンク元アドレスおよびリンク先アドレスが共通するリンクのグループのうちのいずれか1つのグループまたはいずれか複数のグループを表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。   A group of links in which the inconsistency determination unit determines whether or not inconsistency is determined, a link group that has the same link source notation as the determination target, and a link to be determined A link group having a common link destination address, a link group having the same link source address and link source notation as the determination target link, and a link having the same link source address and link destination address as the determination target link The link diagnosis method according to any one of claims 8 to 16, wherein any one group or any one of a plurality of groups is displayed. 不整合判定手段が、不整合が生じていると判定されたリンクのリンク元となる文書に含まれる各リンクによって構成されるグループを表示し、ユーザから前記文書の指定を入力され、前記指定が入力された場合、前記文書を表示するとともに不整合が生じているリンクの箇所を特定して表示する請求項8から請求項16のうちのいずれか1項に記載のリンク診断方法。   The inconsistency determining means displays a group constituted by each link included in the document that is the link source of the link determined to have inconsistency, and the user inputs the specification of the document. The link diagnosis method according to any one of claims 8 to 16, wherein, when input, the document is displayed and a location of a link having inconsistency is specified and displayed. 指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段とを備えたコンピュータに、
未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、
読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、および
抽出されたリンク特徴情報と前記関係情報とを用いて、前記未判定のリンクに不整合が生じているか否かを判定する処理
を実行させるためのリンク診断プログラム。
Undecided to store undetermined link information, which is link information of undetermined links in the link information indicating the hypertext link attributes that associate the designated document with the designated source document Link information storage means, and relation information storage means for storing relation information indicating the relation between the link feature information of a link for which a determination as to whether or not inconsistency has already occurred and the determination result of the determination is stored. Computer
A process of reading the undetermined link information from the undetermined link information storage means;
Based on the read undetermined link information, using the process of extracting link feature information indicating the probability that the link is inconsistent, and using the extracted link feature information and the relationship information, A link diagnostic program for executing processing to determine whether or not inconsistency occurs in an undetermined link.
指定先の文書を指定元の文書に関連づけるハイパーテキストのリンクの属性を示すリンク情報のうち、不整合が生じているか否か未判定のリンクのリンク情報である未判定リンク情報を記憶する未判定リンク情報記憶手段と、リンク情報のうち不整合が生じているか否かの判定が既に行われているリンクのリンク情報である判定済みリンク情報と、前記判定の判定結果とを記憶する判定済みリンク情報記憶手段と、不整合が生じているか否かの判定が既に行われているリンクのリンク特徴情報と前記判定の判定結果との関係を示す関係情報を記憶する関係情報記憶手段とを備えたコンピュータに、
未判定リンク情報記憶手段から未判定リンク情報を読み込む処理、
判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込む処理、
読み込まれた未判定リンク情報にもとづいて、リンクに不整合が生じていることの確からしさを示すリンク特徴情報を抽出する処理、
読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を抽出する処理、
判定済みリンク情報にもとづいて抽出されたリンク特徴情報と、読み込まれた判定結果とを用いて、関係情報を導出する処理、および
未判定リンク情報にもとづいて抽出されたリンク特徴情報と前記関係情報とを用いて、前記未判定のリンクに不整合が生じているか否かを判定する処理
を実行させるためのリンク診断プログラム。
Undecided to store undetermined link information, which is link information of undetermined links in the link information indicating the hypertext link attributes that associate the designated document with the designated source document A determined link that stores link information storage means, determined link information that is link information of a link for which inconsistency has already been determined in the link information, and the determination result of the determination Information storage means, and relation information storage means for storing relation information indicating the relation between the link feature information of a link for which determination of whether or not inconsistency has already been made and the determination result of the determination are provided On the computer,
A process of reading the undetermined link information from the undetermined link information storage means;
Processing for reading the determined link information and the determination result from the determined link information storage means;
A process of extracting link feature information indicating the probability of inconsistency in the link based on the read undetermined link information;
A process of extracting link feature information based on the read determined link information;
Processing for deriving relationship information using link feature information extracted based on the determined link information and the read determination result, and link feature information extracted based on undecided link information and the relationship information And a link diagnosis program for executing a process of determining whether or not an inconsistency occurs in the undetermined link.
コンピュータに、
未判定のリンクに対する判定の判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力される処理、
前記未判定のリンクに対する判定の判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、
リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込む処理、
再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、および
判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた判定結果とを用いて、関係情報を再度導出する処理
を実行させる請求項23記載のリンク診断プログラム。
On the computer,
A process for outputting a determination result of a determination for an undetermined link, prompting the user to confirm whether the determination result is correct, and inputting the confirmation result of the confirmation from the user;
A process for storing a determination result of determination for the undetermined link and link information of the link in a determined link information storage unit based on the confirmation result;
Processing for re-reading the determined link information and the determination result from the determined link information storage unit after storing the link information and the determination result in the determined link information storage unit;
Using the process of extracting link feature information again based on the determined link information read again, the link feature information extracted again based on the determined link information, and the determination result read again, the relationship information 24. The link diagnosis program according to claim 23, wherein a process for deriving data is executed again.
コンピュータに、
未判定のリンクに対する判定がなされる度に判定結果を出力して、前記判定結果が正しいか否かの確認をユーザに促し、ユーザから前記確認の確認結果を入力される処理、
前記未判定のリンクに対する判定の判定結果と、前記リンクのリンク情報とを、前記確認結果にもとづいて判定済みリンク情報記憶手段に記憶させる処理、
リンク情報および判定結果を判定済みリンク情報記憶手段に記憶させた後に、判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を再度読み込む処理、
再度読み込まれた判定済みリンク情報にもとづいてリンク特徴情報を再度抽出する処理、
判定済みリンク情報にもとづいて再度抽出されたリンク特徴情報と、再度読み込まれた判定結果とを用いて、関係情報を再度導出する処理、
未判定リンク情報記憶手段に新規の未判定リンク情報が追加される度に、前記新規の未判定リンク情報を読み込む処理、
読み込まれた前記新規の未判定リンク情報にもとづいてリンク特徴情報を抽出する処理、および
前記新規の未判定リンク情報にもとづいて抽出されたリンク特徴情報と再度導出された関係情報とを用いて、未判定のリンクに不整合が生じているか否かを判定する処理
を実行させる請求項23または請求項24記載のリンク診断プログラム。
On the computer,
A process of outputting a determination result each time a determination is made on an undetermined link, prompting the user to confirm whether the determination result is correct, and inputting the confirmation result of the confirmation from the user;
A process for storing a determination result of determination for the undetermined link and link information of the link in a determined link information storage unit based on the confirmation result;
Processing for re-reading the determined link information and the determination result from the determined link information storage unit after storing the link information and the determination result in the determined link information storage unit;
Processing to extract link feature information again based on the determined link information read again,
A process of deriving the relationship information again using the link feature information extracted again based on the determined link information and the determination result read again,
A process of reading the new undetermined link information each time new undetermined link information is added to the undetermined link information storage means;
Using the process of extracting link feature information based on the read new undetermined link information, and the link feature information extracted based on the new undetermined link information and the relationship information derived again, The link diagnosis program according to claim 23 or 24, wherein a process for determining whether or not inconsistency occurs in an undetermined link is executed.
コンピュータに、
リンクに不整合が生じているか否かの判定結果の精度が最も高くなるリンク特徴情報および関係情報導出アルゴリズムの組合せを決定する最適組合せ決定処理を実行させ、
最適組合せ決定処理において、
判定済みリンク情報記憶手段から判定済みリンク情報および判定結果を読み込ませる処理、
前記判定済みリンク情報にもとづいて複数種類のリンク特徴情報を抽出させる処理、
前記複数種類のリンク特徴情報のうちの一部または全部と、複数種類の関係情報導出アルゴリズムのうちの1種類とからなる組合せを複数定める処理、
個々の組合せごとに、組合せを構成する関係情報導出アルゴリズムに従って、組合せを構成するリンク特徴情報と、読み込まれた判定結果とを用いて関係情報を導出させる処理、
前記個々の組合せごとに、既に判定結果が得られているリンクに対して、組合せに応じて導出された前記関係情報を用いて再度判定を行わせる処理、および
再度判定させた結果と既に得られている判定結果との比較を前記個々の組合せごとに行うことによって、再度判定させた結果の精度を組合せごとに求め、精度が最も高くなっている組合せを特定する処理
を実行させる請求項23から請求項25のうちのいずれか1項に記載のリンク診断プログラム。
On the computer,
Executing the optimum combination determination process for determining the combination of the link feature information and the relationship information derivation algorithm that gives the highest accuracy of the determination result of whether or not the link is inconsistent,
In the optimal combination determination process,
Processing for reading the determined link information and the determination result from the determined link information storage means;
Processing for extracting a plurality of types of link feature information based on the determined link information;
A process of determining a plurality of combinations consisting of a part or all of the plurality of types of link feature information and one type of a plurality of types of relationship information derivation algorithms;
For each individual combination, a process for deriving relation information using link feature information constituting the combination and the read determination result in accordance with a relation information derivation algorithm constituting the combination;
For each of the individual combinations, a process for making a determination again using the relation information derived according to the combination for a link for which a determination result has already been obtained, and a result of the determination being already obtained. 24. By performing comparison with the determination result for each individual combination, the accuracy of the result determined again is obtained for each combination, and the processing for specifying the combination with the highest accuracy is executed. The link diagnosis program according to any one of claims 25.
コンピュータに、
リンク特徴情報として、不整合が生じているか否かの判定対象となるリンクから特定可能なリンク特徴情報、判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報、または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報のうちのいずれか1種類もしくは複数種類のリンク特徴情報を抽出する処理
を実行させる請求項22から請求項26のうちのいずれか1項に記載のリンク診断プログラム。
On the computer,
As link feature information, link feature information that can be specified from the link that is the target of determination as to whether or not inconsistency occurs, and link features that can be specified from the link to be determined and the description content of the link destination document of the link Executes the process of extracting one or more types of link feature information indicating the size of the group to which the determination target link belongs when the information is grouped according to information or a predetermined condition The link diagnosis program according to any one of claims 22 to 26.
コンピュータに、
判定対象となるリンクから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワード、
リンク先アドレスに含まれるドメイン名もしくはディレクトリ名、
リンク元アドレスに含まれるドメイン名もしくはディレクトリ名、
文書内におけるリンク元表記の出現位置もしくは表示面積、
または判定対象となるリンクと前記リンクのリンク先の文書の記述内容とから特定可能なリンク特徴情報に該当する
リンク元表記に含まれるキーワードがリンク先文書のタイトルに出現する回数、
リンク元表記に含まれるキーワードがリンク先文書の本文に出現する回数、
リンク元表記に含まれるキーワードがリンク先文書内で強調表示されている回数、
または所定の条件に従ってリンクをグループ化した場合に判定対象となるリンクが属するグループの大きさを示すリンク特徴情報に該当する
同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合、
同一リンク元アドレスであって同一リンク元表記のグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク先アドレスを持つリンクの割合、
同一リンク元アドレスであって同一リンク先アドレスのグループ内で、関係情報を導出するためのリンクまたは判定対象となるリンクと同じリンク元表記を持つリンクの割合
のうちのいずれか1種類または複数種類の情報を抽出する処理
を実行させる請求項27記載のリンク診断プログラム。
On the computer,
The keyword included in the link source notation that corresponds to the link feature information that can be identified from the link to be judged,
Domain name or directory name included in the link destination address,
Domain name or directory name included in the link source address,
Appearance position or display area of the link source notation in the document,
Alternatively, the number of times a keyword included in the link source notation corresponding to link feature information that can be specified from the link to be determined and the description content of the link destination document of the link appears in the title of the link destination document,
The number of times a keyword included in the link source notation appears in the text of the linked document,
The number of times a keyword included in the link source notation is highlighted in the linked document,
Or, when links are grouped according to a predetermined condition, a link or determination for deriving relationship information within a group with the same link source notation that corresponds to the link feature information indicating the size of the group to which the determination target link belongs Percentage of links that have the same destination address as the target link,
Percentage of links in the group with the same link destination address that have the same link source notation as the link for deriving the relationship information or the link to be determined,
Percentage of links with the same link source address that have the same link destination address as the link for deriving the relationship information or the link to be judged within the same link source notation group,
One or more types of the same link source address and the ratio of the link for deriving the relationship information or the link source notation same as the link to be judged in the group of the same link destination address 28. The link diagnosis program according to claim 27, wherein the process for extracting the information is executed.
JP2003408436A 2003-12-08 2003-12-08 Link diagnostic device, link diagnostic method, and link diagnostic program. Expired - Fee Related JP4172388B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003408436A JP4172388B2 (en) 2003-12-08 2003-12-08 Link diagnostic device, link diagnostic method, and link diagnostic program.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003408436A JP4172388B2 (en) 2003-12-08 2003-12-08 Link diagnostic device, link diagnostic method, and link diagnostic program.

Publications (2)

Publication Number Publication Date
JP2005173671A true JP2005173671A (en) 2005-06-30
JP4172388B2 JP4172388B2 (en) 2008-10-29

Family

ID=34730125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003408436A Expired - Fee Related JP4172388B2 (en) 2003-12-08 2003-12-08 Link diagnostic device, link diagnostic method, and link diagnostic program.

Country Status (1)

Country Link
JP (1) JP4172388B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044708A (en) * 2008-08-18 2010-02-25 Fujitsu Ltd Program, device and method for managing tracking of web resource
JP2010140409A (en) * 2008-12-15 2010-06-24 Mitsubishi Electric Corp Monitoring screen generation device
JP2010176583A (en) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd Apparatus, method, program and system for processing information
JP2012053672A (en) * 2010-09-01 2012-03-15 Nec Corp Tagging device, tagging method and program
US8359294B2 (en) 2006-01-13 2013-01-22 International Business Machines Corporation Incorrect hyperlink detecting apparatus and method
JP2014006584A (en) * 2012-06-21 2014-01-16 Fujitsu Ltd Analysis device, analysis method and analysis program
JP5408380B1 (en) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 Information processing program and information processing apparatus

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359294B2 (en) 2006-01-13 2013-01-22 International Business Machines Corporation Incorrect hyperlink detecting apparatus and method
JP2010044708A (en) * 2008-08-18 2010-02-25 Fujitsu Ltd Program, device and method for managing tracking of web resource
JP2010140409A (en) * 2008-12-15 2010-06-24 Mitsubishi Electric Corp Monitoring screen generation device
JP2010176583A (en) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd Apparatus, method, program and system for processing information
JP2012053672A (en) * 2010-09-01 2012-03-15 Nec Corp Tagging device, tagging method and program
JP2014006584A (en) * 2012-06-21 2014-01-16 Fujitsu Ltd Analysis device, analysis method and analysis program
JP5408380B1 (en) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 Information processing program and information processing apparatus
JP2015001888A (en) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 Information processing program and information processing apparatus

Also Published As

Publication number Publication date
JP4172388B2 (en) 2008-10-29

Similar Documents

Publication Publication Date Title
US11972203B1 (en) Using anchors to generate extraction rules
US10783324B2 (en) Wizard for configuring a field extraction rule
CN110928772B (en) Test method and device
CN111079043B (en) Key content positioning method
EP2289007B1 (en) Search results ranking using editing distance and document information
JP6233411B2 (en) Fault analysis apparatus, fault analysis method, and computer program
US7814111B2 (en) Detection of patterns in data records
JP4997856B2 (en) Database analysis program, database analysis apparatus, and database analysis method
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
JPWO2008093569A1 (en) Information extraction rule creation support system, information extraction rule creation support method, and information extraction rule creation support program
KR100627195B1 (en) System and method for searching electronic documents created with optical character recognition
JP5370159B2 (en) Information extraction apparatus and information extraction system
US9633112B2 (en) Method of retrieving attributes from at least two data sources
JP2004139304A (en) Hyper text inspection device, its method, and program
JP2007058514A (en) Information processor, information processing method and program
US20110307488A1 (en) Information processing apparatus, information processing method, and program
JP3803961B2 (en) Database generation apparatus, database generation processing method, and database generation program
JP4172388B2 (en) Link diagnostic device, link diagnostic method, and link diagnostic program.
JP2005301859A (en) Code search program and device
JP2006268690A (en) Faq presentation/improvement method, faq presentation/improvement device and faq presentation/improvement program
JP2021089667A (en) Information processing apparatus and program
CN110188207A (en) Knowledge mapping construction method and device, readable storage medium storing program for executing, electronic equipment
JP2016024510A (en) Problem structure extraction support system, problem structure extraction support method, and program
JP2010061176A (en) Text mining device, text mining method, and text mining program
CN110188432B (en) System architecture verification method, electronic device and computer-readable storage medium

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080722

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees