JP2008097617A - Hypertext inspection apparatus, method and program - Google Patents

Hypertext inspection apparatus, method and program Download PDF

Info

Publication number
JP2008097617A
JP2008097617A JP2007278620A JP2007278620A JP2008097617A JP 2008097617 A JP2008097617 A JP 2008097617A JP 2007278620 A JP2007278620 A JP 2007278620A JP 2007278620 A JP2007278620 A JP 2007278620A JP 2008097617 A JP2008097617 A JP 2008097617A
Authority
JP
Japan
Prior art keywords
link
information
document
hypertext
link information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007278620A
Other languages
Japanese (ja)
Other versions
JP4162035B2 (en
Inventor
Hidenori Kawai
英紀 河合
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007278620A priority Critical patent/JP4162035B2/en
Publication of JP2008097617A publication Critical patent/JP2008097617A/en
Application granted granted Critical
Publication of JP4162035B2 publication Critical patent/JP4162035B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To automatically detect links to expired information. <P>SOLUTION: In a hypertext inspection apparatus, an information collecting means 11 takes the text of each document and link information included in each document from a hypertext database 21 and stores them in an information storage part 22. From the information storage part 22, a condition determining means 13 first extracts the link information containing date expressions in the descriptions of websites providing links and link information where documents with date expressions contained in their text are linked addresses. Next, the condition determining means compares the date expressions with the current date and extracts expired expressions from the documents indicated by the linked addresses in the link information extracted. Then the condition determining means calculates inappropriate scores of the link information on the basis of the result of comparing the date expressions with the current date and the result of extracting the expired expressions. The link information with the high inappropriate scores calculated is detected as information on links to expired information and is output from an output means 4. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明はハイパーテキスト検査装置に関し、特にリンク関係における誤り箇所を検知するハイパーテキスト検査装置に関する。   The present invention relates to a hypertext inspection apparatus, and more particularly to a hypertext inspection apparatus that detects an error location in a link relationship.

近年、企業、団体および個人がインターネットのサイト上に電子化した情報を公開することが多くなった。これらサイト上に公開される情報の多くはハイパーテキストである。   In recent years, companies, organizations, and individuals have frequently released electronic information on Internet sites. Most of the information published on these sites is hypertext.

ハイパーテキストとは、ハイパーリンク(リンク)で構造化された文書集合のことであり、文書をノードとし、文書間にリンクをはった構造を持つ。ハイパーテキストの代表例が、WWW(World Wide Web)である。WWWは図2(a)の文書101ようにHTML(Hyper Text Markup Language)形式で記述されたハイパーテキストの集合であり、リンク及びアンカー文字列は<A>タグによってマークされる。図2(a)の文書101では、<A>タグのhref属性に文書102、103、104の識別情報が指定されている。文書の識別情報は、WWWでは通常URLまたはwebアドレスと呼ばれるが、本発明では、単にアドレスと呼ぶこととする。また、<A>タグで挟まれた、「GX0011」「GX0012」「GX0013」などの文字列は一般にアンカー文字列と呼ばれる。ただし、<A>タグで画像ファイルを挟むこともあるため、本発明では<A>タグで挟まれた文字列または画像をリンク元表記と呼んで同様に扱うことにする。   Hypertext is a set of documents structured by hyperlinks (links), and has a structure in which documents are nodes and links are made between documents. A representative example of hypertext is WWW (World Wide Web). The WWW is a set of hypertext described in the HTML (Hyper Text Markup Language) format as in the document 101 of FIG. 2 (a), and links and anchor character strings are marked with <A> tags. In the document 101 of FIG. 2A, the identification information of the documents 102, 103, and 104 is specified in the href attribute of the <A> tag. Document identification information is usually called a URL or a web address on the WWW, but is simply called an address in the present invention. In addition, character strings such as “GX0011”, “GX0012”, and “GX0013” sandwiched between <A> tags are generally called anchor character strings. However, since an image file may be sandwiched between <A> tags, in the present invention, a character string or an image sandwiched between <A> tags is called a link source notation and is handled in the same manner.

文書101で記述されている<A>タグの属性には、href属性の他にもtarget属性、style属性なども存在する。target属性は、リンク先の文書を表示するウィンドウを指定するための属性である。また、style属性はリンクのリンク元表記を表示する際のフォントの大きさや色、強調表現などを指定するための属性である。図2(a)の文書101をブラウザで閲覧すると図2(b)の文書101のように表示される。図2(b)の文書101では、リンク元表記「GX0011」をクリックすることにより、リンク201を介して文書102にアクセスすることができる。同様にリンク元表記「GX0012」をクリックするとリンク202を介して文書103に、リンク元表記「GX0013」をクリックするとリンク203を介して文書104にアクセスすることができる。   In addition to the href attribute, the <A> tag attribute described in the document 101 includes a target attribute and a style attribute. The target attribute is an attribute for designating a window for displaying the linked document. The style attribute is an attribute for designating the font size, color, emphasis expression, etc. when displaying the link source notation of the link. When the document 101 in FIG. 2 (a) is viewed with a browser, it is displayed as the document 101 in FIG. 2 (b). In the document 101 of FIG. 2B, the document 102 can be accessed via the link 201 by clicking the link source notation “GX0011”. Similarly, when the link source notation “GX0012” is clicked, the document 103 can be accessed via the link 202, and when the link source notation “GX0013” is clicked, the document 104 can be accessed via the link 203.

なお、ハイパーテキストの代表例としてWWWについて説明したが、本発明は対象をWWWに限定したものではない。ハイパーテキストはHTMLだけではなく、XML(Extensible Markup Language)、SGML(Standard Generalized Markup Language)等を用いて記述することも可能である。   Although the WWW has been described as a representative example of hypertext, the present invention is not limited to the WWW. Hypertext can be described using not only HTML but also XML (Extensible Markup Language), SGML (Standard Generalized Markup Language), and the like.

また、本発明では「利用者」という用語の混乱をさけるために企業・団体・個人のサイトを訪れてハイパーテキストを閲覧する人を「訪問者」、本発明を利用してハイパーテキストを管理する人を「管理者」と呼ぶことにする。   Further, in the present invention, in order to avoid the confusion of the term “user”, a person who visits a company / organization / individual site and browses hypertext is “visitor”, and hypertext is managed using the present invention. Let's call a person an "administrator".

インターネットに公開される情報量の増大とともにハイパーテキストの管理は複雑困難になっており、リンク元表記が不適切なリンクや、リンク先を誤ったリンクなど、リンク不整合の件数が増大している。リンク不整合には、おおきく物理的不整合と論理的不整合の2種類に分類できる。   Hypertext management is becoming more complex as the amount of information published to the Internet increases, and the number of link inconsistencies such as links with inappropriate link source notation and links with incorrect link destinations is increasing. . There are two types of link inconsistencies: physical inconsistencies and logical inconsistencies.

物理的不整合は、リンク先のテキストがない、リンク先のサーバーがダウンしている、など、物理的にリンク先にアクセス不可能な不整合である。これら物理的不整合では、文書にアクセスした時点でサーバーやクライアントがエラーを返す。   A physical inconsistency is an inconsistency in which the link destination is physically inaccessible, such as there is no link destination text or the link destination server is down. With these physical inconsistencies, the server or client returns an error when accessing the document.

論理的不整合は、間違った製品情報へのリンクや、期限切れのキャンペーンへのリンクなど、物理的にはアクセス可能であっても、論理的な誤りを生じている不整合である。これら論理的不整合では、リンク先にテキストは存在しており、リンク先のサーバーにも異常はないため、文書にアクセスした時点でエラーは発生しない。しかし、間違いリンクによって訪問者は混乱してしまったり、期限切れのキャンペーンへ応募する訪問者が発生して管理者が対応に苦慮するなど、その影響は物理的不整合に劣らず大きい。論理的不整合の例としては、(1)リンクの張り間違い、(2)期限切れ情報へのリンク、(3)リンク元表記の不統一、(4)リンク元表記のスタイルの不統一、(5)幽霊リンク、(6)ループリンクなどが挙げられる。以下に、論理的不整合の各例について図面を参照して詳細に説明する。   A logical inconsistency is an inconsistency that causes a logical error even though it is physically accessible, such as a link to wrong product information or an expired campaign. In these logical inconsistencies, text exists at the link destination, and there is no abnormality in the linked server, so that no error occurs when the document is accessed. However, the impact is as great as physical inconsistencies, such as confusing visitors due to incorrect links, or the occurrence of visitors who apply for expired campaigns and the management struggling to respond. Examples of logical inconsistencies include: (1) Link misconfiguration, (2) Link to expired information, (3) Link source notation, (4) Link source notation style, (5 ) Ghost link, (6) Loop link, etc. Hereinafter, each example of logical inconsistency will be described in detail with reference to the drawings.

(1)リンクの張り間違い
リンクの張り間違いは図3に示すように、リンク元表記で期待される内容と、リンク先のテキストの内容がずれている場合の不整合である。図3では、リンク211、212、213、214のリンク元表記はすべて「GX0011」で同じである。また、文書111、112、113のリンク211、212、213のリンク先はいずれも文書116である。そのため文書111、112、113を閲覧した訪問者は、リンク元表記「GX0011」で期待される通り、GX0011の紹介情報である文書116にアクセスすることができる。ところが、リンク214のリンク先は間違ってGX0012の製品紹介である文書117を指定している。そのため、文書114を閲覧した訪問者は、リンク元表記「GX0011」で期待される情報とは別の製品紹介を見せられることになり、混乱してしまう。
(1) Link tension error As shown in Fig. 3, the link tension error is an inconsistency when the content expected in the link source notation and the text content of the link destination are misaligned. In FIG. 3, the links 211, 212, 213, and 214 have the same link source notation “GX0011”. The links 211, 212, and 213 of the documents 111, 112, and 113 are all the document 116. Therefore, a visitor who has viewed the documents 111, 112, and 113 can access the document 116, which is introduction information of the GX0011, as expected by the link source notation “GX0011”. However, the link destination of the link 214 incorrectly specifies the document 117 that is the product introduction of GX0012. For this reason, a visitor who has viewed the document 114 is confused because the product introduction different from the information expected by the link source notation “GX0011” is shown.

また、リンク211、212、213、215のリンク先はすべて文書116である。ところが、リンク215のリンク元表記は間違って「GX0012」と記述されている。そのため、文書115を閲覧した訪問者は、リンク元表記「GX0012」で期待される情報とは別の製品紹介を見せられることになり、混乱してしまう。   The links 211, 212, 213, and 215 are all linked to the document 116. However, the link source notation of the link 215 is erroneously described as “GX0012”. Therefore, a visitor who has viewed the document 115 is presented with a product introduction that is different from the information expected in the link source notation “GX0012”, which is confusing.

また、文書115から張られている2つのリンク215、216はどちらもリンク元表記が「GX0012」となっている。ところが、それぞれのリンク先は文書116、117と異なっているため、文書115を閲覧した訪問者は同じリンク元表記にもかかわらず異なる文書をたどることになり、混乱してしまう。   The two links 215 and 216 extending from the document 115 have the link source notation “GX0012”. However, since the respective link destinations are different from those of the documents 116 and 117, a visitor who has viewed the document 115 follows a different document regardless of the same link source notation, and is confused.

なお、ここではリンクの張り間違いの例として製品情報へのリンク間違いを説明したが、他にも、英語版文書と日本語版文書間でのリンクの張り間違いや、全く関係のないページへの間違いリンクなどの不整合もリンクの張り間違いに含む。   In addition, although the link error to the product information was explained here as an example of the link error, other link errors between the English version document and the Japanese version document, or to pages that are not related at all Mismatches such as wrong links are also included in link mistakes.

(2)期限切れ情報へのリンク
期限切れ情報へのリンクは図4に示すように、期限切れのキャンペーンや閉鎖したサービスへのリンクが残っている場合の不整合である。図4(a)では、文書125で2002年7月20日〜2002年8月31日までの期間限定でキャンペーンが行われている。また、文書121、122、123、124からはキャンペーンページである文書125へ、同じリンク元表記「入会無料」でそれぞれリンク221、222、223、224が張られている。一方、図4(b)では、キャンペーン期間を終了したために文書125では終了を告知している。また、文書121、122、123ではキャンペーンページである文書125へのリンクを削除している。にもかかわらず文書124では、リンクを削除し忘れているためにリンク元表記「入会無料」で文書125へのリンク224が残っている。そのため、文書124を閲覧した訪問者は、リンク元表記で「入会無料」を期待しても、そのサービスは受けられないことになってしまう。
(2) Link to expired information The link to expired information is inconsistent when there is a link to an expired campaign or closed service, as shown in FIG. In FIG. 4 (a), the campaign is conducted for a limited time from July 20, 2002 to August 31, 2002 in Document 125. In addition, links 221, 222, 223, and 224 are extended from the documents 121, 122, 123, and 124 to the document 125, which is a campaign page, with the same link source notation “free membership”. On the other hand, in FIG. 4B, since the campaign period is ended, the document 125 notifies the end. In the documents 121, 122, and 123, the link to the document 125 that is the campaign page is deleted. Nevertheless, in the document 124, since the link is forgotten to be deleted, the link 224 to the document 125 remains with the link source notation “free membership”. Therefore, even if a visitor who has viewed the document 124 expects “free membership” in the link source notation, the service cannot be received.

なお、ここでは期限切れ情報へのリンクの例として期限切れキャンペーンへのリンクを説明したが、他にも、最初にリンクしてあった文書のアドレスが移転し、元のアドレスに別の内容の文書が置かれることにより発生する不整合も期限切れ情報へのリンクに含む。また、最初から期間を限定していなくても、何らかの理由によりリンク先のサービスが終了されたり、サイトが閉鎖されたりすることによって生じる不整合も期限切れ情報へのリンクに含む。ただし、文書が期限切れになって削除されている場合は、アクセス時にエラーが発生するため、物理的不整合に含む。また、期限切れリンクは間違いリンクの一種で考えてもよいが、本発明では、間違いリンクの中でも特にリンク先が期限切れとなったものを、期限切れリンクとして区別している。   In addition, although the link to the expiration campaign was explained here as an example of the link to the expiration information, the address of the document that was linked first is transferred, and another document with another content is transferred to the original address. Inconsistencies caused by being placed are also included in the link to the expiration information. Even if the period is not limited from the beginning, the link to the expiration information includes inconsistencies caused by termination of the link destination service for some reason or closing of the site. However, if the document has expired and is deleted, an error occurs during access, which is included in the physical inconsistency. Moreover, although an expired link may be considered as a kind of erroneous link, in the present invention, links that have expired in particular among the erroneous links are distinguished as expired links.

(3)リンク元表記の不統一
リンク元表記の不統一は図5に示すように、リンク元表記が統一されず揺らぎがある場合の不整合である。図5では、文書131、132、133、134から、文書135へのリンクが張られている。リンク231、232、233のリンク元表記はいずれも「GX Series」である。ところが、リンク234のリンク元表記が「gX Series」となっている。そのため、文書134を閲覧した訪問者は、リンク元表記で「GX Series」とは異なる「gX Series」が存在するのかと勘違いしてリンク234をたどってしまう。
(3) Link source notation inconsistency Link source notation inconsistency is inconsistency when the link source notation is not uniform and there is fluctuation, as shown in FIG. In FIG. 5, links from the documents 131, 132, 133, and 134 to the document 135 are provided. The link source notation of the links 231, 232, and 233 are all “GX Series”. However, the link source notation of the link 234 is “gX Series”. For this reason, a visitor who has viewed the document 134 follows the link 234 by misunderstanding that there is a “gX Series” that is different from the “GX Series” in the link source notation.

なお、ここではリンク元表記の不統一の例としてリンク元表記の大文字・小文字の揺らぎを説明したが、他にも、「トップページ」「Topページ」などの英語・カタカナの表記の揺らぎ、「ヴァイオリン」「バイオリン」などのカタカナ表記の揺らぎ、「スイカ」「すいか」などのカタカナ・ひらがなの表記の揺らぎ、「イベント情報」「セミナー情報」などのあいまいな類似表現による表記の揺らぎ、「Series」「Selies」などのスペルミスなどもリンク元表記の不統一に含む。   In addition, here, we explained the fluctuation of the capital letter and small letter of the link source notation as an example of inconsistency of the link source notation, but in addition, the fluctuation of the English / Katakana notation such as `` Top page '' `` Top page '', `` Fluctuations in katakana notation such as violin and violin, fluctuations in katakana and hiragana notation such as watermelon and watermelon, fluctuations in notation with ambiguous similar expressions such as event information and seminar information, "Series" Spelling mistakes such as “Selies” are also included in inconsistencies in the link source.

(4)リンク元表記のスタイルの不統一
リンク元表記のスタイルの不統一は図6に示すように、リンクのstyle属性やtarget属性が異なっているために、リンクの見え方が異なったり、リンクをクリックした時の効果が異なる場合の不整合である。図6(a)では、文書141で4つのリンクが指定されており、そのうち3件ではリンクをクリックした時にポップアップウィンドウにリンク先のページを表示するよう、target属性「_blank」が指定されている。そのため、図6(b)のように文書141をブラウザで閲覧している訪問者は、リンク241、242、243のリンク先文書を、文書141を開いたまま次々とポップアップウィンドウで閲覧できる。特にリンク集など、リンク先を閲覧し、戻ってまた別のリンク先を閲覧することが多い文書では、このようにポップアップウィンドウにリンク先のページを表示すると便利なことが多い。一方、リンク244にはtarget属性が指定されていないため、リンクをクリックした時に文書が切り替わる設定になっている。そのため、訪問者がリンク244をクリックすると文書が切り替わってしまい、文書141へ戻るためのリンクを探したり、ブラウザの戻るボタンを使わなければならなくなってしまう。
(4) Link source notation style inconsistency Link source notation style inconsistency, as shown in Fig. 6, because the link style attribute and target attribute are different, the link looks different, or the link It is inconsistency when the effect when clicking is different. In FIG. 6 (a), four links are specified in the document 141, and in three of them, the target attribute "_blank" is specified so that when the link is clicked, the link destination page is displayed in the pop-up window. . Therefore, as shown in FIG. 6B, a visitor browsing the document 141 with a browser can browse the linked documents of the links 241, 242, and 243 in a pop-up window one after another while the document 141 remains open. In particular, it is often convenient to display the link destination page in this pop-up window in a document such as a collection of links that often browses the link destination and returns to browse another link destination. On the other hand, since the target attribute is not specified for the link 244, the document is switched when the link is clicked. For this reason, when the visitor clicks on the link 244, the document is switched, and it becomes necessary to search for a link for returning to the document 141 or to use the back button of the browser.

なお、ここではリンク元表記のスタイルの不統一の例としてtarget属性の不統一を説明したが、他にも、style属性が不統一のために、一部のリンクの色が異なっていたり、一部のリンクの強調表現の有無が不統一だったりする不整合もリンク元表記のスタイルの不統一に含む。   Note that here, the target attribute is inconsistent as an example of inconsistency in the style of the link source notation. However, because the style attribute is inconsistent, the color of some links may be different. Inconsistencies such as the presence / absence of emphasis on links in parts are also included in the inconsistency in the style of link source notation.

(5)幽霊リンク
幽霊リンクは図7に示すように、文書のHTML表記ではリンクが指定されているにも関わらず、ブラウザで閲覧するとそのリンクの存在に気がつかない場合の不整合である。図7(a)では、見出しを表す「GXシリーズ在庫状況」という文字列と、テーブルを表す<TABLE>タグの間に、<A>タグがあり、リンク先にHIDDEN_URLを指定している。ところが、リンク元表記として<A>タグの間に文字列や画像などを何も挟んでいないために、ブラウザで閲覧した時に図7(b)のように見出しと表の間にリンクがあることがわからない。このようなリンクは、クローラーでたどることは容易だが、管理者によるチェックは困難である。仮に、HIDDEN_URLが顧客リストなど機密ファイルを指していると、クローラーで容易に機密情報が取得できてしまう一方で、人間ではその漏洩に気が付かないといった問題が起こるおそれもある。
(5) Ghost link As shown in FIG. 7, the ghost link is an inconsistency when the link is specified in the HTML notation of the document, but the existence of the link is not noticed when viewed with a browser. In FIG. 7 (a), there is an <A> tag between the character string “GX series inventory status” representing the headline and the <TABLE> tag representing the table, and HIDDEN_URL is specified as the link destination. However, there is a link between the heading and the table as shown in Fig. 7 (b) when browsing with a browser because nothing is inserted between the <A> tag as a link source notation. I don't know. Such links are easy to follow on a crawler, but are difficult for administrators to check. If HIDDEN_URL points to a confidential file such as a customer list, confidential information can be easily acquired by a crawler, but there is a possibility that a human may not notice the leakage.

なお、ここでは幽霊リンクの例としてリンク元表記が何も指定されない場合を説明したが、他にも、リンク元表記に透明な画像が指定されていたり、非常に小さな画像や文字が指定されていたり、背景と同じ色の画像や文字が指定されるなど、ブラウザでの目視確認が困難な場合の不整合も幽霊リンクに含む。また、見えてはいても、リンク元表記のリンクスタイルが本文と同じ色で何も強調表現がなく、リンクと本文との見分けがつかない場合も、ブラウザでの目視確認が困難であるため幽霊リンクに含む。   In this example, the link source notation is not specified as an example of a ghost link. However, a transparent image is specified in the link source notation, or a very small image or character is specified. Inconsistencies in cases where visual confirmation in the browser is difficult, such as when images and characters of the same color as the background are specified, are also included in the ghost link. Even if it can be seen, if the link style of the link source notation is the same color as the main text and there is no emphasis expression, and the link and the main text cannot be distinguished, it is difficult to visually check with the browser. Include in the link.

(6)ループリンク
ループリンクは図8に示すように、ある情報を求めてリンクをたどっていくと、元のページに戻ってしまう場合の不整合である。図8では、文書161から文書162へ、リンク元表記「プレゼントのお知らせ」でリンク261が張られている。また、文書162から文書163へ、リンク元表記「デジカメプレゼント」でリンク262が張られている。さらに、文書163から文書161へ、リンク元表記「プレゼントはこちら」でリンク263が張られている。例えば文書161を閲覧した訪問者が「プレゼントのお知らせ」に興味を持ってリンク261をたどったとする。すると、文書162でもリンク元表記が「デジカメプレゼント」であるリンク262があるため、その先にプレゼントの詳細情報があると期待して文書163にアクセスする。さらに、文書163でも、リンク元表記が「プレゼントはこちら」のリンク263があるために欲しい情報を得ようリンク263をたどる。ところが、リンク263の先は文書161に戻ってしまい、結局どこへ行くべきかわからなくなってしまう。このように、ループリンクがあると、訪問者は自分の欲しい情報を得られないまま、文書間をさ迷うことになってしまう。
(6) Loop link As shown in FIG. 8, the loop link is an inconsistency when returning to the original page when a certain information is requested and the link is followed. In FIG. 8, a link 261 is set from a document 161 to a document 162 with a link source notation “notice of present”. Further, a link 262 is provided from the document 162 to the document 163 with the link source notation “digital camera present”. Further, a link 263 is set from the document 163 to the document 161 with the link source notation “present here”. For example, it is assumed that a visitor who has viewed the document 161 follows the link 261 with an interest in the “presentation notification”. Then, since there is a link 262 whose link source notation is “digital camera present” in the document 162, the document 163 is accessed with the expectation that there is detailed information on the present beyond that. Further, the document 163 also follows the link 263 so as to obtain the desired information because there is a link 263 whose link source notation is “here is the present”. However, the end of the link 263 returns to the document 161, and eventually it is impossible to know where to go. Thus, if there is a loop link, the visitor will be lost between documents without obtaining the information he wants.

ハイパーテキストを検査する第1の従来技術としては、後述する非特許文献1で紹介されている、インターネット上のハイパーテキストを対象としたリンクチェッカーが挙げられる。これは、インターネット上に置かれたハイパーテキストを自動巡回して、エラーが発生したらそのログを記録するツールである。このリンクチェッカーには、検査対象のアドレスを指定してオンラインで診断するタイプと、ハードディスク上の特定のフォルダを指定してオフラインで診断するタイプが存在する。   As a first conventional technique for inspecting hypertext, there is a link checker for hypertext on the Internet, which is introduced in Non-Patent Document 1 described later. This is a tool that automatically circulates hypertext on the Internet and records a log when an error occurs. There are two types of link checkers: an on-line diagnosis by designating an inspection target address and an off-line diagnosis by designating a specific folder on a hard disk.

また、第2の従来技術として、後述する特許文献1に示される発明が挙げられる。この方法によれば、管理すべきハイパーテキストのアドレスをデータベースに記憶しておき、そのアドレスに対してブラウザを定期的に自動接続させる。これにより記憶されたハイパーテキストのアドレスに文書が存在するか否かをチェックし、デッドリンクなどの物理的不整合を検知することが可能である。また、この発明によれば、データベース中の各文書を特定する手がかりとなるキーワードや画像をあらかじめシステムに登録する。これにより、デッドリンクを検知した場合には、検索エンジンを使って無くなったページを探し出し、訂正候補を提示することができる。   The second prior art includes an invention disclosed in Patent Document 1 described later. According to this method, a hypertext address to be managed is stored in a database, and a browser is automatically connected to the address periodically. As a result, it is possible to check whether a document exists at the stored hypertext address and to detect physical inconsistencies such as dead links. Further, according to the present invention, keywords and images that serve as clues for specifying each document in the database are registered in the system in advance. As a result, when a dead link is detected, a lost page can be searched using a search engine and correction candidates can be presented.

また、文書一般の検査の従来技術として、Microsoft社のWordのオートコレクト機能のような文書校正システムが挙げられる。これらの文書校正システムでは、送り仮名の間違いや助詞「の」の繰り返しなど、不適切な表現を検出し、訂正候補を出力することができる。   Also, as a conventional technique for general document inspection, there is a document proofing system such as Microsoft's Word autocorrect function. These document proofing systems can detect inappropriate expressions such as mistakes in sending kana and repetition of the particle “no” and output correction candidates.

特開2001-273185号公報JP 2001-273185 A 米国エルソプ(Elsop)社製のリンクチェッカー「LinkScan」、[平成14年10月9日検索]、インターネット<URL:http:/www.elsop.com/linkscan/>Linkcheck "LinkScan" manufactured by Elsop, USA, [October 9, 2002 search], Internet <URL: http: /www.elsop.com/linkscan/>

第1の問題点は、第1および第2の従来技術で検知できるのは物理的不整合のみであって、論理的不整合は検知できないことである。その理由は、第1および第2の従来技術ではハイパーテキストのアドレスに接続した際に、サーバーからのエラーが返ってくるか否かでしか、不整合の有無を判断していないからである。サーバーでエラーが発生しない論理的不整合の検知は、現状では人手によるブラウザ上での目視確認に頼るしか方法がない。   The first problem is that only the physical inconsistency can be detected by the first and second prior arts, and the logical inconsistency cannot be detected. The reason is that in the first and second prior arts, when connecting to a hypertext address, whether or not there is a mismatch is determined only by whether or not an error is returned from the server. At present, the only way to detect logical inconsistency that does not cause an error on the server is to rely on manual confirmation on the browser.

第2の問題点は、第1および第2の従来技術では物理的不整合の訂正候補しか提示できず、論理的不整合の訂正候補は提示できないことである。その理由は、第1の問題点と同じである。   The second problem is that the first and second prior arts can only present correction candidates for physical inconsistencies and cannot present correction candidates for logical inconsistencies. The reason is the same as the first problem.

第3の問題点は、人手によるブラウザ上の目視確認では、コストがかかり過ぎることである。その理由は、企業などの大規模なサイトは数千〜数万件のハイパーテキストで構成されており、文書間のリンクは数万件〜数十万件にもなるからである。これらのリンクをくまなくひとつづつ確認するのは時間の面でも費用の面でも現実的ではない。また、ブラウザ上の目視確認では幽霊リンクなどのチェックは漏れが生じやすい。   The third problem is that it is too expensive to manually check on the browser. The reason is that a large-scale site such as a company is composed of thousands to tens of thousands of hypertexts, and there are tens of thousands to hundreds of thousands of links between documents. It is not practical to check these links one by one in terms of time and cost. In addition, in the visual confirmation on the browser, checking of ghost links and the like is likely to leak.

本発明の第1の目的は、論理的不整合、特に期限切れ情報へのリンクを検知できるようにすることである。   A first object of the present invention is to enable detection of logical inconsistencies, particularly links to expired information.

本発明の第2の目的は、期限切れ情報へのリンクの訂正候補を管理者に提示できるようにすることである。   A second object of the present invention is to enable a manager to present correction candidates for links to expiration information.

本発明の第3の目的は、不整合チェックのコストを大幅に削減することである。   The third object of the present invention is to greatly reduce the cost of inconsistency checking.

本発明のハイパーテキスト検査装置は、ハイパーリンクで構造化された文書集合を格納するハイパーテキストデータベースと、前記ハイパーテキストデータベースから各文書を取り出し、各文書に含まれるリンク情報としてリンク元アドレス、リンク先アドレスおよびリンク元表記を取り出す情報収集手段と、前記情報収集手段によって取り出された文書の本文およびリンク情報を記憶する情報記憶手段と、リンク元表記に日付表現が含まれるリンク情報、および、本文に日付表現が含まれる文書をリンク先アドレスとするリンク情報を前記情報記憶手段から抽出して、前記日付表現と現在日時とを比較し、且つ、前記抽出したリンク情報のリンク先アドレスで示される文書から期限切れ表現を抽出し、前記日付表現と現在日時との比較結果および前記期限切れ表現の抽出結果に基づいて前記リンク情報の不適切スコアを計算し、該計算した不適切スコアの高いリンク情報を、期限切れ情報へのリンク情報として検出し、該検出結果を出力手段から出力する条件判定手段とを備える。   A hypertext inspection apparatus according to the present invention includes a hypertext database that stores a set of documents structured by hyperlinks, takes out each document from the hypertext database, and sets link source addresses and link destinations as link information included in each document. Information collecting means for retrieving the address and link source notation, information storage means for storing the text and link information of the document retrieved by the information collecting means, link information including date representation in the link source notation, and text A link information having a document containing a date expression as a link destination address is extracted from the information storage means, the date expression is compared with the current date and time, and the document indicated by the link destination address of the extracted link information The expired expression is extracted from the result, and the comparison result between the date expression and the current date and time And calculating the inappropriate score of the link information based on the extraction result of the expired expression, detecting the calculated link information having a high inappropriate score as link information to the expired information, and outputting the detection result from the output means. Output condition determining means.

本発明によれば、期限切れ情報へのリンクを自動的に検知することができる。   According to the present invention, a link to expiration information can be automatically detected.

『第1の実施の形態』
次に、本発明の第1の実施の形態について、図面を参照して詳細に説明する。
"First embodiment"
Next, a first embodiment of the present invention will be described in detail with reference to the drawings.

図1を参照すると、本発明の第1の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、キーボード等の入力装置3と、ディスプレイ装置や印刷装置等の出力装置4とを備える。   Referring to FIG. 1, the first embodiment of the present invention includes a data processing device 1 that operates under program control, a storage device 2 that stores information, an input device 3 such as a keyboard, a display device, and a printing device. And the like.

データ処理装置1は、情報収集手段11、候補計算手段12、条件判定手段13および訂正反映手段14を備えている。   The data processing device 1 includes information collection means 11, candidate calculation means 12, condition determination means 13, and correction reflection means 14.

情報収集手段11は、記憶装置2に記憶されたハイパーテキストデータベース21から各文書を取り出し、リンク情報を取り出して情報記憶部22に格納する。ここでリンク情報は、リンク元アドレス、リンク先アドレス、リンク元表記、target属性、style属性などを含んでいる。なお、情報記憶部22には、リンク情報の他に、文書の本文、更新日付、取得日時、取得時の状態(エラーか成功かなど)を記録してもよい。   The information collecting means 11 takes out each document from the hypertext database 21 stored in the storage device 2, takes out the link information, and stores it in the information storage unit 22. Here, the link information includes a link source address, a link destination address, a link source notation, a target attribute, a style attribute, and the like. In addition to the link information, the information storage unit 22 may record the text of the document, the update date, the acquisition date and time, and the status at the time of acquisition (such as error or success).

条件判定手段13は、情報記憶部22に格納されたリンクを各リンク情報の項目毎にグループ化し、グループから外れた特異なリンクをリンク不整合として情報記憶部22から抽出する。   The condition determination means 13 groups the links stored in the information storage unit 22 for each item of link information, and extracts a specific link out of the group from the information storage unit 22 as a link mismatch.

候補計算手段12は、条件判定手段13が抽出したリンク不整合のリンクに対して、訂正候補を計算し出力する。ここで訂正候補では、不整合を起こしているリンクのリンク情報のうち、どの項目をどのように訂正すべきかが指定される。   Candidate calculation means 12 calculates and outputs correction candidates for the link mismatched link extracted by condition determination means 13. Here, the correction candidate specifies which item and how to correct the link information of the link causing the inconsistency.

訂正反映手段14は、出力されたリンク不整合と訂正候補について、管理者が確認した結果をハイパーテキストデータベース21に反映させる。   The correction reflecting means 14 reflects the result confirmed by the administrator on the output link mismatch and the correction candidate in the hypertext database 21.

記憶装置2は、ハイパーテキストデータベース21と情報記憶部22とを備えている。   The storage device 2 includes a hypertext database 21 and an information storage unit 22.

ハイパーテキストデータベース21には、検査対象とするサイトに存在するハイパーテキストの集合が格納されている。なお、ハイパーテキストデータベース21は、必ずしもすべてがローカルな記憶装置2の中に存在している必要はなく、インターネット上のハイパーテキスト群のようにネットワークを介して分散していてもよい。   The hypertext database 21 stores a set of hypertexts existing in the site to be inspected. Note that the hypertext database 21 does not necessarily have to exist in the local storage device 2, and may be distributed via a network like a hypertext group on the Internet.

情報記憶部22には、ハイパーテキストデータベース21中の各文書に含まれるリンク情報が格納されている。例えば、図2の文書101に含まれるリンク情報は図9のようになる。図9を見ると、リンク201は文書101から文書102へリンク元表記「GX0011」でリンクされており、target属性は_blank、style属性はst01と指定されていることが分かる。なお、ここではリンク元表記がテキストの場合について説明したが、リンク元表記に画像が指定されている場合は、指定された画像ファイルのアドレスをリンク元表記に記録する。また、画像ファイルを文字認識モジュールにかけて、画像内部に記述されているテキストを抽出し文字列と同様に登録してもよい。   The information storage unit 22 stores link information included in each document in the hypertext database 21. For example, the link information included in the document 101 in FIG. 2 is as shown in FIG. As can be seen from FIG. 9, the link 201 is linked from the document 101 to the document 102 with the link source notation “GX0011”, the target attribute is designated as _blank, and the style attribute is designated as st01. Although the case where the link source notation is text has been described here, when an image is specified in the link source notation, the address of the specified image file is recorded in the link source notation. Alternatively, the image file may be subjected to a character recognition module to extract text described in the image and register it in the same manner as the character string.

次に、図1、図9〜13を参照して本実施の形態の動作について詳細に説明する。   Next, the operation of the present embodiment will be described in detail with reference to FIG. 1 and FIGS.

まず、入力手段3から入力された収集条件の設定に基づき、情報収集手段11がハイパーテキストデータベース21に格納されている文書を読み出す(図10のステップS1)。ここで、ハイパーテキストデータベース21がWWWの場合、HTTP(Hyper Text Transfer Protocol)を介して文書にアクセスすることができる。このような機能は、従来、IE(Internet Explorer)などのWebブラウザ、あるいはWebクローラー(スパイダー/ロボット)において実現されている。ハイパーテキストデータベース21がWWWの場合の収集設定画面を図11に示す。図11では、分析対象とするサイトのドメイン名、収集する文書の目標ページ数、収集対象とする文書の拡張子、サーバーにアクセスする時間間隔、収集に失敗した場合のリトライ回数、収集時のタイムアウト時間、リンクをたどって再帰的に収集する場合の再帰の階層の深さなどを指定できる。図11の実行ボタンを押すと、ハイパーテキストの収集が開始される。   First, based on the setting of the collection condition input from the input unit 3, the information collection unit 11 reads a document stored in the hypertext database 21 (step S1 in FIG. 10). Here, when the hypertext database 21 is WWW, the document can be accessed via HTTP (Hyper Text Transfer Protocol). Such a function is conventionally realized in a web browser such as IE (Internet Explorer) or a web crawler (spider / robot). FIG. 11 shows a collection setting screen when the hypertext database 21 is WWW. In Figure 11, the domain name of the site to be analyzed, the target number of pages to be collected, the extension of the document to be collected, the time interval for accessing the server, the number of retries if collection fails, the timeout during collection You can specify the time, the depth of the recursive hierarchy when collecting recursively by following links. When the execution button in FIG. 11 is pressed, collection of hypertext is started.

次に、情報収集手段11は収集した文書のHTML記述を解析し、図9に示すようなリンク情報を抽出して情報記憶部22に格納する(図10のステップS2)。   Next, the information collecting means 11 analyzes the HTML description of the collected document, extracts link information as shown in FIG. 9, and stores it in the information storage unit 22 (step S2 in FIG. 10).

次に、入力手段3から入力された抽出条件に基づき、条件判定手段13が該当するリンクを情報記憶部22からリンク不整合として抽出する(図10のステップS3)。抽出条件の設定画面を図12に示す。図12では、分析対象となるサイトについて、デッドリンク(物理的不整合)、間違いリンク、期限切れ情報へのリンクなど、各種のリンク不整合のうち、どれを抽出するかを指定することができる。また、あらかじめ特定のアドレスへのリンクが不整合であると分かっている場合、そのアドレスをリンク先に持つリンクを抽出することもできる(図12中の「特定URL」)。さらに、抽出されるリンク不整合が多い場合に、何件づつ画面に表示するかも指定可能である。図12の実行ボタンを押すと、リンク不整合の抽出が開始される。各リンク不整合のうち、デッドリンクの抽出は前述した従来技術によって可能であり、本発明とは直接関係しないので説明は省略する。また、特定URLをリンク先に持つリンクの抽出方法は当業者に自明であるためその説明は省略する。残りの各種論理的不整合リンクの抽出方法の詳細は後述する。   Next, based on the extraction condition input from the input unit 3, the condition determination unit 13 extracts the corresponding link from the information storage unit 22 as a link mismatch (step S3 in FIG. 10). An extraction condition setting screen is shown in FIG. In FIG. 12, it is possible to specify which of various types of link inconsistencies such as dead links (physical inconsistencies), wrong links, links to expired information, etc. are extracted for the site to be analyzed. If it is known in advance that a link to a specific address is inconsistent, a link having that address as a link destination can also be extracted (“specific URL” in FIG. 12). Furthermore, when there are many extracted link inconsistencies, it is possible to specify how many cases are displayed on the screen. When the execution button in FIG. 12 is pressed, extraction of link mismatch is started. Of each link mismatch, the dead link can be extracted by the above-described prior art, and since it is not directly related to the present invention, description thereof is omitted. Moreover, since the method of extracting a link having a specific URL as a link destination is obvious to those skilled in the art, the description thereof is omitted. Details of the method for extracting the remaining various logical inconsistent links will be described later.

次に、条件判定手段13がリンク不整合として抽出したリンクについて、候補計算手段12が不整合を解消するための訂正候補を求め、結果一覧画面を出力する(図10のステップS4、S5)。   Next, for the link extracted by the condition determining means 13 as a link mismatch, the candidate calculating means 12 obtains correction candidates for eliminating the mismatch, and outputs a result list screen (steps S4 and S5 in FIG. 10).

出力されるリンク不整合の結果一覧画面の一例を図13に示す。図13ではリンク先とリンク元表記が同じリンクをグループ化しており、それぞれ不整合の種類、訂正候補を付与して表示している。また、各リンク元アドレスおよびリンク先アドレスをクリックすると該当文書にアクセスできるようになっている。また、訂正候補の欄にはシステムが出力する訂正候補が記入されている。訂正候補は訂正対象とすべきリンク情報の項目と、どのように訂正すべきかを「:」で区切って記述する。例えば、図13で「リンク:削除」とあるのは、リンク自体を削除することを意味する。また、「リンク元表記:新着情報」とあるのは、リンク元表記を「新着情報」に変更することを意味する。この訂正候補は、管理者が確認後、書き換えることも可能である。   An example of an output link mismatch result list screen is shown in FIG. In FIG. 13, links having the same link destination and link source notation are grouped and displayed with a mismatch type and a correction candidate, respectively. The corresponding document can be accessed by clicking on each link source address and link destination address. In the correction candidate column, correction candidates output by the system are entered. The correction candidates describe the items of link information to be corrected and how to correct them by separating them with “:”. For example, “link: delete” in FIG. 13 means that the link itself is deleted. Also, “link source notation: new arrival information” means that the link source notation is changed to “new arrival information”. This correction candidate can be rewritten after confirmation by the administrator.

次に、管理者は出力されたリンク不整合と訂正候補を確認する(図10のステップS6)。このとき、図13ではリンク先とリンク元表記が同じリンクをグループ化しているため、管理者はリンクをすべて確認しなくても、各不整合の代表例のみを確認すればよい。例えばリンク271〜274のリンクはどれもリンク先が文書175で、リンク元表記が「○×キャンペーン実施中」で、期限切れになっており、それを訂正するためには、リンクを削除する必要があることがわかる。そのため、管理者は、リンク271〜274のリンクをすべて確認しなくとも、文書171にアクセスしてリンク271の不整合と訂正候補が正しいと確認できれば、残りのリンク272〜274を確認する必要はなく、確認に要するコストが削減される。   Next, the administrator confirms the output link mismatch and the correction candidate (step S6 in FIG. 10). At this time, in FIG. 13, links having the same link destination and link source notation are grouped. Therefore, the administrator does not need to check all the links, but only checks the representative examples of each inconsistency. For example, the links 271 to 274 are all expired because the link destination is the document 175, the link source notation is “XX campaign in progress”, and it is necessary to delete the link to correct it I know that there is. Therefore, the administrator need not check the remaining links 272 to 274 if he / she can access the document 171 and confirm that the inconsistency and correction candidates of the link 271 are correct without checking all the links 271 to 274. In addition, the cost required for confirmation is reduced.

訂正候補が複数ある場合は、「リンク先:文書177 OR リンク元表記:製品B」のようにORで区切って管理者に提示される。この場合、管理者は、確認の結果必要な訂正候補のみを残せばよい。また、確認の結果、訂正候補が間違っていると判断した場合、それを修正することもできる。例えば、リンク278、279の訂正候補はリンク元表記を「新着情報」に訂正するようになっているが、リンク先アドレスを文書180に変更した方が適当だと考えた場合には、該当する訂正候補を「リンク先:文書180」に変更すればよい。また、管理者は、確認の結果、訂正したくないと判断した場合には、訂正候補を空欄にすれば後のステップで訂正は行われない。   When there are a plurality of correction candidates, they are presented to the administrator separated by OR, such as “link destination: document 177 OR link source notation: product B”. In this case, the administrator need only leave the correction candidates necessary as a result of the confirmation. If it is determined that the correction candidate is wrong as a result of the confirmation, it can be corrected. For example, the correction candidates for links 278 and 279 are designed to correct the link source notation to “new arrival information”. However, if it is appropriate to change the link destination address to document 180, it is applicable. The correction candidate may be changed to “link destination: document 180”. If the administrator determines that correction is not desired as a result of confirmation, if the correction candidate is left blank, correction is not performed in a later step.

次に、管理者が図13の訂正反映ボタンを押すと、訂正反映手段15は、管理者に確認された訂正候補に基づいてハイパーテキストデータベース21の各文書を修正する(図10のステップS7)。この段階で、訂正候補が複数ORでつながれている場合は、最初の訂正候補だけが反映される。   Next, when the administrator presses the correction reflection button in FIG. 13, the correction reflection means 15 corrects each document in the hypertext database 21 based on the correction candidates confirmed by the administrator (step S7 in FIG. 10). . At this stage, if correction candidates are connected by multiple ORs, only the first correction candidate is reflected.

また、図13では、リンク元、リンク先、リンク元表記の項目に「ソート」というリンクがある。これはそれぞれの項目をキーに抽出結果をソートするためのものである。例えば、リンク元の項目にある「ソート」をクリックすると、リンク元文書をキーに抽出結果をソートして出力する。これにより、各文書にそれぞれどのようなリンク不整合が発生しているかを把握することができるため、不整合を人手で修正する場合に利用可能である。また、リンク先の項目にある「ソート」をクリックすると、リンク先文書をキーに抽出結果をソートして出力する。これにより、ある特定の文書にはられたリンクについて、不整合の発生状況を把握することができるため、アクセスが集中する文書など、重要な文書に対する不整合を重点的に調べることができる。さらに、リンク元表記の項目にある「ソート」をクリックすると、リンク元表記をキーに抽出結果をソートして出力する。これにより、どのような種類のリンク元表記において不整合が発生しやすいかを把握することができるため、リンク元表記として使っている表現の妥当性などを調べることができる。   In FIG. 13, there is a link “sort” in the items of link source, link destination, and link source notation. This is for sorting the extraction results using each item as a key. For example, when “sort” in the link source item is clicked, the extraction results are sorted and output using the link source document as a key. As a result, it is possible to grasp what kind of link inconsistency has occurred in each document, which can be used when correcting the inconsistency manually. When “sort” in the link destination item is clicked, the extraction results are sorted and output using the link destination document as a key. As a result, it is possible to grasp the occurrence status of inconsistency with respect to a link given to a specific document, so it is possible to focus on inconsistencies with respect to important documents such as documents with concentrated access. Furthermore, when “sort” in the item of link source notation is clicked, the extraction results are sorted and output using the link source notation as a key. As a result, it is possible to grasp what type of link source notation is likely to cause inconsistency, so that the validity of the expression used as the link source notation can be checked.

なお、本実施の形態では、図13の結果一覧画面における「訂正候補」の欄に表示されたリンク元表記、リンク先等を管理者に訂正させたが、同画面における「リンク元」、「リンク先」、「リンク元表記」の欄を直接上書きすることで、リンク元、リンク先、リンク元表記を訂正させるようにしても良い。また、本実施の形態では、ハイパーテキストの収集設定と、リンク不整合の抽出条件設定を別々の画面で行ったが、分析を開始する時点で同じ画面で一度に条件を設定しておき、ステップS1〜S5までをすべて自動化して実行する方法もあり、本実施の形態に述べた方法に限定されない。   In the present embodiment, the administrator corrects the link source notation, link destination, etc. displayed in the column “correction candidates” on the result list screen of FIG. 13, but the “link source”, “ The link source, the link destination, and the link source notation may be corrected by directly overwriting the fields of “link destination” and “link source notation”. In the present embodiment, the hypertext collection setting and the link mismatch extraction condition setting are performed on separate screens. However, when the analysis is started, the conditions are set all at once on the same screen. There is also a method in which all of S1 to S5 are automated and executed, and is not limited to the method described in the present embodiment.

また、本実施の形態では、ステップS6で管理者が出力されたリンク不整合と訂正候補の確認を行ったが、ステップS6を省略してステップS1〜S7までをすべて自動化して実行する方法もあり、本実施の形態に述べた方法に限定されない。   Also, in this embodiment, the link inconsistency and correction candidates that were output by the administrator in step S6 were confirmed, but there is also a method in which step S6 is omitted and all steps S1 to S7 are automated and executed. There is no limitation to the method described in this embodiment.

また、本実施の形態では、管理者が検査のタイミングを決めて実行する場合について説明したが、あらかじめ収集条件と抽出条件を設定しておき、定期的に自動でステップS1〜S5までを実行し、得られた結果をメールなどで通知する方法などもあり、本実施の形態に述べた方法に限定されない。   In the present embodiment, the case where the administrator decides and executes the inspection timing has been described. However, collection conditions and extraction conditions are set in advance, and steps S1 to S5 are automatically executed periodically. There is also a method of notifying the obtained result by e-mail or the like, and is not limited to the method described in this embodiment.

[間違いリンク検知の実施形態]
次に、図3および図14、図15を参照して、間違いリンクを検知する場合の条件判定手段13と候補計算手段12の動作について詳細に説明する。情報記憶部22には、図3の文書群のリンク情報が格納されているものとする。
[Effect link detection embodiment]
Next, with reference to FIG. 3, FIG. 14, and FIG. 15, the operations of the condition determination means 13 and the candidate calculation means 12 when an erroneous link is detected will be described in detail. Assume that the information storage unit 22 stores link information of the document group of FIG.

まず、条件判定手段13は情報記憶部22から、リンク元表記が同じリンクをグループ化し、同一グループ内でリンク先が同じリンクをサブグループ化し、リンク先が異なるサブグループに属するリンクを抽出する。また、サブグループに含まれるリンクの数に応じて、各リンクに不適正スコアを付与する(ステップT11)。図15(a)に、ステップT11で抽出されるリンクと、付与される不適正スコアの例を示す。図15(a)を見ると、リンク元表記「GX0011」でリンク211、212、213、214がグループ化されており、リンク元表記「GX0012」でリンク215、216がグループ化されていることがわかる。さらに、リンク元表記「GX0011」のグループのうち、リンク211、212、213の3件はリンク先が文書116のサブグループになり、リンク214はリンク先が文書117のサブグループとなる。また、リンク元表記「GX0012」のグループのうち、リンク215はリンク先が文書116のサブグループ、リンク216はリンク先が文書117のサブグループとなる。   First, the condition determination means 13 groups from the information storage unit 22 links having the same link source notation, sublinks links having the same link destination in the same group, and extracts links belonging to subgroups having different link destinations. Further, an inappropriate score is assigned to each link according to the number of links included in the subgroup (step T11). FIG. 15 (a) shows an example of the link extracted at step T11 and the inappropriate score given. As shown in FIG. 15 (a), links 211, 212, 213, and 214 are grouped under link source notation “GX0011”, and links 215 and 216 are grouped under link source notation “GX0012”. Recognize. Further, in the group of the link source notation “GX0011”, three links 211, 212, and 213 have a link destination as a subgroup of the document 116, and a link 214 has a link destination as a subgroup of the document 117. In the group of the link source notation “GX0012”, the link 215 is a subgroup of the document 116 as the link destination, and the link 216 is a subgroup of the document 117 as the link destination.

不適正スコアの付与は、まず一つのグループの不適正スコアを1とし、それをサブグループ内のリンク数に反比例して配分したものを各サブグループの不適正スコアとする。さらに、各サブグループの不適正スコアをサブグループ内のリンクの数で等分したものを各リンクの不適正スコアとする。例えば、図15(a)では、リンク元表記「GX0011」のグループの不適正スコアを1とし、サブグループ内のリンク数に反比例して配分すると、リンク先アドレスが文書116のサブグループの不適正スコアは1/4、リンク先アドレスが文書117のサブグループの不適正スコアは3/4になる。さらに、リンク211、212、213でサブグループの不適正スコア1/4を3等分するため、各リンクの不適正スコアは1/12となる。また、リンク214の不適正スコアは3/4である。同様に、リンク215、216の不適正スコアはどちらも1/2となる。   Inappropriate score assignment, first, the inappropriate score of one group is set to 1, and the distribution of the inappropriate score in inverse proportion to the number of links in the sub group is used as the inappropriate score of each sub group. Further, an inappropriate score of each link is obtained by equally dividing the inappropriate score of each subgroup by the number of links in the subgroup. For example, in FIG. 15 (a), if the inappropriate score of the group with the link source notation “GX0011” is 1, and the distribution is inversely proportional to the number of links in the subgroup, the link destination address is inappropriate for the subgroup of the document 116. The score is 1/4, and the inappropriate score of the subgroup whose link destination address is the document 117 is 3/4. Further, since the inappropriate score 1/4 of the subgroup is divided into three equally at the links 211, 212, and 213, the inappropriate score of each link is 1/12. The inappropriate score of the link 214 is 3/4. Similarly, the inappropriate scores of the links 215 and 216 are both 1/2.

次に、条件判定手段13は情報記憶部22から、リンク先が同じリンクをグループ化し、同一グループ内でリンク元表記が同じリンクをサブグループ化し、リンク元表記が異なるサブグループに属するリンクを抽出する。また、サブグループに含まれるリンクの数に応じて、各リンクに不適正スコアを付与する(ステップT12)。図15(b)に、ステップT12で抽出されるリンクと、付与される不適正スコアの例を示す。図15(b)を見ると、リンク先が文書116のリンク211、212、213、215がグループ化されており、リンク先が文書117のリンク214、216がグループ化されていることがわかる。さらに、リンク先が文書116のグループのうち、リンク211、212、213の3件はリンク元表記が「GX0011」のサブグループになり、リンク215はリンク元表記が「GX0012」のサブグループとなる。また、リンク先が文書117のグループのうち、リンク214はリンク元表記が「GX0011」のサブグループ、リンク216はリンク元表記が「GX0012」のサブグループとなる。不適正スコアの付与は、ステップT11と同じである。したがって、ステップT12でのリンク211、212、213の不適正スコアは1/12、リンク215の不適正スコアは3/4、リンク214、216の不適正スコアは1/2となる。   Next, the condition judging means 13 groups the links with the same link destination from the information storage unit 22, subgroups the links with the same link source notation in the same group, and extracts the links belonging to the subgroups with different link source notations. To do. Further, an inappropriate score is given to each link according to the number of links included in the subgroup (step T12). FIG. 15 (b) shows an example of the link extracted in step T12 and the inappropriate score given. Referring to FIG. 15B, it can be seen that the links 211, 212, 213, and 215 with the link destination of the document 116 are grouped, and the links 214 and 216 with the link destination of the document 117 are grouped. Further, among the groups of the document 116 linked to, three links 211, 212, and 213 are subgroups with the link source notation “GX0011”, and the link 215 is a subgroup with the link source notation “GX0012”. . Among the groups of the document 117 as the link destination, the link 214 is a subgroup with the link source notation “GX0011”, and the link 216 is a subgroup with the link source notation “GX0012”. Assignment of an inappropriate score is the same as in step T11. Therefore, the inappropriate score of the links 211, 212, and 213 at step T12 is 1/12, the inappropriate score of the link 215 is 3/4, and the inappropriate score of the links 214 and 216 is 1/2.

次に、条件判定手段13は情報記憶部22から、リンク元が同じでかつリンク元表記も同じリンクをグループ化し、同一グループ内でリンク先が同じリンクをサブグループ化し、リンク先が異なるサブグループに属するリンクを抽出する。また、サブグループに含まれるリンクの数に応じて、各リンクに不適正スコアを付与する(ステップT13)。図15(c)に、ステップT13で抽出されるリンクと、付与される不適正スコアの例を示す。図15(c)を見ると、リンク元が文書115でかつリンク元表記が「GX0012」であるリンク215、216がグループ化されていることがわかる。さらに、リンク215はリンク先が文書116のサブグループになり、リンク216はリンク先が文書117のサブグループとなる。不適正スコアの付与は、ステップT11と同じである。したがって、ステップT13でのリンク215、216の不適正スコアはそれぞれ1/2となる。   Next, the condition determining means 13 groups from the information storage unit 22 links having the same link source and the same link source notation, sub-groups links having the same link destination in the same group, and sub-groups having different link destinations. Extract links belonging to. Further, an inappropriate score is assigned to each link according to the number of links included in the subgroup (step T13). FIG. 15 (c) shows an example of the link extracted in step T13 and the inappropriate score given. FIG. 15C shows that links 215 and 216 whose link source is the document 115 and whose link source notation is “GX0012” are grouped. Further, the link 215 has a link destination as a subgroup of the document 116, and the link 216 has a link destination as a subgroup of the document 117. Assignment of an inappropriate score is the same as in step T11. Accordingly, the inappropriate scores of the links 215 and 216 at step T13 are each ½.

次に、条件判定手段13は情報記憶部22から、リンク元表記に含まれる単語がリンク先文書のタイトル、見出し、強調文字列に含まれないリンクを抽出し、不適正スコア1を付与する(ステップT14)。図15(d)に、ステップT14で抽出されるリンクと、付与される不適正スコアの例を示す。図15(d)で抽出されているリンク214、215は、図3において、どちらもリンク先の文書にリンク元表記に含まれる単語が出現していない。   Next, the condition determination means 13 extracts from the information storage unit 22 a link in which the word included in the link source notation is not included in the title, heading, or highlighted character string of the link destination document, and gives an inappropriate score 1 ( Step T14). FIG. 15 (d) shows an example of the link extracted at step T14 and the inappropriate score given. In the links 214 and 215 extracted in FIG. 15D, the word included in the link source notation does not appear in the linked document in FIG.

次に、条件判定手段13は、各リンクの不適正スコアを合計する(ステップT15)。したがって、リンク211、212、213の不適正スコアは1/12+1/12=1/6となる。また、リンク214の不適正スコアは3/4+1/2+1=9/4となる。また、リンク215の不適正スコアは1/2+3/4+1/2+1=11/4となる。また、リンク216の不適正スコアは1/2+1/2+1/2=3/2となる。   Next, the condition determination means 13 sums up the inappropriate scores for the links (step T15). Therefore, the inappropriate scores of the links 211, 212, and 213 are 1/12 + 1/12 = 1/6. Further, the inappropriate score of the link 214 is 3/4 + 1/2 + 1 = 9/4. The inappropriate score of the link 215 is 1/2 + 3/4 + 1/2 + 1 = 11/4. Further, the inappropriate score of the link 216 is 1/2 + 1/2 + 1/2 = 3/2.

次に、条件判定手段13は、各サブグループ間で不適正スコアの合計を比較し、不適正スコアが高いリンクをリンク不整合として抽出する。また、候補計算手段12は、各条件で抽出されたリンクについて、同一グループ内で、スコアの高いリンクのリンク情報を、スコアの低いリンクのリンク情報に一致させるような訂正候補を求める(ステップT16)。図15(a)の、リンク元表記が「GX0011」であるグループでは、リンク211、212、213からなるサブグループの不適正スコアの合計は1/6+1/6+1/6=1/2、リンク214からなるサブグループの不適正スコアの合計は9/4であるから、不適正スコアが高いリンク214をリンク不整合と決定する。また、リンク214のリンク情報をリンク211、212、213のサブグループに一致させるためには、「リンク先:文書116」の訂正候補が適当であることがわかる。さらに、図15(a)の、リンク元表記が「GX0012」であるグループでは、リンク215の不適正スコアの合計は11/4、リンク216の不適正スコアの合計は3/2であるため、リンク215をリンク不整合と決定する。また、リンク215のリンク情報をリンク216のサブグループに一致させるためには、「リンク先:文書117」の訂正候補が適当であることがわかる。同様に、図15(b)では、リンク215がリンク不整合と決定されて「リンク元表記:GX0011」が訂正候補となり、リンク214がリンク不整合と決定されて「リンク元表記:GX0012」が訂正候補として求まる。さらに同様に、図15(c)では、リンク215がリンク不整合と決定されて「リンク先:文書117」が訂正候補となる。以上の結果を統合すると、リンク不整合はリンク214、215であり、訂正候補はそれぞれ「リンク先:文書116 OR リンク元表記:GX0012」、「リンク先:文書117 OR リンク元表記:GX0011」となる。   Next, the condition determination means 13 compares the total inappropriate scores between the subgroups, and extracts a link with a high inappropriate score as a link mismatch. Further, the candidate calculation means 12 obtains a correction candidate for matching the link information of the link having a high score with the link information of the link having a low score in the same group for the link extracted under each condition (step T16). ). In the group with link source notation “GX0011” in FIG. 15 (a), the sum of the inappropriate scores of the subgroups consisting of links 211, 212, and 213 is 1/6 + 1/6 + 1/6 = 1 / 2. Since the sum of the inappropriate scores of the subgroups composed of the links 214 is 9/4, the link 214 having a high inappropriate score is determined as a link mismatch. Further, it is understood that the correction candidate “link destination: document 116” is appropriate for matching the link information of the link 214 with the subgroups of the links 211, 212, and 213. Further, in the group of FIG. 15 (a) where the link source notation is “GX0012”, the total inappropriate score of link 215 is 11/4, and the total inappropriate score of link 216 is 3/2. The link 215 is determined as a link mismatch. Further, it is understood that the correction candidate “link destination: document 117” is appropriate for matching the link information of link 215 with the subgroup of link 216. Similarly, in FIG. 15 (b), link 215 is determined to be link inconsistent and “link source notation: GX0011” becomes a correction candidate, and link 214 is determined to be link inconsistent and “link source notation: GX0012” is It is obtained as a correction candidate. Similarly, in FIG. 15C, the link 215 is determined to be link inconsistent, and “link destination: document 117” becomes a correction candidate. When the above results are integrated, the link mismatch is links 214 and 215, and the correction candidates are “link destination: document 116 OR link source notation: GX0012” and “link destination: document 117 OR link source notation: GX0011”, respectively. Become.

なお、本実施の形態では、不適正スコアの合計が高いリンクをリンク不整合としたが、不適正スコアの閾値を設けて、不適正スコアが高くても閾値以下であればリンク不整合としない方法もあり、本実施の形態に述べた方法に限定されない。   In this embodiment, a link having a high improper score is regarded as a link mismatch. However, a threshold of an inappropriate score is provided, and even if the inappropriate score is high, a link mismatch does not occur as long as it is below the threshold. There is also a method, and the present invention is not limited to the method described in this embodiment.

また、本実施の形態では、不適正スコアの一例としてサブグループ内でのリンク数を元に計算したが、単純に抽出された回数を不適正スコアとしてもよく、本実施の形態に述べた方法に限定されない。また、サブグループ内でのリンク数をそのリンクの特徴ベクトルとし、あらかじめ教師データとして与えられた不整合リンクの特徴ベクトルとの距離の平均値を不適切スコアとする方法などもあり、本実施の形態に述べた方法に限定されない。   Further, in the present embodiment, the calculation is based on the number of links in the subgroup as an example of the inappropriate score, but the number of extracted times may be simply used as the inappropriate score, and the method described in the present embodiment It is not limited to. In addition, there is a method in which the number of links in a subgroup is used as the feature vector of the link, and the average value of the distance from the feature vector of the inconsistent link given in advance as teacher data is used as an inappropriate score. It is not limited to the method described in the embodiment.

また、本実施の形態では、間違いリンクの抽出条件として、(1)リンク先ページが同一の複数リンクについてリンク元表記を比較することで計算される第1の不適正スコア、(2)リンク元表記が同一の複数リンクについてリンク先ページを比較することで計算される第2の不適正スコア、(3)リンク元ページおよびリンク元表記が同一の複数リンクについてリンク先ページを比較することで計算される第3の不適正スコア、(4)リンク元表記とリンク先ページとの間の内容比較によって計算される第4の不適正スコアを合計して求めたが、これらのうち、1種類もしくは複数種類を用いたり、各条件に応じて重み付けを行って不適正スコアを計算してもよく、本実施の形態に述べた方法に限定されない。   Further, in the present embodiment, as an extraction condition for erroneous links, (1) a first inappropriate score calculated by comparing link source notation for a plurality of links with the same link destination page, (2) link source Second inappropriate score calculated by comparing linked pages for multiple links with the same notation, (3) Calculated by comparing linked pages for multiple links with the same link source notation The third inappropriate score to be calculated, and (4) the 4th inappropriate score calculated by comparing the contents between the link source notation and the linked page, was summed up. Inappropriate scores may be calculated using a plurality of types or weighting according to each condition, and is not limited to the method described in this embodiment.

[期限切れリンク検知の実施形態]
次に、図4および図16を参照して、期限切れリンクを検知する場合の条件判定手段13と候補計算手段12の動作について詳細に説明する。
[Expired link detection embodiment]
Next, with reference to FIG. 4 and FIG. 16, the operation of the condition determination means 13 and the candidate calculation means 12 when detecting an expired link will be described in detail.

まず、条件判定手段13はリンク元表記に日付表現が含まれるリンクや、日付表現が含まれる文書を指しているリンクを抽出して日付表現から有効期限を計算し、現在日時が有効期限内であるか否かを判定する(図16のステップT21)。   First, the condition judgment means 13 extracts a link whose date expression includes a date expression or a link pointing to a document including a date expression, calculates the expiration date from the date expression, and the current date is within the expiration date It is determined whether or not there is (step T21 in FIG. 16).

次に、条件判定手段13は抽出したリンクのリンク先文書に含まれる期限切れ表現を抽出する(図16のステップT22)。ここで、期限切れ表現とは、「閉鎖しました」「移動しました」「終了しました」「秒後に自動的にジャンプします」「○月×日をもちまして」「ご愛顧ありがとうございました」「参加ありがとうございました」など、サービスが終了、閉鎖または移動した場合の告知文によく使われる表現のことである。また、上記表現の他にも、HTMLによって数秒後に自動的に文書が切り替わる設定になっていればこれも期限切れ表現として抽出する。   Next, the condition determination means 13 extracts an expired expression included in the link destination document of the extracted link (step T22 in FIG. 16). Here, the term "expired" means "closed", "moved", "finished", "jumps automatically in seconds", "Has a month x day", "Thank you for your patronage", "Thank you for participating" This is an expression often used in announcements when the service is terminated, closed, or moved. In addition to the above expression, if the setting is such that the document is automatically switched after a few seconds by HTML, this is also extracted as an expired expression.

次に、条件判定手段13は、ステップT21の有効期限内か否かの判定結果と、ステップT22で抽出された期限切れ表現の数を統合して、リンクの不適切スコアを計算する。この不適切スコアがあらかじめ定めた閾値以下であれば、リンク不整合として出力する(図16ステップT23)。リンクの不適切スコアの計算方法の例としては、有効期限からの日数と、抽出された期限切れ表現の出現回数とを掛けて求める方法などがある。なお、その他にも、有効期限内か否かの結果と、抽出された期限切れ表現の出現回数をそのリンクの特徴ベクトルとし、あらかじめ教師データとして与えられた不整合リンクの特徴ベクトルとの距離の平均値を不適切スコアとする方法などもあり、本実施の形態に述べた方法に限定されない。   Next, the condition determining means 13 integrates the determination result of whether or not it is within the expiration date of step T21 and the number of expired expressions extracted at step T22, and calculates an inappropriate score for the link. If this inappropriate score is less than or equal to a predetermined threshold value, a link mismatch is output (step T23 in FIG. 16). As an example of the calculation method of the inappropriate score of the link, there is a method of obtaining by multiplying the number of days from the expiration date by the number of appearances of the extracted expiration expression. In addition, the average of the distance between the result of whether it is within the expiration date and the number of occurrences of the extracted expired expression as the feature vector of the link and the feature vector of the inconsistent link previously given as teacher data There is a method of setting a value as an inappropriate score, and the method is not limited to the method described in this embodiment.

次に、候補計算手段12は、リンク不整合として出力されたリンクについて、リンク先文書中から移転先アドレスを抽出して訂正候補とする。ここで、移転先のアドレスとは、HTMLによって自動的に文書が切り替わる設定になっている場合のとび先のアドレスである。また、自動的に文書が切り替わらなくても、「ここをクリック」「下記URLに移動しました」などの表現を抽出し、その表現の内部あるいは近傍に記述されているリンクのリンク先アドレスを移転先アドレスとして訂正候補にしてもよい。一方、移動先アドレスが抽出できなかった場合は、訂正候補を「リンク:削除」として出力する。   Next, the candidate calculation means 12 extracts a transfer destination address from the link destination document for the link output as the link mismatch and sets it as a correction candidate. Here, the transfer destination address is a jump destination address when the document is automatically switched by HTML. Even if the document does not change automatically, expressions such as “Click here” and “Moved to the following URL” are extracted, and the link destination address of the link described in or near the expression is transferred. A correction candidate may be used as the destination address. On the other hand, if the destination address cannot be extracted, the correction candidate is output as “link: deleted”.

図4(a)の場合について、条件判定手段13と候補計算手段12の動作の具体例を述べる。なお、リンクの不適切スコアの計算方法としては、前述したように、有効期限からの日数と、抽出された期限切れ表現の出現回数とを掛けて求める方法を用いるものとする。   A specific example of the operation of the condition determination means 13 and the candidate calculation means 12 will be described in the case of FIG. Note that, as described above, as a method of calculating the inappropriate score of the link, a method of multiplying the number of days from the expiration date by the number of appearances of the extracted expiration expression is used.

まず、ステップT21では、文書125内に「2002年7月20日〜2002年8月31日」という日付表現があるため、条件判定手段13はリンク221、222、223、224を抽出する。この時、現在日時は2002年8月15日であるため、リンク221、222、223、224は有効期限内であると判定される。   First, in step T21, since there is a date expression “July 20, 2002 to August 31, 2002” in the document 125, the condition determination means 13 extracts the links 221, 222, 223, and 224. At this time, since the current date and time is August 15, 2002, it is determined that the links 221, 222, 223, and 224 are within the expiration date.

次に、ステップT22では、文書125には期限切れ表現は出現しないため、何も抽出されない。   Next, in step T22, since no expired expression appears in the document 125, nothing is extracted.

次に、ステップT23では、ステップT21で日付表現が有効期限内であった結果と、ステップT22で何も期限切れ表現が抽出されなかったことから、リンク221、222、223、224の不適切スコアは、有効期限からの日数および抽出された期限切れ表現の出現回数が共に0であるため0×0=0であり、どのリンクも適切であると判定される。   Next, in Step T23, the inappropriate expression score of the links 221, 222, 223, and 224 is determined based on the result that the date expression was within the expiration date in Step T21 and that no expired expression was extracted in Step T22. Since the number of days from the expiration date and the number of appearances of the extracted expiration expression are both 0, 0 × 0 = 0, and it is determined that any link is appropriate.

一方、図4(b)の場合について、条件判定手段13と候補計算手段12の動作の具体例を述べる。   On the other hand, in the case of FIG. 4B, a specific example of the operation of the condition determination means 13 and the candidate calculation means 12 will be described.

まず、ステップT21では、文書125内に「2002年7月20日〜2002年8月31日」という日付表現があるため、条件判定手段13はリンク224を抽出する。この時、現在日時は2002年9月15日であるため、リンク224は文書T125内での有効期限を超えていると判定される。   First, in step T21, since there is a date expression “July 20, 2002 to August 31, 2002” in the document 125, the condition determination means 13 extracts the link 224. At this time, since the current date and time is September 15, 2002, it is determined that the link 224 has exceeded the expiration date in the document T125.

次に、ステップT22では、条件判定手段13は文書125から「終了しました」という期限切れ表現を抽出する。   Next, in step T22, the condition determination means 13 extracts an expired expression “finished” from the document 125.

次に、ステップT23では、ステップT21で日付表現が有効期限外であった結果と、ステップT22で「終了しました」という期限切れ表現が抽出されたことから、リンク224の不適切スコアは、有効期限からの日数が15、抽出された期限切れ表現の出現回数が1であるため、15×1=15である。ここで、例えば閾値が10であれば、リンク224はリンク不整合と判定される。   Next, in Step T23, the result of the date expression being out of the valid period in Step T21 and the expired expression of “finished” in Step T22 were extracted, so the inappropriate score of link 224 is Since the number of days from 15 is 1, and the number of occurrences of the extracted expired expression is 1, 15 × 1 = 15. Here, for example, if the threshold is 10, the link 224 is determined to be a link mismatch.

次に、ステップT24では、候補計算手段12が移転先アドレスを抽出しようとするが、文書125には該当するアドレスが記述されていないため、「リンク:削除」をリンク224の訂正候補として出力する。   Next, in step T24, the candidate calculation means 12 attempts to extract the transfer destination address, but since the corresponding address is not described in the document 125, “link: delete” is output as a correction candidate for the link 224. .

なお、本実施の形態では、日付表現と期限切れ表現に注目した場合の期限切れリンクの検知について説明したが、間違いリンクの検知と同様にリンク先ページが同一のリンクをグループ化し、同一グループ内でリンク元表記が異なるサブグループを検知する方法や、リンク元表記が同一のリンクをグループ化し、同一グループ内でリンク先が異なるサブグループを検知する方法などもあり、本実施の形態に述べた方法に限定されない。   In this embodiment, the detection of the expired link when focusing on the date expression and the expired expression has been described. However, as with the erroneous link detection, the links with the same link destination page are grouped, and the links within the same group are linked. There are a method for detecting subgroups with different source notations, a method for grouping links with the same link source notation, and detecting subgroups with different link destinations within the same group. It is not limited.

[リンク元表記の不統一検知の実施形態]
次に、図5および図17、図18を参照して、リンク元表記の不統一を検知する場合の条件判定手段13と候補計算手段12の動作について詳細に説明する。
[Embodiment for detecting inconsistency of link source notation]
Next, with reference to FIG. 5, FIG. 17, and FIG. 18, the operations of the condition determination means 13 and the candidate calculation means 12 when detecting inconsistencies in the link source notation will be described in detail.

まず、条件判定手段13は情報記憶部22から、リンク先が同じリンクをグループ化し、同一グループ内でリンク元表記が同じリンクをサブグループ化し、リンク元表記が異なるサブグループに属するリンクを抽出する。また、サブグループに含まれるリンクの数に応じて、各リンクに不適正スコアを付与する(図17のステップT31)。文書群が図5の場合、ステップT31で抽出されるリンクと、付与される不適正スコアは図18のようになる。図18を見ると、リンク先が文書135のリンク231、232、233、234がグループ化されていることがわかる。さらに、リンク231、232、233の3件はリンク元表記が「GX Series」のサブグループになり、リンク234はリンク元表記が「gX Series」のサブグループとなる。   First, the condition determination unit 13 groups links with the same link destination from the information storage unit 22, subgroups links with the same link source notation in the same group, and extracts links belonging to sub groups with different link source notations. . Further, an inappropriate score is given to each link according to the number of links included in the subgroup (step T31 in FIG. 17). When the document group is shown in FIG. 5, the link extracted in step T31 and the inappropriate score to be given are as shown in FIG. As can be seen from FIG. 18, the links 231, 232, 233, and 234 of which the link destination is the document 135 are grouped. Further, three links 231, 232, and 233 are subgroups whose link source notation is “GX Series”, and links 234 are subgroups whose link source notation is “gX Series”.

不適正スコアの付与は、まず一つのグループの不適正スコアを1とし、それをサブグループ内のリンク数に反比例して配分したものを各サブグループの不適正スコアとする。さらに、各サブグループの不適正スコアをサブグループ内のリンクの数で等分したものを各リンクの不適正スコアとする。したがって、ステップT31でのリンク231、232、233の不適正スコアは1/12、リンク234の不適正スコアは3/4となる。ここで、条件判定手段13は、各サブグループ間で不適正スコアの合計を比較し、不適正スコアが高いリンクをリンク不整合として抽出する。図18では、リンク231、232、233の不適正スコアの合計1/4よりもリンク134の不適正スコア3/4が高いため、リンク134をリンク不整合として抽出する。   Inappropriate score assignment, first, the inappropriate score of one group is set to 1, and the distribution of the inappropriate score in inverse proportion to the number of links in the sub group is used as the inappropriate score of each sub group. Further, an inappropriate score of each link is obtained by equally dividing the inappropriate score of each subgroup by the number of links in the subgroup. Accordingly, the inappropriate score of the links 231, 232, and 233 at step T 31 is 1/12, and the inappropriate score of the link 234 is 3/4. Here, the condition determination means 13 compares the sum of the inappropriate scores between the subgroups, and extracts a link having a high inappropriate score as a link mismatch. In FIG. 18, since the inappropriate score 3/4 of the link 134 is higher than the total 1/4 of the inappropriate scores of the links 231, 232, and 233, the link 134 is extracted as a link mismatch.

次に、候補計算手段12は、抽出されたリンクのリンク元表記が用語辞書に登録されているか否かを調べる(図17のステップT32)。ここで用語辞書とは、ある単語について表記揺らぎをキーとして、統一すべき表現を値として持つテーブルである。例えば、「フリーソフトウェア」は無料で利用できるソフトウェアの意味で、「フリーウェア」「フリーソフト」などの表記揺れが存在するが、文書管理者のポリシーとしてすべて「フリーソフトウェア」に統一したい場合は、「フリーウェア」「フリーソフト」をキーに、「フリーソフトウェア」を値として用語辞書に登録しておけばよい。もし、抽出されたリンクのリンク元表記が用語辞書に登録されていた場合、候補計算手段12はキーに対応する統一すべき表現を訂正候補として出力する(図17のステップT33)。なお、表記ゆれを十分に吸収するためにキーの検索時に、あいまい検索を使用してもよい。また、表記揺らぎの単語を用いずに、統一すべき表現自身をあいまい検索し、文字列の類似度が閾値以上であれば、検索された統一すべき表現を訂正候補としてもよい。   Next, the candidate calculation means 12 checks whether or not the link source notation of the extracted link is registered in the term dictionary (step T32 in FIG. 17). Here, the term dictionary is a table having expressions that should be unified as values by using notation fluctuation as a key. For example, “free software” means software that can be used free of charge, and there is a fluctuation of notation such as “freeware” and “free software”. It is only necessary to register “free software” and “free software” as values in the term dictionary. If the link source notation of the extracted link is registered in the term dictionary, the candidate calculation means 12 outputs the expression to be unified corresponding to the key as a correction candidate (step T33 in FIG. 17). It should be noted that a fuzzy search may be used when searching for keys in order to sufficiently absorb notation fluctuations. In addition, an expression to be unified is searched fuzzyly without using a word of fluctuation of the notation, and if the similarity of a character string is equal to or greater than a threshold value, the retrieved expression to be unified may be set as a correction candidate.

図18の場合、「GX Series」「gX Series」のいずれも用語辞書に登録されていなかったとする。   In the case of FIG. 18, it is assumed that neither “GX Series” nor “gX Series” is registered in the term dictionary.

一方、抽出されたリンクのリンク元表記が用語辞書に登録されていなかった場合、候補計算手段12は同一グループ内で、不適性スコアの大きいリンクのリンク元表記を、スコアの小さいリンクのリンク元表記に一致させるような訂正候補を求める(図17のステップT34)。図18の場合、「リンク元表記:GX Series」を訂正候補として出力する。   On the other hand, if the link source notation of the extracted link is not registered in the term dictionary, the candidate calculation means 12 displays the link source notation of the link with a large inappropriate score within the same group, and the link source of the link with a low score. Correction candidates that match the notation are obtained (step T34 in FIG. 17). In the case of FIG. 18, “link source notation: GX Series” is output as a correction candidate.

なお、本実施の形態では、不適正スコアの一例としてサブグループ内でのリンク数を元に計算したが、サブグループ内でのリンク数をそのリンクの特徴ベクトルとし、あらかじめ教師データとして与えられた不整合リンクの特徴ベクトルとの距離の平均値を不適切スコアとする方法などもあり、本実施の形態に述べた方法に限定されない。   In this embodiment, the calculation is based on the number of links in the subgroup as an example of the inappropriate score. However, the number of links in the subgroup is used as a feature vector of the link, and is given in advance as teacher data. There is a method of setting an average value of the distances to the feature vectors of inconsistent links as an inappropriate score, and the method is not limited to the method described in the present embodiment.

[リンク元表記のスタイルの不統一検知の実施形態]
次に、図6および図19、図20を参照して、リンク元表記のスタイルの不統一を検知する場合の条件判定手段13と候補計算手段12の動作について詳細に説明する。
[Embodiment for detecting inconsistency in style of link source notation]
Next, with reference to FIG. 6, FIG. 19, and FIG. 20, the operation of the condition determination unit 13 and the candidate calculation unit 12 when detecting inconsistency in the style of the link source notation will be described in detail.

まず、条件判定手段13は情報記憶部22から、リンク元文書が同一のリンクをグループ化し、同一グループ内でtarget属性が同じリンクをサブグループ化し、target属性が異なるサブグループに属するリンクを抽出する。また、サブグループに含まれるリンクの数に応じて、各リンクに不適正スコアを付与する(図19のステップT41)。文書群が図6の場合、ステップT41で抽出されるリンクと、付与される不適正スコアは図20のようになる。図20を見ると、リンク元が文書141のリンク241、242、243、244がグループ化されていることがわかる。さらに、リンク241、242、243の3件はtarget属性が「_blank」のサブグループになり、リンク244はtarget属性が無指定のサブグループとなる。   First, the condition determination means 13 groups from the information storage unit 22 links with the same link source document, subgroups links with the same target attribute within the same group, and extracts links belonging to subgroups with different target attributes. . Further, an inappropriate score is assigned to each link according to the number of links included in the subgroup (step T41 in FIG. 19). When the document group is shown in FIG. 6, the link extracted in step T41 and the inappropriate score to be given are as shown in FIG. As can be seen from FIG. 20, the links 241, 242, 243, and 244 whose source is the document 141 are grouped. Further, three links 241, 242, and 243 are subgroups with a target attribute “_blank”, and link 244 is a subgroup with an unspecified target attribute.

不適正スコアの付与は、まず一つのグループの不適正スコアを1とし、それをサブグループ内のリンク数に反比例して配分したものを各サブグループの不適正スコアとする。さらに、各サブグループの不適正スコアをサブグループ内のリンクの数で等分したものを各リンクの不適正スコアとする。したがって、ステップT41でのリンク241、242、243の不適正スコアは1/12、リンク244の不適正スコアは3/4となる。ここで、条件判定手段13は、各サブグループ間で不適正スコアの合計を比較し、不適正スコアが高いリンクをリンク不整合として抽出する。図20では、リンク241、242、243の不適正スコアの合計1/4よりもリンク144の不適正スコア3/4が高いため、リンク144をリンク不整合として抽出する。   Inappropriate score assignment, first, the inappropriate score of one group is set to 1, and the distribution of the inappropriate score in inverse proportion to the number of links in the sub group is used as the inappropriate score of each sub group. Further, an inappropriate score of each link is obtained by equally dividing the inappropriate score of each subgroup by the number of links in the subgroup. Therefore, the improper score of the links 241, 242 and 243 at step T41 is 1/12, and the improper score of the link 244 is 3/4. Here, the condition determination means 13 compares the sum of the inappropriate scores between the subgroups, and extracts a link having a high inappropriate score as a link mismatch. In FIG. 20, since the inappropriate score 3/4 of the link 144 is higher than the total 1/4 of the inappropriate scores of the links 241, 242, and 243, the link 144 is extracted as a link mismatch.

次に、候補計算手段12は同一グループ内で、不適正スコアの大きいリンクのtarget属性を、スコアの小さいリンクのtarget属性に一致させるような訂正候補を求める(図19のステップT42)。図20の場合、「target属性:_blank」を訂正候補として出力する。   Next, the candidate calculation means 12 obtains a correction candidate that matches the target attribute of a link with a large inappropriate score with the target attribute of a link with a small score within the same group (step T42 in FIG. 19). In the case of FIG. 20, “target attribute: _blank” is output as a correction candidate.

なお、本実施の形態では、ステップT41でグループ化する対象をリンク元文書が同じリンクとしたが、リンク元文書が同じリンク群のうち、テーブルやリンクのリストなど、特定領域に存在するリンクに限ってグループ化する方法もあり、本実施の形態に述べた方法に限定されない。また、特定文書と同じディレクトリに格納されている文書など、複数の文書間でのリンクを、スタイルを基準にグループ化し、特定文書の周辺ページのリンクスタイルの不統一を検出する方法もあり、本実施の形態に述べた方法に限定されない。   In the present embodiment, the links to be grouped in step T41 are the same links in the link source document. However, in the link group in which the link source document is the same, a link existing in a specific area such as a table or a list of links is used. There is also a method of grouping only, and the method is not limited to the method described in this embodiment. There is also a method for grouping links between multiple documents, such as documents stored in the same directory as a specific document, based on the style, and detecting inconsistencies in the link style of the peripheral pages of the specific document. The method is not limited to the method described in the embodiment.

また、本実施の形態では、target属性の不統一の検知と訂正候補の求め方について述べたが、同様の方法でstyle属性の不統一の検知と訂正候補を求めることができる。   Further, in the present embodiment, the method of detecting the target attribute inconsistency and obtaining the correction candidate has been described. However, the style attribute inconsistency detection and the correction candidate can be obtained by the same method.

また、本実施の形態では、不適正スコアの一例としてサブグループ内でのリンク数を元に計算したが、サブグループ内でのリンク数をそのリンクの特徴ベクトルとし、あらかじめ教師データとして与えられた不整合リンクの特徴ベクトルとの距離の平均値を不適切スコアとする方法などもあり、本実施の形態に述べた方法に限定されない。   In the present embodiment, the calculation is based on the number of links in the subgroup as an example of the inappropriate score. However, the number of links in the subgroup is used as a feature vector of the link, and is given in advance as teacher data. There is a method of setting an average value of the distances to the feature vectors of inconsistent links as an inappropriate score, and the method is not limited to the method described in the present embodiment.

[幽霊リンク検知の実施形態]
次に、図7および図21を参照して、幽霊リンクを検知する場合の条件判定手段13と候補計算手段12の動作について詳細に説明する。
[Embodiment of ghost link detection]
Next, with reference to FIG. 7 and FIG. 21, the operations of the condition determination means 13 and the candidate calculation means 12 when detecting a ghost link will be described in detail.

まず、条件判定手段13は情報記憶部22から、不可視なリンク元表記が指定されているリンクを抽出する(図21のステップT51)。ここで、不可視なリンク元表記とは、空文字列、透明な画像、非常に小さな画像や文字、背景と同じ色の画像や文字などのことである。図7(a)では、リンク元表記に空文字列が指定されているリンクが抽出される。   First, the condition determination means 13 extracts a link for which an invisible link source notation is designated from the information storage unit 22 (step T51 in FIG. 21). Here, the invisible link source notation means an empty character string, a transparent image, a very small image or character, an image or character having the same color as the background, and the like. In FIG. 7 (a), links for which an empty character string is specified in the link source notation are extracted.

次に、候補計算手段12は、リンクを削除するよう訂正候補を「リンク:削除」として出力する(図21のステップT52)。   Next, the candidate calculation means 12 outputs the correction candidate as “link: delete” so as to delete the link (step T52 in FIG. 21).

[ループリンク検知の実施形態]
次に、図8および図22を参照して、ループリンクを検知する場合の条件判定手段13の動作について詳細に説明する。なお、候補計算手段12はループリンク検知時は動作しない。
[Embodiment of loop link detection]
Next, with reference to FIG. 8 and FIG. 22, the operation of the condition determining means 13 when detecting a loop link will be described in detail. The candidate calculation means 12 does not operate when a loop link is detected.

まず、条件判定手段13は、情報記憶部22に格納されているリンクの、リンク元表記を単語に分割する(図22のステップT61)。リンク元表記を単語に分割する方法としては、形態素解析を使う、字種の変わり目で切る、n文字毎に切るなどの方法がある。   First, the condition determination means 13 divides the link source notation of the link stored in the information storage unit 22 into words (step T61 in FIG. 22). There are several ways to divide the link source notation into words, such as using morphological analysis, cutting at the change of character type, or cutting every n characters.

次に、条件判定手段13は、ループを形成するリンクの系列であって、かつ、該リンクの系列に対応するリンク元表記中の単語がすべて同一のリンク群を抽出する(図22のステップT62)。図8では、単語「プレゼント」を含むリンク261、262、263はループを構成しているため、ループリンクとして出力される。   Next, the condition determining means 13 extracts a link group that is a series of links forming a loop and that has the same word in the link source notation corresponding to the series of links (step T62 in FIG. 22). ). In FIG. 8, since the links 261, 262, and 263 including the word “present” form a loop, they are output as a loop link.

なお、本実施の形態では、リンク元表記中の単語がすべて同一のループリンクを抽出する場合について説明したが、トピック毎に特徴的な単語の辞書を持っておき、リンク元表記中の単語がすべて同一トピックに属するループリンクを抽出する方法もあり、本実施の形態に述べた方法に限定されない。   In this embodiment, a case has been described in which a loop link in which all the words in the link source notation are the same is extracted. However, a characteristic word dictionary is provided for each topic, and the word in the link source notation is There is also a method of extracting loop links that all belong to the same topic, and is not limited to the method described in this embodiment.

[時間変化に注目したリンク不整合検知方法]
本実施の形態では、ある時点で収集した各リンクのリンク情報を基に各種のリンク不整合を検知する方法について述べたが、リンク情報の収集を定期的に繰り返し実行し、リンク情報の時系列変化に着目して各種リンク不整合を検知する方法もある。図4および図23、24を参照して、リンク情報の時系列変化に着目して各種リンク不整合を検知する場合の、条件判定手段13と候補計算手段12の動作について詳細に説明する。
[Link mismatch detection method focusing on time change]
In the present embodiment, the method for detecting various link inconsistencies based on the link information of each link collected at a certain point in time has been described. However, the collection of link information is periodically repeated, and the time series of link information is obtained. There is also a method of detecting various link inconsistencies by paying attention to the change. With reference to FIGS. 4, 23, and 24, the operations of the condition determination unit 13 and the candidate calculation unit 12 when detecting various types of link inconsistency by paying attention to the time series change of the link information will be described in detail.

情報格納手段22には、時間Tと時間T'におけるリンク情報を格納しているものとする。   It is assumed that the information storage means 22 stores link information at time T and time T ′.

まず、条件判定手段13は、時間Tと時間T'においてリンク情報の一項目が同一のリンクをグループ化する(図23のステップT71)。図4の場合、2002年8月15日時点でのリンク情報と、2002年9月15日時点でのリンク情報について、リンク先が文書125のリンクをグループ化すると、図24のようになる。   First, the condition determination means 13 groups links having the same item of link information at time T and time T ′ (step T71 in FIG. 23). In the case of FIG. 4, when the link information of the link 125 as of August 15, 2002 and the link information as of September 15, 2002 are grouped with the link of the document 125, the result is as shown in FIG.

次に、同一グループ内で多数のリンクのリンク情報が変化したリンクをリンク不整合として抽出する(図23のT72)。図23の場合、2002年8月15日の時点では、リンク先が文書125のリンクが4件あるのに対し、2002年9月15日時点では、リンク先が文書125のリンクは1件しかない。そこで、リンク224をリンク不整合として抽出する。   Next, a link whose link information has changed in the same group is extracted as a link mismatch (T72 in FIG. 23). In the case of Figure 23, as of August 15, 2002, there are four links to the document 125, but as of September 15, 2002, there is only one link to the document 125. Absent. Therefore, the link 224 is extracted as a link mismatch.

次に、候補計算手段12は、時間Tと時間T'で起こった変化に対応する訂正候補を出力する(図23のステップT72)。図23の場合、2002年8月15日と2002年9月15日では、リンクの削除が起こっているので、「リンク:削除」を訂正候補として出力する。   Next, the candidate calculation means 12 outputs a correction candidate corresponding to the change occurring at time T and time T ′ (step T72 in FIG. 23). In the case of FIG. 23, since link deletion occurs on August 15, 2002 and September 15, 2002, “link: deletion” is output as a correction candidate.

なお、本実施の形態では、時間Tと時間T'におけるリンク先文書が同一のリンクをグループ化した時に、リンクの削除が起こっている場合について述べたが、リンク元表記が変化している場合は、時間Tでのリンク先文書の内容が時間T'で変化したものとして、候補計算手段12はリンク元表記を変更するよう、訂正候補を出力する。   In this embodiment, the case has been described in which the deletion of the link occurs when the linked documents at time T and time T ′ group the same link, but the link source notation has changed. The candidate calculation means 12 outputs correction candidates so that the link source notation is changed, assuming that the contents of the linked document at time T have changed at time T ′.

また、本実施の形態では、時間Tと時間T'においてリンク先文書が同一のリンクをグループ化する方法について述べたが、他にもリンク元表記が同一のリンクをグループ化して、style属性やtarget属性の変化を検知する方法などもあり、本実施の形態に述べた方法に限定されない。   In the present embodiment, the method of grouping links having the same link destination document at time T and time T ′ has been described. There is a method for detecting a change in the target attribute, and the method is not limited to the method described in this embodiment.

次に、本実施の形態の効果について説明する。   Next, the effect of this embodiment will be described.

本実施の形態では、各種の論理的不整合を検知することができる。すなわち、本実施の形態では、ハイパーテキストデータベースからリンク情報を抽出し、リンク情報の各項目毎にリンクをグループすることにより、グループから外れた特異なリンクをリンク不整合として検知するため、(1)リンクの張り間違い、(2)期限切れ情報へのリンク、(3)リンク元表記の不統一、(4)リンク元表記のスタイルの不統一といった論理的不整合を検知することができる。また、リンク情報の収集を定期的に繰り返し実行し、リンク情報の時系列変化に着目して各種リンク不整合を検知する方法によっても、(2)期限切れ情報へのリンクといった論理的不整合を検知することができる。更に、リンク元表記のないリンクの検出により、論理的不整合の一形態である(5)幽霊リンクも検知することができ、ループを形成するリンクの系列であって、かつ、該リンクの系列に対応するリンク元表記がすべて同一トピックに関わるものを検出することにより、論理的不整合の一形態である(6)ループリンクも検知することができる。   In this embodiment, various logical inconsistencies can be detected. That is, in the present embodiment, the link information is extracted from the hypertext database, and the links are grouped for each item of the link information, so that a unique link out of the group is detected as a link inconsistency. It is possible to detect logical inconsistencies such as () link errors, (2) links to expired information, (3) link source notation inconsistencies, and (4) link source notation style inconsistencies. (2) Detecting logical inconsistencies, such as links to expired information, by periodically collecting link information and detecting various link inconsistencies by focusing on time-series changes in link information can do. Furthermore, by detecting a link without a link source notation, (5) a ghost link, which is a form of logical inconsistency, can be detected, and is a sequence of links forming a loop, and the link sequence (6) Loop link, which is a form of logical inconsistency, can be detected by detecting all link source notations corresponding to the same topic.

また、本実施の形態では、論理的不整合の訂正候補を管理者に提示することができる。すなわち、本実施の形態では、グループから外れた特異なリンクのリンク情報を、グループと同一のリンク情報になるように訂正候補を自動計算する等の処理によって訂正候補を求めるため、管理者は不整合をどのように修正すべきかを検討する必要がなく、自動で修正を反映することも可能である。   In the present embodiment, correction candidates for logical inconsistencies can be presented to the administrator. In other words, in this embodiment, since the correction candidate is obtained by processing such as automatically calculating the correction candidate so that the link information of the unique link out of the group becomes the same link information as the group, the administrator is not required. There is no need to consider how the alignment should be corrected, and the correction can be automatically reflected.

また、本実施の形態では、リンク不整合をグループ化してまとめて表示する。そのため、管理者は一部のリンクを確認すれば残りのリンクも同様に不整合か否かを判定でき、管理者によるチェックの効率が大幅に向上する。   In this embodiment, link inconsistencies are grouped and displayed together. Therefore, if the administrator confirms a part of the links, it can determine whether or not the remaining links are inconsistent as well, and the efficiency of checking by the administrator is greatly improved.

また、本実施の形態では、リンク不整合を(1)リンク元表記、(2)リンク元ページの識別情報、(3)リンク先ページの識別情報、という3項目のいずれかをソートキーとして一覧表示する。そのため、管理者は、ページ単位での修正項目を把握したり、重要なページに対する不整合を重点的に調べたり、リンク元表記として使っている表現の妥当性などを調べることができる。   Further, in the present embodiment, link mismatch is displayed as a list using any one of three items: (1) link source notation, (2) link source page identification information, and (3) link destination page identification information as a sort key. To do. Therefore, the administrator can grasp correction items for each page, focus on inconsistencies with important pages, and check the validity of expressions used as link source notations.

なお、本実施の形態のデータ処理装置1は情報収集手段11を備えているが、情報収集手段11によるハイパーテキストデータベース21からのページおよびリンクに関する情報の収集と記憶を別のデータ処理装置で実施する形態も考えられ、そのような形態ではデータ処理装置1の情報収集手段11は省略可能である。また、図13の結果一覧画面を見て管理者自身の手作業によってハイパーテキストデータベース21の不整合箇所を訂正する構成にあっては、訂正反映手段14を省略することができる。さらに、管理者の負担が増大するものの、図13の結果一覧画面の不整合の種類、訂正候補が無くても残りの情報から管理者自身で訂正候補を求めることもできるため、候補計算手段12を省略した構成も採用可能である。   Although the data processing apparatus 1 of the present embodiment includes the information collecting unit 11, the information collecting unit 11 collects and stores information about pages and links from the hypertext database 21 in another data processing apparatus. In such a form, the information collecting means 11 of the data processing apparatus 1 can be omitted. Further, in the configuration in which the inconsistent portion of the hypertext database 21 is corrected manually by the administrator himself / herself by looking at the result list screen of FIG. 13, the correction reflecting means 14 can be omitted. Furthermore, although the burden on the administrator increases, the candidate calculation means 12 can be obtained by the administrator himself / herself from the remaining information even if there is no type of inconsistency in the result list screen in FIG. A configuration in which is omitted can also be adopted.

『第2の実施の形態』
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。
“Second Embodiment”
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.

図25を参照すると、本発明の第2の実施の形態は、データ処理装置5が、図1に示された第1の実施の形態におけるデータ処理装置2の構成に加えてさらに、重要度計算手段15を備えている点で第1の実施の形態と異なる。   Referring to FIG. 25, in the second embodiment of the present invention, the data processor 5 further calculates the importance in addition to the configuration of the data processor 2 in the first embodiment shown in FIG. It differs from the first embodiment in that the means 15 is provided.

重要度計算手段15は、条件判定手段13が抽出したリンク不整合に対して、リンク不整合が検知された文書へのアクセス頻度や、不整合の深刻さに応じて重要度を計算しランキングして出力する。   The importance level calculation means 15 calculates and ranks the importance level of the link inconsistency extracted by the condition determination means 13 according to the frequency of access to the document in which the link inconsistency is detected and the seriousness of the inconsistency. Output.

次に、本実施の形態の動作を図面を参照して詳細に説明する。   Next, the operation of the present embodiment will be described in detail with reference to the drawings.

図26のステップS1〜S3で示される本実施の形態における情報収集手段11、条件判定手段13の動作は、第1の実施の形態の各手段11、13の動作と同一のため、説明は省略する。また、候補計算手段12は、条件判定手段13がリンク不整合として抽出したリンクについて不整合を解消するための訂正候補を求める点では第1の実施の形態の手段12と同じであるが(ステップS4)、図13に示したような結果一覧画面は出力せず、制御を重要度計算手段15に受け渡す。   The operations of the information collecting unit 11 and the condition determining unit 13 in the present embodiment shown in steps S1 to S3 in FIG. 26 are the same as the operations of the units 11 and 13 in the first embodiment, and thus description thereof is omitted. To do. Further, the candidate calculation means 12 is the same as the means 12 of the first embodiment in that a correction candidate for eliminating the mismatch is obtained for the link extracted by the condition determination means 13 as the link mismatch (step S4), the result list screen as shown in FIG. 13 is not output, and the control is transferred to the importance calculation means 15.

重要度計算手段15は、条件判定手段13がリンク不整合として抽出したリンクについて重要度を計算しランキングして出力する(図26のステップS8、S9)。ここで重要度は、(1)検出された箇所の誤り/不適切の種類、(2)検出された箇所の誤り/不適切の確度、(3)検出された箇所を含むページの被リンク数、(4)検出された箇所を含むページに対するユーザからのアクセス実績、(5)検出された箇所を含むページのハイパーテキストにおける階層レベル、のうちの1ファクタもしくは複数のファクタの組み合わせによって計算する。   The importance level calculation means 15 calculates the importance levels for the links extracted by the condition determination means 13 as link mismatches, ranks them, and outputs them (steps S8 and S9 in FIG. 26). Here, the importance levels are (1) type of error / inappropriate location detected, (2) error / incorrect accuracy of detected location, and (3) number of linked pages of the page including the detected location. , (4) User access to the page including the detected location, and (5) Hierarchy level in the hypertext of the page including the detected location.

出力されるリンク不整合のランキング画面を図27に示す。図13の結果一覧画面と相違するところは、リンク先とリンク元表記が同じリンクをグループ化し、それぞれに不整合の種類、訂正候補に加えて不整合の重要度を付与し、不整合の重要度が高い順に表示している点である。従って、管理者はステップS6における訂正候補の確認や書き換えなどの作業を、不整合の重要度の高い順に実施することが可能である。以下、第1の実施の形態と同様に、管理者に確認ないし修正された訂正候補に基づいて訂正反映手段14によるハイパーテキストデータベース21の各文書の修正が行われる(図26のステップS7)。   The output link mismatch ranking screen is shown in FIG. The difference from the result list screen of Fig. 13 is that the links with the same link destination and link source notation are grouped, and in addition to the type of inconsistency and correction candidates, the importance of inconsistency is given, and the importance of inconsistency The points are displayed in descending order. Therefore, the administrator can perform operations such as confirmation and rewriting of correction candidates in step S6 in descending order of importance of inconsistency. Thereafter, as in the first embodiment, each correction in the hypertext database 21 is corrected by the correction reflecting means 14 based on correction candidates confirmed or corrected by the administrator (step S7 in FIG. 26).

なお、本実施の形態では、候補計算手段12が訂正候補を求めてから重要度計算手段15が重要度を計算してランキングして出力する場合について説明したが、先に重要度計算手段15が重要度を計算してランキングしておき、後で候補計算手段12が訂正候補を求める方法もあり、本実施の形態で述べた方法に限定されない。   In the present embodiment, the case has been described in which the importance calculation means 15 calculates and ranks the importance after the candidate calculation means 12 obtains the correction candidate, and the importance calculation means 15 first outputs the ranking. There is also a method in which the importance is calculated and ranked, and the candidate calculation means 12 later obtains correction candidates, and is not limited to the method described in the present embodiment.

また、本実施の形態では、ステップS6で管理者が出力されたリンク不整合と訂正候補の確認を行ったが、ステップS6を省略してステップS1〜S4、S8、S9、S7をすべて自動化して実行する方法もあり、本実施の形態に述べた方法に限定されない。   In this embodiment, the administrator checks the link inconsistency and correction candidate output in step S6, but omits step S6 and automates all of steps S1 to S4, S8, S9, and S7. There is also a method that is executed, and the method is not limited to the method described in this embodiment.

また、本実施の形態では、管理者が検査のタイミングを決めて実行する場合について説明したが、あらかじめ収集条件と抽出条件を設定しておき、定期的に自動でステップS1〜S4、S8、S9までを実行し、得られた結果をメールなどで通知する方法などもあり、本実施の形態に述べた方法に限定されない。   Further, in the present embodiment, the case where the administrator decides and executes the inspection timing has been described. However, collection conditions and extraction conditions are set in advance, and steps S1 to S4, S8, and S9 are automatically performed periodically. There is also a method of executing the above and notifying the obtained result by e-mail or the like, and is not limited to the method described in this embodiment.

なお、本実施の形態のデータ処理装置5は情報収集手段11を備えているが、情報収集手段11によるハイパーテキストデータベース21からのページおよびリンクに関する情報の収集と記憶を別のデータ処理装置で実施する形態も考えられ、そのような形態ではデータ処理装置5の情報収集手段11は省略可能である。また、図27の結果一覧画面を見て管理者自身の手作業によってハイパーテキストデータベース21の不整合箇所を訂正する構成にあっては、訂正反映手段14を省略することができる。この場合、管理者の負担が増大するものの、図27の結果一覧画面の不整合の種類、訂正候補が無くても残りの情報から管理者自身で訂正候補を求めることもできるため、候補計算手段12を省略した構成も採用可能である。   Although the data processing device 5 of the present embodiment includes the information collecting unit 11, the information collecting unit 11 collects and stores information about pages and links from the hypertext database 21 in another data processing device. In such a form, the information collecting means 11 of the data processing device 5 can be omitted. In addition, the correction reflecting means 14 can be omitted in the configuration in which the inconsistent portion of the hypertext database 21 is corrected by the administrator's own manual operation while viewing the result list screen of FIG. In this case, although the burden on the administrator increases, it is possible to obtain correction candidates from the remaining information even if there is no type of inconsistency in the result list screen in FIG. A configuration in which 12 is omitted can also be adopted.

『第3の実施の形態』
次に、本発明の第3の実施の形態について、図面を参照して詳細に説明する。
“Third embodiment”
Next, a third embodiment of the present invention will be described in detail with reference to the drawings.

図28を参照すると、本発明の第3の実施の形態は、データ処理装置6が、図25に示された第2の実施の形態におけるデータ処理装置5の構成から、訂正反映手段14を除き、トータルスコア計算手段16を加えた点で第2の実施の形態と異なる。   Referring to FIG. 28, in the third embodiment of the present invention, the data processing device 6 excludes the correction reflecting means 14 from the configuration of the data processing device 5 in the second embodiment shown in FIG. The second embodiment is different from the second embodiment in that a total score calculation means 16 is added.

トータルスコア計算手段16は、条件判定手段13が出力するリンク不整合と、重要度計算手段15が計算する不整合の重要度とを元に、診断対象のサイトの整合性のトータルスコアを計算する。ここで、トータルスコアとは、重要度計算手段15が計算する不整合の重要度の合計を使う他に、リンク不整合の数や、総リンク数に対するリンク不整合の数の割合などを使う方法がある。   The total score calculation means 16 calculates the total score of the consistency of the site to be diagnosed based on the link mismatch output by the condition determination means 13 and the importance of the mismatch calculated by the importance level calculation means 15. Here, the total score is a method of using the number of link inconsistencies and the ratio of the number of link inconsistencies to the total number of links in addition to using the sum of inconsistency importance calculated by the importance calculation means 15. is there.

以下、本実施の動作を図面を参照して詳細に説明する。   Hereinafter, the operation of the present embodiment will be described in detail with reference to the drawings.

図29のステップS1〜S4、S8で示される本実施の形態における情報収集手段11、候補計算手段12、条件判定手段13、重要度計算手段15の動作は、第2の実施の形態の各手段11、12、13、15の動作と同一のため、説明は省略する。   The operations of the information collection unit 11, the candidate calculation unit 12, the condition determination unit 13, and the importance level calculation unit 15 in the present embodiment indicated by steps S1 to S4 and S8 in FIG. 29 are the same as those in the second embodiment. Since it is the same as the operation of 11, 12, 13, and 15, the description is omitted.

第2の実施の形態では、リンク不整合を検知した後、訂正候補に従ってハイパーテキストデータベース21に訂正を反映していた。本実施の形態では、リンクの不整合を検知した後、重要度計算手段15が求めた重要度を基に、トータルスコア計算手段16が診断対象サイト全体のトータルスコアを計算して出力する(図29のステップS10)。   In the second embodiment, after detecting the link mismatch, the correction is reflected in the hypertext database 21 according to the correction candidates. In the present embodiment, after detecting the link mismatch, the total score calculation means 16 calculates and outputs the total score of the entire diagnosis target site based on the importance obtained by the importance calculation means 15 (FIG. 29). Step S10).

このトータルスコア計算を定期的に行い、時間変化を図30のように出力することによって、サイト品質の改善経過を知ることができる。図30では、時間とともにトータルスコアの上昇が飽和してきており、サイト品質の改善作業が収束に近づいていることがわかる。   By periodically performing this total score calculation and outputting the time change as shown in FIG. 30, the progress of the site quality improvement can be known. In FIG. 30, the increase in the total score is saturated with time, and it can be seen that the work for improving the site quality is approaching convergence.

また、このトータルスコア計算を定期的に行い、トータルスコアあるいはリンク不整合として検出された箇所の重要度が閾値を超えるなど、あらかじめ定めた条件を満たした場合にアラートを通知することによって、サイト品質が低下した場合には、サイト管理者は警告を受け取ることができる。   Also, this total score calculation is performed periodically, and the site quality deteriorates by notifying the alert when a predetermined condition is met, such as the importance of the part detected as total score or link mismatch exceeds the threshold If you do, the site administrator can receive a warning.

また、トータルスコア計算を複数の異なるサイトA〜Mについて行い、図31のようにランキングして出力することによって、サイト品質を定量的に比較することができる。図31では、サイトAの品質はサイトEの2倍程度優れていることがわかる。   Further, by performing total score calculation for a plurality of different sites A to M, ranking and outputting as shown in FIG. 31, the site quality can be quantitatively compared. In FIG. 31, it can be seen that the quality of site A is about twice as good as that of site E.

次に、本実施の形態の効果について説明する。   Next, the effect of this embodiment will be described.

本実施の形態では、リンク不整合の検知数や重要度を基に診断対象とするサイト品質のトータルスコアを計算する。そのため、サイト品質の改善経過を把握したり、異なるサイト間の品質を定量的に比較することができる。   In the present embodiment, a total score of site quality to be diagnosed is calculated based on the number of detected link mismatches and the importance. Therefore, it is possible to grasp the progress of site quality improvement and to quantitatively compare the quality between different sites.

なお、本実施の形態のデータ処理装置6は情報収集手段11を備えているが、情報収集手段11によるハイパーテキストデータベース21からのページおよびリンクに関する情報の収集と記憶を別のデータ処理装置で実施する形態も考えられ、そのような形態ではデータ処理装置6の情報収集手段11は省略可能である。また、本実施の形態の説明においては、検出された不整合箇所のハイパーテキストデータベース21への反映(訂正)については触れなかったが、反映を行うようにしても、行わないようにしても良い。反映する場合、図27の結果一覧画面を見て管理者自身の手作業によってハイパーテキストデータベース21の不整合箇所を訂正するようにしても良いし、第2の実施の形態と同様な訂正反映手段14を設ける構成も考えられる。さらに、管理者の負担が増大するものの、図27の結果一覧画面の不整合の種類、訂正候補が無くても残りの情報から管理者自身で訂正候補を求めることもできるため、候補計算手段12を省略した構成も採用可能である。   Although the data processing device 6 of the present embodiment includes the information collecting unit 11, the information collecting unit 11 collects and stores information about pages and links from the hypertext database 21 in another data processing device. In such a form, the information collecting means 11 of the data processing device 6 can be omitted. Further, in the description of the present embodiment, the reflection (correction) of the detected inconsistent portion to the hypertext database 21 has not been described, but the reflection may or may not be performed. . In the case of reflecting, the inconsistent portion of the hypertext database 21 may be corrected manually by the administrator himself / herself by looking at the result list screen of FIG. 27, or the correction reflecting means similar to the second embodiment A configuration in which 14 is provided is also conceivable. Further, although the burden on the administrator increases, the candidate calculation means 12 can be obtained by the administrator himself / herself from the remaining information even if there is no inconsistency type and correction candidate in the result list screen of FIG. A configuration in which is omitted can also be adopted.

『第4の実施の形態』
次に、本発明の第4の実施の形態について、図面を参照して詳細に説明する。
"Fourth embodiment"
Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings.

図32を参照すると本発明に係る第4の実施の形態は、本発明の第1の実施の形態と同様に、入力手段501、データ処理装置502、出力手段503、記憶装置504を備える。さらに、第1の実施の形態のキーワード抽出装置を実現するためのハイパーテキスト検査用プログラム500を備える。   Referring to FIG. 32, the fourth embodiment according to the present invention includes an input means 501, a data processing device 502, an output means 503, and a storage device 504, as in the first embodiment of the present invention. Furthermore, a hypertext inspection program 500 for realizing the keyword extraction device of the first embodiment is provided.

入力手段501は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力手段503は、表示画面、プリンタ等のデータ処理装置502による処理結果を出力する装置である。   The input unit 501 is a device for inputting instructions from an operator, such as a mouse and a keyboard. The output unit 503 is a device that outputs a processing result of the data processing device 502 such as a display screen or a printer.

ハイパーテキスト検査用プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成すると共に、データ処理装置502上に第1の実施形態における図1の情報収集手段11、候補計算手段12、条件判定手段13および訂正反映手段14を実現する。データ処理装置502は、ハイパーテキスト検査装置を実現するためのプログラムの制御により第1の実施形態と同一の処理を実行する。   The hypertext inspection program 500 is read into the data processing device 502, controls the operation of the data processing device 502, generates the input memory 505 and the work memory 506 in the storage device 504, and the first on the data processing device 502. The information collecting unit 11, the candidate calculating unit 12, the condition determining unit 13, and the correction reflecting unit 14 of FIG. The data processing device 502 executes the same processing as in the first embodiment by controlling a program for realizing the hypertext inspection device.

図1におけるデータ処理装置1と図32におけるデータ処理装置502が対応し、図1における記憶装置2と図32における記憶装置504が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。   The data processing device 1 in FIG. 1 corresponds to the data processing device 502 in FIG. 32, and the storage device 2 in FIG. 1 corresponds to the storage device 504 in FIG. However, the hypertext database 21 to be processed is obtained by accessing the database outside by the data processing device 502 via the network (for example, the Internet) in addition to using the data stored in the storage device 504. It may be.

『第5の実施の形態』
次に、本発明の第5の実施の形態について、図面を参照して詳細に説明する。
"Fifth embodiment"
Next, a fifth embodiment of the present invention will be described in detail with reference to the drawings.

第5の実施の形態は、第4の実施の形態と同様に、図32の構成を用いる。ハイパーテキスト検査用プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成すると共に、データ処理装置502上に第2の実施形態における図25の情報収集手段11、候補計算手段12、条件判定手段13、訂正反映手段14および重要度計算手段15を実現する。データ処理装置502は、ハイパーテキスト検査装置を実現するためのプログラムの制御により第2の実施形態と同一の処理を実行する。   As in the fourth embodiment, the fifth embodiment uses the configuration shown in FIG. The hypertext inspection program 500 is read into the data processing device 502, controls the operation of the data processing device 502, generates the input memory 505 and the work memory 506 in the storage device 504, and the second on the data processing device 502. The information collection unit 11, the candidate calculation unit 12, the condition determination unit 13, the correction reflection unit 14, and the importance calculation unit 15 shown in FIG. The data processing device 502 executes the same processing as that of the second embodiment under the control of a program for realizing the hypertext inspection device.

図25におけるデータ処理装置5と図32におけるデータ処理装置502が対応し、図25における記憶装置2と図32における記憶装置504が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。   The data processing device 5 in FIG. 25 corresponds to the data processing device 502 in FIG. 32, and the storage device 2 in FIG. 25 corresponds to the storage device 504 in FIG. However, the hypertext database 21 to be processed is obtained by accessing the database outside by the data processing device 502 via the network (for example, the Internet) in addition to using the data stored in the storage device 504. It may be.

『第6の実施の形態』
次に、本発明の第6の実施の形態について、図面を参照して詳細に説明する。
"Sixth embodiment"
Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings.

第6の実施の形態は、第4の実施の形態と同様に、図32の構成を用いる。ハイパーテキスト検査用プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成すると共に、データ処理装置502上に第3の実施形態における図28の情報収集手段11、候補計算手段12、条件判定手段13、重要度計算手段15およびトータルスコア計算手段16を実現する。データ処理装置502は、ハイパーテキスト検査装置を実現するためのプログラムの制御により第3の実施形態と同一の処理を実行する。   The sixth embodiment uses the configuration shown in FIG. 32 as in the fourth embodiment. The hypertext inspection program 500 is read into the data processing device 502, controls the operation of the data processing device 502, generates the input memory 505 and the work memory 506 in the storage device 504, and also executes the third on the data processing device 502. The information collecting unit 11, the candidate calculating unit 12, the condition determining unit 13, the importance calculating unit 15, and the total score calculating unit 16 shown in FIG. The data processing device 502 executes the same processing as that of the third embodiment under the control of a program for realizing the hypertext inspection device.

図28におけるデータ処理装置6と図32におけるデータ処理装置502が対応し、図28における記憶装置2と図32における記憶装置504が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。   The data processing device 6 in FIG. 28 corresponds to the data processing device 502 in FIG. 32, and the storage device 2 in FIG. 28 corresponds to the storage device 504 in FIG. However, the hypertext database 21 to be processed is obtained by accessing the database outside by the data processing device 502 via the network (for example, the Internet) in addition to using the data stored in the storage device 504. It may be.

本発明の第1の実施の形態の構成を示すブロック図である。1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention. ハイパーテキストにおけるリンクの指定方法とブラウザ上での表示例を示す図である。It is a figure which shows the example of the designation | designated method of the link in hypertext, and the display example on a browser. 間違いリンクによる論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by an incorrect link. 期限切れリンクによる論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by an expired link. リンク元表記の不統一による論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by inconsistency of a link origin description. リンク元表記のスタイルの不統一による論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by the unification of the style of a link origin notation. 幽霊リンクによる論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by a ghost link. ループリンクによる論理的不整合の例を示す図である。It is a figure which shows the example of the logical inconsistency by a loop link. 情報記憶部に格納されるリンク情報の例を示す図である。It is a figure which shows the example of the link information stored in an information storage part. 本発明の第1の実施の形態の動作を示す流れ図である。3 is a flowchart showing the operation of the first exemplary embodiment of the present invention. 本発明の第1の実施の形態における文書収集条件の設定画面例を示す図である。FIG. 5 is a diagram showing an example of a document collection condition setting screen in the first embodiment of the present invention. 本発明の第1の実施の形態におけるリンク不整合の抽出条件の設定画面例を示す図である。FIG. 6 is a diagram showing an example of a setting screen for a link mismatch extraction condition in the first embodiment of the present invention. 本発明の第1の実施の形態における不整合抽出結果の例を示す図である。It is a figure which shows the example of the inconsistency extraction result in the 1st Embodiment of this invention. 本発明の第1の実施の形態における間違いリンク抽出の動作を示す流れ図である。6 is a flowchart showing an operation of extracting an erroneous link in the first embodiment of the present invention. 本発明の第1の実施の形態における間違いリンク抽出時に抽出されるリンク情報の例を示す図である。It is a figure which shows the example of the link information extracted at the time of the incorrect link extraction in the 1st Embodiment of this invention. 本発明の第1の実施の形態における期限切れリンク抽出の動作を示す流れ図である。3 is a flowchart showing an operation of extracting an expired link in the first embodiment of the present invention. 本発明の第1の実施の形態におけるリンク元表記の不統一抽出の動作を示す流れ図である。5 is a flowchart showing an operation of extracting ununiformity of link source notation in the first exemplary embodiment of the present invention. 本発明の第1の実施の形態におけるリンク元表記の不統一抽出時に抽出されるリンク情報の例を示す図である。It is a figure which shows the example of the link information extracted at the time of the ununiform extraction of the link origin notation in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるリンク元表記のスタイルの不統一抽出の動作を示す流れ図である。6 is a flowchart showing an operation of extracting ununiformity of styles of a link source notation in the first exemplary embodiment of the present invention. 本発明の第1の実施の形態におけるリンク元表記のスタイルの不統一抽出時に抽出されるリンク情報の例を示す図である。It is a figure which shows the example of the link information extracted at the time of ununiform extraction of the style of the link origin notation in the 1st Embodiment of this invention. 本発明の第1の実施の形態における幽霊リンク抽出の動作を示す流れ図である。6 is a flowchart showing an operation of extracting a ghost link in the first embodiment of the present invention. 本発明の第1の実施の形態におけるループリンク抽出の動作を示す流れ図である。3 is a flowchart showing an operation of loop link extraction in the first exemplary embodiment of the present invention. 本発明の第1の実施の形態におけるリンク情報の時間変化抽出の動作を示す流れ図である。5 is a flowchart showing an operation of extracting time change of link information in the first exemplary embodiment of the present invention. 本発明の第1の実施の形態におけるリンク情報の時間変化抽出時に抽出されるリンク情報の例を示す図である。It is a figure which shows the example of the link information extracted at the time of the time change extraction of the link information in the 1st Embodiment of this invention. 本発明の第2の実施の形態の構成を示すブロック図である。FIG. 5 is a block diagram showing a configuration of a second exemplary embodiment of the present invention. 本発明の第2の実施の形態の動作を示す流れ図である。6 is a flowchart showing the operation of the second exemplary embodiment of the present invention. 本発明の第2の実施の形態における不整合抽出結果の例を示す図である。It is a figure which shows the example of the mismatch extraction result in the 2nd Embodiment of this invention. 本発明の第3の実施の形態の構成を示すブロック図である。FIG. 10 is a block diagram showing a configuration of a third exemplary embodiment of the present invention. 本発明の第3の実施の形態の動作を示す流れ図である。10 is a flowchart showing the operation of the third exemplary embodiment of the present invention. 本発明の第3の実施の形態におけるトータルスコアの時間変化を出力する画面例を示す図である。FIG. 16 is a diagram showing an example of a screen for outputting a change in total score over time in the third embodiment of the present invention. 本発明の第3の実施の形態におけるトータルスコアによるサイトのランキング画面例を示す図である。FIG. 10 is a diagram showing an example of a site ranking screen based on a total score in the third embodiment of the present invention. 本発明の第4、第5および第6の実施の形態の構成を示すブロック図である。FIG. 10 is a block diagram showing configurations of fourth, fifth, and sixth embodiments of the present invention.

符号の説明Explanation of symbols

1、5、6、502 データ処理装置
2、504 記憶装置
3、501 入力手段
4、503 出力手段
11 情報収集手段
12 候補計算手段
13 条件判定手段
14 訂正反映手段
15 重要度計算手段
16 トータルスコア計算手段
21 ハイパーテキストデータベース
22 情報記憶部
500 ハイパーテキスト検査用プログラム
505 入力メモリ
506 ワークメモリ
1, 5, 6, 502 Data processing device
2,504 storage device
3,501 Input method
4, 503 Output means
11 Information collection means
12 Candidate calculation means
13 Condition judging means
14 Correction reflection means
15 Importance calculation method
16 Total score calculation means
21 Hypertext database
22 Information storage
500 Hypertext inspection program
505 input memory
506 Work memory

Claims (18)

ハイパーリンクで構造化された文書集合を格納するハイパーテキストデータベースと、
前記ハイパーテキストデータベースから各文書を取り出し、各文書に含まれるリンク情報としてリンク元アドレス、リンク先アドレスおよびリンク元表記を取り出す情報収集手段と、
前記情報収集手段によって取り出された文書の本文およびリンク情報を記憶する情報記憶手段と、
リンク元表記に日付表現が含まれるリンク情報、および、本文に日付表現が含まれる文書をリンク先アドレスとするリンク情報を前記情報記憶手段から抽出して、前記日付表現と現在日時とを比較し、且つ、前記抽出したリンク情報のリンク先アドレスで示される文書から期限切れ表現を抽出し、前記日付表現と現在日時との比較結果および前記期限切れ表現の抽出結果に基づいて前記リンク情報の不適切スコアを計算し、該計算した不適切スコアの高いリンク情報を、期限切れ情報へのリンク情報として検出し、該検出結果を出力手段から出力する条件判定手段とを備えることを特徴とするハイパーテキスト検査装置。
A hypertext database that stores a collection of documents structured by hyperlinks;
Information collecting means for taking out each document from the hypertext database and taking out a link source address, a link destination address and a link source notation as link information included in each document;
Information storage means for storing the text and link information of the document retrieved by the information collecting means;
The link information including the date expression in the link source notation and the link information having the document whose date expression includes the date expression as the link destination address are extracted from the information storage means, and the date expression is compared with the current date and time. In addition, an expired expression is extracted from the document indicated by the link destination address of the extracted link information, and an inappropriate score of the link information is obtained based on a comparison result between the date expression and the current date and time and an extraction result of the expired expression. A hypertext inspection apparatus comprising: a condition determining unit that calculates link information with a high inappropriate score calculated as link information to expired information and outputs the detection result from an output unit .
前記条件判定手段によって検出された期限切れ情報へのリンク情報のリンク先アドレスで示される文書中から移転先アドレスを抽出し、該抽出した移転先アドレスで前記リンク情報のリンク先アドレスを訂正することを示す訂正候補を前記出力手段から出力する候補計算手段を備えることを特徴とする請求項1に記載のハイパーテキスト検査装置。   Extracting the transfer destination address from the document indicated by the link destination address of the link information to the expiration information detected by the condition determining means, and correcting the link destination address of the link information with the extracted transfer destination address; The hypertext inspection apparatus according to claim 1, further comprising candidate calculation means for outputting a correction candidate to be indicated from the output means. 前記候補計算手段は、前記移転先アドレスを抽出できなかった場合、前記リンク情報を削除することを示す訂正候補を前記出力手段から出力することを特徴とする請求項2に記載のハイパーテキスト検査装置。   3. The hypertext inspection apparatus according to claim 2, wherein the candidate calculation unit outputs a correction candidate indicating that the link information is deleted from the output unit when the transfer destination address cannot be extracted. . 前記候補計算手段で計算された訂正候補に基づいて、前記ハイパーテキストデータベースに記憶されている文書中の、期限切れ情報へのリンク情報を訂正する訂正反映手段を備えることを特徴とする請求項2または3に記載のハイパーテキスト検査装置。   The correction reflecting means for correcting the link information to the expired information in the document stored in the hypertext database based on the correction candidate calculated by the candidate calculating means. 3. The hypertext inspection device according to 3. 前記条件判定手段によって検出された期限切れ情報へのリンク情報の重要度を計算して前記出力手段から出力する重要度計算手段を備えることを特徴とする請求項1、2、3または4に記載のハイパーテキスト検査装置。   5. The importance calculating means according to claim 1, further comprising importance calculating means for calculating importance of link information to the expiration information detected by the condition determining means and outputting the importance from the output means. Hypertext inspection device. 前記重要度計算手段で計算された重要度、前記条件判定手段によって検出された期限切れ情報へのリンク情報の数、総リンク数に対する前記条件判定手段によって検出された期限切れ情報へのリンク情報の数の割合、のうちの1ファクタもしくは複数のファクタの組み合わせによって前記ハイパーリンクで構造化された文書集合に関するトータルスコアを計算して前記出力手段から出力するトータルスコア計算手段を備えることを特徴とする請求項5に記載のハイパーテキスト検査装置。   The importance calculated by the importance calculation means, the number of link information to the expiration information detected by the condition determination means, the number of link information to the expiration information detected by the condition determination means for the total number of links 6. A total score calculating means for calculating a total score related to the document set structured by the hyperlink by a combination of one factor or a plurality of factors of the ratio and outputting the total score from the output means. The described hypertext inspection device. 情報収集手段が、ハイパーリンクで構造化された文書集合を格納するハイパーテキストデータベースから各文書を取り出し、各文書に含まれるリンク情報としてリンク元アドレス、リンク先アドレスおよびリンク元表記を取り出すステップと、
前記情報収集手段が、前記取り出した文書の本文およびリンク情報を情報記憶手段に記憶するステップと、
条件判定手段が、リンク元表記に日付表現が含まれるリンク情報、および、本文に日付表現が含まれる文書をリンク先アドレスとするリンク情報を前記情報記憶手段から抽出して、前記日付表現と現在日時とを比較し、且つ、前記抽出したリンク情報のリンク先アドレスで示される文書から期限切れ表現を抽出し、前記日付表現と現在日時との比較結果および前記期限切れ表現の抽出結果に基づいて前記リンク情報の不適切スコアを計算するステップと、
前記条件判定手段が、前記計算した不適切スコアの高いリンク情報を、期限切れ情報へのリンク情報として検出し、該検出結果を出力手段から出力するステップとを含むことを特徴とするハイパーテキスト検査方法。
An information collecting unit that extracts each document from a hypertext database storing a document set structured by hyperlinks, and extracts a link source address, a link destination address, and a link source notation as link information included in each document;
The information collecting means storing the text and link information of the retrieved document in an information storage means;
Condition determining means extracts from the information storage means link information whose link source notation includes a date expression and link information whose text contains a date expression as a link destination address. Compare the date and time, extract an expired expression from the document indicated by the link destination address of the extracted link information, and based on the comparison result of the date expression and the current date and time and the extracted result of the expired expression Calculating an inappropriate score for information;
A hypertext inspection method comprising: detecting the link information with the calculated inappropriate inappropriate score as link information to expired information, and outputting the detection result from the output means; .
候補計算手段が、前記条件判定手段によって検出された期限切れ情報へのリンク情報のリンク先アドレスで示される文書中から移転先アドレスを抽出し、該抽出した移転先アドレスで前記リンク情報のリンク先アドレスを訂正することを示す訂正候補を前記出力手段から出力するステップを含むことを特徴とする請求項7に記載のハイパーテキスト検査方法。   The candidate calculation means extracts the transfer destination address from the document indicated by the link destination address of the link information to the expiration information detected by the condition determination means, and the link destination address of the link information by the extracted transfer destination address The hypertext inspection method according to claim 7, further comprising a step of outputting a correction candidate indicating that the correction is to be performed from the output unit. 前記候補計算手段が、前記移転先アドレスを抽出できなかった場合、前記リンク情報を削除することを示す訂正候補を前記出力手段から出力するステップを含むことを特徴とする請求項8に記載のハイパーテキスト検査方法。   9. The hyperlink according to claim 8, further comprising the step of outputting, from the output unit, a correction candidate indicating that the link information is to be deleted when the candidate calculation unit cannot extract the transfer destination address. Text inspection method. 訂正反映手段が、前記候補計算手段で計算された訂正候補に基づいて、前記ハイパーテキストデータベースに記憶されている文書中の、期限切れ情報へのリンク情報を訂正するステップを含むことを特徴とする請求項8または9に記載のハイパーテキスト検査方法。   The correction reflecting means includes a step of correcting link information to expiration information in a document stored in the hypertext database based on the correction candidates calculated by the candidate calculating means. Item 10. The hypertext inspection method according to Item 8 or 9. 重要度計算手段が、前記条件判定手段によって検出された期限切れ情報へのリンク情報の重要度を計算して前記出力手段から出力するステップを含むことを特徴とする請求項7、8、9または10に記載のハイパーテキスト検査方法。   11. The importance level calculation means includes a step of calculating the importance level of link information to expired information detected by the condition determination means and outputting the importance level from the output means. The hypertext inspection method described in 1. トータルスコア計算手段が、前記重要度計算手段で計算された重要度、前記条件判定手段によって検出された期限切れ情報へのリンク情報の数、総リンク数に対する前記条件判定手段によって検出された期限切れ情報へのリンク情報の数の割合、のうちの1ファクタもしくは複数のファクタの組み合わせによって前記ハイパーリンクで構造化された文書集合に関するトータルスコアを計算して前記出力手段から出力するステップを含むことを特徴とする請求項11に記載のハイパーテキスト検査方法。   Total score calculation means, the importance calculated by the importance calculation means, the number of link information to the expiration information detected by the condition determination means, the expiration information detected by the condition determination means for the total number of links A step of calculating a total score relating to the document set structured by the hyperlink by a combination of one factor or a plurality of factors of the ratio of the number of link information and outputting from the output means is provided. Item 12. The hypertext inspection method according to Item 11. ハイパーリンクで構造化された文書集合を格納するハイパーテキストデータベースと、情報記憶手段とを備えたコンピュータを、
前記ハイパーテキストデータベースから各文書を取り出し、各文書に含まれるリンク情報としてリンク元アドレス、リンク先アドレスおよびリンク元表記を取り出し、前記取り出した文書の本文およびリンク情報を前記情報記憶手段に記憶する情報収集手段と、
リンク元表記に日付表現が含まれるリンク情報、および、本文に日付表現が含まれる文書をリンク先アドレスとするリンク情報を前記情報記憶手段から抽出して、前記日付表現と現在日時とを比較し、且つ、前記抽出したリンク情報のリンク先アドレスで示される文書から期限切れ表現を抽出し、前記日付表現と現在日時との比較結果および前記期限切れ表現の抽出結果に基づいて前記リンク情報の不適切スコアを計算し、該計算した不適切スコアの高いリンク情報を、期限切れ情報へのリンク情報として検出し、該検出結果を出力手段から出力する条件判定手段として機能させるためのハイパーテキスト検査プログラム。
A computer comprising a hypertext database for storing a set of documents structured by hyperlinks and information storage means,
Information that retrieves each document from the hypertext database, retrieves a link source address, a link destination address, and a link source notation as link information included in each document, and stores the text and link information of the retrieved document in the information storage unit Collection means;
The link information including the date expression in the link source notation and the link information having the document whose date expression includes the date expression as the link destination address are extracted from the information storage means, and the date expression is compared with the current date and time. In addition, an expired expression is extracted from the document indicated by the link destination address of the extracted link information, and an inappropriate score of the link information is obtained based on a comparison result between the date expression and the current date and time and an extraction result of the expired expression. A hypertext inspection program for detecting the calculated link information having a high inappropriate score as link information to the expired information and functioning as a condition determination means for outputting the detection result from the output means.
前記コンピュータを、さらに、前記条件判定手段によって検出された期限切れ情報へのリンク情報のリンク先アドレスで示される文書中から移転先アドレスを抽出し、該抽出した移転先アドレスで前記リンク情報のリンク先アドレスを訂正することを示す訂正候補を前記出力手段から出力する候補計算手段として機能させるための請求項13に記載のハイパーテキスト検査プログラム。   The computer further extracts a transfer destination address from the document indicated by the link destination address of the link information to the expiration information detected by the condition determination means, and the link destination of the link information by the extracted transfer destination address 14. The hypertext inspection program according to claim 13, wherein the hypertext inspection program functions as candidate calculation means for outputting a correction candidate indicating that the address is corrected from the output means. 前記候補計算手段は、前記移転先アドレスを抽出できなかった場合、前記リンク情報を削除することを示す訂正候補を前記出力手段から出力することを特徴とする請求項14に記載のハイパーテキスト検査プログラム。   15. The hypertext inspection program according to claim 14, wherein the candidate calculation means outputs a correction candidate indicating that the link information is deleted from the output means when the transfer destination address cannot be extracted. . 前記コンピュータを、さらに、前記候補計算手段で計算された訂正候補に基づいて、前記ハイパーテキストデータベースに記憶されている文書中の、期限切れ情報へのリンク情報を訂正する訂正反映手段として機能させるための請求項14または15に記載のハイパーテキスト検査プログラム。   Further, the computer is caused to function as a correction reflection unit that corrects link information to the expiration information in the document stored in the hypertext database based on the correction candidates calculated by the candidate calculation unit. The hypertext inspection program according to claim 14 or 15. 前記コンピュータを、さらに、前記条件判定手段によって検出された期限切れ情報へのリンク情報の重要度を計算して前記出力手段から出力する重要度計算手段として機能させるための請求項13、14、15または16に記載のハイパーテキスト検査プログラム。   16. The computer according to claim 13, 14, 15, or 15 for causing the computer to further function as an importance calculation means for calculating the importance of link information to the expiration information detected by the condition determination means and outputting the importance from the output means. 16. The hypertext inspection program according to 16. 前記コンピュータを、さらに、前記重要度計算手段で計算された重要度、前記条件判定手段によって検出された期限切れ情報へのリンク情報の数、総リンク数に対する前記条件判定手段によって検出された期限切れ情報へのリンク情報の数の割合、のうちの1ファクタもしくは複数のファクタの組み合わせによって前記ハイパーリンクで構造化された文書集合に関するトータルスコアを計算して前記出力手段から出力するトータルスコア計算手段として機能させるための請求項17に記載のハイパーテキスト検査プログラム。   The computer further includes the importance calculated by the importance calculation means, the number of link information to the expiration information detected by the condition determination means, and the expiration information detected by the condition determination means for the total number of links. For calculating the total score for the document set structured by the hyperlink by one factor or a combination of a plurality of factors in the ratio of the number of link information and outputting from the output means The hypertext inspection program according to claim 17.
JP2007278620A 2007-10-26 2007-10-26 Hypertext inspection apparatus and method, and program Expired - Fee Related JP4162035B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007278620A JP4162035B2 (en) 2007-10-26 2007-10-26 Hypertext inspection apparatus and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007278620A JP4162035B2 (en) 2007-10-26 2007-10-26 Hypertext inspection apparatus and method, and program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002302585A Division JP4093012B2 (en) 2002-10-17 2002-10-17 Hypertext inspection apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2008097617A true JP2008097617A (en) 2008-04-24
JP4162035B2 JP4162035B2 (en) 2008-10-08

Family

ID=39380326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007278620A Expired - Fee Related JP4162035B2 (en) 2007-10-26 2007-10-26 Hypertext inspection apparatus and method, and program

Country Status (1)

Country Link
JP (1) JP4162035B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192096A (en) * 2010-03-16 2011-09-29 Yahoo Japan Corp Analytical processing regulating device and method

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259138A (en) * 1996-03-21 1997-10-03 N T T Data Tsushin Kk Sort information display method and information retrieval device
JPH09293010A (en) * 1996-04-26 1997-11-11 Mitsubishi Electric Corp Information synchronizing method
JPH1185801A (en) * 1997-09-12 1999-03-30 Nec Corp Checking system for linkage information on www server
JP2000090079A (en) * 1998-09-08 2000-03-31 Toshiba Corp Device and method for preparing contents and computer readable recording medium recording program
WO2000072190A1 (en) * 1999-05-19 2000-11-30 Fujitsu Limited Method for supporting development of internet contents, recorded medium on which program for implementing the same is recorded, and system for implementing the same
JP2001209570A (en) * 1999-12-03 2001-08-03 Hyundai Electronics Ind Co Ltd Link effectiveness test device and method on a computer network
JP2002169800A (en) * 2000-12-04 2002-06-14 Fuji Xerox Co Ltd Document managing device and document managing method
JP2002189746A (en) * 2000-12-21 2002-07-05 Just Syst Corp Device and method for electronic file retrieval, and computer-readable recording medium with program making computer implement the method recorded thereon

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259138A (en) * 1996-03-21 1997-10-03 N T T Data Tsushin Kk Sort information display method and information retrieval device
JPH09293010A (en) * 1996-04-26 1997-11-11 Mitsubishi Electric Corp Information synchronizing method
JPH1185801A (en) * 1997-09-12 1999-03-30 Nec Corp Checking system for linkage information on www server
JP2000090079A (en) * 1998-09-08 2000-03-31 Toshiba Corp Device and method for preparing contents and computer readable recording medium recording program
WO2000072190A1 (en) * 1999-05-19 2000-11-30 Fujitsu Limited Method for supporting development of internet contents, recorded medium on which program for implementing the same is recorded, and system for implementing the same
JP2001209570A (en) * 1999-12-03 2001-08-03 Hyundai Electronics Ind Co Ltd Link effectiveness test device and method on a computer network
JP2002169800A (en) * 2000-12-04 2002-06-14 Fuji Xerox Co Ltd Document managing device and document managing method
JP2002189746A (en) * 2000-12-21 2002-07-05 Just Syst Corp Device and method for electronic file retrieval, and computer-readable recording medium with program making computer implement the method recorded thereon

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
石田 和生: "複数文書間のハイパーリンク自動生成とメンテナンス", 情報処理学会研究報告, vol. 第99巻,第25号, JPN6008006302, 12 March 1999 (1999-03-12), JP, pages 33 - 40, ISSN: 0001075388 *
角谷 和俊: "放送型ハイパーメディアのための時間依存リンク機構", 電子情報通信学会論文誌, vol. 第J82-D-I巻,第1号, JPN6008006304, 25 January 1999 (1999-01-25), JP, pages 291 - 302, ISSN: 0001075386 *
野田 玲子: "放送型情報提供システムMille−feuilleにおける時間依存情報の配信", 情報処理学会研究報告, vol. 第98巻,第57号, JPN6008006303, 8 July 1998 (1998-07-08), JP, pages 103 - 110, ISSN: 0001075387 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192096A (en) * 2010-03-16 2011-09-29 Yahoo Japan Corp Analytical processing regulating device and method

Also Published As

Publication number Publication date
JP4162035B2 (en) 2008-10-08

Similar Documents

Publication Publication Date Title
JP4093012B2 (en) Hypertext inspection apparatus, method, and program
US10120537B2 (en) Page-independent multi-field validation in document capture
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
US7836010B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US9218568B2 (en) Disambiguating data using contextual and historical information
US7587672B2 (en) File content preview tool
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US20090030891A1 (en) Method and apparatus for extraction of textual content from hypertext web documents
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
WO2011137386A1 (en) Systems and methods for semantic search, content correlation and visualization
JP2011022705A (en) Trail management method, system, and program
CN103262049A (en) Method of gathering data of an event-ike nature from electronic forms
CN113544689A (en) Generating and providing additional content for a source view of a document
US11768995B2 (en) Offline interactive natural language processing results
CN110941702A (en) Retrieval method and device for laws and regulations and laws and readable storage medium
Qumsiyeh et al. Searching web documents using a summarization approach
JP4162035B2 (en) Hypertext inspection apparatus and method, and program
US10824606B1 (en) Standardizing values of a dataset
CN113407678B (en) Knowledge graph construction method, device and equipment
CN112783410B (en) Information processing method, medium, device and computing equipment
CN110515618B (en) Page information input optimization method, equipment, storage medium and device
Hoeber et al. Browseline: 2d timeline visualization of web browsing histories
CN111581950A (en) Method for determining synonym and method for establishing synonym knowledge base
US11816112B1 (en) Systems and methods for automated process discovery

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees