JP2008217047A - Method, system and program for dividing web document - Google Patents
Method, system and program for dividing web document Download PDFInfo
- Publication number
- JP2008217047A JP2008217047A JP2007049197A JP2007049197A JP2008217047A JP 2008217047 A JP2008217047 A JP 2008217047A JP 2007049197 A JP2007049197 A JP 2007049197A JP 2007049197 A JP2007049197 A JP 2007049197A JP 2008217047 A JP2008217047 A JP 2008217047A
- Authority
- JP
- Japan
- Prior art keywords
- document
- block
- characters
- dividing
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、Webサイト上の文書を適切な区分で分割するWeb文書分割方法、システム及びプログラムに関する。 The present invention relates to a Web document dividing method, system, and program for dividing a document on a Web site into appropriate sections.
例えばインターネット上のWWW(World Wide Web)サイトに、新規文書が掲載されたか否かを自動判定する文書更新判定システムが検討されている。この、文書更新判定システムは、同一Webサイト(Webページ)から異なる時刻に取得された2つの文書を比較して、両者が同一文書であるか否かを判定するものである。その判定方法として、全文比較法、ハッシュ値比較法、形態素解析法、時間情報取得法及び暗号文比較法などが知られている。 For example, a document update determination system that automatically determines whether or not a new document has been posted on a WWW (World Wide Web) site on the Internet has been studied. This document update determination system compares two documents acquired at different times from the same Web site (Web page) and determines whether or not both are the same document. As the determination method, a full text comparison method, a hash value comparison method, a morpheme analysis method, a time information acquisition method, a ciphertext comparison method, and the like are known.
上記の文書比較に際しては、Webサイト上の文書を適切なブロック文書の単位で分割し、適切なブロック文書同士で比較することが、的確な文書更新判定のために肝要となる。従来、比較すべき文書(文字列)を抽出するための方法として、例えば特許文献1には、メモリに蓄積された電子メールのような文字列情報から特定の文字列を抽出する方法が開示されている。また、特許文献2には、WWWサイトから特定のWWW文書を取得する方法が開示されている。
しかしながら、上記特許文献に開示のものは、いずれもWebサイト上の文書の特質を十分考慮したものではない。すなわち、Webサイト上の文書には、主に文字だけで構成されたテキストデータ、これにハイパーリンクの部分を含むテキストデータ、殆どがハイパーリンクの部分で構成されたテキストデータ等が存在する。これらの文書の性質に合わせて、Webサイト上の文書を適切なブロック文書の単位で分割する方法は従来提案されておらず、このため的確な文書更新判定が行えないという不都合があった。 However, none of those disclosed in the above-mentioned patent documents fully consider the characteristics of documents on a Web site. That is, a document on a Web site includes text data mainly composed of only characters, text data including a hyperlink portion, text data composed mostly of a hyperlink portion, and the like. In accordance with the nature of these documents, a method for dividing a document on a Web site in an appropriate block document unit has not been proposed so far, and there has been a disadvantage that accurate document update determination cannot be performed.
本発明は、かかる事情に鑑みてなされたもので、Webサイト上の文書種別に応じて、該文書を適切なブロック文書の単位で分割することができるWeb文書分割方法、システム及びプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and provides a Web document dividing method, system, and program capable of dividing the document into appropriate block document units according to the document type on the Web site. For the purpose.
本発明の請求項1に係るWeb文書分割方法は、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成し、前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求め、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割することを特徴とする。
The Web document dividing method according to
この構成によれば、まずWebサイト上の文書が、空行部分を区切りとして分割され、ブロック文書が作成される。そして、このブロック文書におけるハイパーリンクキャラクタの含有率が求められる。ハイパーリンクキャラクタの含有率が高い場合、当該ブロック文書はリンク付のニュースタイトル等の羅列文書である可能性が高い。この場合、ブロック文書内には複数の異なる内容の文書が含まれていると推定されることから、改行を示す第3タグの単位で前記ブロック文書を再分割することで、適切な文書単位に区切ることができる。一方、ハイパーリンクキャラクタの含有率が低い場合、当該ブロック文書は一つのニュース記事、ブログ文書、掲示板文書等である可能性が高い。このようなブロック文書を第3タグの単位で区切ってしまうと、一つのまとまりのある文書を細分化してしまうことになるので、この場合には再分割を行わない。従って、Webサイト上の文書を、内容に応じて適正な単位で分割することができる。 According to this configuration, the document on the Web site is first divided with the blank line portion as a delimiter, and a block document is created. And the content rate of the hyperlink character in this block document is calculated | required. When the content rate of the hyperlink character is high, there is a high possibility that the block document is an enumerated document such as a news title with a link. In this case, it is presumed that the block document includes a plurality of documents having different contents. Therefore, by subdividing the block document in units of the third tag indicating a line break, an appropriate document unit is obtained. Can be separated. On the other hand, when the content rate of the hyperlink character is low, there is a high possibility that the block document is a single news article, blog document, bulletin board document, or the like. If such a block document is divided by the unit of the third tag, a unitary document is subdivided, and in this case, no re-division is performed. Therefore, it is possible to divide the document on the Web site in an appropriate unit according to the content.
請求項2に係るWeb文書分割方法は、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成し、前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求め、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割し、前記リンクキャラクタの数の割合が、前記第1閾値よりも高い所定の第2閾値よりもさらに高い場合には、前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割することを特徴とする。 According to a second aspect of the present invention, there is provided a Web document dividing method for generating a block document by dividing a document on a Web site by a unit of a first tag indicating a blank line. If the ratio of the number of link characters to which the second tag for hyperlink to the Web site is given and the ratio of the number of link characters is higher than a predetermined first threshold, If the block document is re-divided in units of third tags indicating line breaks included in the image, and the ratio of the number of link characters is higher than a predetermined second threshold value that is higher than the first threshold value, The block document is subdivided in units of the second tag included in the block document.
この構成によれば、上記の文書再分割要件に加えて、ハイパーリンクキャラクタの含有率が、第1閾値よりも高い所定の第2閾値よりもさらに高い場合には、当該ブロック文書がハイパーリンク用の第2タグの単位で再分割される。これは、ハイパーリンクキャラクタの含有率が極めて高い文書は、リンク先が一行内に複数並べられているようなブロック文書である可能性が高い。この場合、ブロック文書を、改行を示す第3タグの単位で再分割したのでは適切な文書単位に区切れない可能性があるが、前記第2タグの単位で再分割すれば、これを適切に再分割することができる。 According to this configuration, in addition to the document subdivision requirement, when the content ratio of the hyperlink character is higher than a predetermined second threshold value that is higher than the first threshold value, the block document is used for hyperlinks. Are subdivided in units of the second tag. It is highly likely that a document with a very high hyperlink character content is a block document in which a plurality of link destinations are arranged in one line. In this case, if the block document is subdivided in units of the third tag indicating a line break, it may not be divided into appropriate document units. However, if the subdocument is subdivided in units of the second tag, Can be subdivided into
上記いずれかの構成において、前記Webサイトを記述するマークアップ言語が、HTML形式であることが望ましい(請求項3)。この構成によれば、<br>タグ、<a>タグ等を利用して、Webサイト文書を簡単且つ適切に分割することができる。 In any one of the above configurations, it is desirable that the markup language describing the Web site is in an HTML format. According to this configuration, the Web site document can be easily and appropriately divided using the <br> tag, the <a> tag, and the like.
請求項4に係るWeb文書分割システムは、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成する第1文書分割手段と、前記ブロック文書に含まれる全キャラクタの数と、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数とをそれぞれカウントするカウント手段と、前記全キャラクタの数に対する前記リンクキャラクタの数の割合を求め、その割合に基づいて前記ブロック文書を再分割するか否かを決定する判定手段と、前記判定手段が再分割すると決定した場合に、前記ブロック文書を再分割する第2文書分割手段と、を備え、前記判定手段は、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合に前記ブロック文書を再分割すると決定し、前記第2文書分割手段は、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割することを特徴とする。 According to a fourth aspect of the present invention, there is provided a Web document dividing system including a first document dividing unit that generates a block document by dividing a document on a Web site in units of first tags indicating blank lines, and all the documents included in the block document. Counting means for counting the number of characters and the number of link characters provided with second tags for hyperlinks to other websites, and the ratio of the number of link characters to the number of all characters Determining means for determining whether to re-divide the block document based on the ratio, and a second document dividing means for re-dividing the block document when the determining means determines to re-divide, The determination means determines that the block document is to be subdivided when the ratio of the number of link characters is higher than a predetermined first threshold, 2 Document dividing means is characterized by subdividing the block document in units of third tag indicating a line break included in the block document.
この場合、前記第1閾値が30%であることが望ましい(請求項6)。この構成によれば、リンク付のニュースタイトル等の羅列文書と、一つのニュース記事等を、高い確率で区分することができる。 In this case, it is desirable that the first threshold value is 30%. According to this configuration, it is possible to classify an enumerated document such as a news title with a link and a single news article with a high probability.
請求項5に係るWeb文書分割システムは、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成する第1文書分割手段と、前記ブロック文書に含まれる全キャラクタの数と、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数とをそれぞれカウントするカウント手段と、前記全キャラクタの数に対する前記リンクキャラクタの数の割合を求め、その割合に基づいて前記ブロック文書を再分割するか否かを決定する判定手段と、前記判定手段が再分割すると決定した場合に、前記ブロック文書を再分割する第2文書分割手段と、を備え、前記判定手段は、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い第1含有率の場合と、前記第1閾値よりも高い所定の第2閾値よりもさらに高い第2含有率の場合とに前記ブロック文書を再分割すると決定し、前記第2文書分割手段は、第1含有率の場合には前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割し、第2含有率の場合には前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割することを特徴とする。 According to a fifth aspect of the present invention, there is provided a Web document dividing system including a first document dividing unit that generates a block document by dividing a document on a Web site in units of first tags indicating blank lines, and all the documents included in the block document. Counting means for counting the number of characters and the number of link characters provided with second tags for hyperlinks to other websites, and the ratio of the number of link characters to the number of all characters Determining means for determining whether to re-divide the block document based on the ratio, and a second document dividing means for re-dividing the block document when the determining means determines to re-divide, The determination means includes a first content rate in which the ratio of the number of link characters is higher than a predetermined first threshold value, and a predetermined value higher than the first threshold value. The block document is determined to be subdivided when the second content rate is higher than two thresholds, and the second document dividing unit indicates a line feed included in the block document when the first content rate is reached. The block document is subdivided in units of third tags, and in the case of the second content rate, the block documents are subdivided in units of the second tag included in the block documents.
この場合、前記第1閾値が30%であり、前記第2閾値が85%であることが望ましい(請求項7)。この構成によれば、リンク付のニュースタイトル等の羅列文書と、一つのニュース記事等を、高い確率で判定することができる。さらに、リンク先が一行内に複数並べられているようなブロック文書も、高い確率で判定することができる。 In this case, it is desirable that the first threshold value is 30% and the second threshold value is 85%. According to this configuration, it is possible to determine an enumerated document such as a news title with a link and one news article with a high probability. Further, a block document in which a plurality of link destinations are arranged in one line can be determined with a high probability.
上記いずれかの構成において、前記第2タグ及び第3タグを特殊文字に変換する文字変換手段をさらに備えることが望ましい(請求項8)。この構成によれば、タグキャラクタと同じキャラクタがブロック文書に含まれているような場合でも、誤判定がなされないようにすることができる。 In any one of the configurations described above, it is preferable that the information processing apparatus further includes character conversion means for converting the second tag and the third tag into special characters. According to this configuration, it is possible to prevent erroneous determination even when the same character as the tag character is included in the block document.
請求項9に係るWeb文書分割プログラムは、Webサイト上のキャラクタ情報及びタグ情報が解析可能なコンピュータに、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成するステップと、前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求めるステップと、前記リンクキャラクタの数の割合が所定の第1閾値よりも高いか否かを判定するステップと、前記第1閾値よりも高い場合に、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割するステップと、を実行させることを特徴とする。 A Web document dividing program according to claim 9 divides a document on a Web site into units of a first tag indicating a blank line and a block document on a computer capable of analyzing character information and tag information on the Web site. Creating a ratio of the number of link characters provided with second tags for hyperlinks to other websites with respect to the total number of characters included in the block document; and Determining whether the number ratio is higher than a predetermined first threshold; and, if higher than the first threshold, the block document in units of a third tag indicating a line break included in the block document And a step of subdividing.
請求項10に係るWeb文書分割プログラムは、Webサイト上のキャラクタ情報及びタグ情報が解析可能なコンピュータに、Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成するステップと、前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求めるステップと、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い第1含有率か否か、及び前記第1閾値よりも高い所定の第2閾値よりもさらに高い第2含有率か否かを判定するステップと、前記第1含有率の場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割させ、前記第2含有率の場合には、前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割させるステップと、を実行させることを特徴とする。
A Web document dividing program according to
上記のようなWeb文書分割方法、システム及びプログラムによれば、主に文字だけで構成された文書、これにハイパーリンクの部分を多く含む文書乃至は殆どがハイパーリンクの部分で構成された文書を適切に分割することができる。従って、Webサイト上の文書を適切なブロック文書の単位で分割し、このブロック文書同士で比較して行う文書更新判定を、的確に実行させることができる。 According to the Web document dividing method, system, and program as described above, a document mainly composed of only characters, a document including many hyperlink parts or a document composed mostly of hyperlink parts. Can be divided appropriately. Accordingly, it is possible to accurately execute the document update determination performed by dividing the document on the Web site in units of appropriate block documents and comparing the block documents with each other.
以下、図面に基づいて、本発明の実施形態について説明する。
図1は、本発明に係るWeb文書分割方法が適用された文書更新判定システムSのハード構成を示す構成図である。また、図2は、文書更新判定システムSの全体的な動作を概略的に示すフローチャートである。本発明に係るWeb文書分割方法は種々の用途に適用できるが、ここでは一例として、文書更新判定システムSに組み込む例を挙げる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a configuration diagram showing a hardware configuration of a document update determination system S to which a Web document dividing method according to the present invention is applied. FIG. 2 is a flowchart schematically showing the overall operation of the document update determination system S. The Web document dividing method according to the present invention can be applied to various uses. Here, an example in which the Web document dividing method is incorporated into the document update determination system S will be given.
この文書更新判定システムSは、インターネット回線INに接続され、Webサイト3(WWWサイト)をブラウジング可能とされたサーバ装置1と、このサーバ装置1と通信可能とされたパーソナルコンピュータ21、携帯電話機22等の端末装置2とから構成されている。
The document update determination system S is connected to the Internet line IN, and the
Webサイト3は、インターネット回線INに接続されたコンピュータ(Webサーバ)に記録されているHTMLファイルや画像ファイル等の各種Webコンテンツが複数登録されている場所である。Webサイト3は、サーバ装置1からのキーワード検索等、ユーザのリクエストに応じて、該当するHTMLファイルや画像ファイル等を提供する。図1では、「ニュース」に関するWebサイトA、「経済ニュース」に関するWebサイトB、「掲示板」としてのWebサイトC、「ブログ」としてのWebサイトDを模式的に例示している。
The
図2に基づき、文書更新判定システムSの動作を説明する。サーバ装置1は、適宜なサンプリング周期を設定されており(ステップS1)、インターネット上で所定のキーワードを用いて一定のサンプリング時間毎(ステップS1でYES)に、Webサイト3に対して巡回検索を行い、各種のWebコンテンツから当該キーワードが含まれる文書データ(HTMLファイル等)を抽出する(ステップS2)。その後、後記で詳述する手法により抽出した文書を適切なブロック文書に分割した上で(ステップS3)、更新文書(新規文書)がWebサイト3上に掲載されたか否かを判定する(ステップS4)。
The operation of the document update determination system S will be described with reference to FIG. The
そして、更新文書が検出された場合、サーバ装置1は、その文書の更新日時、URL(当該文書の所在地記述情報)等を前記端末装置2へ配信する(ステップS5)。端末装置2は、配信されたURLに基づき、更新文書の内容を確認したり、或いは統計分析したりするためのもので、端末装置2を構成するパーソナルコンピュータ21、携帯電話機22等の保持者は、直ちに前記更新文書の存在並びに内容を知見し、また統計分析等を行うことができる。
When an updated document is detected, the
ここで、本実施形態の文書更新判定システムSに採用されている更新判定方法の概要を、図3に基づいて説明しておく。図3(a)に示すように、いま比較すべき第1文書41と第2文書42とが存在するものとする。例えば既存文書を第1文書41とし、この第1文書41に対して第2文書42が何らかの更新情報を含んでいるか(更新文書若しくは新規文書であるか)を判定するならば、第1文書41が比較元文書となり、第2文書42は比較先文書となる。この場合、第1文書41と第2文書42との同一性を厳密に求めるならば、両文書の構成文字を全文対比させれば良い(全文比較法)。
Here, an outline of the update determination method employed in the document update determination system S of the present embodiment will be described with reference to FIG. As shown in FIG. 3A, it is assumed that there are a
しかし、全文比較法では処理時間がどうしても長くなってしまう。そこで、次のような手法で、両文書から文字を抜き出して対比させても良い。すなわち、図3(b)に示すように、比較元となる第1文書41から所定の文字抽出条件に基づいて第1の比較文字41a〜41eを抽出すると共に、比較先となる第2文書42からも同様な文字抽出条件に基づいて第2の比較文字42a〜42eを抽出する。ここでの文字抽出条件は、第1文書41及び第2文書42の構成文字数(データ長L;変数)と固定化された抽出文字数(抜き取り文字数C)とに依存性をもつ間欠抜き取りの算術式で定められる。そして、第1の比較文字41a〜41eが順番に配列されて第1の比較文字配列410が生成され、また第2の比較文字42a〜42eが順番に配列されて第2の比較文字配列420が生成される。
However, the full text comparison method inevitably increases the processing time. Therefore, characters may be extracted from both documents and compared by the following method. That is, as shown in FIG. 3B, the
しかる後、図3(c)に示すように、第1の比較文字配列410における第1番目の比較文字41aと第2の比較文字配列420における第2番目の比較文字42aというように、第1の比較文字配列410と第2の比較文字配列420との同じ番目の比較文字同士が各々比較される。その結果、第1の比較文字配列410と第2の比較文字配列420とが全て同一であれば、第1文書41と第2文書42とは同一文書(更新なし)であると判定する。一方、第1の比較文字配列410と第2の比較文字配列420との間に相違があれば、第1文書41と第2文書42とは異文書(更新あり;更新部分を含んで生成された更新文書若しくは新規文書)であると判定するものである。
Thereafter, as shown in FIG. 3C, the
なお、第1文書41と第2文書42との同一性を判定する簡便な手法として、両文書の構成文字数を単純比較する方法がある。第2文書42が、第1文書41に何らかの書き込みを追加して作成された文書であるならば、当然に両文書の文字数に相違が生じるからである。従って、図3に示した更新判定の手法に文字数比較の要素を組み入れることにより、一層合理的な更新判定が行えるようになる。
As a simple method for determining the identity between the
本発明に係るWeb文書分割方法は、ここではWebサイト上の文書を、上述した第1文書41及び第2文書42のように、比較に適したブロック文書の単位に分割するために用いられる。すなわち、いくら優れた文書更新判定手法を導入したとしても、比較すべき文書を適切に抽出できないと、そもそも的確な更新判定は行えない。このため、的確にWeb文書を分割できる手法が肝要となる。以下、本発明の実施形態に係るWeb文書分割方法を詳述する。
The Web document dividing method according to the present invention is used here to divide a document on a Web site into block document units suitable for comparison, such as the
図4は、サーバ装置1(Web文書分割システム)の機能構成を示す機能ブロック図である。このサーバ装置1は、送受信部11、Webサイト検索部12、文書分割処理部13、更新判定処理部14及び全体制御部100を備えて構成されている。
FIG. 4 is a functional block diagram showing a functional configuration of the server device 1 (Web document dividing system). The
送受信部11は、当該サーバ装置1とLAN等の所定の回線を介して端末装置2との間で、またインターネット回線INを介してWebサイト3との間でデータ通信を可能とするためのデータ通信部である。本実施形態において送受信部11は、Webサイト3に対して検索キーワード等の検索条件情報を送信すると共に、その検索結果を受信する。また、端末装置2に対しては、文書更新ありと判定した場合に、当該文書の所在地を示すURL等を送信する。
The transmission /
Webサイト検索部12は、全体制御部100から与えられるサンプリング時間毎に、所定の検索条件を設定してWebサイト3を巡回検索する。例えば法人XYZ○△社が、自社に関連する記事がインターネット上に掲載されているかを定期的にウォッチングする目的では、例えば検索キーワードを「XYZ○△」、「XYZ」、「○△」、「X○」などと設定してWebサイト3に対して検索を行う。これにより、図1に示したWebサイト3のWebサイトA,B,C,D・・・に各々含まれている文書1−1、1−2、文書2−1、2−2、2−3・・・の中から、上記キーワードが含まれている文書が抽出される。かかる検索を行うようにすれば、法人XYZ○△社に対する社会や顧客の評価情報を速やかに収集することができ、また予期せぬ風評などに対しても速やかな対応が行えるようになる。
The Web
文書分割処理部13は、主に次の処理を行う。その詳細については、図5〜図15に基づき詳述する。
(1)第1分割;Webサイト3上の文書を、空行タグ(第1タグ)の単位で分割して、ブロック文書を作成する。
(2)含有率判定;ブロック文書に含まれる文字や記号等のキャラクタ(以下、単に「文字」という)の全数に対する、他のWebサイトへのハイパーリンクタグ(第2タグ)が与えられている文字(リンクキャラクタ)の数の割合を求める。
(3)第2分割A;ハイパーリンク文字の数の割合が所定の第1閾値よりも高い場合(判定1)には、前記ブロック文書中に含まれる改行タグ(第3タグ)の単位で前記ブロック文書を再分割する。
(4)第2分割B;ハイパーリンク文字の数の割合が、前記第1閾値より高く設定されている所定の第2閾値よりもさらに高い場合(判定2)には、前記ブロック文書中に含まれるハイパーリンクタグの単位で前記ブロック文書を再分割する。
(5)第1分割の維持;ハイパーリンク文字の数の割合が所定の第1閾値よりも低い場合(判定0)には、前記ブロック文書を再分割しない。
The document
(1) First division: A document on the
(2) Content rate determination: Hyperlink tags (second tags) to other websites are provided for the total number of characters (hereinafter simply referred to as “characters”) such as characters and symbols included in the block document. The ratio of the number of characters (link characters) is obtained.
(3) Second division A; when the ratio of the number of hyperlink characters is higher than a predetermined first threshold (determination 1), the unit is a unit of a line feed tag (third tag) included in the block document. Subdivide the block document.
(4) Second division B: included in the block document when the ratio of the number of hyperlink characters is higher than a predetermined second threshold set higher than the first threshold (decision 2) The block document is subdivided in units of hyperlink tags.
(5) Maintenance of the first division; when the ratio of the number of hyperlink characters is lower than the predetermined first threshold (determination 0), the block document is not subdivided.
更新判定処理部14は、先に図3に基づき説明した如きアルゴリズムで、文書の更新判定処理を行う。
The update
全体制御部100は、CPU(Central Processing Unit)等からなり、サーバ装置1内の各種機能部の動作を司る。例えば全体制御部100は、Webサイト検索部12に所定のサンプリング周期で検索指示信号を与え、送受信部11を介してWebサイト3の検索を行わせたり、文書分割処理部13及び更新判定処理部14に所定のシーケンスに従い分割処理及び判定処理を実行させたり、更新判定処理部14において更新文書が検出された場合に、端末装置2に対して当該更新文書のURL情報等を配信したりする制御を行うものである。
The
図5は、文書分割処理部13の機能構成を詳細に示すブロック図である。文書分割処理部13は、RAM(Random Access Memory)131、分割条件設定部132、閾値設定部133、タグ変換部134(文字変換手段)、第1分割部135(第1文書分割手段)、文字数カウント部136(カウント手段)、判定部137(判定手段)及び第2分割部138(第2文書分割手段)を備えている。
FIG. 5 is a block diagram showing the functional configuration of the document
RAM131は、Webサイト検索部12による検索によりヒットした文書の文書データの他、分割処理に際して生じる各種データを一時的に保持するものである。
The
分割条件設定部132は、上記第1分割、第2分割A及び第2分割Bを行う際のキーとなるタグ情報の定義を記憶する。図6は、かかるタグ情報の定義の一例を示す表形式の図である。ここでは、Webサイト3を記述するマークアップ言語が、HMTL形式である場合について例示している。図6に示すように、本実施形態では、“第1分割”が“空行”を示す“<br><br>タグ”(第1タグ)の単位で行われ、“第2分割A”が“改行” を示す“<br>タグ”(第2タグ)の単位で行われ、“第2分割B”が“ハイパーリンク” を示す“<a href>タグ”(第3タグ)の単位で行われるよう設定されている例を示している。
The division
閾値設定部133は、上記第1分割のみ、若しくは第2分割A又は第2分割Bのいずれを行うかの判定基準となる、ハイパーリンク文字含有率(リンクキャラクタ含有率)mについての閾値の定義を記憶する。図7は、かかる含有率mの閾値定義の一例を示す表形式の図である。ここでは、閾値としてm=30%(第1閾値)及びm=85%(第2閾値)を選び、上記第1分割のみが行われる“判定0”が“m<30%”の条件のとき、第2分割Aが行われる“判定1”が“30%≦m≦85%”の条件のとき、第2分割Bが行われる“判定2”が“85%<m”の条件のときにそれぞれ為されるよう設定されている例を示している。
The threshold
上記第1閾値及び第2閾値の数値(30%及び85%)は、現状の著名なインターネット上の各種Webサイト(各種ニュースサイト、ブログサイト、掲示板サイト)において文書構造解析を行った結果得られたパラメータである。この数値は一例であって、第1閾値<第2閾値の関係を基礎として、適宜な数値に設定することができる。しかし、後記でも説明するが、ハイパーリンク文字含有率に基づき的確に文書区分を判定する観点からは、第1閾値は20%〜40%、好ましくは25%〜35%の範囲から、また第2閾値は75%〜95%、好ましくは80%〜90%の範囲から選択することが望ましい。なお、第1閾値及び第2閾値は、Webサイトの種別、検索キーワード、サンプリング周期等に応じて可変としても良い。 The numerical values (30% and 85%) of the first threshold value and the second threshold value are obtained as a result of document structure analysis on various well-known Internet websites (various news sites, blog sites, bulletin board sites). Parameters. This numerical value is an example, and can be set to an appropriate numerical value based on the relationship of the first threshold value <the second threshold value. However, as will be described later, from the viewpoint of accurately determining the document classification based on the hyperlink character content rate, the first threshold value is in the range of 20% to 40%, preferably 25% to 35%. The threshold value is desirably selected from the range of 75% to 95%, preferably 80% to 90%. Note that the first threshold value and the second threshold value may be variable according to the type of website, the search keyword, the sampling period, and the like.
タグ変換部134は、上記“<br><br>タグ”、“<br>タグ”及び“<a href>タグ”を、文字変換する処理を行う。“<br><br>タグ”は、どのような文書であっても必ず行われる文書分割(第1分割)のキーとなるタグである。このタグを確実に認識できるよう、例えば“<br><br>タグ”を、“_空_行_”という文字列(以下、“特殊文字A”という)に変換し、区切り文字として利用できるようにする。
The
また、タグ変換部134は、“<br>タグ”及び“<a href>タグ”については、同じ文字がブロック文書に含まれているような場合でも誤判定がなされないようにするため、並びに、必要に応じて後に区切り文字として利用できるよう、特殊文字に変換する。この特殊文字としては、およそ通常の文書には登場しないような文字列が選ばれる。例えば“<br>タグ”を“_改_行_”という文字列(以下、“特殊文字C”という)に、“<a href>タグ”を“_リ_ン_ク_”という文字列(以下、“特殊文字B”という)に変換する。
Further, the
第1分割部135は、Webサイト検索部12による検索でヒットした文書を、空行の表示を指定する“<br><br>タグ”の単位で分割して、ブロック文書を作成する。図8は、第1分割部135による文書分割動作を示す模式図である。ここでは、経済ニュースを記述したWebページ50であって、空行を挟んで第1文書51、第2文書52、第3文書53及び第4文書54が掲載されている例を示している。なお、第1〜第4文書51〜54は内容の異なるニュース記事を記載した文書である。第1分割部135は、第1〜第4文書51〜54間に、空行の表示指定として記述されている“特殊文字A”を区切り文字として読み出し、この“特殊文字A”単位で文書を分割して、第1〜第4文書51〜54を文書データ上で第1〜第4ブロック文書に分割する。このように分割された第1〜第4ブロック文書は、一時的にRAM131へ格納される。
The
図8に示すWebページ50の第1〜第4文書51〜54のように、内容の異なるひとかたまりの記述文書が空行を挟んで複数掲載されている場合、これ以上第1〜第4文書51〜54を再分割する必要性はないといえる。逆に、例えば改行を指示する“<br>タグ”の単位で再分割すると、次のような不具合を生じる。
When a plurality of descriptive documents having different contents are posted across a blank line, such as the first to
図9は、図8の第1文書51をHTML記述形式で表したHTML文書51Aを示している。このHTML文書51Aには、第1文書51の始まり及び終わりに空行タグ511が、また第1文書51の改行位置に相当する箇所に改行タグ512がそれぞれ記述されている。この場合、空行タグ511で分割した上に改行タグ512で再分割すると、ひとまとまりの文書(話題)が複数のブロック文書に細分化されてしまうことになる。
FIG. 9 shows an
このような細分化が行われてしまうと、後の文書更新判定において、第1文書51の新規掲載を含めて、第1文書51に複数の改行タグ512間で更新があった場合に、ひとまとまりの文書にも拘わらず、複数の文書更新があったものと判定してしまう可能性が高くなる。これでは、ユーザに正確な通知が行えないと共に、統計分析等の精度が低下する。
If such subdivision is performed, when the
また、Webサイト検索部12の検索でヒットしたWeb文書を、さらにキーワードを用いて絞り込み検索を行う場合に不具合が生じる。例えば、第1文書51に含まれている「画像データ」というキーワードKE1(図8)に着目する。該キーワードKE1は、たまたま行を跨いでしまっていることから、HTML文書51A(図9)で見ると改行タグ512の<br>で分離されてしまっている。このため、「画像データ」というキーワードKE1で検索したとしても、この第1文書51はヒットしない結果となる。
In addition, a problem occurs when a Web document hit by the search by the Web
さらに、例えば「撮像素子」というキーワードKE2と、「デジタルカメラ」というキーワードKE2とを用いてAND条件で検索する場合にも不具合が生じる。すなわち、キーワードKE2、KE3は、改行タグ512単位で第1文書51が分割されてしまうと別文書に所属していることになるので、AND条件を満たさず、かかる検索では第1文書51がヒットしない結果となってしまう。以上のことから、第1文書51の如き文書は、空行タグ511の単位で分割する第1分割の後は、再分割しないことが望ましい。
Further, for example, a problem occurs when a search is performed using an AND condition using a keyword KE2 “image sensor” and a keyword KE2 “digital camera”. That is, since the keywords KE2 and KE3 belong to another document when the
しかしながら、常に空行タグの単位のみでの分割が適しているということはできない。図10は、複数のニュースタイトルが行を変えて羅列されているWebページ60を示す模式図である。Webページ60は第1〜第4ニュースタイトル61〜64を含み、各タイトルにはユーザからクリック操作を与えられることで他のWebページ(例えば図8に示したニュースの詳細を記述したWebページ)へジャンプするハイパーリンク(図10の下線部)が組まれている。例えば第1ニュースタイトル61では、“ABC社が次世代XYZ技術を開発”という文字にハイパーリンクが組み込まれている。なお、“22日15:30”という文字にはハイパーリンクが組み込まれていない。
However, it is not always possible to divide only by blank line tag units. FIG. 10 is a schematic diagram showing a
図11は、図10のWebページ60をHTML記述形式で表したHTML文書ページ60Aを示している。このHTML文書ページ60Aには、第1〜第4ニュースタイトル61〜64に対応する第1〜第4HTML文書61A〜64Aを含まれている。また、第1〜第4ニュースタイトル61〜64の群の始まり及び終わりに空行タグ611が、また各タイトル61〜64の改行位置に相当する箇所に改行タグ614がそれぞれ記述されている。さらに、各第1〜第4HTML文書61A〜64Aには、それぞれハイパーリンクタグ612、613が記述されている。
FIG. 11 shows an
この場合、第1〜第4ニュースタイトル61〜64は、各々内容の異なるタイトル文書である。このような文書を空行タグ611の単位で分割したままにしておくと、まとまりのない複数の文書を一つのブロック文書と扱ってしまうこととなる。従って、第1〜第4ニュースタイトル61〜64のいずれか一つにのみ更新があると、後の文書更新判定において文書更新があったものと判定してしまう。従って、例えば第1〜第3ニュースタイトル63のような内容の文書の発生を更新通知対象としているが、第4ニュースタイトル64のような内容の文書の発生を更新通知対象としていないケースでも、Webページ60に第4ニュースタイトル64が追加された後のサンプリングで、「更新あり」と判定してしまう不都合が生じる。
In this case, the first to
以上のことから、第1〜第4ニュースタイトル61〜64のようなタイトル文書にあっては、空行タグ611の単位で分割の後、さらに改行タグ614の単位で再分割することが望ましい。かかる再分割により、異なる内容の複数の文書を適切に分割することができる。
From the above, in title documents such as the first to
ところで、第1〜第4ニュースタイトル61〜64のような、内容の異なるタイトル文書が羅列されるものは、Webサイトでは多くの場合、ハイパーリンクが与えられた文書、つまりハイパーリンク文字を多く含む文書であると言うことができる。一方、図8に示したようなニュース記事文書では、ハイパーリンク文字は殆ど含まれていない。従って、タイトル文書であるか否かは、ブロック文書全体の文字数に対するハイパーリンク文字の含有率で概ね判定することができる。
By the way, in many cases, title documents with different contents, such as the first to
このハイパーリンク文字の含有率に関し、判別閾値(第1閾値)を低い値に設定しすぎると、まとまりのある文書を再分割してしまう可能性が高くなる。例えば図12に示すブロック文書71のように、所定のキーワードに対してのみハイパーリンクHP1〜HP4が組み込まれている場合を例示する。このように、所定のキーワードについてリンクを張っておき、クリック操作が与えられることで当該キーワードについての詳細情報を表示する他のWebページにジャンプする文書形態は、Webサイト上に多々存在する。
Regarding the hyperlink character content rate, if the discrimination threshold (first threshold) is set too low, there is a high possibility that a coherent document will be subdivided. For example, a case where hyperlinks HP1 to HP4 are incorporated only for a predetermined keyword as in a
この場合、ハイパーリンクHP1〜HP4が付されている文字(下線部)は、「ABC社」、「撮像素子」、「画像処理」、「デジタルカメラ」という文字列のみであり、ブロック文書71全体の文字数からすればその割合が少ない。しかし、ハイパーリンク文字を含んではいるので、もし第1閾値を低すぎる値に設定してしまうと、このようなブロック文書71をも改行タグの単位で再分割してしまうこととなる。このような不具合を防ぐために、上述の通り、第1閾値は30%程度とすることが望ましい。
In this case, the characters (underlined portions) to which the hyperlinks HP1 to HP4 are attached are only the character strings “ABC company”, “imaging device”, “image processing”, and “digital camera”, and the
一方、ハイパーリンク文字の含有率が第1閾値より高い場合にあっても、一律に改行タグの単位でブロック文書を再分割すると不具合が生じ得る。図13は、リンク先のサイトが一行内に複数列記されているWebページ72を示す模式図である。ここでは、複数の新聞社のリンク先が列記されている例を示しており、第1行721に6社の新聞社のリンク先が、第2行722にも6社の新聞社のリンク先が列記されている。
On the other hand, even when the content rate of the hyperlink character is higher than the first threshold, a problem may occur if the block document is re-divided in units of line feed tags. FIG. 13 is a schematic diagram showing a
このように、一つの行に異なる内容の文字列が含まれているようなリンク先文書の場合、改行タグの単位でブロック文書を再分割しても、適切な文書単位で分割したことにはならない。そこで、図13のようなリンク先文書の場合は、ハイパーリンクタグの単位でブロック文書を再分割すればよい。ハイパーリンクタグはリンク先ごとに記述されることから、これにより例えば第1行721及び第2行722からなるブロック文書を、「AAA新聞」、「BBB民報」・・・の単位で細分化することができる。
In this way, in the case of a linked document that contains different character strings on one line, even if the block document is subdivided in units of line feed tags, Don't be. Therefore, in the case of a linked document as shown in FIG. 13, the block document may be subdivided in units of hyperlink tags. Since the hyperlink tag is described for each link destination, for example, a block document composed of the
このようなリンク先文書は、ハイパーリンク文字の含有率が非常に高いと言うことができる。従って、リンク先文書であるか否かは、第1閾値より相当高いレベルに設定した第2閾値に基づき判定することが望ましく、このため、上述したように第2閾値は85%程度とすることが望ましい。 Such a linked document can be said to have a very high content of hyperlink characters. Therefore, it is desirable to determine whether the document is a linked document based on the second threshold set to a level considerably higher than the first threshold. For this reason, the second threshold is set to about 85% as described above. Is desirable.
図5に戻って、上述の点に鑑み、文字数カウント部136は、第1分割部135による分割処理で作成された各ブロック文書の文字数と、そのブロック文書中に含まれているハイパーリンク文字の文字数をカウントする。
Returning to FIG. 5, in view of the above points, the
判定部137は、文字数カウント部136のカウント結果に基づき、全文字数に対するハイパーリンク文字の割合(ハイパーリンク文字含有率m)を求め、そのパーセンテージに応じて、ブロック文書を再分割するか否かを決定する。判定部137は、決定動作に際し、閾値設定部133に定義されている第1閾値及び第2閾値を参照する。このため、判定部137は、一つのブロック文書の含有率mを求めた後、図7に示した基準で、当該ブロック文書について“判定0”、“判定1”及び“判定2”の決定を行う。
The
第2分割部138は、判定部137が“判定1”を出力したとき、ブロック文書を改行タグに相当する特殊文字Cの単位で再分割し、判定部137が“判定2”を出力したとき、ブロック文書をハイパーリンクタグに相当する特殊文字Bの単位で再分割する処理を行う。一方、第2分割部138は、判定部137が“判定0”を出力したとき、再分割の処理を行わない。この場合、ブロック文書は、空行タグに相当する特殊文字Aで区分された状態を維持する。
When the
以上説明した本実施形態に係るWeb文書分割処理のフローを、図14、図15に示すフローチャートに基づいて説明する。先ず、タグ変換部134により、RAM131から、Webサイト検索部12による検索によりヒットしたWebサイト文書(HTML文書)の一つが読み出される(ステップS11)。
The flow of the Web document dividing process according to the present embodiment described above will be described based on the flowcharts shown in FIGS. First, one of the Web site documents (HTML document) hit by the search by the Web
次いで、タグ変換部134により、“<br><br>タグ”を“特殊文字A”に変換する処理が行なわれる(ステップS12)。引き続き、タグ変換部134により、“<a href>タグ”を“特殊文字B”に変換する処理(ステップS13)と、“<br>タグ”を“特殊文字C”に変換する処理(ステップS14)とが実行される。そして、HTML文書に含まれている他のタグ(コメントタグや改行コード等)、タブ、半角・全角スペース等を削除する処理(ステップS15)が行われた後、その文書データが第1分割部135に出力される。
Next, the
これを受けて第1分割部135により、前記文書データが、ステップS12で変換された“特殊文字A”の単位で分割され、1又は複数のブロック文書が作成される(ステップS16)。さらに、第1分割部135により、得られたブロック文書に対して1〜nのナンバリングが施され(ステップS17)、その番号に関連付けてデータがRAM131へ一時的に格納される。
In response to this, the
コンピュータ内のカウンタがK=1と設定され(ステップS18)、1番目のブロック文書KがRAM131から読み出され、図15に示す判定処理が行われる。この判定処理にあたり、先ず文字数カウント部136により、1番目のブロック文書Kの文字数と、該ブロック文書Kに含まれているハイパーリンク文字の文字数とがカウントされる。そして、判定部137によりハイパーリンク文字の含有率mが求められる(ステップS19)。
The counter in the computer is set to K = 1 (step S18), the first block document K is read from the
次いで、求められた含有率mに基づき、再分割の要否が決定される(ステップS20)。含有率mが“m>85%”の条件を満たすとき(ステップS20でYES)、判定部137は第2分割部138に“判定2”を出力する。これを受けて第2分割部138は、“特殊文字B”の単位でブロック文書Kを再分割する(ステップS21)。その後、“特殊文字A”、特殊文字B”及び“特殊文字C”をブロック文書Kから削除する処理が行われた上で(ステップS24)、次段の更新判定処理部14へブロック文書Kのデータが送られる。
Next, the necessity of re-division is determined based on the obtained content rate m (step S20). When the content ratio m satisfies the condition of “m> 85%” (YES in step S20), the
これに対し、含有率mが“m>85%”の条件を満たさないとき(ステップS20でNO)、続いて判定部137により“m≧30%”の条件を満たすか否かが判定される(ステップS22)。“m≧30%”の条件を満たすとき(ステップS22でYES)、判定部137は第2分割部138に“判定1”を出力する。これを受けて第2分割部138は、“特殊文字C”の単位でブロック文書Kを再分割する(ステップS23)。その後、上述のステップS24が実行される。一方、“m≧30%”の条件を満たさないとき(ステップS22でNO)、判定部137は第2分割部138に“判定0”を出力する。これを受けて第2分割部138は、再分割処理を行わずブロック文書Kをスルーする。すなわち、ステップS24にスキップする。
On the other hand, when the content rate m does not satisfy the condition “m> 85%” (NO in step S20), the
しかる後、カウンタがK=nであるか否かが判定される(ステップS25)。K=nでない場合(ステップS25でNO)、読み出された1つのHTML文書につき他のブロック文書が残存していることになるので、カウンタがK=K+1と1つインクリメントされ(ステップS26)、ステップS19に戻って、次のブロック文書K(2番目のブロック文書)について同じ処理が繰り返される。 Thereafter, it is determined whether or not the counter is K = n (step S25). If K = n is not satisfied (NO in step S25), since another block document remains for one read HTML document, the counter is incremented by 1 as K = K + 1 (step S26). Returning to step S19, the same processing is repeated for the next block document K (second block document).
一方、K=nである場合(ステップS25でYES)、他のWebサイト文書について分割処理を実行するか否かが判定される(ステップS27)。他のWebサイト文書が存在している場合は(ステップS27でYES)、図14のステップS11に戻って、そのWebサイト文書について上記と同じ処理が繰り返される。これに対し、他のWebサイト文書が存在していない場合は(ステップS27でNO)、処理を終える。 On the other hand, if K = n (YES in step S25), it is determined whether or not the division process is to be executed for another Web site document (step S27). If another Web site document exists (YES in step S27), the process returns to step S11 in FIG. 14 and the same processing as described above is repeated for the Web site document. On the other hand, if there is no other Web site document (NO in step S27), the process ends.
以上説明した本実施形態に係るWeb文書分割方法によれば、主に文字だけで構成された文書、これにハイパーリンクの部分を多く含む文書乃至は殆どがハイパーリンクの部分で構成された文書を適切に分割することができる。従って、Webサイト上の文書を適切なブロック文書の単位で分割し、このブロック文書同士で比較して行う文書更新判定を、的確に実行させることができる。 According to the Web document dividing method according to the present embodiment described above, a document mainly composed only of characters, a document including many hyperlink parts or a document composed mostly of hyperlink parts. Can be divided appropriately. Accordingly, it is possible to accurately execute the document update determination performed by dividing the document on the Web site in units of appropriate block documents and comparing the block documents with each other.
以上、本発明の実施形態につき説明したが、本発明はこれに限定されるものではなく、例えば、下記に示すような変形実施形態を取ることができる。 As mentioned above, although embodiment was described about this invention, this invention is not limited to this, For example, the deformation | transformation embodiment as shown below can be taken.
[1]上記実施形態では、Webサイトを記述するマークアップ言語がHTML形式である場合を例に挙げて説明した。本発明は他のマークアップ言語にも勿論適用可能であり、例えばXML形式にも適用できる。 [1] In the above embodiment, the case where the markup language for describing the Web site is in the HTML format has been described as an example. The present invention can of course be applied to other markup languages, for example, an XML format.
[2]上記実施形態では、本発明に係るWeb文書分割方法を文書更新判定システムSに組み込んだ例について説明した。これ以外に、本発明は各種の文書検索、文書データ解析、統計処理等の用途に適用することができる。 [2] In the above embodiment, the example in which the Web document dividing method according to the present invention is incorporated in the document update determination system S has been described. In addition to this, the present invention can be applied to various document retrieval, document data analysis, statistical processing, and the like.
[3]上述の文書更新判定システムSが行うWeb文書分割方法を、プログラムとして提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM、ROM、RAMおよびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。若しくは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。 [3] The Web document dividing method performed by the document update determination system S can be provided as a program. Such a program can be recorded on a computer-readable recording medium such as a flexible disk, a CD-ROM, a ROM, a RAM, and a memory card attached to the computer and provided as a program product. Alternatively, the program can be provided by being recorded on a recording medium such as a hard disk built in the computer. A program can also be provided by downloading via a network.
1 サーバ装置(Web文書分割システム)
11 送受信部
12 Webサイト検索部
13 文書分割処理部
131 RAM
132 分割条件設定部
133 閾値設定部
134 タグ変換部(文字変換手段)
135 第1分割部(第1文書分割手段)
136 文字数カウント部(カウント手段)
137 判定部(判定手段)
138 第2分割部(第2文書分割手段)
14 更新判定処理部
2 端末装置
3 Webサイト(WWWサイト)
1 Server device (Web document splitting system)
11 Transmission /
132 Division
135 1st division part (1st document division means)
136 Character count section (counting means)
137 determination part (determination means)
138 Second division unit (second document division unit)
14 Update
Claims (10)
前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求め、
前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割することを特徴とするWeb文書分割方法。 A block document is created by dividing a document on a website in units of first tags indicating blank lines,
Determining the ratio of the number of link characters provided with the second tag for hyperlinks to other websites to the total number of characters included in the block document;
When the ratio of the number of link characters is higher than a predetermined first threshold, the block document is subdivided in units of a third tag indicating a line break included in the block document. Split method.
前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求め、
前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割し、
前記リンクキャラクタの数の割合が、前記第1閾値よりも高い所定の第2閾値よりもさらに高い場合には、前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割することを特徴とするWeb文書分割方法。 A block document is created by dividing a document on a website in units of first tags indicating blank lines,
Determining the ratio of the number of link characters provided with the second tag for hyperlinks to other websites to the total number of characters included in the block document;
When the ratio of the number of link characters is higher than a predetermined first threshold, the block document is re-divided in units of a third tag indicating a line feed included in the block document,
When the ratio of the number of link characters is higher than a predetermined second threshold value that is higher than the first threshold value, the block document is subdivided in units of the second tag included in the block document. A Web document dividing method characterized by the above.
前記ブロック文書に含まれる全キャラクタの数と、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数とをそれぞれカウントするカウント手段と、
前記全キャラクタの数に対する前記リンクキャラクタの数の割合を求め、その割合に基づいて前記ブロック文書を再分割するか否かを決定する判定手段と、
前記判定手段が再分割すると決定した場合に、前記ブロック文書を再分割する第2文書分割手段と、を備え、
前記判定手段は、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い場合に前記ブロック文書を再分割すると決定し、
前記第2文書分割手段は、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割することを特徴とするWeb文書分割システム。 First document dividing means for dividing a document on a Web site by a unit of a first tag indicating a blank line and creating a block document;
Counting means for counting the number of all characters included in the block document and the number of link characters provided with second tags for hyperlinks to other Web sites;
Determining means for determining the ratio of the number of linked characters to the total number of characters and determining whether to re-divide the block document based on the ratio;
A second document dividing unit that subdivides the block document when the determination unit determines to subdivide,
The determination means determines that the block document is subdivided when the ratio of the number of link characters is higher than a predetermined first threshold,
The Web document dividing system, wherein the second document dividing unit subdivides the block document in units of a third tag indicating a line feed included in the block document.
前記ブロック文書に含まれる全キャラクタの数と、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数とをそれぞれカウントするカウント手段と、
前記全キャラクタの数に対する前記リンクキャラクタの数の割合を求め、その割合に基づいて前記ブロック文書を再分割するか否かを決定する判定手段と、
前記判定手段が再分割すると決定した場合に、前記ブロック文書を再分割する第2文書分割手段と、を備え、
前記判定手段は、前記リンクキャラクタの数の割合が所定の第1閾値よりも高い第1含有率の場合と、前記第1閾値よりも高い所定の第2閾値よりもさらに高い第2含有率の場合とに前記ブロック文書を再分割すると決定し、
前記第2文書分割手段は、第1含有率の場合には前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割し、第2含有率の場合には前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割することを特徴とするWeb文書分割システム。 First document dividing means for dividing a document on a Web site by a unit of a first tag indicating a blank line and creating a block document;
Counting means for counting the number of all characters included in the block document and the number of link characters provided with second tags for hyperlinks to other Web sites;
Determining means for determining the ratio of the number of linked characters to the total number of characters and determining whether to re-divide the block document based on the ratio;
A second document dividing unit that subdivides the block document when the determination unit determines to subdivide,
The determination means has a first content rate in which the ratio of the number of link characters is higher than a predetermined first threshold value, and a second content rate that is higher than a predetermined second threshold value that is higher than the first threshold value. In some cases, the block document is decided to be subdivided,
The second document dividing means subdivides the block document by a unit of a third tag indicating a line feed included in the block document in the case of the first content rate, and the block in the case of the second content rate. A Web document dividing system, wherein the block document is subdivided in units of the second tag included in the document.
Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成するステップと、
前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求めるステップと、
前記リンクキャラクタの数の割合が所定の第1閾値よりも高いか否かを判定するステップと、
前記第1閾値よりも高い場合に、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割するステップと、
を実行させることを特徴とするWeb文書分割プログラム。 A computer that can analyze character information and tag information on a website.
Dividing a document on a website in units of first tags indicating blank lines to create a block document;
Obtaining a ratio of the number of link characters provided with a second tag for hyperlink to another website to the total number of characters included in the block document;
Determining whether the ratio of the number of link characters is higher than a predetermined first threshold;
Re-dividing the block document in units of a third tag indicating a line break included in the block document if higher than the first threshold;
Web document segmentation program characterized by causing
Webサイト上の文書を、空行を示す第1タグの単位で分割してブロック文書を作成するステップと、
前記ブロック文書に含まれる全キャラクタの数に対する、他のWebサイトへのハイパーリンク用の第2タグが与えられているリンクキャラクタの数の割合を求めるステップと、
前記リンクキャラクタの数の割合が所定の第1閾値よりも高い第1含有率か否か、及び前記第1閾値よりも高い所定の第2閾値よりもさらに高い第2含有率か否かを判定するステップと、
前記第1含有率の場合には、前記ブロック文書中に含まれる改行を示す第3タグの単位で前記ブロック文書を再分割させ、前記第2含有率の場合には、前記ブロック文書中に含まれる前記第2タグの単位で前記ブロック文書を再分割させるステップと、
を実行させることを特徴とするWeb文書分割プログラム。 A computer that can analyze character information and tag information on a website.
Dividing a document on a website in units of first tags indicating blank lines to create a block document;
Obtaining a ratio of the number of link characters provided with a second tag for hyperlink to another website to the total number of characters included in the block document;
It is determined whether or not the ratio of the number of link characters is a first content rate that is higher than a predetermined first threshold value, and whether or not it is a second content rate that is higher than a predetermined second threshold value that is higher than the first threshold value. And steps to
In the case of the first content rate, the block document is subdivided in units of a third tag indicating a line feed included in the block document, and in the case of the second content rate, the block document is included in the block document. Subdividing the block document in units of the second tag
Web document segmentation program characterized by causing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007049197A JP4700637B2 (en) | 2007-02-28 | 2007-02-28 | Web document dividing method, system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007049197A JP4700637B2 (en) | 2007-02-28 | 2007-02-28 | Web document dividing method, system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008217047A true JP2008217047A (en) | 2008-09-18 |
JP4700637B2 JP4700637B2 (en) | 2011-06-15 |
Family
ID=39837068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007049197A Expired - Fee Related JP4700637B2 (en) | 2007-02-28 | 2007-02-28 | Web document dividing method, system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4700637B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6014794B1 (en) * | 2016-03-16 | 2016-10-25 | 株式会社シンメトリック | Web page comparison apparatus, Web page comparison method, recording medium, and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002351736A (en) * | 2001-03-23 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Document data processor, server device, terminal device and document data processing system |
JP2005025763A (en) * | 2003-07-03 | 2005-01-27 | Fujitsu Ltd | Division program, division device and division method for structured document |
JP2005190074A (en) * | 2003-12-25 | 2005-07-14 | Fuji Xerox Co Ltd | Document dividing device and method, program and index preparing device |
-
2007
- 2007-02-28 JP JP2007049197A patent/JP4700637B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002351736A (en) * | 2001-03-23 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Document data processor, server device, terminal device and document data processing system |
JP2005025763A (en) * | 2003-07-03 | 2005-01-27 | Fujitsu Ltd | Division program, division device and division method for structured document |
JP2005190074A (en) * | 2003-12-25 | 2005-07-14 | Fuji Xerox Co Ltd | Document dividing device and method, program and index preparing device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6014794B1 (en) * | 2016-03-16 | 2016-10-25 | 株式会社シンメトリック | Web page comparison apparatus, Web page comparison method, recording medium, and program |
WO2017158748A1 (en) * | 2016-03-16 | 2017-09-21 | 株式会社シンメトリック | Web page comparison device, web page comparison method, recording medium, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4700637B2 (en) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8630972B2 (en) | Providing context for web articles | |
RU2595594C2 (en) | Method and apparatus for automatically summarising contents of electronic documents | |
JP5384837B2 (en) | System and method for annotating documents | |
US8185530B2 (en) | Method and system for web document clustering | |
US20150067476A1 (en) | Title and body extraction from web page | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
CN101866342B (en) | Method and device for generating or displaying webpage label and information sharing system | |
JP5222581B2 (en) | System and method for annotating documents | |
US7464078B2 (en) | Method for automatically extracting by-line information | |
KR101595748B1 (en) | Method for aggregating web feed minimizing redundancies | |
JP2011022705A (en) | Trail management method, system, and program | |
JP2014502753A (en) | Web page information detection method and system | |
Carey et al. | HTML web content extraction using paragraph tags | |
CN113032336A (en) | Information processing apparatus, storage medium, and information processing method | |
US20080168036A1 (en) | System and Method for Locating and Extracting Tabular Data | |
Yu et al. | Web content information extraction based on DOM tree and statistical information | |
JP2008158589A (en) | Updated information notification device, and updated information notification program | |
JP2007122398A (en) | Method for determining identity of fragment, and computer program | |
JP4700637B2 (en) | Web document dividing method, system, and program | |
JP5216654B2 (en) | Importance determination device, importance determination method, and program | |
JP4853915B2 (en) | Search system | |
JP2007011973A (en) | Information retrieval device and information retrieval program | |
KR20120090131A (en) | Method, system and computer readable recording medium for providing search results | |
JP2007188427A (en) | Subject image selecting method, device, and program | |
JP4362492B2 (en) | Document indexing device, document search device, document classification device, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110304 |
|
LAPS | Cancellation because of no payment of annual fees |