JP2015053087A - Grouping device and element extraction device - Google Patents

Grouping device and element extraction device Download PDF

Info

Publication number
JP2015053087A
JP2015053087A JP2014254357A JP2014254357A JP2015053087A JP 2015053087 A JP2015053087 A JP 2015053087A JP 2014254357 A JP2014254357 A JP 2014254357A JP 2014254357 A JP2014254357 A JP 2014254357A JP 2015053087 A JP2015053087 A JP 2015053087A
Authority
JP
Japan
Prior art keywords
address
key
web page
similarity
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014254357A
Other languages
Japanese (ja)
Other versions
JP5830159B2 (en
Inventor
田中 成典
Shigenori Tanaka
成典 田中
中村 健二
Kenji Nakamura
健二 中村
智史 安彦
Satoshi Abiko
智史 安彦
雄平 山本
Yuhei Yamamoto
雄平 山本
浩平 川野
Kohei Kawano
浩平 川野
佑樹 福島
Yuki Fukushima
佑樹 福島
義典 塚田
Yoshinori Tsukada
義典 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Informatics Institute Co Ltd
Original Assignee
Kansai Informatics Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Informatics Institute Co Ltd filed Critical Kansai Informatics Institute Co Ltd
Priority to JP2014254357A priority Critical patent/JP5830159B2/en
Publication of JP2015053087A publication Critical patent/JP2015053087A/en
Application granted granted Critical
Publication of JP5830159B2 publication Critical patent/JP5830159B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To extract an element included in a page by specifying a personal area page of a specific user on a network.SOLUTION: In the case that a similarity between a first address key and a second address key is determined to be equal to or more than a threshold, a URL is associated as a specific address group (personal area specification). Further, dots are arranged on an imaged Web page, and hierarchical structures of elements including the arranged dots are integrated, or the like, to extract corresponding contents data (element extraction).

Description

この発明は、インターネット上におけるWebページを解析するための技術に関し、特に、Webページ群のグループ化および各Webページの分割処理に関するものである。   The present invention relates to a technique for analyzing a Web page on the Internet, and particularly to grouping of Web pages and division processing of each Web page.

従来から、Webページを解析するために様々な方法が考えられている。例えば、特許文献1には、アクセスログに含まれるURIを解析し,Webページをグループ化する手法が開示されている。特許文献2には、主要コンテンツを自動的に抽出する手法が開示されている。   Conventionally, various methods have been considered for analyzing Web pages. For example, Patent Document 1 discloses a method of analyzing a URI included in an access log and grouping Web pages. Patent Document 2 discloses a technique for automatically extracting main contents.

特開2010−123000号公報JP 2010-123000 A 特開2010−117941号公報JP 2010-117941 A

しかしながら、特許文献1の技術は、アクセスログを対象としてWebページをグループ化するものであり,グループ化する対象は,同様のドメインや同様のURI構造をもつWebページ群である。よって、個人領域を特定するものではない。また、特許文献1の技術は、ドメイン部,ディレクトリ部,クエリ部に分割し,特徴ベクトル間の類似度を算出する手法を提案しており,類似度の算出アルゴリズムが複雑である。   However, the technique of Patent Document 1 groups Web pages for an access log, and the group to be grouped is a group of Web pages having a similar domain and a similar URI structure. Therefore, it does not specify a personal area. Further, the technique of Patent Document 1 proposes a method of dividing a domain part, a directory part, and a query part and calculating the similarity between feature vectors, and the similarity calculation algorithm is complicated.

特許文献2の技術は、HTMLデータに対して所定の分割規則に基づいてセグメントに分割するものであり,対象となるHTMLデータ毎にルールを予め決定する必要がある。よって,汎用性の高い記事抽出が困難であり、記事を抽出する処理量が膨大である。   The technique of Patent Document 2 is to divide HTML data into segments based on a predetermined division rule, and it is necessary to determine a rule in advance for each target HTML data. Therefore, it is difficult to extract articles with high versatility, and the amount of processing for extracting articles is enormous.

この発明は、(i)個人領域の特定により、当該特定された個人領域に対して対象者の解析を正確に行うことを目的とする。また、この発明は、(ii)分割処理により、Webサイトの構造にのみ着目して重要な記事部分だけを容易に抽出することを目的とする。   It is an object of the present invention to accurately analyze a subject person with respect to the specified personal area by (i) specifying the personal area. Another object of the present invention is to easily extract only important article parts by focusing only on the structure of the website by (ii) division processing.

(1)この発明のグループ化プログラムは、
Webページのアドレスをグループ化するためのグループ化プログラムであって、
コンピュータを、
特定のアドレスからWebページを取得するWebページ取得手段、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段、
前記第1のアドレスキーを生成したリンクから取得されるWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上であると判断されたリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段、
として機能させることを特徴とする。
(1) The grouping program of this invention is
A grouping program for grouping web page addresses,
Computer
Web page acquisition means for acquiring a Web page from a specific address;
First address key generating means for extracting a link from the web page and dividing the address of each extracted link with a delimiter to generate a first address key;
Second address key generation means for extracting a link from a Web page acquired from the link that generated the first address key, and generating a second address key by dividing the address of each extracted link by a delimiter ,
Matching the matching keys between the first address key and the second address key, counting the number of combinations in which the matching keys appear in the same order, and calculating the similarity based on the result Similarity calculation means,
Grouping means for associating the addresses of the links determined to have a similarity equal to or higher than a threshold as a specific address group;
It is made to function as.

これにより、特定ユーザーの個人領域をグループ化して特定することができ、当該個人領域のWebページ群に対して解析を行うことができる。   Thereby, it is possible to group and specify the personal area of the specific user, and to analyze the Web page group of the personal area.

(2)この発明のグループ化プログラムは、
前記類似度算出手段が、
前記第1のアドレスキーと前記第2のアドレスキーとの間で、第1のアドレスキーを構成するキーの1つと一致するキーが第2のアドレスキーを構成するキーの中に存在するか否かを前方から照合し、
第2のアドレスキーを構成するキーの中に対応するキーが存在する場合には、第1および第2のアドレスキーにおいて一致するとして検出されたキーの次のキーから、後方に向けて一致するキーの組み合わせ数を計数し、
第1のアドレスキーを構成するキーの総数に対する前記第2のアドレスキーとの間で対応付けられたキーの組み合わせ数の割合を類似度として算出する、
ことを特徴とする。
(2) The grouping program of this invention is
The similarity calculation means includes:
Whether a key that matches one of the keys constituting the first address key exists in the keys constituting the second address key between the first address key and the second address key Or from the front,
If there is a corresponding key among the keys constituting the second address key, the keys match backward from the key next to the key detected as matching in the first and second address keys. Count the number of key combinations,
Calculating the ratio of the number of key combinations associated with the second address key to the total number of keys constituting the first address key as the similarity,
It is characterized by that.

これにより、第1のアドレスキーから第2のアドレスキーを照合して算出した類似度に基づいて、特定ユーザーの個人領域をグループ化して特定することができ、当該個人領域のWebページ群に対して解析を行うことができる。   Thereby, based on the similarity calculated by collating the second address key from the first address key, the personal area of the specific user can be grouped and specified, and the Web page group of the personal area can be specified. Analysis.

(3)この発明のグループ化プログラムは、
前記特定のアドレスから所定数のリンク階層数まで、類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化探索手段であって、
前記グループ化手段により特定のアドレス群として関連付けられた前記アドレスから取得したWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第3のアドレスキーを生成し、前記第1のアドレスキーと前記第3のアドレスキーとの間で、一致するアドレスキーの数を計数し、その結果に基づいて類似度を算出するグループ化探索手段、
を備えたこと、を特徴とする。
(3) The grouping program of this invention is
Grouping search means for associating, as a specific address group, addresses of links whose similarity is equal to or greater than a threshold value from the specific address to a predetermined number of link hierarchies,
A link is extracted from the Web page acquired from the address associated as a specific address group by the grouping means, and a third address key is generated by dividing the address of each extracted link by a delimiter character, Grouping search means for counting the number of matching address keys between one address key and the third address key, and calculating the similarity based on the result,
It is characterized by comprising.

これにより、所定のリンク階層数まで、特定ユーザーの個人領域をグループ化して特定することができる。   Thereby, it is possible to group and specify the personal areas of specific users up to a predetermined number of link hierarchies.

(4)この発明のグループ化プログラムは、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、前記特定のアドレスにおいてユーザーを特定する識別子だけを置き換えたアドレスであると判断されたアドレスを削除する、
ことを特徴とする。
(4) The grouping program of this invention is
The first address key generating means or the second address key generating means replaces only an identifier that identifies a user at the specific address before generating at least the first address key or the second address key. Delete addresses that are determined to be
It is characterized by that.

これにより、異なるユーザーのURLを容易に削除することができる。   Thereby, URLs of different users can be easily deleted.

(5)この発明のグループ化プログラムは、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、削除対象として登録されたアドレスに一致すると判定されたアドレスを削除する、
ことを特徴とするグループ化プログラム。
(5) The grouping program of this invention is
It is determined that the first address key generation means or the second address key generation means matches the address registered as a deletion target before at least generating the first address key or the second address key. Delete address,
A grouping program characterized by that.

これにより、予め登録された広告サイトなどのURLを容易に削除することができる。   As a result, URLs such as advertisement sites registered in advance can be easily deleted.

(6)この発明のグループ化プログラムは、
前記特定のアドレスを、サーバにアクセスすることにより所定時間毎に自動的に蓄積するアドレス蓄積手段、
を備えた、ことを特徴とする。
(6) The grouping program of the present invention is:
Address storage means for automatically storing the specific address every predetermined time by accessing a server;
It is characterized by having.

これにより、個人領域をグループ化して特定する特定ユーザーを自動的に蓄積することができる。   As a result, it is possible to automatically store specific users who specify personal areas by grouping them.

(9)この発明のエレメント抽出プログラムは、
Webページから所定のエレメントを抽出するためのエレメント抽出プログラムであって、
コンピュータを、
Webページを表示領域に展開するWebページ展開手段、
各エレメントの表示範囲を特定する座標を取得する座標取得手段、
前記表示領域上に、エレメントの配置方向に複数の点を配置し、当該配置した点を表示範囲に含むエレメントを選択するエレメント選択手段、
選択した前記エレメントの階層構造を順に配列するエレメント配列手段、
前記エレメントの各階層構造をタグ単位で分割して階層キーを生成する階層キー生成手段、
隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とする。
(9) The element extraction program of the present invention is
An element extraction program for extracting a predetermined element from a web page,
Computer
Web page expansion means for expanding the Web page in the display area;
Coordinate acquisition means for acquiring coordinates for specifying the display range of each element;
An element selection means for arranging a plurality of points in the arrangement direction of the elements on the display area and selecting an element including the arranged points in the display range;
Element arrangement means for arranging the hierarchical structure of the selected elements in order;
Hierarchy key generation means for generating a hierarchy key by dividing each hierarchical structure of the element in units of tags,
Similarity calculation means for counting the number of matching hierarchical keys between adjacent elements and calculating the similarity based on the result.
Content data acquisition means for specifying a hierarchical structure of two or more adjacent elements based on the similarity and acquiring content data corresponding to the hierarchical structure from a Web page;
It is made to function as.

これにより、Webページに含まれる記事などの単位で分割して解析することが可能となる。例えば、記事単位でも検索システムに用いたり、有害であると判断されたWebページの一部だけを非表示としたり、特定商品に関する書き込みだけを抽出して商品の評価を収集するといった処理に利用することができる。   As a result, it is possible to divide and analyze in units such as articles included in the Web page. For example, it can be used in a search system even in article units, or only a part of a Web page determined to be harmful is hidden, or it is used for processing such as extracting only writing related to a specific product and collecting product evaluations. be able to.

(10)この発明のエレメント抽出プログラムは、
コンピュータを、さらに、
隣接するエレメントの前記階層構造の類似度の平均を上位方向に算出して類似度ピラミッドを生成し、前記類似度がしきい値以上であるか否かを検出し、検出された類似度の底辺に含まれるエレメントの階層構造のうち、所定のルールに合致する階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とする。
(10) The element extraction program of the present invention is
Computer, and
An average of the similarities of the hierarchical structures of adjacent elements is calculated in the upper direction to generate a similarity pyramid, whether or not the similarity is equal to or greater than a threshold value, and the base of the detected similarity Content data acquisition means for specifying a hierarchical structure that matches a predetermined rule among the hierarchical structures of elements included in the URL, and acquiring content data corresponding to the hierarchical structure from a Web page;
It is made to function as.

これにより、内容データの抽出対象となる記事の階層構造を容易に特定することができる。   As a result, the hierarchical structure of articles from which content data is to be extracted can be easily specified.

(11)この発明のエレメント抽出プログラムは、
前記内容データ取得手段が、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントが包含関係にあるかを判断し、
隣接するエレメントが包含関係にない場合には、各階層構造について対応する内容データを取得する、
ことを特徴とする。
(11) The element extraction program of the present invention is
The content data acquisition means is
Of the elements included in the bottom of the similarity pyramid, determine whether adjacent elements are inclusive,
If adjacent elements are not in an inclusive relationship, get the corresponding content data for each hierarchical structure,
It is characterized by that.

これにより、内容データの抽出対象となる記事の階層構造を正確に特定することができる。   Thereby, the hierarchical structure of the article from which the content data is extracted can be specified accurately.

(12)この発明のエレメント抽出プログラムは、
前記エレメント抽出手段が、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントの階層構造が包含関係にあるかを判断し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値以下の場合に、包含される下位の階層構造を削除して、包含する上位の階層構造に対応する内容データを取得し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値を超える場合に、包含する上位の階層構造を削除して、包含される下位の階層構造に対応する内容データを取得する、
ことを特徴とする。
(12) The element extraction program of the present invention is
The element extraction means;
Of the elements included in the bottom of the similarity pyramid, determine whether the hierarchical structure of adjacent elements is inclusive,
When adjacent elements are in an inclusive relationship, if the text difference is less than or equal to the threshold value, the included lower hierarchical structure is deleted, and content data corresponding to the upper hierarchical structure included is acquired,
When adjacent elements are in an inclusion relationship, if the text difference exceeds a threshold value, the upper hierarchical structure to be included is deleted, and content data corresponding to the lower hierarchical structure to be included is acquired.
It is characterized by that.

これにより、内容データの抽出対象となる記事の階層構造をより正確に特定することができる。   Thereby, it is possible to more accurately specify the hierarchical structure of articles from which content data is extracted.

(13)この発明のエレメント抽出プログラムは、
前記エレメント選択手段が、前記表示領域上において、所定方向に等間隔で複数の点を配置し、配置した点を表示範囲に含むエレメントを選択する、
ことを特徴とする。
(13) The element extraction program of the present invention
The element selection means arranges a plurality of points at equal intervals in a predetermined direction on the display area, and selects an element including the arranged points in a display range.
It is characterized by that.

これにより、内容データの抽出対象となる階層構造を特定するために必要な階層キーを取得することができる。   As a result, it is possible to acquire a hierarchical key necessary for specifying a hierarchical structure from which content data is to be extracted.

(14)この発明のエレメント抽出プログラムは、
前記エレメント選択手段が、前記表示領域上において、前記所定方向に垂直の直線上に複数の点を配置し、同一直線上に配置した点を最も多く表示範囲に含むエレメントを選択する、
ことを特徴とする。
(14) The element extraction program of the present invention is
The element selecting means arranges a plurality of points on a straight line perpendicular to the predetermined direction on the display area, and selects an element that includes the most points arranged on the same straight line in the display range.
It is characterized by that.

これにより、内容データの抽出対象となる階層構造を特定するために必要な階層キーを取得することができる。   As a result, it is possible to acquire a hierarchical key necessary for specifying a hierarchical structure from which content data is to be extracted.

(15)この発明のエレメント抽出プログラムは、
前記エレメント抽出手段が、エレメントに含まれるAタグのURLまたは自然言語でマッチングして得た属性を、エレメントに関連付けて記憶した、
ことを特徴とする。
(15) The element extraction program of the present invention
The element extraction means stores the attribute obtained by matching the URL of the A tag included in the element or the natural language in association with the element,
It is characterized by that.

これにより、Webページから抽出した内容データの属性を区別して記憶することができる。   Thereby, the attribute of the content data extracted from the web page can be distinguished and stored.

この発明において、「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。   In the present invention, the “program” is a concept including not only a program that can be directly executed by the CPU but also a source format program, a compressed program, an encrypted program, and the like.

「ネットサイト」とは、例えば、前略プロフィール、モバゲータウン、GREE(いずれも商標)などのホームページサービスその他の個人毎にページを持つことが可能なサイトを含む概念である。   The “net site” is a concept including a homepage service such as an abbreviation profile, Mobage Town, GREE (both are trademarks) and other sites that can have a page for each individual.

本発明のグループ化装置100のブロック図である。It is a block diagram of the grouping apparatus 100 of this invention. 第1のアドレスキーおよび第2のアドレスキーとの間で照合する手順を示す図である。It is a figure which shows the procedure collated between the 1st address key and the 2nd address key. グループ化装置100のハードウェア構成を示す図である。2 is a diagram illustrating a hardware configuration of a grouping apparatus 100. FIG. グループ化プログラム32(図3)による処理を示すフローチャートである。It is a flowchart which shows the process by the grouping program 32 (FIG. 3). 取得されたユーザーAのトップページから抽出されたURLのデータ例を示す図である。It is a figure which shows the example of data of URL extracted from the top page of the acquired user A. FIG. 広告URLリスト36に登録されたURLと一致するリンクを削除した状態を示す図である。It is a figure which shows the state which deleted the link which corresponds to URL registered into the advertisement URL list | wrist 36. FIG. ユーザーフィルタルールと一致するリンクを削除した状態を示す図である。It is a figure which shows the state which deleted the link which corresponds to a user filter rule. 第1のアドレスキーを生成した状態を示す図である。It is a figure which shows the state which produced | generated the 1st address key. 図8に示すリンクα3のWebページから抽出されたリンクのURLのデータ例を示す図である。It is a figure which shows the data example of URL of the link extracted from the web page of link (alpha) 3 shown in FIG. 広告URLリスト36に登録されたURLと一致するリンクを削除した状態を示す図である。It is a figure which shows the state which deleted the link which corresponds to URL registered into the advertisement URL list | wrist 36. FIG. ユーザーフィルタルールと一致するリンクを削除した状態を示す図である。It is a figure which shows the state which deleted the link which corresponds to a user filter rule. 第2のアドレスキーを生成した状態を示す図である。It is a figure which shows the state which produced | generated the 2nd address key. キーの照合方法を示す図である。It is a figure which shows the collation method of a key. 類似度の算出方法および類似度を算出した結果を示す図である。It is a figure which shows the calculation method of the similarity, and the result of having calculated the similarity. 特定のアドレス群として関連付けて記憶されたデータ例を示す図である。It is a figure which shows the example of data memorize | stored linked | related as a specific address group. 本発明のエレメント抽出装置200のブロック図である。It is a block diagram of the element extraction apparatus 200 of this invention. エレメント抽出装置200のハードウェア構成を示す図である。2 is a diagram illustrating a hardware configuration of an element extraction device 200. FIG. エレメント抽出プログラム38(図16)による処理を示すフローチャートである。It is a flowchart which shows the process by the element extraction program 38 (FIG. 16). イメージデータに変換される前の掲示板のHTMLデータ(ソースコード)(図18A)およびこれをイメージデータに変換して画面上に表示した表示例(図18B)である。It is the HTML data (source code) (FIG. 18A) of the bulletin board before being converted into image data, and a display example (FIG. 18B) in which this is converted into image data and displayed on the screen. エレメントの座標を算出する方法を示す図である。It is a figure which shows the method of calculating the coordinate of an element. Webページ上に点を配置した状態(図20A)および配置した点を含むエレメントの階層構造を配列した状態(図20B)を示す図である。It is a figure which shows the state (FIG. 20B) which has arrange | positioned the state (FIG. 20A) which has arrange | positioned the point on a Web page, and the hierarchical structure of the element containing the arranged point. 各階層構造から階層キーを生成した状態を示す図である。It is a figure which shows the state which produced | generated the hierarchy key from each hierarchy structure. エレメント間の階層構造の類似度を算出する方法および類似度を算出した結果を示す図である。It is a figure which shows the method of calculating the similarity of the hierarchical structure between elements, and the result of calculating the similarity. 類似値ピラミッドを生成した状態を示す図である。It is a figure which shows the state which produced | generated the similar value pyramid. しきい値以上の類似度を頂点とするピラミッドを検出した状態を示す図である。It is a figure which shows the state which detected the pyramid which makes a vertex the similarity degree more than a threshold value. 階層構造を特定する処理(図17のステップS220)の詳細を示す図である。It is a figure which shows the detail of the process (step S220 of FIG. 17) which specifies a hierarchical structure. 包含関係にあるエレメントの階層構造を統合する方法(テキスト差分がしきい値以下のとき)を示す図である。It is a figure which shows the method (when a text difference is below a threshold value) which integrates | stacks the hierarchical structure of the element in an inclusive relationship. 包含関係にあるエレメントの階層構造を統合する方法(テキスト差分がしきい値を超えるとき)を示す図である。It is a figure which shows the method (when a text difference exceeds a threshold value) which integrates | stacks the hierarchical structure of the element in an inclusive relationship. 最終的に抽出されたエレメントのデータ例およびその属性を示す図である。It is a figure which shows the example of data of the element finally extracted, and its attribute. その他の実施形態を示す図である。It is a figure which shows other embodiment. 本発明の応用例を示す図である。It is a figure which shows the example of application of this invention.

1.本発明の意義
近年、モバイルインターネットにおけるネットサイトには様々な問題が指摘されており、ネットパトロールシステムを自動化し、ネットサイトにおける子供たちの行動を継続的に監視し、また問題がある子供を的確に指導することが課題となっている。
1. Significance of the present invention In recent years, various problems have been pointed out in the mobile Internet network site. The network patrol system is automated, the children's behavior on the Internet site is continuously monitored, and children with problems are accurately identified. It has become an issue to teach.

しかし、ネットパトロールを自動化するためには、ネット上の膨大なWebページの中から、各ユーザーの個人領域を特定する必要がある。さらに、1つのWebページに複数人の書き込みが含まれる場合に、より正確に対象者の解析を行うためには、Webページ単位ではなく、記事単位でWebページから内容を抽出する必要がある。   However, in order to automate the net patrol, it is necessary to specify the personal area of each user from a huge amount of Web pages on the net. Further, when a single Web page includes writings of a plurality of people, in order to analyze the target person more accurately, it is necessary to extract contents from the Web page in units of articles, not in units of Web pages.

本発明は、ネットパトロール支援システムの自動化に寄与するものであり、本発明のグループ化装置100(図1)は、膨大なWebページの中から、ネット上のユーザーの個人領域を特定するために有効な手段である。ネット上の個人領域の特定するために、例えば、各ユーザーのトップページからリンクされたURL(アドレス)が類似するか否かという観点から、同一ユーザーのページをリンクに沿って探索することで、各ユーザーの個人領域を容易に特定することができる。   The present invention contributes to the automation of the net patrol support system, and the grouping apparatus 100 (FIG. 1) of the present invention is used to specify the personal area of the user on the net from a huge number of Web pages. It is an effective means. In order to identify the personal area on the net, for example, by searching the same user's page along the link from the viewpoint of whether the URL (address) linked from the top page of each user is similar, The personal area of each user can be easily identified.

また、本発明のエレメント抽出プログラム(図15)は、掲示板のように1つのWebページに複数の内容が繰り返しで出現するような場合に、書き込まれた内容を抽出するために有効な手段である。すなわち、1ページ内に異なるユーザーの書き込みなど様々なデータが混在する場合であっても、重要であると推測される部分だけを容易に抽出することができる。   The element extraction program (FIG. 15) of the present invention is an effective means for extracting written contents when a plurality of contents appear repeatedly on one Web page, such as a bulletin board. . In other words, even when various data such as writings by different users are mixed in one page, only a portion that is assumed to be important can be easily extracted.

1−1.グループ化装置100の構造
まず、図1などを用いて、本発明のグループ化装置100について説明する。図1は本発明のグループ化装置100のブロック図である。
1-1. Structure of Grouping Device 100 First, the grouping device 100 of the present invention will be described with reference to FIG. FIG. 1 is a block diagram of a grouping apparatus 100 of the present invention.

図1に示すように、本発明のグループ化装置100は、Webページ取得手段2と、第1のアドレスキー生成手段4と、第2のアドレスキー生成手段6と、類似度算出手段8と、アドレスグループ化手段10と、グループ化探索手段12と、を備えている。   As shown in FIG. 1, the grouping apparatus 100 of the present invention includes a web page acquisition unit 2, a first address key generation unit 4, a second address key generation unit 6, a similarity calculation unit 8, Address grouping means 10 and grouping search means 12 are provided.

Webページ取得手段2(図1)は、特定のURLからWebページを取得する。例えば、ネットサイトに登録されているユーザーAのトップページを取得する。   Web page acquisition means 2 (FIG. 1) acquires a Web page from a specific URL. For example, the top page of the user A registered on the net site is acquired.

第1のアドレスキー生成手段4(図1)は、Webページ取得手段2が取得したWebページ(トップページ)からリンクだけを抽出し、抽出した各リンクのURLを区切り文字で分割して第1のアドレスキーを生成する。   The first address key generation means 4 (FIG. 1) extracts only the links from the Web page (top page) acquired by the Web page acquisition means 2, and divides the URL of each extracted link with a delimiter character as the first. Generate an address key for.

さらに、第2のアドレスキー生成手段6(図1)は、第1のアドレスキーを生成したリンクから取得されるWebページからリンクを抽出し、抽出した各リンクのURLを区切り文字で分割して第2のアドレスキーを生成する。このようにして所定のリンク階層までアドレスキーを生成する。   Further, the second address key generation means 6 (FIG. 1) extracts the link from the Web page acquired from the link that generated the first address key, and divides the URL of each extracted link with a delimiter. A second address key is generated. In this way, an address key is generated up to a predetermined link hierarchy.

類似度算出手段8(図1)は、第1のアドレスキー生成手段4が生成した第1のアドレスキーと、第2のアドレスキー生成手段6が生成した第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する。   The similarity calculation means 8 (FIG. 1) matches between the first address key generated by the first address key generation means 4 and the second address key generated by the second address key generation means 6. Keys to be matched, the number of combinations having the same appearance order of the corresponding keys is counted, and the similarity is calculated based on the result.

図2を用いて、第1のアドレスキーおよび第2のアドレスキーの間で照合する手順について説明する。   The procedure for collating between the first address key and the second address key will be described with reference to FIG.

照合処理は、図2に示すように、ユーザーAのトップページ(http:top・)から抽出される1つのURL「リンクURL01」から生成される第1のアドレスキーと、当該URL「リンクURL01」のWebページ(http://link1・)から抽出される各リンク(例えば、「リンクURL11」)から生成される第2のアドレスキーと、の間で行われる。なお、当該照合に基づく類似度の算出方法については、後述する。   As shown in FIG. 2, the collation process includes a first address key generated from one URL “link URL01” extracted from the top page (http: top ·) of user A and the URL “link URL01”. And a second address key generated from each link (for example, “link URL 11”) extracted from the Web page (http: // link1 ·). A method for calculating the similarity based on the collation will be described later.

グループ化手段10(図1)は、第1のアドレスキーと第2のアドレスキーの類似度がしきい値以上と判断されたリンクのURL(例えば、「リンクURL01」および「リンクURL11」)を、特定のアドレス群として関連付ける。   The grouping means 10 (FIG. 1) selects the URLs of links (for example, “link URL01” and “link URL11”) for which the similarity between the first address key and the second address key is determined to be equal to or greater than a threshold value. , As a specific address group.

グループ化探索手段12(図1)は、さらに、特定のURL(例えば、トップページ)から所定のリンク階層数まで、類似度がしきい値以上のリンクのURLを、特定のアドレス群として関連付けるための手段である。   The grouping search means 12 (FIG. 1) further associates URLs of links whose similarity is equal to or greater than a threshold value from a specific URL (for example, top page) to a predetermined number of link hierarchies as a specific address group. It is means of.

そのために、図2に示すように、グループ化手段10により特定のアドレス群として関連付けられたURL(例えば、「リンクURL11」)からWebページ(トップページから2リンク先の階層数http://link2・)を取得して当該Webページからリンクを抽出し、抽出した各リンク(例えば、「リンクURL21」)のURLを区切り文字で分割して第3のアドレスキーを生成する。さらに、「リンクURL01」から生成した第1のアドレスキーと、「リンクURL21」から生成した第3のアドレスキーとの間で、一致するアドレスキーの数を計数し、その結果に基づいて類似度を算出する。nリンク先の階層についても、同様に、「リンクURL01」から生成した第1のアドレスキーと、nリンク先のWebページから抽出されるリンクから生成した第nのアドレスキーとの間で、一致するアドレスキーの数を計数して、その結果に基づいて類似度を算出し、類似度がしきい値以上のリンクのURLを、特定のアドレス群として関連付ける。   For this purpose, as shown in FIG. 2, the URL associated with the grouping means 10 as a specific address group (for example, “link URL 11”) to the Web page (the number of hierarchies 2 links ahead from the top page http: // link2 To obtain a third address key by dividing the URL of each link (for example, “link URL 21”) by a delimiter character. Further, the number of matching address keys is counted between the first address key generated from the “link URL 01” and the third address key generated from the “link URL 21”, and the similarity is calculated based on the result. Is calculated. Similarly for the n link destination hierarchy, the first address key generated from the “link URL01” and the nth address key generated from the link extracted from the n link destination Web page are identical. The number of address keys to be counted is counted, a similarity is calculated based on the result, and URLs of links whose similarity is equal to or greater than a threshold are associated as a specific address group.

以上のように、特定のユーザーに関するURLがグループ化されることで、特定ユーザーの個人領域を正確に解析することができる。   As described above, the URL related to a specific user is grouped, so that the personal area of the specific user can be accurately analyzed.

1−2.グループ化装置100のハードウェア構成
図3に、グループ化装置100のハードウェア構成を示す。グループ化処理装置100は、図2に示すCPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータで構成される。
1-2. Hardware Configuration of Grouping Device 100 FIG. 3 shows a hardware configuration of the grouping device 100. The grouping processing apparatus 100 is composed of a computer including the CPU 20, RAM 22, display 24, hard disk 26, keyboard / mouse 28, and recording medium drive 30 shown in FIG.

図3のハードディスク26には、特定のユーザーの個人領域、すなわち、特定のユーザーに属するWebページ群を特定してグループ化するためのグループ化プログラム32が記録されている。グループ化プログラム32は、CPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータを、図1に示すWebページ取得手段2、第1のアドレスキー生成手段4、第2のアドレスキー生成手段6、類似度算出手段8、アドレスグループ化手段10、グループ化探索手段12として機能させるプログラムである。   The hard disk 26 of FIG. 3 records a grouping program 32 for specifying and grouping a personal area of a specific user, that is, a group of Web pages belonging to the specific user. The grouping program 32 is a computer that includes the CPU 20, RAM 22, display 24, hard disk 26, keyboard / mouse 28, and recording medium drive 30, and the Web page acquisition means 2, first address key generation means 4, and so on shown in FIG. This is a program that functions as the second address key generation means 6, similarity calculation means 8, address grouping means 10, and grouping search means 12.

また、図3のハードディスク26には、ネットサイトのユーザーリスト34が記憶されている。例えば、ユーザーリスト34には、ネットサイトから所定時間毎に予め収集されたユーザーのトップページに対応するURLが蓄積されている。   In addition, a user list 34 of the net site is stored in the hard disk 26 of FIG. For example, in the user list 34, URLs corresponding to the user's top page collected in advance from the network site every predetermined time are stored.

また、図3のハードディスク26には、広告のURLを削除するために用いられる広告URLリスト36が記憶されている。例えば、広告URLリスト34には、予めネット上から収集された広告のURLが蓄積されている。   Further, the hard disk 26 of FIG. 3 stores an advertisement URL list 36 used for deleting advertisement URLs. For example, the advertisement URL list 34 stores URLs of advertisements collected in advance from the Internet.

1−3.グループ化プログラム32による処理
図4は、グループ化プログラム32(図3)による処理を示すフローチャートである。
1-3. Processing by Grouping Program 32 FIG. 4 is a flowchart showing processing by the grouping program 32 (FIG. 3).

グループ化プログラム32が起動されると、CPU20は、ユーザーリスト34を参照し、特定ユーザーのURLからWebページを取得する(ステップS102)。例えば、ユーザーAのトップページが取得される。   When the grouping program 32 is activated, the CPU 20 refers to the user list 34 and acquires a Web page from the URL of a specific user (step S102). For example, the top page of user A is acquired.

さらに、CPU20は、取得したWebページからリンクを抽出する(ステップS104)。具体的には、HTMLデータに含まれるハイパーリンク(いわゆる、Aタグ)を検索することで、図5に示すようなリンクのURLが抽出される。   Further, the CPU 20 extracts a link from the acquired web page (step S104). Specifically, the URL of the link as shown in FIG. 5 is extracted by searching for a hyperlink (so-called A tag) included in the HTML data.

つぎに、不要なリンクを削除するために、広告フィルタ処理が行われる(ステップS106)。すなわち、CPU20は、広告URLリスト36を参照し、ステップS104で抽出したリンクのうち、広告サイトのWebページとURLが一致するリンクを削除する。これにより、ユーザーAとは明らかに無関係な広告サイトのWebページを削除することができる。例えば、図6に示すように、広告URLリスト36に登録されたURLと一致するリンクα1が全て削除される。なお、広告URLリストに登録されていないものが上記広告フィルタ処理を通過したとしても、通常は、後述する類似度に基づく削除処理(図4のステップS122)において削除される。   Next, an advertisement filter process is performed to delete unnecessary links (step S106). That is, the CPU 20 refers to the advertisement URL list 36 and deletes the link whose URL matches the web page of the advertisement site from the links extracted in step S104. Thereby, it is possible to delete the Web page of the advertising site that is clearly unrelated to the user A. For example, as shown in FIG. 6, all the links α1 that match the URLs registered in the advertisement URL list 36 are deleted. Note that even if an item not registered in the advertisement URL list passes the advertisement filtering process, it is usually deleted in a deletion process (step S122 in FIG. 4) based on similarity described later.

さらに、不要なリンクを削除するために、ユーザーフィルタ処理が行われる(ステップS108)。ユーザーフィルタ処理とは、特定のURLについて、ユーザーを特定する識別子だけを置き換えたURLのリンクを削除するというものである。例えば、URL「http://pr.cccboy.com/16378304」のうちユーザーIDを示す「16378304」の部分だけが異なる場合は、別のユーザーのURL(トップページ)であるため、当該URLのリンクを削除することとした。   Further, user filter processing is performed to delete unnecessary links (step S108). The user filter process is to delete a URL link in which only an identifier for specifying a user is replaced for a specific URL. For example, when only “16378304” indicating the user ID in the URL “http://pr.cccboy.com/16378304” is different, it is another user's URL (top page), and the link of the URL It was decided to delete.

具体的な処理としては、「http://pr.cccboy.com/*」のように、トップページのURLのうち、ユーザーIDの部分のみをワイルドカード(正規表現)として検索し、その結果、検出された図7に示すリンクα2(URL「http://pr.cccboy.com/12345678」)を削除した。   Specifically, as in “http://pr.cccboy.com/*”, only the user ID portion of the top page URL is searched as a wild card (regular expression), and as a result, The detected link α2 (URL “http://pr.cccboy.com/12345678”) shown in FIG. 7 was deleted.

上記ステップS106およびステップS108において不要なリンクを削除した後、CPU20は、残りのリンクについて、URLを区切り文字で分割して第1のアドレスキーを生成する(ステップS110)。   After deleting unnecessary links in Step S106 and Step S108, the CPU 20 generates a first address key by dividing the URL with a delimiter for the remaining links (Step S110).

具体的には、各リンクのURLを、プロトコル名を除いて、区切り文字(英数字以外のスラッシュ「/」、ピリオド「.」など)でテキストを分割することで、各キーが生成される。例えば、図8に示すリンクα3のURL「http://bbs.cccboy.com/Guestbook/BBS/16378304/」から、第1のアドレスキーとして、6つのキー「bbs」、「cccboy」、「com」、「Guestbook」、「BBS」「16378304」が生成される。CPU20は、これらのキーを配列順序と併せて、後述する照合処理のためにRAM22に記憶する。さらに、第1のアドレスキーを生成する元になった図8に示す各リンクのURLを、ユーザーAのトップページに属するアドレス群として関連付けて記憶する(ステップS111)。   Specifically, each key is generated by dividing the text of the URL of each link by a delimiter (such as a non-alphanumeric slash “/”, period “.”, Etc.) excluding the protocol name. For example, from the URL “http://bbs.cccboy.com/Guestbook/BBS/16378304/” of the link α3 shown in FIG. 8, six keys “bbs”, “cccboy”, “com” "," Guestbook "," BBS ", and" 16378304 "are generated. The CPU 20 stores these keys together with the arrangement order in the RAM 22 for collation processing to be described later. Further, the URL of each link shown in FIG. 8 that is the source for generating the first address key is stored in association with the address group belonging to the top page of user A (step S111).

次に、CPU20は、第1のアドレスキーを生成した各リンクのURLからWebページを取得し(ステップS112)、当該Webページからリンクを抽出する(ステップS114)。図8に示すリンクα3のWebページから抽出されたリンクを、図9に示す。   Next, the CPU 20 acquires a web page from the URL of each link that generated the first address key (step S112), and extracts a link from the web page (step S114). A link extracted from the Web page of the link α3 shown in FIG. 8 is shown in FIG.

さらに、ステップS106およびステップS108と同様、不要URLの削除処理が行われる(ステップS116)。例えば、図10に示すように、CPU20は、ステップS114で抽出したリンクから、広告サイトのWebページとURLが一致するリンクβ1、β2を削除する(ステップS106と同じ処理)。さらに、CPU20は、ユーザーフィルタ処理を行って、図11に示すように、特定のURLにおいてユーザーを特定する識別子だけを置き換えたURLのリンクβ3〜β5を削除する(ステップS108と同じ処理)。   Furthermore, unnecessary URL deletion processing is performed in the same manner as in steps S106 and S108 (step S116). For example, as shown in FIG. 10, the CPU 20 deletes the links β1 and β2 whose URLs match the Web page of the advertisement site from the link extracted in step S114 (the same processing as step S106). Further, the CPU 20 performs user filter processing, and deletes URL links β3 to β5 obtained by replacing only the identifier for specifying the user in the specific URL as shown in FIG. 11 (the same processing as step S108).

上記ステップS116において不要なリンクを削除した後、CPU20は、ステップS110と同様、残りの各リンクについて、URLを所定のテキスト単位に分割し、第2のアドレスキーを生成する(ステップS118)。   After deleting unnecessary links in step S116, the CPU 20 divides the URL into predetermined text units for the remaining links and generates a second address key, as in step S110 (step S118).

前述のように、各リンクのURLを、プロトコル名を除いて、区切り文字(英数字以外のスラッシュ「/」、ピリオド「.」など)でテキスト単位に分割することで、各キーが生成される。例えば、図12に示すリンクβ6〜β9それぞれのURLから、各リンクについての第2のアドレスキーが生成される(図12を参照)。   As described above, each key is generated by dividing the URL of each link into text units by using a delimiter (such as a non-alphanumeric slash “/” or period “.”), Excluding the protocol name. . For example, the second address key for each link is generated from the URLs of the links β6 to β9 shown in FIG. 12 (see FIG. 12).

なお、図12に示す例では、「=」の後に英数字列が連続する場合の当該英数字列(リンクβ7〜β9における「0」など)はキーとして生成しないように設定している。一般に、「=」の後には、コメントなどの記述を特定するIDが入り、かかるIDは同一人のコメントであったとしても、各コメント毎に異なる。したがって、これらをキーとして同一人の判定に用いると、邪魔になると考えられるからである。このため、結果として、リンクβ7〜β9の第2のアドレスキーは同じものとなっている。   In the example shown in FIG. 12, when the alphanumeric string continues after “=”, the alphanumeric string (such as “0” in links β7 to β9) is set not to be generated as a key. In general, after “=”, an ID for specifying a description such as a comment is entered. Even if the ID is a comment of the same person, the ID is different for each comment. Therefore, if these are used as a key for determination of the same person, it is considered to be an obstacle. Therefore, as a result, the second address keys of the links β7 to β9 are the same.

さらに、CPU20は、ステップS110で生成した第1のアドレスキーと、ステップS118で算出した第2ののアドレスキーとの間で、それぞれを構成するキーを照合することにより、同じ順序で、かつ、一致するキーの組み合わせ数を計数し、その結果に基づいて類似度を算出する(ステップS120)。この実施形態では、途中に異なるキーが存在したとしても、出現順序が同じであれば一致するキーであるとしている。   Furthermore, the CPU 20 collates the keys constituting each of the first address key generated in step S110 and the second address key calculated in step S118, in the same order, and The number of matching key combinations is counted, and the similarity is calculated based on the result (step S120). In this embodiment, even if there are different keys in the middle, the keys match if they appear in the same order of appearance.

キーの照合方法について、図13aを用いて説明する。図13aのパターン1に示すように、第1のアドレスキーが{a,b,c}の3つであり、第2のアドレスキーが{a,d,b,e,c}の5つであるとき、まず、第1のアドレスキーを構成するキーの1つ{a}と一致するキーが第2のアドレスキーを構成するキーの中に存在するか否かを前方から照合する。これにより、まず、図13aに示す{a}の組み合わせが検出される。   A key verification method will be described with reference to FIG. As shown in pattern 1 in FIG. 13a, there are three first address keys {a, b, c} and five second address keys {a, d, b, e, c}. In some cases, first, it is collated from the front whether or not a key matching one of the keys constituting the first address key {a} exists in the key constituting the second address key. Thereby, first, the combination of {a} shown in FIG. 13a is detected.

さらに、第1のアドレスキーを構成する次のキー{b}が第2のアドレスキーに存在するか、第2のアドレスキーのキー{d}から照合することにより、後方に向けて一致するキーの組み合わせ数を計数する。これにより、図13aに示す{b}{c}の組み合わせが検出され、一致するキーの出現順序が同じである組み合わせ数は3となる。   Further, the next key {b} constituting the first address key is present in the second address key, or a key that matches backward by collating with the key {d} of the second address key. Count the number of combinations. Thereby, the combination of {b} {c} shown in FIG. 13A is detected, and the number of combinations having the same appearance order of the matching keys is 3.

なお、第1のアドレスキーを{a,b,c,d}の4つとしたパターン2の場合は、キー{c}同士の組み合わせが検出された後は、第1のアドレスキーの4番目のキー{d}は、第2のアドレスキーの5番目の{c}から後方に向けて検出するため、図13a中、点線の矢印で示す第2のアドレスキーの2番目のキー{d}との組み合わせはカウントされず、パターン1と同様に、組み合わせ数は3となる。   In the case of pattern 2 with four first address keys {a, b, c, d}, the fourth address of the first address key is detected after the combination of the keys {c} is detected. Since the key {d} is detected backward from the fifth {c} of the second address key, the second key {d} of the second address key indicated by a dotted arrow in FIG. The combinations are not counted, and the number of combinations is 3 as in the case of the pattern 1.

類似度は、上記組み合わせ数などに基づいて、次式から算出することができる。なお、次式における類似度Ext(wni, wnij)は、第1のアドレスキーwniと、第2のアドレスキーwnijの間の類似度を表す。 The similarity can be calculated from the following formula based on the number of combinations. Note that the similarity Ext (wn i , wn ij ) in the following expression represents the similarity between the first address key wn i and the second address key wn ij .

Figure 2015053087
Figure 2015053087

ここで、式の分母count(Element(wni))は、第1のアドレスキーを構成するキーElement(wni)の総数を表す。また、式の分子count(LCS(Element(wni), Element(wnij))は、第1のアドレスキーを構成するキーElement(wni)と、第2のアドレスキーを構成するキーElement(wnij)との間で、同じ順序で、かつ、一致するキーの組み合わせ数を表す。 Here, the denominator count (Element (wn i )) in the equation represents the total number of keys Element (wn i ) constituting the first address key. Also, the numerator count (LCS (Element (wn i ), Element (wn ij ))) of the formula includes a key Element (wn i ) that constitutes a first address key and a key Element (that constitutes a second address key). wn ij ) represents the number of matching key combinations in the same order.

上記の式から、例えば、図13bに示す第1のアドレスキーwn1と、リンクβ6の第2のアドレスキーwn11との間の類似度Ext(wn1,wn11)は、Ext(wn1,wn11)= 0 / 6 = 0となる。また、図13bに示す第1のアドレスキーwn1と、リンクβ7の第2のアドレスキーwn12との間の類似度Ext(wn1,wn12)は、Ext(wn1,wn12)= 5 / 6 = 0.83333....となる(Ext(wn1,wn13)、Ext(wn1,wn14)も同じ)。 From the above formula, for example, the similarity Ext (wn 1 , wn 11 ) between the first address key wn 1 shown in FIG. 13b and the second address key wn 11 of the link β6 is Ext (wn 1 , wn 11 ) = 0 0/6 = 0. Further, the similarity Ext (wn 1 , wn 12 ) between the first address key wn 1 shown in FIG. 13b and the second address key wn 12 of the link β7 is Ext (wn 1 , wn 12 ) = 5/6 = 0.83333 .... (Ext (wn 1 , wn 13 ), Ext (wn 1 , wn 14 ) are the same).

CPU20は、類似度がしきい値以下であると判断したリンクを除去する(ステップS122)。例えば、図13bにおいて類似度が「0」と算出されたリンクβ6(図12)が削除される。一方、CPU20は、類似度がしきい値(例えば、「0.6」)以上であると判断したリンクについては、そのURLを、特定のアドレス群として関連付けて記憶する(ステップS124)。例えば、図13bにおいて類似度が「0.83333....」と算出されたリンクβ7〜β9(図12)のURLは、ユーザーAのトップページに属するアドレス群として関連付けられ、グループ化される。   The CPU 20 removes the link for which the similarity is determined to be less than or equal to the threshold (step S122). For example, the link β6 (FIG. 12) whose similarity is calculated as “0” in FIG. 13B is deleted. On the other hand, the CPU 20 associates and stores the URL as a specific address group for the link whose similarity is determined to be greater than or equal to a threshold (for example, “0.6”) (step S124). For example, the URLs of the links β7 to β9 (FIG. 12) whose similarity is calculated as “0.83333...” In FIG. 13B are associated and grouped as an address group belonging to the top page of the user A.

起点となったURLから所定のリンク数(例えば、10リンク)に達するまで、上記処理を繰り返す(ステップS126)。なお、同じ記事であっても次のページにとして取り扱われていれば、リンク数はカウントされることになる。   The above process is repeated until a predetermined number of links (for example, 10 links) is reached from the starting URL (step S126). If the same article is handled as the next page, the number of links will be counted.

以上の処理により、特定のアドレス群(例えば、特定のサイトユーザーについてのWebページ)として関連付けて記憶されたデータ例を、図14に示す。図14に示すグループ化したURLの例では、ユーザーAのトップページのURLに、ステップS111において記憶された第1の判別キーを生成する元となったリンクのURL(図8)、およびステップS122において類似度の判定により削除されなかったURL(図14)が、ユーザーAの個人領域として関連付けて記憶されている。   FIG. 14 shows an example of data stored in association with a specific address group (for example, a Web page for a specific site user) by the above processing. In the grouped URL example shown in FIG. 14, the URL (FIG. 8) of the link from which the first discrimination key stored in step S111 is generated is added to the URL of the top page of user A, and step S122. The URL (FIG. 14) that was not deleted due to the similarity determination in FIG.

個人領域が全てトップページのURLに文字列を追加したものであるときは、トップページのURLと前方一致の関係にあるか否かを検索することで、個人領域のURLをグループ化することも可能である。しかし、個人領域の全てがトップページのURLに文字列を追加したものではない場合(例えば、トップページのURLの間に異なる文字列が挿入されているようなとき)には、本実施形態による上記処理が特に有効である。   When the personal area is all the URL of the top page with a character string added, it is possible to group the URLs of the personal area by searching whether or not the URL of the top page has a forward matching relationship. Is possible. However, when not all of the personal area is obtained by adding a character string to the URL of the top page (for example, when a different character string is inserted between the URLs of the top page), according to the present embodiment. The above processing is particularly effective.

1−4.他の実施形態
なお、上記実施形態では、リンク階層数を1または2までとしたが、これに限定されるものではなく、3以上(例えば、10リンク)のリンク階層先まで探索してもよい。
1-4. Other Embodiments In the above-described embodiment, the number of link hierarchies is set to 1 or 2. However, the number of link hierarchies is not limited to this. .

なお、上記実施形態では、トップページに含まれるリンクのURLから第1のアドレスキーを生成したが(図2など)、トップページ自体のURLから第1のアドレスキーを生成してもよい。この場合、トップページに含まれるリンクのURLから第2のアドレスキーを生成すればよい。   In the above embodiment, the first address key is generated from the URL of the link included in the top page (FIG. 2 and the like), but the first address key may be generated from the URL of the top page itself. In this case, the second address key may be generated from the URL of the link included in the top page.

なお、上記実施形態では、類似値算出の式において、第1のアドレスキーの総数を分母としたが、これに限定されるものではなく、第2のアドレスキーの総数を分母としたり、これらのいずれか大きい方を分母としてもよい。   In the above embodiment, the total number of the first address keys is used as the denominator in the similarity value calculation formula. However, the present invention is not limited to this, and the total number of the second address keys may be used as the denominator. The larger one may be used as the denominator.

なお、上記実施形態では、一致するキーの数を前方から後方まで照合することとしたが、これに限られるものではなく、後方から前方に向けて照合してもよい。   In the above embodiment, the number of matching keys is collated from the front to the rear. However, the present invention is not limited to this, and the collation may be performed from the rear to the front.

なお、上記実施形態では、一致するキーの数を前方から後方まで照合することとしたが、これに限られるものではなく、照合を途中で停止してもよい。例えば、一致しないキーが出現した場合に、以降の照合を行わないようにしてもよい。   In the above embodiment, the number of matching keys is collated from the front to the rear. However, the present invention is not limited to this, and the collation may be stopped halfway. For example, when a key that does not match appears, the subsequent verification may not be performed.

なお、上記実施形態では、類似度を算出するためにキーの一致数だけを考慮したが、特定のキーに重みを持たせて類似度を算出してもよい。例えば、ドメイン名から生成されるキーに、他のキーよりも重み付けを行うようにしてもよい。   In the above embodiment, only the number of matching keys is considered in order to calculate the similarity, but the similarity may be calculated by giving a weight to a specific key. For example, a key generated from a domain name may be weighted more than other keys.

なお、上記実施形態では、URLを対象としたが、他のアドレス(例えば、URN)を対象としてもよい。URLとURNはいずれもURIの概念に含まれるものである。なお、URLの削除処理を設けなくてもよい。   In the above embodiment, the URL is targeted, but other addresses (for example, URN) may be targeted. Both URL and URN are included in the concept of URI. It is not necessary to provide URL deletion processing.

上記のようにして、特定ユーザーの個人領域を特定することができるが、同じWebページ内に複数の個人による書き込みが存在する場合がある。そのような場合には、他のユーザーが書き込んだ部分と区別できればより高度な解析を行うことができる。Webページを特定の単位で分割するための処理について以下に説明する。   As described above, the personal area of the specific user can be specified, but there may be cases where writing by a plurality of individuals exists in the same Web page. In such a case, more advanced analysis can be performed if it can be distinguished from the part written by other users. Processing for dividing a Web page in a specific unit will be described below.

2−1.エレメント抽出装置200の構造(図15)
本発明のエレメント抽出装置200は、Webページから所定のエレメント抽出するために、図15に示すWebページ展開手段52、座標取得手段54、エレメント選択手段56、エレメント配列手段58、階層キー生成手段60、類似度算出手段62、内容データ取得手段64を備える。これらの手段を用いることで、Webページの中に膨大な数のエレメントが含まれる場合でも、重要なエレメントだけを抽出すための記事抽出ルールが、Webページ毎に自動的に決定されるため,汎用性の高い記事抽出が可能となる。
2-1. Structure of element extraction device 200 (FIG. 15)
The element extraction apparatus 200 according to the present invention extracts a predetermined element from a Web page, in order to extract a predetermined page from the Web page 52, coordinate acquisition unit 54, element selection unit 56, element arrangement unit 58, and hierarchical key generation unit 60 shown in FIG. , Similarity calculation means 62 and content data acquisition means 64 are provided. By using these means, even when an enormous number of elements are included in a Web page, article extraction rules for extracting only important elements are automatically determined for each Web page. Highly versatile article extraction is possible.

Webページ展開手段52(図15)は、Webページ(HTML文書)を表示領域に展開し、座標取得手段54(図15)は、表示されたWebページ(HTML文書)に含まれる各エレメントの表示範囲を特定する座標を取得する。ここで、「エレメント」とは、表示位置があるHTML文書の要素を意味する。   Web page expansion means 52 (FIG. 15) expands the Web page (HTML document) in the display area, and coordinate acquisition means 54 (FIG. 15) displays each element included in the displayed Web page (HTML document). Get the coordinates that specify the range. Here, “element” means an element of an HTML document having a display position.

エレメント選択手段56(図15)は、表示領域上に、エレメントの配置方向に複数の点を配置し、配置した点を表示範囲に含むエレメントを選択する。エレメント配列手段58(図15)は、選択した前記エレメントの階層構造を順に配列する。階層キー生成手段60(図15)は、前記エレメントの各階層構造をタグ単位で分割して階層キーを生成する。   The element selection means 56 (FIG. 15) arranges a plurality of points in the element arrangement direction on the display area, and selects an element including the arranged points in the display range. The element arrangement means 58 (FIG. 15) arranges the hierarchical structure of the selected elements in order. The hierarchy key generating means 60 (FIG. 15) generates a hierarchy key by dividing each hierarchical structure of the element in units of tags.

類似度算出手段62(図15)は、隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出する。内容データ取得手段64(図15)は、前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する。   The similarity calculation means 62 (FIG. 15) counts the number of matching hierarchical keys between adjacent elements, and calculates the similarity based on the result. The content data acquisition unit 64 (FIG. 15) specifies the hierarchical structure of two or more adjacent elements based on the similarity, and acquires content data corresponding to the hierarchical structure from the Web page.

2−2.エレメント抽出装置200のハードウェア構成
図16に、エレメント抽出装置200のハードウェア構成を示す。エレメント抽出装置200は、図16に示すCPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータで構成される。
2-2. Hardware Configuration of Element Extraction Device 200 FIG. 16 shows a hardware configuration of the element extraction device 200. The element extraction device 200 is configured by a computer including the CPU 20, RAM 22, display 24, hard disk 26, keyboard / mouse 28, and recording medium drive 30 shown in FIG.

図16のハードディスク26には、エレメント抽出プログラム38が記録されている。エレメント抽出プログラム38は、CPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータを、図16に示すWebページ展開手段52、座標取得手段54、エレメント選択手段56、エレメント配列手段58、階層キー生成手段60、類似度算出手段62、内容データ取得手段64として機能させるプログラムである。   An element extraction program 38 is recorded on the hard disk 26 of FIG. The element extraction program 38 is a computer that includes the CPU 20, RAM 22, display 24, hard disk 26, keyboard / mouse 28, and recording medium drive 30. The page extraction means 52, coordinate acquisition means 54, and element selection means 56 shown in FIG. , Element arrangement means 58, hierarchical key generation means 60, similarity calculation means 62, and content data acquisition means 64.

また、図16のハードディスク26には、ブラウザ40が記憶されている。ブラウザ40は、コンピュータ内部において、Webページ(HTML文書)を仮想的に表示領域(例えば、縦2040px×横1200px)に展開する。   In addition, a browser 40 is stored in the hard disk 26 of FIG. The browser 40 virtually expands a Web page (HTML document) in a display area (for example, vertical 2040 px × horizontal 1200 px) inside the computer.

また、図16のハードディスク26には、エレメント座標DB42が記憶されている。エレメント座標DB42には、ブラウザ40の表示領域におけるエレメントの表示範囲を示す座標(例えば、表示領域上にX、Y座標を設定した場合における各エレメントの左上および右下の座標)が蓄積される。   Further, the element coordinate DB 42 is stored in the hard disk 26 of FIG. In the element coordinate DB 42, coordinates indicating the display range of the element in the display area of the browser 40 (for example, the upper left and lower right coordinates of each element when the X and Y coordinates are set on the display area) are accumulated.

2−3.エレメント抽出処理のフロー
図17は、エレメント抽出プログラム38(図16)による処理を示すフローチャートである。なお、以下の例では、掲示板のページに複数人の書き込みがあった場合に、ユーザーによって書き込まれた内容の単位で、テキストを抽出する場合について説明する。
2-3. Element Extraction Processing Flow FIG. 17 is a flowchart showing processing by the element extraction program 38 (FIG. 16). In the following example, a case will be described in which text is extracted in units of contents written by the user when a plurality of people have written on the bulletin board page.

エレメント抽出プログラム38が起動されると、ブラウザ40(図16)は、Webから抽出対象となるHTML文書を取得して、エレメントを表示領域上に配置(すなわち、イメージデータに変換)する(ステップS202)。図18は、イメージデータに変換される前の掲示板のHTMLデータ(ソースコード)(図18A)およびこれをイメージデータに変換して画面上に表示した表示例(図18B)である。   When the element extraction program 38 is activated, the browser 40 (FIG. 16) acquires an HTML document to be extracted from the Web, and arranges the elements on the display area (that is, converts them into image data) (step S202). ). FIG. 18 shows HTML data (source code) (FIG. 18A) of the bulletin board before being converted into image data, and a display example (FIG. 18B) in which this is converted into image data and displayed on the screen.

さらに、CPU20は、イメージデータ上における各エレメントの表示領域を示す座標(例えば、左上および右下)を取得し、エレメント座標DB42(図17)に記憶する(ステップS204)。図19に、エレメントの座標を算出する方法を示す。例えば、図19において「山田花子」を表示するエレメントEl4の表示範囲を示す左上座標(X4,Y4)は、X 4 = x1 + x2 + x3 + x4、Y 4 = y1 + y2 + y3 + y4で算出される。右下座標は、各エレメントの高さおよび幅を左上座標に加算すれば得られる。なお、図19に示すような画像を実際に画面上に表示しない場合であっても、コンピュータ内部において(すなわち、図16のディスプレイ24に表示せずに)上記処理が行うことは可能である。   Further, the CPU 20 acquires coordinates (for example, upper left and lower right) indicating the display area of each element on the image data, and stores them in the element coordinate DB 42 (FIG. 17) (step S204). FIG. 19 shows a method for calculating the coordinates of an element. For example, in FIG. 19, the upper left coordinates (X4, Y4) indicating the display range of the element El4 displaying “Yamada Hanako” are X 4 = x1 + x2 + x3 + x4, Y 4 = y1 + y2 + y3 + y4 Calculated. The lower right coordinates can be obtained by adding the height and width of each element to the upper left coordinates. Even if the image as shown in FIG. 19 is not actually displayed on the screen, the above processing can be performed inside the computer (that is, without being displayed on the display 24 in FIG. 16).

つぎに、エレメントの選択処理に移行する。まず、CPU20は、エレメントの長さ方向(幅方向)に対して垂直方向(縦方向)の仮想直線を設定する(ステップS206)。図20に示す例では、1本の直線L1を中央に設定している。これは、特にプロフなどにおいては、重要な要素は中央に配置されている可能性が高いためである。   Next, the process proceeds to element selection processing. First, the CPU 20 sets a virtual straight line in the vertical direction (longitudinal direction) with respect to the length direction (width direction) of the element (step S206). In the example shown in FIG. 20, one straight line L1 is set at the center. This is because there is a high possibility that important elements are arranged in the center, particularly in a prof.

さらに、CPU20は、設定した上記直線上に、所定の間隔で点をプロットする(ステップS208)。図20に示す例では、等間隔(例えば、10px〜20px程度)で点をプロットしている。CPU20は、エレメント座標DB42(図17)を参照して、プロットされた点を表示範囲内に含むエレメントを抽出し、順に配列する(ステップS210)。   Further, the CPU 20 plots points at predetermined intervals on the set straight line (step S208). In the example shown in FIG. 20, the points are plotted at regular intervals (for example, about 10 px to 20 px). The CPU 20 refers to the element coordinate DB 42 (FIG. 17), extracts elements that include the plotted points within the display range, and arranges them in order (step S210).

CPU20は、抽出したエレメントの階層構造をタグ単位に分割して、階層キーを抽出する(ステップS212)。例えば、図20の上から3つ目の点P3を例として、階層キーの抽出を説明すると次のとおりである。3つ目の点P3は、図18のHTML文書では、12行目の「友達なろ〜よ」に対応している。この「友達なろ〜よ」を挟んで記述されている一対のタグ(<body>と</body>のように、制御の開始と終了を示すタグをいう)を探し出し、これを階層キーとしている。   The CPU 20 divides the hierarchical structure of the extracted elements into tag units, and extracts a hierarchical key (step S212). For example, taking the third point P3 from the top of FIG. 20 as an example, the extraction of the hierarchy key is described as follows. The third point P3 corresponds to “Friends Nara ~ yo” on the 12th line in the HTML document of FIG. Search for a pair of tags (such as <body> and </ body>, which indicates the start and end of control) described between these “friends”, and use this as a hierarchical key .

「友達なろ〜よ」を挟む一対のタグは、2行目の<body>と下から2行目の</body>、7行目の<form>と15行目の</form>、8行目の<table>と14行目の</table>、8行目の<tr>と14行目の</tr>、8行目の<td>と14行目の</td>、9行目の<div>と12行目の</div>である。したがって、body,form,table,tr,td,divが階層キーとして抽出される。図21に、各エレメントの階層構造をタグ単位で分割して生成した階層キーの例を示す。   A pair of tags sandwiching "Friends ~~" are the <body> on the second line and the second </ body> on the second line, the <form> on the seventh line and the </ form> on the 15th line, 8 <Table> and 14th line </ table>, 8th line <tr> and 14th line </ tr>, 8th line <td> and 14th line </ td>, The <div> on the 9th line and the </ div> on the 12th line. Therefore, body, form, table, tr, td, and div are extracted as hierarchical keys. FIG. 21 shows an example of a hierarchical key generated by dividing the hierarchical structure of each element in units of tags.

階層キーを抽出した後、隣接する各エレメント間における階層キーの類似度を、図22に示す式(図13bに示す式と同じ)に基づいて算出する(ステップS214)。図22に、類似度算出した結果の例を示す。なお、この実施形態では、式の分母count(Element(wni))を、隣接する階層キーの数のうち、大きい方の数としている。 After extracting the hierarchy key, the similarity of the hierarchy key between adjacent elements is calculated based on the formula shown in FIG. 22 (the same as the formula shown in FIG. 13b) (step S214). FIG. 22 shows an example of the result of calculating the similarity. In this embodiment, the denominator count (Element (wn i )) of the equation is the larger number of adjacent hierarchical keys.

つぎに、CPU20は、図23に示すような、類似値ピラミッドをコンピュータ内部において生成する(ステップS216)。なお、図23に示す類似値ピラミッドを生成するには、隣接する2つの類似度の平均を計算して上位に積み上げて行けばよい。   Next, the CPU 20 generates a similar value pyramid as shown in FIG. 23 (step S216). In order to generate the similarity value pyramid shown in FIG. 23, it is only necessary to calculate the average of two adjacent degrees of similarity and stack them up.

CPU20は、類似値ピラミッドの中から、しきい値以上(例えば、0.7)の類似度を頂点とするピラミッドを探索する(ステップS218)。このとき、ピラミッドの底辺が重ならないように探索する。例えば、図24に点線で示すピラミッドが検出された場合、当該ピラミッドの底辺を含まないように、N1またはN2を底辺とするピラミッドについて探索を行う。なお、探索の方向は、図24において、上位から下位の方向または底辺の左から右の方向もしくは底辺の右から左に行うことができる。なお、類似度ピラミッドの中にしきい値以上の類似度が全く含まれていない場合には、全ての類似度を探索して処理を終了することになる。   The CPU 20 searches the similarity value pyramid for a pyramid having a similarity equal to or higher than a threshold (for example, 0.7) as a vertex (step S218). At this time, search is made so that the bases of the pyramids do not overlap. For example, when a pyramid indicated by a dotted line in FIG. 24 is detected, a search is performed for a pyramid having N1 or N2 as a base so as not to include the bottom of the pyramid. In FIG. 24, the direction of search can be performed from the top to the bottom, from the bottom left to the right, or from the bottom right to the left. If the similarity pyramid does not include any similarity above the threshold value, all similarities are searched and the process is terminated.

さらに、探索された各ピラミッドに対して以下の統合処理を実行し、エレメント抽出の対象となる階層構造を特定する(ステップS220)。図25を用いて、階層構造を特定する処理の詳細について説明する。   Further, the following integration process is executed on each searched pyramid to identify the hierarchical structure that is the target of element extraction (step S220). Details of the process of specifying the hierarchical structure will be described with reference to FIG.

CPU20は、まず、探索された対象ピラミッドの底辺について、包含関係を判定する(ステップS2221)。包含関係にあるか否かは、エレメント座標DB42に記憶されている各エレメントの座標を比較し、またはエレメント間におけるタグの階層構造の関係を参照して判定することができる。なお、図24に点線で示すピラミッドの底辺に含まれる異なる階層構造の「/body/form/table/tr/td」と、「/body/form/table/tr/td/div」とは包含関係にある。   First, the CPU 20 determines an inclusion relationship for the bottom of the searched target pyramid (step S2221). Whether or not there is an inclusion relationship can be determined by comparing the coordinates of each element stored in the element coordinate DB 42 or by referring to the relationship of the hierarchical structure of tags between elements. It should be noted that “/ body / form / table / tr / td” and “/ body / form / table / tr / td / div” having different hierarchical structures included in the bottom of the pyramid indicated by the dotted line in FIG. 24 are inclusive relations. It is in.

エレメントが包含関係にない場合(ステップS2221のNo)は、各エレメントを抽出対象として特定する(ステップS2222)。例えば、図21に示す第1列のエレメント「/body/div」と第2列のエレメント「/body/form/table/tr/td」は包含関係にない。   If the elements are not in an inclusion relationship (No in step S2221), each element is specified as an extraction target (step S2222). For example, the element “/ body / div” in the first column and the element “/ body / form / table / tr / td” in the second column shown in FIG. 21 are not in an inclusive relationship.

エレメントが包含関係にあると判定した場合(ステップS2221のYes)は、各エレメントに含まれるテキストの文字数の差がしきい値(例えば、当該差が、上位階層のエレメントに含まれるテキスト文字数の0.8)以下のとき(ステップS2223のYes)には、包含するエレメントを抽出対象として特定する(ステップS2224)。すなわち、階層構造がより上位の方(図26に示すdata2に対応する階層構造)を抽出対象として特定する。これにより、下位の階層構造(図26に示すdata1に対応)は、上位の階層構造(図26に示すdata2に対応)に統合されることになる。   If it is determined that the elements are in an inclusive relationship (Yes in step S2221), the difference in the number of characters in the text included in each element is a threshold value (for example, the difference is 0.8 of the number of text characters included in the upper layer element). In the following cases (Yes in step S2223), the included element is specified as an extraction target (step S2224). That is, the higher hierarchical structure (hierarchical structure corresponding to data2 shown in FIG. 26) is specified as an extraction target. As a result, the lower hierarchical structure (corresponding to data1 shown in FIG. 26) is integrated into the upper hierarchical structure (corresponding to data2 shown in FIG. 26).

一方、各エレメント内のテキスト差分がしきい値を超えるとき(ステップS2223のNo)には、包含されるエレメントを抽出対象として特定する(ステップS2225)。すなわち、階層構造がより下位の方を抽出対象として特定する。   On the other hand, when the text difference in each element exceeds the threshold value (No in step S2223), the included element is specified as an extraction target (step S2225). That is, the lower hierarchical structure is specified as an extraction target.

例えば、図27に示す階層構造「/body/div」(data3に対応)と「/body/form/table/tr/td/div」(data1に対応)が抽出された場合は、テキスト差分がしきい値を超えるので、階層構造がより下位の方(図26のdata1に対応)を抽出対象として特定する。この場合、上位の階層は、主要エレメント自体ではなく、主要エレメントを複数集めた上位エレメントである可能性が高いからである。これにより、上位の階層構造(図27に示すdata3に対応)は、下位の階層構造(図26のdata1に対応)に統合されることになる。   For example, if the hierarchical structure “/ body / div” (corresponding to data3) and “/ body / form / table / tr / td / div” (corresponding to data1) shown in FIG. Since the threshold value is exceeded, the lower hierarchical structure (corresponding to data1 in FIG. 26) is specified as the extraction target. In this case, it is highly likely that the upper hierarchy is not the main element itself but an upper element obtained by collecting a plurality of main elements. As a result, the upper hierarchical structure (corresponding to data3 shown in FIG. 27) is integrated into the lower hierarchical structure (corresponding to data1 in FIG. 26).

以上により、抽出する対象の区分となるタグが特定される。その上で、CPU20は、抽出対象の階層構造がWebページに複数含まれるか否かを判定し、該当する階層構造の内容データを当該WebページのHTML文書から抽出する(ステップS226)。なお、ステップS218において複数のピラミッドが探索された場合には、各ピラミッド内で統合された階層構造が同じであれば、同じものだけを抽出対象とすればよく、階層構造が異なる場合には、それぞれについてデータを抽出すればよい。   As described above, the tag to be extracted is identified. Then, the CPU 20 determines whether or not a plurality of hierarchical structures to be extracted are included in the Web page, and extracts content data of the corresponding hierarchical structure from the HTML document of the Web page (step S226). In addition, when a plurality of pyramids are searched in step S218, if the hierarchical structure integrated in each pyramid is the same, only the same thing needs to be extracted, and when the hierarchical structures are different, What is necessary is just to extract data about each.

HTML文書から対応する階層構造の内容データを抽出した上で、さらに、CPU20は、抽出した内容データの属性をAタグなどで判別し(ステップS228)、抽出したデータと共にその属性を記憶する(ステップS230)。   After extracting the content data of the corresponding hierarchical structure from the HTML document, the CPU 20 further discriminates the attribute of the extracted content data by A tag or the like (step S228), and stores the attribute together with the extracted data (step S228). S230).

図28は、最終的に抽出されたデータ例およびその属性を示す図である。図28に示す例では、図26に示すdata1から抽出された、タグ以外のテキストデータ「山田 太郎」「プロフみたよ!」「友達なろ〜よ」を内容データとして記憶している。なお、タグを含めた図26に示すdata1の全てを、内容データとして記憶してもよい。   FIG. 28 is a diagram showing an example of data finally extracted and its attributes. In the example shown in FIG. 28, text data “Taro Yamada”, “Prof. Mitayo!”, And “Naruto Friends” extracted from data1 shown in FIG. 26 are stored as content data. Note that all of data1 shown in FIG. 26 including the tag may be stored as content data.

また、図28に示す例では、図26に示すdata1に含まれるAタグの部分data4から得られるURL「http://pr.cccboy.com/0123456」が、データの属性として関連付けて記憶されている。これにより、URL「http://pr.cccboy.com/0123456」でソートすれば、山田 太郎のトップページURLのデータだけを取得することができる。   In the example shown in FIG. 28, the URL “http://pr.cccboy.com/0123456” obtained from the A tag portion data4 included in data1 shown in FIG. 26 is stored in association with the data attribute. Yes. Thus, if sorting is performed by the URL “http://pr.cccboy.com/0123456”, only the data of the top page URL of Taro Yamada can be acquired.

なお、上記のようなAタグのURLに限らず、自然言語によるマッチングで得られた属性を、エレメントに関連付けて記憶してもよい。自然言語処理によるマッチングとは、例えば、予め属性を決定するための辞書(女性用語辞書など)を用意しておき、マッチングした度合いによりその属性を付するか否かを決定する手法である(参考文献「Webリンク構造解析と自然言語処理による組織関係の抽出についての研究」、情報処理学会論文誌、2006年6月号)。エレメントの属性としては、例えば、エレメントの作成者名、エレメントの作成者、作成日、エレメント作成者の性別、年齢、所属団体の他、エレメントに記載されている話題(特定の商品、サービスなどに関するもの)などが該当する。   Not only the URL of the A tag as described above but also an attribute obtained by natural language matching may be stored in association with the element. Matching by natural language processing is, for example, a method of preparing a dictionary (such as a female term dictionary) for determining an attribute in advance and determining whether or not to attach the attribute depending on the degree of matching (reference) Document “Research on Extracting Organizational Relationships Using Web Link Structure Analysis and Natural Language Processing”, Transactions of Information Processing Society of Japan, June 2006 issue). Element attributes include, for example, the name of the element creator, the element creator, the creation date, the gender, age, and organization of the element creator, as well as the topics described in the element (specific products, services, etc.) Etc.).

以上のように、Webページから各タグ(エレメント)の表示位置情報と、記事などの内容データが(i)Webページ内で繰り返し登場する、(ii)Webページの大部分を占める(iii)中央部に存在するといった特性とに基づき,記事部分の可能性の高い領域を特定し、抽出した前後の階層構造(XPATH)の類似度を見ることで記事部分の抽出規則を生成し、そのルールに基づき自動的に記事部分を抽出することができる。   As described above, the display position information of each tag (element) and content data such as articles appear repeatedly in the web page from the web page, (ii) occupy most of the web page, (iii) the center Based on the characteristics such as existing in the part, the possibility of the article part is specified, the extraction rule of the article part is generated by looking at the similarity of the hierarchical structure (XPATH) before and after the extraction, and the rule Article parts can be automatically extracted based on this.

2−4.他の実施形態
なお、上記実施形態では、掲示板ページから書き込みデータを抽出する場合を例に説明したが、これに限定されるものではなく、他の要素(ニュース記事など)の抽出に用いてもよい。
2-4. Other Embodiments In the above embodiment, the case where write data is extracted from the bulletin board page has been described as an example. However, the present invention is not limited to this, and may be used for extracting other elements (such as news articles). Good.

なお、上記実施形態では、点を配置する仮想線を中央に1本だけ設定したが(図20)、これに限定されるものではなく、複数の仮想線を設定して点を配置してもよい。例えば、図29に示す点の配置例では、5本の直線とし、表示されたWebページに含まれるエレメントのx座標の最大値と最小値の中間位置に第1の直線を設定し、当該第1の直線から等間隔で両側に2本ずつ所定幅だけオフセットした直線をさらに設定している。この場合、図17に示すステップS210において、同一y座標にプロットされた5つの点を最も多く含むエレメントを抽出すればよい。   In the above embodiment, only one virtual line for placing points is set at the center (FIG. 20), but the present invention is not limited to this, and a plurality of virtual lines may be set to place points. Good. For example, in the dot arrangement example shown in FIG. 29, five straight lines are set, and the first straight line is set at the intermediate position between the maximum value and the minimum value of the x-coordinates of the elements included in the displayed Web page. Further, two straight lines offset from the straight line by a predetermined width on both sides at equal intervals are further set. In this case, in step S210 shown in FIG. 17, it is sufficient to extract an element including the most five points plotted on the same y coordinate.

なお、上記実施形態では、仮想線に沿って等間隔で点を配置したが(図20)、これに限定されるものではなく、異なる間隔で点を配置してもよい。   In the above embodiment, the points are arranged at equal intervals along the virtual line (FIG. 20), but the present invention is not limited to this, and the points may be arranged at different intervals.

なお、上記実施形態では、ステップS216において類似度ピラミッドを事前に生成したが、これに限定されるものではなく、類似度ピラミッドを前もって生成しないで階層構造を探索してもよい。   In the above embodiment, the similarity pyramid is generated in advance in step S216. However, the present invention is not limited to this, and the hierarchical structure may be searched without generating the similarity pyramid in advance.

なお、上記実施形態では、ステップS216において類似度ピラミッドを生成したが、類似度ピラミッドを生成しないで階層構造を探索してもよい。例えば、類似度の同じ階層構造が隣接はしていないが、1つ離れて存在するよう場合には間の階層構造を両側の階層構造に統合するといった方法が考えられる。   In the above embodiment, the similarity pyramid is generated in step S216. However, the hierarchical structure may be searched without generating the similarity pyramid. For example, when hierarchical structures having the same degree of similarity are not adjacent to each other but are separated by one, a method of integrating the hierarchical structure between them into the hierarchical structures on both sides is conceivable.

なお、上記実施形態では、抽出するエレメントがテキストである場合について説明したが、抽出するエレメントが、画像、グラフ、動画であってもよい。   In the above embodiment, the case where the element to be extracted is text has been described. However, the element to be extracted may be an image, a graph, or a moving image.

なお、上記実施形態では、HTML文書の表示を、仮想ブラウザを用いて内部的に実行するとしたが、実際に画面上に表示しながら行ってもよい。   In the above embodiment, the HTML document is displayed internally using a virtual browser. However, the HTML document may be displayed on the screen.

3.データ解析への応用例
(i)個人領域として特定し、または分割されたデータから抽出される言葉からSupport Vector Machine (SVM)を用いたサンプリングを行って分離平面を生成し、対象となるユーザーのページで用いられる言葉について当該分離平面との距離を算出することで、対象ユーザーの有害度を算出することができる。
3. Application example to data analysis (i) Specify a personal area or generate a separation plane by sampling using Support Vector Machine (SVM) from words extracted from the divided data. By calculating the distance between the words used on the page and the separation plane, it is possible to calculate the harmful degree of the target user.

「有害度」とは、対象者が、他のユーザーにとってどの程度の悪影響を与える存在であるかを数値化した指標である。以下の(a)事前準備、(b)有害判定、(c)有害度の算出の各段階に分けて説明する。   “Harmfulness” is an index that quantifies the degree to which a target person has an adverse effect on other users. The explanation is divided into the following stages: (a) Advance preparation, (b) Hazard determination, and (c) Hazard calculation.

(a)事前準備
まず、ネット上に存在するユーザーの中から典型的な有害者と無害者と考えられる者を選び出す。その上で、複数の有害者について、プロフィール・日記内の頻出単語を抽出する。同様に、複数の無害者について、プロフィール・日記内の頻出単語を抽出する。その上で、これら有害者および無害者を、全ての頻出単語の出現数を軸とする多次元空間(図30Aに示す)上にプロットする。その際、有害人と無害人とを区別してプロットする。この多次元空間上において、SVMの手法を用いて、分離平面が決定される。
(A) Advance preparation First, select those who are considered to be typical harmful and harmless from users on the Internet. On that basis, frequent words in the profile / diary are extracted for a plurality of harmful persons. Similarly, frequent words in the profile / diary are extracted for a plurality of harmless persons. Then, the harmful person and the harmless person are plotted on a multi-dimensional space (shown in FIG. 30A) around the number of occurrences of all the frequent words. At that time, the plot is made by distinguishing harmful persons from harmless persons. In this multidimensional space, the separation plane is determined using the SVM technique.

(b)有害・無害判定
つぎに、対象者のプロフ・日記内に含まれる単語の数を計数し、上記多次元空間上にプロットする。プロットされた対象者(△で示す)が、分離平面のどちら側にあるかで、有害または無害のユーザーを判定することができる。実施形態では、有害側にプロットされた対象者の全てを有害と判断するのではなく、分離平面からの距離がしきい値以上離れている場合のみ有害と判断する。分離平面からの距離がしきい値以内の場合は、無害と取り扱う。
(B) Harmful / Harmless Judgment Next, the number of words contained in the subject's prof / diary is counted and plotted on the multidimensional space. A harmful or harmless user can be determined by which side of the separation plane the plotted subject (indicated by Δ) is. In the embodiment, not all of the subjects plotted on the harmful side are determined to be harmful, but are determined to be harmful only when the distance from the separation plane is more than a threshold. If the distance from the separation plane is within the threshold, it is treated as harmless.

(c)有害度の算出
最後に、有害と判断された対象者について、以下の式から有害度を算出する。
(C) Calculation of hazard level Finally, the hazard level is calculated from the following formula for the subject who is determined to be harmful.

有害度=「分離平面からの距離」×「非行辞書単語出現数」
ここで、非行辞書とは、非行に関連すると考えられる単語を予め登録しておいた辞書である。対象者のプロフ・日記内の非行単語の数を計数する。
Harmfulness = “distance from separation plane” × “number of delinquent dictionary words”
Here, the delinquency dictionary is a dictionary in which words that are considered to be related to delinquency are registered in advance. Count the number of delinquent words in the subject's profile / diary.

(ii)また、対象ユーザーの人間関係が更新された場合、または新たなユーザーが発見された場合に、個人領域として特定し、または分割されたデータについて、危険度を更新すればリアルタイムで個人の追跡を行える。「危険度」とは、対象者が、他のユーザーからの危険にどの程度さらされているかを数値化した指標である。 (Ii) In addition, when the relationship of the target user is updated or when a new user is discovered, if the risk is updated for the data identified or divided as a personal area, Can be tracked. The “risk level” is an index that quantifies how much the target person is exposed to danger from other users.

各ユーザーの危険度は、上記有害度などに基づいて算出できる。具体的には、対象者の危険度は、リンク先ユーザーの有害度を親密度で乗算した値を算出し、直接または間接的にリンクされている各ユーザーについてこれを合計して得られる。なお、ユーザー間の親密度は、リンク関係(図30B)または自然言語処理による関係から算出できる。   The risk level of each user can be calculated based on the above-described degree of harm. Specifically, the risk level of the target person is obtained by calculating a value obtained by multiplying the harm degree of the linked user by the familiarity, and totaling each user linked directly or indirectly. The closeness between users can be calculated from a link relationship (FIG. 30B) or a relationship by natural language processing.

図30Bにおける対象者Aの有害度は、例えば、(Bの有害度×ABの新密度)+(Dの有害度×ADの新密度)で得た値を合計すれば得られる。なお、親密度が低い対象者Cとの関係は考慮していない。   The harmfulness level of the subject A in FIG. 30B can be obtained, for example, by summing up the values obtained by (B harmfulness × AB new density) + (D harmfulness × AD new density). In addition, the relationship with the subject C with low intimacy is not considered.

(iii)その他にも、検索システムにおける日付やユーザー単位での検索、フィルタリング(有害と判断された記事のみのフィルタリング処理)、口コミ記事の効率的な収集といった分野にも本発明を利用することができる。 (Iii) In addition, the present invention can also be used in fields such as search by date and user in a search system, filtering (filtering processing only for articles judged to be harmful), and efficient collection of word-of-mouth articles. it can.

Claims (17)

Webページのアドレスをグループ化するためのグループ化プログラムであって、
コンピュータを、
特定のアドレスからWebページを取得するWebページ取得手段、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段、
前記第1のアドレスキーを生成したリンクから取得されるWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上であると判断されたリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段、
として機能させることを特徴とするグループ化プログラム。
A grouping program for grouping web page addresses,
Computer
Web page acquisition means for acquiring a Web page from a specific address;
First address key generating means for extracting a link from the web page and dividing the address of each extracted link with a delimiter to generate a first address key;
Second address key generation means for extracting a link from a Web page acquired from the link that generated the first address key, and generating a second address key by dividing the address of each extracted link by a delimiter ,
Matching the matching keys between the first address key and the second address key, counting the number of combinations in which the matching keys appear in the same order, and calculating the similarity based on the result Similarity calculation means,
Grouping means for associating the addresses of the links determined to have a similarity equal to or higher than a threshold as a specific address group;
A grouping program characterized by functioning as
請求項1のグループ化プログラムにおいて、
前記類似度算出手段は、
前記第1のアドレスキーと前記第2のアドレスキーとの間で、第1のアドレスキーを構成するキーの1つと一致するキーが第2のアドレスキーを構成するキーの中に存在するか否かを前方から照合し、
第2のアドレスキーを構成するキーの中に対応するキーが存在する場合には、第1および第2のアドレスキーにおいて一致するとして検出されたキーの次のキーから、後方に向けて一致するキーの組み合わせ数を計数し、
第1のアドレスキーを構成するキーの総数に対する前記第2のアドレスキーとの間で対応付けられたキーの組み合わせ数の割合を類似度として算出する、
ことを特徴とするグループ化プログラム。
The grouping program of claim 1,
The similarity calculation means includes:
Whether a key that matches one of the keys constituting the first address key exists in the keys constituting the second address key between the first address key and the second address key Or from the front,
If there is a corresponding key among the keys constituting the second address key, the keys match backward from the key next to the key detected as matching in the first and second address keys. Count the number of key combinations,
Calculating the ratio of the number of key combinations associated with the second address key to the total number of keys constituting the first address key as the similarity,
A grouping program characterized by that.
請求項1または請求項2のグループ化プログラムにおいて、さらに、
前記特定のアドレスから所定のリンク階層数まで、類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化探索手段であって、
前記グループ化手段により特定のアドレス群として関連付けられた前記アドレスから取得したWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第3のアドレスキーを生成し、前記第1のアドレスキーと前記第3のアドレスキーとの間で、一致するアドレスキーの数を計数し、その結果に基づいて類似度を算出するグループ化探索手段、
を備えたこと、を特徴とするグループ化プログラム。
The grouping program according to claim 1 or 2, further comprising:
Grouping search means for associating, as a specific address group, addresses of links whose similarity is equal to or greater than a threshold value from the specific address to a predetermined number of link layers,
A link is extracted from the Web page acquired from the address associated as a specific address group by the grouping means, and a third address key is generated by dividing the address of each extracted link by a delimiter character, Grouping search means for counting the number of matching address keys between one address key and the third address key, and calculating the similarity based on the result,
A grouping program characterized by comprising:
請求項1〜3のいずれかのグループ化プログラムにおいて、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、前記特定のアドレスにおいてユーザーを特定する識別子だけを置き換えたアドレスであると判断されたアドレスを削除する、
ことを特徴とするグループ化プログラム。
In the grouping program in any one of Claims 1-3,
The first address key generating means or the second address key generating means replaces only an identifier that identifies a user at the specific address before generating at least the first address key or the second address key. Delete addresses that are determined to be
A grouping program characterized by that.
請求項1〜4のいずれかのグループ化プログラムにおいて、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、削除対象として登録されたアドレスに一致すると判定されたアドレスを削除する、
ことを特徴とするグループ化プログラム。
In the grouping program in any one of Claims 1-4,
It is determined that the first address key generation means or the second address key generation means matches the address registered as a deletion target before at least generating the first address key or the second address key. Delete address,
A grouping program characterized by that.
請求項1〜5のいずれかのグループ化プログラムにおいて、さらに、
前記特定のアドレスを、サーバにアクセスすることにより所定時間毎に自動的に蓄積するアドレス蓄積手段、
を備えた、ことを特徴とするグループ化プログラム。
In the grouping program in any one of Claims 1-5, Furthermore,
Address storage means for automatically storing the specific address every predetermined time by accessing a server;
A grouping program characterized by comprising:
Webページのアドレスをグループ化するためのグループ化装置であって、
特定のアドレスからWebページを取得するWebページ取得手段と、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段と、
前記第1のアドレスキーを生成したリンクに対応するWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段と、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段と、
を備えたこと、を特徴とするグループ化装置。
A grouping device for grouping web page addresses,
Web page acquisition means for acquiring a Web page from a specific address;
First address key generating means for extracting a link from the web page and dividing the address of each extracted link by a delimiter to generate a first address key;
Second address key generating means for extracting a link from a Web page corresponding to the link that generated the first address key, and generating a second address key by dividing the address of each extracted link by a delimiter character; ,
Matching the matching keys between the first address key and the second address key, counting the number of combinations in which the matching keys appear in the same order, and calculating the similarity based on the result Similarity calculation means,
Grouping means for associating addresses of links whose similarity is equal to or greater than a threshold as a specific address group;
A grouping device characterized by comprising:
コンピュータにより、Webページのアドレスをグループ化するためのグループ化方法であって、前記コンピュータが、
特定のアドレスからWebページを取得し、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成し、
前記第1のアドレスキーを生成したリンクに対応するWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成し、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出し、
前記類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けること、
を特徴とするグループ化方法。
A grouping method for grouping addresses of Web pages by a computer, wherein the computer
Get a web page from a specific address,
Extracting a link from the web page, dividing the address of each extracted link with a delimiter to generate a first address key;
Extracting a link from the web page corresponding to the link that generated the first address key, dividing the address of each extracted link with a delimiter to generate a second address key;
Matching the matching keys between the first address key and the second address key, counting the number of combinations in which the matching keys appear in the same order, and calculating the similarity based on the result And
Associating addresses of links whose similarity is equal to or greater than a threshold as a specific address group;
A grouping method characterized by
Webページから所定のエレメントを抽出するためのエレメント抽出プログラムであって、
コンピュータを、
Webページを表示領域に展開するWebページ展開手段、
各エレメントの表示範囲を特定する座標を取得する座標取得手段、
前記表示領域上に、エレメントの配置方向に複数の点を配置し、当該配置した点を表示範囲に含むエレメントを選択するエレメント選択手段、
選択した前記エレメントの階層構造を順に配列するエレメント配列手段、
前記エレメントの各階層構造をタグ単位で分割して階層キーを生成する階層キー生成手段、
隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とするエレメント抽出プログラム。
An element extraction program for extracting a predetermined element from a web page,
Computer
Web page expansion means for expanding the Web page in the display area;
Coordinate acquisition means for acquiring coordinates for specifying the display range of each element;
An element selection means for arranging a plurality of points in the arrangement direction of the elements on the display area and selecting an element including the arranged points in the display range;
Element arrangement means for arranging the hierarchical structure of the selected elements in order;
Hierarchy key generation means for generating a hierarchy key by dividing each hierarchical structure of the element in units of tags,
Similarity calculation means for counting the number of matching hierarchical keys between adjacent elements and calculating the similarity based on the result.
Content data acquisition means for specifying a hierarchical structure of two or more adjacent elements based on the similarity and acquiring content data corresponding to the hierarchical structure from a Web page;
Element extraction program characterized by functioning as
請求項9のエレメント抽出プログラムにおいて、
コンピュータを、さらに、
隣接するエレメントの前記階層構造の類似度の平均を上位方向に算出して類似度ピラミッドを生成し、前記類似度がしきい値以上であるか否かを検出し、検出された類似度の底辺に含まれるエレメントの階層構造のうち、所定のルールに合致する階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とするエレメント抽出プログラム。
In the element extraction program of Claim 9,
Computer, and
An average of the similarities of the hierarchical structures of adjacent elements is calculated in the upper direction to generate a similarity pyramid, whether or not the similarity is equal to or greater than a threshold value, and the base of the detected similarity Content data acquisition means for specifying a hierarchical structure that matches a predetermined rule among the hierarchical structures of elements included in the URL, and acquiring content data corresponding to the hierarchical structure from a Web page;
Element extraction program characterized by functioning as
請求項9または請求項10のエレメント抽出プログラムにおいて、
前記内容データ取得手段は、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントが包含関係にあるかを判断し、
隣接するエレメントが包含関係にない場合には、各階層構造について対応する内容データを取得する、
ことを特徴とするエレメント抽出プログラム。
In the element extraction program of Claim 9 or Claim 10,
The content data acquisition means includes
Of the elements included in the bottom of the similarity pyramid, determine whether adjacent elements are inclusive,
If adjacent elements are not in an inclusive relationship, get the corresponding content data for each hierarchical structure,
An element extraction program characterized by that.
請求項9〜11のいずれかのエレメント抽出プログラムにおいて、
前記エレメント抽出手段は、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントの階層構造が包含関係にあるかを判断し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値以下の場合に、包含される下位の階層構造を削除して、包含する上位の階層構造に対応する内容データを取得し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値を超える場合に、包含する上位の階層構造を削除して、包含される下位の階層構造に対応する内容データを取得する、
ことを特徴とするエレメント抽出プログラム。
In the element extraction program in any one of Claims 9-11,
The element extraction means includes
Of the elements included in the bottom of the similarity pyramid, determine whether the hierarchical structure of adjacent elements is inclusive,
When adjacent elements are in an inclusive relationship, if the text difference is less than or equal to the threshold value, the included lower hierarchical structure is deleted, and content data corresponding to the upper hierarchical structure included is acquired,
When adjacent elements are in an inclusion relationship, if the text difference exceeds a threshold value, the upper hierarchical structure to be included is deleted, and content data corresponding to the lower hierarchical structure to be included is acquired.
An element extraction program characterized by that.
請求項9〜12のいずれかのエレメント抽出プログラムにおいて、
前記エレメント選択手段が、前記表示領域上において、所定方向に等間隔で複数の点を配置し、配置した点を表示範囲に含むエレメントを選択する、
ことを特徴とするエレメント抽出プログラム。
In the element extraction program in any one of Claims 9-12,
The element selection means arranges a plurality of points at equal intervals in a predetermined direction on the display area, and selects an element including the arranged points in a display range.
An element extraction program characterized by that.
請求項9〜13のいずれかのエレメント抽出プログラムにおいて、
前記エレメント選択手段が、前記表示領域上において、前記所定方向に垂直の直線上に複数の点を配置し、同一直線上に配置した点を最も多く表示範囲に含むエレメントを選択する、
ことを特徴とするエレメント抽出プログラム。
In the element extraction program in any one of Claims 9-13,
The element selecting means arranges a plurality of points on a straight line perpendicular to the predetermined direction on the display area, and selects an element that includes the most points arranged on the same straight line in the display range.
An element extraction program characterized by that.
請求項9〜14のいずれかのエレメント抽出プログラムにおいて、
前記エレメント抽出手段が、エレメントに含まれるAタグのURLまたは自然言語でマッチングして得た属性を、エレメントに関連付けて記憶した、
ことを特徴とするエレメント抽出プログラム。
In the element extraction program in any one of Claims 9-14,
The element extraction means stores the attribute obtained by matching the URL of the A tag included in the element or the natural language in association with the element,
An element extraction program characterized by that.
Webページから所定のエレメントを抽出するためのエレメント抽出装置であって、
Webページを表示領域に展開するWebページ展開手段、
各エレメントの表示範囲を特定する座標を取得する座標取得手段、
前記表示領域上に、エレメントの配置方向に複数の点を配置し、当該配置した点を表示範囲に含むエレメントを選択するエレメント選択手段、
選択した前記エレメントの階層構造を順に配列するエレメント配列手段、
前記エレメントの各階層構造をタグ単位で分割して階層キーを生成する階層キー生成手段、
隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
を備えたこと、を特徴とするエレメント抽出装置。
An element extraction device for extracting a predetermined element from a web page,
Web page expansion means for expanding the Web page in the display area;
Coordinate acquisition means for acquiring coordinates for specifying the display range of each element;
An element selection means for arranging a plurality of points in the arrangement direction of the elements on the display area and selecting an element including the arranged points in the display range;
Element arrangement means for arranging the hierarchical structure of the selected elements in order;
Hierarchy key generation means for generating a hierarchy key by dividing each hierarchical structure of the element in units of tags,
Similarity calculation means for counting the number of matching hierarchical keys between adjacent elements and calculating the similarity based on the result.
Content data acquisition means for specifying a hierarchical structure of two or more adjacent elements based on the similarity and acquiring content data corresponding to the hierarchical structure from a Web page;
An element extraction device characterized by comprising:
コンピュータにより、Webページから所定のエレメントを抽出するためのエレメント抽出方法であって、前記コンピュータが、
Webページを表示領域に展開し、
各エレメントの表示範囲を特定する座標を取得し、
前記表示領域上に、エレメントの配置方向に複数の点を配置し、当該配置した点を表示範囲に含むエレメントを選択し、
選択した前記エレメントの階層構造を順に配列し、
前記エレメントの各階層構造をタグ単位で分割して階層キーを生成し、
隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出し、
前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得すること、
を特徴とするエレメント抽出方法。
An element extraction method for extracting a predetermined element from a Web page by a computer, wherein the computer
Expand the web page in the display area,
Get the coordinates that specify the display range of each element,
A plurality of points are arranged in the element arrangement direction on the display area, and an element including the arranged points in the display range is selected.
Arrange the hierarchical structure of the selected elements in order,
A hierarchical key is generated by dividing each hierarchical structure of the element in units of tags,
Count the number of matching hierarchical keys between adjacent elements, calculate the similarity based on the result,
Identifying a hierarchical structure of two or more adjacent elements based on the similarity, and acquiring content data corresponding to the hierarchical structure from a Web page;
Element extraction method characterized by
JP2014254357A 2014-12-16 2014-12-16 Grouping device and element extraction device Active JP5830159B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014254357A JP5830159B2 (en) 2014-12-16 2014-12-16 Grouping device and element extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014254357A JP5830159B2 (en) 2014-12-16 2014-12-16 Grouping device and element extraction device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011031228A Division JP5669611B2 (en) 2011-02-16 2011-02-16 Grouping device and element extraction device

Publications (2)

Publication Number Publication Date
JP2015053087A true JP2015053087A (en) 2015-03-19
JP5830159B2 JP5830159B2 (en) 2015-12-09

Family

ID=52702002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014254357A Active JP5830159B2 (en) 2014-12-16 2014-12-16 Grouping device and element extraction device

Country Status (1)

Country Link
JP (1) JP5830159B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022004786A1 (en) 2020-07-03 2022-01-06 コスモ石油株式会社 Hydrogenation treatment catalyst for hydrocarbon oil, method for producing hydrogenation treatment catalyst for hydrocarbon oil, and hydrogenation treatment method for hydrocarbon oil

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022004786A1 (en) 2020-07-03 2022-01-06 コスモ石油株式会社 Hydrogenation treatment catalyst for hydrocarbon oil, method for producing hydrogenation treatment catalyst for hydrocarbon oil, and hydrogenation treatment method for hydrocarbon oil

Also Published As

Publication number Publication date
JP5830159B2 (en) 2015-12-09

Similar Documents

Publication Publication Date Title
Au Yeung et al. Studying how the past is remembered: towards computational history through large scale text mining
CN103226578B (en) Towards the website identification of medical domain and the method for webpage disaggregated classification
CN103544176B (en) Method and apparatus for generating the page structure template corresponding to multiple pages
US9430569B2 (en) System and method for aggregating and ranking data from a plurality of web sites
CN107437038B (en) Webpage tampering detection method and device
EP2657853A1 (en) Webpage information detection method and system
CN103246664B (en) Web search method and apparatus
CN102119383A (en) Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
CN105975547B (en) Based on content web document detection method approximate with position feature
CN105550359B (en) Webpage sorting method and device based on vertical search and server
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
US20150142780A1 (en) Apparatus and method for analyzing event time-space correlation in social web media
Ghankutkar et al. Modelling machine learning for analysing crime news
CN107608980A (en) Information-pushing method and system based on the analysis of DPI big datas
CN114692593B (en) Network information safety monitoring and early warning method
JP2007286861A (en) Method for extracting document structure and document search method
JP5669611B2 (en) Grouping device and element extraction device
CN105404697A (en) Social interaction behavior collection and detection method
CN107908749B (en) Character retrieval system and method based on search engine
JP2009211280A (en) Method, apparatus, and program for analyzing online page, and computer readable recording medium
JP5830159B2 (en) Grouping device and element extraction device
Cao et al. Extraction of informative blocks from web pages
KR20120090131A (en) Method, system and computer readable recording medium for providing search results
CN110309387A (en) A kind of big data syndication reading recommended method
JP2011123652A (en) Data analysis system and method thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151023

R150 Certificate of patent or registration of utility model

Ref document number: 5830159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350