JP2012064132A - Blog body specification device and blog body specification method - Google Patents
Blog body specification device and blog body specification method Download PDFInfo
- Publication number
- JP2012064132A JP2012064132A JP2010209674A JP2010209674A JP2012064132A JP 2012064132 A JP2012064132 A JP 2012064132A JP 2010209674 A JP2010209674 A JP 2010209674A JP 2010209674 A JP2010209674 A JP 2010209674A JP 2012064132 A JP2012064132 A JP 2012064132A
- Authority
- JP
- Japan
- Prior art keywords
- path
- blog
- text
- external
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、同一ユーザの複数のブログに共通する本文位置を特定するブログ本文特定装置及びブログ本文特定方法に関する。 The present invention relates to a blog text specifying device and a blog text specifying method for specifying a text position common to a plurality of blogs of the same user.
インターネットの普及に伴いユーザは、ネットワーク上に存在する大量のデータを閲覧可能になり、このような大量のデータからユーザのニーズに応じたデータを抽出すべく、検索システムの開発が日々行われている。検索システムとして、ロボット型の検索システムが知られており、ロボット型の検索システムでは、インターネット上に公開された大量のデータ(Webページ)から重要なキーワードを自動的に抽出し、これをインデックス化することにより、所望のデータをユーザに提供している。 With the spread of the Internet, users can browse a large amount of data on the network, and search systems are being developed every day to extract data according to user needs from such a large amount of data. Yes. As a search system, a robot-type search system is known. In a robot-type search system, important keywords are automatically extracted from a large amount of data (Web pages) published on the Internet and indexed. Thus, desired data is provided to the user.
ところで、ブログなどの文書データ中には、本文以外にもカレンダー情報やヘッダやフッタに記述された情報や過去のログを示す情報や広告情報などのキーワードを抽出する対象として相応しくない情報が数多く混入しており、このような情報からキーワードを抽出しインデックスを生成したのでは、検索精度の低下を招来するおそれがあった。 By the way, in document data such as blogs, in addition to the main text, a lot of information that is not suitable for extracting keywords such as calendar information, information described in headers and footers, past log information, and advertising information is mixed. Therefore, if keywords are extracted from such information and an index is generated, there is a risk that search accuracy may be reduced.
ブログ(文章データ)の中から本文を抽出する技術としては、特許文献1に開示されたノイズ除去システムが知られている。このノイズ除去処理システムでは、各文章データに含まれる文字列の出現頻度が一定の度合いを超えることから、当該文字列をヘッダやフッタなどの定型文字列と判定し、各文章データから除去するなどして、文章に含まれる本文以外のノイズを除去する。
As a technique for extracting a text from a blog (text data), a noise removal system disclosed in
また、ブログサイトは、デフォルトでRSS(RDF Site Summary、Rich Site Summary、Really Simple Syndication)に対応しているため、検索システムでは、RSSのdescription要素から本文の要約(本文冒頭の規定数文の文字列)を自動的に収集することが可能になっている。検索システムでは、ブログの中からdescription要素に含まれる本文の要約と一致する文字列を抽出することで、ブログに含まれる本文の少なくとも一部を特定することもできる。 In addition, the blog site supports RSS (RDF Site Summary, Rich Site Summary, Really Simple Syndication) by default, so in the search system, the text summary from the RSS description element (characters in the specified number of sentences at the beginning of the text). Column) can be collected automatically. In the search system, by extracting a character string that matches the summary of the text included in the description element from the blog, at least a part of the text included in the blog can be specified.
しかしながら、ネットワーク上には膨大な量のブログが存在しており、上記方法でブログの中から本文を抽出していたのでは、検索システムに係る負荷が膨大なものとなってしまう。すなわち、特許文献1のノイズ除去システムでは、全てのブログ(文書)に対して個別にノイズ除去を行わなければならず、例えば、新たなブログが作成された場合には、このブログに対しても個別にノイズ除去を行わなければならない。RSSを用いた本文特定も、同様であり、全てのブログに対して個別に文字列の検索を行わなければならない。更に、特定した本文の一部に基づいて本文の範囲を特定する技術は提案されていない。
However, there are an enormous amount of blogs on the network, and if the text is extracted from the blogs by the above method, the load on the search system becomes enormous. That is, in the noise removal system of
本発明は、このような問題に鑑みてなされたものであり、制御負荷を抑えつつブログ本文の特定を可能なブログ本文特定装置及びブログ本文特定方法を提供することを目的とする。 The present invention has been made in view of such problems, and an object of the present invention is to provide a blog text specifying device and a blog text specifying method that can specify a blog text while suppressing a control load.
(1) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成する外部パス情報生成手段と、前記外部パス情報生成手段が生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得する外部共通パス取得手段と、前記外部パス情報生成手段が生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含外部パス取得手段と、前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定する列起点特定手段と、を備えるブログ本文特定装置。 (1) A blog page DB that stores a blog page that includes a blog text created by a user and summary information of the blog text in association with information that identifies the user, and a plurality of blog pages that are associated with the same user. Analyzing and generating, for each of the plurality of blog pages, external path information generation means for generating external path information indicating paths in the source code of tags included in the source code, and the external path information generation means Out of the external path information, an external common path acquisition unit that acquires an external common path common to each of the plurality of blog pages of the same user, and a blog among the external path information generated by the external path information generation unit A text inclusion external path for acquiring a text inclusion external path including a text for each of the plurality of blog pages of the same user. And a column origin specifying means for specifying the deepest path as the origin path including the blog text among the paths that are the external common path and the text inclusion external path in all of the plurality of Web pages; A blog text identification device comprising:
(1)のブログ本文特定装置によれば、外部共通パス取得手段は、同一ユーザが作成した複数のブログページのソースコードに含まれるタグの位置を示すパスのうち複数のブログページ夫々に共通する外部共通パスを取得し、本文包含外部パス取得手段は、タグのパス情報のうち、ブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。そして、列起点特定手段は、外部共通パスであって、かつ、本文包含外部パスであるパスのうち、本文包含外部パスに最も近いパスを当該ユーザのブログページのブログ本文に共通するブログ本文を含む起点パスとして特定する。
これにより、同一ユーザの複数のブログページについて、複数のブログページで共通するパスであって、かつ、ブログ本文を含むタグの位置を示す起点パスを特定することができる。また、一度起点パスを特定してしまえば、当該ユーザのブログページのタグ構造が大きく変化しない限り起点パスから容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
According to the blog text specifying device of (1), the external common path acquisition means is common to each of a plurality of blog pages among the paths indicating the positions of the tags included in the source code of the plurality of blog pages created by the same user. An external common path is acquired, and a text inclusion external path acquisition unit acquires a text inclusion external path including a blog text among tag path information for each of a plurality of blog pages of the same user. Then, the column origin specifying means determines the blog body text common to the blog body of the user's blog page from among the paths that are external common paths and that are the body-inclusive external paths, Specify as the origin path to include.
Thereby, it is possible to specify a starting path indicating a position of a tag including a blog text, which is a path common to a plurality of blog pages for a plurality of blog pages of the same user. In addition, once the starting path is specified, the position of the blog text can be easily determined from the starting path unless the tag structure of the user's blog page changes significantly. can do.
(2) 同一ユーザの複数のブログページの夫々について、前記列起点特定手段が特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報を生成する内部パス情報生成手段と、前記内部パス情報生成手段が生成した前記内部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する内部共通パスを取得する内部共通パス取得手段と、前記内部パス情報生成手段が生成した前記内部パス情報のうち前記ブログ本文を含む本文包含内部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含内部パス取得手段と、前記内部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含内部パスであるパスのうち、最も深いパスを前記ブログ本文を含む本文パスとして特定する本文位置特定手段と、を備える(1)に記載のブログ本文特定装置。 (2) Internal path information generating means for generating internal path information indicating a path of a tag lower than a tag specified by the starting path specified by the column starting point specifying means for each of a plurality of blog pages of the same user; The internal path information generating means generates an internal common path acquisition means for acquiring an internal common path common to each of the plurality of blog pages of the same user, and the internal path information generation means includes: A text inclusion internal path acquisition means for acquiring a text inclusion internal path including the blog text in the generated internal path information for each of a plurality of blog pages of the same user, the internal common path, and Of the paths that are the text inclusion internal paths in all of a plurality of Web pages, the deepest path is the text path including the blog text. And body position specifying means for specifying, blog body identifying device according to comprise (1) a.
(2)のブログ本文特定装置によれば、列起点特定手段が特定した起点パスにより特定されるタグよりも下位のタグについて、更に、内部共通パス及び本文包含内部パスを取得し、ブログ本文を含む本文パスを特定する。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。 According to the blog text specifying device of (2), an internal common path and a text inclusion internal path are further acquired for tags lower than the tag specified by the starting path specified by the column starting point specifying means, Specify the text path to include. As a result, the position of the text can be specified in more detail, and since the position of the blog text can be easily specified once specified, the position of the blog text can be specified while suppressing the control load.
(3) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、同一ユーザに対応付けられた複数の前記ブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示すパス情報を生成するパス情報生成手段と、前記パス情報生成手段が生成した前記パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する共通パスを取得する共通パス取得手段と、前記パス情報生成手段が生成した前記パス情報のうちブログ本文を含む本文包含パスを、同一ユーザの複数のブログページの夫々について取得する本文包含パス取得手段と、前記共通パスであって、かつ、複数のWebページの全てにおける前記本文包含パスであるパスのうち、最も深いパスを起点パスとして特定する列起点特定手段と、前記列起点特定手段が前記起点パスを特定できたか否かを判定する特定可否判定手段と、を備え、前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できたと判定することを条件に、前記パス情報生成手段は、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、前記共通パス取得手段及び前記本文包含パス取得手段は、前記下位のタグのパス情報から前記共通パス及び前記本文包含パスを取得し、前記列起点特定手段は、前記共通パス及び前記本文包含パスに基づいて、新たな起点パスを特定し、前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できないと判定することを条件に、起点パス情報を前記ブログ本文を含む本文包含パスとして特定する本文位置特定手段と、を更に備えるブログ本文特定装置。 (3) a blog page DB that stores a blog page including a blog text created by a user and summary information of the blog text in association with information for identifying the user, and a plurality of the blog pages associated with the same user For each of the plurality of blog pages, path information generating means for generating path information indicating a path in the source code of the tag included in the source code, and the path information generating means Among the path information, a common path acquisition unit that acquires a common path that is common to each of the plurality of blog pages of the same user, and a text inclusion path that includes a blog text among the path information generated by the path information generation unit. A body inclusion path acquisition unit that acquires each of a plurality of blog pages of the same user, the common path, Among the paths that are the text inclusion paths in all of the Web pages, a column origin specifying unit that identifies the deepest path as a starting path, and a specification that determines whether or not the column origin specifying unit has identified the origin path Passability determining means, and the path information generating means is based on a tag specified by the starting path, provided that the specifying availability determining means determines that the column starting point specifying means has specified the starting path. Further generate path information indicating the path of the lower tag, the common path acquisition means and the text inclusion path acquisition means acquire the common path and the text inclusion path from the path information of the lower tag, and The column starting point specifying unit specifies a new starting point path based on the common path and the text inclusion path, and the specifying possibility determining unit determines that the column starting point specifying unit sets the starting point path. A blog text specifying device further comprising: text position specifying means for specifying the starting path information as a text inclusion path including the blog text on the condition that it is determined that the URL cannot be specified.
(3)のブログ本文特定装置によれば、列起点特定手段が新たな起点パスを特定できなくなるまで、下位のタグのパス情報から新たな起点パスが特定される。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。 According to the blog text specifying device of (3), the new starting path is specified from the path information of the lower tag until the column starting point specifying unit cannot specify the new starting path. As a result, the position of the text can be specified in more detail, and since the position of the blog text can be easily specified once specified, the position of the blog text can be specified while suppressing the control load.
(4) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBを備えるコンピュータが同一ユーザのブログページの本文位置を特定するブログ本文特定方法であって、同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成するステップと、生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得するステップと、生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得するステップと、前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定するステップと、を含むブログ本文特定方法。 (4) A computer including a blog page DB that stores a blog page including a blog text created by a user and summary information of the blog text in association with information for identifying the user identifies the text position of the blog page of the same user This is a method for specifying a blog body, and analyzes a plurality of blog pages associated with the same user, and indicates a path in the source code of a tag included in the source code for each of the plurality of blog pages. A step of generating external path information; a step of acquiring an external common path common to each of a plurality of blog pages of the same user among the generated external path information; and a blog text of the generated external path information A step of acquiring a body-inclusive external path including the URL for each of the plurality of blog pages of the same user. And a step of identifying the deepest path as a starting path including the blog text among the paths that are the external common path and the text inclusion external path in all of a plurality of Web pages. Blog body identification method.
(4)のブログ本文特定方法によれば、(1)のブログ本文特定装置と同様の効果を奏する。 According to the blog text specifying method of (4), the same effect as that of the blog text specifying device of (1) can be obtained.
本発明によれば、制御負荷を抑えつつブログ本文の特定することができる。 According to the present invention, it is possible to specify a blog text while suppressing a control load.
以下、本発明の実施形態について図面を参照して説明する。
初めに、図12及び図13を参照して、本発明の概要について説明する。図12は、あるユーザのブログページであるWebページ100及びそのソースコード110を示し、図13は、同一ユーザの別の日のブログページであるWebページ200及びそのソースコード210を示す。
Embodiments of the present invention will be described below with reference to the drawings.
First, the outline of the present invention will be described with reference to FIGS. FIG. 12 shows a
図12を参照して、Webページ100は、ブログタイトル欄101と、広告欄102と、カレンダー欄103と、本文欄104と、を含む。また、図13を参照して、Webページ200は、ブログタイトル欄201と、広告欄202と、カレンダー欄203と、本文欄204と、を含む。このように同一ユーザのブログページの構造は、複数のWebページにおいて基本的に共通している。本発明は、同一ユーザの複数のブログページが共通の構造を有することに着目し、ブログページの本文の位置を特定するものであり、特に、本文の位置の特定を、ソースコードに含まれるタグの位置情報(パス)で特定するものである。
Referring to FIG. 12,
[第1実施形態]
続いて、図1〜図10を参照して、第1実施形態のブログ本文特定装置1について説明する。
[First Embodiment]
Then, with reference to FIGS. 1-10, the blog
[ブログ本文特定装置1の構成]
図1を参照して、本発明のブログ本文特定装置1について説明する。ブログ本文特定装置1は、第1起点特定部2と、第2起点特定部3と、記憶部4と、ブログ本文抽出手段5と、を含んで構成される。
[Configuration of Blog Body Identification Device 1]
With reference to FIG. 1, the blog
<第1起点特定部2の構成>
第1起点特定部2は、外部パス情報生成手段21と、外部共通パス取得手段22と、本文包含外部パス取得手段23と、列起点特定手段24と、を含んで構成される。
<Configuration of the first starting
The first starting
外部パス情報生成手段21は、同一ユーザに対応付けられた複数のブログページを解析して、複数のブログページの夫々について、ソースコードに含まれるタグのソースコード内でのパスを示す外部パス情報を生成する。なお、外部パス情報生成手段21は、記憶部4のブログページDB41に記憶されたHTMLデータを読み出して、外部パス情報を生成する。
ここで、外部パス情報生成手段21は、図3(2)、(3)に示すように、ソースコードに含まれるタグの外部パス情報を、ハードパス及びソフトパスで生成する。なお、「ハードパス」とは、タグの種類、タグの属性及びタグの出現回数で規定されたタグのパス(タグ[属性][出現回数])をいい、「ソフトパス」とは、タグの種類及びタグの属性で規定されたタグのパス(タグ[属性])をいう。
The external path information generation means 21 analyzes a plurality of blog pages associated with the same user, and external path information indicating the path in the source code of the tag included in the source code for each of the plurality of blog pages. Is generated. The external path
Here, as shown in FIGS. 3B and 3C, the external path
図3を参照して、図3(1)は、Webページ100のソースコードであり、図3(2)は、ソースコードに含まれるタグのパスをハードパスで規定した外部パス情報であり、図3(2)は、ソースコードに含まれるタグのパスをソフトパスで規定した外部パス情報である。
Referring to FIG. 3, FIG. 3 (1) is the source code of the
外部パス情報生成手段21は、ソースコードに含まれるタグ毎に、ソースコード内でのパス(ハードパス及びソフトパス)を生成する。例えば、ソースコードのライン4のタグ11のパスの生成について、このタグ11は、出現回数が1回目の「tr」タグであり属性が規定されていないことから、外部パス情報生成手段21は、「tr[][0]」という外部パス11A(ハードパス)を生成するとともに、「tr[]」という外部パス11B(ソフトパス)を生成する。
なお、パスの指定は任意に行うことができ、本実施形態では、「html」タグなどのような多くのWebページで使用される位置に変化のないタグは、省略することとしている。
The external path
The path can be specified arbitrarily. In the present embodiment, tags that do not change in position used in many Web pages, such as “html” tags, are omitted.
また、ライン16のタグ12のパスの生成について、このタグ12は、ライン9の「tr」タグの下位のライン13の「td」タグの下位のライン15の「div」タグの下位のタグである。そして、ライン9の「tr」タグは、出現回数が2回目の「tr」タグであり属性が規定されておらず、ライン13の「td」タグは、ライン9の「tr」タグの中で2回目の「td」タグであり属性が規定されておらず、ライン15の「div」タグは、ライン13の「td」タグの中で2回目の「div」タグであり属性が規定されていない。また、ライン16のタグ12自体は、ライン15の「div」タグの中で1回目の「center」タグであり属性が規定されていない。
そのため、外部パス情報生成手段21は、ライン16のタグ12のパスとして、「tr[][1]/td[][1]/div[][1]/center[][0]」という外部パス12A(ハードパス)を生成するとともに、「tr[]/td[]/div[]/center[]」という外部パス12B(ソフトパス)を生成する。
Further, regarding the generation of the path of the
Therefore, the external path
図4にWebページ100(図12)及びWebページ200(図13)のソースコードに含まれるタグの外部パス情報を示す。図4(1)は、Webページ100の外部パス情報(ハードパス)であり、図4(2)は、Webページ100の外部パス情報(ソフトパス)であり、図4(3)は、Webページ200の外部パス情報(ハードパス)であり、図4(3)は、Webページ200の外部パス情報(ソフトパス)である。外部パス情報生成手段21が生成した外部パス情報は、外部共通パス取得手段22及び本文包含外部パス取得手段23に供給される。
FIG. 4 shows external path information of tags included in the source code of the Web page 100 (FIG. 12) and the Web page 200 (FIG. 13). 4 (1) is external path information (hard path) of the
図1に戻り、外部共通パス取得手段22は、外部パス情報生成手段21が生成した外部パス情報のうち、同一ユーザの複数のブログページの夫々に共通するとともに当該パスに対応するタグを一意に特定できる外部共通パスを取得する。
また、本文包含外部パス取得手段23は、外部パス情報生成手段21が生成した外部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。
Returning to FIG. 1, the external common
The text inclusion external
図5〜図7を参照して、外部共通パス及び本文包含外部パスの取得について説明する。
本発明は、ブログ本文の位置をタグのパスで特定することを特徴としているため、起点パスの特定に際しては、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定できる外部パスを特定する必要がある。
The acquisition of the external common path and the text inclusion external path will be described with reference to FIGS.
Since the present invention is characterized in that the position of the blog text is specified by the tag path, when specifying the starting path, it is an external path common to each of a plurality of blog pages of the same user, and the corresponding tag It is necessary to identify an external path that can uniquely identify
そこで、外部共通パス取得手段22は、外部パス情報に含まれる外部パス(ハードパス及びソフトパス)の夫々の出現回数を複数のブログページの夫々で計数する。このとき、図5のカウント欄に示すように、Webページ100とWebページ200とでは桁数が重複しないように外部パスの出現回数を計数することが好ましい。本実施形態では、Webページ200の外部パスの出現回数を100倍して計数している。すなわち、カウント欄の100とは、出現回数が1回であることを意味する。そして、外部共通パス取得手段22は、Webページ100の外部パスの出現回数とWebページ200の外部パスの出現回数とを加算する。外部共通パス取得手段22は、この加算結果から、外部共通パス、すなわち、同一ユーザの複数のブログページの夫々に共通し、かつ対応するタグを一意に特定できる外部パスを取得する。
Therefore, the external common
図5のカウント欄にWebページ100の外部パス(ハードパス)の出現回数とWebページ200の外部パス(ハードパス)の出現回数とを示し、図6のカウント欄に外部パス(ハードパス)の出現回数の加算結果を示す。また、図7(1)のカウント欄にWebページ100の外部パス(ソフトパス)の出現回数とWebページ200の外部パス(ソフトパス)の出現回数とを示し、図7(2)のカウント欄に外部パス(ソフトパス)の出現回数の加算結果を示す。
The count field of FIG. 5 shows the number of appearances of the external path (hard path) of the
なお、加算結果「001」とは、Webページ100で1回出現するが、Webページ200では出現しない外部パスを示し、加算結果「100」とは、Webページ100で出現しないが、Webページ200では1回出現する外部パスを示す。また、加算結果「101」とは、Webページ100及びWebページ200で1回出現する外部パスを示し、加算結果「303」とは、Webページ100及びWebページ200で3回出現する外部パスを示す。
The addition result “001” indicates an external path that appears once on the
ここで、加算結果「303」は、Webページ100及びWebページ200で共通する外部パスであるが、この外部パスは3回出現するため、この外部パスに対応するタグは一意に特定することができない。そこで、本実施形態では、加算結果「101」の外部パスを、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定できる外部パス(外部共通パス)として決定する。なお、図6及び図7(2)では、外部共通パスを点線で示している。
Here, the addition result “303” is an external path common to the
また、本発明は、ブログ本文の位置をタグの位置情報(パス)で特定することを特徴としているため、起点パスで特定されるタグには、本文が含まれている必要がある。 Further, the present invention is characterized in that the position of the blog text is specified by the tag position information (path), and therefore, the tag specified by the starting path needs to include the text.
そこで、本文包含外部パス取得手段23は、外部パス情報に含まれる外部パス(ハードパス及びソフトパス)の夫々により特定されるタグがブログ本文を含むものであるか否かを判定する。なお、ブログ本文を含むタグであるか否かは、記憶部4のブログページDB41(図2)に記憶されたRSSデータ及びHTMLデータに基づいて行われる。すなわち、本文包含外部パス取得手段23は、RSSデータ(description要素に含まれる本文の要約)を含むタグをHTMLデータから特定し、当該タグを包含する外部パスをブログ本文を含むタグに対応する外部パスであると判定する。
Therefore, the text inclusion external
図3(1)を参照して、Webページ100では、ライン16の「center」タグの中にブログ本文が含まれる。そのため、ライン16の「center」タグを包含する外部パスが、ブログ本文を含むタグに対応する外部パスと判定される。具体的には、外部パス(ハードパス)「tr[][1]/td[][1]/div[][1]」は、ライン16の「center」タグを包含する外部パスであり、ブログ本文を含むタグに対応する外部パスである。一方、外部パス(ハードパス)「tr[][1]/td[][0]」は、ライン16の「center」タグを包含しないため、ブログ本文を含まないタグに対応する外部パスである。本実施形態では、ブログ本文を含む外部パスを本文包含外部パスとしている。なお、図6及び図7(2)では、本文包含外部パスを2点鎖線で示している。また、図7では、本文包含欄に「△」と表記されている外部パスが存在するが、これは、複数回出現する外部パスについて、一部が本文を包含し、他の一部が本文を包含しないことを意味している。
With reference to FIG. 3A, in the
図1に戻り、列起点特定手段24は、外部共通パス取得手段22及び本文包含外部パス取得手段23により外部共通パス及び本文包含外部パスが取得されると、外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パスのうち、最も深い(すなわち、最も下位の)外部パスを起点パスとして特定する。
例えば、図6を参照すると、ハードパスについては、外部共通パス(点線)であって、かつ、Webページ100及びWebページ200の本文包含外部パス(2点鎖線のうち、Webページ100及びWebページ200で○とされているもの)である外部パスは、外部パス(ハードパス)「tr[][1]」及び「tr[][1]/td[][1]」となる。これらの外部パス(ハードパス)では、「tr[][1]/td[][1]」の方が「td[][1]」分だけ深い。他方、ソフトパスについては、図7に示すように外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パスは、存在しない。
Returning to FIG. 1, when the external common path and the text inclusion external path are acquired by the external common path acquisition means 22 and the text inclusion external path acquisition means 23, the column
For example, referring to FIG. 6, the hard path is an external common path (dotted line), and the text inclusion external path of the
よって、列起点特定手段24は、外部パス(ハードパス)「tr[][1]/td[][1]」を起点パスとして特定する。なお、ソフトパスにおいても外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パス(以下、「起点パス候補の外部パス」)が存在する場合には、ハードパスの起点パス候補の外部パス及びソフトパスの起点パス候補の外部パスのうち、最も深い外部パスを起点パスとして特定する。また、ハードパスの起点パス候補の外部パス及びソフトパスの起点パス候補の外部パスでパスの深さが同じである場合には、本実施形態ではソフトパスの起点パス候補の外部パスを起点パスとして特定する。これは、ソフトパスの方がハードパスよりも表記が簡潔であり、多数のブログページの本文位置を管理するのに好適だからである。勿論、ハードパスの起点パス候補の外部パスを起点パスとして特定することとしてもよい。
列起点特定手段24が、起点パスを特定すると、この起点パスは、記憶部4の本文位置DB42(図2(2))に記憶される。なお、図2における「H’」は、ハードパスであることを示し、「S’」は、ソフトパスであることを示している。
Therefore, the column starting
When the column starting
このように、第1起点特定部2では、Webページ100及びWebページ200の本文位置を特定するための起点パスを「H’tr[][1]/td[][1]」と特定する。ここで、図12に示すWebページ100のソースコード110を参照して、起点パスが特定するタグは、2回目の「tr」タグ(ライン9)の下位の「td」タグのうち2回目の「td」タグ、すなわち、ライン13の「td」タグである。よって、起点パスにより、Webページ100の本文は、ライン13の「td」タグからライン19の「/td」タグまでの間に存在することが特定できる。
As described above, the first starting
ところで、ライン13の「td」タグからライン19の「/td」まででは、本文(ライン16)に加え、画像(ライン14)やFooter(ライン18)が含まれる。ここで、画像やFooter(例えば、図12のトピックス、コメント(1)、トラックバックなど)は、ブログのキーワードを抽出する対象として相応しくない情報であり、このような情報を含めてキーワードを抽出しインデックスを生成したのでは、検索精度の低下を招来するおそれがある。
そこで、本実施形態では、第1起点特定部2が特定した起点パスにより特定されるタグよりも下位のタグについて、複数のブログページの夫々に共通するパスであって、当該パスによりタグを一意に特定できるパス、かつ、本文を含んでいるパスを再度特定することとしている。
By the way, from the “td” tag of the
Therefore, in the present embodiment, the tag lower than the tag specified by the starting path specified by the first starting
<第2起点特定部3>
図1に戻り、第2起点特定部3は、内部パス情報生成手段31と、内部共通パス取得手段32と、本文包含内部パス取得手段33と、本文位置特定手段34と、を含んで構成される。
<Second
Returning to FIG. 1, the second
内部パス情報生成手段31は、同一ユーザの複数のブログページの夫々について、列起点特定手段24が特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報を生成する。なお、内部パス情報生成手段31は、記憶部4の本文位置DB42に記憶された起点パス、及び記憶部4のブログページDB41に記憶されたHTMLデータを読み出して、内部パス情報を生成する。
The internal path
内部パス情報の生成は、外部パス情報の生成と基本的に同じであるため詳細な説明を省略するが、内部パス情報生成手段31は、図8(1)〜(4)に示す内部パス情報(ハードパス及びソフトパス)を生成する。
The generation of the internal path information is basically the same as the generation of the external path information, and thus detailed description thereof will be omitted. However, the internal path
内部共通パス取得手段32は、内部パス情報生成手段31が生成した内部パス情報のうち、同一ユーザの複数のブログページの夫々に共通するとともに当該パスに対応するタグを一意に特定できる内部共通パスを取得する。
すなわち、内部共通パス取得手段32は、Webページ100の内部パスの出現回数とWebページ200の内部パスの出現回数との加算結果が「101」となる内部パスを内部共通パスとして取得する。
本文包含内部パス取得手段33は、内部パス情報生成手段31が生成した内部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。
なお、図9に内部パスの出現回数の加算結果及び内部パスのブログ本文包含の有無を示す。
The internal common path acquisition unit 32 is an internal common path that is common to each of a plurality of blog pages of the same user among the internal path information generated by the internal path
That is, the internal common path acquisition unit 32 acquires, as an internal common path, an internal path in which the addition result of the number of appearances of the internal path of the
The text inclusion internal path acquisition means 33 acquires the text inclusion external path including the blog text among the internal path information generated by the internal path information generation means 31 for each of a plurality of blog pages of the same user.
FIG. 9 shows the addition result of the number of appearances of the internal path and the presence / absence of inclusion of the blog text in the internal path.
本文位置特定手段は、内部共通パス取得手段32及び本文包含内部パス取得手段33により内部共通パス及び本文包含内部パスが取得されると、内部共通パスであって、かつ、複数のWebページの全てにおける本文包含内部パスである内部パスのうち、最も深い(すなわち、最も下位の)内部パスを本文パスとして特定する。
例えば、図9(2)を参照すると、ソフトパスについては、内部共通パス(点線)であって、かつ、Webページ100及びWebページ200の本文包含内部パスである内部パスは、内部パス(ソフトパス)「div[]/center[]」となる。他方、ハードパスについては、図9(1)に示すように内部共通パスであって、かつ、複数のWebページの全てにおける本文包含内部パスである内部パスは、存在しない。
When the internal common path and the text inclusion internal path are acquired by the internal common path acquisition means 32 and the text inclusion internal path acquisition means 33, the text position specifying means is an internal common path and includes all of the plurality of Web pages. Among the internal paths that are the text inclusion internal paths, the deepest (that is, the lowest) internal path is specified as the text path.
For example, referring to FIG. 9 (2), the soft path is an internal common path (dotted line), and the internal path that is the text-containing internal path of the
よって、本文位置特定手段34は、内部パス(ソフトパス)「div[]/center[]」を本文パスとして特定する。本文位置特定手段34が、本文パスを特定すると、この本文パスは、記憶部4の本文位置DB42(図2(2))に記憶される。
Therefore, the text position specifying unit 34 specifies the internal path (soft path) “div [] / center []” as the text path. When the text position specifying unit 34 specifies the text path, the text path is stored in the text position DB 42 (FIG. 2 (2)) of the
<ブログ本文抽出手段5>
図1に戻り、ブログ本文抽出手段5は、記憶部4の本文位置DB42に記憶された起点パス及び本文パスから特定されるタグに基づいて、ユーザのブログページからブログ本文を抽出し、記憶部4のブログ本文DB43に記憶する。
例えば、図12を参照して、ブログ本文抽出手段5は、ブログ本文の位置を、起点パス「H’tr[][1]/td[][1]」からライン13の「td」タグからライン19の「/td」タグまでの間と絞り込み、本文パス「S’div[]/center[]」からライン16であると更に絞り込む。その結果、起点パスで特定していた場合に含まれたライン14の画像やライン18のFooterを除くことができ、同一ユーザのブログページのブログ本文をより正確に抽出することができる。
<Blog text extraction means 5>
Returning to FIG. 1, the blog
For example, referring to FIG. 12, the blog
<記憶部4>
図1に戻り、記憶部4は、ブログページDB41と、本文位置DB42と、ブログ本文DB43と、を含んで構成される。
ブログページDB41は、図2(2)に示すように、ユーザIDとURLとWebページ情報とを対応付けて記憶する。なお、Webページ情報には、HTMLデータとRSSデータとが含まれる。外部パス情報生成手段21又は内部パス情報生成手段31は、このHTMLデータから、外部パス情報又は内部パス情報を生成する。また、本文包含外部パス取得手段23又は本文包含内部パス取得手段33は、RSSデータから、外部パス又は内部パスにより特定されるタグにブログ本文が含まれる否かを判定する。
<
Returning to FIG. 1, the
As illustrated in FIG. 2B, the
本文位置DB42は、図2(3)に示すように、ユーザIDとURLとブログ本文位置とを対応付けて記憶する。なお、ブログ本文位置には、列起点特定手段24が特定した起点パスと、本文位置特定手段34が特定した本文パスと、が含まれる。
ブログ本文DB43は、図示は省略するが、ブログ本文抽出手段5が抽出したブログ本文をユーザIDやURLに対応付けて記憶する。ブログ本文DB43に記憶されたブログ本文に基づいて、キーワードが抽出され、ブログページについてのインデックスが生成される。
As shown in FIG. 2 (3), the text position DB 42 stores the user ID, URL, and blog text position in association with each other. The blog text position includes the starting path specified by the column starting
Although not shown, the
[ブログ本文特定装置1のハードウェア構成]
以上説明したブログ本文特定装置1のハードウェアは、一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、ブログ本文特定装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[Hardware configuration of blog text identification device 1]
The hardware of the blog
[ブログ本文特定装置1の処理]
続いて、ブログ本文特定装置1の処理について、図10を参照して説明する。
[Process of Blog Text Specifying Device 1]
Next, processing of the blog
S1:初めに、外部パス情報生成手段21は、ブログページDB41に記憶されたHTMLデータを解析し、ソースコードに含まれるタグのパスを示す外部パス情報をハードパス及びソフトパスで生成する。
S2:続いて、外部共通パス取得手段22は、生成した外部パス情報のうち、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定可能な外部パスである外部共通パスを取得する。
S3:また、本文包含外部パス取得手段23は、生成した外部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々で取得する。
S4:そして、列起点特定手段24は、S2で取得した外部共通パスであって、かつ、S3で取得した本文包含外部パスである外部パスのうち、最も深い外部パスを起点パスとして特定する。なお、特定された起点パスは、本文位置DB42に記憶される。
S1: First, the external path
S2: Subsequently, the external common
S3: Also, the text inclusion external
S4: The column
S5:続いて、内部パス情報生成手段31は、ブログページDB41に記憶されたHTMLデータを解析し、S4で特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報をハードパス及びソフトパスで生成する。
S6:次に、内部共通パス取得手段32は、生成した内部パス情報のうち、同一ユーザの複数のブログページの夫々に共通する内部パスであって、対応するタグを一意に特定可能な内部パスである内部共通パスを取得する。
S7:また、本文包含内部パス取得手段33は、生成した内部パス情報のうちブログ本文を含む本文包含内部パスを、同一ユーザの複数のブログページの夫々で取得する。
S8:そして、本文位置特定手段34は、S6で取得した内部共通パスであって、かつ、S7で取得した本文包含内部パスである内部パスのうち、最も深い内部パスを本文パスとして特定する。なお、特定された本文パスは、本文位置DB42に記憶される。
S5: Subsequently, the internal path
S6: Next, the internal common path acquisition unit 32 is an internal path that is common to each of a plurality of blog pages of the same user in the generated internal path information, and can uniquely identify the corresponding tag. Get the internal common path.
S7: Also, the text inclusion internal path acquisition unit 33 acquires the text inclusion internal path including the blog text from the generated internal path information for each of the plurality of blog pages of the same user.
S8: Then, the text position specifying unit 34 specifies the deepest internal path as the text path among the internal common paths acquired in S6 and the text inclusion internal path acquired in S7. The identified text path is stored in the text position DB 42.
S9:続いて、ブログ本文抽出手段5は、本文位置DB42に記憶された起点パス及び本文パスから特定されるタグに基づいて、ユーザのブログページからブログ本文を抽出し、記憶部4のブログ本文DB43に記憶する。
S9: Subsequently, the blog
以上、第1実施形態のブログ本文特定装置1について説明した。第1実施形態のブログ本文特定装置1によれば、同一ユーザの複数のブログページにおいてブログ本文を含むタグを指定するパスを生成することができる。これにより、当該ユーザのブログページでは、タグ構造が大きく変化しない限り容易にブログ本文の位置を特定できるため、新しいページが生成される都度本文のテキストを特定する必要がなく、制御負荷を抑えつつブログ本文の位置を特定することができる。
このとき、第1実施形態のブログ本文特定装置1では、第1起点特定部2が絞り込んだ本文位置を第2起点特定部3が更に絞り込むこととしているため、同一ユーザのブログページのブログ本文をより正確に抽出することができる。
Heretofore, the blog
At this time, in the blog
[第2実施形態]
続いて、第2実施形態のブログ本文特定装置1Aについて、図11を参照して説明する。第1実施形態のブログ本文特定装置1が、ブログ本文の位置を2回に分けて絞り込むこととしているのに対し、第2実施形態のブログ本文特定装置1Aでは複数回に分けて絞り込むことを特徴としている。
図11(1)は、ブログ本文特定装置1Aの構成を示し、図11(2)は、本文位置DB42Aの構成を示す。なお、第1実施形態のブログ本文特定装置1と同一の構成については、同一の符号を付し、詳細な説明を省略する。
[Second Embodiment]
Next, the blog
FIG. 11 (1) shows the configuration of the blog
[ブログ本文特定装置1Aの構成]
ブログ本文特定装置1Aは、起点特定部2Aと、記憶部4Aと、ブログ本文抽出手段5と、を含んで構成される。
起点特定部2Aは、パス情報生成手段21Aと、共通パス取得手段22Aと、本文包含パス取得手段23Aと、列起点特定手段24Aと、特定可否判定手段25Aと、本文位置特定手段26Aと、を含み、記憶部4Aは、ブログページDB41と、本文位置DB42Aと、ブログ本文DB43と、を含む。
[Configuration of Blog
The blog
The starting
パス情報生成手段21A、共通パス取得手段22A、本文包含パス取得手段23A及び列起点特定手段24Aは、外部パス情報生成手段21(内部パス情報生成手段31)、外部共通パス取得手段22(内部共通パス取得手段32)、本文包含外部パス取得手段23(本文包含内部パス取得手段33)及び列起点特定手段24(本文位置特定手段34)と同様の機能を有する。
すなわち、パス情報生成手段21A、共通パス取得手段22A、本文包含パス取得手段23A及び列起点特定手段24Aは、ブログページを解析して生成されたパス情報に含まれるパスのうち、同一ユーザの複数のブログページの夫々に共通するとともにタグを一意に特定でき(共通パス)、かつ、本文を含んでいるパス(本文包含パス)であっても最も深いパスを起点パスとして特定する。
The path information generation means 21A, the common path acquisition means 22A, the text inclusion path acquisition means 23A, and the column origin specifying means 24A are the external path information generation means 21 (internal path information generation means 31), the external common path acquisition means 22 (internal common The path acquisition means 32), the text inclusion external path acquisition means 23 (text inclusion internal path acquisition means 33), and the column origin specifying means 24 (text position specifying means 34) have the same functions.
That is, the path
特定可否判定手段25Aは、列起点特定手段24Aが起点パスを特定できたか否かを判定する。このとき、列起点特定手段24Aが起点パスを特定できた場合には、パス情報生成手段21Aは、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、共通パス取得手段22A及び本文包含パス取得手段23Aは、下位のタグのパス情報から共通パス及び本文包含パスを取得し、列起点特定手段24Aは、共通パス及び本文包含パスに基づいて、新たな起点パスを特定する。
他方、列起点特定手段24Aが起点パスを特定できない場合には、本文位置特定手段26Aは、これまで特定された起点パスからブログ本文の位置を特定する。
The identification
On the other hand, when the column starting
すなわち、第2実施形態のブログ本文特定装置1Aでは、より下位の起点パスが特定できなくなるまで新たな起点パスを繰り返し特定する。言い換えると、同一ユーザの複数のブログページの夫々に共通するとともにタグを一意に特定でき(共通パス)、かつ、本文を含んでいるパス(本文包含パス)が存在しなくなるまで、パス情報生成手段21A乃至列起点特定手段24Aの処理を繰り返す。
そのため、図11(2)に示すように、本文位置DB42Aには、ブログ本文位置として繰り返し特定される起点パスが記憶される。
That is, the blog
Therefore, as shown in FIG. 11 (2), the starting position path repeatedly specified as the blog text position is stored in the
このようなブログ本文特定装置1Aによれば、新たな起点パスを特定できなくなるまで、より下位のタグのパス情報から新たな起点パスが特定される。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
According to such a blog
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
上記実施形態では、ブログページのソースコードのパス情報(外部パス情報、内部パス情報を含む)を生成した後に、複数のページで共通し対応するタグを一意に特定可能な共通パス(外部共通パス、内部共通パスを含む)やブログ本文を含む本文包含パス(本文包含外部パス、本文包含内部パスを含む)を取得することとしている。ここで、パス情報から共通パス及び本文包含パスを取得する順序は、任意に設計することができる。
また、パス情報に含まれる全てのパスについて、共通パスであるか否かの判定や本文包含パスであるか否かの判定を行う必要もなく、パス情報に含まれている一部のパスについてのみ、当該判定を行うこととしてもよい。例えば、出現回数の加算結果が「101」のパスに限って本文を包含するか否かの判定を行うこととしてもよく、本文を包含するパスに限ってのみ出現回数の加算結果を算出することとしてもよい。
In the above embodiment, after generating path information (including external path information and internal path information) of the source code of the blog page, a common path (external common path) that is common to multiple pages and can uniquely identify the corresponding tag , Including an internal common path) and a text inclusion path including a blog text (including a text inclusion external path and a text inclusion internal path). Here, the order of acquiring the common path and the text inclusion path from the path information can be arbitrarily designed.
For all paths included in the path information, it is not necessary to determine whether the path is a common path or whether the path is a text inclusion path, and some paths included in the path information. Only this determination may be made. For example, it may be possible to determine whether or not to include the text only for the path with the appearance count addition result “101”, and to calculate the addition result of the appearance count only for the path including the text. It is good.
また、ハードパスは、その性質上必ず1回しか出現しないため、ソフトパスの加算結果のみを算出し、ハードパスについては複数のブログページで共通するか否かのみを判定することとしてもよい。 Further, since the hard path always appears only once due to its nature, it is possible to calculate only the addition result of the soft path and determine whether the hard path is common to a plurality of blog pages.
また、本実施形態では、ソースコードに含まれるタグのうち、「html」タグなどのような多くのWebページで使用される位置に変化のないタグは、パスの生成において省略することとしているが、省略するタグの種別は任意に設計可能である。例えば、ブログページでは、基本的な構成は同一であっても、使用するフォントを日々変更することが考えられる。そのため、例えば、「font」タグなどのようなブログページの構成に影響のないタグは、パスの生成において省略することとしてもよく、任意に設計可能である。
また、パスを構成する属性についても、パスの生成において省略することとしてもよく、何れの属性を省略するかは任意に設計可能である。例えば、ブログ本文欄の背景を日々変更するブログページも考えられる。そのため、例えば、「td」タグの属性である「bgcolor」などの属性は、パスの生成において省略することとしてもよく、任意に設計可能である。
In the present embodiment, among the tags included in the source code, tags that do not change the position used in many Web pages, such as the “html” tag, are omitted in the path generation. The tag type to be omitted can be arbitrarily designed. For example, in a blog page, even if the basic configuration is the same, it is possible to change the font to be used every day. Therefore, for example, a tag that does not affect the configuration of the blog page such as a “font” tag may be omitted in the path generation, and can be arbitrarily designed.
Further, the attributes constituting the path may be omitted in the generation of the path, and which attribute is omitted can be arbitrarily designed. For example, a blog page that changes the background of the blog text column every day can be considered. Therefore, for example, an attribute such as “bgcolor” that is an attribute of the “td” tag may be omitted in the path generation, and can be arbitrarily designed.
1 ブログ本文特定装置
2 第1起点特定部
21 外部パス生成手段
22 外部共通パス取得手段
23 本文包含外部パス取得手段
24 列起点特定手段
3 第2起点特定部
31 内部パス情報生成手段
32 内部共通パス取得手段
33 本文包含内部パス取得手段
34 本文位置特定手段
4 記憶部
41 ブログページDB
42 本文位置DB
43 ブログ本文DB
5 ブログ本文抽出手段
DESCRIPTION OF
42 Text position DB
43 Blog text DB
5 Blog text extraction means
Claims (4)
同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成する外部パス情報生成手段と、
前記外部パス情報生成手段が生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得する外部共通パス取得手段と、
前記外部パス情報生成手段が生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含外部パス取得手段と、
前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定する列起点特定手段と、
を備えるブログ本文特定装置。 A blog page DB for storing a blog page including a blog text created by a user and summary information of the blog text in association with information for identifying the user;
External path information for analyzing a plurality of blog pages associated with the same user and generating external path information indicating a path in the source code of a tag included in the source code for each of the plurality of blog pages Generating means;
Of the external path information generated by the external path information generation means, an external common path acquisition means for acquiring an external common path common to each of the plurality of blog pages of the same user,
A text inclusion external path acquisition means for acquiring a text inclusion external path including a blog text among the external path information generated by the external path information generation means for each of a plurality of blog pages of the same user;
Column origin specifying means for specifying the deepest path as the origin path including the blog text among the paths that are the external common path and are the text inclusion external paths in all of the plurality of Web pages;
A blog text identification device comprising:
前記内部パス情報生成手段が生成した前記内部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する内部共通パスを取得する内部共通パス取得手段と、
前記内部パス情報生成手段が生成した前記内部パス情報のうち前記ブログ本文を含む本文包含内部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含内部パス取得手段と、
前記内部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含内部パスであるパスのうち、最も深いパスを前記ブログ本文を含む本文パスとして特定する本文位置特定手段と、
を備える請求項1に記載のブログ本文特定装置。 Internal path information generating means for generating internal path information indicating a path of a tag lower than a tag specified by the starting path specified by the column starting point specifying means for each of a plurality of blog pages of the same user,
Of the internal path information generated by the internal path information generation means, an internal common path acquisition means for acquiring an internal common path common to each of the plurality of blog pages of the same user,
A text inclusion internal path acquisition means for acquiring a text inclusion internal path including the blog text among the internal path information generated by the internal path information generation means for each of a plurality of blog pages of the same user;
Text position specifying means for specifying the deepest path as the text path including the blog text among the internal common paths and the text inclusion internal paths in all of the plurality of Web pages;
The blog text identifying device according to claim 1, comprising:
同一ユーザに対応付けられた複数の前記ブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示すパス情報を生成するパス情報生成手段と、
前記パス情報生成手段が生成した前記パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する共通パスを取得する共通パス取得手段と、
前記パス情報生成手段が生成した前記パス情報のうちブログ本文を含む本文包含パスを、同一ユーザの複数のブログページの夫々について取得する本文包含パス取得手段と、
前記共通パスであって、かつ、複数のWebページの全てにおける前記本文包含パスであるパスのうち、最も深いパスを起点パスとして特定する列起点特定手段と、
前記列起点特定手段が前記起点パスを特定できたか否かを判定する特定可否判定手段と、
を備え、
前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できたと判定することを条件に、前記パス情報生成手段は、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、前記共通パス取得手段及び前記本文包含パス取得手段は、前記下位のタグのパス情報から前記共通パス及び前記本文包含パスを取得し、前記列起点特定手段は、前記共通パス及び前記本文包含パスに基づいて、新たな起点パスを特定し、
前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できないと判定することを条件に、起点パス情報を前記ブログ本文を含む本文包含パスとして特定する本文位置特定手段と、
を更に備えるブログ本文特定装置。 A blog page DB for storing a blog page including a blog text created by a user and summary information of the blog text in association with information for identifying the user;
Path information generation for analyzing a plurality of the blog pages associated with the same user and generating path information indicating paths in the source code of tags included in the source code for each of the plurality of blog pages Means,
Of the path information generated by the path information generation means, a common path acquisition means for acquiring a common path common to each of the plurality of blog pages of the same user;
A text inclusion path acquisition means for acquiring a text inclusion path including a blog text in the path information generated by the path information generation means for each of a plurality of blog pages of the same user;
Column origin specifying means for specifying a deepest path as a starting path among paths that are the common path and the text inclusion path in all of a plurality of Web pages;
Identifiability determining means for determining whether or not the sequence starting point specifying means has specified the starting point path;
With
The path information generation unit indicates a path of a tag lower than the tag specified by the starting path on condition that the specifying availability determination unit determines that the column starting point specifying unit has specified the starting path. Path information is further generated, the common path acquisition means and the text inclusion path acquisition means acquire the common path and the text inclusion path from the path information of the lower tag, and the column origin specifying means is the common origin identification means Based on the path and the text inclusion path, a new origin path is identified,
Text position specifying means for specifying starting path information as a text inclusion path including the blog text, on the condition that the identification availability determining means determines that the column starting point specifying means cannot specify the starting path;
A blog text specifying device further comprising:
同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成するステップと、
生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得するステップと、
生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得するステップと、
前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定するステップと、
を含むブログ本文特定方法。 A blog text in which a computer including a blog page DB that stores a blog page including a blog text created by a user and summary information of the blog text in association with information for identifying the user identifies the text position of the blog page of the same user A specific method,
Analyzing a plurality of blog pages associated with the same user, and generating external path information indicating a path in the source code of a tag included in the source code for each of the plurality of blog pages;
Of the generated external path information, obtaining an external common path common to each of the plurality of blog pages of the same user;
Acquiring a text inclusion external path including a blog text in the generated external path information for each of the plurality of blog pages of the same user;
Specifying the deepest path as a starting path including the blog text among the paths that are the external common paths and are the text inclusion external paths in all of a plurality of Web pages;
Blog body identification method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010209674A JP5068356B2 (en) | 2010-09-17 | 2010-09-17 | Blog body identification device and blog body identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010209674A JP5068356B2 (en) | 2010-09-17 | 2010-09-17 | Blog body identification device and blog body identification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012064132A true JP2012064132A (en) | 2012-03-29 |
JP5068356B2 JP5068356B2 (en) | 2012-11-07 |
Family
ID=46059747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010209674A Active JP5068356B2 (en) | 2010-09-17 | 2010-09-17 | Blog body identification device and blog body identification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5068356B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242734A (en) * | 2012-05-21 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Text extraction apparatus, method and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220251A (en) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program |
JP2006338364A (en) * | 2005-06-02 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | System and method for extracting sentence, and its program |
JP2010128917A (en) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for extracting information propagation network |
-
2010
- 2010-09-17 JP JP2010209674A patent/JP5068356B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220251A (en) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program |
JP2006338364A (en) * | 2005-06-02 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | System and method for extracting sentence, and its program |
JP2010128917A (en) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for extracting information propagation network |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242734A (en) * | 2012-05-21 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Text extraction apparatus, method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5068356B2 (en) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
US20150067476A1 (en) | Title and body extraction from web page | |
Blismas et al. | Computer-aided qualitative data analysis: panacea or paradox? | |
JP6116247B2 (en) | System and method for searching for documents with block division, identification, indexing of visual elements | |
US9613003B1 (en) | Identifying topics in a digital work | |
US20140244692A1 (en) | Converting xml to json with configurable output | |
JP2010086517A (en) | Computer-implemented method for extracting data from web page | |
EP2724256A1 (en) | System and method for matching comment data to text data | |
JP2012532395A (en) | Selective content extraction | |
Huynh et al. | Enabling web browsers to augment web sites' filtering and sorting functionalities | |
JP5185402B2 (en) | Document search apparatus, document search method, and document search program | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
JP2019032704A (en) | Table data structuring system and table data structuring method | |
JP5068356B2 (en) | Blog body identification device and blog body identification method | |
JP2009265770A (en) | Significant sentence presentation system | |
JP5285491B2 (en) | Information retrieval system, method and program, index creation system, method and program, | |
JP2007200252A (en) | Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium | |
JP5225331B2 (en) | Data extraction apparatus and method | |
JP5564442B2 (en) | Text search device | |
JP2010191851A (en) | Article feature word extraction device, article feature word extraction method and program | |
JP6488399B2 (en) | Information presentation system and information presentation method | |
JP5843235B2 (en) | WEB information processing apparatus, WEB information processing method, and program | |
JP3937944B2 (en) | Information extraction method and apparatus from structured document, information extraction program, and computer-readable recording medium | |
JP5288569B2 (en) | Electronic publication processing apparatus, electronic publication processing method, and program | |
JP5378109B2 (en) | Task model generation apparatus and task model generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120724 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120814 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5068356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |