JP5068356B2 - ブログ本文特定装置及びブログ本文特定方法 - Google Patents

ブログ本文特定装置及びブログ本文特定方法 Download PDF

Info

Publication number
JP5068356B2
JP5068356B2 JP2010209674A JP2010209674A JP5068356B2 JP 5068356 B2 JP5068356 B2 JP 5068356B2 JP 2010209674 A JP2010209674 A JP 2010209674A JP 2010209674 A JP2010209674 A JP 2010209674A JP 5068356 B2 JP5068356 B2 JP 5068356B2
Authority
JP
Japan
Prior art keywords
path
blog
text
external
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010209674A
Other languages
English (en)
Other versions
JP2012064132A (ja
Inventor
健児 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010209674A priority Critical patent/JP5068356B2/ja
Publication of JP2012064132A publication Critical patent/JP2012064132A/ja
Application granted granted Critical
Publication of JP5068356B2 publication Critical patent/JP5068356B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、同一ユーザの複数のブログに共通する本文位置を特定するブログ本文特定装置及びブログ本文特定方法に関する。
インターネットの普及に伴いユーザは、ネットワーク上に存在する大量のデータを閲覧可能になり、このような大量のデータからユーザのニーズに応じたデータを抽出すべく、検索システムの開発が日々行われている。検索システムとして、ロボット型の検索システムが知られており、ロボット型の検索システムでは、インターネット上に公開された大量のデータ(Webページ)から重要なキーワードを自動的に抽出し、これをインデックス化することにより、所望のデータをユーザに提供している。
ところで、ブログなどの文書データ中には、本文以外にもカレンダー情報やヘッダやフッタに記述された情報や過去のログを示す情報や広告情報などのキーワードを抽出する対象として相応しくない情報が数多く混入しており、このような情報からキーワードを抽出しインデックスを生成したのでは、検索精度の低下を招来するおそれがあった。
ブログ(文章データ)の中から本文を抽出する技術としては、特許文献1に開示されたノイズ除去システムが知られている。このノイズ除去処理システムでは、各文章データに含まれる文字列の出現頻度が一定の度合いを超えることから、当該文字列をヘッダやフッタなどの定型文字列と判定し、各文章データから除去するなどして、文章に含まれる本文以外のノイズを除去する。
特開2009−271796号公報
また、ブログサイトは、デフォルトでRSS(RDF Site Summary、Rich Site Summary、Really Simple Syndication)に対応しているため、検索システムでは、RSSのdescription要素から本文の要約(本文冒頭の規定数文の文字列)を自動的に収集することが可能になっている。検索システムでは、ブログの中からdescription要素に含まれる本文の要約と一致する文字列を抽出することで、ブログに含まれる本文の少なくとも一部を特定することもできる。
しかしながら、ネットワーク上には膨大な量のブログが存在しており、上記方法でブログの中から本文を抽出していたのでは、検索システムに係る負荷が膨大なものとなってしまう。すなわち、特許文献1のノイズ除去システムでは、全てのブログ(文書)に対して個別にノイズ除去を行わなければならず、例えば、新たなブログが作成された場合には、このブログに対しても個別にノイズ除去を行わなければならない。RSSを用いた本文特定も、同様であり、全てのブログに対して個別に文字列の検索を行わなければならない。更に、特定した本文の一部に基づいて本文の範囲を特定する技術は提案されていない。
本発明は、このような問題に鑑みてなされたものであり、制御負荷を抑えつつブログ本文の特定を可能なブログ本文特定装置及びブログ本文特定方法を提供することを目的とする。
(1) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成する外部パス情報生成手段と、前記外部パス情報生成手段が生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得する外部共通パス取得手段と、前記外部パス情報生成手段が生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含外部パス取得手段と、前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定する列起点特定手段と、を備えるブログ本文特定装置。
(1)のブログ本文特定装置によれば、外部共通パス取得手段は、同一ユーザが作成した複数のブログページのソースコードに含まれるタグの位置を示すパスのうち複数のブログページ夫々に共通する外部共通パスを取得し、本文包含外部パス取得手段は、タグのパス情報のうち、ブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。そして、列起点特定手段は、外部共通パスであって、かつ、本文包含外部パスであるパスのうち、本文包含外部パスに最も近いパスを当該ユーザのブログページのブログ本文に共通するブログ本文を含む起点パスとして特定する。
これにより、同一ユーザの複数のブログページについて、複数のブログページで共通するパスであって、かつ、ブログ本文を含むタグの位置を示す起点パスを特定することができる。また、一度起点パスを特定してしまえば、当該ユーザのブログページのタグ構造が大きく変化しない限り起点パスから容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
(2) 同一ユーザの複数のブログページの夫々について、前記列起点特定手段が特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報を生成する内部パス情報生成手段と、前記内部パス情報生成手段が生成した前記内部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する内部共通パスを取得する内部共通パス取得手段と、前記内部パス情報生成手段が生成した前記内部パス情報のうち前記ブログ本文を含む本文包含内部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含内部パス取得手段と、前記内部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含内部パスであるパスのうち、最も深いパスを前記ブログ本文を含む本文パスとして特定する本文位置特定手段と、を備える(1)に記載のブログ本文特定装置。
(2)のブログ本文特定装置によれば、列起点特定手段が特定した起点パスにより特定されるタグよりも下位のタグについて、更に、内部共通パス及び本文包含内部パスを取得し、ブログ本文を含む本文パスを特定する。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
(3) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、同一ユーザに対応付けられた複数の前記ブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示すパス情報を生成するパス情報生成手段と、前記パス情報生成手段が生成した前記パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する共通パスを取得する共通パス取得手段と、前記パス情報生成手段が生成した前記パス情報のうちブログ本文を含む本文包含パスを、同一ユーザの複数のブログページの夫々について取得する本文包含パス取得手段と、前記共通パスであって、かつ、複数のWebページの全てにおける前記本文包含パスであるパスのうち、最も深いパスを起点パスとして特定する列起点特定手段と、前記列起点特定手段が前記起点パスを特定できたか否かを判定する特定可否判定手段と、を備え、前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できたと判定することを条件に、前記パス情報生成手段は、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、前記共通パス取得手段及び前記本文包含パス取得手段は、前記下位のタグのパス情報から前記共通パス及び前記本文包含パスを取得し、前記列起点特定手段は、前記共通パス及び前記本文包含パスに基づいて、新たな起点パスを特定し、前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できないと判定することを条件に、起点パス情報を前記ブログ本文を含む本文包含パスとして特定する本文位置特定手段と、を更に備えるブログ本文特定装置。
(3)のブログ本文特定装置によれば、列起点特定手段が新たな起点パスを特定できなくなるまで、下位のタグのパス情報から新たな起点パスが特定される。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
(4) ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBを備えるコンピュータが同一ユーザのブログページの本文位置を特定するブログ本文特定方法であって、同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成するステップと、生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得するステップと、生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得するステップと、前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定するステップと、を含むブログ本文特定方法。
(4)のブログ本文特定方法によれば、(1)のブログ本文特定装置と同様の効果を奏する。
本発明によれば、制御負荷を抑えつつブログ本文の特定することができる。
本実施形態のブログ本文特定装置の機能構成を示す図である。 記憶部に記憶される各データベースを示す図である。 外部パス情報生成手段による外部パス情報の生成例を示す図である。 生成された外部パス情報の例を示す図である。 列起点特定手段による起点パスの生成例を示す図である。 列起点特定手段による起点パスの生成例を示す図である。 列起点特定手段による起点パスの生成例を示す図である。 内部パス情報生成手段による内部パス情報の生成例を示す図である。 本文位置特定手段による本文パスの生成例を示す図である。 ブログ本文特定装置の処理の流れを示すフローチャートである。 別実施形態のブログ本文特定装置の機能構成を示す図である。 ブログページ及びそのソースコードを示す図である。 ブログページ及びそのソースコードを示す図である。
以下、本発明の実施形態について図面を参照して説明する。
初めに、図12及び図13を参照して、本発明の概要について説明する。図12は、あるユーザのブログページであるWebページ100及びそのソースコード110を示し、図13は、同一ユーザの別の日のブログページであるWebページ200及びそのソースコード210を示す。
図12を参照して、Webページ100は、ブログタイトル欄101と、広告欄102と、カレンダー欄103と、本文欄104と、を含む。また、図13を参照して、Webページ200は、ブログタイトル欄201と、広告欄202と、カレンダー欄203と、本文欄204と、を含む。このように同一ユーザのブログページの構造は、複数のWebページにおいて基本的に共通している。本発明は、同一ユーザの複数のブログページが共通の構造を有することに着目し、ブログページの本文の位置を特定するものであり、特に、本文の位置の特定を、ソースコードに含まれるタグの位置情報(パス)で特定するものである。
[第1実施形態]
続いて、図1〜図10を参照して、第1実施形態のブログ本文特定装置1について説明する。
[ブログ本文特定装置1の構成]
図1を参照して、本発明のブログ本文特定装置1について説明する。ブログ本文特定装置1は、第1起点特定部2と、第2起点特定部3と、記憶部4と、ブログ本文抽出手段5と、を含んで構成される。
<第1起点特定部2の構成>
第1起点特定部2は、外部パス情報生成手段21と、外部共通パス取得手段22と、本文包含外部パス取得手段23と、列起点特定手段24と、を含んで構成される。
外部パス情報生成手段21は、同一ユーザに対応付けられた複数のブログページを解析して、複数のブログページの夫々について、ソースコードに含まれるタグのソースコード内でのパスを示す外部パス情報を生成する。なお、外部パス情報生成手段21は、記憶部4のブログページDB41に記憶されたHTMLデータを読み出して、外部パス情報を生成する。
ここで、外部パス情報生成手段21は、図3(2)、(3)に示すように、ソースコードに含まれるタグの外部パス情報を、ハードパス及びソフトパスで生成する。なお、「ハードパス」とは、タグの種類、タグの属性及びタグの出現回数で規定されたタグのパス(タグ[属性][出現回数])をいい、「ソフトパス」とは、タグの種類及びタグの属性で規定されたタグのパス(タグ[属性])をいう。
図3を参照して、図3(1)は、Webページ100のソースコードであり、図3(2)は、ソースコードに含まれるタグのパスをハードパスで規定した外部パス情報であり、図3(2)は、ソースコードに含まれるタグのパスをソフトパスで規定した外部パス情報である。
外部パス情報生成手段21は、ソースコードに含まれるタグ毎に、ソースコード内でのパス(ハードパス及びソフトパス)を生成する。例えば、ソースコードのライン4のタグ11のパスの生成について、このタグ11は、出現回数が1回目の「tr」タグであり属性が規定されていないことから、外部パス情報生成手段21は、「tr[][0]」という外部パス11A(ハードパス)を生成するとともに、「tr[]」という外部パス11B(ソフトパス)を生成する。
なお、パスの指定は任意に行うことができ、本実施形態では、「html」タグなどのような多くのWebページで使用される位置に変化のないタグは、省略することとしている。
また、ライン16のタグ12のパスの生成について、このタグ12は、ライン9の「tr」タグの下位のライン13の「td」タグの下位のライン15の「div」タグの下位のタグである。そして、ライン9の「tr」タグは、出現回数が2回目の「tr」タグであり属性が規定されておらず、ライン13の「td」タグは、ライン9の「tr」タグの中で2回目の「td」タグであり属性が規定されておらず、ライン15の「div」タグは、ライン13の「td」タグの中で2回目の「div」タグであり属性が規定されていない。また、ライン16のタグ12自体は、ライン15の「div」タグの中で1回目の「center」タグであり属性が規定されていない。
そのため、外部パス情報生成手段21は、ライン16のタグ12のパスとして、「tr[][1]/td[][1]/div[][1]/center[][0]」という外部パス12A(ハードパス)を生成するとともに、「tr[]/td[]/div[]/center[]」という外部パス12B(ソフトパス)を生成する。
図4にWebページ100(図12)及びWebページ200(図13)のソースコードに含まれるタグの外部パス情報を示す。図4(1)は、Webページ100の外部パス情報(ハードパス)であり、図4(2)は、Webページ100の外部パス情報(ソフトパス)であり、図4(3)は、Webページ200の外部パス情報(ハードパス)であり、図4(3)は、Webページ200の外部パス情報(ソフトパス)である。外部パス情報生成手段21が生成した外部パス情報は、外部共通パス取得手段22及び本文包含外部パス取得手段23に供給される。
図1に戻り、外部共通パス取得手段22は、外部パス情報生成手段21が生成した外部パス情報のうち、同一ユーザの複数のブログページの夫々に共通するとともに当該パスに対応するタグを一意に特定できる外部共通パスを取得する。
また、本文包含外部パス取得手段23は、外部パス情報生成手段21が生成した外部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。
図5〜図7を参照して、外部共通パス及び本文包含外部パスの取得について説明する。
本発明は、ブログ本文の位置をタグのパスで特定することを特徴としているため、起点パスの特定に際しては、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定できる外部パスを特定する必要がある。
そこで、外部共通パス取得手段22は、外部パス情報に含まれる外部パス(ハードパス及びソフトパス)の夫々の出現回数を複数のブログページの夫々で計数する。このとき、図5のカウント欄に示すように、Webページ100とWebページ200とでは桁数が重複しないように外部パスの出現回数を計数することが好ましい。本実施形態では、Webページ200の外部パスの出現回数を100倍して計数している。すなわち、カウント欄の100とは、出現回数が1回であることを意味する。そして、外部共通パス取得手段22は、Webページ100の外部パスの出現回数とWebページ200の外部パスの出現回数とを加算する。外部共通パス取得手段22は、この加算結果から、外部共通パス、すなわち、同一ユーザの複数のブログページの夫々に共通し、かつ対応するタグを一意に特定できる外部パスを取得する。
図5のカウント欄にWebページ100の外部パス(ハードパス)の出現回数とWebページ200の外部パス(ハードパス)の出現回数とを示し、図6のカウント欄に外部パス(ハードパス)の出現回数の加算結果を示す。また、図7(1)のカウント欄にWebページ100の外部パス(ソフトパス)の出現回数とWebページ200の外部パス(ソフトパス)の出現回数とを示し、図7(2)のカウント欄に外部パス(ソフトパス)の出現回数の加算結果を示す。
なお、加算結果「001」とは、Webページ100で1回出現するが、Webページ200では出現しない外部パスを示し、加算結果「100」とは、Webページ100で出現しないが、Webページ200では1回出現する外部パスを示す。また、加算結果「101」とは、Webページ100及びWebページ200で1回出現する外部パスを示し、加算結果「303」とは、Webページ100及びWebページ200で3回出現する外部パスを示す。
ここで、加算結果「303」は、Webページ100及びWebページ200で共通する外部パスであるが、この外部パスは3回出現するため、この外部パスに対応するタグは一意に特定することができない。そこで、本実施形態では、加算結果「101」の外部パスを、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定できる外部パス(外部共通パス)として決定する。なお、図6及び図7(2)では、外部共通パスを点線で示している。
また、本発明は、ブログ本文の位置をタグの位置情報(パス)で特定することを特徴としているため、起点パスで特定されるタグには、本文が含まれている必要がある。
そこで、本文包含外部パス取得手段23は、外部パス情報に含まれる外部パス(ハードパス及びソフトパス)の夫々により特定されるタグがブログ本文を含むものであるか否かを判定する。なお、ブログ本文を含むタグであるか否かは、記憶部4のブログページDB41(図2)に記憶されたRSSデータ及びHTMLデータに基づいて行われる。すなわち、本文包含外部パス取得手段23は、RSSデータ(description要素に含まれる本文の要約)を含むタグをHTMLデータから特定し、当該タグを包含する外部パスをブログ本文を含むタグに対応する外部パスであると判定する。
図3(1)を参照して、Webページ100では、ライン16の「center」タグの中にブログ本文が含まれる。そのため、ライン16の「center」タグを包含する外部パスが、ブログ本文を含むタグに対応する外部パスと判定される。具体的には、外部パス(ハードパス)「tr[][1]/td[][1]/div[][1]」は、ライン16の「center」タグを包含する外部パスであり、ブログ本文を含むタグに対応する外部パスである。一方、外部パス(ハードパス)「tr[][1]/td[][0]」は、ライン16の「center」タグを包含しないため、ブログ本文を含まないタグに対応する外部パスである。本実施形態では、ブログ本文を含む外部パスを本文包含外部パスとしている。なお、図6及び図7(2)では、本文包含外部パスを2点鎖線で示している。また、図7では、本文包含欄に「△」と表記されている外部パスが存在するが、これは、複数回出現する外部パスについて、一部が本文を包含し、他の一部が本文を包含しないことを意味している。
図1に戻り、列起点特定手段24は、外部共通パス取得手段22及び本文包含外部パス取得手段23により外部共通パス及び本文包含外部パスが取得されると、外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パスのうち、最も深い(すなわち、最も下位の)外部パスを起点パスとして特定する。
例えば、図6を参照すると、ハードパスについては、外部共通パス(点線)であって、かつ、Webページ100及びWebページ200の本文包含外部パス(2点鎖線のうち、Webページ100及びWebページ200で○とされているもの)である外部パスは、外部パス(ハードパス)「tr[][1]」及び「tr[][1]/td[][1]」となる。これらの外部パス(ハードパス)では、「tr[][1]/td[][1]」の方が「td[][1]」分だけ深い。他方、ソフトパスについては、図7に示すように外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パスは、存在しない。
よって、列起点特定手段24は、外部パス(ハードパス)「tr[][1]/td[][1]」を起点パスとして特定する。なお、ソフトパスにおいても外部共通パスであって、かつ、複数のWebページの全てにおける本文包含外部パスである外部パス(以下、「起点パス候補の外部パス」)が存在する場合には、ハードパスの起点パス候補の外部パス及びソフトパスの起点パス候補の外部パスのうち、最も深い外部パスを起点パスとして特定する。また、ハードパスの起点パス候補の外部パス及びソフトパスの起点パス候補の外部パスでパスの深さが同じである場合には、本実施形態ではソフトパスの起点パス候補の外部パスを起点パスとして特定する。これは、ソフトパスの方がハードパスよりも表記が簡潔であり、多数のブログページの本文位置を管理するのに好適だからである。勿論、ハードパスの起点パス候補の外部パスを起点パスとして特定することとしてもよい。
列起点特定手段24が、起点パスを特定すると、この起点パスは、記憶部4の本文位置DB42(図2(2))に記憶される。なお、図2における「H’」は、ハードパスであることを示し、「S’」は、ソフトパスであることを示している。
このように、第1起点特定部2では、Webページ100及びWebページ200の本文位置を特定するための起点パスを「H’tr[][1]/td[][1]」と特定する。ここで、図12に示すWebページ100のソースコード110を参照して、起点パスが特定するタグは、2回目の「tr」タグ(ライン9)の下位の「td」タグのうち2回目の「td」タグ、すなわち、ライン13の「td」タグである。よって、起点パスにより、Webページ100の本文は、ライン13の「td」タグからライン19の「/td」タグまでの間に存在することが特定できる。
ところで、ライン13の「td」タグからライン19の「/td」まででは、本文(ライン16)に加え、画像(ライン14)やFooter(ライン18)が含まれる。ここで、画像やFooter(例えば、図12のトピックス、コメント(1)、トラックバックなど)は、ブログのキーワードを抽出する対象として相応しくない情報であり、このような情報を含めてキーワードを抽出しインデックスを生成したのでは、検索精度の低下を招来するおそれがある。
そこで、本実施形態では、第1起点特定部2が特定した起点パスにより特定されるタグよりも下位のタグについて、複数のブログページの夫々に共通するパスであって、当該パスによりタグを一意に特定できるパス、かつ、本文を含んでいるパスを再度特定することとしている。
<第2起点特定部3>
図1に戻り、第2起点特定部3は、内部パス情報生成手段31と、内部共通パス取得手段32と、本文包含内部パス取得手段33と、本文位置特定手段34と、を含んで構成される。
内部パス情報生成手段31は、同一ユーザの複数のブログページの夫々について、列起点特定手段24が特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報を生成する。なお、内部パス情報生成手段31は、記憶部4の本文位置DB42に記憶された起点パス、及び記憶部4のブログページDB41に記憶されたHTMLデータを読み出して、内部パス情報を生成する。
内部パス情報の生成は、外部パス情報の生成と基本的に同じであるため詳細な説明を省略するが、内部パス情報生成手段31は、図8(1)〜(4)に示す内部パス情報(ハードパス及びソフトパス)を生成する。
内部共通パス取得手段32は、内部パス情報生成手段31が生成した内部パス情報のうち、同一ユーザの複数のブログページの夫々に共通するとともに当該パスに対応するタグを一意に特定できる内部共通パスを取得する。
すなわち、内部共通パス取得手段32は、Webページ100の内部パスの出現回数とWebページ200の内部パスの出現回数との加算結果が「101」となる内部パスを内部共通パスとして取得する。
本文包含内部パス取得手段33は、内部パス情報生成手段31が生成した内部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々について取得する。
なお、図9に内部パスの出現回数の加算結果及び内部パスのブログ本文包含の有無を示す。
本文位置特定手段は、内部共通パス取得手段32及び本文包含内部パス取得手段33により内部共通パス及び本文包含内部パスが取得されると、内部共通パスであって、かつ、複数のWebページの全てにおける本文包含内部パスである内部パスのうち、最も深い(すなわち、最も下位の)内部パスを本文パスとして特定する。
例えば、図9(2)を参照すると、ソフトパスについては、内部共通パス(点線)であって、かつ、Webページ100及びWebページ200の本文包含内部パスである内部パスは、内部パス(ソフトパス)「div[]/center[]」となる。他方、ハードパスについては、図9(1)に示すように内部共通パスであって、かつ、複数のWebページの全てにおける本文包含内部パスである内部パスは、存在しない。
よって、本文位置特定手段34は、内部パス(ソフトパス)「div[]/center[]」を本文パスとして特定する。本文位置特定手段34が、本文パスを特定すると、この本文パスは、記憶部4の本文位置DB42(図2(2))に記憶される。
<ブログ本文抽出手段5>
図1に戻り、ブログ本文抽出手段5は、記憶部4の本文位置DB42に記憶された起点パス及び本文パスから特定されるタグに基づいて、ユーザのブログページからブログ本文を抽出し、記憶部4のブログ本文DB43に記憶する。
例えば、図12を参照して、ブログ本文抽出手段5は、ブログ本文の位置を、起点パス「H’tr[][1]/td[][1]」からライン13の「td」タグからライン19の「/td」タグまでの間と絞り込み、本文パス「S’div[]/center[]」からライン16であると更に絞り込む。その結果、起点パスで特定していた場合に含まれたライン14の画像やライン18のFooterを除くことができ、同一ユーザのブログページのブログ本文をより正確に抽出することができる。
<記憶部4>
図1に戻り、記憶部4は、ブログページDB41と、本文位置DB42と、ブログ本文DB43と、を含んで構成される。
ブログページDB41は、図2(2)に示すように、ユーザIDとURLとWebページ情報とを対応付けて記憶する。なお、Webページ情報には、HTMLデータとRSSデータとが含まれる。外部パス情報生成手段21又は内部パス情報生成手段31は、このHTMLデータから、外部パス情報又は内部パス情報を生成する。また、本文包含外部パス取得手段23又は本文包含内部パス取得手段33は、RSSデータから、外部パス又は内部パスにより特定されるタグにブログ本文が含まれる否かを判定する。
本文位置DB42は、図2(3)に示すように、ユーザIDとURLとブログ本文位置とを対応付けて記憶する。なお、ブログ本文位置には、列起点特定手段24が特定した起点パスと、本文位置特定手段34が特定した本文パスと、が含まれる。
ブログ本文DB43は、図示は省略するが、ブログ本文抽出手段5が抽出したブログ本文をユーザIDやURLに対応付けて記憶する。ブログ本文DB43に記憶されたブログ本文に基づいて、キーワードが抽出され、ブログページについてのインデックスが生成される。
[ブログ本文特定装置1のハードウェア構成]
以上説明したブログ本文特定装置1のハードウェアは、一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、ブログ本文特定装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[ブログ本文特定装置1の処理]
続いて、ブログ本文特定装置1の処理について、図10を参照して説明する。
S1:初めに、外部パス情報生成手段21は、ブログページDB41に記憶されたHTMLデータを解析し、ソースコードに含まれるタグのパスを示す外部パス情報をハードパス及びソフトパスで生成する。
S2:続いて、外部共通パス取得手段22は、生成した外部パス情報のうち、同一ユーザの複数のブログページの夫々に共通する外部パスであって、対応するタグを一意に特定可能な外部パスである外部共通パスを取得する。
S3:また、本文包含外部パス取得手段23は、生成した外部パス情報のうちブログ本文を含む本文包含外部パスを、同一ユーザの複数のブログページの夫々で取得する。
S4:そして、列起点特定手段24は、S2で取得した外部共通パスであって、かつ、S3で取得した本文包含外部パスである外部パスのうち、最も深い外部パスを起点パスとして特定する。なお、特定された起点パスは、本文位置DB42に記憶される。
S5:続いて、内部パス情報生成手段31は、ブログページDB41に記憶されたHTMLデータを解析し、S4で特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報をハードパス及びソフトパスで生成する。
S6:次に、内部共通パス取得手段32は、生成した内部パス情報のうち、同一ユーザの複数のブログページの夫々に共通する内部パスであって、対応するタグを一意に特定可能な内部パスである内部共通パスを取得する。
S7:また、本文包含内部パス取得手段33は、生成した内部パス情報のうちブログ本文を含む本文包含内部パスを、同一ユーザの複数のブログページの夫々で取得する。
S8:そして、本文位置特定手段34は、S6で取得した内部共通パスであって、かつ、S7で取得した本文包含内部パスである内部パスのうち、最も深い内部パスを本文パスとして特定する。なお、特定された本文パスは、本文位置DB42に記憶される。
S9:続いて、ブログ本文抽出手段5は、本文位置DB42に記憶された起点パス及び本文パスから特定されるタグに基づいて、ユーザのブログページからブログ本文を抽出し、記憶部4のブログ本文DB43に記憶する。
以上、第1実施形態のブログ本文特定装置1について説明した。第1実施形態のブログ本文特定装置1によれば、同一ユーザの複数のブログページにおいてブログ本文を含むタグを指定するパスを生成することができる。これにより、当該ユーザのブログページでは、タグ構造が大きく変化しない限り容易にブログ本文の位置を特定できるため、新しいページが生成される都度本文のテキストを特定する必要がなく、制御負荷を抑えつつブログ本文の位置を特定することができる。
このとき、第1実施形態のブログ本文特定装置1では、第1起点特定部2が絞り込んだ本文位置を第2起点特定部3が更に絞り込むこととしているため、同一ユーザのブログページのブログ本文をより正確に抽出することができる。
[第2実施形態]
続いて、第2実施形態のブログ本文特定装置1Aについて、図11を参照して説明する。第1実施形態のブログ本文特定装置1が、ブログ本文の位置を2回に分けて絞り込むこととしているのに対し、第2実施形態のブログ本文特定装置1Aでは複数回に分けて絞り込むことを特徴としている。
図11(1)は、ブログ本文特定装置1Aの構成を示し、図11(2)は、本文位置DB42Aの構成を示す。なお、第1実施形態のブログ本文特定装置1と同一の構成については、同一の符号を付し、詳細な説明を省略する。
[ブログ本文特定装置1Aの構成]
ブログ本文特定装置1Aは、起点特定部2Aと、記憶部4Aと、ブログ本文抽出手段5と、を含んで構成される。
起点特定部2Aは、パス情報生成手段21Aと、共通パス取得手段22Aと、本文包含パス取得手段23Aと、列起点特定手段24Aと、特定可否判定手段25Aと、本文位置特定手段26Aと、を含み、記憶部4Aは、ブログページDB41と、本文位置DB42Aと、ブログ本文DB43と、を含む。
パス情報生成手段21A、共通パス取得手段22A、本文包含パス取得手段23A及び列起点特定手段24Aは、外部パス情報生成手段21(内部パス情報生成手段31)、外部共通パス取得手段22(内部共通パス取得手段32)、本文包含外部パス取得手段23(本文包含内部パス取得手段33)及び列起点特定手段24(本文位置特定手段34)と同様の機能を有する。
すなわち、パス情報生成手段21A、共通パス取得手段22A、本文包含パス取得手段23A及び列起点特定手段24Aは、ブログページを解析して生成されたパス情報に含まれるパスのうち、同一ユーザの複数のブログページの夫々に共通するとともにタグを一意に特定でき(共通パス)、かつ、本文を含んでいるパス(本文包含パス)であっても最も深いパスを起点パスとして特定する。
特定可否判定手段25Aは、列起点特定手段24Aが起点パスを特定できたか否かを判定する。このとき、列起点特定手段24Aが起点パスを特定できた場合には、パス情報生成手段21Aは、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、共通パス取得手段22A及び本文包含パス取得手段23Aは、下位のタグのパス情報から共通パス及び本文包含パスを取得し、列起点特定手段24Aは、共通パス及び本文包含パスに基づいて、新たな起点パスを特定する。
他方、列起点特定手段24Aが起点パスを特定できない場合には、本文位置特定手段26Aは、これまで特定された起点パスからブログ本文の位置を特定する。
すなわち、第2実施形態のブログ本文特定装置1Aでは、より下位の起点パスが特定できなくなるまで新たな起点パスを繰り返し特定する。言い換えると、同一ユーザの複数のブログページの夫々に共通するとともにタグを一意に特定でき(共通パス)、かつ、本文を含んでいるパス(本文包含パス)が存在しなくなるまで、パス情報生成手段21A乃至列起点特定手段24Aの処理を繰り返す。
そのため、図11(2)に示すように、本文位置DB42Aには、ブログ本文位置として繰り返し特定される起点パスが記憶される。
このようなブログ本文特定装置1Aによれば、新たな起点パスを特定できなくなるまで、より下位のタグのパス情報から新たな起点パスが特定される。これにより、より詳細な本文の位置を特定することができるとともに、一度特定すれば容易にブログ本文の位置を特定できるため、制御負荷を抑えつつブログ本文の位置を特定することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
上記実施形態では、ブログページのソースコードのパス情報(外部パス情報、内部パス情報を含む)を生成した後に、複数のページで共通し対応するタグを一意に特定可能な共通パス(外部共通パス、内部共通パスを含む)やブログ本文を含む本文包含パス(本文包含外部パス、本文包含内部パスを含む)を取得することとしている。ここで、パス情報から共通パス及び本文包含パスを取得する順序は、任意に設計することができる。
また、パス情報に含まれる全てのパスについて、共通パスであるか否かの判定や本文包含パスであるか否かの判定を行う必要もなく、パス情報に含まれている一部のパスについてのみ、当該判定を行うこととしてもよい。例えば、出現回数の加算結果が「101」のパスに限って本文を包含するか否かの判定を行うこととしてもよく、本文を包含するパスに限ってのみ出現回数の加算結果を算出することとしてもよい。
また、ハードパスは、その性質上必ず1回しか出現しないため、ソフトパスの加算結果のみを算出し、ハードパスについては複数のブログページで共通するか否かのみを判定することとしてもよい。
また、本実施形態では、ソースコードに含まれるタグのうち、「html」タグなどのような多くのWebページで使用される位置に変化のないタグは、パスの生成において省略することとしているが、省略するタグの種別は任意に設計可能である。例えば、ブログページでは、基本的な構成は同一であっても、使用するフォントを日々変更することが考えられる。そのため、例えば、「font」タグなどのようなブログページの構成に影響のないタグは、パスの生成において省略することとしてもよく、任意に設計可能である。
また、パスを構成する属性についても、パスの生成において省略することとしてもよく、何れの属性を省略するかは任意に設計可能である。例えば、ブログ本文欄の背景を日々変更するブログページも考えられる。そのため、例えば、「td」タグの属性である「bgcolor」などの属性は、パスの生成において省略することとしてもよく、任意に設計可能である。
1 ブログ本文特定装置
2 第1起点特定部
21 外部パス生成手段
22 外部共通パス取得手段
23 本文包含外部パス取得手段
24 列起点特定手段
3 第2起点特定部
31 内部パス情報生成手段
32 内部共通パス取得手段
33 本文包含内部パス取得手段
34 本文位置特定手段
4 記憶部
41 ブログページDB
42 本文位置DB
43 ブログ本文DB
5 ブログ本文抽出手段

Claims (4)

  1. ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、
    同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成する外部パス情報生成手段と、
    前記外部パス情報生成手段が生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得する外部共通パス取得手段と、
    前記外部パス情報生成手段が生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含外部パス取得手段と、
    前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定する列起点特定手段と、
    を備えるブログ本文特定装置。
  2. 同一ユーザの複数のブログページの夫々について、前記列起点特定手段が特定した起点パスにより特定されるタグよりも下位のタグのパスを示す内部パス情報を生成する内部パス情報生成手段と、
    前記内部パス情報生成手段が生成した前記内部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する内部共通パスを取得する内部共通パス取得手段と、
    前記内部パス情報生成手段が生成した前記内部パス情報のうち前記ブログ本文を含む本文包含内部パスを、前記同一ユーザの複数のブログページの夫々について取得する本文包含内部パス取得手段と、
    前記内部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含内部パスであるパスのうち、最も深いパスを前記ブログ本文を含む本文パスとして特定する本文位置特定手段と、
    を備える請求項1に記載のブログ本文特定装置。
  3. ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBと、
    同一ユーザに対応付けられた複数の前記ブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示すパス情報を生成するパス情報生成手段と、
    前記パス情報生成手段が生成した前記パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する共通パスを取得する共通パス取得手段と、
    前記パス情報生成手段が生成した前記パス情報のうちブログ本文を含む本文包含パスを、同一ユーザの複数のブログページの夫々について取得する本文包含パス取得手段と、
    前記共通パスであって、かつ、複数のWebページの全てにおける前記本文包含パスであるパスのうち、最も深いパスを起点パスとして特定する列起点特定手段と、
    前記列起点特定手段が前記起点パスを特定できたか否かを判定する特定可否判定手段と、
    を備え、
    前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できたと判定することを条件に、前記パス情報生成手段は、当該起点パスにより特定されるタグよりも下位のタグのパスを示すパス情報を更に生成し、前記共通パス取得手段及び前記本文包含パス取得手段は、前記下位のタグのパス情報から前記共通パス及び前記本文包含パスを取得し、前記列起点特定手段は、前記共通パス及び前記本文包含パスに基づいて、新たな起点パスを特定し、
    前記特定可否判定手段が前記列起点特定手段が前記起点パスを特定できないと判定することを条件に、起点パス情報を前記ブログ本文を含む本文包含パスとして特定する本文位置特定手段と、
    を更に備えるブログ本文特定装置。
  4. ユーザが作成したブログ本文及び当該ブログ本文の要約情報を含むブログページを当該ユーザを識別する情報と対応付けて記憶するブログページDBを備えるコンピュータが同一ユーザのブログページの本文位置を特定するブログ本文特定方法であって、
    同一ユーザに対応付けられた複数のブログページを解析して、当該複数のブログページの夫々について、ソースコードに含まれるタグの当該ソースコード内でのパスを示す外部パス情報を生成するステップと、
    生成した前記外部パス情報のうち、前記同一ユーザの複数のブログページの夫々に共通する外部共通パスを取得するステップと、
    生成した前記外部パス情報のうちブログ本文を含む本文包含外部パスを、前記同一ユーザの複数のブログページの夫々について取得するステップと、
    前記外部共通パスであって、かつ、複数のWebページの全てにおける前記本文包含外部パスであるパスのうち、最も深いパスを前記ブログ本文を含む起点パスとして特定するステップと、
    を含むブログ本文特定方法。
JP2010209674A 2010-09-17 2010-09-17 ブログ本文特定装置及びブログ本文特定方法 Active JP5068356B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010209674A JP5068356B2 (ja) 2010-09-17 2010-09-17 ブログ本文特定装置及びブログ本文特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010209674A JP5068356B2 (ja) 2010-09-17 2010-09-17 ブログ本文特定装置及びブログ本文特定方法

Publications (2)

Publication Number Publication Date
JP2012064132A JP2012064132A (ja) 2012-03-29
JP5068356B2 true JP5068356B2 (ja) 2012-11-07

Family

ID=46059747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010209674A Active JP5068356B2 (ja) 2010-09-17 2010-09-17 ブログ本文特定装置及びブログ本文特定方法

Country Status (1)

Country Link
JP (1) JP5068356B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5820770B2 (ja) * 2012-05-21 2015-11-24 日本電信電話株式会社 本文抽出装置及び方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4231298B2 (ja) * 2003-01-14 2009-02-25 日本電信電話株式会社 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
JP2006338364A (ja) * 2005-06-02 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 本文抽出装置及び方法、そのプログラム
JP2010128917A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム

Also Published As

Publication number Publication date
JP2012064132A (ja) 2012-03-29

Similar Documents

Publication Publication Date Title
JP6141490B2 (ja) ウェブページ情報を抽出する方法およびシステム
US20150067476A1 (en) Title and body extraction from web page
US7913163B1 (en) Determining semantically distinct regions of a document
JP6116247B2 (ja) 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法
US9613003B1 (en) Identifying topics in a digital work
US20170109455A1 (en) Combining website characteristics in an automatically generated website
US20140244692A1 (en) Converting xml to json with configurable output
JP2010086517A (ja) コンピュータによって実施される、ウェブページからデータを抽出する方法
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
Huynh et al. Enabling web browsers to augment web sites' filtering and sorting functionalities
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
KR101074578B1 (ko) 검색 데이터베이스 관리 방법 및 장치
US20100211562A1 (en) Multi-part record searches
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
JP2009265770A (ja) 重要文提示システム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP5564442B2 (ja) 文章検索装置
JP5225331B2 (ja) データ抽出装置及び方法
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
KR20140062941A (ko) 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법
JP5843235B2 (ja) Web情報処理装置、web情報処理方法、およびプログラム
JP3937944B2 (ja) 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
JP6488399B2 (ja) 情報提示システム、及び情報提示方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120814

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5068356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350