JP2010165211A - 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体 - Google Patents

情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010165211A
JP2010165211A JP2009007454A JP2009007454A JP2010165211A JP 2010165211 A JP2010165211 A JP 2010165211A JP 2009007454 A JP2009007454 A JP 2009007454A JP 2009007454 A JP2009007454 A JP 2009007454A JP 2010165211 A JP2010165211 A JP 2010165211A
Authority
JP
Japan
Prior art keywords
information
content
notification
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009007454A
Other languages
English (en)
Other versions
JP5396869B2 (ja
Inventor
Koichi Inoue
浩一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009007454A priority Critical patent/JP5396869B2/ja
Publication of JP2010165211A publication Critical patent/JP2010165211A/ja
Application granted granted Critical
Publication of JP5396869B2 publication Critical patent/JP5396869B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報の主要部を抽出して保存する情報処理システムにおいて、ユーザによる負担の軽減及び主要部抽出の精度の向上を目的とする。
【解決手段】本発明の一態様は、ネットワーク上に公開されている情報を取得して検索対象として記憶させる情報処理装置であって、コンテンツ情報を取得する文書情報取得部111と、フィード情報を取得し、上記文書情報において、取得されたフィード情報中の主要情報が含まれる部分である主要部分を特定する内容判断部113と、特定された主要部分を検索対象として記憶させる結果出力部114とを含む。
【選択図】図3

Description

本発明は、情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体に関し、特に検索対象として保存する情報の選別に関する。
オフィスにおいて扱われる文書は、急速に電子化が進んでいる。電子文書には、ネットワークを介したやり取りが容易であることや、蓄積に際して省スペース化が図れること等の利点がある。また、検索性も優れており、蓄積された文書から必要なものを簡単に見つけ出すことが可能である。
情報の電子化による蓄積の態様として、文書に含まれる情報から重要部分を抽出して保存する方法が提案されている(例えば、特許文献1参照)。特許文献1に開示された方法においては、ユーザによって指定されたタグやキーワード等を用いて文書に含まれる情報を検索し、文書の主要部分を特定する。これにより、文書情報の主要部分のみを蓄積するため、記憶媒体の有効利用、検索結果におけるノイズの低減等を図ることができる。
特開2003−345920号公報 特開2004−199409号公報
上述したように、特許文献1に開示された方法においては、文書の重要部分の判断に際して、タグやキーワードの指定が必要であり、ユーザがタグやキーワードを指定する必要があるため、ユーザにとって負担である。また、タグやキーワードが適正に指定されなければ、文書の重要部分を適正に特定することができない。更に、文書情報の情報形式は多岐に亘るため、上記タグやキーワード等を好適に指定することはユーザにとって更に負担となる。
本発明は、上記実情を考慮してなされたものであり、検索対象とすべき情報を抽出して保存する情報処理システムにおいて、ユーザの負担の軽減及び主要部抽出の精度の向上を目的とする。
上記課題を解決するために、請求項1に記載の発明は、ネットワーク上に公開されている情報を取得して検索対象として記憶させる情報処理装置であって、前記ネットワーク上に公開されている情報であるコンテンツ情報を取得するコンテンツ情報取得部と、前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得する通知情報取得部と、前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定する検索対象特定部と、前記特定された情報を前記検索対象として記憶させるコンテンツ情報記憶処理部とを含む。
また、請求項2に記載の発明は、請求項1に記載の情報処理装置において、前記検索対象特定部は、前記取得されたコンテンツ情報に含まれる情報であって前記コンテンツ情報を複数の情報群に分割するように前記コンテンツ情報の構造を示す情報である構造情報を参照し、前記複数の情報群のうち前記コンテンツ通知情報に含まれる情報と一致する情報が含まれる情報群を前記検索対象として特定することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の情報処理装置において、前記検索対象特定部は、前記コンテンツ通知情報に含まれる前記複数の情報群のうち前記情報群を示すタグによって囲まれた部分を前記検索対象として特定することを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3いずれかに記載の情報処理装置において、配信されている前記コンテンツ通知情報を蓄積する通知情報蓄積部と、前記通知情報蓄積部に蓄積するために前記コンテンツ通知情報を受信する通知情報受信部とを更に有し、前記通知情報取得部は、前記通知情報蓄積部から前記コンテンツ通知情報を取得することを特徴とする。
また、請求項5に記載の発明は、請求項4に記載の情報処理装置において、前記通知情報受信部は、受信すべき前記コンテンツ通知情報が提供されているネットワーク上のアドレスである通知アドレス情報を記憶しており、前記通知アドレス情報に基づいて前記コンテンツ通知情報を受信することを特徴とする。
また、請求項6に記載の発明は、請求項5に記載の情報処理装置において、前記コンテンツ通知情報は、当該コンテンツ通知情報が対象とする前記コンテンツ情報が提供されているネットワーク上のアドレスである提供アドレス情報を含み、前記コンテンツ情報取得部は、前記通知情報受信部が前記コンテンツ通知情報を受信した際に、前記取得されたコンテンツ通知情報に含まれる前記提供アドレス情報に基づいて前記コンテンツ情報を取得することを特徴とする。
また、請求項7に記載の発明は、請求項1乃至6いずれかに記載の情報処理装置において、前記特定された主要部分を明示して表示するための表示情報を生成する表示情報生成部を更に含むことを特徴とする。
また、請求項8に記載の発明は、請求項1乃至7いずれかに記載の情報処理装置において、前記コンテンツ情報記憶処理部は、前記検索対象として特定された情報を、前記取得されたコンテンツ情報が提供されているネットワーク上のアドレスである提供アドレス情報と関連付けて記憶させることを特徴とする。
また、請求項9に記載の発明は、入力された条件に基づいてネットワーク上に公開されているコンテンツ情報を検索する情報検索装置であって、前記コンテンツ情報を取得するコンテンツ情報取得部と、前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得する通知情報取得部と、前記取得されたコンテンツ情報に含まれる情報のうち検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定する検索対象特定部と、前記検索対象として特定された情報を前記検索対象として記憶させるコンテンツ情報記憶処理部と、前記入力された条件に基づいて前記検索対象として記憶された情報を抽出する情報検索部とを含む。
また、請求項10に記載の発明は、ネットワーク上に公開されている情報を取得して検索対象として記憶させる情報処理方法であって、前記ネットワーク上に公開されている情報であるコンテンツ情報を取得し、前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得し、前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定し、前記検索対象として特定された情報を前記検索対象として記憶させる。
また、請求項11に記載の発明は、情報処理装置にネットワーク上に公開されている情報を取得して検索対象として記憶させる処理を実行させる情報処理プログラムであって、前記ネットワーク上に公開されている情報であるコンテンツ情報を取得するステップと、前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得するステップと、前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定するステップと、前記特定された情報を前記検索対象として記憶させるステップとを前記情報処理装置に実行させる。
また、請求項12に記載の発明は、記録媒体であって、請求項11に記載の情報処理プログラムを情報処理装置が読取可能な形式で記録したことを特徴とする。
本発明の一態様によれば、検索対象とすべき情報を抽出して保存する情報処理システムにおいて、ユーザの負担の軽減及び主要部抽出の精度の向上を図ることができる。
本発明の実施形態に係る文書検索システムの運用形態を示す図である。 本発明の実施形態に係る情報処理端末のハードウェア構成を模式的に示すブロック図である。 本発明の実施形態に係る文書検索サーバの機能構成を示すブロック図である。 本発明の実施形態に係るフォード登録情報に含まれる情報の例を示す図である。 本発明の実施形態に係るフィード情報に含まれる情報の例を示す図である。 本発明の実施形態に係るフィードDBに登録される情報の例を示す図である。 本発明の実施形態に係る文書登録動作を示すフローチャートである。 本発明の実施形態に係る文書情報としてのサイト情報の例を示す図である。 本発明の実施形態に係る文書情報解析部が抽出する情報の例を示す図である。 本発明の実施形態に係る文書情報DBに格納される情報の例を示す図である。 本発明の他の実施形態に係る文書情報解析部が抽出する情報の例を示す図である。 本発明の他の実施形態に係る文書情報としてのサイト情報を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。図1は、本実施の形態に係る文書検索システムの運用形態の例を示す図である。図1に示すように、本実施形態に係る文書検索システムは、文書検索サーバ1、ウェブサーバ2及びクライアント装置3を含む。文書検索サーバ1は、ウェブサーバ2によって提供されるウェブサイトの情報を蓄積し、クライアント装置3からの検索要求に応じて蓄積した情報を検索する。即ち、文書検索サーバ1が文書検索装置として機能する。また、本実施形態においては、ウェブサーバ2が提供するウェブサイトの情報、即ちコンテンツ情報が文書情報として用いられる。文書検索サーバ1の機能が、本実施形態の要旨の1つである。
ウェブサーバ2は、HTML(HyperText Markup Language)形式などのウェブサイトの情報(以降、サイト情報とする)を記憶し、クライアント装置3からの要求に応じて上記サイト情報を送信する。クライアント装置3とウェブサーバ2とのサイト情報のやり取りは、HTTP(HyperText Transfer Protocol)によって実行される。また、ウェブサーバ2は、自身が提供しているウェブサイトの更新等をユーザに通知するための情報であるフィード情報を提供する。即ち、フィード情報が、コンテンツ通知情報として用いられる。本実施形態に係る文書検索サーバ1は、このフィード情報を取得することにより、ウェブサーバ2が提供するウェブサイトの主要部分を特定する。
ここで、ウェブサイトの主要部分について説明する。ウェブサイトには、情報発信者の意図によって開示される情報に加えて、ウェブサイトのメニューを示す情報や、スポンサーによって付加される広告の情報等、付加的な情報が含まれる。これらの情報のうち、ウェブサイトの主要部分とは、情報発信者の意図によって開示される情報である。
また、主要部分とは、ユーザによる検索対象とすべき情報である。例えば、所定のキーワードに基づいて検索を実行した際に、ウェブサイトに含まれるメニューや広告の情報等の付加的な情報は、ユーザの意図しない検索結果、即ちノイズである可能性が高い。他方、情報発信者の意図によって開示される情報は、ユーザが検索によって取得すべき情報であり、ウェブサイトの主要部分と言うことができる。
クライアント装置3は、ユーザが操作する情報処理端末である。文書検索サーバ1、ウェブサーバ2及びクライアント装置3は、PC(Personal Computer)等の一般的な情報処理装置によって構成される。
次に、本実施形態に係る文書検索サーバ1、ウェブサーバ2及びクライアント装置3等の、情報処理端末のハードウェア構成について説明する。図2は、本実施形態に係る情報処理端末のハードウェア構成を示すブロック図である。以降、図2の説明においては、文書検索サーバ1のハードウェア構成として説明する。
図2に示すように、本実施形態に係る文書検索サーバ1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を有する。即ち、本実施形態に係る文書検索サーバ1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、ROM(Read Only Memory)30、HDD(Hard Disk Drive)40及びI/F50がバス80を介して接続されている。また、I/F50にはLCD(Liquid Crystal Display)60及び操作部70が接続されている。
CPU10は演算手段であり、文書検索サーバ1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。ROM30は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD40は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納される。
I/F50は、バス80と各種のハードウェアやネットワーク等を接続し制御する。LCD60は、ユーザが文書検索サーバ1の状態を確認するための視覚的ユーザインタフェースである。操作部70は、キーボードやマウス等、ユーザが文書検索サーバ1に情報を入力するためのユーザインタフェースである。尚、図1において説明したように、本実施形態に係る文書検索サーバ1、ウェブサーバ2は、サーバとして運用される。従って、LCD60及び操作部70等のユーザインタフェースは省略可能である。
このようなハードウェア構成において、ROM30やHDD40若しくは図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、CPU10の制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る文書検索サーバ1等の情報処理端末の機能を実現する機能ブロックが構成される。
次に、本実施形態に係る文書検索サーバ1の機能ブロックについて、図3を参照して説明する。図3は、本実施形態に係る文書検索サーバ1の機能ブロックを示すブロック図である。図3に示すように、本実施形態に係る文書検索サーバ1は、RSS処理部100、文書蓄積部110、検索制御部120、ネットワークI/F130、フィードDB140及び文書情報DB150を有する。
ネットワークI/F130は、文書検索サーバ1がネットワークを介して情報を取得し、若しくはネットワークを介して情報を送信するためのインタフェースであり、図2に示すI/F50によって実現される。ネットワークI/F130は、具体的には、例えばEthernet(登録商標)接続のインタフェースや、USB(Universal Serial Bus)接続のインタフェースによって実現される。
RSS処理部100は、ウェブサーバ2によって提供されるフィード情報を処理する機能を有し、フィード取得部101及びフィード解析部102を含む。ここで、RSSとは、フィード情報のフォーマットの名称である。RSSには、“RDF(Resource Description Framework) Site Summary”、“Rich Site Summary”、“Really Simple Syndication”等の複数の規格が存在し、RSSとはその総称である。
本実施形態に係るRSS処理部100は、RSSの規格として、Really Simple Syndicationを用いる。RDF Site Summary以外のRSSの規格は、XML(eXtensible Markup Language)形式の情報によってフィード情報が構成される。
フィード取得部101は、ウェブサーバ2によって提供されるフィード情報をネットワークI/F130を介して取得する。フィード取得部101は、図4に示すような、フィード情報の登録情報(以降、フィード登録情報とする)を記憶している。図4に示すように、フィード登録情報は、フィード情報毎に、そのフィード情報が提供されるURL(Uniform Resource Locator)の情報を含む。このURLは、コンテンツ通知情報であるフィード情報が提供されるアドレスを示す通知アドレス情報として用いられる。図4に示すようなフィード情報が提供されるURLは、そのフィード情報が対象とするウェブサイトのHTML中に記述されて示されることが一般的である。
フィード取得部101は、図4に示すフィード登録情報に含まれるURLにアクセスし、ウェブサーバ2からフィード情報を取得する。即ち、フィード取得部101が、ウェブサーバ2からネットワークを介してコンテンツ通知情報であるフィード情報を受信する通知情報受信部として機能する。図5に、フィード取得部101がウェブサーバ2から取得するフィード情報の例を示す。図5に示すように、本実施形態においては、XML形式の情報がフィード情報として用いられる。
図5に示すように、本実施形態に係るフィード情報は、タイトル情報、URL情報及び内容情報を含む。また、図5に示すように、本実施形態に係るフィード情報に含まれる各情報は、“<item></item>”のタグで囲まれており、この“<item></item>”のタグを連結することにより一のフィード情報中に複数の記事に関する情報が含まれる。タイトル情報は、“<title></title>”のタグで囲まれた情報であり、図5に示す“にんじんの栄養素について”や“本日の野菜相場”という文字情報のように、フィード情報によって更新が通知される記事の表題を示す。
URL情報は、“<link></link>”のタグで囲まれた情報であり、フィード情報によって更新が通知される記事のURLを示す。内容情報は、“<description></description>”のタグや“<content:encoded></content:encoded>”のタグで囲まれた情報であり、フィード情報によって更新が通知される記事の内容の一部を示す。
図5に示すフィード情報は、“Feed for Vegetable News”というタイトルであり、ウェブサイトの更新情報として、“にんじんの栄養素について”という記事及び“本日の野菜相場”という記事を通知するための情報である。
フィード解析部102は、フィード取得部101が取得したフィード情報を解析し、フィードDB140に登録する。即ち、フィードDB140が、通知情報蓄積部として機能する。また、フィード取得部101は、フィードDB140に蓄積するためにフィード情報をウェブサーバ2から受信する。フィード取得部101が図5に示すフィード情報を取得した場合にフィード解析部102がフィードDB140に登録する情報を図6に示す。
図6に示すように、フィード解析部102は、フィード情報から夫々の記事毎にURL、タイトル及び内容の情報を抽出し、フィードDB140に登録する。また、フィード解析部102は、フィードDB140に登録する情報が新規な情報である場合、即ち、フィードDB140に登録されていない情報である場合、そのURLを文書蓄積制御部110に通知する。このURLは、ネットワーク上においてコンテンツが提供されているアドレスを示す提供アドレス情報である。
ウェブサーバ2が提供するフィード情報に含まれる情報は、ウェブサイトの更新に伴って経時的に更新され、古い情報が削除される。従って、作成されてから時間の経ったフィード情報をウェブサーバ2から取得することはできない。これに対して、RSS処理部100の機能によりフィードDB140にフィード情報を蓄積しておくことにより、古いフィード情報であっても参照することが可能となる。
文書蓄積制御部110は、ウェブサーバ2によって提供されるウェブサイトの情報(以降、サイト情報)を文書情報DB150に登録する機能を有し、文書情報取得部111、文書解析部112、内容判断部113及び結果出力部114を含む。文書情報取得部111は、ウェブサーバ2によって提供されるサイト情報をネットワークI/F130を介して取得する。即ち、文書情報取得部111が、コンテンツ情報取得部として機能する。
文書情報取得部111によるサイト情報の取得処理は、文書検索サーバ1を管理する管理者の操作に応じて実行される。上述したように、文書検索サーバ1は、サーバとして運用され、ユーザインタフェースを有さないため、ネットワークに接続された管理者用の端末を管理者が操作することにより、ネットワークI/F130を介して、文書検索サーバ1にサイト情報の取得命令が入力される。
また、上述したフィード解析部102による新規な記事のURLの通知は、文書蓄積制御部110において文書情報取得部111に入力される。文書情報取得部111は、上述したユーザによる操作の他、フィード解析部102からの通知に応じて、フィード解析部102から通知されたURLにアクセスし、サイト情報を取得する。
文書解析部112は、文書情報取得部111が取得したサイト情報を解析してウェブサイトに含まれる段落を抽出し、夫々の段落がウェブサイトにおいて配置される位置や段落の内容の文字列を取得する。文書解析部112の機能については後に詳述する。
内容判断部113は、フィードDB140に登録された情報及び文書解析部112によって抽出された情報に基づき、ウェブサイトの主要部を判断する。内容判断部113の機能については、後に詳述する。結果出力部114は、内容判断部113によってウェブサイトの主要部と判断された情報を文書情報DB150に登録する。
検索制御部120は、ユーザからの検索要求に応じて文書情報DB150に登録された情報を検索する機能を有し、検索条件取得部121、検索実行部122及び検索結果出力部123を含む。検索条件取得部121は、文書情報DB150から抽出する文書の条件、即ち検索条件をネットワークI/F130を介して取得する。即ち、ユーザがクライアント装置3を操作することにより、検索条件がネットワークを介して文書検索サーバ1に入力される。
検索実行部122は、検索条件取得部121が取得した検索条件に基づいて検索を実行し、文書情報DB150に記憶されている情報を抽出する。検索結果出力部123は、検索実行部122によって抽出された情報を表示するための情報を生成し、検索を要求した端末にネットワークI/F130を介して送信する。
尚、図3に示す構成の他、情報を表示するための表示部や、ユーザが文書検索サーバ1を直接操作するための操作部を設けても良い。
次に、本実施形態に係る文書検索システムにおける文書情報の蓄積動作について、図を参照して説明する。図7は、本実施形態に係る文書検索システムにおける文書情報の蓄積動作を示すフローチャートである。図7に示すように、まず文書情報取得部111がウェブサーバ2によって提供されているサイト情報を文書情報として取得する(S701)。文書情報取得部111は、取得したサイト情報を文書解析部112に入力する。
本実施形態において文書情報取得部111が取得するサイト情報の例を図8に示す。図8に示すように、本実施形態に係るサイト情報においては、“<div></div>”タグによって、ウェブサイトがヘッダ部、メイン部及びフッタ部に分割されている。即ち、この“<div></div>”タグが、コンテンツの構造を複数の情報群に分割することを示す構造情報として用いられる。また、メイン部は、ナビゲーション部とコンテンツ部とに分割されている。夫々の部分は、“<style></style>”タグによってサイト上の表示位置が指定されている。
図8の例においては、
Figure 2010165211
のタグで指定されたコンテンツ部の中に、夫々“<p></p>”タグで指定された3つの段落が含まれている。夫々の段落には、“今回はにんじんの栄養価について考察します。”という文章、“以下のグラフはにんじんにふくまれる栄養素の割合を示しています。”という文章及び“rate.gif”というファイル名で指定される画像が表示されている。
文書解析部112は、文書情報取得部111から入力されたサイト情報を解析し(S702)、ウェブサイトを構成する部分や段落の表示位置及び含まれる文字列を抽出する。図8に示すサイト情報を取得した場合に文書解析部112が抽出する情報の例を図9に示す。
図9に示すように、S702において、文書解析部112は、サイト情報にはヘッダ部、ナビゲーション部、コンテンツ部及びフッタ部が含まれることを抽出する。また、コンテンツ部に含まれる文字列として、“今回はにんじんの栄養価について考察します。”及び“以下のグラフはにんじんにふくまれる栄養素の割合を示しています。”という文字列を抽出する。文書解析部112は、図9に示すように抽出した情報(以降、解析済文書情報とする)を内容判断部113に入力する。
内容判断部113は、文書情報取得部111が取得したサイト情報のURLに基づき、そのウェブサイトに係るフィード情報のうち“内容”の情報をフィードDB140から取得する(S703)。即ち、内用判断部113が、コンテンツ通知情報であるフィード情報をフィードDB140から取得する通知情報取得部として機能する。本実施形態において、内容判断部113は、図6に示す情報のうち、ID“001”のフィード情報の内容である“今回は・・・”という情報を取得する。S703において取得された情報は、サイト情報において検索対象とすべき主要な情報を判断するための情報、即ち、主要部判断情報として用いられる。
次に、内容判断部113は、取得した主要部判断情報が文書解析部112から取得した解析済文書情報に含まれるか否か検索する(S704)。本実施形態に係るS704において、内容判断部113は、“今回はにんじんの栄養価について考察します。”という文章を検索条件として検索する。その結果、内容判断部113は、図9に示すように、主要部判断情報と同一の文章がコンテンツ部の一段落として含まれていることを認識する。
内容判断部113は、S704の処理により主要部判断情報と同一の文章が含まれている部分を特定すると、その部分をウェブサイトの主要部であり、検索対象とすべき情報として特定する(S705)。即ち、内用判断部113が、検索対象特定部として機能する。本実施形態においては、図9に示すコンテンツ部が、検索対象とすべき情報として特定される。
より具体的には、内用判断部113は、上述した構造情報としての“<div></div>”タグによって分割された情報群のうち、上述した主要部判断情報と一致する情報が含まれる情報群、即ち、“<div></div>”タグによって囲まれている部分を主要部分として特定する。
内容判断部113は、ウェブサイトの主要部を特定すると、文書解析部112から取得した解析済文書情報のうち、主要部として特定された部分の情報(以降、主要文書情報とする)、ウェブサイトのURL及びウェブサイトのタイトルを結果出力部114に入力する。
結果出力部114は、内容判断部113から取得した情報を、文書情報DB150に格納し(S706)、処理を終了する。即ち、結果出力部114が、コンテンツ情報記憶処理部として機能する。本実施形態に係るS706において、結果出力部114が文書情報DB150に格納する情報の例を図10に示す。図10に示すように、結果出力部114が文書情報DB150に格納する情報には、文書ID、文書URL、文書タイトル及び主要文書情報が含まれる。このような処理により、本実施形態に係る文書検索システムにおける文書情報の蓄積動作が完了する。
図10において説明したように、本実施形態に係る文書情報DB150には、ウェブサイトに含まれる情報のうち主要部として特定された主要文書情報が格納される。即ち、本実施形態に係る文書検索システムにおいては、ウェブサイトに含まれる情報のうち主要部と判断されなかった部分は、文書情報DB150に格納されないため、検索制御部120による検索対象とならない。
例えば、図9に示すヘッダ部、フッタ部及びナビゲーション部に含まれる情報は、コンテンツ部に記述された情報とは無関係な情報である場合が多く、検索においてノイズになり易い。本実施形態に係る文書検索システムのように、ヘッダ部、フッタ部及びナビゲーション部の情報を検索対象から除外することにより、検索におけるノイズを低減することができる。
また、図7に示す文書情報の蓄積動作は、ユーザの指示によって実行される場合もある。この場合、図7の処理の結果、主要部として特定された部分をユーザに提示することが好ましい。主要部として特定された部分をユーザに提示する場合、結果出力部114が、S705において主要部として特定された情報を明示して表示するための表示情報を生成し、ネットワークI/F130を介してユーザに送信する。また、上述したように、文書検索サーバ1に表示部を設ける場合、結果出力部114は、生成した表示情報をその表示部に入力する。即ち、結果出力部114が、表示情報生成部として機能する。
また、本実施形態においては、ウェブサイトにおける主要部を判断する際に、そのウェブサイトを提供しているウェブサーバ2から提供されるフィード情報を参照し、フィード情報の内容と一致する部分をウェブサイトの主要部であると判断する。上述したように、フィード情報は、ウェブサイトの更新を通知するための情報であり、そのウェブサイトが開示する情報の一部を含むため、好適にウェブサイトの主要部を判断することができる。
また、上述したように、本実施形態においては、主要部判断情報と同一の文章のみならず、その文章が含まれている部分を主要部として特定する。これにより、検索対象とすべき情報を漏れなく文書情報DB150へ登録することができる。
尚、本実施形態においては、主要部として抽出する範囲を“<p></p>”タグで囲まれた1つの段落から、“<div></div>”タグで囲まれた範囲に拡大する。この他、<table>タグの範囲や、<li>タグの範囲若しくは<frame>タグによって指定されている1つのフレームの範囲等、情報のまとまりを示す範囲であれば、同様に適用可能である。
例えば<table>タグが用いられると、セルが行列上に配置された表が生成される。従って、主要部判断情報と同一の文章が抽出されたセルを主要部として特定する他、同一の列、若しくは同一の行全体を主要部として特定することができる。更には、<table>タグによって描画される表から主要部判断情報と同一の文章が抽出された場合、その表全体を主要部として特定しても良い。
また、上記実施形態においては、文書情報としてウェブサイトを構成するHTML情報を例とする場合が説明されている。この他、文書情報の例としては、拡張子“pdf”、“txt”及び“doc”等の情報が考えられる。これらの情報の場合、上述したように文書がタグによって構造化されていないため、上記と同様の手法を用いることができない。以下に、文書情報として構造化されていない文書を用いる場合の例について説明する。
構造化されていない文書を取得して文書情報DB150に格納する場合、文書情報解析部112は、図7のS702において、取得した文書情報の情報形式に応じたアプリケーションを用いて文書情報を読み込んで解析する。具体的には、文書情報解析部112は、拡張子“pdf”、“doc”等の各情報形式に対応したアプリケーションを用いて、取得した文書情報を解析する。
そして、文書情報解析部112は、上記解析において、文書情報に含まれる文字情報、画像情報及び書式情報等の配置に関するアプリケーション固有のルールを用いて文字情報や画像情報の各段落が文書情報中で占める位置、大きさを抽出すると共に、各段落に含まれる文字情報を抽出する。尚、拡張子“pdf”、“jpg”等、文字情報が画像として含まれる文書情報の場合、OCR(Optical Character Recognition)により、文字情報を抽出することができる。
S703、S704については、上記説明と同様に処理が実行される。S704の処理により、S702において抽出した文字情報と同一の文章が含まれている部分が特定されると、S705において、内用判断部113は、同一の文章を含む段落をその文書情報の主要部として特定する。
その後、S706において、結果出力部114は、S701において取得した文書情報の全てを文書情報DB150に格納する。この際、S705において特定された主要部を他の部分と区別するための情報を付して格納処理を行う。この場合に文書情報DB150に格納される情報の例を図11に示す。図11に示すように、構造化されていない文書を取得して文書情報DB150に格納する場合、文書情報DB150に含まれる情報は、文書ID、文書URL、文書タイトル、主要部特定情報及び文書情報を含む。
文書ID、文書URL及び文書タイトルは図10において説明した情報と同様である。文書情報は、S701に取得され、S702において解析された文書の情報である。尚、S702の処理の結果抽出された各段落には段落毎のIDが付される。図10に示す文書情報には、上記付与されたIDも含まれる。尚、主要部として特定された段落を太字、下線若しくは色変え等により強調表示しても良い。
主要部特定情報は、S705において特定された主要部を示す情報である。具体的には、主要部として特定された段落に付されたIDが、主要部特定情報として用いられる。
図11に示すような情報が文書情報DB150に格納された場合、検索実行部122は、文書情報DB150に格納された文書情報のうち、主要部特定情報によって主要部として特定されている情報のみを検索対象とする。これにより、上記と同様に検索におけるノイズを低減することができる。尚、構造化された文書情報であっても、図11に示すような情報を文書情報DB150に格納するようにしても良い。
また、上記実施形態においては、文書情報として構造化された文書を用いる場合に、<div>タグや<table>タグ等を解析して主要部を特定する方法を説明した。この他、ウェブサイトにおける座標を特定するようにしても良い。以下に、そのような場合について説明する。尚、以下の例においては、図7のS701において、図12に示すHTML情報を取得した場合を例とする。
この場合、S702において、文書情報解析部112は、サイト情報に含まれる<p>要素毎に解析を行う。HTMLによるウェブサイトは、描画領域の横幅によって表示・印刷時の描画位置が変化する。ここでは、仮に横幅を700ピクセルとする。また、描画データの左上を原点とし、下方向にy座標、右方向にx座標をとるものとする。このときの座標を(x,y)として表す。ウェブサイトに表示されるすべての内容は<body>要素の中に記述書かれるため、<body>要素は描画データの左上を(0,0)とし、描画領域の横幅いっぱいに広がる領域となる。そして、<body>要素のうち、描画データ中で面積を持つ要素は決まっているので、それらを再帰的にたどりながら、大きさを決定していく。
まず、文書情報解析部112は、最初に出現する<p>要素の大きさを、描画領域の上から、<p>要素に入っている文字列をデフォルトのフォントサイズで表示した場合の大きさとして計算する。図12に示すように、最初の<p>要素は“今回はにんじんの栄養価について考察します”という文章である。この文章をデフォルトのフォントサイズで表示した場合の大きさが横に700ピクセル縦に100ピクセルであるとすると、最初の<p>要素の表示範囲は、(0,0)と(700,100)で画定される長方形の範囲となる。
同様に、2つめの<p>要素である“以下のグラフはにんじんにふくまれる栄養素の割合を示しています。”という文章についても、同様に表示範囲が計算される。この場合、2つめの<p>要素は、1つめの<p>要素の下に表示されるため、2つめの<p>要素の左上の座標は(0,100)となる。仮に、2つめの<p>要素の表示範囲を(0,100)と(700,200)で画定される長方形の範囲とする。
3つ目の<p>要素には、画像情報である<img>要素のみが含まれるため、その画像情報である“rate.gif”の大きさが表示範囲となる。仮に、rate.gifの幅を540、高さを400とすると、3つめの<p>要素の表示範囲は、(0,200)と(540,600)で画定される長方形の範囲である。このように、S702の処理において、文書情報解析部112が夫々の<p>要素毎に表示範囲を判断するようにしても良い。
1 文書検索サーバ、
2 ウェブサーバ、
3 クライアント装置、
10 CPU、
20 RAM、
30 ROM、
40 HDD、
50 I/F、
60 LCD、
70 操作部、
80 バス、
100 RSS処理部、
101 フィード取得部、
102 フィード解析部、
110 文書蓄積制御部、
111 文書情報取得部、
112 文書情報解析部、
113 内用判断部、
114 結果出力部、
120 検索制御部、
121 検索条件取得部、
122 検索実行部、
123 検索結果出力部、
130 ネットワークI/F、
140 フィードDB、
150 文書情報DB

Claims (12)

  1. ネットワーク上に公開されている情報を取得して検索対象として記憶させる情報処理装置であって、
    前記ネットワーク上に公開されている情報であるコンテンツ情報を取得するコンテンツ情報取得部と、
    前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得する通知情報取得部と、
    前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定する検索対象特定部と、
    前記特定された情報を前記検索対象として記憶させるコンテンツ情報記憶処理部と、を含む情報処理装置。
  2. 前記検索対象特定部は、前記取得されたコンテンツ情報に含まれる情報であって前記コンテンツ情報を複数の情報群に分割するように前記コンテンツ情報の構造を示す情報である構造情報を参照し、前記複数の情報群のうち前記コンテンツ通知情報に含まれる情報と一致する情報が含まれる情報群を前記検索対象として特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記検索対象特定部は、前記コンテンツ通知情報に含まれる前記複数の情報群のうち前記情報群を示すタグによって囲まれた部分を前記検索対象として特定することを特徴とする請求項2に記載の情報処理装置。
  4. 配信されている前記コンテンツ通知情報を蓄積する通知情報蓄積部と、
    前記通知情報蓄積部に蓄積するために前記コンテンツ通知情報を受信する通知情報受信部とを更に有し、
    前記通知情報取得部は、前記通知情報蓄積部から前記コンテンツ通知情報を取得することを特徴とする請求項1乃至3いずれかに記載の情報処理装置。
  5. 前記通知情報受信部は、受信すべき前記コンテンツ通知情報が提供されているネットワーク上のアドレスである通知アドレス情報を記憶しており、前記通知アドレス情報に基づいて前記コンテンツ通知情報を受信することを特徴とする請求項4に記載の情報処理装置。
  6. 前記コンテンツ通知情報は、当該コンテンツ通知情報が対象とする前記コンテンツ情報が提供されているネットワーク上のアドレスである提供アドレス情報を含み、
    前記コンテンツ情報取得部は、前記通知情報受信部が前記コンテンツ通知情報を受信した際に、前記取得されたコンテンツ通知情報に含まれる前記提供アドレス情報に基づいて前記コンテンツ情報を取得することを特徴とする請求項5に記載の情報処理装置。
  7. 前記特定された主要部分を明示して表示するための表示情報を生成する表示情報生成部を更に含むことを特徴とする請求項1乃至6いずれかに記載の情報処理装置。
  8. 前記コンテンツ情報記憶処理部は、前記検索対象として特定された情報を、前記取得されたコンテンツ情報が提供されているネットワーク上のアドレスである提供アドレス情報と関連付けて記憶させることを特徴とする請求項1乃至7いずれかに記載の情報処理装置。
  9. 入力された条件に基づいてネットワーク上に公開されているコンテンツ情報を検索する情報検索装置であって、
    前記コンテンツ情報を取得するコンテンツ情報取得部と、
    前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得する通知情報取得部と、
    前記取得されたコンテンツ情報に含まれる情報のうち検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定する検索対象特定部と、
    前記検索対象として特定された情報を前記検索対象として記憶させるコンテンツ情報記憶処理部と、
    前記入力された条件に基づいて前記検索対象として記憶された情報を抽出する情報検索部と、を含む情報検索装置。
  10. ネットワーク上に公開されている情報を取得して検索対象として記憶させる情報処理方法であって、
    前記ネットワーク上に公開されている情報であるコンテンツ情報を取得し、
    前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得し、
    前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定し、
    前記検索対象として特定された情報を前記検索対象として記憶させる、情報処理方法。
  11. 情報処理装置にネットワーク上に公開されている情報を取得して検索対象として記憶させる処理を実行させる情報処理プログラムであって、
    前記ネットワーク上に公開されている情報であるコンテンツ情報を取得するステップと、
    前記取得されたコンテンツ情報の少なくとも一部を含む情報であって前記コンテンツ情報をユーザに通知するために配信されるコンテンツ通知情報を取得するステップと、
    前記取得されたコンテンツ情報に含まれる情報のうち前記検索対象とすべき情報を前記取得されたコンテンツ通知情報に基づいて特定するステップと、
    前記特定された情報を前記検索対象として記憶させるステップと、を前記情報処理装置に実行させる情報処理プログラム。
  12. 請求項11に記載の情報処理プログラムを情報処理装置が読取可能な形式で記録したことを特徴とする、記録媒体。
JP2009007454A 2009-01-16 2009-01-16 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体 Expired - Fee Related JP5396869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009007454A JP5396869B2 (ja) 2009-01-16 2009-01-16 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009007454A JP5396869B2 (ja) 2009-01-16 2009-01-16 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010165211A true JP2010165211A (ja) 2010-07-29
JP5396869B2 JP5396869B2 (ja) 2014-01-22

Family

ID=42581309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009007454A Expired - Fee Related JP5396869B2 (ja) 2009-01-16 2009-01-16 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5396869B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146065A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 文章検索装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
JP2008102773A (ja) * 2006-10-19 2008-05-01 R & W:Kk データを共通のフォーマットに変換する方法
JP2008112341A (ja) * 2006-10-31 2008-05-15 Fujitsu Ltd 情報処理装置、情報処理方法および情報処理プログラム
JP2008204189A (ja) * 2007-02-20 2008-09-04 Oki Electric Ind Co Ltd 更新情報応答装置及びWebサーバ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
JP2008102773A (ja) * 2006-10-19 2008-05-01 R & W:Kk データを共通のフォーマットに変換する方法
JP2008112341A (ja) * 2006-10-31 2008-05-15 Fujitsu Ltd 情報処理装置、情報処理方法および情報処理プログラム
JP2008204189A (ja) * 2007-02-20 2008-09-04 Oki Electric Ind Co Ltd 更新情報応答装置及びWebサーバ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146065A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 文章検索装置

Also Published As

Publication number Publication date
JP5396869B2 (ja) 2014-01-22

Similar Documents

Publication Publication Date Title
US10318095B2 (en) Reader mode presentation of web content
US7607082B2 (en) Categorizing page block functionality to improve document layout for browsing
US8151183B2 (en) System and method for facilitating content display on portable devices
US7715625B2 (en) Image processing device, image processing method, and storage medium storing program therefor
US20060123042A1 (en) Block importance analysis to enhance browsing of web page search results
US20130339840A1 (en) System and method for logical chunking and restructuring websites
US9904936B2 (en) Method and apparatus for identifying elements of a webpage in different viewports of sizes
US20080033996A1 (en) Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US20110302524A1 (en) Progress indicators for loading content
US20080215550A1 (en) Search support apparatus, computer program product, and search support system
US20130227398A1 (en) Page based navigation and presentation of web content
WO2017152216A1 (en) Improved presentation of electronic information
TWI539302B (zh) 用於網路服務的延後資源當地語系化連結
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
US10331721B2 (en) Systems and methods for visualizing relationships between publications
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
US20140298155A1 (en) Html tag for improving page navigation user experience
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
JP5396869B2 (ja) 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP2019086931A (ja) 情報処理装置およびコンピュータプログラム
JP5564442B2 (ja) 文章検索装置
JP5108660B2 (ja) 情報収集方法、装置及びプログラム
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
JP2004030021A (ja) 文書処理装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131007

R151 Written notification of patent or utility model registration

Ref document number: 5396869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees