JP2007052737A - 情報処理装置およびコンピュータプログラム - Google Patents

情報処理装置およびコンピュータプログラム Download PDF

Info

Publication number
JP2007052737A
JP2007052737A JP2005239103A JP2005239103A JP2007052737A JP 2007052737 A JP2007052737 A JP 2007052737A JP 2005239103 A JP2005239103 A JP 2005239103A JP 2005239103 A JP2005239103 A JP 2005239103A JP 2007052737 A JP2007052737 A JP 2007052737A
Authority
JP
Japan
Prior art keywords
article
notification
article title
title
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005239103A
Other languages
English (en)
Other versions
JP5063877B2 (ja
Inventor
Makoto Torigoe
真 鳥越
Yasuhiro Kawakita
泰広 川北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005239103A priority Critical patent/JP5063877B2/ja
Publication of JP2007052737A publication Critical patent/JP2007052737A/ja
Application granted granted Critical
Publication of JP5063877B2 publication Critical patent/JP5063877B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 更新検知対象となったWebページにおいて,同一ページ内に出現した記事タイトルの通知を重複することなく通知することができ,利用者の負担を軽減することの可能な情報処理装置を提供する。
【解決手段】 情報処理装置100は,過去データを記録する過去データ記録部3と,入力データを過去データと比較して差分を抽出する差分抽出部2と,抽出された差分から,記事本文へのリンクを含む文字列を記事タイトルとして抽出する記事タイトル抽出部4と,入力データの記事タイトルを通知候補として格納する通知候補記憶部6と,入力データの記事タイトルを過去データの記事タイトルと比較し,入力データの記事タイトルが過去データの記事タイトルと同一であれば,該入力データの記事タイトルを通知候補から削除する同一記事削除部7と,通知候補に基づいて更新情報を生成する通知文生成部9と,を備える。
【選択図】 図1

Description

本発明は,ウェブ(Web)ページのデータが更新されたことを検知して利用者へ通知する情報処理装置およびコンピュータプログラムにかかり,特に,通知文に記載された記事タイトルの重複を排除するための方法に特徴を有する,情報処理装置およびコンピュータプログラムに関するものである。
ウェブページの情報が更新されたことを検知して利用者へ通知する技術とその実装例として,特開2004−145427号公報「ホームページ更新通知システム」(特許文献1)に開示されたシステムがある。上記文献では,情報提供者の情報提供端末と利用者の端末同士がネットワークで接続されており,かつ利用者による情報の取得がネットワーク経由で行われる場合において,HP更新監視サーバによって情報が更新されているかを監視し,情報が更新されていることを検出した場合に利用者に更新内容を通知することで,利用者が情報のチェックに費やす時間を削減できるとしている。
特開2004−145427号公報
しかしながら,上記ホームページ更新通知システムでは,同じ情報が異なる位置に重複して出現したり,間歇的に出現したりする場合,更新内容(差分抽出後の増分のこと,以下「差分」という。)の同じ文言が同一通知文の中に複数存在したり,同じ文言を含む通知文が何度も通知されたりすることで,利用者は余分な負担を負うこととなる。このような場合の例を,図12〜14を参照しながら説明する。
図12は,ある時点でのWebページP1の状態(更新前)を表している。WebページP1はページタイトルやバナ一等で構成するタイトルF1,他コンテンツのメニューF2や広告F3,記事タイトル一覧F4で構成している。Webページの構成はこの例以外もありうる。
図13は,任意時刻経過後のWebページP1の状態(更新後)を,WebページP1’として表している。WebページP1’の構成要素のうち,タイトルF1’,メニューF2’はWebページP1のタイトルF1,メニューF2から変更はなく,広告F3’,記事タイトル一覧F4’はWebページP1の広告F3,記事タイトル一覧F4から内容が更新された例を表している。また,記事タイトルK1,K2は,記事タイトル一覧F4’で新たに出現した記事タイトルであり,同一名の記事タイトルが異なる位置に同時に出現している例である。
広告C1は広告F3’で新たに出現した広告であり,広告C2は,広告F3で含んでいたが広告F3’で削除され広告F3’’で復活した例である。この場合,更新検知の結果として図14に示すような結果を得ることとなる。図14に示したように,通知結果M1には記事タイトルK1,K2を重複して含み,WebページP1で出現済の広告C2が,通知結果M1’で再び通知されることになる。通知結果M1に含まれる2つの同一名の記事タイトルK2は異なる位置に出現し同一名の記事タイトルではあるが,それぞれの記事本文へのリンク先は固有のページP2,P3へのリンク先L1,L2であり同一ではない。しかし,ページP2,P3の本文が同一の場合,利用者には重複通知とみなされてしまう。
また,異なるWebページ,例えば異なるカテゴリの通知文の例を図15に示す。図15において,P4,P5はWebページ,K3,K4はその時点の差分を表す。M2は生成された通知文の例であり,T1,T2はそれぞれのカテゴリの属性,例えばWebページタイトルである。通知文M2は異なるカテゴリに同じ記事タイトルを含んでおり,やはり利用者には重複通知とみなされてしまう。
本発明は,上記従来技術が有する問題点に鑑みてなされたものであり,本発明の目的は,更新検知対象となったWebページにおいて,同一ページ内や複数のページにまたがって出現した記事タイトルの通知を重複することなく通知することができ,利用者の負担を軽減することの可能な,新規かつ改良された情報処理装置およびコンピュータプログラムを提供することである。
上記課題を解決するため,本発明の第1の観点によれば,ウェブページのデータの更新を検知し,差分を更新情報として通知する情報処理装置が提供される。本発明の情報処理装置(100)は,過去データを記録する過去データ記録部(3)と,入力データを前記過去データと比較して差分を抽出する差分抽出部(2)と,前記抽出された差分から,記事本文へのリンクを含む文字列を記事タイトルとして抽出する記事タイトル抽出部(4)と,前記入力データの記事タイトルを通知候補として格納する通知候補記憶部(6)と,前記入力データの記事タイトルを前記過去データの記事タイトルと比較し,前記入力データの記事タイトルが前記過去データの記事タイトルと同一であれば,該入力データの記事タイトルを通知候補から削除する同一記事削除部(7)と,前記通知候補に基づいて更新情報を生成する通知文生成部(9)と,を備えたことを特徴とする(請求項1)。
かかる構成によれば,記事タイトルのみを比較対象とし,差分抽出前に通知対象としない書式や画像等の情報を削除することで,誤動作の抑制や処理速度を向上させることが可能である。そして,入力データの記事タイトルが過去データの記事タイトルと同一であれば,その入力データの記事タイトルを通知候補から削除することで,更新検知対象となったWebページにおいて,同一ページ内に出現した記事タイトルの通知を重複することなく通知することが可能となる。なお,入力データの記事タイトルが過去データの記事タイトルと同一でない場合には,その入力データを過去データ記録部に記録(蓄積)することが可能である。
上記本発明の情報処理装置において,さらに,前記過去データ記録部における過去データの記録時間を管理するタイマ(8)を備え,前記過去データ記録部は,記録時間が所定時間を経過した前記過去データを削除する構成とすることも可能である(請求項2)。タイマに設定される時間は,広告の露出効果を適度に保つためにも翌日〜数日の内に再通知される程度の時間を設定しておくことが可能である。データベースの肥大化防止に効果がある。また,広告等にみられるローテーション型の更新においても通知済の内容に関しては所定の時間内は再通知を行わないようにすることで,広告の露出効果を適度に保つことが可能である。
さらに,前記入力データの記事タイトルと利用者が指定したキーワードとの一致を調べるキーワードマッチ部(27)を備え,前記通知文生成部は,前記利用者が指定したキーワードとマッチした記事タイトルから優先して更新情報を生成する構成とすることも可能である(請求項3)。かかる構成によれば,利用者が指定したキーワードとマッチした記事タイトルを優先して通知することが可能となる。
また,本発明の他の観点によれば,コンピュータを上記情報処理装置として機能させるためのプログラムと,そのプログラムを記録した,コンピュータにより読み取り可能な記録媒体が提供される(請求項4)。ここで,プログラムはいかなるプログラム言語により記述されていてもよい。また,記録媒体としては,例えば,CD−ROM,DVD−ROM,フレキシブルディスクなど,プログラムを記録可能な記録媒体として現在一般に用いられている記録媒体,あるいは将来用いられるいかなる記録媒体をも採用することができる。
上記課題を解決するため,本発明の第2の観点によれば,ウェブページのデータの更新を検知し,差分を更新情報として通知する情報処理装置が提供される。本発明の情報処理装置(200)は,過去データを記録する過去データ記録部(22)と,入力データを前記過去データと比較して差分を抽出する差分抽出部(21)と,前記抽出された差分から,記事本文へのリンクを含む文字列を記事タイトルとして抽出する記事タイトル抽出部(23)と,前記入力データの記事タイトルを通知候補として格納する通知候補記憶部(28)と,前記リンクから記事本文を抽出する記事本文抽出部(29)と,前記入力データを前記過去データと比較し,前記入力データの記事タイトルと記事本文のいずれかもしくは両方が,前記過去データの記事タイトルまたは記事本文と同一であれば,該入力データの記事タイトルを通知候補から削除する通知済記事記録部(30)と,前記通知候補に基づいて更新情報を生成する通知文生成部(25)と,を備えたことを特徴とする(請求項5)。
かかる構成によれば,記事タイトルおよび記事本文のみを比較対象とし,差分抽出前に通知対象としない書式や画像等の情報を削除することで,誤動作の抑制や処理速度を向上させることが可能である。そして,入力データの記事タイトルまたは記事本文が過去データの記事タイトルまたは記事本文と同一であれば,その入力データの記事タイトルを通知候補から削除することで,更新検知対象となったWebページにおいて,同一ページ内に出現した記事タイトルの通知を重複することなく通知することが可能となる。なお,入力データの記事タイトルおよび記事本文が過去データの記事タイトルと同一でない場合には,その入力データを過去データ記録部に記録(蓄積)することが可能である。
上記本発明の情報処理装置において,さらに,前記過去データ記録部における過去データの記録時間を管理するタイマ(31)を備え,前記過去データ記録部は,記録時間が所定時間を経過した前記過去データを削除する構成とすることも可能である(請求項6)。タイマに設定される時間は,広告の露出効果を適度に保つためにも翌日〜数日の内に再通知される程度の時間を設定しておくことが可能である。データベースの肥大化防止に効果がある。また,広告等にみられるローテーション型の更新においても通知済の内容に関しては所定の時間内は再通知を行わないようにすることで,広告の露出効果を適度に保つことが可能である。
さらに,前記入力データの記事タイトルまたは記事本文と利用者が指定したキーワードとの一致を調べるキーワードマッチ部(27)を備え,前記通知文生成部は,前記利用者が指定したキーワードとマッチした記事タイトルから優先して更新情報を生成する構成とすることも可能である(請求項7)。かかる構成によれば,利用者が指定したキーワードとマッチした記事タイトルを優先して通知することが可能となる。
また,本発明の他の観点によれば,コンピュータを上記情報処理装置として機能させるためのプログラムと,そのプログラムを記録した,コンピュータにより読み取り可能な記録媒体が提供される(請求項8)。ここで,プログラムはいかなるプログラム言語により記述されていてもよい。また,記録媒体としては,例えば,CD−ROM,DVD−ROM,フレキシブルディスクなど,プログラムを記録可能な記録媒体として現在一般に用いられている記録媒体,あるいは将来用いられるいかなる記録媒体をも採用することができる。
なお上記において,構成要素に付随して括弧書きで記した参照符号は,理解を容易にするため,後述の実施形態および図面における対応する構成要素を一例として記したに過ぎず,本発明がこれに限定されるものではない。
以上のように,本発明によれば,更新検知対象となったWebページにおいて,同一ページ内に出現した記事タイトルの通知を重複することなく通知することが可能であり,利用者の負担を軽減することが可能である。また,広告等にみられるローテーション型の更新においても通知済の内容に関しては所定の時間内は再通知を行わないようにすることで,広告の露出効果を適度に保つことが可能である。また,利用者が指定したキーワードとマッチした記事タイトルを優先して通知することが可能となる。その他の本発明の効果等については,以下の発明を実施するための最良の形態の項で説明する。
以下に添付図面を参照しながら,本発明にかかる情報処理装置およびコンピュータプログラムの好適な実施形態について詳細に説明する。なお,本明細書および図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
(第1の実施形態)
図1に第1の実施形態のブロック図を示す。
本実施形態にかかる情報処理装置100は,図1に示したように,データ入力部1と,差分抽出部2と,過去データ記録部3と,記事タイトル抽出部4と,記事本文抽出部5と,通知候補記憶部6と,同一記事削除部7と,タイマ8と,通知文生成部9と,通知文出力部10を備えて構成される。なお,図1において構成要素間に付された結合線は,以下の説明において,特に関連して作用する構成要素間を強調して示したに過ぎず,結合線が付されていない構成要素間がまったく関連して作用しないということではない。
データ入力部1は,通知の対象となるデータ,例えばWebページのデータを受け付ける。差分抽出部2は,入力されたデータを過去のデータと比較して差分抽出を行う。過去データ記録部3は,差分抽出後の入力データを過去データとしてデータベースに記録し,差分から抽出された記事を過去記事としてデータベースに記録する。なお,記録先はハードディスク内のファイルでもよく,データベースである必要はない。また,本明細書において過去データ記録部とデータベース(またはファイル)とを合わせて,単に過去データ記録部または単にデータベース(またはファイル)ともいう。
記事タイトル抽出部4は,差分抽出の結果,変更があった箇所からリンク先を含む見出しを記事タイトルとして抽出する。記事本文抽出部5は,記事タイトルのリンク先へアクセスし,記事本文を抽出する。通知候補記憶部6は,抽出された記事タイトル以外の差分と,抽出した記事タイトルを格納する。
同一記事削除部7は,抽出された記事タイトルおよび記事本文を記事として過去記事と比較し,同一であれば抽出した記事タイトルを削除する。なお,記事タイトルのみを比較するようにしてもよい。
タイマ8は,過去データと過去記事の有効時間を管理する。有効時間を越える過去記事はその記録を削除する。ただし,タイマ8は本発明の必須の構成要素ではなく,タイマ8を構成要素としない装置構成も可能である。
通知文生成部9は,抽出した差分文字列と同一記事削除後の記事タイトルから通知文を生成する。通知文出力部10は,生成した通知文を出力する。出力は電子メール,任意のWebページの更新のほか,プリンタへの出力等とすることも可能である。
(第1の実施形態の動作)
第1の実施形態の詳細な動作について,図2〜4を参照しながら説明する。
まず,ステップS1でWebページのデータを入力し,ステップS2で前回入力時のWebページのデータとの差分を抽出する。一般にWebページのデータはHTMLやXHTML等のマークアップ言語で記述されているが,通常のWebページ更新では,更新された記事タイトルやリンク部分のみが差分として抽出される。従って,差分抽出前に通知対象としない書式や画像等の情報を削除することで,誤動作の抑制や処理速度を向上させることが可能である。
ステップS3では,抽出した差分からリンクを含む文字列を記事タイトルとして抽出する。
ステップS4では,記事タイトルと,その他の差分文字列とを通知候補とする。
ステップS5では,抽出した記事タイトルのリンク先へアクセスし,そのWebページデータから記事本文を取得する。本実施形態で取り上げたようなWebページでは,Webページのデータを自動生成させることが多く,記事本文の前後に記事本文であることを容易に識別可能なタグを含んでいることが多い。したがって,Webページデータ内の記事本文を表すタグに囲まれた範囲を抽出することで,Webページデータから記事本文の抽出を容易に行うことができる。
ステップS6以降では,抽出した複数の記事タイトルとその記事本文について,ループ処理を行う。
ステップS7では,記事タイトルと記事本文が記事として,データベースに登録済であるかを調べる。データベースにおける登録例を図3に示す。図3(a)に示すように,07:00時に2つの記事が登録されていたとする。08:00時には,3つの記事K1,K2,C1が追加されている(これについては後述する)。記事がデータベースに登録されていなければステップS8へ,登録されていればステップS9へ分岐する。
本実施形態では記事タイトルが同一であっても記事本文が異なる場合には,更新記事を通知するようにしている。すなわち,記事タイトルが同一であっても記事本文が異なる場合には,その記事がデータベースに登録されていないとして扱っている。ただし,記事タイトルが同一で記事本文が異なる場合に更新通知が不要な場合には,その記事がデータベースに登録されているとして扱い,更新記事を通知しないようにしてもよい。
ステップS8では,データベースに未登録の記事を登録する。図3(b)の08:00時の3つのレコードK1,K2,C1は,図4の3つのレコードK1,K2,C1に対応する。図4では,記事タイトルが同一で記事本文が異なるものをそれぞれ登録するようにしているが,古い記事が出現しないような運用とする場合には,記事タイトルが同一のものを上書きするようにしてもよい。
ステップS9では,データベースに存在した記事の記事タイトルを通知候補から削除する。図4の二重線が付されたレコードは,通知候補において,記事タイトルが削除されたことを示している。
ステップS10では,抽出したすべての記事タイトルと記事本文についての処理が終わっていればステップS11へ,まだ残りがあればステップS5へ分岐する。
ステップS11では,所定時間経過した記事をデータベースから削除する。記事本文が何度も更新されたり,記事タイトルのみを目立たせるために頻繁に更新されたりする場合,一度の通知で通知を行わないようにするのではなく,また,広告の露出効果を適度に保つためにも翌日〜数日の内に再通知される程度の時間を設定しておくとよい。データベースの肥大化防止にも効果がある。なお,上述のようにタイマ8を構成要素としない装置構成の場合には,ステップS11は行わない。
ステップS12では,通知候補に残った差分文字列と記事タイトルから通知文を生成する。通知文はテキスト形式でもよく,また,マークアップ言語によるリンク付の形式とすることも可能である。
最後にステップS13で,生成した通知文を出力する。
(第1の実施形態の効果)
以上説明したように,本実施形態によれば,更新検知対象となったWebページにおいて,同一ページ内に出現した記事タイトルの通知を重複することなく通知することが可能となる。また,広告等にみられるローテーション型の更新においても通知済の内容に関しては所定の時間内は再通知を行わないようにすることで,広告の露出効果を適度に保つことが可能である。
(第2の実施形態)
図5に第2の実施形態のブロック図を示す。
本実施形態にかかる情報処理装置200は,図5に示したように,データ入力部20と,差分抽出部21と,過去データ記録部22と,記事タイトル抽出部23と,差分蓄積部24と,通知文生成部25と,通知記事タイトル選択部26と,キーワードマッチ部27と,通知候補記憶部28と,記事本文抽出部29と,通知済記事記録部30と,タイマ31と,通知文出力部32を備えて構成される。なお,図5において構成要素間に付された結合線は,以下の説明において,特に関連して作用する構成要素間を強調して示したに過ぎず,結合線が付されていない構成要素間がまったく関連して作用しないということではない。
データ入力部20は,通知の対象となるデータ,例えばWebページのデータを受け付ける。差分抽出部21は,入力されたデータを過去のデータと比較して差分抽出を行う。過去データ記録部22は,差分抽出後の入力データを過去データとしてデータベースに記録し,差分から抽出された記事を過去記事としてデータベースに記録する。なお,記録先はハードディスク内のファイルでもよく,データベースである必要はない。また,本明細書において過去データ記録部とデータベース(またはファイル)とを合わせて,単に過去データ記録部または単にデータベース(またはファイル)ともいう。
記事タイトル抽出部23は,差分抽出の結果,変更があった箇所からリンク先を含む見出しを記事タイトルとして抽出する。
差分蓄積部24は,抽出された差分と記事タイトルを蓄積する。通知文生成部25は,蓄積した差分と記事タイトルから通知文を生成する。差分蓄積部24と通知文生成部25は,所定時間間隔で動作する非同期処理による実装でもよく,差分蓄積部24で利用者が指定したWebページをすべて蓄積終了後,通知文生成部25が動作する同期処理による実装とすることも可能である。
通知記事タイトル選択部26は,キーワードマッチや通知済み記事との比較により通知記事タイトルを選択する。キーワードマッチ部27は,利用者が設定したキーワードで記事タイトルがマッチするかを調べる。
通知候補記憶部28は,キーワードマッチした記事タイトルおよび記事タイトルの属性,例えば記事タイトルを含んでいたWebページのタイトル名やカテゴリ名を格納する。記事本文抽出部29は,記事タイトルのリンク先へアクセスし,記事本文を抽出する。
通知済記事記録部30は,キーワードマッチした記事タイトルおよび記事本文を記事として過去に通知した記事と比較し,通知済であれば抽出した記事タイトルを通知候補から削除する。なお,記事タイトルのみを比較するようにしてもよい。
タイマ31は,通知済記事の有効時間を管理する。有効時間を越える通知済記事はその記録を削除する。ただし,タイマ31は本発明の必須の構成要素ではなく,タイマ8を構成要素としない装置構成も可能である。
通知文出力部32は,生成した通知文を出力する。出力は電子メール,任意のWebページの更新のほか,プリンタへの出力等とすることも可能である。
なお,上記構成において,データの記録や蓄積はファイルヘ行ってもよく,データベースへ行ってもよい。ファイルやデータベースは同じ情報処理装置内に存在してもよく,あるいは,ネットワークを介した他のコンピュータにデータを転送したり,あるいは記録媒体等に記録したりするようにしてもよい。
(第2の実施形態の動作)
第2の実施形態の詳細な動作について,図6〜10を参照しながら説明する。
まず,ステップS20でWebページのデータを入力し,ステップS21で前回入力時のWebページのデータとの差分を抽出する。一般にWebページのデータはHTMLやXHTML等のマークアップ言語で記述されているが,通常のWebページ更新では更新された記事タイトルやリンク部分のみが差分として抽出される。従って,差分抽出前に通知対象としない書式や画像等の情報を削除することで,誤動作の抑制や処理速度を向上させることが可能である。
ステップS22では,抽出した差分からリンクを含む文字列を記事タイトルとして抽出する。
ステップS23では,記事タイトルと,その他の差分文字列を通知候補として蓄積する。
ステップS24では,通知開始であればステップ25へ,そうでなければ新たなページデータの入力待ちへ分岐する。通知開始は,図7に示すように,利用者が複数のWebページを更新検知対象とした場合,その利用者が設定したすべてのWebページデータに関する差分蓄積完了時でもよく,あるいはその利用者が設定したすべてのWebページデータに関する差分蓄積が完了した後に動作するよう,所定の時間間隔で動作するようにしてもよい。
ステップS25から,蓄積した複数のWebページデータの差分について,1ページを1カテゴリとしてループ処理を始める。
ステップS26から,カテゴリ内の複数の記事タイトルについてループ処理を始める。ステップS27では,利用者が設定したキーワードが記事タイトルとマッチすればステップS28へ,マッチしなければステップS37へ分岐する。利用者のキーワードの設定例を図8に示す。図8では2人の利用者がそれぞれ同じ検知先URLを2つずつ指定した例である。それぞれのURLには属性値としてページタイトルを登録し,User_idが1001の利用者のみがキーワードを設定している。キーワード欄が空白の場合はすべてにマッチする。
ステップS28では,記事タイトルが通知済みとしてデータベースに記録済であるかを調べる。データベースでの登録例を図9,10に示す。ここで08:00時に一つの記事(タイトルidが13のもの,図15のK4)が通知済みとなっている。記事がデータベースに登録されていなければステップS29へ,登録されていればステップS31へ分岐する。
ステップS31では,抽出した記事タイトルのリンク先へアクセスし,そのWebページデータから記事本文を取得する。本実施形態で取り上げたようなWebページでは,Webページのデータを自動生成させることが多く,記事本文の前後に記事本文であることを容易に識別可能なタグを含んでいることが多い。したがって,Webページデータ内の記事本文を表すタグに囲まれた範囲を抽出することで,Webページデータから記事本文の抽出を容易に行うことができる。
ステップS32では,記事本文が通知済の記事本文と同一本文であるかを調べ,同一本文であればステップS33へ,同一本文でなければS29へ分岐する。
本実施形態では記事タイトルが同一であっても記事本文が異なる場合には,更新記事を通知するようにしている。すなわち,記事タイトルが同一であっても記事本文が異なる場合には,その記事がデータベースに登録されていないとして扱っている。ただし,記事タイトルが同一で記事本文が異なる場合に更新通知が不要な場合には,その記事がデータベースに登録されているとして扱い,更新記事を通知しないようにしてもよい。
また,通知済みでない記事タイトルのみ記事本文を取得するようにしているが,システム構成上,記事本文を先に取得して通知済み判別と記事本文の比較とを同時に行ってもよい。
ステップS29では,データベースに未登録の記事を登録する。図10の09:00のタイトルidが11,12の2つのレコードは,ここで登録されたK3(図15)の2つの記事の例を表す。図9では,記事タイトルが同一で記事本文が異なるものを上書きするようにしているが,対象とするWebページにおいて同一タイトルで異なる記事が出現する場合は,個別のレコードして登録することも可能である。
ステップS30では,記事タイトルと属性を通知候補へ追加する。通知候補の例を図11に示す。
ステップS33では,図8のキーワード欄にキーワードが指定されていればステップ34へ,キーワードが空欄(=すべてにマッチ)であればステップS37へ分岐する。
ステップS34では,通知済の記事タイトルが指定されたキーワードでマッチしていた場合はステップ35へ,キーワードが空欄であればステップS37へ分岐する。
ステップS35では,通知候補に記事タイトルがあればステップS36へ,記事タイトルがなければステップ30へ分岐する。
ステップS36では,通知候補にある記事タイトルの属性と,データベースの記録を変更する。図10はタイトルidが13の記事タイトルがキーワード[有]で上書きされているテーブルの例である。
ステップS37では,データベースに存在した記事の記事タイトルを通知候補から削除する。
ステップS38では,抽出したすべての記事タイトルについての処理が終わっていればステップS39へ,まだ残りがあればステップS26へ分岐する。
ステップS39では,蓄積したすべてのカテゴリについての処理が終わっていればステップS40へ,まだ残りがあればステップS25へ分岐する。
ステップS40では,所定時間経過した記事をデータベースから削除する。記事本文が何度も更新されたり,記事タイトルのみを目立たせるために頻繁に更新されたりする場合,一度の通知で通知を行わないようにするのではなく,また,広告の露出効果を適度に保つためにも翌日〜数日の内に再通知される程度の時間を設定しておくとよい。データベースの肥大化防止にもなる。
ステップS41では,通知候補に残った差分と記事タイトルとカテゴリの属性,例えばカテゴリ名から通知文を生成する。通知文はテキスト形式でもよく,マークアップ言語によるリンク付の形式とすることも可能である。
最後にステップS42で,生成した通知文を出力する。
(第2の実施形態の効果)
以上説明したように,本実施形態によれば,更新検知対象となったWebページにおいて,異なるWebページに出現した記事タイトルの通知を重複することなく通知することが可能であり,利用者が指定したキーワードとマッチした記事タイトルを優先して通知することが可能となる。また,広告等にみられるローテーション型の更新においても通知済の内容に関しては異なるWebページ間で所定の時間内は最通知を行わないようにすることで,広告の露出効果を適度に保つことが可能である。
以上,第1,第2の実施形態にかかる情報処理装置100,200について説明した。かかる情報処理装置100,200は,コンピュータに上記機能を実現するためのコンピュータプログラムを組み込むことで,コンピュータを情報処理装置100,200として機能させることが可能である。かかるコンピュータプログラムは,所定の記録媒体(例えば,CD−ROM)に記録された形で,あるいは,電子ネットワークを介したダウンロードの形で市場を流通させることが可能である。
以上,添付図面を参照しながら本発明にかかる情報処理装置およびコンピュータプログラムの好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば,第1の実施形態は,情報提供者が特定のWebページの更新情報を利用者へ通知するシンプルなシステムに適している。また,第1の実施形態では単一ページの差分を即時通知するように構成したが,同一ページの差分を複数人に対して通知する場合は,ステップS5以降の処理を繰り返す,あるいはマルチタスク処理を行うことが可能である。また,第2の実施形態にあるようにキーワードマッチの処理を追加することも可能である。また,記事本文の取得は必須ではなく,運用システムにおいて柔軟に対応することが可能である。
第2の実施形態は,複数の利用者が任意のWebページの更新情報を通知される大規模なシステム適している。なお,キーワードマッチや記事本文の取得は必須ではなく,記事本文に対するキーワードマッチを行うなど,運用システムにおいて柔軟に対応することが可能である。
第1,第2の実施形態では記事本文を含めて比較するように構成したが,記事本文の代わりに,リンク先情報,例えばURLそのものを比較することが可能であり,また,リンク先情報も使用せず差分の文字列のみを比較する構成とすることも可能である。この場合,上記実施形態における記事タイトルにはリンク先は含まれない。また,記事本文が記事タイトルと同じデータ内のタグやスクリプト内に記述されている場合,リンク先情報はタグやスクリプトであり,記事本文抽出の際には,タグやスクリプト内から記事本文を抽出することが可能である。
通知対象外となった記事タイトルは,別途通知文の末尾や添付によって,どのWebページ,あるいはWebページ内の位置であったかを示したり,記事本文のみが異なる場合に「更新」といったマークを付与したりする構成も容易に実現可能である。
また,第2の実施形態で説明したキーワードマッチ部および通知記事タイトル選択部を,第1の実施形態の構成に追加してもよい。また,差分蓄積部を第1の実施形態の構成に追加してもよい。
本発明は,ウェブ(Web)ページのデータが更新されたことを検知して利用者へ通知する情報処理装置およびコンピュータプログラムに利用可能であり,特に,通知文に記載された記事タイトルの重複を排除するための方法に特徴を有する,情報処理装置およびコンピュータプログラムに利用可能である。
第1の実施形態にかかる情報処理装置の構成を示す説明図である。 第1の実施形態の動作を示す流れ図である。 データベース登録例を示す説明図である。 第1の実施形態の通知候補例を示す説明図である。 第2の実施形態にかかる情報処理装置の構成を示す説明図である。 第2の実施形態の動作を示す流れ図である。 利用者通知先情報テーブルを示す説明図である。 利用者検知先情報テーブルを示す説明図である。 タイトル詳細テーブルを示す説明図である。 タイトル通知状況テーブルを示す説明図である。 第2の実施形態の通知候補例を示す説明図である。 Webページの更新前の状態を示す説明図である。 Webページの更新後の状態を示す説明図である。 検知結果と同一記事本文へのリンクの例を示す説明図である。 複数カテゴリの通知文の例を示す説明図である。
符号の説明
1 データ入力部
2 差分抽出部
3 過去データ記録部
4 記事タイトル抽出部
5 記事本文抽出部
6 通知候補記憶部
7 同一記事排除部
8 タイマ
9 通知文生成部
10 通知文出力部
20 データ入力部
21 差分抽出部
22 過去データ記録部
23 記事タイトル抽出部
24 差分蓄積部
25 通知文生成部
26 通知記事タイトル選択部
27 キーワードマッチ部
28 通知候補記憶部
29 記事本文抽出部
30 通知済記事記録部
31 タイマ
32 通知文出力部
100 情報処理装置
200 情報処理装置

Claims (8)

  1. ウェブページのデータの更新を検知し,差分を更新情報として通知する情報処理装置において,
    過去データを記録する過去データ記録部と,
    入力データを前記過去データと比較して差分を抽出する差分抽出部と,
    前記抽出された差分から,記事本文へのリンクを含む文字列を記事タイトルとして抽出する記事タイトル抽出部と,
    前記入力データの記事タイトルを通知候補として格納する通知候補記憶部と,
    前記入力データの記事タイトルを前記過去データの記事タイトルと比較し,前記入力データの記事タイトルが前記過去データの記事タイトルと同一であれば,該入力データの記事タイトルを通知候補から削除する同一記事削除部と,
    前記通知候補に基づいて更新情報を生成する通知文生成部と,
    を備えたことを特徴とする,情報処理装置。
  2. さらに,前記過去データ記録部における過去データの記録時間を管理するタイマを備え,
    前記過去データ記録部は,記録時間が所定時間を経過した前記過去データを削除することを特徴とする,請求項1に記載の情報処理装置。
  3. さらに,前記入力データの記事タイトルと利用者が指定したキーワードとの一致を調べるキーワードマッチ部を備え,
    前記通知文生成部は,前記利用者が指定したキーワードとマッチした記事タイトルから優先して更新情報を生成することを特徴とする,請求項1または2に記載の情報処理装置。
  4. コンピュータを,請求項1〜3のいずれかに記載の情報処理装置として機能させるためのコンピュータプログラム。
  5. ウェブページのデータの更新を検知し,差分を更新情報として通知する情報処理装置において,
    過去データを記録する過去データ記録部と,
    入力データを前記過去データと比較して差分を抽出する差分抽出部と,
    前記抽出された差分から,記事本文へのリンクを含む文字列を記事タイトルとして抽出する記事タイトル抽出部と,
    前記入力データの記事タイトルを通知候補として格納する通知候補記憶部と,
    前記リンクから記事本文を抽出する記事本文抽出部と,
    前記入力データを前記過去データと比較し,前記入力データの記事タイトルと記事本文のいずれかもしくは両方が,前記過去データの記事タイトルまたは記事本文と同一であれば,該入力データの記事タイトルを通知候補から削除する通知済記事記録部と,
    前記通知候補に基づいて更新情報を生成する通知文生成部と,
    を備えたことを特徴とする,情報処理装置。
  6. さらに,前記過去データ記録部における過去データの記録時間を管理するタイマを備え,
    前記過去データ記録部は,記録時間が所定時間を経過した前記過去データを削除することを特徴とする,請求項5に記載の情報処理装置。
  7. さらに,前記入力データの記事タイトルまたは記事本文と利用者が指定したキーワードとの一致を調べるキーワードマッチ部を備え,
    前記通知文生成部は,前記利用者が指定したキーワードとマッチした記事タイトルから優先して更新情報を生成することを特徴とする,請求項5または6に記載の情報処理装置。
  8. コンピュータを,請求項5〜7のいずれかに記載の情報処理装置として機能させるためのコンピュータプログラム。
JP2005239103A 2005-08-19 2005-08-19 情報処理装置およびコンピュータプログラム Expired - Fee Related JP5063877B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005239103A JP5063877B2 (ja) 2005-08-19 2005-08-19 情報処理装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005239103A JP5063877B2 (ja) 2005-08-19 2005-08-19 情報処理装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007052737A true JP2007052737A (ja) 2007-03-01
JP5063877B2 JP5063877B2 (ja) 2012-10-31

Family

ID=37917117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005239103A Expired - Fee Related JP5063877B2 (ja) 2005-08-19 2005-08-19 情報処理装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5063877B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230303A (ja) * 2008-03-21 2009-10-08 Sankyo Co Ltd サーバシステム
JP2010231508A (ja) * 2009-03-27 2010-10-14 Kddi Corp 重要度判定装置、重要度判定方法、およびプログラム
JP2012529688A (ja) * 2009-06-23 2012-11-22 北京捜狗科技▲発▼展有限公司 更新通知方法、およびシステム
JP2022112993A (ja) * 2021-01-22 2022-08-03 理想科学工業株式会社 通信システム、ユーザ端末、サーバ装置、通信方法、及び通信プログラム
JP2022112972A (ja) * 2021-01-22 2022-08-03 理想科学工業株式会社 通信システム、管理者端末、サーバ装置、通信方法、及び通信プログラム
CN115409035A (zh) * 2022-06-02 2022-11-29 北京金堤科技有限公司 交谈信息获取方法、装置、存储介质和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260955A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 情報収集装置、情報評価装置、情報処理システム、情報収集方法、情報評価方法及び情報処理方法
JP2000276394A (ja) * 1999-03-22 2000-10-06 Sharp Corp ウェブページ情報中継システムおよびウェブページ情報中継方法
JP2001067283A (ja) * 1999-08-26 2001-03-16 Dokomo Eng Kk ホームページ配信装置
JP2003208445A (ja) * 2002-01-16 2003-07-25 Junichi Sato ホームページのurlを抽出し配信するシステム
JP2003256316A (ja) * 2002-02-26 2003-09-12 Mitsubishi Electric Corp 情報提供装置、情報提供システム及び情報提供方法並びにプログラム
JP2004062479A (ja) * 2002-07-29 2004-02-26 Fujitsu Ltd 情報収集装置、方法及びプログラム
JP2004145427A (ja) * 2002-10-22 2004-05-20 Hitachi Electronics Service Co Ltd ホームページ更新通知システム
JP2004178072A (ja) * 2002-11-25 2004-06-24 Oki Electric Ind Co Ltd Webページ更新通知方法及び装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260955A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 情報収集装置、情報評価装置、情報処理システム、情報収集方法、情報評価方法及び情報処理方法
JP2000276394A (ja) * 1999-03-22 2000-10-06 Sharp Corp ウェブページ情報中継システムおよびウェブページ情報中継方法
JP2001067283A (ja) * 1999-08-26 2001-03-16 Dokomo Eng Kk ホームページ配信装置
JP2003208445A (ja) * 2002-01-16 2003-07-25 Junichi Sato ホームページのurlを抽出し配信するシステム
JP2003256316A (ja) * 2002-02-26 2003-09-12 Mitsubishi Electric Corp 情報提供装置、情報提供システム及び情報提供方法並びにプログラム
JP2004062479A (ja) * 2002-07-29 2004-02-26 Fujitsu Ltd 情報収集装置、方法及びプログラム
JP2004145427A (ja) * 2002-10-22 2004-05-20 Hitachi Electronics Service Co Ltd ホームページ更新通知システム
JP2004178072A (ja) * 2002-11-25 2004-06-24 Oki Electric Ind Co Ltd Webページ更新通知方法及び装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230303A (ja) * 2008-03-21 2009-10-08 Sankyo Co Ltd サーバシステム
JP2010231508A (ja) * 2009-03-27 2010-10-14 Kddi Corp 重要度判定装置、重要度判定方法、およびプログラム
JP2012529688A (ja) * 2009-06-23 2012-11-22 北京捜狗科技▲発▼展有限公司 更新通知方法、およびシステム
JP2022112993A (ja) * 2021-01-22 2022-08-03 理想科学工業株式会社 通信システム、ユーザ端末、サーバ装置、通信方法、及び通信プログラム
JP2022112972A (ja) * 2021-01-22 2022-08-03 理想科学工業株式会社 通信システム、管理者端末、サーバ装置、通信方法、及び通信プログラム
JP7369730B2 (ja) 2021-01-22 2023-10-26 理想科学工業株式会社 通信システム、ユーザ端末、サーバ装置、通信方法、及び通信プログラム
JP7429659B2 (ja) 2021-01-22 2024-02-08 理想科学工業株式会社 通信システム及び通信方法
CN115409035A (zh) * 2022-06-02 2022-11-29 北京金堤科技有限公司 交谈信息获取方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
JP5063877B2 (ja) 2012-10-31

Similar Documents

Publication Publication Date Title
JP3692054B2 (ja) 文書構造変換方法および文書構造変換装置およびプログラム
US7254593B2 (en) System and method for tracking annotations of data sources
JP3178475B2 (ja) データ処理装置
JP5063877B2 (ja) 情報処理装置およびコンピュータプログラム
US7996364B2 (en) Information processing apparatus and control method thereof, and document verification apparatus and control method thereof
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20110252313A1 (en) Document information selection method and computer program product
JP5712496B2 (ja) アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置
US10275127B2 (en) Client apparatus, information processing system, information processing method, and non-transitory computer readable medium
US20090254520A1 (en) System and method for synchronizing data record with web document in a content management system
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
KR101251686B1 (ko) 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
JP2006185059A (ja) コンテンツ管理装置
JP3882729B2 (ja) 情報開示プログラム
JP4393498B2 (ja) 構造化文書管理システム及びプログラム
JP5391738B2 (ja) アノテーションプログラム、アノテーション装置及びアノテーション方法
JP5765452B2 (ja) アノテーション付与復元方法及びアノテーション付与復元装置
JP2008084128A (ja) 構造化文書の要素指定装置、要素指定方法及び要素指定プログラム
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP4521413B2 (ja) データベース管理システム及びプログラム
JP2006004308A (ja) ハイパーリンク自動生成システム
JP3725836B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法
JPH11249941A (ja) 整理用ファイル生成方法
JP2005107866A (ja) プログラム、データ処理方法およびコンピュータ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100722

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101019

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110113

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110121

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110218

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees