JP2015143925A - 更新監視方法、更新監視プログラム及び更新監視装置 - Google Patents

更新監視方法、更新監視プログラム及び更新監視装置 Download PDF

Info

Publication number
JP2015143925A
JP2015143925A JP2014016911A JP2014016911A JP2015143925A JP 2015143925 A JP2015143925 A JP 2015143925A JP 2014016911 A JP2014016911 A JP 2014016911A JP 2014016911 A JP2014016911 A JP 2014016911A JP 2015143925 A JP2015143925 A JP 2015143925A
Authority
JP
Japan
Prior art keywords
web page
user
update
document information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014016911A
Other languages
English (en)
Other versions
JP6373592B2 (ja
Inventor
祐二 新井
Yuji Arai
祐二 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maeda Corp
Original Assignee
Maeda Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maeda Corp filed Critical Maeda Corp
Priority to JP2014016911A priority Critical patent/JP6373592B2/ja
Publication of JP2015143925A publication Critical patent/JP2015143925A/ja
Application granted granted Critical
Publication of JP6373592B2 publication Critical patent/JP6373592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知する。【解決手段】更新監視方法は、ウェブページの内容を記述する文書情報を継続的に取得し、所定の抽出範囲を示す位置情報に基づき文書情報からテキストを抽出するステップと、抽出されたテキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップとをコンピュータが実行する。【選択図】図7

Description

本件は、更新監視方法、更新監視プログラム及び更新監視装置に関する。
従来、ユーザが情報通信端末を起動することなくウェブページの情報が更新されているか否かを報知することが可能なルータが提案されている(例えば、特許文献1)。また、RSS(Rich Site Summary,Really Simple Syndication,RDF Site Summary)形式やATOM形式(Atom Syndication Format)等による更新情報を監視するための監視情報へ
アクセスするための監視URIを生成し、PC等が無い状況においてウェブページの更新監視を容易にする技術が提案されている(例えば、特許文献2)。
特開2010−258859号公報 特開2010−102488号公報
従来、ウェブページを監視し、更新を報知する技術は提案されていた。しかしながら、更新の有無に基づいて報知を行うため、更新の内容はユーザがブラウザ等で表示して確認する必要があった。すなわち、更新の内容が何らかの条件を満たすか判断し、報知するか否かを決定するような技術は存在していなかった。
そこで、本発明は、ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知する技術を提供することを目的とする。
上記課題を解決するため、本発明に係る更新監視方法は、ウェブページの内容を記述する文書情報を継続的に取得し、所定の抽出範囲を示す位置情報に基づき文書情報からテキストを抽出するステップと、抽出されたテキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップとをコンピュータが実行する。
このようにすれば、ウェブページの内容を記述する文書情報から抽出したテキストが所定の条件を満たす場合に報知情報が生成される。したがって、ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知することができる。
また、位置情報を、文書情報に含まれる要素の種別及び出現順位を用いた木構造のノードとして設定するステップをさらに実行するようにしてもよい。具体的に位置情報をこのような構成とすれば、文書中から抽出範囲を一意に指定することができる。
また、所定の条件は、テキストに含まれる数値を用いた不等式、所定文字列の検知、又は以前に取得したテキストからの変化の検知であってもよい。このようにすれば、ウェブページの内容に応じて、報知する場合の条件についてユーザは自由に設定を行うことができるようになる。
上記課題を解決するための手段の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、上記手段をコンピュータに実行させるプ
ログラムや、上記手段を実行する処理部を備えた装置を提供するようにしてもよい。プログラムは、コンピュータが読み取り可能な記録媒体に記録して提供するようにしてもよい。コンピュータが読み取り可能な記録媒体とは、情報を電気的、磁気的、光学的、機械的、又は化学的作用によって蓄積し、コンピュータによって読み取ることができる記録媒体をいう。このような記録媒体のうち、コンピュータから取り外し可能なものとしては、例えば光ディスク、光磁気ディスク、フレキシブルディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としてHDD(Hard Disk Drive)、
SSD(Solid State Drive)、ROM(Read Only Memory)等がある。
本発明によれば、ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知する技術を提供することができる。
本発明に係るシステムの一例を示す構成図である。 監視装置の一例を示す機能ブロック図である。 コンピュータの一例を示す装置構成図である。 設定処理の一例を示す処理フロー図である。 設定画面の一例を示す図である。 座標設定画面の一例を示す図である。 監視処理の一例を示す処理フロー図である。
以下、本発明を実施するための形態について、図面を参照しつつ説明する。なお、実施の形態に示す構成は例示であり、本発明は実施の形態の構成に限定されない。
<システム構成>
図1は、実施の形態に係るシステムの一例を示す構成図である。本実施形態に係るシステムは、監視処理を行う監視装置1と、監視の対象となるウェブサーバ2と、ユーザへ電子メール(単に「メール」とも呼ぶ)を送信して更新を報知するためのメールサーバ3と、ユーザ端末4とを含む。また、監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、インターネット等のネットワーク5を介して接続されている。なお、各装置は便宜上1つずつ示しているが、複数存在してもよい。例えば、監視対象のウェブサーバ2やユーザ端末4が複数存在してもよい。また、メールサーバ3は、送信処理を行うSMTP(Simple Mail Transfer Protocol)サーバと、受信処理を行うPOP3サーバ、I
MAP4サーバ等の受信サーバとを含んでいてもよい。
監視装置1は、ウェブサーバ2から、HTML(HyperText Markup Language)やXM
L(Extensible Markup Language)等でウェブページの内容を記述するHTML文書やXML文書等(「文書情報」とも呼ぶ)を取得する。そして、文書情報のうち所定の抽出範囲に含まれる内容(「テキスト」とも呼ぶ)が予め設定された条件に合致する場合、監視装置1はメールサーバ3を介してユーザ端末4に更新を報知する。ウェブサーバ2は、他者が管理するウェブサイトを公開する装置である。ウェブサイトに含まれる複数のウェブページは、それぞれ任意のタイミングでその一部又は全部が更新される。メールサーバ3は、例えばSMTPサーバであり、指定された宛先へメールを送信する。なお、送信されたメールは、受信サーバを介し、POP3やIMAP4、その他プッシュ型電子メールのプロトコル等に従って、ユーザ端末4に伝送される。ユーザ端末4は、携帯電話機やスマートフォン、タブレット端末、ノート型PC(Personal Computer)等の通信機能を備え
た情報端末である。
<監視装置>
図2は、監視装置1の一例を示す機能ブロック図である。監視装置1は、データ記憶部101、ページデータ取得部102、抽出範囲設定部103、報知条件設定部104、設定範囲抽出部105、報知処理部106及びエラー処理部107を有する。データ記憶部101は、監視対象のウェブページのURI(Uniform Resource Identifier)、当該ウ
ェブページから内容を抽出する範囲を示す位置情報(「座標」とも呼ぶ)、報知を行う条件、報知する宛先のメールアドレス等の設定情報を記憶したり、ネットワーク5を介して取得したウェブページを記述する文書情報を一時的に記憶したりする。ページデータ取得部102は、設定処理及び監視処理において、ネットワーク5を介してウェブサーバ2から文書情報を取得し、データ記憶部101に記憶させる。抽出範囲設定部103は、ユーザの操作に基づいて、ウェブページのうち更新の確認を行うために抽出する範囲の指定を受け付け、データ記憶部101に記憶させる。報知条件設定部104は、ユーザの操作に基づいて、報知を行う条件の指定を受け付け、データ記憶部101に記憶させる。また、設定範囲抽出部105は、ページデータ取得部102が取得した文書情報から、予めデータ記憶部101に記憶されている設定範囲を抽出する。報知処理部106は、抽出した範囲のデータを用いて、設定されている条件を満たすか判断し、条件を満たす場合にはネットワーク5及びメールサーバ3を介してユーザ端末4へ更新を報知する。エラー処理部107は、文書情報の取得に失敗した場合や取得した内容が想定されるデータ型と異なっている場合等に、ネットワーク5及びメールサーバ3を介してユーザ端末4へエラーの発生を通知する。
<装置構成>
図3は、コンピュータの一例を示す装置構成図である。監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、図3に示すようなコンピュータである。例えば、ユーザ端末4は、携帯電話機、スマートフォン、タブレット(スレートPC)等であってもよい。図3に示すコンピュータ1000は、CPU(Central Processing Unit)100
1、主記憶装置1002、補助記憶装置1003、通信IF(Interface)1004、入
出力IF(Interface)1005、ドライブ装置1006、通信バス1007を備えてい
る。CPU1001は、プログラム(「ソフトウェア」又は「アプリケーション」とも呼ぶ)を実行することにより本実施の形態に係る処理を行う。主記憶装置1002は、CPU1001が読み出したプログラムやデータをキャッシュしたり、CPUの作業領域を展開したりする。主記憶装置は、具体的には、RAM(Random Access Memory)やROM(Read Only Memory)等である。補助記憶装置1003は、CPU1001により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置1003は、具体的には、HDD(Hard-disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等である。主記憶装置1002や補助記憶装置1003は、監視装置1のデータ記憶部101として働く。通信IF1004は、他のコンピュータとの間でデータを送受信する。通信IF1004は、具体的には、有線又は無線のネットワークカード等である。監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、通信IF1004を介してネットワーク5に接続されている。入出力IF1005は、入出力装置と接続され、ユーザから操作を受け付けたり、ユーザへ情報を提示したりする。入出力装置は、具体的には、キーボード、マウス、ディスプレイ、タッチパネル等である。ドライブ装置1006は、磁気ディスク、光磁気ディスク、光ディスク等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。以上のような構成要素が、通信バス1007で接続されている。なお、これらの構成要素はそれぞれ複数設けられていてもよいし、一部の構成要素(例えば、ドライブ装置1006等)を設けないようにしてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。また、ドライブ装置1006で読み取り可能な可搬性の記憶媒体や、フラッシュメモリのような可搬性の補助記憶装置1003、通信IF1004などを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、CPU1001がプログラムを実行する
ことにより、図3に示したコンピュータを監視装置1として働かせる。
<設定処理>
次に、ウェブページの更新を監視するための設定を行う設定処理について説明する。設定処理では、ユーザによる入力に基づいて、監視対象となるウェブページや、抽出する範囲、報知する条件等を設定する。なお、本実施形態では、監視対象のウェブページとして、行政機関が公開する防災情報のページを例に説明する。具体的には、防災情報として、河川の所定位置において観測している水位を一定時間ごとに公開するページを監視するものとする。本実施形態ではウェブページのうち抽出する範囲を指定し、当該範囲の内容がユーザによって定められた条件を満たす場合に、報知を行うものとする。
図4は、設定処理の一例を示す処理フロー図である。図5は、設定処理において監視装置1のディスプレイに表示される設定画面の一例である。設定処理では、図5に示すような項目に対してユーザが値を入力し、監視装置1のデータ記憶部101に登録する。具体的には、「接続先情報1」の欄に示す接続先のURLと、接続先のページから抽出する範囲を示す「基準座標」(「位置情報」とも呼ぶ)と、抽出した範囲の内容がどのような条件を満たす場合にユーザに報知するのかを規定する「データ判断」の欄の「閾値」とが少なくとも登録される。
まず、監視装置1のページデータ取得部102は、図5に示すような画面をディスプレイに表示させる。そして、ユーザが「接続先情報1」の「URL」欄にURLを入力し、「基準座標」欄の「取得」ボタンを押下すると、入力されたURLに接続してウェブページのHTMLソースコード(すなわち、文書情報)を取得する(図4:S11)。ここでは、図6に示すような「座標設定」画面が監視装置1のディスプレイに表示される。取得した文書情報はデータ記憶部101に一時的に保持され、図6の「プレビュー」欄にウェブページが表示される。なお、ユーザがURLの入力を省略して「取得」ボタンを押下した場合、「座標設定」画面の「プレビュー」欄に所定の検索サイトを表示するようにしてもよい。この場合、ユーザの操作によって監視対象のサイトへ移動させることで監視対象のウェブページの文書情報を取得する。
次に、監視装置1の抽出範囲設定部103は、ユーザの操作によって抽出範囲の指定を受け付け、データ記憶部101に記憶させる(S12)。本実施形態では、HTML要素(単に「要素」とも呼ぶ)をノードとする木構造で表される文書情報の、要素の種別(例えばタグ名)及び要素の出現順位を用いて、抽出範囲を表す。なお、要素とは、HTML文書における開始タグ、内容及び終了タグを含む単位をいうものとする。また、要素の種別とは、タグ名(要素名)の他、要素の内容のデータ型(数字、英字、英数字等)によって指定できるようにしてもよい。
例えば、HTML文書において、1番目のテーブルの2行3列目を指定する場合、例えば「座標」欄には次のような表現形式で位置情報(座標とも呼ぶ)が表示される。
Html_{Table,1}_{Tr,2}_{Td,3}
当該表現は、HTML要素を入れ子状に含むHTML文書を、HTML要素をノードとする木構造(順序木)として捉え、ルート(根)であるHTML要素(Html)と、その下位階層に含まれる1番目のテーブル要素({Table,1})と、さらにその下位階層に含まれる
2番目のTR要素({Tr,2})と、さらにその下位階層に含まれる3番目のTD要素({Td,3})とをアンダーバー(_)で接続して表している。ここで、下位階層とは、上位の要素
を親とする部分木である。なお、出現順位は、0(ゼロ)からカウントするようにしてもよい。このような表現方法によれば、HTML文書中から抽出したい要素(ひいては要素に含まれる内容)を一意に特定することができる。
また、図6に示す「座標設定」画面上をポインタ(カーソル)で指定することによりユーザは容易に「座標」欄の設定ができる。図6のURL欄には、図5の接続先情報1の「URL」欄に入力したURLが表示される。なお、「URL」欄には、ユーザが直接文字列を入力することもできる。また、「プレビュー」欄には、「URL」欄に入力されたURLにアクセスすることで取得されるウェブページが表示される。表示は、ユーザが「移動」ボタンを押下することにより行われる。すなわち、「URL」欄及び「プレビュー」欄は、いわゆるインターネットブラウザとして機能する。また、「構造解析」欄には、ウェブページの抽出範囲に含まれる要素の内容が表示される。そして、ユーザは、「構造解析」欄に表示された要素をポインタで指定することにより、抽出範囲を限定していくことができる。また、「座標」欄の右の「←」ボタンを押下することで、抽出範囲の限定を1階層分戻ることができる。なお、図6の例では、「構造解析」欄の表示は、下位階層に含まれる要素の内容を表示する「パラメータ」モードのほか、ウェブブラウザと同等の形式で表示する「Web表示」モード、HTMLソースを表示する「HTMLテキスト」モードをラジオボタンで変更できるようになっている。
抽出範囲は、上述の表現形式で「座標」欄に表示される。また、画面左下の要素名(タグ名)ボタンを押下することにより、「構造解析」欄に表示される内容を分解することができる。図6の例では、「Table」、「Th」、「Tr」、「Td」、「Div」、「Span」、「A」、「B」、「Ul」、「Li」、「P」、「Fieldset」、「Legend」、「Font」、「Strong」、「Label」の要素名ボタンを示しているが、その他のタグで分解できるようにしてもよい。そして、ユーザは、抽出範囲の下位階層に含まれる要素名のボタンをクリックすることができる。抽出範囲よりも下位階層に含まれていない要素についてはグレーアウトして選択不可能にしてもよい。ユーザがボタンを押下すると、押下された要素名を親ノードとする部分木が「構造解析」欄に表示される。ユーザは、要素名ボタンを用いて要素を絞りつつ「構造解析」欄において要素の選択を繰り返すことで、監視対象のウェブページから内容を抽出する範囲を設定することができる。
図6の例では、「プレビュー」欄にウェブページが表示されている。ウェブページには、○○川の××地点における10分毎の水位が掲載されている。図6は、抽出範囲として1番目の表(すなわち、文書情報において1番目に出現するTableタグ)の2行目(すなわち、Table要素内において2番目に出現するTrタグ)を指定し、さらに2行目に含まれる複数の列を構造解析した状態を示している。このとき、「座標」欄には「Html_{Table,1}_{Tr,2}_Td」と表示され、「構造解析」欄には1番目の表の2行目に含まれる1番目から4番目の列の内容である「1/23」、「10:00」、「−1.04m」及び「↓」が列ごと(すなわち、TD要素ごと)に分解されて表示されている。1番目の表の2行目のいずれかの列に「A」タグが含まれ、それ以外の要素を含まない場合、「A」の要素名ボタンは押下可能となり、それ以外の要素名ボタンはグレーアウト(図面上はハッチングを追加)される。この場合において、ユーザが3番目の列の内容を示す「−1.04m」をクリックすると、抽出範囲として1番目の表の2行目の3列目が指定され、「座標」欄には「Html_{Table,1}_{Tr,2}_{Td,3}」と表示される。
なお、要素の出現順位は、下位階層の中で後ろから数えるようにしてもよい。例えば、図6において「Last」ボタンは、「座標」欄に表示された抽出範囲に含まれる要素のうち、最も後に出現する要素を指定する。また、「Ntl」ボタンは、「座標」欄に表示された要素のうち、後ろから2番目に出現する要素を指定する。なお、後ろから任意の順位の要素を指定できるようにしてもよい。例えば、「座標」欄の抽出範囲において、「[]」(角括弧、ブラケット)で順位を入力した場合、後ろからの順位を表すものとする。このような指定ができれば、ウェブページの更新時に新たなデータがページの最下部に追加されていくような場合において、最新の追加事項を抽出できるようになる。例えば、1番
目のテーブルの最後の行の3列目の要素を抽出する場合、以下のような表現形式で座標が設定される。
Html_{Table,1}_{Tr,Last}_{Td,3}
なお、同様の座標を以下のような表現形式で設定するようにしてもよい。このような形式であれば、後ろから前に向かってカウントした場合の出現順位をより汎用的に表すことができる。
Html_{Table,1}_{Tr,[1]}_{Td,3}
また、上述の座標を表す要素の種別として、開始タグと終了タグの間に記載されている内容が「文字のみ」又は「数字のみ」の要素のうち任意の順位の要素を指定できるようにしてもよい。例えば、図6の画面右下の「文字のみ」ボタン、「数字のみ」ボタンにより指定できるようにする。例えば、「数字のみ」を指定した場合、「−0.4」や「123」のように内容が数字のみの要素のうち、指定された順位のものが抽出される。ここで、「−0.4m」や「1/23」のように、内容に「m」や「/」といった文字を含む要素は、抽出の対象とされない。1番目のテーブルの2行目の要素のうち、3番目の数字(図6の例では該当する抽出対象なし)を抽出する場合、例えば以下のような表現形式で座標が設定される。
Html_{Table,1}_{Tr,2}_{[Number],3}
同様に、「文字のみ」を指定した場合、0〜9の数字を内容に含まない文字のみの要素を抽出対象とする。
また、本実施形態では、要素の内容を抽出し、後述するように抽出した内容が所定の条件を満たす場合にユーザへ報知する。例えば、抽出する内容が河川のある地点における水位の値であって、水位が所定の閾値以上の場合に報知したいとき、抽出する内容が数値及び単位(例えば、メートル)を含むと大小比較をする上で都合が悪い。そこで、図6の画面右下の「数字抽出」ボタン、「英字抽出」ボタン、「英数字抽出」ボタンにより、数字のみ、英字のみ、英数字のみを抽出できるようにする。例えば、「−0.4m」のように、抽出されるテキストが数字(マイナス記号及び小数点を含む)と、その他の文字列とを含む場合、「−0.4」のように数字のみを抽出できるようになる。さらに、桁区切りのカンマが含まれているときは、カンマも削除するようにしてもよい。1番目のテーブルの2行3列目の要素から数字のみを抽出する場合、例えば以下のような表現形式で座標が設定される。
Html_{Table,1}_{Tr,2}_Td_{<exnumber>,3}
そして、図6の「座標登録」ボタンをユーザが押下することにより、座標(抽出範囲)がデータ記憶部101に記憶される。また、図5に示した設定画面の「基準座標」欄には、上述のような表現形式で座標が表示される。
次に、監視装置1の報知条件設定部103は、ユーザの操作によって報知条件の指定を受け付け、データ記憶部101に記憶させる(S13)。本ステップでは、図5に示した設定画面において、「データ判断」欄にユーザが条件を入力する。例えば、「閾値」の欄に数値を入力した場合、抽出範囲の内容が閾値を上回ったこと又は下回ったことを検知したときにユーザへ報知する。例えば、ウェブページの所定範囲を監視し、河川の水位が所定値以上に上昇したこと又は所定値未満に減少したことを報知できるようになる。また、「閾値」の欄に文字列を入力した場合は、抽出範囲の内容が入力された文字列を含むときにユーザへ報知する。具体的には、ウェブページの所定範囲を監視し、「警報」、「注意報」、「New」等の文字列が含まれることを報知できるようになる。また、「変化チェック」のチェックボックスにチェックを入れた場合、抽出範囲の内容がそれ以前に抽出した内容から変化しているときにユーザへ報知する。具体的には、ウェブページの所定範囲を監視し、何らかの更新があったことを報知できるようになる。
また、「データ判断」欄の「メール題名」欄及び「メール内容」欄には、上述の条件を満たした場合にユーザへ送信するメールの題名及び内容を入力する。ここでは、検知した更新の内容がわかるようなメールを送信することが好ましい。以上のような報知条件の指定を1つの「基準」として、複数の「基準」を設定できるようにしてもよい。図5の例では、「基準1」から「基準5」までの設定を行うことができ、所定の優先順位で判断が行われる。このようにすれば、水位の程度に応じて段階的に内容の異なるメールを送信することができるようになる。また、「繰り返し送信」のチェックボックスにチェックを入れた場合は、設定した条件を満たすたびに報知を行うものとする。
少なくとも上述のような設定を行うことで、設定処理を終了する。図5の設定画面において「保存」ボタンが押下されると、設定の内容がデータ記憶部101に記憶される。
また、ユーザへの報知を行う際の宛先となるメールアドレスや、送信処理に用いるSMTPサーバ(メールサーバ3)のアドレス、使用するポート番号、ユーザIDやパスワードといったアカウント情報、監視対象のウェブページをクロール(巡回)する間隔等を、予めデータ記憶部101に記憶させておく。
なお、設定処理においてさらに別の項目を設定してもよい。例えば、図5の「接続先情報2」に、接続パラメータを設定するようにしてもよい。設定された接続パラメータは、例えば送信方法が「GET」の場合、URLの後部に「?」で結合するリクエストパラメータとして送信される。なお、「Key」の値と「Value」の値とは、「=」で結合されて送信される。また、複数の接続パラメータが設定されている場合は、各接続パラメータが「&」で結合されて送信される。一方、送信方法が「POST」の場合は、POSTリクエストメッセージとして接続パラメータを送信する。URLの後部にリクエストパラメータとして情報を付加するよりも安全性を高めることができる。接続情報2は、監視対象のウェブページに応じて必要であれば設定する。
また、図5の「メール添付」欄に、ユーザへ送信するメールに監視対象のウェブページの一部を添付するための設定を入力するようにしてもよい。添付する範囲は、上述の「基準座標」と同様の表現形式で「送信座標1」から「送信座標5」に設定される。それぞれ、「取得」ボタンから図6に示したような座標設定画面を用いて設定できるようにしてもよい。また、「名称」欄には添付データの名称を設定する。このようにすれば、具体的な更新の内容をユーザへ報知することができるようになる。
以上のような設定処理により、ウェブページの所定範囲の更新内容が予め定められが条件を満たす場合にユーザに報知することができるようになる。他者が管理するウェブページは予期しないタイミングで構成が刷新されることもあるところ、監視対象のウェブページに合わせて専用のプログラムを作成し直すのは手間がかかる。本実施形態に係る監視装置1によれば、ユーザは監視対象のウェブページを表示させつつ抽出範囲及び報知条件を容易に設定することができる。なお、本実施形態ではユーザは監視装置1を直接操作して設定処理を行うものとしたが、このような例には限定されない。例えば、ユーザは、ユーザ端末4を操作し、ネットワーク5を介して監視装置1に設定を行うようにしてもよい。
<監視処理>
次に、ウェブページの更新を監視する監視処理について説明する。図7は、監視処理の一例を示す処理フロー図である。まず、監視装置1のページデータ取得部102は、データ記憶部101に記憶されている設定情報を読み出し、接続先情報のURLに基づいてウェブページを規定するHTML文書等を取得する(図7:S21)。例えば、ページデータ取得部102は、ネットワーク5を介してウェブサーバ2から、上述のような河川の水
位を公開するウェブページの文書情報を取得する。
また、監視装置1の設定範囲抽出部105は、データ記憶部101に記憶されている設定情報に基づき、設定範囲を抽出する(S22)。設定範囲は、設定処理のS12において設定された座標である。設定範囲抽出部105は、座標に基づいて文書情報から抽出範囲に含まれる要素を特定し、要素の内容(すなわち、開始タグと終了タグとの間に記述されたテキスト(文字列))を抽出する。設定に応じて、抽出範囲に含まれる要素のうち数値のみを抽出するようにしてもよい。本実施形態では、水位を示す数値が抽出される。なお、抽出したデータはデータ記憶部101にログとして記憶させるようにしてもよい。また、定期的にウェブページを巡回して、前回の抽出値と比較するようにしてもよい。
次に、監視装置1の報知処理部106は、抽出した要素の内容が、データ記憶部101に記憶されている所定の条件を満たすか判断する(S23)。所定の条件は、設定処理のS13において設定された条件である。そして、条件を満たすと判断された場合(S23:YES)、報知処理部106は、ネットワーク5及びメールサーバ3を介してユーザ端末4へ更新を検知した旨を報知する(S24)。本実施形態では、設定された内容の電子メール(「報知情報」とも呼ぶ)を生成し、所定の宛先に送信することにより報知を行う。なお、電子メールの送信には既存の技術を利用することができる。
S23及びS24では、例えば、「閾値」として数値を記憶している場合、抽出範囲の内容が入力された閾値をまたいで変化したか判断する。具体的には、抽出したテキストを数値として扱い、前回の判断において閾値未満だった場合であって今回の値が閾値以上であるとき、又は前回の判断において閾値以上であった場合であって今回の値が閾値未満であるとき、報知処理部106は条件を満たすと判断する。なお、閾値を上回っている場合又は閾値を下回っている場合のいずれかについて、条件を満たすと判断するようにしてもよい。また、「閾値」のとして文字列を記憶している場合は、抽出範囲の内容が入力された文字列を含むときにユーザへ報知する。具体的には、ウェブページの所定範囲を監視し、「警報」、「注意報」、「New」等の文字列が含まれることを報知できるようになる。「変化チェック」を行う旨が記憶されている場合は、過去に抽出したログのうち最新の内容と、新たに抽出した内容とが異なるときにユーザへ報知する。
また、S23において条件を満たさないと判断された場合(S23:NO)、又はS24の後、監視装置1のエラー処理部107は、エラーが発生したか判断する(S25)。そして、エラーが発生したと判断された場合(S25:YES)、エラー処理部107はネットワーク5及びメールサーバ3を介してユーザ端末4へエラーを検知した旨を報知する(S26)。S25及びS26では、例えば、通信障害により監視対象のウェブページを取得できなかった場合や、抽出した内容と予め設定されている閾値との大小比較を行うべきところ、抽出した内容が文字列であったような場合にエラーを報知する。本実施形態に係る監視対象のウェブページは、他者が管理するものであるところ、予期しないタイミングで内容が大幅に変更されることがある。エラー処理は、ウェブページの仕様変更を検知する機会にもなる。
そして、S25においてエラーが発生していないと判断された場合(S25:NO)、又はS26の後、例えばページデータ取得部102は、処理を終了するか判断する(S27)。例えば、監視対象のウェブページをクロールする間隔が予め設定されているような場合は、ユーザの操作によって処理の終了が指示されるまで所定の間隔でページデータの取得を繰り返すものとする。処理を終了しないと判断された場合(S27:NO)、処理はS21に遷移し、上述の処理を所定の間隔で継続的に実行する。一方、処理を終了すると判断された場合(S27:YES)、監視処理を終了する。
<効果>
本実施形態によれば、ウェブページの監視範囲の指定及び更新が所定の条件を満たすか否かの判断を行うことができるようになる。そして、ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知することができるようになる。特に、HTMLソースコードのような文書情報に含まれる要素の種別及び出現順位を用いた木構造のノードとして表すことにより、抽出範囲を示す位置情報を一意に特定することができるようになっている。
例えば、河川敷で橋脚の工事を行っているような場合、本実施形態によれば上流の水位の情報をいち早く得ることができ、作業の安全性を向上させることができる。
<その他>
本発明は、上述の例に限定されるものではなく、本発明の要旨を逸脱しない範囲内において様々に変更することができる。例えば、監視対象のウェブページは特定の内容には限られない。河川の水位の他、ダムの放流量、降水量、気象に関する警報や注意報等を監視するようにしてもよい。また、株価の推移を監視し、閾値以上又は閾値以下になった場合に報知させるようにしてもよい。また、ショッピングサイトにおいて商品の価格や在庫状況を監視したりすることもできる。さらに、ニュースサイトにおいて野球等の試合の得点(例えば、合計点)を監視し、得点が入ったときにのみ報知させるようにしてもよい。
また、電子メール以外の方法により報知を行うようにしてもよい。例えば、RSS(RDF Site Summary/Really Simple Syndication/Rich Site Summary)、ATOM等の規格に基づく報知情報を生成し、メールサーバ3に代えて所定の配信サーバからユーザ端末4へ報知情報を配信するようにしてもよい。このような構成であっても、監視対象のウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知することができるようになる。
1 監視装置
101 データ記憶部
102 ページデータ取得部
103 抽出範囲設定部
104 報知条件設定部
105 設定範囲抽出部
106 報知処理部
107 エラー処理部
2 ウェブサーバ
3 メールサーバ
4 ユーザ端末
5 ネットワーク

Claims (5)

  1. ウェブページの内容を記述する文書情報を継続的に取得し、所定の抽出範囲を示す位置情報に基づき前記文書情報からテキストを抽出するステップと、
    抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップと、
    をコンピュータが実行する更新監視方法。
  2. 前記位置情報を、前記文書情報に含まれる要素の種別及び出現順位を用いた木構造のノードとして設定するステップ
    をさらに実行する請求項1に記載の更新監視方法。
  3. 前記所定の条件は、前記テキストに含まれる数値を用いた不等式、所定文字列の検知、又は以前に取得した前記テキストからの変化の検知である
    請求項1又は2に記載の更新監視方法。
  4. ウェブページの内容を記述する文書情報を継続的に取得し、所定の抽出範囲を示す位置情報に基づき前記文書情報からテキストを抽出するステップと、
    抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップと、
    をコンピュータに実行させる更新監視プログラム。
  5. ウェブページの内容を記述する文書情報を継続的に取得し、所定の抽出範囲を示す位置情報に基づき前記文書情報からテキストを抽出する抽出部と、
    抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成する報知部と、
    を含む更新監視装置。
JP2014016911A 2014-01-31 2014-01-31 更新監視方法、更新監視プログラム及び更新監視装置 Active JP6373592B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014016911A JP6373592B2 (ja) 2014-01-31 2014-01-31 更新監視方法、更新監視プログラム及び更新監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014016911A JP6373592B2 (ja) 2014-01-31 2014-01-31 更新監視方法、更新監視プログラム及び更新監視装置

Publications (2)

Publication Number Publication Date
JP2015143925A true JP2015143925A (ja) 2015-08-06
JP6373592B2 JP6373592B2 (ja) 2018-08-15

Family

ID=53888923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014016911A Active JP6373592B2 (ja) 2014-01-31 2014-01-31 更新監視方法、更新監視プログラム及び更新監視装置

Country Status (1)

Country Link
JP (1) JP6373592B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054232A (ja) * 2015-09-08 2017-03-16 株式会社東芝 情報抽出装置、情報抽出方法及び情報抽出プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
JP2001249874A (ja) * 2000-03-08 2001-09-14 Sky Com:Kk 情報収集装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
JP2001249874A (ja) * 2000-03-08 2001-09-14 Sky Com:Kk 情報収集装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小松原 健: "注目のインターネット技術 Webページの変更をメールで通知,数値,キーワードなど詳細に設定可能", 日経インターネットテクノロジー, vol. 第38号, JPN6017035719, 22 August 2000 (2000-08-22), JP, pages 122 - 125, ISSN: 0003643863 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054232A (ja) * 2015-09-08 2017-03-16 株式会社東芝 情報抽出装置、情報抽出方法及び情報抽出プログラム

Also Published As

Publication number Publication date
JP6373592B2 (ja) 2018-08-15

Similar Documents

Publication Publication Date Title
US11562099B1 (en) Sanitization of content displayed by web-based applications
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
US20160085752A1 (en) Method and system for document retrieval with selective document comparison
US9697500B2 (en) Presentation of information describing user activities with regard to resources
CN108089974A (zh) 利用定义的输入格式来测试应用
CN103714115A (zh) 一种网页内容的加载方法和装置
WO2016018681A2 (en) Presenting dataset of spreadsheet in form based view
US9560001B1 (en) Managing notifications across services
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
CN103207892A (zh) 一种用于经由网络分享文档的方法和装置
JP6437376B2 (ja) 意思決定支援システム、及び意志決定支援方法
US20150134669A1 (en) Element identification in a tree data structure
US20200067853A1 (en) Information management apparatus and information management method
US20160103799A1 (en) Methods and systems for automated detection of pagination
JP6373592B2 (ja) 更新監視方法、更新監視プログラム及び更新監視装置
CN116842269A (zh) 一种基于政策图谱的政策推荐方法、装置以及电子设备
CN105302776B (zh) 数据校对平台伺服器
JP5585816B2 (ja) ポータルサイト生成システム、ポータルサイト生成方法、及びコンピュータプログラム
JP5068343B2 (ja) 記事管理装置
JPWO2016056054A1 (ja) Webページの表示のためのプログラム、端末装置、およびサーバ装置
KR20190040046A (ko) 정보 수집 시스템, 정보 수집 방법 및 기록 매체
JP2012160111A (ja) メッセージ表示システム、メッセージ表示装置及びメッセージ表示プログラム
JP2013045413A (ja) 入力候補表示方法およびプログラム
CN112148869A (zh) 文本参考信息生成方法、装置、电子设备及存储介质
CN112052368A (zh) 自动提取列表数据的方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150