JP6373592B2 - 更新監視方法、更新監視プログラム及び更新監視装置 - Google Patents
更新監視方法、更新監視プログラム及び更新監視装置 Download PDFInfo
- Publication number
- JP6373592B2 JP6373592B2 JP2014016911A JP2014016911A JP6373592B2 JP 6373592 B2 JP6373592 B2 JP 6373592B2 JP 2014016911 A JP2014016911 A JP 2014016911A JP 2014016911 A JP2014016911 A JP 2014016911A JP 6373592 B2 JP6373592 B2 JP 6373592B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- document information
- text
- extracted
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
アクセスするための監視URIを生成し、PC等が無い状況においてウェブページの更新監視を容易にする技術が提案されている(例えば、特許文献2)。
ログラムや、上記手段を実行する処理部を備えた装置を提供するようにしてもよい。プログラムは、コンピュータが読み取り可能な記録媒体に記録して提供するようにしてもよい。コンピュータが読み取り可能な記録媒体とは、情報を電気的、磁気的、光学的、機械的、又は化学的作用によって蓄積し、コンピュータによって読み取ることができる記録媒体をいう。このような記録媒体のうち、コンピュータから取り外し可能なものとしては、例えば光ディスク、光磁気ディスク、フレキシブルディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としてHDD(Hard Disk Drive)、
SSD(Solid State Drive)、ROM(Read Only Memory)等がある。
図1は、実施の形態に係るシステムの一例を示す構成図である。本実施形態に係るシステムは、監視処理を行う監視装置1と、監視の対象となるウェブサーバ2と、ユーザへ電子メール(単に「メール」とも呼ぶ)を送信して更新を報知するためのメールサーバ3と、ユーザ端末4とを含む。また、監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、インターネット等のネットワーク5を介して接続されている。なお、各装置は便宜上1つずつ示しているが、複数存在してもよい。例えば、監視対象のウェブサーバ2やユーザ端末4が複数存在してもよい。また、メールサーバ3は、送信処理を行うSMTP(Simple Mail Transfer Protocol)サーバと、受信処理を行うPOP3サーバ、I
MAP4サーバ等の受信サーバとを含んでいてもよい。
L(Extensible Markup Language)等でウェブページの内容を記述するHTML文書やXML文書等(「文書情報」とも呼ぶ)を取得する。そして、文書情報のうち所定の抽出範囲に含まれる内容(「テキスト」とも呼ぶ)が予め設定された条件に合致する場合、監視装置1はメールサーバ3を介してユーザ端末4に更新を報知する。ウェブサーバ2は、他者が管理するウェブサイトを公開する装置である。ウェブサイトに含まれる複数のウェブページは、それぞれ任意のタイミングでその一部又は全部が更新される。メールサーバ3は、例えばSMTPサーバであり、指定された宛先へメールを送信する。なお、送信されたメールは、受信サーバを介し、POP3やIMAP4、その他プッシュ型電子メールのプロトコル等に従って、ユーザ端末4に伝送される。ユーザ端末4は、携帯電話機やスマートフォン、タブレット端末、ノート型PC(Personal Computer)等の通信機能を備え
た情報端末である。
図2は、監視装置1の一例を示す機能ブロック図である。監視装置1は、データ記憶部101、ページデータ取得部102、抽出範囲設定部103、報知条件設定部104、設定範囲抽出部105、報知処理部106及びエラー処理部107を有する。データ記憶部101は、監視対象のウェブページのURI(Uniform Resource Identifier)、当該ウ
ェブページから内容を抽出する範囲を示す位置情報(「座標」とも呼ぶ)、報知を行う条件、報知する宛先のメールアドレス等の設定情報を記憶したり、ネットワーク5を介して取得したウェブページを記述する文書情報を一時的に記憶したりする。ページデータ取得部102は、設定処理及び監視処理において、ネットワーク5を介してウェブサーバ2から文書情報を取得し、データ記憶部101に記憶させる。抽出範囲設定部103は、ユーザの操作に基づいて、ウェブページのうち更新の確認を行うために抽出する範囲の指定を受け付け、データ記憶部101に記憶させる。報知条件設定部104は、ユーザの操作に基づいて、報知を行う条件の指定を受け付け、データ記憶部101に記憶させる。また、設定範囲抽出部105は、ページデータ取得部102が取得した文書情報から、予めデータ記憶部101に記憶されている設定範囲を抽出する。報知処理部106は、抽出した範囲のデータを用いて、設定されている条件を満たすか判断し、条件を満たす場合にはネットワーク5及びメールサーバ3を介してユーザ端末4へ更新を報知する。エラー処理部107は、文書情報の取得に失敗した場合や取得した内容が想定されるデータ型と異なっている場合等に、ネットワーク5及びメールサーバ3を介してユーザ端末4へエラーの発生を通知する。
図3は、コンピュータの一例を示す装置構成図である。監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、図3に示すようなコンピュータである。例えば、ユーザ端末4は、携帯電話機、スマートフォン、タブレット(スレートPC)等であってもよい。図3に示すコンピュータ1000は、CPU(Central Processing Unit)100
1、主記憶装置1002、補助記憶装置1003、通信IF(Interface)1004、入
出力IF(Interface)1005、ドライブ装置1006、通信バス1007を備えてい
る。CPU1001は、プログラム(「ソフトウェア」又は「アプリケーション」とも呼ぶ)を実行することにより本実施の形態に係る処理を行う。主記憶装置1002は、CPU1001が読み出したプログラムやデータをキャッシュしたり、CPUの作業領域を展開したりする。主記憶装置は、具体的には、RAM(Random Access Memory)やROM(Read Only Memory)等である。補助記憶装置1003は、CPU1001により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置1003は、具体的には、HDD(Hard-disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等である。主記憶装置1002や補助記憶装置1003は、監視装置1のデータ記憶部101として働く。通信IF1004は、他のコンピュータとの間でデータを送受信する。通信IF1004は、具体的には、有線又は無線のネットワークカード等である。監視装置1、ウェブサーバ2、メールサーバ3及びユーザ端末4は、通信IF1004を介してネットワーク5に接続されている。入出力IF1005は、入出力装置と接続され、ユーザから操作を受け付けたり、ユーザへ情報を提示したりする。入出力装置は、具体的には、キーボード、マウス、ディスプレイ、タッチパネル等である。ドライブ装置1006は、磁気ディスク、光磁気ディスク、光ディスク等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。以上のような構成要素が、通信バス1007で接続されている。なお、これらの構成要素はそれぞれ複数設けられていてもよいし、一部の構成要素(例えば、ドライブ装置1006等)を設けないようにしてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。また、ドライブ装置1006で読み取り可能な可搬性の記憶媒体や、フラッシュメモリのような可搬性の補助記憶装置1003、通信IF1004などを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、CPU1001がプログラムを実行する
ことにより、図3に示したコンピュータを監視装置1として働かせる。
次に、ウェブページの更新を監視するための設定を行う設定処理について説明する。設定処理では、ユーザによる入力に基づいて、監視対象となるウェブページや、抽出する範囲、報知する条件等を設定する。なお、本実施形態では、監視対象のウェブページとして、行政機関が公開する防災情報のページを例に説明する。具体的には、防災情報として、河川の所定位置において観測している水位を一定時間ごとに公開するページを監視するものとする。本実施形態ではウェブページのうち抽出する範囲を指定し、当該範囲の内容がユーザによって定められた条件を満たす場合に、報知を行うものとする。
Html_{Table,1}_{Tr,2}_{Td,3}
当該表現は、HTML要素を入れ子状に含むHTML文書を、HTML要素をノードとする木構造(順序木)として捉え、ルート(根)であるHTML要素(Html)と、その下位階層に含まれる1番目のテーブル要素({Table,1})と、さらにその下位階層に含まれる
2番目のTR要素({Tr,2})と、さらにその下位階層に含まれる3番目のTD要素({Td,3})とをアンダーバー(_)で接続して表している。ここで、下位階層とは、上位の要素
を親とする部分木である。なお、出現順位は、0(ゼロ)からカウントするようにしてもよい。このような表現方法によれば、HTML文書中から抽出したい要素(ひいては要素に含まれる内容)を一意に特定することができる。
目のテーブルの最後の行の3列目の要素を抽出する場合、以下のような表現形式で座標が設定される。
Html_{Table,1}_{Tr,Last}_{Td,3}
なお、同様の座標を以下のような表現形式で設定するようにしてもよい。このような形式であれば、後ろから前に向かってカウントした場合の出現順位をより汎用的に表すことができる。
Html_{Table,1}_{Tr,[1]}_{Td,3}
Html_{Table,1}_{Tr,2}_{[Number],3}
同様に、「文字のみ」を指定した場合、0〜9の数字を内容に含まない文字のみの要素を抽出対象とする。
Html_{Table,1}_{Tr,2}_Td_{<exnumber>,3}
次に、ウェブページの更新を監視する監視処理について説明する。図7は、監視処理の一例を示す処理フロー図である。まず、監視装置1のページデータ取得部102は、データ記憶部101に記憶されている設定情報を読み出し、接続先情報のURLに基づいてウェブページを規定するHTML文書等を取得する(図7:S21)。例えば、ページデータ取得部102は、ネットワーク5を介してウェブサーバ2から、上述のような河川の水
位を公開するウェブページの文書情報を取得する。
本実施形態によれば、ウェブページの監視範囲の指定及び更新が所定の条件を満たすか否かの判断を行うことができるようになる。そして、ウェブページの更新内容が予め設定した条件を満たす場合にユーザに報知することができるようになる。特に、HTMLソースコードのような文書情報に含まれる要素の種別及び出現順位を用いた木構造のノードとして表すことにより、抽出範囲を示す位置情報を一意に特定することができるようになっている。
本発明は、上述の例に限定されるものではなく、本発明の要旨を逸脱しない範囲内において様々に変更することができる。例えば、監視対象のウェブページは特定の内容には限られない。河川の水位の他、ダムの放流量、降水量、気象に関する警報や注意報等を監視するようにしてもよい。また、株価の推移を監視し、閾値以上又は閾値以下になった場合に報知させるようにしてもよい。また、ショッピングサイトにおいて商品の価格や在庫状況を監視したりすることもできる。さらに、ニュースサイトにおいて野球等の試合の得点(例えば、合計点)を監視し、得点が入ったときにのみ報知させるようにしてもよい。
101 データ記憶部
102 ページデータ取得部
103 抽出範囲設定部
104 報知条件設定部
105 設定範囲抽出部
106 報知処理部
107 エラー処理部
2 ウェブサーバ
3 メールサーバ
4 ユーザ端末
5 ネットワーク
Claims (6)
- ウェブページの内容を記述する文書情報を継続的に取得し、前記文書情報に含まれるタグ及び前記文書情報における後方から指定された前記タグの出現順位を含む位置情報に基づき前記文書情報からテキストを抽出するステップと、
抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップと、
をコンピュータが実行する更新監視方法。 - 前記位置情報が、数字又は文字の種別とその出現順位をさらに含む場合は、前記抽出するステップにおいて、前記位置情報で指定された数字又は文字であって且つ指定された順位に出現するテキストを前記文書情報から抽出する
請求項1に記載の更新監視方法。 - 前記位置情報が、数字のみ、英字のみ又は英数字のみを抽出する旨の情報をさらに含む場合は、前記抽出するステップにおいて、前記位置情報に基づいて特定されるテキストから前記位置情報で指定された数字、英字又は英数字のみを抽出する
請求項1に記載の更新監視方法。 - 前記所定の条件は、前記テキストに含まれる数値を用いた不等式、所定文字列の検知、又は以前に取得した前記テキストからの変化の検知である
請求項1から3のいずれか一項に記載の更新監視方法。 - ウェブページの内容を記述する文書情報を継続的に取得し、前記文書情報に含まれるタグ及び前記文書情報における後方から指定された前記タグの出現順位を含む位置情報に基づき前記文書情報からテキストを抽出するステップと、
抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成するステップと、
をコンピュータに実行させる更新監視プログラム。 - ウェブページの内容を記述する文書情報を継続的に取得し、前記文書情報に含まれるタ
グ及び前記文書情報における後方から指定された前記タグの出現順位を含む位置情報に基づき前記文書情報からテキストを抽出する抽出部と、
抽出された前記テキストが所定の条件を満たす場合、更新を報知する報知情報を生成する報知部と、
を含む更新監視装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014016911A JP6373592B2 (ja) | 2014-01-31 | 2014-01-31 | 更新監視方法、更新監視プログラム及び更新監視装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014016911A JP6373592B2 (ja) | 2014-01-31 | 2014-01-31 | 更新監視方法、更新監視プログラム及び更新監視装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015143925A JP2015143925A (ja) | 2015-08-06 |
JP6373592B2 true JP6373592B2 (ja) | 2018-08-15 |
Family
ID=53888923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014016911A Active JP6373592B2 (ja) | 2014-01-31 | 2014-01-31 | 更新監視方法、更新監視プログラム及び更新監視装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6373592B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017054232A (ja) * | 2015-09-08 | 2017-03-16 | 株式会社東芝 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2001249874A (ja) * | 2000-03-08 | 2001-09-14 | Sky Com:Kk | 情報収集装置 |
-
2014
- 2014-01-31 JP JP2014016911A patent/JP6373592B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015143925A (ja) | 2015-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562099B1 (en) | Sanitization of content displayed by web-based applications | |
US9032285B2 (en) | Selective content extraction | |
CN108089974A (zh) | 利用定义的输入格式来测试应用 | |
US20150302247A1 (en) | Read determining device and method | |
US20110276925A1 (en) | Presentation of Information Describing User Activities with Regard to Resources | |
JP2011022705A (ja) | 証跡管理方法、システム、及びプログラム | |
US11100069B2 (en) | Element identification in a tree data structure | |
WO2016018681A2 (en) | Presenting dataset of spreadsheet in form based view | |
WO2013002083A1 (en) | Method and system for creating and using web feed display templates | |
CN103793481A (zh) | 基于用户兴趣挖掘的微博词云生成方法及访问支持系统 | |
CN103207892A (zh) | 一种用于经由网络分享文档的方法和装置 | |
CN106896986B (zh) | 会议记录生成方法及装置 | |
CN112052368A (zh) | 自动提取列表数据的方法、系统、存储介质及电子设备 | |
JP6373592B2 (ja) | 更新監視方法、更新監視プログラム及び更新監視装置 | |
US20160103799A1 (en) | Methods and systems for automated detection of pagination | |
JP6763433B2 (ja) | 情報収集システム、情報収集方法、及び、プログラム | |
CN105302776B (zh) | 数据校对平台伺服器 | |
CN112148869B (zh) | 文本参考信息生成方法、装置、电子设备及存储介质 | |
JPWO2016056054A1 (ja) | Webページの表示のためのプログラム、端末装置、およびサーバ装置 | |
US12001551B2 (en) | Warning apparatus, control method, and program | |
JP2011076264A (ja) | 検索制御装置、検索制御方法、及びプログラム | |
JP2013045413A (ja) | 入力候補表示方法およびプログラム | |
JP2011180909A (ja) | ポータルサイト生成システム、ポータルサイト生成方法、及びコンピュータプログラム | |
CN115373930A (zh) | 视图的管理方法、装置、电子设备及存储介质 | |
KR20170035900A (ko) | 향상된 문서 생산성을 위한 엔티티 인식 기법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170915 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20171120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6373592 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |