JP2006120048A - テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム - Google Patents
テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム Download PDFInfo
- Publication number
- JP2006120048A JP2006120048A JP2004309291A JP2004309291A JP2006120048A JP 2006120048 A JP2006120048 A JP 2006120048A JP 2004309291 A JP2004309291 A JP 2004309291A JP 2004309291 A JP2004309291 A JP 2004309291A JP 2006120048 A JP2006120048 A JP 2006120048A
- Authority
- JP
- Japan
- Prior art keywords
- identifier
- data
- row
- web page
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 時々刻々と変化又は移動するデータを含むテーブル同士のデータの類似性に着目し、オブジェクト単位で同定を行った後に注目データの同定を行う手段と、Web検索を利用した識別子選択処理を行う検索部17および識別子選択部18とを備える。
【選択図】 図1
Description
これにより、前述のテーブル監視装置がコンピュータを利用して実現できるようになる。
テーブルは、各々データを格納するセルを複数有し、複数のセルにより行列を構成する。
テーブルには同種のオブジェクトが複数並んでいる。例えば、株式売買高等のランキングや、週間天気予報などが記載されたテーブルを扱う。オブジェクトは複数のセルから構成される。
列方向に同種のデータが並ぶとともに行方向に関連するデータが並んでおり、一つの行には単数又は複数のオブジェクトが並んでいる。或いは、行方向に同種のデータが並ぶとともに列方向に関連するデータが並んでおり、一つの列には単数又は複数のオブジェクトが並んでいる。
オブジェクト単位で生成、削除、及びテーブル内の移動が行われる。
図1は、本発明の一実施形態に係るテーブル監視装置1の構成を示すブロック図である。図1において、テーブル監視装置1は、入力部11、識別子・オブジェクト抽出部12、オブジェクト同定部13、注目データ同定部14、出力部15、例示用Webページ更新部16、検索部17及び識別子選択部18を備える。
出力部15は、注目データ同定部14によって切り出された解析対象Webページ中の注目データを出力する。
また、上記周辺機器については、テーブル監視装置に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
先ず、図2において、利用者が利用者端末により例示用Webページ(Web1)を見ながら注目データを指定する(ステップS101)。例えば、注目データを有するセルのセル番号をキーボード操作により入力したり、或いはマウス等を操作して当該セルをクリックする。この指定データはテーブル監視装置1に入力される。次いで、テーブル監視装置1は、その入力された指定データに基づき、例示用Webページ(Web1)中から、当該指定された注目データを含むテーブルT1を取り出す(ステップS102)。次いで、テーブル監視装置1は、解析対象Webページ(Web2)を取得する(ステップS103)。次いで、この解析対象Webページ(Web2)中から、テーブルT1と同じテーブルT2を取り出す(ステップS104)。次いで、テーブルT1とテーブルT2からオブジェクトの識別子列、或いは識別子行を抽出する(ステップS105)。
先ず、識別子が行方向か、列方向かを判定する。
図4において、テーブルT1の「(行,列)=(i,j)」番目のセルとテーブルT2のセルとを比較し(ステップS201)、テーブルT1の「(行,列)=(i,j)」番目のセルの文字列と完全一致するセルがテーブルT2中にいくつあるかを全ての(i,j)について以下の条件A1,A2で算出し、2つのテーブル(行方向テーブル,列方向テーブル)を生成する(ステップS202)。
条件A1;テーブルT1の(i,j)番目のセルの文字列が、テーブルT2のi行目に含まれている個数を計数する。行方向テーブル中の(i,j)番目のセルには条件A1の計数結果を格納する。これにより、テーブルT1と同じ行列数の行方向テーブルが生成される。
条件A2;テーブルT1の(i,j)番目のセルの文字列が、テーブルT2のj列目に含まれている個数を計数する。列方向テーブル中の(i,j)番目のセルには条件A2の計数結果を格納する。これにより、テーブルT1と同じ行列数の行方向テーブルが生成される。
条件B1;テーブルT1の同一行に同じ文字列を含むセルがある場合は、行方向テーブルを選択する。
条件B2;テーブルT1の同一列に同じ文字列を含むセルがある場合は、列方向テーブルを選択する。
条件B3;テーブルT2の同一行に同じ文字列を含むセルがある場合は、行方向テーブルを選択する。
条件B4;テーブルT2の同一列に同じ文字列を含むセルがある場合は、列方向テーブルを選択する。
上記条件B1〜B4のいずれかに合致するかを判断し(ステップS207)、合致する場合には合致した条件でテーブルを選択する(ステップS208)。
また、上記ステップS213,S215,S219のいずれかで識別子行候補が2つ未満であった場合(ステップS213,S215,S219のいずれかでNO)、識別子行候補が0個であるか判断する(ステップS240)。この判断の結果、識別子行候補が0個となっている場合には(ステップS240でYES)、直前の候補除外処理を取り消した状態に戻して、Web検索を利用した識別子選択処理を実行する(ステップS241)。一方、ステップS240でNOならばステップS242へ進む。
また、上記ステップS217,S221のいずれかで識別子行候補が2つ未満であった場合は(ステップS219,S221のいずれかでNO)、ステップS242へ進む。
次いで、ステップS242では、上記した処理の結果として選択された識別子行を設定する。
ステップS107では、テーブルT1から行方向の全部または一部のセルをオブジェクトとして取り出し、各オブジェクトについて識別子列と交差するセルのテキストをそのオブジェクトの識別子(オブジェクト識別子)として割り当てる。
一方、全ての類似度が閾値未満である場合には(ステップS302でNO)、識別子列同士が類似していないので、そのまま処理を終了する。
図7において、先ず、比較対象の一方について、セル内の文字列を取り出し、変数iに初期値「1」を設定する(ステップS401)。次いで、取り出した文字列中のi番目の文字を取り出し、この文字が、数値ならば“N”に、imgタグならば“I”に、aタグならば“A”に、その他のテキストならば“T”に、それぞれ置換する(ステップS403〜S409)。例えば、文字列“3月23日(火)”は置換列“NTNNTTTT”に変換される。次いで、変数iに1加算し(ステップS410)、i番目の文字が上記取り出した文字列中にあればステップS402に戻り(ステップS411でYES)、無ければ比較対象のもう一方についても上記ステップS401〜S411の処理を行う(ステップS411でNO、ステップS412)。次いで、各比較対象の置換列について、DPマッチングを利用して、記号の組み合わせ方と記号列の長さから類似度を算出する。
カウント値nが閾値N未満である場合(ステップS509でYES)、当該識別子行候補に含まれる全てのセルをキーワード選択対象とし、キーワード選択対象の一セルに含まれるテキストを一キーワードに選択する。これにより、当該識別子行候補に含まれるセルの個数分のキーワードが選択される。そして、それら選択したセル個数分のキーワードをWeb検索サイトに送信し、各キーワードごとの検索結果(セル個数分)を受信する(ステップS510)。このキーワード検索は識別子行候補ごとに行い、識別子行候補ごとの検索結果を得る。
カウント値nが閾値N以上である場合(ステップS509でNO)、当該識別子行候補に含まれるセルのうち、上から数えてN個のセルをキーワード選択対象とし、キーワード選択対象の一セルに含まれるテキストを一キーワードに選択する。これにより、N個のキーワードが選択される。そして、それら選択したN個のキーワードをWeb検索サイトに送信し、各キーワードごとの検索結果(N個)を受信する(ステップS511)。このキーワード検索は識別子行候補ごとに行い、識別子行候補ごとの検索結果を得る。
注目データ指定入力部22は、Webページ取得部21により取得された例示用Webページからユーザ操作により注目データを指定する機能を有し、注目データを指定するデータをテーブル監視装置1へ出力する。
比較部24は、テーブル監視装置1により今回得られた解析対象Webページのテーブル中の注目データと、注目データ記憶部23に前回記憶された注目データとを比較し、この比較結果を通知部25へ出力する。また、注目データに変化があった場合、新しい注目データを表示データ作成部26に出力する。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (7)
- 各々データを格納する複数のセルにより行列を構成するテーブルを監視するテーブル監視装置であって、
例示用テーブル、解析対象テーブル、及び前記例示用テーブル中の注目データを特定する指定データを入力する入力手段と、
前記例示用テーブル及び前記解析対象テーブルのデータの類似性に基づいた識別子行或いは識別子列を前記例示用テーブル中から選択し、当該識別子行或いは識別子列のデータを含むオブジェクトを前記例示用テーブル中から抽出するとともに、前記識別子行或いは識別子列のデータを前記オブジェクトの識別子と定める識別子・オブジェクト抽出手段と、
前記例示用テーブルから前記注目データを含む正例オブジェクトを抽出し、前記解析対象テーブルから前記正例オブジェクトの識別子と一致する識別子を含む注目オブジェクトを抽出するオブジェクト同定手段と、
前記注目オブジェクトから、前記正例オブジェクト中の注目データの位置と同じ位置にあるデータを注目データとして同定する注目データ同定手段と、
前記識別子・オブジェクト抽出手段が行う識別子抽出処理において複数の識別子行候補或いは識別子列候補が発見された場合に、該複数の候補のセルに含まれるテキストからキーワードを選択し、該キーワードをWeb検索サイトへ送信し、この応答を受信する検索手段と、
前記検索手段が受信した応答に基づき、キーワードごとの検索結果件数を求め、各キーワードの検索結果件数をそれぞれ比較し、この比較結果に基づいて最適な識別子行候補或いは識別子列候補を選択し、この選択結果の識別子行候補或いは識別子列候補を前記識別子・オブジェクト抽出手段に通知する識別子選択手段と、
を備えたことを特徴とするテーブル監視装置。 - 前記検索手段は、前記複数の候補のうち、セル内のテキストの文字列の長さが所定の文字数を超えるセルを含む候補をWeb検索対象から除外することを特徴とする請求項1に記載のテーブル監視装置。
- 前記検索手段は、前記複数の候補のうち、セル内のテキストが数値のみで且つ所定の桁数を超えるセルを含む候補をWeb検索対象から除外することを特徴とする請求項1に記載のテーブル監視装置。
- 前記識別子選択手段は、前記候補ごとに前記検索結果件数の平均値を算出し、各前記候補の検索結果件数の平均値を比較し、最小の平均値となった前記候補を選択することを特徴とする請求項1に記載のテーブル監視装置。
- 前記識別子選択手段は、前記検索結果件数の平均値算出処理において、前記検索結果件数の中から最大値および最小値を除外し、残った検索結果件数の平均値を計算することを特徴とする請求項4に記載のテーブル監視装置。
- 各々データを格納する複数のセルにより行列を構成するテーブルを有するWebページを監視するWebページモニタリングシステムであって、
例示用の前記Webページと解析対象の前記Webページを通信ネットワークを介して取得するWebページ取得手段と、
前記例示用Webページ中の注目データを指定する注目データ指定入力手段と、
前記例示用Webページ中のテーブル、前記解析対象Webページ中のテーブル、及び前記注目データの指定データから、前記解析対象Webページのテーブル中の注目データを同定する請求項1から5のいずれかの項に記載のテーブル監視装置と、
前記テーブル監視装置により同定された注目データを記憶する記憶手段と、
前記記憶手段に記憶されている注目データと前記テーブル監視装置により得られた注目データとから、解析対象Webページ中の注目データの更新の有無を判定する判定手段と、
前記判定手段の判定結果を利用者に対して通知する通知手段と、
前記テーブル監視装置により同定された注目データと当該同定に使用された識別子とを対応付けて表示するための表示データを作成する表示データ作成手段と、
を備えたことを特徴とするWebページモニタリングシステム。 - 各々データを格納する複数のセルにより行列を構成するテーブルを監視するためのコンピュータプログラムであって、
例示用テーブル、解析対象テーブル、及び前記例示用テーブル中の注目データを特定する指定データを入力する機能と、
前記例示用テーブル及び前記解析対象テーブルのデータの類似性に基づいた識別子行或いは識別子列を前記例示用テーブル中から選択し、当該識別子行或いは識別子列のデータを含むオブジェクトを前記例示用テーブル中から抽出するとともに、前記識別子行或いは識別子列のデータを前記オブジェクトの識別子と定める機能と、
前記例示用テーブルから前記注目データを含む正例オブジェクトを抽出し、前記解析対象テーブルから前記正例オブジェクトの識別子と一致する識別子を含む注目オブジェクトを抽出する機能と、
前記注目オブジェクトから、前記正例オブジェクト中の注目データの位置と同じ位置にあるデータを注目データとして同定する機能と、
前記識別子・オブジェクト抽出手段が行う識別子抽出処理において複数の識別子行候補或いは識別子列候補が発見された場合に、該複数の候補のセルに含まれるテキストからキーワードを選択し、該キーワードをWeb検索サイトへ送信し、この応答を受信する機能と、
前記受信した応答に基づき、キーワードごとの検索結果件数を求め、各キーワードの検索結果件数をそれぞれ比較し、この比較結果に基づいて最適な識別子行候補或いは識別子列候補を選択し、この選択結果の識別子行候補或いは識別子列候補を前記識別子を定める機能に通知する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309291A JP4667823B2 (ja) | 2004-10-25 | 2004-10-25 | テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309291A JP4667823B2 (ja) | 2004-10-25 | 2004-10-25 | テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006120048A true JP2006120048A (ja) | 2006-05-11 |
JP4667823B2 JP4667823B2 (ja) | 2011-04-13 |
Family
ID=36537854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004309291A Expired - Fee Related JP4667823B2 (ja) | 2004-10-25 | 2004-10-25 | テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4667823B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09154112A (ja) * | 1995-12-01 | 1997-06-10 | Matsushita Electric Ind Co Ltd | 変化情報収集方法、変化情報収集装置、情報収集装置、および文字放送受信装置 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP2000180374A (ja) * | 1998-12-15 | 2000-06-30 | Matsushita Electric Ind Co Ltd | 欠陥検出方法 |
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2003150486A (ja) * | 2001-11-08 | 2003-05-23 | Hitachi Ltd | 情報取得システム |
JP2004206521A (ja) * | 2002-12-26 | 2004-07-22 | Nec Corp | 文書検索装置および文書検索プログラム |
-
2004
- 2004-10-25 JP JP2004309291A patent/JP4667823B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09154112A (ja) * | 1995-12-01 | 1997-06-10 | Matsushita Electric Ind Co Ltd | 変化情報収集方法、変化情報収集装置、情報収集装置、および文字放送受信装置 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP2000180374A (ja) * | 1998-12-15 | 2000-06-30 | Matsushita Electric Ind Co Ltd | 欠陥検出方法 |
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2003150486A (ja) * | 2001-11-08 | 2003-05-23 | Hitachi Ltd | 情報取得システム |
JP2004206521A (ja) * | 2002-12-26 | 2004-07-22 | Nec Corp | 文書検索装置および文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4667823B2 (ja) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2578513C (en) | System and method for online information analysis | |
US8355997B2 (en) | Method and system for developing a classification tool | |
CN100485677C (zh) | 搜索结果中放置内容排序的个性化 | |
US8037064B2 (en) | Method and system of selecting landing page for keyword advertisement | |
JP4637969B1 (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
USRE47167E1 (en) | Predictive publishing of internet digital content | |
KR101274388B1 (ko) | 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을수행하기 위한 시스템 | |
JP5786718B2 (ja) | 動向情報検索装置、動向情報検索方法およびプログラム | |
US20090150827A1 (en) | System and method for searching for documents | |
US20190220902A1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
US8572024B2 (en) | Systems and methods for extracting information from structured documents | |
JP2009503751A (ja) | 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム | |
KR20140119269A (ko) | 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법 | |
KR20150059208A (ko) | 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 | |
CN117668373B (zh) | 一种级联标签推荐方法、装置、电子设备及存储介质 | |
US20160034915A1 (en) | Document performance indicators based on referral context | |
US20080103882A1 (en) | Method for cost-sensitive autonomous information retrieval and extraction | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
JP2015194955A (ja) | 入札情報検索システム | |
CN116450924A (zh) | 智慧环保平台生态环境舆情监控系统的分析模块和方法 | |
JP2020091539A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP5068358B2 (ja) | 回答者抽出装置及びその方法 | |
JP4667823B2 (ja) | テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム | |
KR20100038344A (ko) | 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을 수행하기 위한 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070905 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071011 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100817 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4667823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |