以下に図面を参照して、本発明にかかるデータ特定プログラム、データ特定方法および情報処理装置の実施の形態を詳細に説明する。
(データ特定方法の一実施例)
図1は、実施の形態にかかるデータ特定方法の一実施例を示す説明図である。図1において、情報処理装置101は、複数のサイトの情報を一画面に集約して出力する機能を有するコンピュータである。サイトは、ページまたはページの集合であり、例えば、Webサイトである。
ページは、ネットワーク上に公開される情報であり、例えば、Webページである。ページは、html(HyperText Markup Language)またはxhtml(Extensible HyperText Markup Language)によって記述された電子文書(htmlデータ、xhtmlデータ)や画像データなどを含む。
ここで、銀行サイトS1、証券会社サイトS2および年金サイトS3の情報を一覧画面に集約して出力する場合を想定する。この場合、ユーザは、銀行サイトS1、証券会社サイトS2および年金サイトS3の各サイトについて、各サイトのどのページのどの部分の情報を取得するのかを設定する。
一例として、年金サイトS3の年金の支払額を取得する場合を想定する。この場合、例えば、年金サイトS3の画面の画像データ110において、ユーザの操作入力により、一覧画面に表示する情報を含む範囲(以下、「領域T1」と称する)を選択することによって、一覧画面に表示する文字列「1876540」のテキストデータを取得することができる。
また、年金サイトS3の画面のhtmlデータ120から文字列「1876540」のテキストデータを含むhtml要素のタグを特定することにより、htmlデータ120における文字列「1876540」の位置を特定することが考えられる。タグとは、予め定められた記法により文書に埋め込む形で記述される付加情報である。
htmlデータ(または、xhtmlデータ)では、元になる文書に「<」と「>」とで囲まれた半角英数字をタグとして埋め込むことにより、ブラウザに対して文書構造、書式、文字飾りなどを指示したり、画像や他の文書へのリンクを埋め込むことができる。また、html要素は、htmlデータを構成する要素であり、例えば、開始タグと内容と終了タグを含む。
ところが、年金サイトS3の画面の中に、ユーザにより指定された文字列「1876540」と同じ文字列が偶然存在する場合がある。この場合、ユーザにより指定された文字列「1876540」のテキストデータだけでは、htmlデータ120から抽出すべき情報を含むhtml要素のタグを一意に特定することができないことがある。
そこで、本実施の形態では、サイトのhtmlデータにおける、ユーザにより指定された文字列に対応するテキストデータの位置を正確に特定するデータ特定方法について説明する。以下、情報処理装置101のデータ特定処理の一実施例について説明する。
(1)情報処理装置101は、予め記録されたサイトSの識別情報を参照して、サイトSの画面情報を取得する。ここで、サイトSは、一画面に情報を集約して表示する複数のサイトのいずれかのサイトである。サイトSの識別情報とは、サイトSを識別する情報であり、例えば、サイトSのURL(Uniform Resource Locator)である。
より詳細に説明すると、サイトSの識別情報は、例えば、一覧画面に表示するサイトSの情報を含むページのURLである。一覧画面は、複数のサイトの情報を集約して表示する画面である。また、サイトSの画面情報は、サイトSの情報を含むページを表示するための情報であり、例えば、サイトSの情報を含むページのhtmlデータやxhtmlデータである。
以下の説明では、一覧画面に表示するサイトSの情報を「目的データ」と表記する場合がある。また、サイトSの目的データを含むページを「目的ページ」と表記する場合がある。また、サイトSの画面情報として「htmlデータ」を例に挙げて説明する。
ここでは、一例として、目的ページを「年金サイトS3」とし、目的データを「年金の支払額を示す数字列」とする。この場合、情報処理装置101は、年金サイトS3のURLを指定して年金サイトS3にアクセスすることにより、年金サイトS3のhtmlデータ120を取得する。
(2)情報処理装置101は、サイトSの画面の画像データ上に設定された領域Tの画像データから得られるテキストデータと同一内容のテキストデータを、サイトSの画面のhtmlデータから検索する。ここで、領域Tの画像データから得られるテキストデータは、目的データのテキストデータである。
具体的には、例えば、まず、情報処理装置101は、年金サイトS3の画像データ110から、画像データ110上に設定された領域T1の画像データ111を抽出する。つぎに、情報処理装置101は、抽出した領域T1の画像データ111の文字認識処理を行う。ここで、文字認識処理とは、画像データの中から、文字の形状に基づいて文字を識別し、コンピュータ上で扱える文字データに変換する処理である。
文字認識処理は、例えば、OCR(Optical Character Recognition)処理である。文字認識処理によれば、領域T内の文字あるいは文字列をテキストデータとして得ることができる。図1の例では、目的データのテキストデータとして、支払(円)を示す数字列「1876540」のテキストデータが得られる。そして、情報処理装置101は、年金サイトS3のhtmlデータ120から、文字認識処理により得られた目的データ「1876540」のテキストデータと同一内容のテキストデータを検索する。
(3)情報処理装置101は、サイトSの画面のhtmlデータ内の検索したテキストデータを異なるテキストデータに変更する。図1の例では、目的データ「1876540」のテキストデータ「1876540」と同一内容のテキストデータとして、「年金の支払額」を示すテキストデータ121と、「電話番号」の一部を示すテキストデータ122が検索される。
この場合、情報処理装置101は、テキストデータ121,122のいずれかのテキストデータを異なるテキストデータに変更する。図1の例では、htmlデータ120内のテキストデータ121が、所定の文字列「ココ?」を示すテキストデータ123に変更されている。
なお、情報処理装置101は、例えば、上記(2)において、htmlデータ全体に対するテキストデータの検索が終了した後に、上記(3)の処理を実行することにしてもよい。また、情報処理装置101は、例えば、上記(2)において、htmlデータの先頭あるいは末尾からテキストデータの検索を行い、同一内容のテキストデータが検索される度に、その都度上記(3)の処理を実行することにしてもよい。
(4)情報処理装置101は、変更後のサイトSのhtmlデータに基づくサイトSの画面の画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定する。具体的には、例えば、まず、情報処理装置101は、変更後のhtmlデータ120に基づいて、年金サイトS3をキャプチャして、年金サイトS3の画像データ130を取得する。なお、キャプチャとは、ディスプレイに表示される画面イメージを画像データとして保存することである。
そして、情報処理装置101は、取得した年金サイトS3の画像データ130から、画像データ130上の領域T1(画像データ110上で選択された範囲と同一の範囲)の画像データ131を抽出する。つぎに、情報処理装置101は、抽出した領域T1の画像データ131の文字認識処理を行う。そして、情報処理装置101は、文字認識処理により得られたテキストデータが、テキストデータ123と一致するか否かを判定する。
(5)情報処理装置101は、判定した判定結果に基づいて、サイトSの画面のhtmlデータから領域Tに対応するテキストデータを特定する。ここで、テキストデータが一致する場合は、htmlデータにおいて、異なるテキストデータに変更した箇所が、目的データの位置であることを示す。
このため、情報処理装置101は、テキストデータが一致する場合、htmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定する。図1の例では、文字認識処理により得られたテキストデータが、テキストデータ123と一致する。
この場合、情報処理装置101は、htmlデータ120内のテキストデータ121,122のうち、異なるテキストデータ123に変更したテキストデータ121を、領域Tに対応するテキストデータとして特定する。なお、テキストデータが一致しない場合は、異なるテキストデータに変更するテキストデータを切り替えて(例えば、テキストデータ122)、上記(3)〜(5)の一連の処理を繰り返す。
ただし、上述した例では、上記(2)で検索されるテキストデータは、テキストデータ121,122の2つである。このため、文字認識処理により得られたテキストデータがテキストデータ123と一致しない場合は、情報処理装置101は、例えば、上記(3)〜(5)の処理を繰り返すことなく、テキストデータ122を、領域Tに対応するテキストデータとして特定することにしてもよい。
このように、情報処理装置101によれば、年金サイトS3のhtmlデータ120から、年金サイトS3の画像データ110上に設定された領域T1の画像データ111から得られるテキストデータと同一内容のテキストデータを検索することができる。これにより、年金サイトS3のhtmlデータ120から、目的データと同一内容のテキストデータを検索することができる。
また、情報処理装置101によれば、複数のテキストデータ121,122が検索された場合、年金サイトS3のhtmlデータ120内の複数のテキストデータ121,122のいずれかのテキストデータ(例えば、テキストデータ121)を異なるテキストデータに変更することができる。また、情報処理装置101によれば、変更後の年金サイトS3のhtmlデータ120に基づく年金サイトS3の画像データ130上の領域T1の画像データ131から得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定することができる。
また、情報処理装置101によれば、変更した異なるテキストデータと一致する場合、年金サイトS3のhtmlデータ120のうち、異なるテキストデータに変更したテキストデータ121を、領域T1に対応するテキストデータとして特定することができる。これにより、年金サイトS3のhtmlデータ120内に目的データと同一内容のテキストデータが複数存在する場合であっても、年金サイトS3のhtmlデータ120における目的データの位置を正確に特定することができる。
(システム200のシステム構成例)
つぎに、実施の形態にかかるシステム200のシステム構成例について説明する。
図2は、システム200のシステム構成例を示す説明図である。図2において、システム200は、情報処理装置101とサーバ201を含む。システム200において、情報処理装置101とサーバ201は、有線または無線のネットワーク210を介して相互に通信可能に接続される。ネットワーク210は、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
ここで、情報処理装置101は、アカウントアグリゲーション情報DB(データベース)220、サイト別目的データ属性DB230および一覧情報DB240を有する。具体的には、例えば、情報処理装置101は、ブラウザがインストールされたPC(Personal Computer)、ノートPC、タブレット型PC、スマートフォン、携帯電話機などである。
なお、アカウントアグリゲーション情報DB220、サイト別目的データ属性DB230および一覧情報DB240についての説明は、図5〜図7を用いて後述する。
サーバ201は、情報処理装置101からの要求に応じて、htmlデータや画像などを含むサイトSの画面情報を送信するコンピュータである。情報処理装置101は、サーバ201からのサイトSの画面情報に基づいて、サイトSの画面を表示することができる。具体的には、例えば、サーバ201は、Webサーバである。
(情報処理装置101のハードウェア構成例)
図3は、情報処理装置101のハードウェア構成例を示すブロック図である。図3において、情報処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、ディスクドライブ303と、ディスク304と、ディスプレイ305と、I/F(Interface)306と、キーボード307と、マウス308と、スキャナ309と、プリンタ310と、を有する。また、各構成部はバス300によってそれぞれ接続される。
ここで、CPU301は、情報処理装置101の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
ディスクドライブ303は、CPU301の制御にしたがってディスク304に対するデータのリード/ライトを制御する。ディスク304は、ディスクドライブ303の制御で書き込まれたデータを記憶する。ディスク304としては、例えば、磁気ディスク、光ディスクなどが挙げられる。
ディスプレイ305は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。ディスプレイ305は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F306は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータ(例えば、サーバ201)に接続される。そして、I/F306は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F306には、例えば、モデムやLANアダプタなどを採用することができる。
キーボード307は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。キーボード307は、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス308は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。
スキャナ309は、画像を光学的に読み取り、情報処理装置101内に画像データを取り込む。スキャナ309は、OCR機能を有していてもよい。プリンタ310は、画像データや文書データを印刷する。プリンタ310には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。なお、情報処理装置101は、例えば、上述した構成部のうち、スキャナ309、プリンタ310などを有さないことにしてもよい。
(サーバ201のハードウェア構成例)
図4は、サーバ201のハードウェア構成例を示すブロック図である。図4において、サーバ201は、CPU401と、メモリ402と、I/F403と、ディスクドライブ404と、ディスク405と、を有する。また、各構成部は、バス400によってそれぞれ接続される。
ここで、CPU401は、サーバ201の全体の制御を司る。メモリ402は、例えば、ROM、RAMおよびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU401のワークエリアとして使用される。メモリ402に記憶されるプログラムは、CPU401にロードされることで、コーディングされている処理をCPU401に実行させる。
I/F403は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータ(例えば、図2に示した情報処理装置101)に接続される。そして、I/F403は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F403には、例えば、モデムやLANアダプタなどを採用することができる。
ディスクドライブ404は、CPU401の制御にしたがってディスク405に対するデータのリード/ライトを制御する。ディスク405は、ディスクドライブ404の制御で書き込まれたデータを記憶する。ディスク405としては、例えば、磁気ディスク、光ディスクなどが挙げられる。なお、サーバ201は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイなどを有することにしてもよい。
(アカウントアグリゲーション情報DB220の記憶内容)
つぎに、情報処理装置101が有するアカウントアグリゲーション情報DB220の記憶内容について説明する。アカウントアグリゲーション情報DB220は、例えば、図3に示した情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
図5は、アカウントアグリゲーション情報DB220の記憶内容の一例を示す説明図である。図5において、アカウントアグリゲーション情報DB220は、ID、PW、ログインURLおよびデータURLのフィールドを有する。各フィールドに情報を設定することで、アカウントアグリゲーション情報(アカウントアグリゲーション情報500−1〜500−7)がレコードとして記憶される。
ここで、ID(identification)は、サイトSのユーザを識別する識別子である。PW(password)は、サイトSにログインするためのユーザのパスワードである。ログインURLは、サイトSにログインするためのWebページ(いわゆる、ログイン画面)を表示するためのURLである。
データURLは、一覧画面に表示するサイトSの情報を含むWebページを表示するためのURLである。一覧画面は、複数のサイトSの情報を集約して表示する画面である。ここでは、データURLは、CGI(Common Gateway Interface)スクリプトのURLである。
例えば、アカウントアグリゲーション情報500−1は、ID「12345」、PW「P111111」、ログインURL「A.html」およびデータURL「A/12345.cgi」を示す。
(サイト別目的データ属性DB230の記憶内容)
つぎに、情報処理装置101が有するサイト別目的データ属性DB230の記憶内容について説明する。サイト別目的データ属性DB230は、例えば、情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
図6は、サイト別目的データ属性DB230の記憶内容の一例を示す説明図である。図6において、サイト別目的データ属性DB230は、データURL、データ特定html属性およびデータ属性のフィールドを有する。各フィールドに情報を設定することで、サイト別目的データ属性情報(例えば、サイト別目的データ属性情報600−1〜600−5)がレコードとして記憶される。
ここで、データURLは、サイトSの目的ページを表示するためのURLである。データ特定html属性は、目的データを含むhtml要素のタグを特定するための情報である。データ属性は、目的データの属性である。データ属性としては、例えば、数値、漢字、かな、カナ、アルファベットなどがある。例えば、サイト別目的データ属性情報600−1は、データURL「A/12345.cgi」、データ特定html属性「td全12個中の4番目」およびデータ属性「数値」を示す。
(一覧情報DB240の記憶内容)
つぎに、情報処理装置101が有する一覧情報DB240の記憶内容について説明する。一覧情報DB240は、例えば、情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
図7は、一覧情報DB240の記憶内容の一例を示す説明図である。図7において、一覧情報DB240は、データURLおよび一覧位置のフィールドを有し、各フィールドに情報を設定することで、一覧情報(例えば、一覧情報700−1〜700−5)をレコードとして記憶する。
ここで、データURLは、サイトSの目的ページを表示するためのURLである。一覧位置は、一覧画面におけるサイトSの目的データを表示する位置を示す情報である。ここでは、一覧位置は、一覧画面内のボックス(例えば、図8に示すボックスB1〜B3)の番号を示す。例えば、一覧情報700−1は、データURL「A/12345.cgi」および一覧位置「2」を示す。
(一覧設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される一覧設定画面の画面例について説明する。一覧設定画面は、複数のサイトSの目的データを表示する一覧画面の画面構成や掲載内容を設定する画面である。
図8は、一覧設定画面の画面例を示す説明図である。図8において、一覧設定画面800は、一覧画面に表示する目的データの項目名および表示位置を設定する画面である。一覧設定画面800において、図3に示したキーボード307やマウス308を用いたユーザの操作入力により、一覧画面に表示する目的データの項目名を設定することができる。
図8の例では、一覧画面に表示する目的データの項目名「年金加入月数」、「年金受給(見込み)額」および「X銀行の預金残高」が設定されている。なお、「年金加入月数」と「年金受給(見込み)額」は、ある年金サイトの情報である。また、「X銀行の預金残高」は、ある銀行サイトの情報である。
また、一覧設定画面800において、ユーザの操作入力により、目的データを表示するボックスを設定することができる。図8の例では、項目名「年金加入月数」の目的データを表示するボックスB1、項目名「年金受給(見込み)額」の目的データを表示するボックスB2および項目名「X銀行の預金残高」の目的データを表示するボックスB3が設定されている。
(領域初期設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される領域初期設定画面の画面例について説明する。領域初期設定画面は、目的ページの画面における目的データを含む領域Tを設定する画面である。
図9は、領域初期設定画面の画面例を示す説明図である。図9において、領域初期設定画面900は、年金サイトの厚生年金情報ページの画面における目的データを含む領域Tを設定する画面である。領域初期設定画面900には、年金サイトの厚生年金情報ページの画面の画像データ910が表示されている。
領域初期設定画面900において、ユーザによる領域指定の操作入力として、画像データ910上の目的データを含む範囲の選択を受け付けることにより、厚生年金情報ページの画面における目的データを含む領域Tを設定することができる。図9の例では、厚生年金情報ページの画面における目的データを含む領域として、領域T1,T2が設定されている。
ここで、領域T1は、厚生年金情報ページの加入期間[月]を示す数字列を含む領域である。領域T2は、厚生年金情報ページの年金額(見込み)[円]を示す数字列を含む領域である。また、領域初期設定画面900において、ユーザの操作入力により、設定完了ボタン920がクリック(押下)されると、領域Tの設定が完了する。
(一覧画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される一覧画面の画面例について説明する。一覧画面は複数のサイトSの目的データを集約して表示する画面である。
図10は、一覧画面の画面例を示す説明図である。図10において、一覧画面1000は、年金サイトの厚生年金情報ページの目的データと、銀行サイトの口座情報ページの目的データとを集約して表示する画面である。具体的には、一覧画面1000には、年金サイトの厚生年金情報ページの年金加入月数がボックスB1に表示され、年金受給(見込み)額がボックスB2に表示されている。
また、一覧画面1000には、銀行サイトの口座情報ページの預金残高がボックスB3に表示されている。一覧画面1000によれば、ユーザは、年金サイトの厚生年金情報ページの年金加入月数、年金受給(見込み)額および銀行サイトの口座情報ページの預金残高を一目で確認することができる。
(情報処理装置101の機能的構成例)
図11は、情報処理装置101の機能的構成例を示すブロック図である。図11において、情報処理装置101は、受付部1101と、取得部1102と、登録部1103と、表示制御部1104と、認識部1105と、検索部1106と、変更部1107と、判定部1108と、特定部1109と、を含む構成である。受付部1101〜特定部1109は制御部となる機能であり、具体的には、例えば、図3に示したメモリ302、ディスク304などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F306により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302、ディスク304などの記憶装置に記憶される。
<新規登録要求を受け付けた場合>
まず、新規登録要求を受け付けた場合の各機能部の処理内容について説明する。新規登録要求は、一覧画面に表示する目的データを新規登録する要求である。
受付部1101は、新規登録要求を受け付ける。具体的には、例えば、受付部1101は、キーボード307やマウス308を用いたユーザの操作入力により、新規登録要求を受け付ける。また、受付部1101は、外部のコンピュータから新規登録要求を受信することにより、新規登録要求を受け付けることにしてもよい。
取得部1102は、新規登録要求を受け付けたことに応じて、サイトSのID、PW、ログインURLおよびデータURLを取得する。具体的には、例えば、取得部1102は、ユーザの操作入力により、サイトSのID、PW、ログインURLおよびデータURLを取得する。この際、取得部1102は、ユーザの操作入力によって目的ページまで画面遷移させることにより、目的ページのデータURLを取得することにしてもよい。
なお、サイトSのID、PW、ログインURLおよびデータURLは、新規登録要求に含まれていてもよい。この場合、取得部1102は、受け付けられた新規登録要求から、サイトSのID、PW、ログインURLおよびデータURLを取得する。
登録部1103は、取得されたサイトSのID、PW、ログインURLおよびデータURLをアカウントアグリゲーション情報DB220に登録する。具体的には、例えば、登録部1103は、アカウントアグリゲーション情報DB220の各フィールドに、取得されたサイトSのID、PW、ログインURLおよびデータURLを設定する。
これにより、アカウントアグリゲーション情報DB220に新たなアカウントアグリゲーション情報が新規登録される。
取得部1102は、目的ページの画面のhtmlデータを取得する。具体的には、例えば、まず、取得部1102は、取得したサイトSのログインURLを用いて、サイトSのログイン画面にアクセスする。そして、取得部1102は、取得したサイトSのID、PWを用いて、サイトSにログインする。つぎに、取得部1102は、取得したサイトSのデータURLを用いて、サイトSの目的ページのhtmlデータを取得する。
表示制御部1104は、取得された目的ページの画面のhtmlデータに基づいて、目的ページの画面の画像データを出力する。具体的には、例えば、まず、表示制御部1104は、取得したhtmlデータに基づいて、目的ページの画面をキャプチャすることにより、目的ページの画面の画像データを取得する。そして、表示制御部1104は、取得した目的ページの画面の画像データを含む領域初期設定画面(例えば、図9に示した領域初期設定画面900)をディスプレイ305に表示する。
受付部1101は、出力された目的ページの画面の画像データ上の目的データを含む領域Tの選択を受け付ける。具体的には、例えば、受付部1101は、領域初期設定画面900におけるユーザの操作入力により、画像データ910(図9参照)上の目的データを含む領域T(例えば、領域T1,T2)の選択を受け付ける。
認識部1105は、選択された領域Tの画像データの文字認識処理を行う。具体的には、例えば、まず、認識部1105は、目的ページの画像データから、選択された領域Tの画像データを抽出する。そして、認識部1105は、抽出した領域Tの画像データに対してOCR処理を行う。これにより、目的データのテキストデータを取得することができる。
また、認識部1105は、選択された領域Tの位置情報を取得する。ここで、領域Tの位置情報とは、目的ページの画像データにおける領域Tの位置を示す情報である。例えば、領域Tが矩形の場合、領域Tの位置情報は、矩形の対角の2頂点の座標(x座標、y座標)である。また、領域Tが円の場合、領域Tの位置情報は、円の中心の座標と半径である。具体的には、例えば、領域Tが矩形の場合、認識部1105は、選択された領域Tの左上の座標(x座標,y座標)と右下の座標(x座標,y座標)を取得する。
検索部1106は、取得された目的ページのhtmlデータから、認識された文字あるいは文字列と同一内容のテキストデータを検索する。すなわち、検索部1106は、目的ページのhtmlデータから、OCR処理により得られる目的データのテキストデータと同一内容のテキストデータを検索する。
変更部1107は、目的ページのhtmlデータ内の検索されたテキストデータを異なるテキストデータに変更する。具体的には、例えば、変更部1107は、複数のテキストデータが検索された場合、目的ページのhtmlデータ内の複数のテキストデータのいずれかのテキストデータを、所定の文字列(あるいは、文字)を示すテキストデータに変更する。所定の文字列は、任意に設定可能である。例えば、所定の文字列は、ページのhtmlデータの中に出現しにくい文字列に設定される。
認識部1105は、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データの文字認識処理を行う。具体的には、例えば、まず、認識部1105は、変更後のhtmlデータをメモリ302に展開することにより、目的ページをキャプチャして、目的ページの画像データを取得する。つぎに、認識部1105は、取得した領域Tの位置情報に基づいて、取得した目的ページの画像データから領域Tの画像データを抽出する。そして、認識部1105は、抽出した領域Tの画像データの文字認識処理を行う。
判定部1108は、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定する。具体的には、例えば、判定部1108は、文字認識処理により得られたテキストデータが、所定の文字列を示すテキストデータと一致するか否かを判定する。
特定部1109は、目的ページのhtmlデータから領域Tに対応するテキストデータを特定する。具体的には、例えば、特定部1109は、検索部1106によって1つのテキストデータが検索された場合は、目的ページのhtmlデータのうち、検索されたテキストデータを、領域Tに対応するテキストデータとして特定する。
一方、複数のテキストデータが検索された場合には、特定部1109は、判定された判定結果に基づいて、検索された複数のテキストデータから領域Tに対応するテキストデータを特定する。例えば、特定部1109は、テキストデータが一致する場合、目的ページのhtmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定する。
また、特定部1109は、特定した領域Tに対応するテキストデータに基づいて、目的ページのhtmlデータにおけるタグに関する情報を特定する。ここで、タグに関する情報とは、目的ページのhtmlデータのうち、目的データを含むhtml要素のタグを特定するための情報である。
具体的には、例えば、まず、特定部1109は、目的ページのhtmlデータから、領域Tに対応するテキストデータを含むhtml要素を検索する。そして、特定部1109は、目的ページのhtmlデータにおける、検索したhtml要素のタグのデータ特定html属性を、タグに関する情報として特定する。
データ特定html属性とは、目的ページのhtmlデータにおける、目的データのテキストデータを含むhtml要素のタグの位置を特定するための情報である。データ特定html属性は、例えば、タグの種類や、htmlデータにおける同一種類のタグ全何個中の先頭から何番目のタグであるかなどを示す。
また、特定部1109は、特定した領域Tに対応するテキストデータのデータ属性を特定する。具体的には、例えば、認識部1105は、領域Tに対応するテキストデータを解析することにより、当該テキストデータのデータ属性(例えば、数値、漢字、かな、カナ、アルファベット)を特定する。
また、受付部1101は、目的データの一覧位置を受け付ける機能を有する。具体的には、例えば、受付部1101は、ユーザの操作入力により、目的データの一覧位置(例えば、図8に示した一覧設定画面800のボックスの番号)を受け付ける。
登録部1103は、目的ページのデータURLと対応付けて、特定された目的ページのhtmlデータにおけるタグに関する情報を記録する。また、登録部1103は、目的ページのデータURLと対応付けて、特定された領域Tに対応するテキストデータのデータ属性を記録する。
具体的には、例えば、登録部1103は、サイト別目的データ属性DB230の各フィールドに、データURL、データ特定html属性およびデータ属性を設定する。これにより、サイト別目的データ属性DB230に新たなサイト別目的データ属性情報が新規登録される。
また、登録部1103は、目的ページのデータURLと対応付けて、受け付けた目的データの一覧位置を記録する。具体的には、例えば、登録部1103は、一覧情報DB240の各フィールドに、データURLおよび一覧位置を設定する。これにより、一覧情報DB240に新たな一覧情報が新規登録される。
なお、上述した説明では、テキストデータを変更する際の所定の文字列が設定されている場合について説明したが、これに限らない。例えば、目的ページのhtmlデータに予め設定された所定の文字列が偶然含まれる場合がある。このため、変更部1107は、例えば、変更前の目的ページのhtmlデータから、所定の文字列を示すテキストデータを検索し、テキストデータが検索された場合は、所定の文字列を異なる文字列に設定し直すことにしてもよい。
<一覧表示要求を受け付けた場合>
つぎに、一覧表示要求を受け付けた場合の各機能部の処理内容について説明する。一覧表示要求は、複数のサイトSの目的データを集約して表示する一覧画面(例えば、図10に示した一覧画面1000)の表示要求である。
受付部1101は、一覧表示要求を受け付ける。具体的には、例えば、受付部1101は、ユーザの操作入力により、一覧表示要求を受け付ける。また、受付部1101は、外部のコンピュータから一覧表示要求を受信することにより、一覧表示要求を受け付けることにしてもよい。
取得部1102は、一覧表示要求を受け付けたことに応じて、目的ページの画面のhtmlデータを取得する。具体的には、例えば、まず、取得部1102は、アカウントアグリゲーション情報DB220からアカウントアグリゲーション情報(レコード)を取得する。そして、取得部1102は、取得したアカウントアグリゲーション情報のログインURLを用いて、サイトSのログイン画面にアクセスする。つぎに、取得部1102は、取得したアカウントアグリゲーション情報のID、PWを用いて、サイトSにログインする。そして、取得部1102は、取得したアカウントアグリゲーション情報のデータURLを用いて、サイトSの目的ページのhtmlデータを取得する。
検索部1106は、取得された目的ページのhtmlデータから、目的ページのデータURLと対応付けて予め記録されたタグに関する情報により特定されるデータ(テキストデータ)を検索する。具体的には、例えば、まず、検索部1106は、サイト別目的データ属性DB230から、目的ページのデータURLに対応するサイト別目的データ属性情報(レコード)を取得する。
そして、検索部1106は、目的ページのhtmlデータから、取得したサイト別目的データ属性情報のデータ特定html属性により特定されるデータを検索する。例えば、サイト別目的データ属性情報600−1を取得した場合、検索部1106は、目的ページのhtmlデータから、td全12個中の4番目のtdのデータを検索する。
表示制御部1104は、検索部1106によってデータが検索されなかった場合、取得された目的ページの画面のhtmlデータに基づく目的ページの画面の画像データを出力する。具体的には、例えば、表示制御部1104は、目的ページの画面の画像データを含む領域再設定画面をディスプレイ305に表示する。なお、領域再設定画面の画面例については、図12を用いて後述する。
これにより、目的ページの画面構成や掲載内容が変更されて目的データを取得できなくなった場合に、変更後の目的ページの画面における目的データを含む領域Tを再設定するための領域再設定画面をディスプレイ305に表示することができる。
また、表示制御部1104は、検索部1106によってデータが検索された場合、当該データのデータ属性が、タグに関する情報と対応付けて予め記録されたデータ属性と一致するか否かを判断する。具体的には、例えば、表示制御部1104は、検索されたデータのデータ属性が、目的ページのデータURLに対応するサイト別目的データ属性情報のデータ属性と一致するか否かを判断する。
そして、表示制御部1104は、データのデータ属性が一致しない場合、取得された目的ページの画面のhtmlデータに基づく目的ページの画面の画像データを出力することにしてもよい。これにより、目的ページの画面構成や掲載内容が変更されて領域Tのデータのデータ属性が変わった場合に、変更後の目的ページの画面における目的データを含む領域Tを再設定するための領域再設定画面をディスプレイ305に表示することができる。
受付部1101は、出力された目的ページの画面の画像データ上の目的データを含む領域Tの選択を受け付ける。具体的には、例えば、受付部1101は、後述する領域再設定画面1200におけるユーザの操作入力により、画像データ1210(図12参照)上の目的データを含む領域Tの選択を受け付ける。
認識部1105は、選択された領域Tの画像データの文字認識処理を行う。文字認識処理の具体的な処理内容は、新規登録要求時と同様である。
特定部1109は、目的ページのhtmlデータにおける目的データを含むhtml要素のタグに関する情報を特定する。タグに関する情報を特定する具体的な処理内容は、新規登録要求時と同様である。また、特定部1109は、文字認識処理により認識されたデータのデータ属性を特定する。データ属性を特定する具体的な処理内容は、新規登録要求時と同様である。
登録部1103は、特定部1109によって特定されたタグに関する情報によって、目的ページのURLと対応付けて予め記録されたタグに関する情報を更新する。具体的には、例えば、登録部1103は、特定されたデータ特定html属性を、目的ページのデータURLに対応するサイト別目的データ属性DB230内のサイト別目的データ属性情報のデータ特定html属性に上書きする。また、登録部1103は、特定されたデータ属性をサイト別目的データ属性情報のデータ属性に上書きする。
これにより、サイト別目的データ属性DB230内のサイト別目的データ属性が、目的ページの画面構成や掲載内容の変更に合わせて更新される。
表示制御部1104は、一覧画面における、領域Tの位置情報と対応付けて予め記録された位置に、検索部1106によって検索されたデータを挿入した一覧画面を出力する。具体的には、例えば、まず、表示制御部1104は、一覧設定画面800(図8参照)のhtmlデータに基づいて、目的データが挿入されていない一覧画面1000のhtmlデータを生成する。
つぎに、表示制御部1104は、目的ページのデータURLに対応するサイト別目的データ属性DB230内のサイト別目的データ属性情報の一覧位置を特定する。そして、表示制御部1104は、特定した一覧位置に、検索されたデータを挿入した一覧画面1000のhtmlデータを生成してディスプレイ305に表示する。これにより、複数のサイトSの目的データを集約して表示する一覧画面をディスプレイ305に表示することができる。
なお、上述した説明では、情報処理装置101が各機能部1101〜1109を有することにしたが、サーバ201が各機能部1101〜1109を有することにしてもよい。具体的には、例えば、必要な機能を必要な分だけサービスとして情報処理装置101に利用できるようにしたSaaS(Software as a Service)により、システム200を実現することにしてもよい。
(領域再設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される領域再設定画面の画面例について説明する。領域再設定画面は、目的ページの画面における目的データを含む領域Tを再設定する画面である。
図12は、領域再設定画面の画面例を示す説明図である。図12において、領域再設定画面1200は、年金サイトの厚生年金情報ページの画面における目的データを含む領域T2を再設定する画面である。領域再設定画面1200には、年金サイトの厚生年金情報ページの画面の画像データ1210が表示されている。
領域再設定画面1200において、ユーザによる領域指定の操作入力として、画像データ1210上の任意の範囲の選択を受け付けることにより、厚生年金情報ページの画面における目的データを含む領域T2を再設定することができる。
図12の例では、ユーザの操作入力により、厚生年金情報ページの画面における年金額(見込み)[円]を示す数字列を含む領域T2が再設定されている。また、領域再設定画面1200において、ユーザの操作入力により、設定完了ボタン1220がクリック(押下)されると、領域T2の再設定が完了する。
このように、領域再設定画面1200によれば、年金サイトの厚生年金情報ページの画面における目的データを含む領域T2を再設定することができる。
(情報処理装置101の情報提供処理手順)
つぎに、情報処理装置101の情報提供処理手順について説明する。
図13は、情報処理装置101の情報提供処理手順の一例を示すフローチャートである。図13のフローチャートにおいて、まず、情報処理装置101は、新規登録要求を受け付けたか否かを判断する(ステップS1301)。
ここで、新規登録要求を受け付けた場合(ステップS1301:Yes)、情報処理装置101は、新規登録処理を実行して(ステップS1302)。本フローチャートによる一連の処理を終了する。新規登録処理の具体的な処理手順については、図14および図15のフローチャートを用いて後述する。
一方、新規登録要求を受け付けていない場合(ステップS1301:No)、情報処理装置101は、一覧表示要求を受け付けたか否かを判断する(ステップS1303)。ここで、一覧表示要求を受け付けていない場合(ステップS1303:No)、情報処理装置101は、ステップS1301に戻る。
一方、一覧表示要求を受け付けた場合(ステップS1303:Yes)、情報処理装置101は、一覧表示処理を実行して(ステップS1304)。本フローチャートによる一連の処理を終了する。一覧表示処理の具体的な処理手順については、図16のフローチャートを用いて後述する。
<新規登録処理の具体的処理手順>
つぎに、図13に示したステップS1302の新規登録処理の具体的な処理手順について説明する。
図14および図15は、新規登録処理の具体的処理手順の一例を示すフローチャートである。図14のフローチャートにおいて、まず、情報処理装置101は、サイトSのID、PW、ログインURLおよびデータURLを取得する(ステップS1401)。
そして、情報処理装置101は、取得したサイトSのID、PW、ログインURLおよびデータURLをアカウントアグリゲーション情報DB220に登録する(ステップS1402)。これにより、アカウントアグリゲーション情報DB220に新たなアカウントアグリゲーション情報が新規登録される。
つぎに、情報処理装置101は、取得したサイトSのID、PW、ログインURLおよびデータURLを用いて、サイトSの目的ページのhtmlデータを取得する(ステップS1403)。そして、情報処理装置101は、取得したhtmlデータに基づいて、目的ページをキャプチャすることにより、目的ページの画像データを取得する(ステップS1404)。
つぎに、情報処理装置101は、取得した目的ページの画像データを含む領域初期設定画面をディスプレイ305に表示する(ステップS1405)。そして、情報処理装置101は、ユーザの操作入力により、目的ページの画像データ上の目的データを含む領域Tが選択されたか否かを判断する(ステップS1406)。
ここで、情報処理装置101は、領域Tが選択されるのを待つ(ステップS1406:No)。そして、領域Tが選択された場合(ステップS1406:Yes)、情報処理装置101は、目的ページの画像データ上の選択された領域Tの位置情報を取得する(ステップS1407)。
つぎに、情報処理装置101は、目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより、目的データのテキストデータを取得する(ステップS1408)。以下の説明では、OCR処理により得られたテキストデータを「領域データ」と表記する場合がある。
そして、情報処理装置101は、目的ページのhtmlデータから、領域データと同一内容のテキストデータを検索する(ステップS1409)。つぎに、情報処理装置101は、検索ヒット件数が「1」でないかを判断する(ステップS1410)。検索ヒット件数は、ステップS1409において検索されたテキストデータの数である。
ここで、検索ヒット件数が「1」の場合(ステップS1410:No)、情報処理装置101は、図15に示すステップS1508に移行する。一方、検索ヒット件数が「1」でない場合(ステップS1410:Yes)、情報処理装置101は、検索ヒット件数が「0」であるかを判断する(ステップS1411)。
ここで、検索ヒット件数が「0」の場合(ステップS1411:Yes)、情報処理装置101は、ユーザの操作入力により領域データの入力を受け付けて(ステップS1412)、ステップS1409に戻る。すなわち、検索ヒット件数が「0」の場合は、情報処理装置101は、目的データを認識できなかったと判断して、目的データのテキストデータ(領域データ)をユーザに手入力させる。
一方、検索ヒット件数が「0」でない場合(ステップS1411:No)、情報処理装置101は、図15に示すステップS1501に移行する。以下の説明では、ステップS1409において検索されたテキストデータを「検索ヒットデータ」と表記する場合がある。
図15のフローチャートにおいて、まず、情報処理装置101は、「m=1」として(ステップS1501)、目的ページのhtmlデータの先頭からm番目の検索ヒットデータを、所定の文字列を示すテキストデータに変更する(ステップS1502)。
つぎに、情報処理装置101は、変更後の目的ページのhtmlデータをメモリ302に展開することにより、変更後の目的ページをキャプチャして、変更後の目的ページの画像データを取得する(ステップS1503)。
そして、情報処理装置101は、ステップS1407において取得された領域Tの位置情報に基づいて、変更後の目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより領域データを取得する(ステップS1504)。つぎに、情報処理装置101は、ステップS1504のOCR処理により得られた領域データが、所定の文字列を示すテキストデータと一致するか否かを判定する(ステップS1505)。
ここで、所定の文字列を示すテキストデータと一致しない場合(ステップS1505:No)、情報処理装置101は、変更後の検索ヒットデータを、変更前の検索ヒットデータに変更する(ステップS1506)。そして、情報処理装置101は、「m」をインクリメントして(ステップS1507)、ステップS1502に戻る。
一方、ステップS1505において、所定の文字列を示すテキストデータと一致する場合(ステップS1505:Yes)、情報処理装置101は、m番目の検索ヒットデータを目的データのテキストデータとして特定する(ステップS1508)。
そして、情報処理装置101は、領域データのデータ属性を特定する(ステップS1509)。つぎに、情報処理装置101は、変更前の目的ページのhtmlデータから領域データを含むhtml要素を検索することにより、目的ページのhtmlデータにおけるhtml要素のタグのデータ特定html属性を特定する(ステップS1510)。
そして、情報処理装置101は、目的ページのデータURLと対応付けて、特定したデータ特定html属性およびデータ属性をサイト別目的データ属性DB230に登録して(ステップS1511)、新規登録処理を呼び出したステップに戻る。これにより、サイト別目的データ属性DB230に新たなサイト別目的データ属性情報が新規登録される。
なお、目的ページのデータURLに対応する一覧位置については、一覧設定画面(例えば、一覧設定画面800)において、ユーザの操作入力により受け付けることにより、目的ページのデータURLに対応付けて一覧情報DB240に設定される。
<一覧表示処理の具体的処理手順>
つぎに、図13に示したステップS1304の一覧表示処理の具体的な処理手順について説明する。
図16は、一覧表示処理の具体的処理手順の一例を示すフローチャートである。図16のフローチャートにおいて、まず、情報処理装置101は、目的データが挿入されていない一覧画面のhtmlデータを生成する(ステップS1601)。
つぎに、情報処理装置101は、アカウントアグリゲーション情報DB220のレコード数nを取得して(ステップS1602)、「i=1」とする(ステップS1603)。そして、情報処理装置101は、目的データ設定処理を実行する(ステップS1604)。目的データ設定処理の具体的な処理手順については、図17のフローチャートを用いて後述する。
つぎに、情報処理装置101は、「i」をインクリメントして(ステップS1605)、「i」が「n」より大きくなったか否かを判断する(ステップS1606)。ここで、「i」が「n」以下の場合(ステップS1606:No)、情報処理装置101は、ステップS1604に戻る。
一方、「i」が「n」より大きくなった場合(ステップS1606:Yes)、情報処理装置101は、一覧画面のhtmlデータをディスプレイ305に表示して(ステップS1607)、一覧表示処理を呼び出したステップに戻る。
これにより、複数のサイトSの目的データを集約した一覧画面(例えば、一覧画面1000)をディスプレイ305に表示することができる。
<目的データ設定処理の具体的処理手順>
つぎに、図16に示したステップS1604の目的データ設定処理の具体的な処理手順について説明する。
図17は、目的データ設定処理の具体的処理手順の一例を示すフローチャートである。図17のフローチャートにおいて、まず、情報処理装置101は、アカウントアグリゲーション情報DB220のi番目のレコード(以下、「レコードRa」と称する)を取得する(ステップS1701)。
つぎに、情報処理装置101は、取得したレコードRaのログインURLを用いて、サイトSのログイン画面にアクセスし、レコードRaのID、PWを用いて、サイトSにログインする(ステップS1702)。そして、情報処理装置101は、レコードRaのデータURLを用いて、サイトSの目的ページのhtmlデータを取得する(ステップS1703)。
つぎに、情報処理装置101は、サイト別目的データ属性DB230から、取得したレコードRaのデータURLに対応するレコード(以下、「レコードRb」と称する)を取得する(ステップS1704)。そして、情報処理装置101は、取得した目的ページのhtmlデータから、取得したレコードRbのデータ特定html属性により特定されるデータを検索する(ステップS1705)。
つぎに、情報処理装置101は、目的ページのhtmlデータからデータが検索されたか否かを判断する(ステップS1706)。ここで、データが検索された場合(ステップS1706:Yes)、情報処理装置101は、検索したデータのデータ属性を特定する(ステップS1707)。
そして、情報処理装置101は、特定したデータ属性がレコードRbのデータ属性と一致するか否かを判断する(ステップS1708)。ここで、データ属性が一致する場合(ステップS1708:Yes)、情報処理装置101は、一覧情報DB240から、レコードRaのデータURLに対応する一覧位置を取得する(ステップS1709)。
そして、情報処理装置101は、特定した一覧位置に基づいて、一覧画面のhtmlデータに、検索したデータを挿入して(ステップS1710)、目的データ設定処理を呼び出したステップに戻る。これにより、予め設定された一覧位置にサイトSの目的データを埋め込んだ一覧画面のhtmlデータを生成することができる。
また、ステップS1706において、データが検索されなかった場合(ステップS1706:No)、情報処理装置101は、領域再設定画面表示処理を実行して(ステップS1711)、ステップS1701に戻る。領域再設定画面表示処理の具体的な処理手順については、図18のフローチャートを用いて後述する。
また、ステップS1708において、データ属性が一致しない場合(ステップS1708:No)、情報処理装置101は、ステップS1711に移行する。
<領域再設定画面表示処理の具体的処理手順>
つぎに、図17に示したステップS1711の領域再設定画面表示処理の具体的な処理手順について説明する。
図18は、領域再設定画面表示処理の具体的処理手順の一例を示すフローチャートである。図18のフローチャートにおいて、まず、情報処理装置101は、目的ページのhtmlデータに基づいて、目的ページをキャプチャすることにより、目的ページの画像データを取得する(ステップS1801)。
そして、情報処理装置101は、取得した目的ページの画面の画像データを含む領域再設定画面をディスプレイ305に表示する(ステップS1802)。つぎに、情報処理装置101は、ユーザの操作入力により、目的ページの画像データ上の目的データを含む領域Tが選択されたか否かを判断する(ステップS1803)。
ここで、情報処理装置101は、領域Tが選択されるのを待つ(ステップS1803:No)。そして、領域Tが選択された場合(ステップS1803:Yes)、情報処理装置101は、目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより領域データを取得する(ステップS1804)。
つぎに、情報処理装置101は、取得した領域データのデータ属性を特定する(ステップS1805)。そして、情報処理装置101は、目的ページのhtmlデータから、取得した領域データを内容に含むhtml要素を検索する(ステップS1806)。つぎに、情報処理装置101は、検索したhtml要素のタグのデータ特定html属性を特定する(ステップS1807)。
そして、情報処理装置101は、特定したデータ属性およびデータ特定html属性をレコードRbに上書きすることにより、サイト別目的データ属性DB230を更新して(ステップS1808)、領域再設定画面表示処理を呼び出したステップに戻る。これにより、目的ページの画面構成や掲載内容の変更に合わせて、サイト別目的データ属性DB230の記憶内容を更新することができる。
以上説明したように、実施の形態にかかる情報処理装置101によれば、目的ページのhtmlデータから、目的ページの画像データ上に設定された領域Tの画像データから得られるテキストデータと同一内容のテキストデータを検索することができる。これにより、目的ページのhtmlデータから、目的データと同一内容のテキストデータを検索することができる。
また、情報処理装置101によれば、複数のテキストデータが検索された場合、目的ページのhtmlデータ内の複数のテキストデータのいずれかのテキストデータを異なるテキストデータに変更することができる。また、情報処理装置101によれば、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定することができる。
また、情報処理装置101によれば、変更した異なるテキストデータと一致する場合、目的ページのhtmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定することができる。これにより、目的データと同一内容のテキストデータが複数存在する場合であっても、目的ページのhtmlデータにおける目的データの位置を正確に特定することができる。
また、情報処理装置101によれば、特定した領域Tに対応するテキストデータにより特定される、目的ページのhtmlデータにおけるタグに関する情報を、目的ページのデータURLと対応付けて記録することができる。
また、情報処理装置101によれば、取得した目的ページのhtmlデータから、記録したタグに関する情報により特定されるデータを検索することができる。また、情報処理装置101によれば、データが検索されなかった場合に、取得した目的ページのhtmlデータに基づく目的ページの画像データを含む領域再設定画面(例えば、領域再設定画面1200)をディスプレイ305に表示することができる。
これにより、タグに関する情報により特定されるデータを検索できたか否かによって、目的ページの画面構成や掲載内容の変更によりユーザの意図通りの情報を取得できなくなったか否かを判断することができる。また、ユーザの意図通りの情報を取得できなくなった場合に、目的ページのどの部分の情報を取得するのかについての再設定をしやすくして設定変更にかかる手間を削減することができる。
また、情報処理装置101によれば、出力した目的ページの画像データ上に設定された領域Tのデータにより特定されるタグに関する情報によって、記録したタグに関する情報を更新することができる。これにより、目的ページの画面構成や掲載内容の変更に合わせて、サイト別目的データ属性DB230の記憶内容を更新することができる。
また、情報処理装置101によれば、データが検索された場合、当該データのデータ属性が、タグに関する情報と対応付けて予め記録されたデータ属性と一致するか否かを判断することができる。また、情報処理装置101によれば、予め記録されたデータ属性と一致しない場合に、取得した目的ページの画像データを含む領域再設定画面をディスプレイ305に表示することができる。
これにより、データが検索されても、検索されたデータのデータ属性が予め記録されたデータ属性と異なる場合は、ユーザの意図通りの情報を取得できなくなったと判断して、目的ページの画像データを含む領域再設定画面(例えば、領域再設定画面1200)をディスプレイ305に表示することができる。
また、情報処理装置101によれば、予め記録されたデータ属性と一致する場合には、タグに関する情報と対応付けて予め記録された一覧位置に、検索されたデータを挿入した一覧画面を出力することができる。これにより、複数のサイトSの目的データを集約した一覧画面(例えば、一覧画面1000)をディスプレイ305に表示することができる。
なお、本実施の形態で説明したデータ特定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本データ特定プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本データ特定プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行させることを特徴とするデータ特定プログラム。
(付記2)前記変更する処理は、
複数のテキストデータが検索された場合に、前記画面の画面情報内の前記複数のテキストデータのいずれかのテキストデータを異なるテキストデータに変更し、
前記特定する処理は、
前記異なるテキストデータと一致する場合、前記画面の画面情報内の前記いずれかのテキストデータを、前記選択を受け付けた範囲に対応するテキストデータとして特定することを特徴とする付記1に記載のデータ特定プログラム。
(付記3)前記コンピュータに、
特定した前記選択を受け付けた範囲に対応するテキストデータにより特定される、前記画面の画面情報におけるタグに関する情報を、前記サイトの識別情報と対応付けて記録する処理を実行させることを特徴とする付記1または2に記載のデータ特定プログラム。
(付記4)前記コンピュータに、
記録した前記サイトの識別情報と前記サイトの画面の画面情報におけるタグに関する情報とに基づいて、取得した前記サイトの画面の画面情報から、前記タグに関する情報により特定されるデータを検索し、
前記データが検索されなかった場合に、取得した前記サイトの画面情報に基づく前記サイトの画像データを出力する、
処理を実行させることを特徴とする付記3に記載のデータ特定プログラム。
(付記5)前記コンピュータに、
前記データが検索された場合には、複数のサイトの情報を集約して表示する一覧画面における、前記タグに関する情報と対応付けて記録された位置に、検索した前記データを挿入した前記一覧画面を出力する処理を実行させることを特徴とする付記4に記載のデータ特定プログラム。
(付記6)コンピュータが、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行することを特徴とするデータ特定方法。
(付記7)サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する制御部、
を有することを特徴とする情報処理装置。
(付記8)コンピュータに、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行させるデータ特定プログラムを記録したことを特徴とする前記コンピュータに読み取り可能な記録媒体。