JP6187236B2 - Data identification program, data identification method, and information processing apparatus - Google Patents
Data identification program, data identification method, and information processing apparatus Download PDFInfo
- Publication number
- JP6187236B2 JP6187236B2 JP2013262166A JP2013262166A JP6187236B2 JP 6187236 B2 JP6187236 B2 JP 6187236B2 JP 2013262166 A JP2013262166 A JP 2013262166A JP 2013262166 A JP2013262166 A JP 2013262166A JP 6187236 B2 JP6187236 B2 JP 6187236B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- screen
- information
- text data
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ特定プログラム、データ特定方法および情報処理装置に関する。 The present invention relates to a data specifying program, a data specifying method, and an information processing apparatus.
従来、複数のサイトの情報を1画面に集約して表示するアカウントアグリゲーションと呼ばれるサービスがある。アカウントアグリゲーションによれば、例えば、インターネットバンキングなどに預金者が保有している異なる金融機関の複数の口座の情報を一覧画面に集約して表示することができる。 Conventionally, there is a service called account aggregation that aggregates and displays information on a plurality of sites on one screen. According to account aggregation, for example, information on a plurality of accounts of different financial institutions held by depositors in Internet banking or the like can be aggregated and displayed on a list screen.
関連する先行技術としては、例えば、サーバが、画像から矩形領域の画像を切り出して、OCR処理によりテキストを認識し、htmlファイルのソースから認識されたテキストと最も一致度の高いテキストを抽出してクライアント端末へ送信する技術がある。また、ユーザが必要としている個所を抽出するためのウェブページ情報抽出システムがある。 As related prior art, for example, a server cuts out an image of a rectangular area from an image, recognizes the text by OCR processing, and extracts the text having the highest degree of coincidence with the text recognized from the source of the html file. There is a technique for transmitting to a client terminal. In addition, there is a web page information extraction system for extracting a part that a user needs.
また、複数のサイトから取得したhtml文書に対し、切り出しルール、語彙情報、推論演算に基づき、html文書のタグを頼りに抽出データオブジェクトを取り出す技術がある。また、時間変化する情報を含む画面を画像データとして取り込み、画像データに対して文字認識を利用することにより、時間変化する情報を取得して蓄積し、画面上の指定された領域に表示する技術がある。 Further, there is a technique for extracting an extracted data object from an html document acquired from a plurality of sites based on a cut-out rule, vocabulary information, and an inference operation, using a tag of the html document. Technology that captures and stores time-varying information by capturing a screen containing time-varying information as image data and using character recognition for the image data, and displays it in a specified area on the screen There is.
しかしながら、従来技術によれば、ユーザにより指定される文字列と同一内容のデータがサイトのhtmlデータ内に複数存在すると、サイトのhtmlデータにおける、サイトから取得する情報の位置を特定することができない場合がある。 However, according to the prior art, if there is a plurality of data having the same content as the character string specified by the user in the html data of the site, the position of the information acquired from the site in the html data of the site cannot be specified. There is a case.
一つの側面では、本発明は、サイトの画面情報における、サイトから取得する情報の位置を正確に特定することができるデータ特定プログラム、データ特定方法および情報処理装置を提供することを目的とする。 In one aspect, an object of the present invention is to provide a data specifying program, a data specifying method, and an information processing apparatus that can accurately specify the position of information acquired from a site in screen information of the site.
本発明の一側面によれば、サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定するデータ特定プログラム、データ特定方法および情報処理装置が提案される。 According to one aspect of the present invention, text data having the same content as text data obtained from image data in a range in which selection has been received on image data of a screen of a site is searched from screen information of the screen, The searched text data in the screen information is changed to different text data, and is obtained from the image data in the same range as the selection received on the screen image data based on the screen information after the change. A data specifying program, a data specifying method, and an information processing for specifying text data corresponding to a range in which the selection is accepted from screen information of the screen by determining whether text data matches the different text data A device is proposed.
本発明の一態様によれば、サイトの画面情報における、サイトから取得する情報の位置を正確に特定することができるという効果を奏する。 According to one aspect of the present invention, it is possible to accurately specify the position of information acquired from a site in screen information of the site.
以下に図面を参照して、本発明にかかるデータ特定プログラム、データ特定方法および情報処理装置の実施の形態を詳細に説明する。 Exemplary embodiments of a data specifying program, a data specifying method, and an information processing apparatus according to the present invention will be described below in detail with reference to the drawings.
(データ特定方法の一実施例)
図1は、実施の形態にかかるデータ特定方法の一実施例を示す説明図である。図1において、情報処理装置101は、複数のサイトの情報を一画面に集約して出力する機能を有するコンピュータである。サイトは、ページまたはページの集合であり、例えば、Webサイトである。
(One example of data identification method)
FIG. 1 is an explanatory diagram of an example of the data specifying method according to the embodiment. In FIG. 1, an
ページは、ネットワーク上に公開される情報であり、例えば、Webページである。ページは、html(HyperText Markup Language)またはxhtml(Extensible HyperText Markup Language)によって記述された電子文書(htmlデータ、xhtmlデータ)や画像データなどを含む。 The page is information disclosed on the network, for example, a web page. The page includes an electronic document (html data, xhtml data) or image data described by html (HyperText Markup Language) or xhtml (Extensible HyperText Markup Language).
ここで、銀行サイトS1、証券会社サイトS2および年金サイトS3の情報を一覧画面に集約して出力する場合を想定する。この場合、ユーザは、銀行サイトS1、証券会社サイトS2および年金サイトS3の各サイトについて、各サイトのどのページのどの部分の情報を取得するのかを設定する。 Here, it is assumed that information on the bank site S1, the securities company site S2, and the pension site S3 is collected and output on a list screen. In this case, the user sets, for each site of the bank site S1, the securities company site S2, and the pension site S3, which part of which page of each site is to be acquired.
一例として、年金サイトS3の年金の支払額を取得する場合を想定する。この場合、例えば、年金サイトS3の画面の画像データ110において、ユーザの操作入力により、一覧画面に表示する情報を含む範囲(以下、「領域T1」と称する)を選択することによって、一覧画面に表示する文字列「1876540」のテキストデータを取得することができる。
As an example, it is assumed that the payment amount of the pension of the pension site S3 is acquired. In this case, for example, in the
また、年金サイトS3の画面のhtmlデータ120から文字列「1876540」のテキストデータを含むhtml要素のタグを特定することにより、htmlデータ120における文字列「1876540」の位置を特定することが考えられる。タグとは、予め定められた記法により文書に埋め込む形で記述される付加情報である。
Further, it is conceivable to specify the position of the character string “18776540” in the
htmlデータ(または、xhtmlデータ)では、元になる文書に「<」と「>」とで囲まれた半角英数字をタグとして埋め込むことにより、ブラウザに対して文書構造、書式、文字飾りなどを指示したり、画像や他の文書へのリンクを埋め込むことができる。また、html要素は、htmlデータを構成する要素であり、例えば、開始タグと内容と終了タグを含む。 In html data (or xhtml data), by embedding half-width alphanumeric characters enclosed in “<” and “>” as tags in the original document, the document structure, format, character decoration, etc. are given to the browser. You can instruct and embed images and links to other documents. The html element is an element constituting html data, and includes, for example, a start tag, contents, and an end tag.
ところが、年金サイトS3の画面の中に、ユーザにより指定された文字列「1876540」と同じ文字列が偶然存在する場合がある。この場合、ユーザにより指定された文字列「1876540」のテキストデータだけでは、htmlデータ120から抽出すべき情報を含むhtml要素のタグを一意に特定することができないことがある。
However, the same character string as the character string “18776540” specified by the user may exist by chance in the screen of the pension site S3. In this case, the tag of the html element including the information to be extracted from the
そこで、本実施の形態では、サイトのhtmlデータにおける、ユーザにより指定された文字列に対応するテキストデータの位置を正確に特定するデータ特定方法について説明する。以下、情報処理装置101のデータ特定処理の一実施例について説明する。
Therefore, in this embodiment, a data specifying method for accurately specifying the position of text data corresponding to a character string designated by the user in the html data of the site will be described. Hereinafter, an embodiment of the data specifying process of the
(1)情報処理装置101は、予め記録されたサイトSの識別情報を参照して、サイトSの画面情報を取得する。ここで、サイトSは、一画面に情報を集約して表示する複数のサイトのいずれかのサイトである。サイトSの識別情報とは、サイトSを識別する情報であり、例えば、サイトSのURL(Uniform Resource Locator)である。
(1) The
より詳細に説明すると、サイトSの識別情報は、例えば、一覧画面に表示するサイトSの情報を含むページのURLである。一覧画面は、複数のサイトの情報を集約して表示する画面である。また、サイトSの画面情報は、サイトSの情報を含むページを表示するための情報であり、例えば、サイトSの情報を含むページのhtmlデータやxhtmlデータである。 More specifically, the identification information of the site S is, for example, a URL of a page including the information of the site S displayed on the list screen. The list screen is a screen that aggregates and displays information on a plurality of sites. The screen information of the site S is information for displaying a page including the information of the site S, and is, for example, html data or xhtml data of a page including the information of the site S.
以下の説明では、一覧画面に表示するサイトSの情報を「目的データ」と表記する場合がある。また、サイトSの目的データを含むページを「目的ページ」と表記する場合がある。また、サイトSの画面情報として「htmlデータ」を例に挙げて説明する。 In the following description, the information on the site S displayed on the list screen may be referred to as “target data”. Further, a page including the target data of the site S may be referred to as “target page”. Further, “html data” will be described as an example of the screen information of the site S.
ここでは、一例として、目的ページを「年金サイトS3」とし、目的データを「年金の支払額を示す数字列」とする。この場合、情報処理装置101は、年金サイトS3のURLを指定して年金サイトS3にアクセスすることにより、年金サイトS3のhtmlデータ120を取得する。
Here, as an example, the target page is “pension site S3”, and the target data is “numeric string indicating the amount of pension payment”. In this case, the
(2)情報処理装置101は、サイトSの画面の画像データ上に設定された領域Tの画像データから得られるテキストデータと同一内容のテキストデータを、サイトSの画面のhtmlデータから検索する。ここで、領域Tの画像データから得られるテキストデータは、目的データのテキストデータである。
(2) The
具体的には、例えば、まず、情報処理装置101は、年金サイトS3の画像データ110から、画像データ110上に設定された領域T1の画像データ111を抽出する。つぎに、情報処理装置101は、抽出した領域T1の画像データ111の文字認識処理を行う。ここで、文字認識処理とは、画像データの中から、文字の形状に基づいて文字を識別し、コンピュータ上で扱える文字データに変換する処理である。
Specifically, for example, first, the
文字認識処理は、例えば、OCR(Optical Character Recognition)処理である。文字認識処理によれば、領域T内の文字あるいは文字列をテキストデータとして得ることができる。図1の例では、目的データのテキストデータとして、支払(円)を示す数字列「1876540」のテキストデータが得られる。そして、情報処理装置101は、年金サイトS3のhtmlデータ120から、文字認識処理により得られた目的データ「1876540」のテキストデータと同一内容のテキストデータを検索する。
The character recognition process is, for example, an OCR (Optical Character Recognition) process. According to the character recognition process, characters or character strings in the region T can be obtained as text data. In the example of FIG. 1, text data of a numeric string “18776540” indicating payment (yen) is obtained as text data of the target data. Then, the
(3)情報処理装置101は、サイトSの画面のhtmlデータ内の検索したテキストデータを異なるテキストデータに変更する。図1の例では、目的データ「1876540」のテキストデータ「1876540」と同一内容のテキストデータとして、「年金の支払額」を示すテキストデータ121と、「電話番号」の一部を示すテキストデータ122が検索される。
(3) The
この場合、情報処理装置101は、テキストデータ121,122のいずれかのテキストデータを異なるテキストデータに変更する。図1の例では、htmlデータ120内のテキストデータ121が、所定の文字列「ココ?」を示すテキストデータ123に変更されている。
In this case, the
なお、情報処理装置101は、例えば、上記(2)において、htmlデータ全体に対するテキストデータの検索が終了した後に、上記(3)の処理を実行することにしてもよい。また、情報処理装置101は、例えば、上記(2)において、htmlデータの先頭あるいは末尾からテキストデータの検索を行い、同一内容のテキストデータが検索される度に、その都度上記(3)の処理を実行することにしてもよい。
Note that, for example, the
(4)情報処理装置101は、変更後のサイトSのhtmlデータに基づくサイトSの画面の画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定する。具体的には、例えば、まず、情報処理装置101は、変更後のhtmlデータ120に基づいて、年金サイトS3をキャプチャして、年金サイトS3の画像データ130を取得する。なお、キャプチャとは、ディスプレイに表示される画面イメージを画像データとして保存することである。
(4) The
そして、情報処理装置101は、取得した年金サイトS3の画像データ130から、画像データ130上の領域T1(画像データ110上で選択された範囲と同一の範囲)の画像データ131を抽出する。つぎに、情報処理装置101は、抽出した領域T1の画像データ131の文字認識処理を行う。そして、情報処理装置101は、文字認識処理により得られたテキストデータが、テキストデータ123と一致するか否かを判定する。
Then, the
(5)情報処理装置101は、判定した判定結果に基づいて、サイトSの画面のhtmlデータから領域Tに対応するテキストデータを特定する。ここで、テキストデータが一致する場合は、htmlデータにおいて、異なるテキストデータに変更した箇所が、目的データの位置であることを示す。
(5) The
このため、情報処理装置101は、テキストデータが一致する場合、htmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定する。図1の例では、文字認識処理により得られたテキストデータが、テキストデータ123と一致する。
For this reason, when the text data matches, the
この場合、情報処理装置101は、htmlデータ120内のテキストデータ121,122のうち、異なるテキストデータ123に変更したテキストデータ121を、領域Tに対応するテキストデータとして特定する。なお、テキストデータが一致しない場合は、異なるテキストデータに変更するテキストデータを切り替えて(例えば、テキストデータ122)、上記(3)〜(5)の一連の処理を繰り返す。
In this case, the
ただし、上述した例では、上記(2)で検索されるテキストデータは、テキストデータ121,122の2つである。このため、文字認識処理により得られたテキストデータがテキストデータ123と一致しない場合は、情報処理装置101は、例えば、上記(3)〜(5)の処理を繰り返すことなく、テキストデータ122を、領域Tに対応するテキストデータとして特定することにしてもよい。
However, in the example described above, the text data searched in (2) is two
このように、情報処理装置101によれば、年金サイトS3のhtmlデータ120から、年金サイトS3の画像データ110上に設定された領域T1の画像データ111から得られるテキストデータと同一内容のテキストデータを検索することができる。これにより、年金サイトS3のhtmlデータ120から、目的データと同一内容のテキストデータを検索することができる。
Thus, according to the
また、情報処理装置101によれば、複数のテキストデータ121,122が検索された場合、年金サイトS3のhtmlデータ120内の複数のテキストデータ121,122のいずれかのテキストデータ(例えば、テキストデータ121)を異なるテキストデータに変更することができる。また、情報処理装置101によれば、変更後の年金サイトS3のhtmlデータ120に基づく年金サイトS3の画像データ130上の領域T1の画像データ131から得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定することができる。
Further, according to the
また、情報処理装置101によれば、変更した異なるテキストデータと一致する場合、年金サイトS3のhtmlデータ120のうち、異なるテキストデータに変更したテキストデータ121を、領域T1に対応するテキストデータとして特定することができる。これにより、年金サイトS3のhtmlデータ120内に目的データと同一内容のテキストデータが複数存在する場合であっても、年金サイトS3のhtmlデータ120における目的データの位置を正確に特定することができる。
Further, according to the
(システム200のシステム構成例)
つぎに、実施の形態にかかるシステム200のシステム構成例について説明する。
(System configuration example of system 200)
Next, a system configuration example of the
図2は、システム200のシステム構成例を示す説明図である。図2において、システム200は、情報処理装置101とサーバ201を含む。システム200において、情報処理装置101とサーバ201は、有線または無線のネットワーク210を介して相互に通信可能に接続される。ネットワーク210は、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
FIG. 2 is an explanatory diagram illustrating a system configuration example of the
ここで、情報処理装置101は、アカウントアグリゲーション情報DB(データベース)220、サイト別目的データ属性DB230および一覧情報DB240を有する。具体的には、例えば、情報処理装置101は、ブラウザがインストールされたPC(Personal Computer)、ノートPC、タブレット型PC、スマートフォン、携帯電話機などである。
Here, the
なお、アカウントアグリゲーション情報DB220、サイト別目的データ属性DB230および一覧情報DB240についての説明は、図5〜図7を用いて後述する。
The account
サーバ201は、情報処理装置101からの要求に応じて、htmlデータや画像などを含むサイトSの画面情報を送信するコンピュータである。情報処理装置101は、サーバ201からのサイトSの画面情報に基づいて、サイトSの画面を表示することができる。具体的には、例えば、サーバ201は、Webサーバである。
The
(情報処理装置101のハードウェア構成例)
図3は、情報処理装置101のハードウェア構成例を示すブロック図である。図3において、情報処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、ディスクドライブ303と、ディスク304と、ディスプレイ305と、I/F(Interface)306と、キーボード307と、マウス308と、スキャナ309と、プリンタ310と、を有する。また、各構成部はバス300によってそれぞれ接続される。
(Hardware configuration example of information processing apparatus 101)
FIG. 3 is a block diagram illustrating a hardware configuration example of the
ここで、CPU301は、情報処理装置101の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
Here, the
ディスクドライブ303は、CPU301の制御にしたがってディスク304に対するデータのリード/ライトを制御する。ディスク304は、ディスクドライブ303の制御で書き込まれたデータを記憶する。ディスク304としては、例えば、磁気ディスク、光ディスクなどが挙げられる。
The
ディスプレイ305は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。ディスプレイ305は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
A
I/F306は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータ(例えば、サーバ201)に接続される。そして、I/F306は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F306には、例えば、モデムやLANアダプタなどを採用することができる。
The I /
キーボード307は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。キーボード307は、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス308は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。
The keyboard 307 includes keys for inputting characters, numbers, various instructions, and the like, and inputs data. The keyboard 307 may be a touch panel type input pad or a numeric keypad. The
スキャナ309は、画像を光学的に読み取り、情報処理装置101内に画像データを取り込む。スキャナ309は、OCR機能を有していてもよい。プリンタ310は、画像データや文書データを印刷する。プリンタ310には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。なお、情報処理装置101は、例えば、上述した構成部のうち、スキャナ309、プリンタ310などを有さないことにしてもよい。
The scanner 309 optically reads an image and takes in image data into the
(サーバ201のハードウェア構成例)
図4は、サーバ201のハードウェア構成例を示すブロック図である。図4において、サーバ201は、CPU401と、メモリ402と、I/F403と、ディスクドライブ404と、ディスク405と、を有する。また、各構成部は、バス400によってそれぞれ接続される。
(Hardware configuration example of server 201)
FIG. 4 is a block diagram illustrating a hardware configuration example of the
ここで、CPU401は、サーバ201の全体の制御を司る。メモリ402は、例えば、ROM、RAMおよびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU401のワークエリアとして使用される。メモリ402に記憶されるプログラムは、CPU401にロードされることで、コーディングされている処理をCPU401に実行させる。
Here, the
I/F403は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータ(例えば、図2に示した情報処理装置101)に接続される。そして、I/F403は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F403には、例えば、モデムやLANアダプタなどを採用することができる。
The I /
ディスクドライブ404は、CPU401の制御にしたがってディスク405に対するデータのリード/ライトを制御する。ディスク405は、ディスクドライブ404の制御で書き込まれたデータを記憶する。ディスク405としては、例えば、磁気ディスク、光ディスクなどが挙げられる。なお、サーバ201は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイなどを有することにしてもよい。
The
(アカウントアグリゲーション情報DB220の記憶内容)
つぎに、情報処理装置101が有するアカウントアグリゲーション情報DB220の記憶内容について説明する。アカウントアグリゲーション情報DB220は、例えば、図3に示した情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
(Contents stored in the account aggregation information DB 220)
Next, the contents stored in the account
図5は、アカウントアグリゲーション情報DB220の記憶内容の一例を示す説明図である。図5において、アカウントアグリゲーション情報DB220は、ID、PW、ログインURLおよびデータURLのフィールドを有する。各フィールドに情報を設定することで、アカウントアグリゲーション情報(アカウントアグリゲーション情報500−1〜500−7)がレコードとして記憶される。
FIG. 5 is an explanatory diagram showing an example of the contents stored in the account
ここで、ID(identification)は、サイトSのユーザを識別する識別子である。PW(password)は、サイトSにログインするためのユーザのパスワードである。ログインURLは、サイトSにログインするためのWebページ(いわゆる、ログイン画面)を表示するためのURLである。 Here, ID (identification) is an identifier for identifying a user of the site S. PW (password) is a user password for logging in to the site S. The login URL is a URL for displaying a Web page (so-called login screen) for logging into the site S.
データURLは、一覧画面に表示するサイトSの情報を含むWebページを表示するためのURLである。一覧画面は、複数のサイトSの情報を集約して表示する画面である。ここでは、データURLは、CGI(Common Gateway Interface)スクリプトのURLである。 The data URL is a URL for displaying a Web page including information on the site S to be displayed on the list screen. The list screen is a screen that aggregates and displays information on a plurality of sites S. Here, the data URL is a URL of a CGI (Common Gateway Interface) script.
例えば、アカウントアグリゲーション情報500−1は、ID「12345」、PW「P111111」、ログインURL「A.html」およびデータURL「A/12345.cgi」を示す。 For example, the account aggregation information 500-1 indicates ID “12345”, PW “P111111”, login URL “A.html”, and data URL “A / 12345.cgi”.
(サイト別目的データ属性DB230の記憶内容)
つぎに、情報処理装置101が有するサイト別目的データ属性DB230の記憶内容について説明する。サイト別目的データ属性DB230は、例えば、情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
(Storage contents of site-specific purpose data attribute DB 230)
Next, the contents stored in the site-specific purpose data attribute
図6は、サイト別目的データ属性DB230の記憶内容の一例を示す説明図である。図6において、サイト別目的データ属性DB230は、データURL、データ特定html属性およびデータ属性のフィールドを有する。各フィールドに情報を設定することで、サイト別目的データ属性情報(例えば、サイト別目的データ属性情報600−1〜600−5)がレコードとして記憶される。
FIG. 6 is an explanatory diagram showing an example of the contents stored in the site-specific purpose data attribute
ここで、データURLは、サイトSの目的ページを表示するためのURLである。データ特定html属性は、目的データを含むhtml要素のタグを特定するための情報である。データ属性は、目的データの属性である。データ属性としては、例えば、数値、漢字、かな、カナ、アルファベットなどがある。例えば、サイト別目的データ属性情報600−1は、データURL「A/12345.cgi」、データ特定html属性「td全12個中の4番目」およびデータ属性「数値」を示す。 Here, the data URL is a URL for displaying the target page of the site S. The data specifying html attribute is information for specifying a tag of an html element including target data. The data attribute is an attribute of the target data. Examples of data attributes include numerical values, kanji, kana, kana, and alphabet. For example, the site-specific purpose data attribute information 600-1 indicates the data URL “A / 12345.cgi”, the data specific html attribute “fourth of all td twelve”, and the data attribute “numerical value”.
(一覧情報DB240の記憶内容)
つぎに、情報処理装置101が有する一覧情報DB240の記憶内容について説明する。一覧情報DB240は、例えば、情報処理装置101のメモリ302、ディスク304などの記憶装置により実現される。
(Storage contents of list information DB 240)
Next, the contents stored in the
図7は、一覧情報DB240の記憶内容の一例を示す説明図である。図7において、一覧情報DB240は、データURLおよび一覧位置のフィールドを有し、各フィールドに情報を設定することで、一覧情報(例えば、一覧情報700−1〜700−5)をレコードとして記憶する。
FIG. 7 is an explanatory diagram showing an example of the contents stored in the
ここで、データURLは、サイトSの目的ページを表示するためのURLである。一覧位置は、一覧画面におけるサイトSの目的データを表示する位置を示す情報である。ここでは、一覧位置は、一覧画面内のボックス(例えば、図8に示すボックスB1〜B3)の番号を示す。例えば、一覧情報700−1は、データURL「A/12345.cgi」および一覧位置「2」を示す。 Here, the data URL is a URL for displaying the target page of the site S. The list position is information indicating a position where the target data of the site S is displayed on the list screen. Here, the list position indicates the number of a box (for example, boxes B1 to B3 shown in FIG. 8) in the list screen. For example, the list information 700-1 indicates the data URL “A / 12345.cgi” and the list position “2”.
(一覧設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される一覧設定画面の画面例について説明する。一覧設定画面は、複数のサイトSの目的データを表示する一覧画面の画面構成や掲載内容を設定する画面である。
(Example of list setting screen)
Next, a screen example of the list setting screen displayed on the
図8は、一覧設定画面の画面例を示す説明図である。図8において、一覧設定画面800は、一覧画面に表示する目的データの項目名および表示位置を設定する画面である。一覧設定画面800において、図3に示したキーボード307やマウス308を用いたユーザの操作入力により、一覧画面に表示する目的データの項目名を設定することができる。
FIG. 8 is an explanatory diagram illustrating a screen example of a list setting screen. In FIG. 8, a
図8の例では、一覧画面に表示する目的データの項目名「年金加入月数」、「年金受給(見込み)額」および「X銀行の預金残高」が設定されている。なお、「年金加入月数」と「年金受給(見込み)額」は、ある年金サイトの情報である。また、「X銀行の預金残高」は、ある銀行サイトの情報である。 In the example of FIG. 8, the item names “number of months of pension participation”, “pension receipt (expected) amount” and “bank balance of X bank” of the target data displayed on the list screen are set. The “months of pension participation” and “pension receipt (expected) amount” are information on a certain pension site. Further, “deposit balance of bank X” is information on a certain bank site.
また、一覧設定画面800において、ユーザの操作入力により、目的データを表示するボックスを設定することができる。図8の例では、項目名「年金加入月数」の目的データを表示するボックスB1、項目名「年金受給(見込み)額」の目的データを表示するボックスB2および項目名「X銀行の預金残高」の目的データを表示するボックスB3が設定されている。
In the
(領域初期設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される領域初期設定画面の画面例について説明する。領域初期設定画面は、目的ページの画面における目的データを含む領域Tを設定する画面である。
(Example of initial area setting screen)
Next, a screen example of the area initial setting screen displayed on the
図9は、領域初期設定画面の画面例を示す説明図である。図9において、領域初期設定画面900は、年金サイトの厚生年金情報ページの画面における目的データを含む領域Tを設定する画面である。領域初期設定画面900には、年金サイトの厚生年金情報ページの画面の画像データ910が表示されている。
FIG. 9 is an explanatory diagram illustrating a screen example of a region initial setting screen. In FIG. 9, a region
領域初期設定画面900において、ユーザによる領域指定の操作入力として、画像データ910上の目的データを含む範囲の選択を受け付けることにより、厚生年金情報ページの画面における目的データを含む領域Tを設定することができる。図9の例では、厚生年金情報ページの画面における目的データを含む領域として、領域T1,T2が設定されている。
In the region
ここで、領域T1は、厚生年金情報ページの加入期間[月]を示す数字列を含む領域である。領域T2は、厚生年金情報ページの年金額(見込み)[円]を示す数字列を含む領域である。また、領域初期設定画面900において、ユーザの操作入力により、設定完了ボタン920がクリック(押下)されると、領域Tの設定が完了する。
Here, area | region T1 is an area | region containing the numerical sequence which shows the enrollment period [month] of an employee pension information page. The region T2 is a region including a numeric string indicating the annual amount (expected) [yen] of the employee pension information page. On the region
(一覧画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される一覧画面の画面例について説明する。一覧画面は複数のサイトSの目的データを集約して表示する画面である。
(Screen example of list screen)
Next, a screen example of a list screen displayed on the
図10は、一覧画面の画面例を示す説明図である。図10において、一覧画面1000は、年金サイトの厚生年金情報ページの目的データと、銀行サイトの口座情報ページの目的データとを集約して表示する画面である。具体的には、一覧画面1000には、年金サイトの厚生年金情報ページの年金加入月数がボックスB1に表示され、年金受給(見込み)額がボックスB2に表示されている。
FIG. 10 is an explanatory diagram illustrating a screen example of a list screen. In FIG. 10, a
また、一覧画面1000には、銀行サイトの口座情報ページの預金残高がボックスB3に表示されている。一覧画面1000によれば、ユーザは、年金サイトの厚生年金情報ページの年金加入月数、年金受給(見込み)額および銀行サイトの口座情報ページの預金残高を一目で確認することができる。
On the
(情報処理装置101の機能的構成例)
図11は、情報処理装置101の機能的構成例を示すブロック図である。図11において、情報処理装置101は、受付部1101と、取得部1102と、登録部1103と、表示制御部1104と、認識部1105と、検索部1106と、変更部1107と、判定部1108と、特定部1109と、を含む構成である。受付部1101〜特定部1109は制御部となる機能であり、具体的には、例えば、図3に示したメモリ302、ディスク304などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F306により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302、ディスク304などの記憶装置に記憶される。
(Functional configuration example of the information processing apparatus 101)
FIG. 11 is a block diagram illustrating a functional configuration example of the
<新規登録要求を受け付けた場合>
まず、新規登録要求を受け付けた場合の各機能部の処理内容について説明する。新規登録要求は、一覧画面に表示する目的データを新規登録する要求である。
<When a new registration request is accepted>
First, processing contents of each functional unit when a new registration request is received will be described. The new registration request is a request for newly registering target data to be displayed on the list screen.
受付部1101は、新規登録要求を受け付ける。具体的には、例えば、受付部1101は、キーボード307やマウス308を用いたユーザの操作入力により、新規登録要求を受け付ける。また、受付部1101は、外部のコンピュータから新規登録要求を受信することにより、新規登録要求を受け付けることにしてもよい。
The accepting
取得部1102は、新規登録要求を受け付けたことに応じて、サイトSのID、PW、ログインURLおよびデータURLを取得する。具体的には、例えば、取得部1102は、ユーザの操作入力により、サイトSのID、PW、ログインURLおよびデータURLを取得する。この際、取得部1102は、ユーザの操作入力によって目的ページまで画面遷移させることにより、目的ページのデータURLを取得することにしてもよい。
The
なお、サイトSのID、PW、ログインURLおよびデータURLは、新規登録要求に含まれていてもよい。この場合、取得部1102は、受け付けられた新規登録要求から、サイトSのID、PW、ログインURLおよびデータURLを取得する。
Note that the ID, PW, login URL, and data URL of the site S may be included in the new registration request. In this case, the
登録部1103は、取得されたサイトSのID、PW、ログインURLおよびデータURLをアカウントアグリゲーション情報DB220に登録する。具体的には、例えば、登録部1103は、アカウントアグリゲーション情報DB220の各フィールドに、取得されたサイトSのID、PW、ログインURLおよびデータURLを設定する。
The
これにより、アカウントアグリゲーション情報DB220に新たなアカウントアグリゲーション情報が新規登録される。
As a result, new account aggregation information is newly registered in the account
取得部1102は、目的ページの画面のhtmlデータを取得する。具体的には、例えば、まず、取得部1102は、取得したサイトSのログインURLを用いて、サイトSのログイン画面にアクセスする。そして、取得部1102は、取得したサイトSのID、PWを用いて、サイトSにログインする。つぎに、取得部1102は、取得したサイトSのデータURLを用いて、サイトSの目的ページのhtmlデータを取得する。
The
表示制御部1104は、取得された目的ページの画面のhtmlデータに基づいて、目的ページの画面の画像データを出力する。具体的には、例えば、まず、表示制御部1104は、取得したhtmlデータに基づいて、目的ページの画面をキャプチャすることにより、目的ページの画面の画像データを取得する。そして、表示制御部1104は、取得した目的ページの画面の画像データを含む領域初期設定画面(例えば、図9に示した領域初期設定画面900)をディスプレイ305に表示する。
The
受付部1101は、出力された目的ページの画面の画像データ上の目的データを含む領域Tの選択を受け付ける。具体的には、例えば、受付部1101は、領域初期設定画面900におけるユーザの操作入力により、画像データ910(図9参照)上の目的データを含む領域T(例えば、領域T1,T2)の選択を受け付ける。
The accepting
認識部1105は、選択された領域Tの画像データの文字認識処理を行う。具体的には、例えば、まず、認識部1105は、目的ページの画像データから、選択された領域Tの画像データを抽出する。そして、認識部1105は、抽出した領域Tの画像データに対してOCR処理を行う。これにより、目的データのテキストデータを取得することができる。
The
また、認識部1105は、選択された領域Tの位置情報を取得する。ここで、領域Tの位置情報とは、目的ページの画像データにおける領域Tの位置を示す情報である。例えば、領域Tが矩形の場合、領域Tの位置情報は、矩形の対角の2頂点の座標(x座標、y座標)である。また、領域Tが円の場合、領域Tの位置情報は、円の中心の座標と半径である。具体的には、例えば、領域Tが矩形の場合、認識部1105は、選択された領域Tの左上の座標(x座標,y座標)と右下の座標(x座標,y座標)を取得する。
In addition, the
検索部1106は、取得された目的ページのhtmlデータから、認識された文字あるいは文字列と同一内容のテキストデータを検索する。すなわち、検索部1106は、目的ページのhtmlデータから、OCR処理により得られる目的データのテキストデータと同一内容のテキストデータを検索する。
The
変更部1107は、目的ページのhtmlデータ内の検索されたテキストデータを異なるテキストデータに変更する。具体的には、例えば、変更部1107は、複数のテキストデータが検索された場合、目的ページのhtmlデータ内の複数のテキストデータのいずれかのテキストデータを、所定の文字列(あるいは、文字)を示すテキストデータに変更する。所定の文字列は、任意に設定可能である。例えば、所定の文字列は、ページのhtmlデータの中に出現しにくい文字列に設定される。
The changing
認識部1105は、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データの文字認識処理を行う。具体的には、例えば、まず、認識部1105は、変更後のhtmlデータをメモリ302に展開することにより、目的ページをキャプチャして、目的ページの画像データを取得する。つぎに、認識部1105は、取得した領域Tの位置情報に基づいて、取得した目的ページの画像データから領域Tの画像データを抽出する。そして、認識部1105は、抽出した領域Tの画像データの文字認識処理を行う。
The
判定部1108は、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定する。具体的には、例えば、判定部1108は、文字認識処理により得られたテキストデータが、所定の文字列を示すテキストデータと一致するか否かを判定する。
The
特定部1109は、目的ページのhtmlデータから領域Tに対応するテキストデータを特定する。具体的には、例えば、特定部1109は、検索部1106によって1つのテキストデータが検索された場合は、目的ページのhtmlデータのうち、検索されたテキストデータを、領域Tに対応するテキストデータとして特定する。
The specifying
一方、複数のテキストデータが検索された場合には、特定部1109は、判定された判定結果に基づいて、検索された複数のテキストデータから領域Tに対応するテキストデータを特定する。例えば、特定部1109は、テキストデータが一致する場合、目的ページのhtmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定する。
On the other hand, when a plurality of text data are searched, the specifying
また、特定部1109は、特定した領域Tに対応するテキストデータに基づいて、目的ページのhtmlデータにおけるタグに関する情報を特定する。ここで、タグに関する情報とは、目的ページのhtmlデータのうち、目的データを含むhtml要素のタグを特定するための情報である。
Further, the specifying
具体的には、例えば、まず、特定部1109は、目的ページのhtmlデータから、領域Tに対応するテキストデータを含むhtml要素を検索する。そして、特定部1109は、目的ページのhtmlデータにおける、検索したhtml要素のタグのデータ特定html属性を、タグに関する情報として特定する。
Specifically, for example, first, the specifying
データ特定html属性とは、目的ページのhtmlデータにおける、目的データのテキストデータを含むhtml要素のタグの位置を特定するための情報である。データ特定html属性は、例えば、タグの種類や、htmlデータにおける同一種類のタグ全何個中の先頭から何番目のタグであるかなどを示す。 The data specifying html attribute is information for specifying the position of the tag of the html element including the text data of the target data in the html data of the target page. The data specifying html attribute indicates, for example, the type of tag and the tag number from the top of all tags of the same type in the html data.
また、特定部1109は、特定した領域Tに対応するテキストデータのデータ属性を特定する。具体的には、例えば、認識部1105は、領域Tに対応するテキストデータを解析することにより、当該テキストデータのデータ属性(例えば、数値、漢字、かな、カナ、アルファベット)を特定する。
Further, the specifying
また、受付部1101は、目的データの一覧位置を受け付ける機能を有する。具体的には、例えば、受付部1101は、ユーザの操作入力により、目的データの一覧位置(例えば、図8に示した一覧設定画面800のボックスの番号)を受け付ける。
The receiving
登録部1103は、目的ページのデータURLと対応付けて、特定された目的ページのhtmlデータにおけるタグに関する情報を記録する。また、登録部1103は、目的ページのデータURLと対応付けて、特定された領域Tに対応するテキストデータのデータ属性を記録する。
The
具体的には、例えば、登録部1103は、サイト別目的データ属性DB230の各フィールドに、データURL、データ特定html属性およびデータ属性を設定する。これにより、サイト別目的データ属性DB230に新たなサイト別目的データ属性情報が新規登録される。
Specifically, for example, the
また、登録部1103は、目的ページのデータURLと対応付けて、受け付けた目的データの一覧位置を記録する。具体的には、例えば、登録部1103は、一覧情報DB240の各フィールドに、データURLおよび一覧位置を設定する。これにより、一覧情報DB240に新たな一覧情報が新規登録される。
Also, the
なお、上述した説明では、テキストデータを変更する際の所定の文字列が設定されている場合について説明したが、これに限らない。例えば、目的ページのhtmlデータに予め設定された所定の文字列が偶然含まれる場合がある。このため、変更部1107は、例えば、変更前の目的ページのhtmlデータから、所定の文字列を示すテキストデータを検索し、テキストデータが検索された場合は、所定の文字列を異なる文字列に設定し直すことにしてもよい。
In the above description, a case has been described in which a predetermined character string for changing text data is set. However, the present invention is not limited to this. For example, there is a case where a predetermined character string set in advance is accidentally included in the html data of the target page. For this reason, for example, the changing
<一覧表示要求を受け付けた場合>
つぎに、一覧表示要求を受け付けた場合の各機能部の処理内容について説明する。一覧表示要求は、複数のサイトSの目的データを集約して表示する一覧画面(例えば、図10に示した一覧画面1000)の表示要求である。
<When a list display request is accepted>
Next, processing contents of each functional unit when a list display request is received will be described. The list display request is a display request for a list screen (for example, the
受付部1101は、一覧表示要求を受け付ける。具体的には、例えば、受付部1101は、ユーザの操作入力により、一覧表示要求を受け付ける。また、受付部1101は、外部のコンピュータから一覧表示要求を受信することにより、一覧表示要求を受け付けることにしてもよい。
The accepting
取得部1102は、一覧表示要求を受け付けたことに応じて、目的ページの画面のhtmlデータを取得する。具体的には、例えば、まず、取得部1102は、アカウントアグリゲーション情報DB220からアカウントアグリゲーション情報(レコード)を取得する。そして、取得部1102は、取得したアカウントアグリゲーション情報のログインURLを用いて、サイトSのログイン画面にアクセスする。つぎに、取得部1102は、取得したアカウントアグリゲーション情報のID、PWを用いて、サイトSにログインする。そして、取得部1102は、取得したアカウントアグリゲーション情報のデータURLを用いて、サイトSの目的ページのhtmlデータを取得する。
The
検索部1106は、取得された目的ページのhtmlデータから、目的ページのデータURLと対応付けて予め記録されたタグに関する情報により特定されるデータ(テキストデータ)を検索する。具体的には、例えば、まず、検索部1106は、サイト別目的データ属性DB230から、目的ページのデータURLに対応するサイト別目的データ属性情報(レコード)を取得する。
The
そして、検索部1106は、目的ページのhtmlデータから、取得したサイト別目的データ属性情報のデータ特定html属性により特定されるデータを検索する。例えば、サイト別目的データ属性情報600−1を取得した場合、検索部1106は、目的ページのhtmlデータから、td全12個中の4番目のtdのデータを検索する。
Then, the
表示制御部1104は、検索部1106によってデータが検索されなかった場合、取得された目的ページの画面のhtmlデータに基づく目的ページの画面の画像データを出力する。具体的には、例えば、表示制御部1104は、目的ページの画面の画像データを含む領域再設定画面をディスプレイ305に表示する。なお、領域再設定画面の画面例については、図12を用いて後述する。
When the
これにより、目的ページの画面構成や掲載内容が変更されて目的データを取得できなくなった場合に、変更後の目的ページの画面における目的データを含む領域Tを再設定するための領域再設定画面をディスプレイ305に表示することができる。
As a result, an area reset screen for resetting the area T including the target data on the screen of the target page after the change when the target page cannot be acquired due to the change in the screen configuration or posted content of the target page. It can be displayed on the
また、表示制御部1104は、検索部1106によってデータが検索された場合、当該データのデータ属性が、タグに関する情報と対応付けて予め記録されたデータ属性と一致するか否かを判断する。具体的には、例えば、表示制御部1104は、検索されたデータのデータ属性が、目的ページのデータURLに対応するサイト別目的データ属性情報のデータ属性と一致するか否かを判断する。
Further, when data is retrieved by the
そして、表示制御部1104は、データのデータ属性が一致しない場合、取得された目的ページの画面のhtmlデータに基づく目的ページの画面の画像データを出力することにしてもよい。これにより、目的ページの画面構成や掲載内容が変更されて領域Tのデータのデータ属性が変わった場合に、変更後の目的ページの画面における目的データを含む領域Tを再設定するための領域再設定画面をディスプレイ305に表示することができる。
If the data attributes of the data do not match, the
受付部1101は、出力された目的ページの画面の画像データ上の目的データを含む領域Tの選択を受け付ける。具体的には、例えば、受付部1101は、後述する領域再設定画面1200におけるユーザの操作入力により、画像データ1210(図12参照)上の目的データを含む領域Tの選択を受け付ける。
The accepting
認識部1105は、選択された領域Tの画像データの文字認識処理を行う。文字認識処理の具体的な処理内容は、新規登録要求時と同様である。
The
特定部1109は、目的ページのhtmlデータにおける目的データを含むhtml要素のタグに関する情報を特定する。タグに関する情報を特定する具体的な処理内容は、新規登録要求時と同様である。また、特定部1109は、文字認識処理により認識されたデータのデータ属性を特定する。データ属性を特定する具体的な処理内容は、新規登録要求時と同様である。
The specifying
登録部1103は、特定部1109によって特定されたタグに関する情報によって、目的ページのURLと対応付けて予め記録されたタグに関する情報を更新する。具体的には、例えば、登録部1103は、特定されたデータ特定html属性を、目的ページのデータURLに対応するサイト別目的データ属性DB230内のサイト別目的データ属性情報のデータ特定html属性に上書きする。また、登録部1103は、特定されたデータ属性をサイト別目的データ属性情報のデータ属性に上書きする。
The
これにより、サイト別目的データ属性DB230内のサイト別目的データ属性が、目的ページの画面構成や掲載内容の変更に合わせて更新される。
As a result, the site-specific purpose data attribute in the site-specific purpose data attribute
表示制御部1104は、一覧画面における、領域Tの位置情報と対応付けて予め記録された位置に、検索部1106によって検索されたデータを挿入した一覧画面を出力する。具体的には、例えば、まず、表示制御部1104は、一覧設定画面800(図8参照)のhtmlデータに基づいて、目的データが挿入されていない一覧画面1000のhtmlデータを生成する。
The
つぎに、表示制御部1104は、目的ページのデータURLに対応するサイト別目的データ属性DB230内のサイト別目的データ属性情報の一覧位置を特定する。そして、表示制御部1104は、特定した一覧位置に、検索されたデータを挿入した一覧画面1000のhtmlデータを生成してディスプレイ305に表示する。これにより、複数のサイトSの目的データを集約して表示する一覧画面をディスプレイ305に表示することができる。
Next, the
なお、上述した説明では、情報処理装置101が各機能部1101〜1109を有することにしたが、サーバ201が各機能部1101〜1109を有することにしてもよい。具体的には、例えば、必要な機能を必要な分だけサービスとして情報処理装置101に利用できるようにしたSaaS(Software as a Service)により、システム200を実現することにしてもよい。
In the above description, the
(領域再設定画面の画面例)
つぎに、情報処理装置101のディスプレイ305に表示される領域再設定画面の画面例について説明する。領域再設定画面は、目的ページの画面における目的データを含む領域Tを再設定する画面である。
(Screen example of area reset screen)
Next, a screen example of the area resetting screen displayed on the
図12は、領域再設定画面の画面例を示す説明図である。図12において、領域再設定画面1200は、年金サイトの厚生年金情報ページの画面における目的データを含む領域T2を再設定する画面である。領域再設定画面1200には、年金サイトの厚生年金情報ページの画面の画像データ1210が表示されている。
FIG. 12 is an explanatory diagram illustrating a screen example of the area resetting screen. In FIG. 12, an
領域再設定画面1200において、ユーザによる領域指定の操作入力として、画像データ1210上の任意の範囲の選択を受け付けることにより、厚生年金情報ページの画面における目的データを含む領域T2を再設定することができる。
In the
図12の例では、ユーザの操作入力により、厚生年金情報ページの画面における年金額(見込み)[円]を示す数字列を含む領域T2が再設定されている。また、領域再設定画面1200において、ユーザの操作入力により、設定完了ボタン1220がクリック(押下)されると、領域T2の再設定が完了する。
In the example of FIG. 12, the region T2 including a numeric string indicating the annual amount (expected) [yen] on the screen of the welfare annuity information page is reset by the user's operation input. On the region reset
このように、領域再設定画面1200によれば、年金サイトの厚生年金情報ページの画面における目的データを含む領域T2を再設定することができる。
Thus, according to the
(情報処理装置101の情報提供処理手順)
つぎに、情報処理装置101の情報提供処理手順について説明する。
(Information provision processing procedure of information processing apparatus 101)
Next, an information provision processing procedure of the
図13は、情報処理装置101の情報提供処理手順の一例を示すフローチャートである。図13のフローチャートにおいて、まず、情報処理装置101は、新規登録要求を受け付けたか否かを判断する(ステップS1301)。
FIG. 13 is a flowchart illustrating an example of an information provision processing procedure of the
ここで、新規登録要求を受け付けた場合(ステップS1301:Yes)、情報処理装置101は、新規登録処理を実行して(ステップS1302)。本フローチャートによる一連の処理を終了する。新規登録処理の具体的な処理手順については、図14および図15のフローチャートを用いて後述する。
If a new registration request is accepted (step S1301: Yes), the
一方、新規登録要求を受け付けていない場合(ステップS1301:No)、情報処理装置101は、一覧表示要求を受け付けたか否かを判断する(ステップS1303)。ここで、一覧表示要求を受け付けていない場合(ステップS1303:No)、情報処理装置101は、ステップS1301に戻る。
On the other hand, if a new registration request has not been received (step S1301: No), the
一方、一覧表示要求を受け付けた場合(ステップS1303:Yes)、情報処理装置101は、一覧表示処理を実行して(ステップS1304)。本フローチャートによる一連の処理を終了する。一覧表示処理の具体的な処理手順については、図16のフローチャートを用いて後述する。
On the other hand, when a list display request is received (step S1303: Yes), the
<新規登録処理の具体的処理手順>
つぎに、図13に示したステップS1302の新規登録処理の具体的な処理手順について説明する。
<Specific processing procedure of new registration processing>
Next, a specific processing procedure of the new registration processing in step S1302 shown in FIG. 13 will be described.
図14および図15は、新規登録処理の具体的処理手順の一例を示すフローチャートである。図14のフローチャートにおいて、まず、情報処理装置101は、サイトSのID、PW、ログインURLおよびデータURLを取得する(ステップS1401)。
14 and 15 are flowcharts showing an example of a specific processing procedure of the new registration processing. In the flowchart of FIG. 14, first, the
そして、情報処理装置101は、取得したサイトSのID、PW、ログインURLおよびデータURLをアカウントアグリゲーション情報DB220に登録する(ステップS1402)。これにより、アカウントアグリゲーション情報DB220に新たなアカウントアグリゲーション情報が新規登録される。
The
つぎに、情報処理装置101は、取得したサイトSのID、PW、ログインURLおよびデータURLを用いて、サイトSの目的ページのhtmlデータを取得する(ステップS1403)。そして、情報処理装置101は、取得したhtmlデータに基づいて、目的ページをキャプチャすることにより、目的ページの画像データを取得する(ステップS1404)。
Next, the
つぎに、情報処理装置101は、取得した目的ページの画像データを含む領域初期設定画面をディスプレイ305に表示する(ステップS1405)。そして、情報処理装置101は、ユーザの操作入力により、目的ページの画像データ上の目的データを含む領域Tが選択されたか否かを判断する(ステップS1406)。
Next, the
ここで、情報処理装置101は、領域Tが選択されるのを待つ(ステップS1406:No)。そして、領域Tが選択された場合(ステップS1406:Yes)、情報処理装置101は、目的ページの画像データ上の選択された領域Tの位置情報を取得する(ステップS1407)。
Here, the
つぎに、情報処理装置101は、目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより、目的データのテキストデータを取得する(ステップS1408)。以下の説明では、OCR処理により得られたテキストデータを「領域データ」と表記する場合がある。
Next, the
そして、情報処理装置101は、目的ページのhtmlデータから、領域データと同一内容のテキストデータを検索する(ステップS1409)。つぎに、情報処理装置101は、検索ヒット件数が「1」でないかを判断する(ステップS1410)。検索ヒット件数は、ステップS1409において検索されたテキストデータの数である。
The
ここで、検索ヒット件数が「1」の場合(ステップS1410:No)、情報処理装置101は、図15に示すステップS1508に移行する。一方、検索ヒット件数が「1」でない場合(ステップS1410:Yes)、情報処理装置101は、検索ヒット件数が「0」であるかを判断する(ステップS1411)。
If the number of search hits is “1” (step S1410: NO), the
ここで、検索ヒット件数が「0」の場合(ステップS1411:Yes)、情報処理装置101は、ユーザの操作入力により領域データの入力を受け付けて(ステップS1412)、ステップS1409に戻る。すなわち、検索ヒット件数が「0」の場合は、情報処理装置101は、目的データを認識できなかったと判断して、目的データのテキストデータ(領域データ)をユーザに手入力させる。
If the number of search hits is “0” (step S1411: YES), the
一方、検索ヒット件数が「0」でない場合(ステップS1411:No)、情報処理装置101は、図15に示すステップS1501に移行する。以下の説明では、ステップS1409において検索されたテキストデータを「検索ヒットデータ」と表記する場合がある。
On the other hand, when the number of search hits is not “0” (step S1411: No), the
図15のフローチャートにおいて、まず、情報処理装置101は、「m=1」として(ステップS1501)、目的ページのhtmlデータの先頭からm番目の検索ヒットデータを、所定の文字列を示すテキストデータに変更する(ステップS1502)。
In the flowchart of FIG. 15, first, the
つぎに、情報処理装置101は、変更後の目的ページのhtmlデータをメモリ302に展開することにより、変更後の目的ページをキャプチャして、変更後の目的ページの画像データを取得する(ステップS1503)。
Next, the
そして、情報処理装置101は、ステップS1407において取得された領域Tの位置情報に基づいて、変更後の目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより領域データを取得する(ステップS1504)。つぎに、情報処理装置101は、ステップS1504のOCR処理により得られた領域データが、所定の文字列を示すテキストデータと一致するか否かを判定する(ステップS1505)。
Then, the
ここで、所定の文字列を示すテキストデータと一致しない場合(ステップS1505:No)、情報処理装置101は、変更後の検索ヒットデータを、変更前の検索ヒットデータに変更する(ステップS1506)。そして、情報処理装置101は、「m」をインクリメントして(ステップS1507)、ステップS1502に戻る。
If the data does not match the text data indicating the predetermined character string (step S1505: No), the
一方、ステップS1505において、所定の文字列を示すテキストデータと一致する場合(ステップS1505:Yes)、情報処理装置101は、m番目の検索ヒットデータを目的データのテキストデータとして特定する(ステップS1508)。
On the other hand, in step S1505, when the data matches the text data indicating the predetermined character string (step S1505: Yes), the
そして、情報処理装置101は、領域データのデータ属性を特定する(ステップS1509)。つぎに、情報処理装置101は、変更前の目的ページのhtmlデータから領域データを含むhtml要素を検索することにより、目的ページのhtmlデータにおけるhtml要素のタグのデータ特定html属性を特定する(ステップS1510)。
Then, the
そして、情報処理装置101は、目的ページのデータURLと対応付けて、特定したデータ特定html属性およびデータ属性をサイト別目的データ属性DB230に登録して(ステップS1511)、新規登録処理を呼び出したステップに戻る。これにより、サイト別目的データ属性DB230に新たなサイト別目的データ属性情報が新規登録される。
The
なお、目的ページのデータURLに対応する一覧位置については、一覧設定画面(例えば、一覧設定画面800)において、ユーザの操作入力により受け付けることにより、目的ページのデータURLに対応付けて一覧情報DB240に設定される。
The list position corresponding to the data URL of the target page is accepted by the user's operation input on the list setting screen (for example, the list setting screen 800), and is associated with the data URL of the target page in the
<一覧表示処理の具体的処理手順>
つぎに、図13に示したステップS1304の一覧表示処理の具体的な処理手順について説明する。
<Specific processing procedure of list display processing>
Next, a specific processing procedure of the list display processing in step S1304 shown in FIG. 13 will be described.
図16は、一覧表示処理の具体的処理手順の一例を示すフローチャートである。図16のフローチャートにおいて、まず、情報処理装置101は、目的データが挿入されていない一覧画面のhtmlデータを生成する(ステップS1601)。
FIG. 16 is a flowchart illustrating an example of a specific processing procedure of the list display processing. In the flowchart of FIG. 16, first, the
つぎに、情報処理装置101は、アカウントアグリゲーション情報DB220のレコード数nを取得して(ステップS1602)、「i=1」とする(ステップS1603)。そして、情報処理装置101は、目的データ設定処理を実行する(ステップS1604)。目的データ設定処理の具体的な処理手順については、図17のフローチャートを用いて後述する。
Next, the
つぎに、情報処理装置101は、「i」をインクリメントして(ステップS1605)、「i」が「n」より大きくなったか否かを判断する(ステップS1606)。ここで、「i」が「n」以下の場合(ステップS1606:No)、情報処理装置101は、ステップS1604に戻る。
Next, the
一方、「i」が「n」より大きくなった場合(ステップS1606:Yes)、情報処理装置101は、一覧画面のhtmlデータをディスプレイ305に表示して(ステップS1607)、一覧表示処理を呼び出したステップに戻る。
On the other hand, when “i” becomes larger than “n” (step S1606: Yes), the
これにより、複数のサイトSの目的データを集約した一覧画面(例えば、一覧画面1000)をディスプレイ305に表示することができる。
Thereby, a list screen (for example, list screen 1000) in which target data of a plurality of sites S are aggregated can be displayed on the
<目的データ設定処理の具体的処理手順>
つぎに、図16に示したステップS1604の目的データ設定処理の具体的な処理手順について説明する。
<Specific processing procedure of target data setting processing>
Next, a specific processing procedure of the target data setting process in step S1604 shown in FIG. 16 will be described.
図17は、目的データ設定処理の具体的処理手順の一例を示すフローチャートである。図17のフローチャートにおいて、まず、情報処理装置101は、アカウントアグリゲーション情報DB220のi番目のレコード(以下、「レコードRa」と称する)を取得する(ステップS1701)。
FIG. 17 is a flowchart illustrating an example of a specific processing procedure of the target data setting process. In the flowchart of FIG. 17, the
つぎに、情報処理装置101は、取得したレコードRaのログインURLを用いて、サイトSのログイン画面にアクセスし、レコードRaのID、PWを用いて、サイトSにログインする(ステップS1702)。そして、情報処理装置101は、レコードRaのデータURLを用いて、サイトSの目的ページのhtmlデータを取得する(ステップS1703)。
Next, the
つぎに、情報処理装置101は、サイト別目的データ属性DB230から、取得したレコードRaのデータURLに対応するレコード(以下、「レコードRb」と称する)を取得する(ステップS1704)。そして、情報処理装置101は、取得した目的ページのhtmlデータから、取得したレコードRbのデータ特定html属性により特定されるデータを検索する(ステップS1705)。
Next, the
つぎに、情報処理装置101は、目的ページのhtmlデータからデータが検索されたか否かを判断する(ステップS1706)。ここで、データが検索された場合(ステップS1706:Yes)、情報処理装置101は、検索したデータのデータ属性を特定する(ステップS1707)。
Next, the
そして、情報処理装置101は、特定したデータ属性がレコードRbのデータ属性と一致するか否かを判断する(ステップS1708)。ここで、データ属性が一致する場合(ステップS1708:Yes)、情報処理装置101は、一覧情報DB240から、レコードRaのデータURLに対応する一覧位置を取得する(ステップS1709)。
The
そして、情報処理装置101は、特定した一覧位置に基づいて、一覧画面のhtmlデータに、検索したデータを挿入して(ステップS1710)、目的データ設定処理を呼び出したステップに戻る。これにより、予め設定された一覧位置にサイトSの目的データを埋め込んだ一覧画面のhtmlデータを生成することができる。
The
また、ステップS1706において、データが検索されなかった場合(ステップS1706:No)、情報処理装置101は、領域再設定画面表示処理を実行して(ステップS1711)、ステップS1701に戻る。領域再設定画面表示処理の具体的な処理手順については、図18のフローチャートを用いて後述する。
If no data is retrieved in step S1706 (step S1706: No), the
また、ステップS1708において、データ属性が一致しない場合(ステップS1708:No)、情報処理装置101は、ステップS1711に移行する。
If the data attributes do not match in step S1708 (step S1708: No), the
<領域再設定画面表示処理の具体的処理手順>
つぎに、図17に示したステップS1711の領域再設定画面表示処理の具体的な処理手順について説明する。
<Specific processing procedure of area reset screen display processing>
Next, a specific processing procedure of the area reset screen display process in step S1711 shown in FIG. 17 will be described.
図18は、領域再設定画面表示処理の具体的処理手順の一例を示すフローチャートである。図18のフローチャートにおいて、まず、情報処理装置101は、目的ページのhtmlデータに基づいて、目的ページをキャプチャすることにより、目的ページの画像データを取得する(ステップS1801)。
FIG. 18 is a flowchart illustrating an example of a specific processing procedure of the area reset screen display process. In the flowchart of FIG. 18, first, the
そして、情報処理装置101は、取得した目的ページの画面の画像データを含む領域再設定画面をディスプレイ305に表示する(ステップS1802)。つぎに、情報処理装置101は、ユーザの操作入力により、目的ページの画像データ上の目的データを含む領域Tが選択されたか否かを判断する(ステップS1803)。
Then, the
ここで、情報処理装置101は、領域Tが選択されるのを待つ(ステップS1803:No)。そして、領域Tが選択された場合(ステップS1803:Yes)、情報処理装置101は、目的ページの画像データから領域Tの画像データを抽出して、領域Tの画像データのOCR処理を行うことにより領域データを取得する(ステップS1804)。
Here, the
つぎに、情報処理装置101は、取得した領域データのデータ属性を特定する(ステップS1805)。そして、情報処理装置101は、目的ページのhtmlデータから、取得した領域データを内容に含むhtml要素を検索する(ステップS1806)。つぎに、情報処理装置101は、検索したhtml要素のタグのデータ特定html属性を特定する(ステップS1807)。
Next, the
そして、情報処理装置101は、特定したデータ属性およびデータ特定html属性をレコードRbに上書きすることにより、サイト別目的データ属性DB230を更新して(ステップS1808)、領域再設定画面表示処理を呼び出したステップに戻る。これにより、目的ページの画面構成や掲載内容の変更に合わせて、サイト別目的データ属性DB230の記憶内容を更新することができる。
Then, the
以上説明したように、実施の形態にかかる情報処理装置101によれば、目的ページのhtmlデータから、目的ページの画像データ上に設定された領域Tの画像データから得られるテキストデータと同一内容のテキストデータを検索することができる。これにより、目的ページのhtmlデータから、目的データと同一内容のテキストデータを検索することができる。
As described above, according to the
また、情報処理装置101によれば、複数のテキストデータが検索された場合、目的ページのhtmlデータ内の複数のテキストデータのいずれかのテキストデータを異なるテキストデータに変更することができる。また、情報処理装置101によれば、変更後の目的ページのhtmlデータに基づく目的ページの画像データ上の領域Tの画像データから得られるテキストデータが、変更した異なるテキストデータと一致するか否かを判定することができる。
Further, according to the
また、情報処理装置101によれば、変更した異なるテキストデータと一致する場合、目的ページのhtmlデータのうち、異なるテキストデータに変更したテキストデータを、領域Tに対応するテキストデータとして特定することができる。これにより、目的データと同一内容のテキストデータが複数存在する場合であっても、目的ページのhtmlデータにおける目的データの位置を正確に特定することができる。
Further, according to the
また、情報処理装置101によれば、特定した領域Tに対応するテキストデータにより特定される、目的ページのhtmlデータにおけるタグに関する情報を、目的ページのデータURLと対応付けて記録することができる。
Further, according to the
また、情報処理装置101によれば、取得した目的ページのhtmlデータから、記録したタグに関する情報により特定されるデータを検索することができる。また、情報処理装置101によれば、データが検索されなかった場合に、取得した目的ページのhtmlデータに基づく目的ページの画像データを含む領域再設定画面(例えば、領域再設定画面1200)をディスプレイ305に表示することができる。
Further, according to the
これにより、タグに関する情報により特定されるデータを検索できたか否かによって、目的ページの画面構成や掲載内容の変更によりユーザの意図通りの情報を取得できなくなったか否かを判断することができる。また、ユーザの意図通りの情報を取得できなくなった場合に、目的ページのどの部分の情報を取得するのかについての再設定をしやすくして設定変更にかかる手間を削減することができる。 As a result, it is possible to determine whether or not information as intended by the user can no longer be acquired due to a change in the screen configuration of the target page or the posted content, depending on whether or not the data specified by the information related to the tag can be searched. Further, when it becomes impossible to acquire information as intended by the user, it is easy to re-set which part of the target page information is to be acquired, and it is possible to reduce the trouble of changing the setting.
また、情報処理装置101によれば、出力した目的ページの画像データ上に設定された領域Tのデータにより特定されるタグに関する情報によって、記録したタグに関する情報を更新することができる。これにより、目的ページの画面構成や掲載内容の変更に合わせて、サイト別目的データ属性DB230の記憶内容を更新することができる。
Further, according to the
また、情報処理装置101によれば、データが検索された場合、当該データのデータ属性が、タグに関する情報と対応付けて予め記録されたデータ属性と一致するか否かを判断することができる。また、情報処理装置101によれば、予め記録されたデータ属性と一致しない場合に、取得した目的ページの画像データを含む領域再設定画面をディスプレイ305に表示することができる。
Further, according to the
これにより、データが検索されても、検索されたデータのデータ属性が予め記録されたデータ属性と異なる場合は、ユーザの意図通りの情報を取得できなくなったと判断して、目的ページの画像データを含む領域再設定画面(例えば、領域再設定画面1200)をディスプレイ305に表示することができる。
As a result, even if the data is searched, if the data attribute of the searched data is different from the pre-recorded data attribute, it is determined that the information as intended by the user cannot be obtained, and the image data of the target page is The area reset screen including the area reset screen (for example, the area reset screen 1200) can be displayed on the
また、情報処理装置101によれば、予め記録されたデータ属性と一致する場合には、タグに関する情報と対応付けて予め記録された一覧位置に、検索されたデータを挿入した一覧画面を出力することができる。これにより、複数のサイトSの目的データを集約した一覧画面(例えば、一覧画面1000)をディスプレイ305に表示することができる。
Further, according to the
なお、本実施の形態で説明したデータ特定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本データ特定プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本データ特定プログラムは、インターネット等のネットワークを介して配布してもよい。 The data specifying method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. The data specifying program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The data specifying program may be distributed through a network such as the Internet.
上述した実施の形態に関し、さらに以下の付記を開示する。 The following additional notes are disclosed with respect to the embodiment described above.
(付記1)コンピュータに、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行させることを特徴とするデータ特定プログラム。
(Supplementary note 1)
Search the screen information of the screen for text data having the same content as the text data obtained from the image data in the range of selection received on the screen data of the site,
Change the searched text data in the screen information of the screen to different text data,
Determining whether text data obtained from image data in the same range as the selected range on the screen image data based on the screen information after the change matches the different text data By specifying the text data corresponding to the range that received the selection from the screen information of the screen,
A data identification program for executing a process.
(付記2)前記変更する処理は、
複数のテキストデータが検索された場合に、前記画面の画面情報内の前記複数のテキストデータのいずれかのテキストデータを異なるテキストデータに変更し、
前記特定する処理は、
前記異なるテキストデータと一致する場合、前記画面の画面情報内の前記いずれかのテキストデータを、前記選択を受け付けた範囲に対応するテキストデータとして特定することを特徴とする付記1に記載のデータ特定プログラム。
(Supplementary note 2)
When a plurality of text data is searched, the text data of any of the plurality of text data in the screen information of the screen is changed to different text data,
The process to specify is
The data specification according to
(付記3)前記コンピュータに、
特定した前記選択を受け付けた範囲に対応するテキストデータにより特定される、前記画面の画面情報におけるタグに関する情報を、前記サイトの識別情報と対応付けて記録する処理を実行させることを特徴とする付記1または2に記載のデータ特定プログラム。
(Supplementary note 3)
A supplementary note that executes processing for recording information related to a tag in screen information of the screen specified by text data corresponding to a range in which the selected selection is received, in association with identification information of the site. The data identification program according to 1 or 2.
(付記4)前記コンピュータに、
記録した前記サイトの識別情報と前記サイトの画面の画面情報におけるタグに関する情報とに基づいて、取得した前記サイトの画面の画面情報から、前記タグに関する情報により特定されるデータを検索し、
前記データが検索されなかった場合に、取得した前記サイトの画面情報に基づく前記サイトの画像データを出力する、
処理を実行させることを特徴とする付記3に記載のデータ特定プログラム。
(Supplementary note 4)
Based on the recorded identification information of the site and information related to the tag in the screen information of the screen of the site, the data specified by the information related to the tag is searched from the acquired screen information of the screen of the site.
When the data is not searched, the image data of the site based on the acquired screen information of the site is output.
4. The data specifying program according to
(付記5)前記コンピュータに、
前記データが検索された場合には、複数のサイトの情報を集約して表示する一覧画面における、前記タグに関する情報と対応付けて記録された位置に、検索した前記データを挿入した前記一覧画面を出力する処理を実行させることを特徴とする付記4に記載のデータ特定プログラム。
(Supplementary note 5)
When the data is searched, the list screen in which the searched data is inserted at the position recorded in association with the information on the tag in the list screen that aggregates and displays information of a plurality of sites is displayed. The data identification program according to
(付記6)コンピュータが、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行することを特徴とするデータ特定方法。
(Appendix 6)
Search the screen information of the screen for text data having the same content as the text data obtained from the image data in the range of selection received on the screen data of the site,
Change the searched text data in the screen information of the screen to different text data,
Determining whether text data obtained from image data in the same range as the selected range on the screen image data based on the screen information after the change matches the different text data By specifying the text data corresponding to the range that received the selection from the screen information of the screen,
A data identification method characterized by executing processing.
(付記7)サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する制御部、
を有することを特徴とする情報処理装置。
(Supplementary note 7) Text data having the same content as the text data obtained from the image data in the range of selection received on the screen image data of the site is searched from the screen information of the screen, and the search within the screen information of the screen The text data obtained from the image data in the same range as the range on which the selection is received on the image data of the screen based on the screen information of the screen after the change is changed to different text data, A controller that identifies text data corresponding to a range in which the selection is accepted from the screen information of the screen by determining whether or not the text data matches different text data;
An information processing apparatus comprising:
(付記8)コンピュータに、
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行させるデータ特定プログラムを記録したことを特徴とする前記コンピュータに読み取り可能な記録媒体。
(Appendix 8)
Search the screen information of the screen for text data having the same content as the text data obtained from the image data in the range of selection received on the screen data of the site,
Change the searched text data in the screen information of the screen to different text data,
Determining whether text data obtained from image data in the same range as the selected range on the screen image data based on the screen information after the change matches the different text data By specifying the text data corresponding to the range that received the selection from the screen information of the screen,
A computer-readable recording medium in which a data specifying program for executing processing is recorded.
101 情報処理装置
200 システム
201 サーバ
220 アカウントアグリゲーション情報DB
230 サイト別目的データ属性DB
240 一覧情報DB
1101 受付部
1102 取得部
1103 登録部
1104 表示制御部
1105 認識部
1106 検索部
1107 変更部
1108 判定部
1109 特定部
101
230 Site-specific purpose data attribute DB
240 List information DB
DESCRIPTION OF
Claims (7)
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行させることを特徴とするデータ特定プログラム。 On the computer,
Search the screen information of the screen for text data having the same content as the text data obtained from the image data in the range of selection received on the screen data of the site,
Change the searched text data in the screen information of the screen to different text data,
Determining whether text data obtained from image data in the same range as the selected range on the screen image data based on the screen information after the change matches the different text data By specifying the text data corresponding to the range that received the selection from the screen information of the screen,
A data identification program for executing a process.
複数のテキストデータが検索された場合に、前記画面の画面情報内の前記複数のテキストデータのいずれかのテキストデータを異なるテキストデータに変更し、
前記特定する処理は、
前記異なるテキストデータと一致する場合、前記画面の画面情報内の前記いずれかのテキストデータを、前記選択を受け付けた範囲に対応するテキストデータとして特定することを特徴とする請求項1に記載のデータ特定プログラム。 The process to change is
When a plurality of text data is searched, the text data of any of the plurality of text data in the screen information of the screen is changed to different text data,
The process to specify is
2. The data according to claim 1, wherein when the text data matches the different text data, the text data in the screen information of the screen is specified as text data corresponding to the range in which the selection is accepted. Specific program.
特定した前記選択を受け付けた範囲に対応するテキストデータにより特定される、前記画面の画面情報におけるタグに関する情報を、前記サイトの識別情報と対応付けて記録する処理を実行させることを特徴とする請求項1または2に記載のデータ特定プログラム。 In the computer,
A process of recording information related to a tag in screen information of the screen specified by text data corresponding to a range in which the selected selection is received in association with identification information of the site is executed. Item 3. The data specifying program according to item 1 or 2.
記録した前記サイトの識別情報と前記サイトの画面の画面情報におけるタグに関する情報とに基づいて、取得した前記サイトの画面の画面情報から、前記タグに関する情報により特定されるデータを検索し、
前記データが検索されなかった場合に、取得した前記サイトの画面情報に基づく前記サイトの画像データを出力する、
処理を実行させることを特徴とする請求項3に記載のデータ特定プログラム。 In the computer,
Based on the recorded identification information of the site and information related to the tag in the screen information of the screen of the site, the data specified by the information related to the tag is searched from the acquired screen information of the screen of the site.
When the data is not searched, the image data of the site based on the acquired screen information of the site is output.
The data specifying program according to claim 3, wherein a process is executed.
前記データが検索された場合には、複数のサイトの情報を集約して表示する一覧画面における、前記タグに関する情報と対応付けて記録された位置に、検索した前記データを挿入した前記一覧画面を出力する処理を実行させることを特徴とする請求項4に記載のデータ特定プログラム。 In the computer,
When the data is searched, the list screen in which the searched data is inserted at the position recorded in association with the information on the tag in the list screen that aggregates and displays information of a plurality of sites is displayed. The data specifying program according to claim 4, wherein an output process is executed.
サイトの画面の画像データ上で選択を受け付けた範囲の画像データから得られるテキストデータと同一内容のテキストデータを、前記画面の画面情報から検索し、
前記画面の画面情報内の検索したテキストデータを異なるテキストデータに変更し、
変更後の前記画面の画面情報に基づく前記画面の画像データ上の、前記選択を受け付けた範囲と同一の範囲の画像データから得られるテキストデータが、前記異なるテキストデータと一致するか否かを判定することにより、前記画面の画面情報から前記選択を受け付けた範囲に対応するテキストデータを特定する、
処理を実行することを特徴とするデータ特定方法。 Computer
Search the screen information of the screen for text data having the same content as the text data obtained from the image data in the range of selection received on the screen data of the site,
Change the searched text data in the screen information of the screen to different text data,
Determining whether text data obtained from image data in the same range as the selected range on the screen image data based on the screen information after the change matches the different text data By specifying the text data corresponding to the range that received the selection from the screen information of the screen,
A data identification method characterized by executing processing.
を有することを特徴とする情報処理装置。 Search the screen information of the screen for text data having the same contents as the text data obtained from the image data in the range of selection received on the image data of the screen of the site, and search for the searched text data in the screen information of the screen Change to different text data, text data obtained from image data in the same range as the selected range on the image data of the screen based on the screen information of the screen after the change, the different text data A control unit that identifies text data corresponding to a range in which the selection is accepted from the screen information of the screen by determining whether or not they match;
An information processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262166A JP6187236B2 (en) | 2013-12-19 | 2013-12-19 | Data identification program, data identification method, and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262166A JP6187236B2 (en) | 2013-12-19 | 2013-12-19 | Data identification program, data identification method, and information processing apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015118591A JP2015118591A (en) | 2015-06-25 |
JP6187236B2 true JP6187236B2 (en) | 2017-08-30 |
Family
ID=53531236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013262166A Expired - Fee Related JP6187236B2 (en) | 2013-12-19 | 2013-12-19 | Data identification program, data identification method, and information processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6187236B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7040745B2 (en) * | 2017-06-01 | 2022-03-23 | 株式会社オブジェクト・オブ・ヌル | Information extraction device and information extraction method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131988A (en) * | 2001-10-26 | 2003-05-09 | Matsushita Electric Ind Co Ltd | Home page update device, home page update method, home page update program recording medium and home page update program |
JP2003288345A (en) * | 2002-03-28 | 2003-10-10 | Murata Mach Ltd | Structured document processor and program |
JP2006252180A (en) * | 2005-03-10 | 2006-09-21 | Hitachi Software Eng Co Ltd | Home page update notification system |
JPWO2007105364A1 (en) * | 2006-03-06 | 2009-07-30 | 株式会社ジャストシステム | Document processing apparatus and document processing method |
JP2007304754A (en) * | 2006-05-10 | 2007-11-22 | Bank Of Tokyo-Mitsubishi Ufj Ltd | Character string extraction apparatus, character string extraction method, and program |
US8290270B2 (en) * | 2006-10-13 | 2012-10-16 | Syscom, Inc. | Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text |
-
2013
- 2013-12-19 JP JP2013262166A patent/JP6187236B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015118591A (en) | 2015-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5898126B2 (en) | Journal analysis center system that provides a journal analysis service using cloud computing | |
US8769432B1 (en) | Method and system for a browser module | |
CN101297318B (en) | Data organization and access for mixed media document system | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
US11403455B2 (en) | Electronic form generation from electronic documents | |
US20190294912A1 (en) | Image processing device, image processing method, and image processing program | |
US11625660B2 (en) | Machine learning for automatic extraction and workflow assignment of action items | |
CN103838566A (en) | Information processing apparatus, information processing method, and computer program | |
US20110052075A1 (en) | Remote receipt analysis | |
US10839146B2 (en) | Information processing system, information processing apparatus, control method, and storage medium | |
US10803233B2 (en) | Method and system of extracting structured data from a document | |
TW201333722A (en) | Mechanism and method for mass diversified data screening and management | |
JP2022125220A (en) | Image processing apparatus, image processing method, and program | |
US8650221B2 (en) | Systems and methods to associate invoice data with a corresponding original invoice copy in a stack of invoices | |
CN113836092B (en) | File comparison method, device, equipment and storage medium based on RPA and AI | |
JP6976763B2 (en) | Journal information processing device, journal information processing method, and program | |
JP6187236B2 (en) | Data identification program, data identification method, and information processing apparatus | |
KR101174390B1 (en) | Effective graphic format image file searching system and method therefor | |
US9195661B2 (en) | Method and system for click-thru capability in electronic media | |
JP6311301B2 (en) | Information providing program, information providing method, and information providing apparatus | |
EP3662393A1 (en) | Automated reporting system | |
WO2022150838A1 (en) | Exploration and production document content and metadata scanner | |
KR100799628B1 (en) | The commerce information analysis service provision method which uses the real-time integration of information | |
JP6171919B2 (en) | Information providing program, information providing method, and information providing apparatus | |
KR20210041269A (en) | Intelligent crawling system and intelligent crawling method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6187236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |