JP6603866B2 - 自動インテリジェントデータスクレイピング及び検証のための方法、システム、プログラム及び記憶媒体 - Google Patents
自動インテリジェントデータスクレイピング及び検証のための方法、システム、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP6603866B2 JP6603866B2 JP2016561778A JP2016561778A JP6603866B2 JP 6603866 B2 JP6603866 B2 JP 6603866B2 JP 2016561778 A JP2016561778 A JP 2016561778A JP 2016561778 A JP2016561778 A JP 2016561778A JP 6603866 B2 JP6603866 B2 JP 6603866B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- script
- party web
- web portal
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Facsimiles In General (AREA)
Description
本発明は、一般には、ウェブポータルからのデータスクレイピング及びデータの検証に関する。
[発明の項目]
[項目1]
不統一なフォーマットのデータをインテリジェントにロードし、第2のデータセットに照らして検証するサーバコンピュータシステムにおいて、不統一に記憶されているデータセットにアクセスし、該データセットを比較するための、コンピュータ化された方法であって、
1つ又は複数のデータ構造内で、対象の特定のデータエントリを識別するステップであって、前記1つ又は複数のデータ構造は、第1のローカルにアクセス可能なデータベースに記憶されている、識別するステップと、
特定の第三者ウェブポータルにアクセスするステップであって、前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報を含む、アクセスするステップと、
前記特定の第三者ウェブポータルに特有のものである特定のスクリプトを実行するステップであって、前記特定のスクリプトは、
ユーザ入力デバイスからの入力を模倣することによって、前記特定の第三者ウェブポータルとやり取りし、
1つ又は複数の不統一に利用可能なデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させる
方法を実施する、特定のスクリプトを実行するステップと、
前記1つ又は複数の不統一に利用可能なデータフィールドから受信される第1のデータセットを、第2のローカルにアクセス可能なデータベースに記憶されている前記第2のデータセットと比較するステップと、
比較された前記データに基づいて報告を生成するステップであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、生成するステップと、
を含む、コンピュータ化された方法。
[項目2]
前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報に基づいて第三者ウェブポータルのセットから選択される、項目1に記載のコンピュータ化された方法。
[項目3]
第1のローカルに記憶されているデータファイルを有する前記第2のデータセットにアクセスするステップであって、前記第2のデータセットは1つ又は複数の請求書を含む、アクセスするステップと、
前記第1のデータセット内のデータエントリ及び関連するデータ要素を識別するステップと、
前記データ要素のうちの1つ又は複数が、前記第2のデータセット内の対応するデータエントリの前記データ要素と異なることを判定するステップと、
異なる前記データ要素を識別する報告を生成するステップと、
をさらに含む、項目2に記載のコンピュータ化された方法。
[項目4]
特定のクライアントの記録を比較するための指示を受信するステップと、
データストア内で、対象の前記特定のデータエントリにアクセスするステップであって、前記対象の特定のデータエントリは、前記特定のクライアントと関連付けられている1つ又は複数の第三者ウェブポータルを含む、対象の前記特定のデータエントリにアクセスするステップと、
前記1つ又は複数の第三者ウェブポータルの各々に自動的にアクセスするステップと、
前記1つ又は複数の第三者ウェブポータルの各々に対して、各それぞれの第三者ウェブポータルに固有のものであるスクリプトを自動的に実行するステップと、
をさらに備える、項目1に記載のコンピュータ化された方法。
[項目5]
前記スクリプトを作成することは、
前記システム内の記録特徴部を作動させるステップであって、前記記録特徴部は、ユーザと前記システムとの間の1つ又は複数の入力信号及び出力信号をキャプチャする、作動させるステップと、
ユーザマウス及びユーザキーボードから受信される入力信号をキャプチャ及び記録するステップであって、前記入力信号は、1つ又は複数の第三者ウェブポータルアドレスを含む、入力信号をキャプチャ及び記録するステップと、
前記1つ又は複数の第三者ウェブポータルアドレスと関連付けられている1つ又は複数の第三者ウェブポータルから受信される出力信号をキャプチャ及び記録するステップであって、前記出力信号は、前記入力信号に応答して表示される1つ又は複数のウェブページを含む、出力信号をキャプチャ及び記録するステップと、
それぞれの入力信号と関連付けられている1つ又は複数の出力信号を識別するステップと、
前記1つ又は複数の不統一に利用可能なデータフィールドを識別するステップと、
を含む、項目1に記載のコンピュータ化された方法。
[項目6]
ユーザから、ウェブページ内の特定の要素に関する指示を受信するステップであって、前記要素は、不統一に利用可能なデータフィールドと関連付けられる、受信するステップと、
前記特定の要素を、前記第2のデータセット内の特定のデータフィールドにマッピングするステップと、
をさらに含む、項目5に記載のコンピュータ化された方法。
[項目7]
前記スクリプトを実行するステップは、
キャプチャ及び記録されている前記入力信号に従って前記ユーザマウスを移動させるためのコマンドを自動的に生成するステップと、
1つ又は複数のコマンドを発行させた後、対応する出力信号が受信されるまで待つステップであって、前記対応する出力信号は、以前にキャプチャ及び記録されている出力信号と対応する、待つステップと、
を含む、項目6に記載のコンピュータ化された方法。
[項目8]
前記ウェブページ内の前記特定の要素を識別するステップと、
前記ウェブページ内の前記特定の要素と位置的に関連付けられているデータフィールドからの1つ又は複数のデータ要素をパースするステップと、
前記第2のデータセット内の前記特定のデータフィールドにアクセスするステップと、
パースされている前記1つ又は複数のデータ要素と前記特定のデータフィールドからのデータ要素との間の食い違いを識別するステップと、
をさらに含む、項目7に記載のコンピュータ化された方法。
[項目9]
1つ又は複数のデータ要素をパースするステップは、前記ウェブページ上では見えないが、ローカルメモリ内には存在する1つ又は複数のデータ要素をパースするステップを含む、項目8に記載のコンピュータ化された方法。
[項目10]
前記ウェブページ上では見えず、ローカルメモリ内に存在しない、前記ウェブページ内の前記特定の要素と位置的に関連付けられている前記データフィールドからの1つ又は複数の要素を識別するステップと、
データフィールド前進要素を識別することによって、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させるステップであって、前記データフィールド前進要素は、前記データフィールド内に追加の要素を表示するためのコマンドを含む、適応させるステップと、
1つ又は複数のユーザ入力を模倣することによって、前記データフィールド前進要素を作動させるステップと、
以前は前記ウェブページ上で見えていなかったが、前記データフィールドの前記前進に起因して現在は見えている1つ又は複数のデータ要素をパースするステップと、
をさらに含む、項目8に記載のコンピュータ化された方法。
[項目11]
様々な固有の不統一な第三者ウェブポータルからの、不統一に提示されるデータをパースするための、サーバコンピュータシステムであって、
1つ又は複数の第三者ウェブポータルへのアドレスを含む1つ又は複数のデータ構造を備えるローカルデータベースデバイスと、
ウェブブラウザを含むネットワーク通信デバイスであって、前記ウェブブラウザは、前記1つ又は複数の第三者ウェブポータルに自動的にアクセスするように構成されている、ネットワーク通信デバイスと、
前記ネットワーク通信デバイスによってアクセスされる前記1つ又は複数の第三者ウェブポータルの各々について、ウェブポータル特有のスクリプトを自動的に実行するように構成されているスクリプト処理プロセッサであって、前記ウェブポータル特有のスクリプトの各々は、
ユーザ入力デバイスからの入力を模倣することによって、前記1つ又は複数の第三者ウェブポータルの各々とやり取りし、
1つ又は複数の不統一に利用可能なデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記1つ又は複数の第三者ウェブポータルの各々とのやり取りを自動的に適応させるように構成されている、スクリプト処理プロセッサと、
前記1つ又は複数の不統一に利用可能なデータフィールドから受信される第1のデータセットを、前記ローカルデータベースデバイスに記憶されている第2のデータセットと比較するように構成されているデータベースプロセッサと、
比較された前記データに基づいて報告を表示するように構成されているユーザ出力デバイスであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、ユーザ出力デバイスと、
を備える、サーバコンピュータシステム。
[項目12]
前記サーバコンピュータシステムはスクリプト作成モジュールをさらに備え、前記スクリプト作成モジュールは、
ユーザマウス及びユーザキーボードから受信される入力信号をキャプチャ及び記録するステップであって、前記入力信号は、1つ又は複数の第三者ウェブポータルアドレスを含む、入力信号をキャプチャ及び記録するステップと、
前記1つ又は複数の第三者ウェブポータルアドレスと関連付けられている1つ又は複数の第三者ウェブポータルから受信される出力信号をキャプチャ及び記録するステップであって、前記出力信号は、前記入力信号に応答して表示される1つ又は複数のウェブページ要素を含む、出力信号をキャプチャ及び記録するステップと、
それぞれの入力信号と関連付けられている1つ又は複数の出力信号を識別するステップと、
前記1つ又は複数の不統一に利用可能なデータフィールドを識別するステップと、
を行うように構成されている、項目11に記載のサーバコンピュータシステム。
[項目13]
前記スクリプト作成モジュールは、
ユーザから、ウェブページ内の特定の要素に関する指示を受信するステップであって、前記要素は、不統一に利用可能なデータフィールドと関連付けられる、受信するステップと、
前記特定の要素を、前記第2のデータセット内の特定のデータフィールドにマッピングするステップと、
を行うようにさらに構成されている、項目12に記載のサーバコンピュータシステム。
[項目14]
前記スクリプト処理プロセッサは、
キャプチャ及び記録されている前記入力信号に従ってマウスを移動させるためのコマンドを自動的に生成するステップと、
1つ又は複数のコマンドを発行させた後、対応する出力信号が受信されるまで待つステップであって、前記対応する出力信号は、以前にキャプチャ及び記録されている出力信号と対応する、待つステップと、
を行うようにさらに構成されている、項目13に記載のサーバコンピュータシステム。
[項目15]
前記スクリプト処理プロセッサは、
前記ウェブページ内の前記特定の要素を識別するステップと、
前記ウェブページ内の前記特定の要素と位置的に関連付けられているデータフィールドからの1つ又は複数のデータ要素をパースするステップと、
前記第2のデータセット内の前記特定のデータフィールドにアクセスするステップと、
パースされている前記1つ又は複数のデータ要素と前記特定のデータフィールドからのデータ要素との間の食い違いを識別するステップと、
を行うようにさらに構成されている、項目14に記載のサーバコンピュータシステム。
[項目16]
前記スクリプト処理プロセッサは、
前記ウェブページ上では見えず、ローカルメモリ内にも存在しない、前記ウェブページ内の前記特定の要素と位置的に関連付けられている前記データフィールドからの1つ又は複数の要素を識別するステップと、
データフィールド前進要素を識別することによって、前進特定の第三者ウェブポータルとのやり取りを自動的に適応させるステップであって、前記データフィールド前進要素は、前記データフィールド内に追加の要素を表示するためのコマンドを含む、適応させるステップと、
1つ又は複数のユーザ入力を模倣することによって、前記データフィールド前進要素を作動させるステップと、
以前は前記ウェブページ上で見えていなかったが、前記データフィールドの前記前進に起因して現在は見えている1つ又は複数のデータ要素をパースするステップと、
を行うようにさらに構成されている、項目15に記載のサーバコンピュータシステム。
[項目17]
関連するウェブページがアクセスされると、前記スクリプト処理プロセッサによって実行される1つ又は複数のハンドコード化されたウェブポータル特有のスクリプトをさらに備える、項目11に記載のサーバコンピュータシステム。
[項目18]
前記サーバコンピュータシステムは、ウェブページ上の1つ又は複数の画像内のテキストを認識するように構成されている光学文字認識モジュールをさらに備え、前記スクリプト処理プロセッサは、認識された前記テキストからの情報を1つ又は複数のスクリプトに組み込むことができる、項目11に記載のサーバコンピュータシステム。
[項目19]
認識された前記テキストは、前記1つ又は複数の不統一に利用可能なデータフィールドに関係する情報を含む、項目18に記載のサーバコンピュータシステム。
[項目20]
コンピュータシステムにおいて使用するためのコンピュータプログラム製品であって、該コンピュータプログラム製品は、コンピュータ実行可能命令が記憶されている1つ又は複数のコンピュータ記憶媒体を備え、該コンピュータ実行可能命令は、プロセッサによって実行されると、前記コンピュータシステムに、不統一に記憶されているデータセットにアクセスし、該データセットを比較する方法を実施させ、該コンピュータプログラム製品は、
1つ又は複数のデータ構造内で、対象の特定のデータエントリを識別するステップであって、前記1つ又は複数のデータ構造は、第1のローカルにアクセス可能なデータベースに記憶されている、識別するステップと、
特定の第三者ウェブポータルにアクセスするステップであって、前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報を含む、アクセスするステップと、
前記特定の第三者ウェブポータルに特有のものである特定のスクリプトを実行するステップであって、前記特定のスクリプトは、
ユーザ入力デバイスからの入力を模倣することによって、前記特定の第三者ウェブポータルとやり取りし、
1つ又は複数の不統一に利用可能なデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させる
方法を実施する、特定のスクリプトを実行するステップと、
前記1つ又は複数の不統一に利用可能なデータフィールドから受信される第1のデータセットを、第2のローカルにアクセス可能なデータベースに記憶されている前記第2のデータセットと比較するステップと、
比較された前記データに基づいて報告を生成するステップであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、生成するステップと、
を含む、コンピュータシステムにおいて使用するためのコンピュータプログラム製品。
Claims (21)
- 不統一なフォーマットのデータをインテリジェントにロードし、第2のデータセットに照らして検証するサーバコンピュータシステムにおいて、不統一に記憶されているデータセットにアクセスし、該データセットを比較するための、コンピュータ化された方法であって、
1つ又は複数の第三者ウェブポータルへのアドレスを含む1つ又は複数のデータ構造内で、対象の特定のデータエントリを識別するステップであって、前記1つ又は複数のデータ構造は、第1のローカルにアクセス可能なデータベースに記憶されている、識別するステップと、
特定の第三者ウェブポータルにアクセスするステップであって、前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報を含む、アクセスするステップと、
前記特定の第三者ウェブポータルに特有のものである特定のスクリプトを実行するステップであって、前記特定のスクリプトは、
前記特定の第三者ウェブポータルの一つ又は複数の画像内のテキストを認識するために光学文字認識モジュールを作動させ、
ユーザ入力デバイスからの入力を模倣することによって、前記特定の第三者ウェブポータルとやり取りし、
不統一なフォーマットで利用可能な1つ又は複数のデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させる
方法を実施する、特定のスクリプトを実行するステップと、
不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドから受信される第1のデータセットを、第2のローカルにアクセス可能なデータベースに記憶されている前記第2のデータセットと比較するステップと、
比較された前記データに基づいて報告を生成するステップであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、生成するステップと、
を含む、コンピュータ化された方法。 - 前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報に基づいて第三者ウェブポータルのセットから選択される、請求項1に記載のコンピュータ化された方法。
- 第1のローカルに記憶されているデータファイルを有する前記第2のデータセットにアクセスするステップであって、前記第2のデータセットは1つ又は複数の請求書を含む、アクセスするステップと、
前記第1のデータセット内のデータエントリ及び関連するデータ要素を識別するステップと、
前記データ要素のうちの1つ又は複数が、前記第2のデータセット内の対応するデータエントリの前記データ要素と異なることを判定するステップと、
異なる前記データ要素を識別する報告を生成するステップと、
をさらに含む、請求項2に記載のコンピュータ化された方法。 - 特定のクライアントの記録を比較するための指示を受信するステップと、
データストア内で、対象の前記特定のデータエントリにアクセスするステップであって、前記対象の特定のデータエントリは、前記特定のクライアントと関連付けられている1つ又は複数の第三者ウェブポータルを含む、対象の前記特定のデータエントリにアクセスするステップと、
前記1つ又は複数の第三者ウェブポータルの各々に自動的にアクセスするステップと、
前記1つ又は複数の第三者ウェブポータルの各々に対して、各それぞれの第三者ウェブポータルに固有のものであるスクリプトを自動的に実行するステップと、
をさらに備える、請求項1に記載のコンピュータ化された方法。 - 前記スクリプトを作成することは、
前記システム内の記録特徴部を作動させるステップであって、前記記録特徴部は、ユーザと前記システムとの間の1つ又は複数の入力信号及び出力信号をキャプチャする、作動させるステップと、
ユーザマウス及びユーザキーボードから受信される入力信号をキャプチャ及び記録するステップであって、前記入力信号は、1つ又は複数の第三者ウェブポータルアドレスを含む、入力信号をキャプチャ及び記録するステップと、
前記1つ又は複数の第三者ウェブポータルアドレスと関連付けられている1つ又は複数の第三者ウェブポータルから受信される出力信号をキャプチャ及び記録するステップであって、前記出力信号は、前記入力信号に応答して表示される1つ又は複数のウェブページを含む、出力信号をキャプチャ及び記録するステップと、
それぞれの入力信号と関連付けられている1つ又は複数の出力信号を識別するステップと、
不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドを識別するステップと、
を含む、請求項1に記載のコンピュータ化された方法。 - ユーザから、ウェブページ内の特定の要素に関する指示を受信するステップであって、前記要素は、不統一なフォーマットで利用可能なデータフィールドと関連付けられる、受信するステップと、
前記特定の要素を、前記第2のデータセット内の特定のデータフィールドにマッピングするステップと、
をさらに含む、請求項5に記載のコンピュータ化された方法。 - 前記スクリプトを実行するステップは、
キャプチャ及び記録されている前記入力信号に従って前記ユーザマウスを移動させるためのコマンドを自動的に生成するステップと、
1つ又は複数のコマンドを発行させた後、対応する出力信号が受信されるまで待つステップであって、前記対応する出力信号は、以前にキャプチャ及び記録されている出力信号と対応する、待つステップと、
を含む、請求項6に記載のコンピュータ化された方法。 - 前記ウェブページ内の前記特定の要素を識別するステップと、
前記ウェブページ内の前記特定の要素と位置的に関連付けられているデータフィールドからの1つ又は複数のデータ要素をパースするステップと、
前記第2のデータセット内の前記特定のデータフィールドにアクセスするステップと、
パースされている前記1つ又は複数のデータ要素と前記特定のデータフィールドからのデータ要素との間の食い違いを識別するステップと、
をさらに含む、請求項7に記載のコンピュータ化された方法。 - 1つ又は複数のデータ要素をパースするステップは、前記ウェブページ上では見えないが、ローカルメモリ内には存在する1つ又は複数のデータ要素をパースするステップを含む、請求項8に記載のコンピュータ化された方法。
- 前記ウェブページ上では見えず、ローカルメモリ内に存在しない、前記ウェブページ内の前記特定の要素と位置的に関連付けられている前記データフィールドからの1つ又は複数の要素を識別するステップと、
データフィールド前進要素を識別することによって、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させるステップであって、前記データフィールド前進要素は、前記データフィールド内に追加の要素を表示するためのコマンドを含む、適応させるステップと、
1つ又は複数のユーザ入力を模倣することによって、前記データフィールド前進要素を作動させるステップと、
以前は前記ウェブページ上で見えていなかったが、前記データフィールドの前記前進に起因して現在は見えている1つ又は複数のデータ要素をパースするステップと、
をさらに含む、請求項8に記載のコンピュータ化された方法。 - 様々な固有の不統一な第三者ウェブポータルからの、不統一に提示されるデータをパースするための、サーバコンピュータシステムであって、
1つ又は複数の第三者ウェブポータルへのアドレスを含む1つ又は複数のデータ構造を備えるローカルデータベースデバイスと、
ウェブブラウザを含むネットワーク通信デバイスであって、前記ウェブブラウザは、前記1つ又は複数の第三者ウェブポータルに自動的にアクセスするように構成されている、ネットワーク通信デバイスと、
前記ネットワーク通信デバイスによってアクセスされる前記1つ又は複数の第三者ウェブポータルの各々について、ウェブポータル特有のスクリプトを自動的に実行するように構成されているスクリプト処理プロセッサであって、前記ウェブポータル特有のスクリプトの各々は、
前記第三者ウェブポータルの一つ又は複数の画像内のテキストを認識するために光学文字認識モジュールを作動させ、
ユーザ入力デバイスからの入力を模倣することによって、前記1つ又は複数の第三者ウェブポータルの各々とやり取りし、
不統一なフォーマットで利用可能な1つ又は複数のデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記1つ又は複数の第三者ウェブポータルの各々とのやり取りを自動的に適応させるように構成されている、スクリプト処理プロセッサと、
不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドから受信される第1のデータセットを、前記ローカルデータベースデバイスに記憶されている第2のデータセットと比較するように構成されているデータベースプロセッサと、
比較された前記データに基づいて報告を表示するように構成されているユーザ出力デバイスであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、ユーザ出力デバイスと、
を備える、サーバコンピュータシステム。 - 前記サーバコンピュータシステムはスクリプト作成モジュールをさらに備え、前記スクリプト作成モジュールは、
ユーザマウス及びユーザキーボードから受信される入力信号をキャプチャ及び記録するステップであって、前記入力信号は、1つ又は複数の第三者ウェブポータルアドレスを含む、入力信号をキャプチャ及び記録するステップと、
前記1つ又は複数の第三者ウェブポータルアドレスと関連付けられている1つ又は複数の第三者ウェブポータルから受信される出力信号をキャプチャ及び記録するステップであって、前記出力信号は、前記入力信号に応答して表示される1つ又は複数のウェブページ要素を含む、出力信号をキャプチャ及び記録するステップと、
それぞれの入力信号と関連付けられている1つ又は複数の出力信号を識別するステップと、
不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドを識別するステップと、
を行うように構成されている、請求項11に記載のサーバコンピュータシステム。 - 前記スクリプト作成モジュールは、
ユーザから、ウェブページ内の特定の要素に関する指示を受信するステップであって、前記要素は、不統一なフォーマットで利用可能なデータフィールドと関連付けられる、受信するステップと、
前記特定の要素を、前記第2のデータセット内の特定のデータフィールドにマッピングするステップと、
を行うようにさらに構成されている、請求項12に記載のサーバコンピュータシステム。 - 前記スクリプト処理プロセッサは、
キャプチャ及び記録されている前記入力信号に従ってマウスを移動させるためのコマンドを自動的に生成するステップと、
1つ又は複数のコマンドを発行させた後、対応する出力信号が受信されるまで待つステップであって、前記対応する出力信号は、以前にキャプチャ及び記録されている出力信号と対応する、待つステップと、
を行うようにさらに構成されている、請求項13に記載のサーバコンピュータシステム。 - 前記スクリプト処理プロセッサは、
前記ウェブページ内の前記特定の要素を識別するステップと、
前記ウェブページ内の前記特定の要素と位置的に関連付けられているデータフィールドからの1つ又は複数のデータ要素をパースするステップと、
前記第2のデータセット内の前記特定のデータフィールドにアクセスするステップと、
パースされている前記1つ又は複数のデータ要素と前記特定のデータフィールドからのデータ要素との間の食い違いを識別するステップと、
を行うようにさらに構成されている、請求項14に記載のサーバコンピュータシステム。 - 前記スクリプト処理プロセッサは、
前記ウェブページ上では見えず、ローカルメモリ内にも存在しない、前記ウェブページ内の前記特定の要素と位置的に関連付けられている前記データフィールドからの1つ又は複数の要素を識別するステップと、
データフィールド前進要素を識別することによって、前進特定の第三者ウェブポータルとのやり取りを自動的に適応させるステップであって、前記データフィールド前進要素は、前記データフィールド内に追加の要素を表示するためのコマンドを含む、適応させるステップと、
1つ又は複数のユーザ入力を模倣することによって、前記データフィールド前進要素を作動させるステップと、
以前は前記ウェブページ上で見えていなかったが、前記データフィールドの前記前進に起因して現在は見えている1つ又は複数のデータ要素をパースするステップと、
を行うようにさらに構成されている、請求項15に記載のサーバコンピュータシステム。 - 関連するウェブページがアクセスされると、前記スクリプト処理プロセッサによって実行される1つ又は複数のハンドコード化されたウェブポータル特有のスクリプトをさらに備える、請求項11に記載のサーバコンピュータシステム。
- 前記サーバコンピュータシステムは、ウェブページ上の1つ又は複数の画像内のテキストを認識するように構成されている光学文字認識モジュールをさらに備え、前記スクリプト処理プロセッサは、認識された前記テキストからの情報を1つ又は複数のスクリプトに組み込むことができる、請求項11に記載のサーバコンピュータシステム。
- 認識された前記テキストは、不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドに関係する情報を含む、請求項18に記載のサーバコンピュータシステム。
- コンピュータシステムにおいて使用するためのコンピュータプログラムであって、該コンピュータプログラムは、コンピュータ実行可能命令の形態であり、該コンピュータ実行可能命令は、プロセッサによって実行されると、前記コンピュータシステムに、不統一に記憶されているデータセットにアクセスし、該データセットを比較する方法を実施させ、該コンピュータプログラムは、
1つ又は複数の第三者ウェブポータルへのアドレスを含む1つ又は複数のデータ構造内で、対象の特定のデータエントリを識別するステップであって、前記1つ又は複数のデータ構造は、第1のローカルにアクセス可能なデータベースに記憶されている、識別するステップと、
特定の第三者ウェブポータルにアクセスするステップであって、前記特定の第三者ウェブポータルは、前記1つ又は複数のデータ構造と関連付けられている情報を含む、アクセスするステップと、
前記特定の第三者ウェブポータルに特有のものである特定のスクリプトを実行するステップであって、前記特定のスクリプトは、
前記特定の第三者ウェブポータルの一つ又は複数の画像内のテキストを認識するために光学文字認識モジュールを作動させ、
ユーザ入力デバイスからの入力を模倣することによって、前記特定の第三者ウェブポータルとやり取りし、
不統一なフォーマットで利用可能な1つ又は複数のデータフィールドからのデータ要素にアクセスし、該データ要素をパースするように、前記特定の第三者ウェブポータルとのやり取りを自動的に適応させる
方法を実施する、特定のスクリプトを実行するステップと、
不統一なフォーマットで利用可能な前記1つ又は複数のデータフィールドから受信される第1のデータセットを、第2のローカルにアクセス可能なデータベースに記憶されている第2のデータセットと比較するステップと、
比較された前記データに基づいて報告を生成するステップであって、前記報告は、前記第1のデータセットと前記第2のデータセットとの間の食い違いの通知を含む、生成するステップと、
を含む、コンピュータシステムにおいて使用するためのコンピュータプログラム。 - 請求項20に記載のコンピュータプログラムが記憶されているコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/619,751 US10489377B2 (en) | 2015-02-11 | 2015-02-11 | Automated intelligent data scraping and verification |
US14/619,751 | 2015-02-11 | ||
PCT/MX2015/000069 WO2016129984A1 (es) | 2015-02-11 | 2015-04-27 | Extracción y verificación de datos inteligente y automatizada |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018513426A JP2018513426A (ja) | 2018-05-24 |
JP6603866B2 true JP6603866B2 (ja) | 2019-11-13 |
Family
ID=53396258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016561778A Active JP6603866B2 (ja) | 2015-02-11 | 2015-04-27 | 自動インテリジェントデータスクレイピング及び検証のための方法、システム、プログラム及び記憶媒体 |
Country Status (11)
Country | Link |
---|---|
US (2) | US10489377B2 (ja) |
EP (1) | EP3057040A1 (ja) |
JP (1) | JP6603866B2 (ja) |
CN (1) | CN106796597B (ja) |
AR (1) | AR103669A1 (ja) |
AU (1) | AU2015381978B2 (ja) |
BR (1) | BR112015015647B1 (ja) |
CA (1) | CA2944601C (ja) |
MX (1) | MX366930B (ja) |
RU (1) | RU2699400C2 (ja) |
WO (1) | WO2016129984A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489377B2 (en) | 2015-02-11 | 2019-11-26 | Best Collect, S.A. De C.V. | Automated intelligent data scraping and verification |
EP3271837A4 (en) * | 2015-03-17 | 2018-08-01 | VM-Robot, Inc. | Web browsing robot system and method |
US11570188B2 (en) * | 2015-12-28 | 2023-01-31 | Sixgill Ltd. | Dark web monitoring, analysis and alert system and method |
US10776838B2 (en) * | 2016-03-01 | 2020-09-15 | Mx Technologies, Inc. | Item level data aggregation |
US10984003B2 (en) * | 2017-09-16 | 2021-04-20 | Fujitsu Limited | Report generation for a digital task |
CN108334619A (zh) * | 2018-02-07 | 2018-07-27 | 政采云有限公司 | 一种数据采集方法、装置、计算设备及存储介质 |
KR101982085B1 (ko) * | 2018-04-25 | 2019-05-27 | 주식회사쿠콘 | 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 |
US10810020B2 (en) * | 2018-10-18 | 2020-10-20 | EMC IP Holding Company LLC | Configuring a device using an automated manual process bridge |
US10719573B2 (en) | 2018-10-31 | 2020-07-21 | Flinks Technology Inc. | Systems and methods for retrieving web data |
US11245719B2 (en) * | 2019-01-11 | 2022-02-08 | Oracle International Corporation | Systems and methods for enhanced host classification |
KR102475305B1 (ko) * | 2019-10-16 | 2022-12-12 | 카페24 주식회사 | 이종 플랫폼 간의 자동 연동 방법, 장치 및 시스템 |
KR102396110B1 (ko) * | 2019-10-16 | 2022-05-19 | 카페24 주식회사 | 이종 쇼핑몰 간의 연동 방법 |
WO2022220311A1 (ko) * | 2021-04-12 | 2022-10-20 | 카페24 주식회사 | 이종 플랫폼 간의 자동 연동 방법, 장치 및 시스템 |
US20230244502A1 (en) * | 2022-02-03 | 2023-08-03 | Capital One Services, Llc | Executing automated browsing sessions |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083068A1 (en) | 2000-10-30 | 2002-06-27 | Quass Dallan W. | Method and apparatus for filling out electronic forms |
US20060200754A1 (en) | 2001-10-24 | 2006-09-07 | Infosnap | Systems and methods for storing personal information, automatically filling out forms, and sharing information with a data recipient |
US7561734B1 (en) | 2002-03-02 | 2009-07-14 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7343551B1 (en) | 2002-11-27 | 2008-03-11 | Adobe Systems Incorporated | Autocompleting form fields based on previously entered values |
US7761787B2 (en) | 2002-12-02 | 2010-07-20 | Siemens Medical Solutions Usa, Inc. | Document generation system and user interface for producing a user desired document |
JP2005316534A (ja) | 2004-04-27 | 2005-11-10 | A Line Kk | 電子商取引システム |
US7660779B2 (en) | 2004-05-12 | 2010-02-09 | Microsoft Corporation | Intelligent autofill |
JP2006048144A (ja) | 2004-07-30 | 2006-02-16 | Tenik Kk | 自動巡回装置,クライアント端末および自動巡回方法 |
US8032823B2 (en) | 2005-04-15 | 2011-10-04 | Carnegie Mellon University | Intent-based information processing and updates |
EP1777629A1 (en) | 2005-10-19 | 2007-04-25 | NTT DoCoMo, Inc. | Method and apparatus for automatic form filling |
US9430455B2 (en) | 2005-12-15 | 2016-08-30 | Simpliance, Inc. | Methods and systems for intelligent form-filling and electronic document generation |
US8775919B2 (en) * | 2006-04-25 | 2014-07-08 | Adobe Systems Incorporated | Independent actionscript analytics tools and techniques |
US9069745B2 (en) | 2007-01-16 | 2015-06-30 | Ebay, Inc. | Electronic form automation |
US7941740B2 (en) * | 2007-07-10 | 2011-05-10 | Yahoo! Inc. | Automatically fetching web content with user assistance |
US8214362B1 (en) | 2007-09-07 | 2012-07-03 | Google Inc. | Intelligent identification of form field elements |
US8713029B2 (en) | 2007-11-05 | 2014-04-29 | Verizon Patent And Licensing Inc. | Method and apparatus for providing auto-completion of information |
KR20100106333A (ko) | 2007-12-10 | 2010-10-01 | 인터내셔널 비지네스 머신즈 코포레이션 | 데이터를 웹 페이지에 입력하는 방법 및 시스템 |
US20100205529A1 (en) * | 2009-02-09 | 2010-08-12 | Emma Noya Butin | Device, system, and method for creating interactive guidance with execution of operations |
US9569231B2 (en) * | 2009-02-09 | 2017-02-14 | Kryon Systems Ltd. | Device, system, and method for providing interactive guidance with execution of operations |
CN102667761B (zh) * | 2009-06-19 | 2015-05-27 | 布雷克公司 | 可扩展的集群数据库 |
WO2011097593A1 (en) | 2010-02-05 | 2011-08-11 | Medversant Technologies, Llc | System and method for visually mapping and automatically completing electronic forms |
FI20105701A (fi) | 2010-06-17 | 2011-12-18 | Itella Oyj | Menetelmä ja järjestelmä viestintäverkossa toimittajien kontaktointiin |
US8713168B2 (en) | 2010-09-22 | 2014-04-29 | The Nielsen Company (Us), Llc | Methods and apparatus to determine impressions using distributed demographic information |
US20120191619A1 (en) * | 2011-01-20 | 2012-07-26 | John Nicholas Gross | System & Method For Locating & Assessing Intellectual Property Assets |
JP2013011999A (ja) * | 2011-06-28 | 2013-01-17 | Yahoo Japan Corp | トピック変化検出装置及び方法 |
US8976955B2 (en) * | 2011-11-28 | 2015-03-10 | Nice-Systems Ltd. | System and method for tracking web interactions with real time analytics |
JP5764080B2 (ja) * | 2012-03-02 | 2015-08-12 | 株式会社栗本鐵工所 | Web検索システムおよびWeb検索方法 |
AU2013206449A1 (en) | 2012-06-20 | 2014-01-16 | Visa International Service Association | Multi-channel remote payment apparatuses, methods and systems |
US9639597B2 (en) | 2012-10-30 | 2017-05-02 | FHOOSH, Inc. | Collecting and classifying user information into dynamically-updated user profiles |
US9836775B2 (en) * | 2013-05-24 | 2017-12-05 | Ficstar Software, Inc. | System and method for synchronized web scraping |
US9741059B1 (en) * | 2014-05-23 | 2017-08-22 | Intuit Inc. | System and method for managing website scripts |
US10489377B2 (en) * | 2015-02-11 | 2019-11-26 | Best Collect, S.A. De C.V. | Automated intelligent data scraping and verification |
WO2017062678A1 (en) * | 2015-10-07 | 2017-04-13 | Impossible Ventures, LLC | Automated extraction of data from web pages |
US10984003B2 (en) * | 2017-09-16 | 2021-04-20 | Fujitsu Limited | Report generation for a digital task |
-
2015
- 2015-02-11 US US14/619,751 patent/US10489377B2/en active Active
- 2015-04-27 RU RU2016139156A patent/RU2699400C2/ru active
- 2015-04-27 CN CN201580046949.8A patent/CN106796597B/zh active Active
- 2015-04-27 AU AU2015381978A patent/AU2015381978B2/en active Active
- 2015-04-27 JP JP2016561778A patent/JP6603866B2/ja active Active
- 2015-04-27 CA CA2944601A patent/CA2944601C/en active Active
- 2015-04-27 BR BR112015015647-9A patent/BR112015015647B1/pt active IP Right Grant
- 2015-04-27 MX MX2015007187A patent/MX366930B/es active IP Right Grant
- 2015-04-27 WO PCT/MX2015/000069 patent/WO2016129984A1/es active Application Filing
- 2015-06-03 EP EP15170582.9A patent/EP3057040A1/en not_active Ceased
-
2016
- 2016-02-12 AR ARP160100384A patent/AR103669A1/es active IP Right Grant
-
2019
- 2019-10-24 US US16/662,964 patent/US11188519B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
BR112015015647A8 (pt) | 2022-08-09 |
RU2699400C2 (ru) | 2019-09-05 |
RU2016139156A3 (ja) | 2018-10-22 |
AU2015381978B2 (en) | 2021-02-04 |
MX2015007187A (es) | 2017-03-14 |
US20200057759A1 (en) | 2020-02-20 |
CN106796597A (zh) | 2017-05-31 |
AR103669A1 (es) | 2017-05-24 |
CN106796597B (zh) | 2020-12-22 |
RU2016139156A (ru) | 2018-04-25 |
US10489377B2 (en) | 2019-11-26 |
MX366930B (es) | 2019-07-31 |
BR112015015647B1 (pt) | 2023-01-24 |
EP3057040A1 (en) | 2016-08-17 |
CA2944601C (en) | 2022-10-18 |
AU2015381978A1 (en) | 2016-11-03 |
US11188519B2 (en) | 2021-11-30 |
CA2944601A1 (en) | 2016-08-18 |
WO2016129984A1 (es) | 2016-08-18 |
JP2018513426A (ja) | 2018-05-24 |
BR112015015647A2 (pt) | 2017-07-11 |
US20160232194A1 (en) | 2016-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6603866B2 (ja) | 自動インテリジェントデータスクレイピング及び検証のための方法、システム、プログラム及び記憶媒体 | |
US9898497B2 (en) | Validating coherency between multiple data sets between database transfers | |
US10678632B2 (en) | Extract-transform-load diagnostics | |
US9424481B2 (en) | Screenshot database for application verification | |
US10021001B2 (en) | Providing visualizations of event sequence data | |
US10013239B2 (en) | Metadata driven real-time analytics framework | |
CN110222036B (zh) | 用于自动数据库迁移的方法和系统 | |
US10361944B2 (en) | Automated test for uniform web service interfaces | |
US20150106723A1 (en) | Tools for locating, curating, editing, and using content of an online library | |
US20160019464A1 (en) | Adapting digital content based upon usage patterns | |
US10261808B2 (en) | Access operation with dynamic linking and access of data within plural data sources | |
US11029802B2 (en) | Automated command-line interface | |
US20200050540A1 (en) | Interactive automation test | |
US10789264B2 (en) | Automating configuration of operational data pipelines for extraction, transformation and load | |
US20190179664A1 (en) | System and method for provisioning integration infrastructure at runtime indifferent to hybrid nature of endpoint applications | |
CN111919228A (zh) | 灵活的能源信息聚合 | |
US20170075727A1 (en) | Configuration management for a shared pool of configurable computing resources | |
US11836510B2 (en) | Snapshot capture of computing device user interfaces | |
CN115334064B (zh) | 一种配置系统的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190913 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6603866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |