JP6707586B2 - スクリプトエンジンを用いたデータスクレイピングシステム、方法、及びコンピュータプログラム - Google Patents
スクリプトエンジンを用いたデータスクレイピングシステム、方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6707586B2 JP6707586B2 JP2018149919A JP2018149919A JP6707586B2 JP 6707586 B2 JP6707586 B2 JP 6707586B2 JP 2018149919 A JP2018149919 A JP 2018149919A JP 2018149919 A JP2018149919 A JP 2018149919A JP 6707586 B2 JP6707586 B2 JP 6707586B2
- Authority
- JP
- Japan
- Prior art keywords
- scraping
- data
- information
- unit
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007790 scraping Methods 0.000 title claims description 473
- 238000000034 method Methods 0.000 title claims description 99
- 238000013515 script Methods 0.000 title claims description 46
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000004891 communication Methods 0.000 claims description 78
- 238000007726 management method Methods 0.000 claims description 78
- 238000012937 correction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 230000008520 organization Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 5
- 238000004148 unit process Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010016275 Fear Diseases 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0894—Escrow, recovery or storing of secret information, e.g. secret key escrow or cryptographic key storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/33—User authentication using certificates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/44—Program or device authentication
- G06F21/445—Program or device authentication by mutual authentication, e.g. between devices or programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45504—Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
- G06F9/45508—Runtime interpretation or emulation, e g. emulator loops, bytecode interpretation
- G06F9/45512—Command shells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0891—Revocation or update of secret information, e.g. encryption key update or rekeying
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3247—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving digital signatures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3263—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving certificates, e.g. public key certificate [PKC] or attribute certificate [AC]; Public key infrastructure [PKI] arrangements
- H04L9/3268—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving certificates, e.g. public key certificate [PKC] or attribute certificate [AC]; Public key infrastructure [PKI] arrangements using certificate validation, registration, distribution or revocation, e.g. certificate revocation list [CRL]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Transfer Between Computers (AREA)
Description
従来の口座統合サービスシステムは、図1に示したように、ユーザ10が口座統合サービスプログラム20にて第1〜第nの機関40−1〜40−nに登録されたウェブサービスプログラム41にインターネット網30を介してアクセスして、前記第1〜第nの機関40−1〜40−nの通信セキュリティーポリシーによってサービスを行う。この時、前記スクリーンスクレイピングは前記口座統合サービスプログラム20で行われる。
一実施形態において、前記一つ以上のデータスクレイピング情報収集部のそれぞれは、スクレイプされるデータ項目を指定するメタデータベースを更に含む。この時、前記スクレイピングエンジン部は、前記機関が提供するデータセットから前記メタデータベースに基づいてスクレイプするデータを抽出するように更に構成される。
図2は一実施形態に係るデータスクレイピングシステムの構成を示すブロック図である。
図4を参照すると、スクレイピングエンジン部240はスクリプトエンジン241、スクレイピング環境管理部242、通信管理部243、及びセッション管理部244を含むことができる。実施形態において、スクレイピングエンジン部240の全体はプラットフォーム独立形態のスクリプトとして実現され、スクリプトエンジン241、スクレイピング環境管理部242、通信管理部243、及びセッション管理部244は、これらのスクリプトを機能的に区分したものであり得る。また、スクレイピングエンジン部240はCPU310、メインメモリ320、USBホストコントローラ330、ハードディスクドライブ340、及びネットワークインターフェースカード350を含むハードウェア、及びそれぞれのハードウェアコンポーネント用のデバイスドライバ(Device Driver)及びCMOS BIOSなどを含むソフトウェアを用いて行うように実現できる。
図3及び図6を参照すると、まず、データスクレイピング情報収集部200ではユーザデバイス10からのスクレイピング要請を送受信部100を介して受信し、データスクレイピングエンジンの情報読み取りを行う(S100)。これはスクレイピングエンジン部に格納された認証書のバージョン、スクレイピングエンジン部の誤動作の可否、実行時間、実行作業の概略内容、最適化のための情報、スクレイピング作業の権限情報などを確認する過程を含むことができる。
10 ユーザデバイス
30 インターネット網
40 機関
100 情報収集プログラム
200 データスクレイピング情報収集部
215 スクレイピングエラー修正部
240 スクレイピングエンジン部
241 スクリプトエンジン
242 スクレイピング環境管理部
243 通信管理部
244 セッション管理部
260 モジュールアップデート部
270 認証書分配部
210 検証部
220 作業管理部
250 プラットフォーム管理部
280 監査用資料管理部
290 DBファイル部
Claims (21)
- データスクレイピングシステムであって、
スクレイピングが必要な照会または実行を呼び出すサービスプログラムを備え、ユーザデバイスからスクレイピングのためのユーザ情報を含むスクレイピング要請を受信し、スクレイプしたデータを前記ユーザデバイスに伝送するように構成された送受信部、及び
前記送受信部に受信された前記ユーザ情報を用いて一つ以上の機関からのデータをスクレイプするように構成された一つ以上のデータスクレイピング情報収集部を含み、
前記一つ以上のデータスクレイピング情報収集部のそれぞれは、
スクレイピングを行う対象機関の識別情報と、前記スクレイピングを行う対象機関に相応する認証情報及び通信情報を含む環境情報とを格納し、プラットフォーム独立スクリプト形態を有し、前記環境情報に基づいて前記スクレイピングを行う対象機関からのデータをスクレイプするように構成されたスクレイピングエンジン部を含み、
前記通信情報は、通信暗号化プロトコルの種類及びセッション維持時間のうちの少なくとも1つを含む、データスクレイピングシステム。 - 前記スクレイピングエンジン部は、
前記環境情報を格納するスクレイピング環境管理部、
前記通信情報に基づいて前記スクレイピングを行う対象機関と前記スクレイピングエンジン部との間の通信セッションを生成するセッション管理部、
前記認証情報に基づいて前記ユーザ情報を処理する通信管理部、及び
前記ユーザ情報が処理された認証値を前記スクレイピングを行う対象機関に伝送することで、前記スクレイピングを行う対象機関からのデータをスクレイプするように構成された、請求項1に記載のデータスクレイピングシステム。 - 前記ユーザ情報はユーザの生体認証情報を含む、請求項2に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、スクレイプされるデータ項目を指定するメタデータベースを更に含み、
前記スクレイピングエンジン部は、前記スクレイピングを行う対象機関が提供するデータセットから前記メタデータベースに基づいてスクレイプするデータを抽出するように更に構成された、請求項2に記載のデータスクレイピングシステム。 - 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、スクレイピングのための前記ユーザ情報及び前記ユーザ情報に基づいた作業を、内部スケジュールアルゴリズムを用いて前記スクレイピングエンジン部に割り当てる作業管理部を更に含む、請求項4に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、前記作業管理部の正常動作の可否をモニターし、エラー発生時には前記作業管理部を再実行し、前記データセットでスクレイプされる前記データ項目が位置する部分を識別するための識別情報を前記メタデータベースに格納するプラットフォーム管理部を更に含む、請求項5に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、前記送受信部の前記サービスプログラムと前記スクレイピングエンジン部とが相互認証されたか否かを検査することで、前記スクレイピング要請を検証するように構成された検証部を更に含む、請求項1に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、前記データスクレイピング情報収集部と相互認証された一つまたは複数のユーザの認証書を格納しており、前記データスクレイピング情報収集部に割り当てられたスクレイピング作業に基づいて必要な認証書を前記スクレイピングエンジン部にインストールするように構成された認証書分配部を更に含む、請求項1に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、前記ユーザデバイスにインストールされた認証書と前記スクレイピングエンジン部にインストールされた認証書とが異なる場合、前記ユーザデバイスから受信した認証書を用いて前記スクレイピングエンジン部にインストールされた認証書をアップデートするように構成されたモジュールアップデート部を更に含む、請求項8に記載のデータスクレイピングシステム。
- 前記一つ以上のデータスクレイピング情報収集部のそれぞれは、前記ユーザデバイスでスクレイピングを直接行いながらエラーが発生すると、エラー発生時にユーザデバイスに入力されたスクレイピング入力情報からエラーログを分析し、分析されたエラーログに基づいて前記ユーザデバイス内のスクレイピングモジュールをアップデートさせるスクレイピングエラー修正部を更に含む、請求項1に記載のデータスクレイピングシステム。
- データスクレイピング方法であって、
スクレイピングが必要な照会または実行を呼び出すサービスプログラムを備えたデータスクレイピングシステムの送受信部が、ユーザデバイスから、ユーザによって呼び出された照会または実行の情報及びユーザ情報を含むスクレイピング要請を受信するステップ、
前記データスクレイピングシステムが、スクレイピングを行う対象機関の識別情報と、前記スクレイピングを行う対象機関に相応する認証情報及び通信情報を含む環境情報とを格納し、プラットフォーム独立スクリプト形態を有する前記データスクレイピングシステムのスクレイピングエンジン部に前記ユーザ情報及び前記ユーザ情報に基づいた作業を割り当てるステップ、
前記スクレイピングエンジン部が前記環境情報に基づいて前記スクレイピングを行う対象機関からのデータをスクレイプするステップ、及び
前記送受信部がスクレイプしたデータを前記ユーザデバイスに伝送するステップを含み、
前記通信情報は、通信暗号化プロトコルの種類及びセッション維持時間のうちの少なくとも1つを含む、データスクレイピング方法。 - 前記スクレイピングを行う対象機関からのデータをスクレイプするステップは、
前記スクレイピングエンジン部が前記通信情報に基づいて前記スクレイピングを行う対象機関と前記スクレイピングエンジン部との間の通信セッションを生成するステップ、
前記スクレイピングエンジン部が前記認証情報に基づいて前記ユーザ情報を処理するステップ、及び
前記スクレイピングエンジン部が、前記ユーザ情報が処理された認証値を前記スクレイピングを行う対象機関に伝送することで、前記スクレイピングを行う対象機関からのデータをスクレイプするステップを含む、請求項11に記載のデータスクレイピング方法。 - 前記ユーザ情報はユーザの生体認証情報を含む、請求項12に記載のデータスクレイピング方法。
- 前記スクレイピングを行う対象機関からのデータをスクレイプするステップの前に、前記データスクレイピングシステムがスクレイプされるデータ項目をメタデータベースに格納するステップを更に含み、
前記スクレイピングを行う対象機関からのデータをスクレイプするステップは、前記スクレイピングを行う対象機関が提供するデータセットから前記メタデータベースに基づいてスクレイプするデータを抽出するステップを含む、請求項12に記載のデータスクレイピング方法。 - 前記スクレイピングを行う対象機関からのデータをスクレイプするステップの前に、前記データスクレイピングシステムの作業管理部が前記ユーザ情報及び前記作業を、内部スケジュールアルゴリズムを用いて前記スクレイピングエンジン部に割り当てるステップを更に含む請求項14に記載のデータスクレイピング方法。
- 前記データスクレイピングシステムが、前記作業管理部の正常動作の可否をモニターし、エラー発生時には前記作業管理部を再実行するステップ、及び
前記データスクレイピングシステムが、前記データセットでスクレイプされる前記データ項目が位置する部分を識別するための識別情報を前記メタデータベースに格納するステップを更に含む請求項15に記載のデータスクレイピング方法。 - 前記スクレイピングを行う対象機関からのデータをスクレイプするステップの前に、前記データスクレイピングシステムが、前記送受信部の前記サービスプログラムと前記スクレイピングエンジン部とが相互認証されたか否かを検査することで、前記スクレイピング要請を検証するステップを更に含む請求項11に記載のデータスクレイピング方法。
- 前記データスクレイピングシステムは、前記データスクレイピングシステムと相互認証された一つまたは複数のユーザの認証書を格納しており、
前記スクレイピングを行う対象機関からのデータをスクレイプするステップの前に、前記データスクレイピングシステムが、前記スクレイピングエンジン部に割り当てられたスクレイピング作業に基づいて必要な認証書を前記スクレイピングエンジン部にインストールするステップを更に含む請求項11に記載のデータスクレイピング方法。 - 前記スクレイピングを行う対象機関からのデータをスクレイプするステップの前に、前記データスクレイピングシステムが、前記ユーザデバイスにインストールされた認証書と前記スクレイピングエンジン部にインストールされた認証書とが異なる場合、前記ユーザデバイスから受信した認証書を用いて前記スクレイピングエンジン部にインストールされた認証書をアップデートするステップを更に含む請求項18に記載のデータスクレイピング方法。
- 前記ユーザデバイスでスクレイピングを直接行いながらエラーが発生すると、
前記データスクレイピングシステムが、エラー発生時にユーザデバイスに入力されたスクレイピング入力情報からエラーログを分析するステップ、及び
前記データスクレイピングシステムが、分析されたエラーログに基づいて前記ユーザデバイス内のスクレイピングモジュールをアップデートさせるステップを更に含む請求項18に記載のデータスクレイピング方法。 - ハードウェアと組み合わせて請求項11〜20のいずれか1項に記載のデータスクレイピング方法を行うように媒体に記録されたコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0047729 | 2018-04-25 | ||
KR1020180047729A KR101982085B1 (ko) | 2018-04-25 | 2018-04-25 | 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019192189A JP2019192189A (ja) | 2019-10-31 |
JP6707586B2 true JP6707586B2 (ja) | 2020-06-10 |
Family
ID=66679109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018149919A Active JP6707586B2 (ja) | 2018-04-25 | 2018-08-09 | スクリプトエンジンを用いたデータスクレイピングシステム、方法、及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10635488B2 (ja) |
JP (1) | JP6707586B2 (ja) |
KR (1) | KR101982085B1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102197329B1 (ko) * | 2020-01-09 | 2020-12-31 | 주식회사 카카오뱅크 | 스크래핑 기반 서비스 제공 방법 및 이를 수행하는 어플리케이션 |
KR102308511B1 (ko) * | 2020-02-04 | 2021-10-06 | (주) 씨이랩 | 빅데이터 및 인공지능을 이용한 사용자 정보 통합 플랫폼 및 이의 운용방법 |
CN111917580A (zh) * | 2020-07-28 | 2020-11-10 | 平安普惠企业管理有限公司 | 抓包处理方法、装置、设备以及计算机可读存储介质 |
US11281730B1 (en) * | 2021-07-08 | 2022-03-22 | metacluster lt, UAB | Direct leg access for proxy web scraping |
CN113660530B (zh) * | 2021-07-27 | 2024-03-19 | 中央广播电视总台 | 节目流数据抓取方法、装置、计算机设备及可读存储介质 |
KR102436357B1 (ko) | 2021-11-09 | 2022-08-25 | 주식회사 비즈니스 링커 시스템 | 웹 스크래핑용 스크립트 작성 방법 및 이를 이용한 웹 스크래핑 방법 및 시스템 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000082066A (ja) | 1998-09-04 | 2000-03-21 | Recruit Co Ltd | ユーザ毎にスクラップ機能を備えたネットワーク上のデータベース検索システム |
AU3523202A (en) * | 2000-12-18 | 2002-07-01 | Kargo Inc | A system and method for delivering content to mobile devices |
JP2002208926A (ja) * | 2001-01-11 | 2002-07-26 | Masaru Nakajima | データ通信の認証方法 |
KR100494975B1 (ko) | 2001-02-21 | 2005-06-16 | 주식회사 핑거 | 스크린 스크래핑 기술을 이용한 고객 자산 관리 방법 및시스템 |
US20030204460A1 (en) * | 2002-04-30 | 2003-10-30 | Rodney Robinson | Data collection and transaction initiation using a financial messaging protocol |
US20060095377A1 (en) * | 2004-10-29 | 2006-05-04 | Young Jill D | Method and apparatus for scraping information from a website |
US20070067238A1 (en) * | 2005-09-21 | 2007-03-22 | Capital One Financial Corporation | System and method for transferring information between financial accounts |
US20070250711A1 (en) * | 2006-04-25 | 2007-10-25 | Phonified Llc | System and method for presenting and inputting information on a mobile device |
US7523118B2 (en) * | 2006-05-02 | 2009-04-21 | International Business Machines Corporation | System and method for optimizing federated and ETL'd databases having multidimensionally constrained data |
US20090063438A1 (en) * | 2007-08-28 | 2009-03-05 | Iamg, Llc | Regulatory compliance data scraping and processing platform |
KR101213360B1 (ko) | 2007-09-28 | 2012-12-18 | 에스케이플래닛 주식회사 | 권한에 따른 콘텐츠 스크랩 서비스 제공 방법, 그를 위한콘텐츠 스크랩 서비스 시스템, 콘텐츠 제공 서버 및 단말기 |
JP2009223489A (ja) * | 2008-03-14 | 2009-10-01 | Ntt Bizlink Inc | 情報提供装置及び情報提供プログラム |
US8595847B2 (en) * | 2008-05-16 | 2013-11-26 | Yellowpages.Com Llc | Systems and methods to control web scraping |
KR101125083B1 (ko) | 2009-09-03 | 2012-03-21 | 황찬호 | 웹 컨텐츠 스크랩 시스템 및 그 방법 |
US9406186B2 (en) * | 2010-05-12 | 2016-08-02 | Capital One Financial Corporation | System and method for providing limited access to data |
JP4977241B2 (ja) * | 2010-07-16 | 2012-07-18 | 株式会社東芝 | 表示装置及び表示方法 |
US20120173524A1 (en) * | 2010-12-31 | 2012-07-05 | Ian Connor | Capturing collection information for institutions |
US20120310914A1 (en) * | 2011-05-31 | 2012-12-06 | NetSol Technologies, Inc. | Unified Crawling, Scraping and Indexing of Web-Pages and Catalog Interface |
US20120317472A1 (en) * | 2011-06-07 | 2012-12-13 | Profitero Ltd | Creation of data extraction rules to facilitate web scraping of unstructured data from web pages |
US20130311875A1 (en) * | 2012-04-23 | 2013-11-21 | Derek Edwin Pappas | Web browser embedded button for structured data extraction and sharing via a social network |
KR101402146B1 (ko) * | 2012-08-30 | 2014-06-03 | 주식회사 핑거 | 모바일 디바이스에서의 웹 스크린 스크래핑 방법 및 웹 스크린 스크래핑을 제공하는 모바일 디바이스 |
US9639507B2 (en) * | 2012-11-26 | 2017-05-02 | Intuit Inc. | Method and system for providing a net effect platform for developing and correcting screen scraping parser scripts |
WO2014098237A1 (ja) * | 2012-12-21 | 2014-06-26 | グリー株式会社 | ゲーム制御方法、サーバ装置、及び情報記録媒体 |
US9246678B2 (en) * | 2013-03-14 | 2016-01-26 | Intel Corporation | Secure cloud storage and encryption management system |
US9836775B2 (en) * | 2013-05-24 | 2017-12-05 | Ficstar Software, Inc. | System and method for synchronized web scraping |
KR101569984B1 (ko) | 2014-01-16 | 2015-11-18 | 이주현 | 웹 스크래핑 추출 데이터 설정 방법 |
JP2015219890A (ja) * | 2014-05-21 | 2015-12-07 | キヤノン株式会社 | 管理装置、その制御方法およびプログラム |
US9858429B2 (en) * | 2014-12-01 | 2018-01-02 | Samsung Electronics Co., Ltd. | Methods of data transfer in electronic devices |
US10489377B2 (en) * | 2015-02-11 | 2019-11-26 | Best Collect, S.A. De C.V. | Automated intelligent data scraping and verification |
US20180115559A1 (en) * | 2015-05-18 | 2018-04-26 | Verifier Pty Ltd | Aggregation and provision of verification data |
US9298806B1 (en) * | 2015-07-08 | 2016-03-29 | Coinlab, Inc. | System and method for analyzing transactions in a distributed ledger |
SG10201509221YA (en) * | 2015-11-06 | 2017-06-29 | Huawei Int Pte Ltd | System and method for managing installation of an application package requiring high-risk permission access |
US9692815B2 (en) * | 2015-11-12 | 2017-06-27 | Mx Technologies, Inc. | Distributed, decentralized data aggregation |
KR101815235B1 (ko) * | 2015-12-30 | 2018-01-08 | 주식회사쿠콘 | 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 |
US10423675B2 (en) * | 2016-01-29 | 2019-09-24 | Intuit Inc. | System and method for automated domain-extensible web scraping |
US10776838B2 (en) * | 2016-03-01 | 2020-09-15 | Mx Technologies, Inc. | Item level data aggregation |
WO2018043466A1 (ja) * | 2016-08-30 | 2018-03-08 | 日本電気株式会社 | データ抽出システム、データ抽出方法、登録装置及びプログラム |
US20180150562A1 (en) * | 2016-11-25 | 2018-05-31 | Cognizant Technology Solutions India Pvt. Ltd. | System and Method for Automatically Extracting and Analyzing Data |
US11869069B2 (en) * | 2017-01-31 | 2024-01-09 | Mx Technologies, Inc. | Externally held account discovery and aggregation |
US11823258B2 (en) * | 2017-10-11 | 2023-11-21 | Mx Technologies, Inc. | Aggregation based credit decision |
-
2018
- 2018-04-25 KR KR1020180047729A patent/KR101982085B1/ko active IP Right Grant
- 2018-08-09 JP JP2018149919A patent/JP6707586B2/ja active Active
- 2018-08-24 US US16/112,528 patent/US10635488B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10635488B2 (en) | 2020-04-28 |
US20190332424A1 (en) | 2019-10-31 |
KR101982085B1 (ko) | 2019-05-27 |
JP2019192189A (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6707586B2 (ja) | スクリプトエンジンを用いたデータスクレイピングシステム、方法、及びコンピュータプログラム | |
KR102340474B1 (ko) | 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 | |
KR101815235B1 (ko) | 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 | |
US9075986B1 (en) | Systems and methods for software application security management | |
WO2019041804A1 (zh) | 理赔订单的个性化审核方法、装置、存储介质及终端 | |
US9721106B2 (en) | Method and system for scanning a computer system for sensitive content | |
US8818906B1 (en) | Systems and methods for performing authentication of a customer interacting with a banking platform | |
CN107615292A (zh) | 用于管理需要高风险权限访问的应用程序包的安装的系统和方法 | |
US11586687B2 (en) | Apparatus, method and computer program for cloud scraping using pre-scraped big data | |
CN112567408A (zh) | 用于访问控制的分布式账本平台 | |
CN108400875B (zh) | 基于键值的授权认证方法、系统、电子设备、存储介质 | |
KR102071984B1 (ko) | 모바일 단말기를 통한 간편 인증 방법 및 이를 위한 인증 서비스 장치 | |
KR101876672B1 (ko) | 블록 체인을 이용한 전자 서명 방법 및 이를 실행하는 시스템 | |
US11715079B2 (en) | Maintaining secure access to a self-service terminal (SST) | |
US20210157949A1 (en) | Event data tagged with consent records | |
CN116755719A (zh) | 应用组件的数据处理方法、装置和数据处理系统 | |
CN112636954B (zh) | 一种服务器升级方法及装置 | |
KR101980274B1 (ko) | 블록체인망을 이용한 가상계좌 시스템 및 그의 가상계좌 발급 및 입금 방법 | |
CN110401674B (zh) | 数据访问方法、装置、系统、电子设备及计算机可读介质 | |
CN114528176A (zh) | 用户系统中的问题管理 | |
KR20190130957A (ko) | 미리 스크래핑된 빅데이터를 이용한 클라우드 스크래핑 시스템 및 방법과, 이를 위한 컴퓨터 프로그램 | |
TW201639329A (zh) | 以有效憑證線上申請行動憑證之系統及其方法 | |
EP3972216A1 (en) | Information system for the integration of digital certificates and method for operating said information system | |
KR101351243B1 (ko) | 애플리케이션 인증 방법 및 그 시스템 | |
KR20180130910A (ko) | 스크래핑 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200512 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6707586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |