CN106796597A - 自动化智能数据抓取和验证 - Google Patents

自动化智能数据抓取和验证 Download PDF

Info

Publication number
CN106796597A
CN106796597A CN201580046949.8A CN201580046949A CN106796597A CN 106796597 A CN106796597 A CN 106796597A CN 201580046949 A CN201580046949 A CN 201580046949A CN 106796597 A CN106796597 A CN 106796597A
Authority
CN
China
Prior art keywords
data
party
script
specific
network gateway
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580046949.8A
Other languages
English (en)
Other versions
CN106796597B (zh
Inventor
加布里埃尔·迪亚斯·加尔扎·亚伯拉罕
里卡多·苏亚雷斯·洛佩斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Best Collection Ltd
Original Assignee
Best Collection Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Best Collection Ltd filed Critical Best Collection Ltd
Publication of CN106796597A publication Critical patent/CN106796597A/zh
Application granted granted Critical
Publication of CN106796597B publication Critical patent/CN106796597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Facsimiles In General (AREA)

Abstract

本申请涉及一种用于从多个独特的非一致第三方网络门户分析非一致呈现的数据的计算机服务器系统。该系统可包括命令序列处理器,所述命令序列处理器被配置为自动地执行用于一个或多个第三方网络门户中的每个的专用网络门户命令序列,所述一个或多个第三方网络门户经由网络通信设备进行访问。专用网络门户命令序列中的每个可以被配置为模仿来自用户输入设备的输入,并且自动地适应与一个或多个第三方网络门户中的一个的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。计算机服务器系统还可以包括数据库处理器,所述数据库处理器被配置为将从一个或多个非一致的能用的数据字段接收的第一数据集与存储在本地数据库设备内的第二数据集进行比较。

Description

自动化智能数据抓取和验证
技术领域
本发明总体涉及从网络门户抓取数据以及数据的验证。
背景技术
为了精简生产力和打击欺诈,许多国家正在转向授权电子账单。在许多情况下,政府授权的账单要求公司并且有时是个人通过政府单位注册账单。已注册的账单可以进行数字签名,或以其他方式进行认证。
另外,在使用授权电子账单的某些情况下,只有电子注册的账单才具有法律效力。因此,公司非常积极地确保账单正确注册。同样,公司也非常积极地确保注册的账单是准确和完整的,以避免与无效账单有关的问题。
在处理付款和账单时,公司通常需要执行复杂的、易出错的任务,以访问和验证各种账单。例如,为了访问账单,可需要购买者访问供应商网络门户。来自每个供应商的每个网络门户可以是独特的和复杂的。另外,每个网络门户可以不同的、独特的格式提供账单信息。由此,购买者必须识别导航每个独特网站的正确方式,并且单独验证必要的账单和文档被下载。然后,购买者必须根据他们自己的记录验证下载的账单和文档。
另外,在至少一些实施中,需要将账单上传到网络门户并验证账单条目。例如,可需要账单供应商根据相关的采购订单上传和校验账单。账单供应商可进一步需要在处理账单之前解决账单和采购订单之间的任何差异。
进一步地,在至少一种实施例中,可将用户可限制到短时间窗口,在该时间窗口期间可以上传账单。例如,账单供应商可仅具有两小时窗口来输入所有当天账单。未能输入信息可导致持续积压到第二天,或者导致无法及时收款。
因此,在现有技术中存在许多可以解决的缺点。
发明内容
本发明的实施例包括被配置为从网络门户智能地抓取数据并且然后验证该数据的系统、方法和装置。具体地,本发明的实施例包括一个或多个用于执行收集数据的网页专用脚本的方法和系统。网页专用脚本可提供用于从不同源收集大量数据的高效手段。附加实施可提供用于完成网络表单,上传信息和校验信息的动态系统。另外,本发明的实施例可以显著地减少人为造成的错误并且在校验大量数据时提供显著的时间节省。
本发明的实施例可包括服务器计算机系统,服务器计算机系统针对第二数据集智能地加载和验证非一致格式的数据。具体地,服务器可被配置为执行用于访问和比较非一致存储的数据集的计算机化的方法。该方法可包括在一个或多个数据结构内识别感兴趣的专用数据条目。一个或多个数据结构可存储在第一本地可访问数据库内。该方法还可包括访问特定的第三方网络门户。特定的第三方网络门户可包括与一个或多个数据结构相关联的信息。
另外,该方法可包括执行对于特定的第三方网络门户独特的特定的脚本。特定的脚本可被配置为通过模仿来自用户输入设备的输入来与特定的第三方网络门户交互。另外,脚本可自动地适应与特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。
进一步地,该方法可包括将从一个或多个非一致的能用的数据字段接收的第一数据集与第二数据集进行比较。第二数据集可存储在第二本地可访问数据库内。该方法还可包括基于所比较的数据生成报告。报告可包括第一数据集和第二数据集之间的差异的通知。
本发明的附加实施可包括用于解析来自各种独特的非一致第三方网络门户的非一致呈现的数据的服务器计算机系统。计算机服务器系统可包括本地数据库设备,本地数据库设备包括到一个或多个第三方网络门户的地址。服务器计算机系统还可包括被配置为自动访问一个或多个第三方网络门户的网络通信设备。
另外,服务器计算机系统可包括脚本处理器,脚本处理器被配置自动执行用于由网络通信设备访问的一个或多个第三方网络门户中的每个的网络门户专用脚本。网络门户专用脚本中的每个可被配置为通过模仿来自用户输入设备的输入与一个或多个第三方网络门户中的每个进行交互。另外,网络门户专用脚本可被配置为自动地适应与一个或多个第三方网络门户中的每个的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。
进一步地,服务器计算机系统可包括数据库处理器,数据库处理器被配置为将从一个或多个非一致的能用的数据字段接收的第一数据集与存储在本地数据库设备内的第二数据集进行比较。更进一步地,计算机服务器系统可包括被配置为基于所比较的数据显示报告的用户输出设备。该报告包括第一数据集和第二数据集之间的差异的通知。
本发明的示例性实施的附加特征和优点将在下面的描述中进行阐述,并且将部分地从描述中显而易见,或者可以通过此类示例性实施的实践来学习。此类实施的特征和优点可借助于在所附权利要求中特别指出的工具和组合来实现和获得。这些和其他特征将从以下描述和所附权利要求中变得更加显而易见,或者可通过如下所述的示例性实施的实践来学习。
附图说明
为了描述可以获得本发明的上述和其他优点和特征的方式,将通过参考在附图中示出的本发明的具体实施例来呈现上面简要描述的本发明的更具体的描述。应当理解,这些附图仅描绘了本发明的典型实施例,并且因此不应被认为是对其范围的限制,将通过使用附图以附加的特征和细节来描述和解释本发明,其中:
图1示出根据本发明的实施例的系统的示意图;
图2示出根据本发明的实施例的网页的描述;
图3示出根据本发明的实施例的网页的另一描述;
图4示出根据本发明的实施例的网页的又一描述;
图5示出根据本发明的实施例的数据库处理器的示意图;以及
图6示出根据本发明的实施例的方法的流程图。
具体实施方式
本发明扩展到被配置为智能地从网络门户抓取数据并且然后验证该数据的系统,方法和装置。具体地,本发明的实施例包括执行用于收集数据的网页专用脚本的一个或多个方法和系统。网页专用脚本可以提供用于从不同源收集大量数据的高效手段。附加实施可以提供用于完成网络表单,上传信息和校验信息的动态系统。另外,本发明的实施例可以在校验大量数据时显著地减少人为造成的错误。
因此,本发明的实施例提供了用于优化计算机性能同时最小化人为引入的空气(human-introduced air)的系统和方法。具体地,本发明的实施例可以跨越各种不同的平台访问非一致存储的数据。然后可以针对第二数据源校验收集的数据。
随着越来越多的社会、经济、商业、技术和其他活动转向数字环境,能够在各种可用平台之间准确地关联数据变得越来越重要。例如,组织可与各种不同的公司进行交易。每个公司可以提供它自己独特的网络门户以管理其与外部组织的关系。在至少一种实施例中,可需要访问每个相应的独特网络门户并从每个独特网络门户收集非一致存储的数据。
应当理解从若干不同的独特网络门户正确地识别和收集非一致存储的数据的重大技术挑战。类似地,应当理解在手动执行这些任务中的巨大成本和人为错误的可能性。另外,应当理解,在至少一种实施例中,使用自动化和技术实施的系统和方法来访问非一致存储的数据可以提供益处并且执行人类用户不能复制的功能。
例如,图1描绘了通过网络120与各种网络服务器110通信的服务器计算机系统100。网络服务器110可包括一个或多个单独的和不同的网络服务器110a、110b,每个网络服务器对应于相应的第三方网络门户。例如,网络服务器110a可以与特定服务供应商相关联,而网络服务器110b可以与特定制造商相关联。在任何情况下,用户均可需要从两个服务器110a、110b收集数据;然而,数据可以被不同地访问数据并且不同地存储在两个相应的网络门户之间。
因此,本发明的实施例包括服务器计算机系统100,其可以通过网络连接120与一个或多个不同的网络服务器110通信。另外,服务器计算机系统100可以包括如本文所述的各种模块和组件,各种模块和组件被配置为跨越独特的网络门户访问数据,并根据本地可访问的数据集校验数据。然而,应当理解,本文描述的模块和组件仅仅是为了清楚地解释的目的。在各种其他实施中,模块和组件可以以其他方式组织、组合、划分和命名。
服务器计算机系统100可以包括与网络120通信的网络通信设备102。在各种实施中,网络通信设备102可包括光纤适配器、以太网适配器、无线适配器、调制解调器、路由器或任何其他类似的网络设备。网络通信设备102可以与脚本处理器104通信。
在至少一种实施例中,脚本处理器104可以被配置为执行由用户在服务器计算机系统100中确定的各种脚本和其他软件。在各种实施中,脚本处理器104可以包括通用处理单元、专用处理单元、微控制器、FPGA、分立集成电路、虚拟处理器或一些其他处理设备或组件。脚本处理器104还可以包括各种软件组件,诸如编译器、编码器、打包器、汇编器或一些其他类似的软件组件。
另外,在至少一种实施例中,脚本处理器104还与数据库处理器106和脚本创建模块108通信。在至少一种实施例中,数据库处理器106可以包括与脚本处理器104相同的处理器,不同的处理单元,在与包含脚本处理器104的计算机分离的计算机上的处理单元或一些其他处理单元。类似地,脚本创建模块108还可以包括与脚本处理器104相同的处理器,或者它可以包括不同的处理单元或计算机组件。
在各种实施中,服务器计算机系统100还可与本地数据库设备130和用户计算机140通信。本地数据库设备130以包括存储在存储设备上的数据结构,诸如硬盘驱动器,RAM或其他存储设备。用户计算机140可包括服务器计算机系统100正在其中执行的相同计算机、外部计算设备、移动计算设备、平板计算机计算设备、工作站、服务器或任何其他计算设备。
在至少一种实施例中,服务器计算机系统100的各种模块可访问和下载来自各种网络服务器110的非一致存储的数据,并且根据存储在本地数据库设备130中的相应数据来校验该信息。具体地,服务器计算机系统100可以自动适应于跨越各种不同的网络门户访问非一致存储的数据。例如,由于大量的潜在网络服务器110和对应的大量独特网页和网络门户配置,在至少一种实施例中,服务器计算机系统100可包括用于每个期望网络门户的独特脚本。具体地,脚本处理器104可自动加载与网络通信设备102尝试联系的网络门户对应的适当脚本。每个独特脚本可包括用于网络通信设备102的指令以与相应网络服务器110通信。例如,一个或多个网络服务器110可需要用户名和密码以便访问感兴趣的数据。类似地,每个网络门户可包括需要专用导航指令以便访问期望信息的独特结构。
因此,在至少一种实施例中,可以针对指导服务器计算机系统100收集期望信息的每个单独网页和网络门户创建脚本。在至少一种实施例中,脚本创建模块108向用户提供适当的工具来创建脚本。例如,脚本创建模块108可提供记录功能。使用记录功能,用户计算机140上的用户可访问期望的网络门户、导航网络门户,并识别网络门户内的感兴趣的专用项目。感兴趣的专用项目可包括非一致存储的数据、按钮、访问数据所需的动作,以及访问数据所需的字段。
一旦用户完成创建脚本,脚本创建模块108就可向脚本处理器104提供脚本。然后,脚本处理器104可将脚本存储在本地数据库设备130中。在将来,每当访问脚本与其相关联玩的网络门户时,脚本处理器104可基于先前记录的用户交互自动访问脚本、执行脚本并导航网页。
另外,在至少一种实施例中,多个不同的脚本可与特定门户网站相关联。脚本处理器104不仅可以基于被访问的专用网络门户,而且还基于在网络门户内所搜索的数据来选择特定的脚本以与网络门户一起执行。例如,第一客户端可能需要特殊脚本以从网络门户访问感兴趣的数据,而第二客户端可期望来自网络门户的不同信息或附加信息。由此,第一客户端和第二客户端可具有用于相同网络门户的不同脚本。当访问网络门户时,脚本处理器104可首先确定正在访问什么客户端数据,并且然后基于该确定执行正确的脚本。
一旦已经从网络服务器110接收到必要的数据122,数据库处理器106就可将其与从本地数据库设备130接收的第二数据集132进行比较。例如,这两个数据集可包括与账单库存相对发货库存相关的信息。因此,数据库处理器106可快速并容易地识别两个数据集之间的差异。
现在转到网络门户的示例,图2描绘了用于专用网络门户的网页200。网络门户可由网络服务器110a托管。如图所描绘,网页200包括一系列按钮210、212、214,用户名字段220,密码字段230,验证码框240,验证码用户字段242和提交按钮250。在至少一种实施例中,当第一次到达网页200时,用户必须生成脚本以指示应如何导航网页。例如,用户可激活脚本创建模块108内的记录功能,并记录随网页的实时移动。在至少一种实施例中,可需要用户在输入其用户名和密码之前激活按钮210。由此,在记录模式内,脚本创建模块108可将鼠标跨越屏幕的移动记录到按钮210,并且然后将鼠标点击记录在按钮210上。
另外,脚本创建模块108可识别将鼠标移动到用户名字段220的用户以及在该字段内的用户名的条目。类似地,脚本创建模块108可记录移动到密码字段230的鼠标并输入用户密码。在至少一种实施例中,在记录模式内,用户可将用户名和密码指定为特殊对象。一旦被指定为特殊对象,脚本创建模块108就可确定脚本不应仅重复用户输入的确切用户名和密码,而应寻找个案专用的用户名和密码。例如,服务器计算机系统100可具有访问相同网页200的多个用户。每个用户可具有独特的用户名和密码。因此,在实施中的至少一个中,脚本可被配置为基于谁在请求数据而来自动输入准确的用户名和密码。
类似地,在记录模式内的至少一种实施中,用户可将验证码短语240指定为特殊对象。当将项目指定为特殊对象时,用户可指定它是什么类型的特殊对象。例如,用户名、密码、验证码短语、按钮或其他类似的基于网页的特征。相反,在至少一个应用中,脚本创建模块108自动地识别特殊对象和对象的类型两者。
例如,在至少一种实施例中,光学字符辨识模块(未示出)可以针对图像内的任何文本扫描网页。然后,光学字符辨识模块可识别文本并将其发送到脚本创建模块108。脚本创建模块108可分析接收的文本和其他可用的网页文本,以自动识别网页内的各种特殊元素。然后,脚本创建模块108可将所识别的特殊元素映射到本地数据库设备130内的特定的数据字段。
例如,光学字符辨识模块可识别包括词语“密码”的图像标题。图像标题可与文本字段直接相邻。基于该信息,脚本创建模块108可创建将相邻文本字段与密码特殊元素相关联的脚本。因此,当在将来执行脚本时,脚本处理器104可用适当的密码自动填充文本字段。
另外,在至少一种实施例中,脚本创建模块108可识别特定字段包括安全参数。例如,特定字段可被配置为接收文本,但显示对应的圆圈字符而不是实际接收的文本。使用该信息,脚本创建模块可能够更明确地识别密码字段。具体地,在一些情况下,密码字段和用户名字段彼此靠近。识别一个字段包括安全参数(如密码字段中常见的那样),而另一字段不包括安全参数(如用户名字段中常见的那样)的能力可允许脚本创建模块108区分密码字段和用户名字段。
另外,用户可将验证码用户字段242与验证码短语240相关联。因此,脚本处理器104可激活特殊对象捕捉240上的光学字符辨识模块、识别短语,并在捕捉用户字段242内输入短语。在至少一种实施例中,如果光学字符辨识模块不能识别具有足够高可信率的验证码短语,则脚本处理器104可自动请求另一个验证码短语或者可请求用户干预。相反,在至少一种实施例中,脚本处理器104可分析验证码的底层代码并且识别正确的响应方式。
应当理解,存在网页可包括不同于本文所述那些的各种不同的格式和配置。然而,在至少一种实施例中,由于脚本创建模块108,所以服务器计算机系统100可自动且无人为错误地访问几乎任何网页200。由此,可以一致的、快速的并且不易出错的方式从各种不同的网络门户收集数据。
图3描绘包括非一致存储的数据集350的网页300。数据集350包括数据条目列310、第一数据字段列312、第二数据字段列314和第三数据字段列316。另外,网页300包括向上滚动按钮332、向下滚动按钮336和滚动位置指示符334内的滚动条330。图3中描绘的各种数据条目310,数据字段312、314、316和数据元素320仅出于清楚和解释的目的提供。应当理解,非一致存储的数据可以各种不同的形式和时间提供,并且仍然落在本发明的范围内。
在至少一种实施例中,在访问图3的非一致存储的数据350时,整个数据集350可在本地存储器内可用,即使它不是全部同时被描绘在网页内。例如,即使数据中的一些需要被滚动以便可见,但整个数据集可在浏览器的本地存储器内可用。在此情况下,脚本处理器104可直接从网络通信设备102收集感兴趣的数据,而不需要与非一致存储的数据350的进行附加交互。
相反,在至少一种实施例中,在访问图3的非一致存储的数据350时,记录模式内的用户可指示非一致存储的数据350包括目标信息。在识别目标信息时,脚本创建模块108可确定所有目标信息当前是否在网络通信设备102的本地存储器中,或者是否需要与网页进一步交互以访问整个信息集。例如,在至少一种实施例中,仅在网页300上显示的数据才可在存储器内可用。由此,在使用记录模式时,用户可指示滚动条330的存在。相反,在至少一种实施例中,脚本创建模块108可自动地识别滚动条330的存在。在另选实施中,脚本创建模块108可以自动分析网页,并且基于源代码确定所有可用数据是否均在存储器内,并且如果不是,则确定用于检索信息的必要步骤。
一旦脚本创建模块108已经识别出需要与网页300交互以访问所有数据,则脚本创建模块108可创建网页专用脚本。网页专用脚本可被配置为解析当前显示在网页300上的数据,并且然后与网页300交互以改进显示数据。例如,脚本可生成用户输入信号,如同由鼠标或键盘生成,并且使下滚动按钮336被按下。当数据结构350滚动时,脚本可继续解析来自网页的新的可见数据条目,直到已经解析所有数据条目。
在至少一种实施例中,脚本可使用各种不同的逻辑功能进行配置。例如,脚本可被配置为指导脚本处理器104识别滚动指示符334在滚动条330上的相对存在。使用该相对位置,脚本可被配置为指导脚本处理器104确定其是否有必要向上滚动或向下滚动以便访问附加数据条目320。相反,脚本可被配置为指导脚本处理器104自动激活向上滚动按钮332,然后确定新的数据条目是否可用。如果无新的数据条目可用,则脚本可进一步被配置为指导脚本处理器104激活向下滚动按钮336,并且然后解析任何新的可用数据条目。脚本可被配置为指导脚本处理器104继续激活向下滚动按钮336,并解析新的可用数据条目320,直到无新的数据条目出现。
因此,在至少一种实施例中,可生成单个网页专用脚本以从网页300解析目标数据,即使数据350具有不确定的长度和可见性。例如,在至少一种实施例中,即使图3的网页300仍然能够显示可滚动数据,但可不需要用于滚动功能的足够数量的数据。相反,在至少一种实施例中,可需要显著的滚动以访问所有数据。在这两种情况下,执行网页专用脚本的脚本处理器104可正确地识别必要的动作以收集所有目标数据。
另外,在本发明的至少一种实施中,服务器计算机系统100可用于将数据上传到网络门户中。例如,如上所述,在记录模式内的用户可与如上所述的网页交互。然而,在这种情况下,用户可演示用于将数据上传到网页中的方法。本领域技术人员将理解可如何将以上公开应用于生成被配置为将数据自动上传到感兴趣的网络门户的自动脚本。
在至少一种实施例中,一旦已经创建脚本,就可将脚本激活以自动地上传存储在本地数据库设备130中的数据。例如,特定用户可具有存储在本地数据库设备内的一个或多个账单。在至少一种实施例中,每个账单与不同的目标网站相关联。可以生成自动识别每个账单与之相关联的专用网页的特定的脚本。例如,脚本可以被配置为访问将每个账单与相应网页相关联的数据文件。相反,在至少一种实施例中,脚本可被配置为基于相关联的信息自动识别网页。
一旦识别适当的网页或多个网页,脚本处理器104就可执行与每个网页相关联的适当的脚本。然后,脚本处理器104可如相应脚本所指导的那样上传数据。具体地,脚本可指导脚本处理器移动鼠标、执行按键,以及执行其他常见的用户界面功能,使得看起来用户正在输入数据。
图4描绘包括非一致存储的数据450的网页400的另一实施。具体地地,非一致存储的数据450包括与图3相同的数据条目310和数据字段312、314、316。出于清楚的目的提供相似性,但在实际使用中可以不是这种情况。
图4的非一致存储数据450包括与存储在图3的非一致存储数据350内的相同数据不同的结构。另外,图4的网页400不包括滚动条,而是包括页面按钮410、412、420、422。类似地,对于图3的脚本创建,在至少一种实施例中,使用记录功能,用户可指示页面按钮410、412、420、422包括特殊对象。
另外,在至少一种实施例中,脚本创建模块108可自动确定特殊对象410、412、420、422用于改进数据结构450。相反,在至少一种实施例中,使用记录功能,用户可向脚本创建模块108演示页面按钮410、412、420、422使得非一致存储的数据改进页面。
在至少一种实施例中,在将页面按钮410、412、420、422指定为特殊对象时,用户必须进一步向脚本创建模块108指定每个对象的功能。例如,脚本创建模块108可提供用户可与每个特殊对象相关联的预定功能的菜单。例如,菜单选项可用于“页面改进按钮”。用户可将页面按钮420指定为特殊对象,并且然后在菜单内将页面按钮420指定为“页面改进按钮”。
因此,在至少一种实施例中,脚本处理器104可执行网页专用脚本并且自动确定是否有必要与图4的网页400交互,以便访问所有目标数据。具体地,脚本处理器104可在图4的网页400上执行相同的网页专用脚本,而不管非一致存储的数据集450内存在的数据。例如,在第一种情况下,非一致存储的数据集450可包括用于第一客户端的大量数据,而在第二种情况下,非一致存储的数据集450可包括用于第二客户端的少于单页的数据。
因此,本发明的实施例提供特定网页脚本和用于创建该脚本的方法。该网页的特定的脚本可用于被指导朝向专用网页300、400的许多不同数据请求。由此,可实现高的效率水平并且可实现显著减少的人为引入的错误。
图5描绘数据库处理器106的示意图,数据库处理器106使用存储在本地数据库设备130中的数据校验从网络服务器110接收的非一致存储的数据350、450。在该示例中,从网络服务器接收的非一致存储的数据350、450与图3和图4中所描绘的数据一致。然而,从本地数据库设备130接收的数据132与非一致存储的数据350、450不完全一致。由此,数据库处理器106可生成包括差异的指示的报告500。
在至少一种实施例中,该报告可包括向用户指示未被校验的专用条目的通知指示符540。例如,条目1和条目2均不存在于从网络服务器110接收的非一致存储的数据350、450中。另外,与数据条目4相关联的数据元素在数据集132、350、450之间不一致。具体地,非一致存储数据350、450指示条目4应与红色和omega相关联。相反,本地存储的数据集132的数据条目指示条目4应与绿色和theta相关联。进一步地,数据条目5包括gamma和omega之间的不一致。在各种实施中,该信息可以在用户计算机140上以打印输出或以某些其他形式显示给用户。
由此,本发明的实施例提供了用于有效地访问网页内的非一致存储数据并且用于在收集和校验该数据时减少人为错误的方法和系统。基于以上公开,应当理解,本发明既是高度适应性的又是高度可扩展的。例如,在至少一种实施例中,图1的服务器计算机系统100可以用于批量处理大量不同的数据请求。
例如,在至少一种实施例中,客户端可对于验证具有若干个不同第三方的一系列账单感兴趣。服务器计算机系统100的用户可简单地加载包含感兴趣的账单的列表的数据文件以及将感兴趣的账单与各个第三方网络门户相关联的数据。一旦加载了目标信息,用户就可简单地执行服务器计算机系统100。
服务器计算机系统100可自动将账单和第三方信息与专用服务器110和伴随的网页相关联。例如,网络通信设备102可访问与以上接收的第三方中的一个相关联的特定第三方网页。然后,网络通信设备102可在第三方网络门户内进行导航。
具体地,脚本处理器104可执行与第三方网络门户相关联的网页专用脚本。网页专用脚本可识别与客户端相关联的正确的用户名和密码,可输入用户名和密码,并开始收集数据且如上所述导航网页。一旦已经从网页收集期望的数据,网络通信设备102就可访问与以上输入的数据相关联的下一个第三方网络门户。然后,该过程可继续,直到已经收集所有网络门户和所有感兴趣的账单数据。
一旦已经收集所有感兴趣的数据,数据库处理器106就可根据客户端的本地提供的信息来校验每个个体和相应的账单。由此,在至少一种实施例中,不同的网页专用脚本可彼此串联使用,以访问一组不同的第三方网页并从它们中的每个收集数据。另外,在至少一种实施例中,相同的网页专用脚本可被多个不同的客户端使用以搜索不同的数据集。
因此,本发明的实施例为本技术领域提供了若干独特和新颖的益处。具体地,本发明的实施例提供了创建网页专用脚本的技术方法,网页专用脚本稍后可用于导航各种独特的网页并且收集非一致的可用数据。另外,本发明的实施例在大规模数据处理方法和系统内提供效率方面的益处并减少人为引入的误差。
因此,图1至图5和对应的文本示出或以其他方式描述了存储在存储介质上的一个或多个方法、系统和/或指令,用于根据第二数据集智能地加载和验证以非一致格式可用的数据。应当认识到,还可以按照包括用于实现特定结果的一个或多个动作的方法来描述本发明的实施例。例如,图6和对应的文本示出了一系列动作和用于根据第二数据集加载和验证以非一致格式存储的数据的方法的流程图。以下参考图1至5所示的组件和模块来描述图6的动作。
例如,图6示出用于智能地加载和验证以非一致格式存储的数据的方法的实施的流程图。该方法可包括识别感兴趣的数据条目的动作600。动作600可包括在一个或多个数据结构内识别感兴趣的专用数据条目。一个或多个数据结构可存储在第一本地可访问的数据库内。例如,图1描绘了可包括本地存储的信息的本地数据库设备130。本地存储的信息可包括客户专用的用户名和密码,客户专用的感兴趣的账单,客户专用的感兴趣的第三方门户以及其他类似的客户专用的信息。在至少一种实施例中,服务器计算机系统100可访问存储在本地数据库设备130内的信息,并使用该信息来收集数据。
图6还示出该方法可包括访问第三方网络门户的动作610。动作610可包括访问第三方网络门户,第三方网络门户包括与一个或多个数据结构相关联的信息。例如,图1描绘了网络通信设备102。网络通信设备102可访问多个网络服务器110和所识别的感兴趣的第三方网络门户。
另外,图6示出该方法可包括执行特定的脚本的动作620。动作620可包括执行对于特定的第三方网络门户独特的特定的脚本。例如,图1描绘了可用于创建网页专用脚本的脚本创建模块108。一旦访问了特定网页,脚本处理器104就可执行先前创建的网页专用脚本。
图6还示出该方法可包括模仿用户输入的动作630。动作630可包括通过模仿来自用户输入设备的输入与特定的第三方网络门户交互。例如,脚本创建模块108可记录用户与网页的交互。记录的交互可包括鼠标移动,键盘按压和其他类似的用户交互。脚本创建模块108可在网页专用脚本内对这些交互进行编码。稍后,在访问专用网页时,脚本处理器104可执行脚本,使得脚本处理器104模仿先前记录的用户交互。
另外,图6示出该方法可包括适配与网络门户交互的动作640。动作640可包括自动地适应与特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。如,图3和图4描绘了以不同的、非一致方式可用的等效数据集。在至少一种实施例中,脚本处理器104可通过识别特殊对象来自动适应与网页300、400的交互。具体地,图3包括控制网页300内的滚动字段的特殊对象332、334、336。在至少一种实施例中,脚本处理器104可自动地适应于根据需要使滚动条330滚动,以访问所有数据。
进一步地,图6示出该方法可包括对数据集进行比较的动作650。动作650可包括将从一个或多个非一致的能用的数据字段接收的第一数据集与存储在第二本地可访问数据库内的第二数据集进行比较。例如,图5描绘了等效于图3和图4的非一致存储数据的第一数据集300。数据库处理器106可将第一数据集300与本地可访问数据集132进行比较。在至少一种实施例中,本地可访问数据集132存储在本地数据库设备130(不同的本地存储设备)内,或者以其他方式通过网络连接在本地可用。
更进一步地,图6示出该方法可包括生成报告的动作660。动作660可包括基于比较的数据生成报告。报告可包括第一数据集和第二数据集之间的不一致的通知。例如,图5描绘了校验和比较第一数据集300和本地存储的数据集132的信息的报告500。如上所述,生成的报告500包括两个数据集之间的差异的指示。
虽然已经用结构特征和/或方法动作专用的语言描述了本主题,但是应当理解,所附权利要求中定义的主题不一定限于以上描述的特征或动作,或者以上描述的行为的顺序。相反,所描述的特征和动作作为实施权利要求的示例形式被公开。
本发明的实施例可包括或利用包括计算机硬件诸如例如一个或多个处理器和系统存储器的专用或通用计算机系统,如以下更详细讨论的。在本发明范围内的实施例还包括物理和其他计算机可读介质,用于携带或存储计算机可执行指令和/或数据结构。此计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令和/或数据结构的计算机可读介质为计算机存储介质。携带计算机可执行指令和/或数据结构的计算机可读介质为传输介质。因此,以示例的方式而非限制的方法,本发明的实施例可包括至少两种明显不同种类的计算机可读介质:计算机存储介质和传输介质。
计算机可读介质为存储计算机可执行指令和/或数据机构的物理存储介质。物理存储介质包括计算机硬件,诸如RAM、ROM、EEPROM、固态驱动器(“SSD”)、闪存、相变存储器(“PCM”)、光盘存储器、磁盘存储器或其他磁存储设备,或者可用于以计算机可执行指令或数据结构的形式存储程序代码的任何其他硬件存储设备,其可由通用或专用计算机系统访问和执行以实施所公开的功能。
传输介质可包括网络和/或数据链路,网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的程序代码,并且可以由通用或专用计算机系统访问。“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线的,无线的或者硬连线或无线的组合)向计算机系统传送或提供信息时,计算机系统可将连接视为传输介质。上述的组合也应包括在计算机可读介质的范围内。
进一步地,在到达各种计算机系统组件时,呈计算机可执行指令或数据结构形式的程序代码可从传输介质自动传输到计算机存储介质(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可缓存在网络接口模块(例如,“NIC”)内的RAM中,并且然后最终传送到计算机系统RAM和/或计算机系统处的少易失性计算机存储介质。因此,应当理解,计算机存储介质可被包括在也(或甚至主要地)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如指令和数据,当在一个或多个处理器上执行时,所述指令和数据使通用计算机系统、专用计算机系统或专用处理设备执行某些功能或功能组。计算机可执行指令可以为例如二进制、中间格式指令诸如汇编语言,或甚至源代码。
本领域技术人员将认识到,本发明可在具有许多类型的计算机系统配置的网络计算环境中实行,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换器等。本发明还可在分布式系统环境中实行,其中通过网络链接(通过硬连线数据链路、无线数据链路,或通过硬连线和无线数据链路的组合)的本地和远程计算机系统均执行任务。由此,在分布式系统环境中,计算机系统可包括多个组成计算机系统。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备中。
本领域技术人员还将认识到,本发明可在云计算环境中实行。云计算环境可以为分布式的,但这不是必需的。当为分布式时,云计算环境可被国际化地分布在组织内并且/或者具有跨越多个组织所拥有的组件。在本说明书和所附权利要求中,“云计算”被定义为能够使按需网络访问可配置的计算资源(例如,网络、服务器、存储、应用和服务)的共享池的模型。“云计算”的定义不限于在正确部署时可从此模型获得的其他众多优点中的任何一个。
云计算模型可由各种特性组成,诸如按需自助服务、广泛的网络访问、资源池、快速弹性、测量服务等。云计算模型还可以呈各种服务模型的形式,诸如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。云计算模型还可使用不同部署模型诸如私有云、社区云、公共云、混合云等来部署。
一些实施例诸如云计算环境可包括系统,系统包括各自能够运行一个或多个虚拟机的一个或多个主机。在操作期间,虚拟机模拟操作的计算系统,支持操作系统并且可能还支持一个或多个其他应用。在一些实施例中,每个主机包括管理程序,管理程序使用从虚拟机的视图中提取的物理资源模拟用于虚拟机的虚拟资源。管理程序还在虚拟机之间提供正确的隔离。因此,从任何给定虚拟机的角度来看,管理程序提供虚拟机正与物理资源进行接口连接的假象,即使虚拟机仅与物理资源的外观(例如,虚拟资源)进行接口连接。物理资源的示例包括处理容量、存储器、磁盘空间、网络带宽、介质驱动器等。
在不脱离本发明的精神或本质特性的情况下,本发明可以其他具体形式体现。所描述的实施例在所有方面均被认为仅是说明性的而非限制性的。因此,本发明的范围由所附权利要求而非前述描述来指示。在权利要求的等效的含义和范围内的所有改变均将包括在权利要求的范围内。

Claims (20)

1.一种计算机化的方法,用于在服务器计算机系统处访问和比较非一致存储的数据集,所述服务器计算机系统针对第二数据集智能地加载和验证处于非一致格式的数据,所述方法包括:
在一个或多个数据结构内识别感兴趣的专用数据条目,其中所述一个或多个数据结构存储在第一本地能访问的数据库内;
访问特定的第三方网络门户,其中所述特定的第三方网络门户包括与所述一个或多个数据结构相关联的信息;
执行对所述特定的第三方网络门户独特的特定的脚本,其中所述特定的脚本执行以下方法:
通过模仿来自用户输入设备的输入来与所述特定的第三方网络门户交互;以及
自动适应与所述特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素;
将从所述一个或多个非一致的能用的数据字段接收的第一数据集与存储在第二本地能访问的数据库内的所述第二数据集进行比较;以及
基于所比较的数据生成报告,其中所述报告包括所述第一数据集和所述第二数据集之间的差异的通知。
2.根据权利要求1所述的方法,其中,基于与所述一个或多个数据结构相关联的信息,从一组第三方网络门户选择所述特定的第三方网络门户。
3.根据权利要求2所述的方法,进一步包括:
使用第一本地存储的数据文件访问所述第二数据集,其中所述第二数据集包括一个或多个账单;
识别所述第一数据集内的数据条目和相关联的数据元素;
确定所述数据元素中的一个或多个不同于所述第二数据集内的对应数据条目的数据元素;以及
生成识别不同的数据元素的报告。
4.根据权利要求1所述的方法,进一步包括:
接收比较用于特定客户端的记录的指示;
在数据存储器内访问所述感兴趣的专用数据条目,其中所述感兴趣的专用数据条目包括与所述特定客户端相关联的一个或多个第三方网络门户;
自动访问所述一个或多个第三方网络门户中的每个;以及
在所述一个或多个第三方网络门户中的每个上自动执行对于每个相应的第三方网络门户独特的脚本。
5.根据权利要求1所述的方法,其中创建所述脚本包括:
激活所述系统内的记录特征,其中所述记录特征捕捉用户和所述系统之间的一个或多个输入和输出信号;
捕捉和记录从用户鼠标和用户键盘接收的输入信号,其中所述输入信号包括一个或多个第三方网络门户地址;
捕捉和记录从与所述一个或多个第三方网络门户地址相关联的一个或多个第三方网络门户接收的输出信号,其中所述输出信号包括响应于所述输入信号显示的一个或多个网页;
识别与相应输入信号相关联的一个或多个输出信号;以及
识别所述一个或多个非一致的能用的数据字段。
6.根据权利要求5所述的方法,进一步包括:
从用户接收关于网页内的特定的元素的指示,其中所述元素与非一致的能用的数据字段相关联;以及
将所述特定的元素映射到所述第二数据集内的特定的数据字段。
7.根据权利要求6所述的方法,其中执行所述脚本包括:
根据所捕捉和记录的输入信号自动生成移动所述用户鼠标的命令;以及
在使一个或多个命令待发出之后等待,直到接收到对应的输出信号,其中所述对应的输出信号与先前捕捉和记录的输出信号对应。
8.根据权利要求7所述的方法,进一步包括:
识别所述网页内的所述特定的元素;
解析来自与所述网页中的所述特定的元素位置性关联的数据字段的一个或多个数据元素;
访问所述第二数据集内的所述特定的数据字段;以及
识别所解析的一个或多个数据元素与来自所述特定的数据字段的数据元素之间的差异。
9.根据权利要求8所述的方法,其中,
解析一个或多个数据元素包括解析在所述网页上不可见但存在于本地存储器内的一个或多个数据元素。
10.根据权利要求8所述的方法,进一步包括:
识别来自与所述网页中在所述网页上不可见并且不存在于本地存储器内的所述特定的元素位置性关联的数据字段的一个或多个元素;
通过识别数据字段改进元素来自动适应与所述特定的第三方网络门户的交互,其中所述数据字段改进元素包括在所述数据字段内显示附加元素的命令;
通过模仿一个或多个用户输入来激活所述数据字段改进元素;以及
解析先前在网页上不可见但由于所述数据字段的改进现在可见的一个或多个数据元素。
11.一种服务器计算机系统,用于从各种独特的非一致第三方网络门户解析非一致呈现的数据,所述系统包括:
本地数据库设备,包括一个或多个数据结构,所述一个或多个数据结构包括到一个或多个第三方网络门户的地址;
网络通信设备,包括网络浏览器,其中所述网络浏览器被配置为自动访问所述一个或多个第三方网络门户;
脚本处理器,被配置为自动执行用于由所述网络通信设备访问的所述一个或多个第三方网络门户中的每个的网络门户专用脚本,其中所述网络门户专用脚本中的每个被配置为:
通过模仿来自用户输入设备的输入与所述一个或多个第三方网络门户中的每个进行交互;以及
自动地适应与所述一个或多个第三方网络门户中的每个的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素;
数据库处理器,被配置为将从所述一个或多个非一致的能用的数据字段接收的第一数据集与存储在所述本地数据库设备内的第二数据集进行比较;以及
用户输出设备,被配置为基于所比较的数据显示报告,其中所述报告包括所述第一数据集和所述第二数据集之间的差异的通知。
12.根据权利要求11所述的服务器计算机系统,进一步包括脚本创建模块,其中所述脚本创建模块被配置为:
捕捉和记录从用户鼠标和用户键盘接收的输入信号,其中所述输入信号包括一个或多个第三方网络门户地址;
捕捉和记录从与所述一个或多个第三方网络门户地址相关联的一个或多个第三方网络门户接收的输出信号,其中所述输出信号包括响应于所述输入信号显示的一个或多个网页元素;
识别与相应输入信号相关联的一个或多个输出信号;以及
识别所述一个或多个非一致的能用的数据字段。
13.根据权利要求12所述的服务器计算机系统,其中所述脚本创建模块进一步被配置为:
从用户接收关于网页内的特定的元素的指示,其中所述元素与非一致的能用的数据字段相关联;以及
将所述特定的元素映射到所述第二数据集内的特定的数据字段。
14.根据权利要求13所述的服务器计算机系统,其中所述脚本处理器进一步被配置为:
根据所捕捉和记录的输入信号自动生成移动鼠标的命令;以及
在使一个或多个命令待发出之后等待,直到接收到对应的输出信号,其中所述对应的输出信号与先前捕捉和记录的输出信号对应。
15.根据权利要求14所述的服务器计算机系统,其中所述脚本处理器进一步被配置为:
识别所述网页内的所述特定的元素;
解析来自与所述网页中的所述特定的元素位置性关联的数据字段的一个或多个数据元素;
访问所述第二数据集内的所述特定的数据字段;以及
识别所解析的一个或多个数据元素与来自所述特定的数据字段的数据元素之间的差异。
16.根据权利要求15所述的服务器计算机系统,其中所述脚本处理器进一步被配置为:
识别来自与所述网页中在所述网页上不可见并且不存在于本地存储器内的所述特定的元素位置性关联的数据字段的一个或多个元素;
通过识别数据字段改进元素来自动适应与特定的第三方网络门户的交互,其中所述数据字段改进元素包括在所述数据字段内显示附加元素的命令;
通过模仿一个或多个用户输入来激活所述数据字段改进元素;以及
解析先前在网页上不可见但由于所述数据字段的改进现在可见的一个或多个数据元素。
17.根据权利要求11所述的服务器计算机系统,进一步包括一旦访问相关联的网页就由所述脚本处理器执行的一个或多个手动编码的网络门户专用脚本。
18.根据权利要求11所述的服务器计算机系统,进一步包括:
光学字符辨识模块,被配置为辨识网页上的一个或多个图像内的文本,其中所述脚本处理器能将来自所辨识的文本的信息合并到一个或多个脚本中。
19.根据权利要求18所述的服务器计算机系统,其中,
所述辨识的文本包括与所述一个或多个非一致的能用的数据字段有关的信息。
20.一种用于在计算机系统处使用的计算机程序产品,所述计算机程序产品包括其上存储有计算机能执行的指令的一个或多个计算机存储介质,所述计算机能执行的指令在处理器处执行时使所述计算机系统执行访问和比较非一致存储的数据集的方法,所述计算机程序产品包括:
在一个或多个数据结构内识别感兴趣的专用数据条目,其中所述一个或多个数据结构存储在第一本地能访问的数据库内;
访问特定的第三方网络门户,其中所述特定的第三方网络门户包括与所述一个或多个数据结构相关联的信息;
执行对所述特定的第三方网络门户独特的特定的脚本,其中所述特定的脚本执行以下方法:
通过模仿来自用户输入设备的输入来与所述特定的第三方网络门户交互;以及
自动适应与所述特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素;
将从所述一个或多个非一致的能用的数据字段接收的第一数据集与存储在第二本地能访问的数据库内的第二数据集进行比较;以及
基于所比较的数据生成报告,其中所述报告包括所述第一数据集和所述第二数据集之间的差异的通知。
CN201580046949.8A 2015-02-11 2015-04-27 计算机化的方法、服务器计算机系统和存储介质 Active CN106796597B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/619,751 US10489377B2 (en) 2015-02-11 2015-02-11 Automated intelligent data scraping and verification
US14/619,751 2015-02-11
PCT/MX2015/000069 WO2016129984A1 (es) 2015-02-11 2015-04-27 Extracción y verificación de datos inteligente y automatizada

Publications (2)

Publication Number Publication Date
CN106796597A true CN106796597A (zh) 2017-05-31
CN106796597B CN106796597B (zh) 2020-12-22

Family

ID=53396258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580046949.8A Active CN106796597B (zh) 2015-02-11 2015-04-27 计算机化的方法、服务器计算机系统和存储介质

Country Status (11)

Country Link
US (2) US10489377B2 (zh)
EP (1) EP3057040A1 (zh)
JP (1) JP6603866B2 (zh)
CN (1) CN106796597B (zh)
AR (1) AR103669A1 (zh)
AU (1) AU2015381978B2 (zh)
BR (1) BR112015015647B1 (zh)
CA (1) CA2944601C (zh)
MX (1) MX366930B (zh)
RU (1) RU2699400C2 (zh)
WO (1) WO2016129984A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113396411A (zh) * 2019-01-11 2021-09-14 甲骨文国际公司 用于增强的主机分类的系统和方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489377B2 (en) 2015-02-11 2019-11-26 Best Collect, S.A. De C.V. Automated intelligent data scraping and verification
EP3271837A4 (en) * 2015-03-17 2018-08-01 VM-Robot, Inc. Web browsing robot system and method
US11570188B2 (en) * 2015-12-28 2023-01-31 Sixgill Ltd. Dark web monitoring, analysis and alert system and method
US10776838B2 (en) * 2016-03-01 2020-09-15 Mx Technologies, Inc. Item level data aggregation
US10984003B2 (en) * 2017-09-16 2021-04-20 Fujitsu Limited Report generation for a digital task
CN108334619A (zh) * 2018-02-07 2018-07-27 政采云有限公司 一种数据采集方法、装置、计算设备及存储介质
KR101982085B1 (ko) * 2018-04-25 2019-05-27 주식회사쿠콘 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램
US10810020B2 (en) * 2018-10-18 2020-10-20 EMC IP Holding Company LLC Configuring a device using an automated manual process bridge
US10719573B2 (en) 2018-10-31 2020-07-21 Flinks Technology Inc. Systems and methods for retrieving web data
KR102475305B1 (ko) * 2019-10-16 2022-12-12 카페24 주식회사 이종 플랫폼 간의 자동 연동 방법, 장치 및 시스템
KR102396110B1 (ko) * 2019-10-16 2022-05-19 카페24 주식회사 이종 쇼핑몰 간의 연동 방법
WO2022220311A1 (ko) * 2021-04-12 2022-10-20 카페24 주식회사 이종 플랫폼 간의 자동 연동 방법, 장치 및 시스템
US20230244502A1 (en) * 2022-02-03 2023-08-03 Capital One Services, Llc Executing automated browsing sessions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316534A (ja) * 2004-04-27 2005-11-10 A Line Kk 電子商取引システム
JP2006048144A (ja) * 2004-07-30 2006-02-16 Tenik Kk 自動巡回装置,クライアント端末および自動巡回方法
CN101454764A (zh) * 2006-04-25 2009-06-10 奥姆尼图雷有限公司 独立ActionScript分析工具和技术
WO2011157901A1 (en) * 2010-06-17 2011-12-22 Itella Oyj Method and system in a communication network for contacting suppliers
US20130136253A1 (en) * 2011-11-28 2013-05-30 Hadas Liberman Ben-Ami System and method for tracking web interactions with real time analytics
US20130346302A1 (en) * 2012-06-20 2013-12-26 Visa International Service Association Remote Portal Bill Payment Platform Apparatuses, Methods and Systems

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083068A1 (en) 2000-10-30 2002-06-27 Quass Dallan W. Method and apparatus for filling out electronic forms
US20060200754A1 (en) 2001-10-24 2006-09-07 Infosnap Systems and methods for storing personal information, automatically filling out forms, and sharing information with a data recipient
US7561734B1 (en) 2002-03-02 2009-07-14 Science Applications International Corporation Machine learning of document templates for data extraction
US7343551B1 (en) 2002-11-27 2008-03-11 Adobe Systems Incorporated Autocompleting form fields based on previously entered values
US7761787B2 (en) 2002-12-02 2010-07-20 Siemens Medical Solutions Usa, Inc. Document generation system and user interface for producing a user desired document
US7660779B2 (en) 2004-05-12 2010-02-09 Microsoft Corporation Intelligent autofill
US8032823B2 (en) 2005-04-15 2011-10-04 Carnegie Mellon University Intent-based information processing and updates
EP1777629A1 (en) 2005-10-19 2007-04-25 NTT DoCoMo, Inc. Method and apparatus for automatic form filling
US9430455B2 (en) 2005-12-15 2016-08-30 Simpliance, Inc. Methods and systems for intelligent form-filling and electronic document generation
US9069745B2 (en) 2007-01-16 2015-06-30 Ebay, Inc. Electronic form automation
US7941740B2 (en) * 2007-07-10 2011-05-10 Yahoo! Inc. Automatically fetching web content with user assistance
US8214362B1 (en) 2007-09-07 2012-07-03 Google Inc. Intelligent identification of form field elements
US8713029B2 (en) 2007-11-05 2014-04-29 Verizon Patent And Licensing Inc. Method and apparatus for providing auto-completion of information
KR20100106333A (ko) 2007-12-10 2010-10-01 인터내셔널 비지네스 머신즈 코포레이션 데이터를 웹 페이지에 입력하는 방법 및 시스템
US20100205529A1 (en) * 2009-02-09 2010-08-12 Emma Noya Butin Device, system, and method for creating interactive guidance with execution of operations
US9569231B2 (en) * 2009-02-09 2017-02-14 Kryon Systems Ltd. Device, system, and method for providing interactive guidance with execution of operations
CN102667761B (zh) * 2009-06-19 2015-05-27 布雷克公司 可扩展的集群数据库
WO2011097593A1 (en) 2010-02-05 2011-08-11 Medversant Technologies, Llc System and method for visually mapping and automatically completing electronic forms
US8713168B2 (en) 2010-09-22 2014-04-29 The Nielsen Company (Us), Llc Methods and apparatus to determine impressions using distributed demographic information
US20120191619A1 (en) * 2011-01-20 2012-07-26 John Nicholas Gross System & Method For Locating & Assessing Intellectual Property Assets
JP2013011999A (ja) * 2011-06-28 2013-01-17 Yahoo Japan Corp トピック変化検出装置及び方法
JP5764080B2 (ja) * 2012-03-02 2015-08-12 株式会社栗本鐵工所 Web検索システムおよびWeb検索方法
US9639597B2 (en) 2012-10-30 2017-05-02 FHOOSH, Inc. Collecting and classifying user information into dynamically-updated user profiles
US9836775B2 (en) * 2013-05-24 2017-12-05 Ficstar Software, Inc. System and method for synchronized web scraping
US9741059B1 (en) * 2014-05-23 2017-08-22 Intuit Inc. System and method for managing website scripts
US10489377B2 (en) * 2015-02-11 2019-11-26 Best Collect, S.A. De C.V. Automated intelligent data scraping and verification
WO2017062678A1 (en) * 2015-10-07 2017-04-13 Impossible Ventures, LLC Automated extraction of data from web pages
US10984003B2 (en) * 2017-09-16 2021-04-20 Fujitsu Limited Report generation for a digital task

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316534A (ja) * 2004-04-27 2005-11-10 A Line Kk 電子商取引システム
JP2006048144A (ja) * 2004-07-30 2006-02-16 Tenik Kk 自動巡回装置,クライアント端末および自動巡回方法
CN101454764A (zh) * 2006-04-25 2009-06-10 奥姆尼图雷有限公司 独立ActionScript分析工具和技术
WO2011157901A1 (en) * 2010-06-17 2011-12-22 Itella Oyj Method and system in a communication network for contacting suppliers
US20130136253A1 (en) * 2011-11-28 2013-05-30 Hadas Liberman Ben-Ami System and method for tracking web interactions with real time analytics
US20130346302A1 (en) * 2012-06-20 2013-12-26 Visa International Service Association Remote Portal Bill Payment Platform Apparatuses, Methods and Systems

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: ""Using Python and Selenium to scrape an infinitely scrolling table"", 《HTTPS://PAULHOGANREID.WORDPRESS.COM/2015/01/19/USING-PYTHON-AND-SELENIUM-TO-SCRAPE-AN-INFINITELY-SCROLLING-TABLE》 *
FOTIOS KOKKORAS: ""DEiXTo"", 《PROCEEDINGS OF THE 6TH BALKAN CONFERENCE IN INFORMATICS ON,BCI》 *
JULIANO PALMIERI LAGE: ""Automatic generation of agents for collecting hidden Web pages for data extraction"", 《DATA&KNOWLEDGE ENGINEERING》 *
RAVEE BELLUR: ""Extract and Verify the text from image using Selenium WebDriver| Automation Ace"", 《HTTP://WWW.AUTOMATIONACE.COM/2014094/EXTRACT-AND-VERIFY-TEXT-FROM-IMAGES-USING-SELENIUM-WEBDRIVER.HTML》 *
RYAN MITCHELL: "《Instant Web Scraping with Java》", 1 August 2013 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113396411A (zh) * 2019-01-11 2021-09-14 甲骨文国际公司 用于增强的主机分类的系统和方法

Also Published As

Publication number Publication date
BR112015015647A8 (pt) 2022-08-09
RU2699400C2 (ru) 2019-09-05
RU2016139156A3 (zh) 2018-10-22
AU2015381978B2 (en) 2021-02-04
MX2015007187A (es) 2017-03-14
US20200057759A1 (en) 2020-02-20
AR103669A1 (es) 2017-05-24
CN106796597B (zh) 2020-12-22
JP6603866B2 (ja) 2019-11-13
RU2016139156A (ru) 2018-04-25
US10489377B2 (en) 2019-11-26
MX366930B (es) 2019-07-31
BR112015015647B1 (pt) 2023-01-24
EP3057040A1 (en) 2016-08-17
CA2944601C (en) 2022-10-18
AU2015381978A1 (en) 2016-11-03
US11188519B2 (en) 2021-11-30
CA2944601A1 (en) 2016-08-18
WO2016129984A1 (es) 2016-08-18
JP2018513426A (ja) 2018-05-24
BR112015015647A2 (pt) 2017-07-11
US20160232194A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
CN106796597A (zh) 自动化智能数据抓取和验证
CN105849691B (zh) 用于代码虚拟化和远程进程调用生成的方法和装置
CN105765527B (zh) 用于定制的软件开发包(sdk)的方法和装置
CN103914510B (zh) 数字式检查列表
CN109857667A (zh) 接口自动化测试方法、测试装置、测试设备及存储介质
CN107908566A (zh) 自动化测试管理方法、装置、终端设备及存储介质
CN110377522A (zh) 交易场景的测试方法、装置、计算设备以及介质
CN108604317A (zh) 可扩展性持有装置
CN110033285A (zh) 房源信息发布方法、装置、设备及计算机可读存储介质
CN108268635A (zh) 用于获取数据的方法和装置
CN109902251A (zh) 基于决策树的方案选择方法、装置、终端及可读存储介质
CN104471530B (zh) 可执行软件规程生成
Ahmed et al. Improvement of Vehicle Management System (IVMS)
CN106411881A (zh) 基于客户端进行购票的方法及装置
CN109213782A (zh) 搜索界面的配置、显示方法、装置及通信设备
US9547943B2 (en) Framework and method for creating virtual model of three-dimensional space
CN107430590A (zh) 数据比较
CN110569416A (zh) 基于数据爬取的app控件的处理方法及相关产品
Ana et al. Design and implementation of online examination administration system for universities
CN111556993A (zh) 电子产品测试系统和方法
CN109582560A (zh) 测试文件编辑方法、装置、设备及计算机可读存储介质
CN114968741A (zh) 一种基于场景平台化的性能测试方法、系统、设备和介质
CN117422429B (zh) 一种基于互联网的研发机构协同服务平台
CN115334064B (zh) 一种配置系统的生成方法及装置
KR102491508B1 (ko) 복지 용구 사무자동화 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant