CN114896483A - 一种数据采集方法、系统和存储介质 - Google Patents

一种数据采集方法、系统和存储介质 Download PDF

Info

Publication number
CN114896483A
CN114896483A CN202210458666.6A CN202210458666A CN114896483A CN 114896483 A CN114896483 A CN 114896483A CN 202210458666 A CN202210458666 A CN 202210458666A CN 114896483 A CN114896483 A CN 114896483A
Authority
CN
China
Prior art keywords
interface
target
information
client
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210458666.6A
Other languages
English (en)
Inventor
张成文
翟佩文
莫闻政
陈灿
王林波
李袁
刘振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL Digital Technology Co Ltd
Original Assignee
Shenzhen TCL Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL Digital Technology Co Ltd filed Critical Shenzhen TCL Digital Technology Co Ltd
Priority to CN202210458666.6A priority Critical patent/CN114896483A/zh
Publication of CN114896483A publication Critical patent/CN114896483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种数据采集方法、系统和存储介质;本申请实施例可以登录客户端,获取客户端的至少一个候选界面;当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;对所述目标界面进行目标信息的检测:若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。由此,本方案可以提升数据采集的成功率。

Description

一种数据采集方法、系统和存储介质
技术领域
本申请涉及数据采集领域,具体涉及一种数据采集方法、系统和存储介质。
背景技术
数据采集是指利用多个数据库来接收发自客户端(万维网或手机软件)的数据,并且可以通过这些数据库进行简单的查询和处理工作的过程。进行数据采集时,可以通过网络爬虫进行数据的抓取,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
然而,现有的客户端在登陆后都具有一定的反爬措施,因此,使得用户在进行数据采集时成功率较低,无法直接获取到期望的数据,不能满足用户的需求。
发明内容
本申请实施例提供一种数据采集方法、装置和存储介质,可以提升数据采集的成功率,从而获取到期望的数据,满足用户的需求。
本申请实施例提供一种数据采集方法,包括:
登录客户端,获取客户端的至少一个候选界面;
当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;
从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;
对目标界面进行目标信息的检测:
若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;
若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
在一些实施例中,当客户端为网站客户端,登录客户端的方法包括:
确定客户端,以及客户端的登录界面;
向客户端的登录界面输入待登录的用户信息,获取客户端反馈的验证界面;
确定验证界面上的验证信息,判断验证信息的类型:
当验证信息为二维码信息时,对登录界面展示的二维码信息进行截图处理,得到二维码图像;
对二维码图像进行扫码登录处理,登录客户端;
当验证信息为登录认证请求时,确定与用户信息绑定的常用终端;
获取常用终端接收到的验证码信息,其中,验证码信息为用于认证登录认证请求的信息;
向客户端的验证界面输入验证码信息,登录客户端。
在一些实施例中,从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型的方法包括:
将候选界面与预设的目标比对界面进行匹配比对处理;
当候选界面与目标比对界面匹配时,确定候选界面为目标界面。
在一些实施例中,对目标界面进行目标信息的检测的方法包括:
对目标界面进行文字提取处理,获得目标界面的文本信息;
将目标界面的文本信息与设定的目标信息进行文本相似度匹配
若目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则目标界面中存在目标信息;
若目标界面的文本信息中不存在文本相似度高于预设阈值的文本字段,则目标界面中不存在目标信息。
在一些实施例中,对目标界面进行文字提取处理,获得目标界面的文本信息的方法包括:
对目标界面进行截图处理,得到目标界面的界面图像;
识别界面图像中的字符,得到界面图像的字符信息;
根据界面图像的字符信息,确定目标界面的文本信息。
在一些实施例中,当障碍窗口为展示窗口时,对展示窗口进行关闭处理的方法包括:
对展示窗口进行定位处理,确定展示窗口在候选界面中的位置;
根据展示窗口在候选界面中的位置,对展示窗口上的关闭按钮进行检测,确定关闭按钮在展示窗口上的位置;
根据关闭按钮在展示窗口上的位置,点击关闭按钮,关闭展示窗口。
在一些实施例中,当障碍窗口为验证窗口时,对验证窗口进行关闭处理的方法包括:
对验证窗口进行验证码的类别检测,确定障碍窗口的验证码类别,其中,障碍窗口的验证码类别包括滑块验证码、图形验证码和文本验证码;
根据障碍窗口的验证码类别,确定障碍窗口的关闭方式;
根据障碍窗口的关闭方式,对障碍窗口进行关闭处理。
本申请实施例还提供一种数据采集系统,包括:
获取单元,用于登录客户端,获取客户端的至少一个候选界面;
关闭处理单元,用于当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;
确定单元,用于从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;
检测单元,用于对目标界面进行目标信息的检测:
若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;
若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
在一些实施例中,数据采集系统还包括多进程并发单元,多进程并发单元用于:
获取待分配目标的状态信息,状态信息用于表征分配目标的使用状态,待分配目标包括获取单元、关闭处理单元、确定单元和检测单元;
根据待分配目标的状态信息,确定待分配目标对应的采集任务;
向待分配目标发送数据采集指令,以使待分配目标根据数据采集指令执行采集任务。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的任一种数据采集方法中的步骤。
本申请实施例可以登录客户端,获取客户端的至少一个候选界面;当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;对目标界面进行目标信息的检测:若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
在本申请中,数据采集系统可以在用户授权进行数据采集的情况下,登录客户端进行数据采集,在从客户端的候选界面中确定目标界面,并从目标界面中确定目标信息,从而进行数据采集,其中,当候选界面上存在有障碍窗口时,可以对障碍窗口进行关闭处理,从而避免受到障碍窗口的影响,提高对数据采集的效率以及成功率,从而获取到期望的数据,满足用户的需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的数据采集方法的场景示意图;
图1b是本申请实施例提供的数据采集方法的流程示意图;
图2是本申请实施例提供的数据采集方法应用在服务器场景中的示意图;
图3是本申请实施例提供的数据采集系统的第一种结构示意图;
图4是本申请实施例提供的数据采集系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据采集方法、系统和存储介质。
其中,该数据采集系统具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该数据采集系统还可以集成在多个电子设备中,比如,数据采集系统可以集成在多个服务器中,由多个服务器来实现本申请的数据采集方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该电子设备可以是服务器,服务器中集成有数据采集系统,本申请实施例中的服务器用于登录客户端,获取客户端的至少一个候选界面;当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;对目标界面进行目标信息的检测:若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本实施例中,提供了一种数据采集方法,如图1b示,该数据采集方法的具体流程可以如下:
110、登录客户端,获取客户端的至少一个候选界面。
客户端(Client)或称为用户端,是指与服务器相对应,为客户提供本地服务的程序。在一些实施例中,客户端可以包含网页或者app(应用程序,Application),例如手机APP。
登录客户端是指进入到某一项网页或应用程序的进行访问的过程。在本申请实施例中,用户可以通过手动操作的方式进行客户端的登录操作,从而进行数据的采集,也可以在获取到用户的登录授权和数据采集授权后,自动输入用户的登录信息登录客户端,进行数据的采集。
候选界面是指登录客户端后,客户端所能够展示的界面。例如,在一些实施例中,当客户端为手机购物软件时,候选界面可以包括登录手机购物软件后的商品选择界面、个人账号信息界面或购物车界面等。其中,候选界面的数量可以根据手机软件的不同设置有多个。例如,当客户端为应用软件A时,候选界面的数量可以是5个;当客户端为应用软件B时,候选界面的数量可以设置为5个,也可以设置为10个,本申请对此不做限定。获取客户端的至少一个候选界面是指将登录客户端后截取用于展示不同信息的界面。例如,在一些实施例中,当客户端为手机购物软件时,候选界面包括登录手机购物软件后的商品选择界面、个人账号信息界面和购物车界面时,获取客户端的至少一个候选界面可以为对商品选择界面、个人账号信息界面和购物车界面分别进行截取。
可选地,在一些实施例中,登录客户端的方法包括:
获取任务指令。
任务指令是指用户下达的进行数据采集的指令,在一些实施例中,任务指令中可以包括多个字段。
对任务指令进行解析处理,确定任务指令的任务类型;根据任务指令的任务类型,确定执行任务指令的客户端。
解析处理是指确定任务指令中的任务类型,在一些实施例中,任务指令中可以包括用于表征任务类型的字段,任务类型包括网页数据采集任务和app数据采集任务,通过对字段的识别,确定任务指令的任务类型和客户端的名称。
其中,当任务类型为网页数据采集任务时,所对应的客户端为网站客户端,所对应的客户端为具有目标信息的网页;当任务类型为app数据采集任务时,所对应的客户端为app客户端,所对应的客户端为具有目标信息的目标app。
向客户端输入待登录的用户信息,登录客户端。
用户信息是指用户登录客户端的账号和密码,用户信息可以通过手动的方式输入,也可以自动输入,当自动输入用户信息时,用户信息可以预先进行存储。在输入用户信息后,登录进入到客户端内。
其中,在一些实施例中,当客户端为网站客户端,登录客户端的方法包括:
确定客户端,以及客户端的登录界面。
登录界面是指用于登录的界面,用户可以在登录界面内输入用户信息,从而登录客户端。在一些实施例中,确定客户端后,可以通过向客户端发送登录请求来获取客户端的登录界面。
向客户端的登录界面输入待登录的用户信息,获取客户端反馈的验证界面。
验证界面是指在首次登录后,或每次登录均需要验证时,在输入用户信息后,客户端发送用于显示验证是否为客户登录的验证信息的界面。其中,在一些实施例中,验证信息包括二维码信息,短信验证码信息。确定验证界面上的验证信息,判断验证信息的类型:
当验证信息为二维码信息时,对验证界面展示的二维码信息进行截图处理,得到二维码图像;
对二维码图像进行扫码登录处理,登录客户端。
二维码信息为在输入用户信息后,客户端反馈的验证信息,二维码信息可以以图像的形式展示。在获取到二维码信息后,可以对二维码信息进行截图处理,得到二维码图像。
其中,截图处理是指将二维码信息进行截图,从而得到带有二维码的二维码图像。在一些实施例中,截图获取二维码图像的方法可以包括:先对验证界面进行扫描,确定验证界面中是否存在二维码信息,当存在二维码信息后,对验证界面进行扫描截图,从而得到二维码图像,得到的二维码图像通过有线数据传输或无线数据传输的方式发送至登录有用户信息的手机,并进行扫码登录。
其中,扫码登录处理是指将二维码图像发送至手机,通过控制手机中对应的程序,从而对二维码图像进行扫描,从而登录客户端。
当验证信息为登录认证请求时,确定与用户信息绑定的常用终端;
获取常用终端接收到的验证码信息,其中,验证码信息为用于认证登录认证请求的信息;
向客户端的验证界面输入验证码信息,登录客户端。在一些实施例中,登录认证请求可以包括短信验证码,在获取短信验证码后确定与用户信息绑定的常用终端,其中,常用终端可以包括带有短信接收功能的手机或电子设备,且常用终端是指与用户信息绑定的终端,例如,常用终端为绑定有用户手机信息的手机或其他电子设备。
获取常用终端接收到的验证码信息的方法可以包括通过手机应用Androidstudio或QPython来获取手机内的验证码信息的内容。并将获取到的验证码信息的内容进行文本识别,确定其中与登录认证请求相匹配的信息,从而将与登录认证请求相匹配的信息输入至验证界面,登录客户端。
120、当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理。
障碍窗口是指在进行候选界面的浏览或者截取时,候选界面上所出现的用于展示广告或者验证码的窗口。其中,障碍窗口可以出现在登录客户端后、进行访问客户端的任意时间内。
对障碍窗口进行关闭处理是指将障碍窗口进行关闭,使得正在浏览或者数据采集时的候选界面能够正常的使用。
在一些实施例中,障碍窗口包括展示窗口和验证窗口,其中,
当障碍窗口为展示窗口时,对展示窗口进行关闭处理的方法包括:
对展示窗口进行定位处理,确定展示窗口在候选界面中的位置;
展示窗口是指用于展示广告等信息的窗口页面。
定位处理是指确定展示窗口在候选界面中的位置,其中,在一些实施例中,可以通过目标检测算法确定出展示窗口在候选界面中的位置,即可以通过对出现展示窗口的候选界面进行图像分类,确定出展示窗口的位置。
根据展示窗口在候选界面中的位置,对展示窗口上的关闭按钮进行检测,确定关闭按钮在展示窗口上的位置。
关闭按钮是指展示窗口上用于关闭展示窗口的按钮,其中,在一些实施例中,关闭按钮的图像形状可以通过预先存储的方式进行保存,然后对展示窗口进行图像检测,确定展示窗口上与关闭按钮的图像相匹配的图像位置。例如,在一些实施例中,关闭按钮可以以“×”的图像形式展现,在进行位置检测时,可以通过图片比对的方式确定关闭按钮上“×”的图像的位置,从而确定出关闭按钮在展示窗口上的位置。
根据关闭按钮在展示窗口上的位置,点击关闭按钮,关闭展示窗口。
点击关闭按钮可以通过控制电脑上的鼠标点击关闭按钮,从而进行展示窗口的关闭。
当障碍窗口为验证窗口时,对验证窗口进行关闭处理的方法包括:
对验证窗口进行验证码的类别检测,确定障碍窗口的验证码类别,其中,障碍窗口的验证码类别包括滑块验证码、图形验证码和文本验证码。
根据障碍窗口的验证码类别,确定障碍窗口的关闭方式;
根据障碍窗口的关闭方式,对障碍窗口进行关闭处理。
验证码的类别包括:滑块验证码、图形验证码和文本验证码,验证码的类别可以通过图像检测的方式进行确定。其中:
当验证窗口的验证码为滑块验证码时,判断滑块验证码是否属于缺口滑块或轨迹验证滑块。若为缺口滑块,则定位缺口位置。对于缺口滑块或轨迹验证滑块,均定位滑动起点,调用滑动轨迹算法模拟人手滑动滑块,从而通过验证。
当验证窗口的验证码为图形验证码时,通过图像识别定位符合要求的图像位置,并确定图像的坐标系,通过确定图像中待点击目标的坐标位置,对待点击目标进行点击,从而通过验证。
当验证窗口的验证码为文本验证码时,先进行图像预处理,例如,将文本图像转换为灰度图,然后再通过OCR(Optical Character Recognition,光学字符识别)算法识别文本,通过验证。
例如,在本申请实施例中,可以通过python进行截图、文本信息获取、上划、下拉、左右滑动、点击、键入文本、回退等操作。
130、从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型。
目标界面是指可能存在目标信息的候选界面,例如,在一些实施例中,客户端为手机购物软件时,候选界面可以为登录手机购物软件后,用于展示不同信息的界面,按照界面类型可以分为商品选择界面、个人账号信息界面、购物车界面,当要获取购物车内的目标信息时,则预设类型界面为购物车界面,从商品选择界面、个人账号信息界面、购物车界面中所确定的目标界面为购物车界面。
其中,在一些实施例中,从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型的方法包括:
将候选界面与预设的目标比对界面进行匹配比对处理;
当候选界面与目标比对界面匹配时,确定候选界面为目标界面。
目标比对界面是指可能包含有目标信息的比对界面,目标比对界面的类型为与存在目标信息的界面的类型相同,相同界面的之间图像内的相似度较高,通过匹配比对处理的方式,可以确定出为预设类型的目标界面。例如,在一些实施例中,候选界面为登录手机购物软件后的商品选择界面、个人账号信息界面、购物车界面,当数据采集的任务为获取目标商品的目标信息时,目标比对界面即为预先设定的商品选择界面,将商品选择界面、个人账号信息界面、购物车界面分别与预先设定的商品选择界面进行比对,确定出界面相似度较高的商品选择界面。
其中,在一些实施例中,在进行匹配比对处理的方法可以包括:对候选界面和目标比对界面进行截图处理,得到候选界面图像和目标比对界面图像;对候选界面图像和目标比对界面图像进行比对或进行相同元素的识别,从而确定出相似度较高的候选界面图像,进而确定出目标比对界面。
140、对目标界面进行目标信息的检测:若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
目标信息为所要获取的用于表征目标数据的信息。目标信息可以为某一个或者多个商品信息,也可以为某一个或者多个用户信息或用户发表的某一条或者多条动态信息。
对目标界面进行目标信息的检测是指通过图像比对或者文字比对的方式,确定目标界面内是否存在目标信息。
第一数据采集处理可以为通过图像识别或文字识别进行数据采集处理的方法。
第二数据采集处理可以为通过图像识别或文字识别进行数据采集处理的方法。
其中,当目标界面中不存在目标信息时,则对整个目标界面上的数据信息进行提取和存储处理,得到目标界面的数据。
当目标界面中存在目标信息时,则对目标界面上目标信息处的数据进行提取和存储处理,得到目标信息的数据。
其中,在一些实施例中,对目标界面进行目标信息的检测的方法包括:
对目标界面进行文字提取处理,获得目标界面的文本信息。
文字提取处理是指对目标界面中的文字进行提取,当目标界面中的文字为数据文本时,可以直接对数据文本进行复制提取,获得目标界面的文本信息;当目标界面中的文字为图像时,可以对目标信息进行截图,然后通过OCR(Optical Character Recognition,光学字符识别)算法识别文本后,进行文本的提取,获得目标界面的文本信息。
将目标界面的文本信息与设定的目标信息进行文本相似度匹配:
若目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则目标界面中存在目标信息;
若目标界面的文本信息中不存在文本相似度高于预设阈值的文本字段,则目标界面中不存在目标信息。
文本相似度匹配是指将目标信息与文本信息中的文本内容依次进行文本相似度匹配,确定匹配得到的匹配度(即相似度)。
其中,在一些实施例中,匹配度为0~1之间的概率,当完全不匹配时,匹配度为0,当完全匹配时,匹配度为1,其余情况下,匹配度分布于0到1之间。
在本申请实施例中,在确定出匹配度高于预设阈值的文本后,可以认定匹配度最高的文本为目标信息的文本。例如,目标信息与文本信息中的文本内容依次进行文本相似度匹配所得到的所有高于预设阈值0.5的匹配度分别为0.55,0.68,0.77,0.84,0.6,0.54,则匹配度为0.84的文本被选中被记作目标信息的文本。在确定出目标信息后,可以将目标信息的文本用作锚点信息来定位,或有用信息进行采集。
下面结合一具体应用场景对本发明实施例中参数设计方法进行描述。
请参阅图2,为本发明实施例中数据采集方法应用在实验场景中的施例流程示意图,该数据采集方法应用于服务器,该数据采集方法包括:
210、获取任务指令;
220、对任务指令进行解析处理,确定任务指令的任务类型;根据任务指令的任务类型,确定执行任务指令的客户端。
任务类型包括对网页数据的提取和对app数据的提取,当任务类型为网页数据的提取时,客户端为网站客户端,当任务类型为app数据的提取时,客户端为app客户端。
230、登录客户端。
当客户端为网站客户端时,登录网站客户端的方法可以为通过python(计算机编程语言)程序调度selenium(WEB自动化工具)工具,随机指定用户目录端口号,并告知浏览器,由selenium调度浏览器接入用户目录,进行用户登录操作,使网站弹出登录二维码,对二维码进行截图处理,得到二维码图像,将二维码图像发送给手机,通过手机控制系统控制手机打开已经登录的、与网站对应的app,在app内调度扫码功能,并等待接收二维码截图,在接收到二维码截图后进行扫码,扫码后在app端确认登录,从而完成网站客户端的登录。
当客户端为app客户端时,登录app客户端的方法可以为向app客户端输入用户信息登录app客户端或根据历史登录记录直接登录app客户端。
240、获取客户端的至少一个候选界面,并从至少一个候选界面中确定目标界面。
通过对客户端进行截图,从而获取客户端的各个候选界面的截图,并对页面进行解析处理,基于图像识别算法对候选界面的截图进行识别验证,核对该候选界面的截图是否为目标界面,若为目标界面,则进行下一步骤,否则对目标界面进行判断,识别是哪种界面,进行回退或其他操作重新定位到候选界面中。
250、当候选界面上存在有展示窗口时,对展示窗口进行关闭处理。
当候选界面上存在有展示窗口时,可以通过目标检测算法,识别展示窗口,并确定展示窗口上的关闭按钮,点击展示窗口上的关闭按钮,对展示窗口进行关闭处理。
260、对目标界面进行目标信息的检测,若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
对目标界面进行目标信息的检测是指通过目标检测算法对页面元素进行识别,其中,可以采用YOLO-V5进行目标检测,可以采用DenseNet-121深度神经网络进行图像识别功能。当目标界面中存在目标信息时,定位到目标信息数据所在位置,从而对该位置的目标信息数据进行提取,若目标信息数据为加密数据,例如,仅以图片展示,无法获取数据文本等信息时,则对该位置的目标信息截图,进行OCR识别,提取文字。当目标界面中不存在目标信息时,则直接提取保存。
其中,在进行第一数据采集处理或第二数据采集处理时,对目标界面进行验证窗口检测:当目标界面上存在验证窗口时,对验证窗口进行关闭处理,当目标界面上不存在验证窗口时,对目标界面进行第一数据采集处理或对目标信息进行第二数据采集处理。
其中,可以通过图像识别算法判断页面是否弹出滑块验证码。可以通过图像识别算法判断页面是否弹出图形验证码。可以通过图像识别算法判断页面是否弹出文本验证码。
为了更好地实施以上方法,本申请实施例还提供一种数据采集系统,该数据采集系统具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以数据采集系统具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该数据采集系统可以包括:
获取单元301,用于登录客户端,获取客户端的至少一个候选界面;
关闭处理单元302,用于当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;
确定单元303,用于从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;
检测单元304,用于对目标界面进行目标信息的检测:
若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;
若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
在本申请一些实施例中,数据采集系统还可以包括多进程并发单元。
多进程并发单元用于:获取待分配目标的状态信息,状态信息用于表征分配目标的使用状态,待分配目标包括获取单元、关闭处理单元、确定单元和检测单元;
根据待分配目标的状态信息,确定待分配目标对应的采集任务;
向待分配目标发送数据采集指令,以使待分配目标根据数据采集指令执行采集任务。
其中,多进程并发单元可以基于Redis远程字典服务和Linux服务器定时任务调度。为满足多进程高并发要求,可以采用master-slave(主-从式)分布式部署,将Redis存储系统部署在远程Linux服务器中。多进程并发单元还可以用于数据监控:通过对mysql(关系型数据库管理系统)等数据库的数据状态查询,可以实现任务监控功能。多进程并发单元还可以用于设备的监测:通过设备运行过程中主动上报自身状态,包括运行状态,运行中或在等待任务调度,执行任务的编号等。同时利用atxserver2(移动设备管理平台)实现远程可视化监控。其中,当出现运行状态异常时可告警通知用户。
多进程并发单元可以通过python并发编程技术,利用异常调试技术保证进程存活。多进程并发单元可以从Redis(Remote Dictionary Server即远程字典服务)中获取任务列表,分别指派给空闲状态的数据采集设备。多进程并发单元可以利用python循环逻辑实现动态等待,各系统做出响应后多进程并发单元立即进行下一步操作,避免了强制时间等待造成的效率降低。
在本申请一些实施例中,当客户端为网站客户端时,获取单元301还用于:
对验证界面展示的二维码信息进行截图处理,得到二维码图像确定客户端,以及客户端的登录界面;
向客户端的登录界面输入待登录的用户信息,获取客户端反馈的验证界面;
确定验证界面上的验证信息,判断验证信息的类型:
当验证信息为二维码信息时,对验证界面展示的二维码信息进行截图处理,得到二维码图像;
对二维码图像进行扫码登录处理,登录客户端。
当验证信息为登录认证请求时,确定与用户信息绑定的常用终端;
获取常用终端接收到的验证码信息,其中,验证码信息为用于认证登录认证请求的信息;
向客户端的验证界面输入验证码信息,登录客户端。
在本申请一些实施例中,确定单元303还用于:
将候选界面与预设的目标比对界面进行匹配比对处理;
当候选界面与目标比对界面匹配时,确定候选界面为目标界面。
在本申请一些实施例中,关闭处理单元302还用于:
当障碍窗口为展示窗口时,对展示窗口进行关闭处理的方法包括:
对展示窗口进行定位处理,确定展示窗口在候选界面中的位置;
根据展示窗口在候选界面中的位置,对展示窗口上的关闭按钮进行检测,确定关闭按钮在展示窗口上的位置;
根据关闭按钮在展示窗口上的位置,点击关闭按钮,关闭展示窗口。
在本申请一些实施例中,关闭处理单元302还用于:
当障碍窗口为验证窗口时,对验证窗口进行关闭处理的方法包括:
对验证窗口进行验证码的类别检测,确定障碍窗口的验证码类别,其中,障碍窗口的验证码类别包括滑块验证码、图形验证码和文本验证码;
根据障碍窗口的验证码类别,确定障碍窗口的关闭方式;
根据障碍窗口的关闭方式,对障碍窗口进行关闭处理。
在本申请一些实施例中,检测单元304还用于:
对目标界面进行文字提取处理,获得目标界面的文本信息;
将目标界面的文本信息与设定的目标信息进行文本相似度匹配;
若目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则目标界面中存在目标信息;
若目标界面的文本信息中不存在文本相似度高于预设阈值的文本字段,则目标界面中不存在目标信息。
在本申请一些实施例中,检测单元304还用于:
对目标界面进行截图处理,得到目标界面的界面图像;
识别界面图像中的字符,得到界面图像的字符信息;
根据界面图像的字符信息,确定目标界面的文本信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的数据采集系统由获取单元301用于登录客户端,获取客户端的至少一个候选界面;关闭处理单元302用于当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;确定单元303用于从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;检测单元304用于对目标界面进行目标信息的检测:若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。由此,本申请实施例可以提升数据采集的效率及成功率。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该数据采集系统还可以集成在多个电子设备中,比如,数据采集系统可以集成在多个服务器中,由多个服务器来实现本申请的数据采集方法。
在本实施例中,将以本实施例的电子设备是数据采集系统为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的数据采集系统的结构示意图,具体来讲:
该数据采集系统可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的数据采集系统结构并不构成对数据采集系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该数据采集系统的控制中心,利用各种接口和线路连接整个数据采集系统的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行数据采集系统的各种功能和处理数据。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据数据采集系统的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
数据采集系统还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该数据采集系统还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该数据采集系统还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,数据采集系统可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,数据采集系统还可以包括显示单元等,在此不再赘述。具体在本实施例中,数据采集系统中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序。
在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种数据采集方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据采集方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的数据采集方面或者数据采集系统方面的各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据采集方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据采集方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据采集方法、系统和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
登录客户端,获取所述客户端的至少一个候选界面;
当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;
从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;
对所述目标界面进行目标信息的检测:
若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;
若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。
2.根据权利要求1所述的数据采集方法,其特征在于,当所述客户端为网站客户端,所述登录客户端的方法包括:
确定所述客户端,以及所述客户端的登录界面;
向所述客户端的登录界面输入待登录的用户信息,获取所述客户端反馈的验证界面;
确定所述验证界面上的验证信息,判断所述验证信息的类型:
当所述验证信息为二维码信息时,对所述登录界面展示的二维码信息进行截图处理,得到二维码图像;
对所述二维码图像进行扫码登录处理,登录所述客户端;
当所述验证信息为登录认证请求时,确定与所述用户信息绑定的常用终端;
获取所述常用终端接收到的验证码信息,其中,所述验证码信息为用于认证所述登录认证请求的信息;
向所述客户端的验证界面输入验证码信息,登录所述客户端。
3.根据权利要求1所述的数据采集方法,其特征在于,所述从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型的方法包括:
将所述候选界面与预设的目标比对界面进行匹配比对处理;
当所述候选界面与所述目标比对界面匹配时,确定所述候选界面为目标界面。
4.根据权利要求1所述的数据采集方法,其特征在于,所述对所述目标界面进行目标信息的检测的方法包括:
对所述目标界面进行文字提取处理,获得所述目标界面的文本信息;
将所述目标界面的文本信息与设定的目标信息进行文本相似度匹配
若所述目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则所述目标界面中存在所述目标信息;
若所述目标界面的文本信息中不存在文本相似度高于预设阈值的文本字段,则所述目标界面中不存在所述目标信息。
5.根据权利要求4所述的数据采集方法,其特征在于,所述对所述目标界面进行文字提取处理,获得所述目标界面的文本信息的方法包括:
对所述目标界面进行截图处理,得到所述目标界面的界面图像;
识别所述界面图像中的字符,得到所述界面图像的字符信息;
根据所述界面图像的字符信息,确定所述目标界面的文本信息。
6.根据权利要求1所述的数据采集方法,其特征在于,当所述障碍窗口为展示窗口时,对所述展示窗口进行关闭处理的方法包括:
对所述展示窗口进行定位处理,确定所述展示窗口在所述候选界面中的位置;
根据所述展示窗口在所述候选界面中的位置,对所述展示窗口上的关闭按钮进行检测,确定所述关闭按钮在所述展示窗口上的位置;
根据所述关闭按钮在所述展示窗口上的位置,点击所述关闭按钮,关闭所述展示窗口。
7.根据权利要求1所述的数据采集方法,其特征在于,当所述障碍窗口为验证窗口时,对所述验证窗口进行关闭处理的方法包括:
对所述验证窗口进行验证码的类别检测,确定所述障碍窗口的验证码类别,其中,所述障碍窗口的验证码类别包括滑块验证码、图形验证码和文本验证码;
根据所述障碍窗口的验证码类别,确定所述障碍窗口的关闭方式;
根据所述障碍窗口的关闭方式,对所述障碍窗口进行关闭处理。
8.一种数据采集系统,其特征在于,包括:
获取单元,用于登录客户端,获取所述客户端的至少一个候选界面;
关闭处理单元,用于当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;
确定单元,用于从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;
检测单元,用于对所述目标界面进行目标信息的检测:
若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;
若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。
9.根据权利要求8所述的数据采集系统,其特征在于,所述数据采集系统还包括多进程并发单元,所述多进程并发单元用于:
获取待分配目标的状态信息,所述状态信息用于表征所述分配目标的使用状态,所述待分配目标包括所述获取单元、所述关闭处理单元、所述确定单元和所述检测单元;
根据所述待分配目标的状态信息,确定所述待分配目标对应的采集任务;
向所述待分配目标发送数据采集指令,以使所述待分配目标根据所述数据采集指令执行所述采集任务。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~7任一项所述的数据采集方法中的步骤。
CN202210458666.6A 2022-04-27 2022-04-27 一种数据采集方法、系统和存储介质 Pending CN114896483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458666.6A CN114896483A (zh) 2022-04-27 2022-04-27 一种数据采集方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210458666.6A CN114896483A (zh) 2022-04-27 2022-04-27 一种数据采集方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN114896483A true CN114896483A (zh) 2022-08-12

Family

ID=82718808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210458666.6A Pending CN114896483A (zh) 2022-04-27 2022-04-27 一种数据采集方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN114896483A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116781771A (zh) * 2023-08-21 2023-09-19 南京粒聚智能科技有限公司 一种使用ocr技术的工位机自动截屏图片解析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116781771A (zh) * 2023-08-21 2023-09-19 南京粒聚智能科技有限公司 一种使用ocr技术的工位机自动截屏图片解析方法
CN116781771B (zh) * 2023-08-21 2023-11-17 南京粒聚智能科技有限公司 一种使用ocr技术的工位机自动截屏图片解析方法

Similar Documents

Publication Publication Date Title
CN105989268A (zh) 一种人机识别的安全访问方法和系统
CN101751535A (zh) 通过应用程序数据访问分类进行的数据损失保护
CN109194689B (zh) 异常行为识别方法、装置、服务器及存储介质
CN112200697B (zh) 远程视频看房方法、装置、设备以及计算机存储介质
CN111586005B (zh) 扫描器扫描行为识别方法及装置
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN103488947A (zh) 即时通信客户端盗号木马程序的识别方法及装置
CN110336791B (zh) 一种断点数据传输方法、装置、设备及计算机存储介质
CN111488501A (zh) 一种基于云平台的电商统计系统
CN114896483A (zh) 一种数据采集方法、系统和存储介质
CN117251228A (zh) 功能管理方法、装置、计算机设备及存储介质
CN110086826B (zh) 信息处理方法
CN116934283A (zh) 一种员工权限配置方法、装置、设备及其存储介质
CN114745558B (zh) 直播监控方法、装置、系统、设备及介质
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
CN115291762A (zh) 业务项目的触发方法及装置、存储介质、计算机设备
CN111786991B (zh) 基于区块链的平台认证登录方法及相关装置
CN115859278B (zh) 软件操作行为审计方法、系统、设备及存储介质
AU2022204469B2 (en) Large pose facial recognition based on 3D facial model
US20230282013A1 (en) Automated key-value pair extraction
RU2792586C1 (ru) Способ и система идентификации пользователя по траектории движения курсора
CN117992966A (zh) 漏洞检测方法、模型训练方法及对应装置
CN117112415A (zh) 基于eda模型的业务流程监测方法及其相关设备
CN115455393A (zh) 用户身份验证方法、装置和服务器
CN116468563A (zh) 理赔事项智能反馈方法、装置、设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination