CN110688555A - 一种基于爬虫的数据源发现和验证系统 - Google Patents

一种基于爬虫的数据源发现和验证系统 Download PDF

Info

Publication number
CN110688555A
CN110688555A CN201910833348.1A CN201910833348A CN110688555A CN 110688555 A CN110688555 A CN 110688555A CN 201910833348 A CN201910833348 A CN 201910833348A CN 110688555 A CN110688555 A CN 110688555A
Authority
CN
China
Prior art keywords
information
data source
data
discovery
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910833348.1A
Other languages
English (en)
Other versions
CN110688555B (zh
Inventor
汤寒林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiangsu Big Data Trading Center Co Ltd
Original Assignee
East China Jiangsu Big Data Trading Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiangsu Big Data Trading Center Co Ltd filed Critical East China Jiangsu Big Data Trading Center Co Ltd
Priority to CN201910833348.1A priority Critical patent/CN110688555B/zh
Publication of CN110688555A publication Critical patent/CN110688555A/zh
Application granted granted Critical
Publication of CN110688555B publication Critical patent/CN110688555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于爬虫的数据源发现和验证系统,属于数据交易领域,包括指令生成模块;多个发现模块,接收数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据相关信息的相应位置生成索引信息;信息获取模块,根据索引信息基于爬虫从至少一个数据源集合中获取存储有可用数据的数据源的属性信息和可用数据;验证模块,根据预存的验证策略对属性信息进行验证操作以判断数据源是否为需求数据源;策略更新模块,远程通信单元用于接收远程终端发送的更新策略并实时动态更新策略存储单元中存储的验证策略。本发明的有益效果:有效提高数据源获取和验证效率。

Description

一种基于爬虫的数据源发现和验证系统
技术领域
本发明涉及数据交易技术领域,尤其涉及一种基于爬虫的数据源发现和验证系统。
背景技术
随着互联网技术的发展,互联网的应用越来越广泛,互联网中网络数据的数据量也越来越大。人们可以通过浏览器在互联网中浏览网络数据,如新闻、视频和小说等。为了方便用户获取更多的网络数据,一些网站经常会从其他网站中爬取网络数据,将爬取到的网络数据设置在本网站中,爬取网络数据的处理通常由爬取服务器来完成。
对于互联网的海量数据源,如何高效的找到目标数据所在的目标数据源,对目标数据源进行验证后获取所需数据源以及所需数据源中的目标数据成为亟待解决的技术问题。
发明内容
针对现有技术中存在的问题,本发明涉及一种基于爬虫的数据源发现和验证系统,能够高效的找到目标数据所在的目标数据源,对目标数据源进行验证后获取所需数据源以及所需数据源中的目标数据。
本发明采用如下技术方案:
一种基于爬虫的数据源发现和验证系统,指令生成模块,用于提供给管理者输入数据源获取指令,并输出所述数据源获取指令;
多个发现模块,连接所述指令生成模块,每个所述发现模块分别关联多个预设的数据源集合,用于接收所述数据源获取指令,根据所述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据所述相关信息的相应位置生成索引信息;
信息获取模块,连接多个所述发现模块,用于获取所述索引信息,根据所述索引信息,并基于爬虫从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的属性信息和所述可用数据;
验证模块,连接所述信息获取模块,用于接收所述属性信息,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源,并在判断结果为是时向所述信息获取模块发送通过信息,在判断结果为否时向所述信息获取模块发送不通过信息;
策略更新模块,连接所述验证模块,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据所述更新策略实时动态更新所述策略存储单元中存储的所述验证策略;
所述信息获取模块接收通过信息后向所述管理者输出所述数据源的所述属性信息和所述可用数据,所述信息获取模块接收所述不通过信息后删除存储的所述数据源的所述属性信息和所述可用数据。
优选的,每个所述发现模块关联的所述数据源集合分别具有一唯一的特征信息,所述特征信息包括所述数据源的类型信息、归属信息以及运行信息。
优选的,所述发现模块还用于根据每个所述发现模块生成的所述索引信息生成索引模型;
所述信息获取还用于获取所述索引模型,根据所述索引模块从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的所述属性信息和所述可用数据。
优选的,利用多个所述发现模块每接收一次所述数据源获取指令后生成的所述相关性信息,并基于深度学习方法更新所述索引模型。
优选的,所述发现模块获取所述可用数据的所述相关信息的具体步骤包括:
根据所述数据获取指令获取相应的目标数据源的所述属性信息和数据存储列表;
抽取所述数据存储列表中的有效内容,获取所述有效内容对应的数据集合并进行过滤得到所述可用数据的所述先关信息。
优选的,所述信息获取模块接收所述不通过信息后向多个所述发现模块发送误差信息;
多个所述发现模块接收所述误差信息后,对关联于误差信息的多个所述数据源进行标记,每个所述发现模块再次接收所述数据源获取指令后,根据所述数据源获取指令从相应的所述数据源集合中获取所述可用数据的所述相关信息时,若存储所述可用信息的所述数据源具有所述标记,则手动判断是否根据所述相关信息的相应位置生成所述索引信息。
优选的,所述策略存储单元采用高速缓存。
优选的,所述验证模块,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源的具体步骤包括:
所述验证模块接收所述属性信息,所述属性信息包括数据和数字签名,所述验证模块对所述加密后的所述属性信息进行解密得到解密后的信息,根据解密后的信息判断签名验证是否成功。
优选的,还包括:
分配模块,连接多个所述发现模块和所述信息获取模块,用于获取多个所述发现模块发送的索引信息,并根据所述索引信息对所述信息获取模块中各个爬虫程序的宽带占比进行分配,所述索引信息的数据量与所述爬虫程序的宽带占比呈正比。
优选的,所述分配模块间隔预设时间对所述信息获取模块中各个爬虫程序的宽带占比重新进行分配,信息获取模块中各个爬虫程序的宽带占比进行分配,若某个爬虫程序停止后释放其所占用资源,并对剩余的各个爬虫程序重新进行带
宽分配。
本发明的有益效果:设置多个发现模块,由每个发现模块接收数据源获取指令后从相应的数据源集合中获取可用数据的相关信息并生成索引信息,有效提高数据源获取效率,避免由爬虫程序从海量数据源中一一进行爬取并验证;
由信息获取模块根据索引信息基于爬虫获取数据源的属性信息和可用数据,验证模块对属性信息进行验证并通过后,由信息获取模块输出,通过验证模块对属性信息进行验证并通过后控制信息获取模块输出数据源的属性信息和可用数据,有效提高数据源验证效率。
附图说明
图1为本发明一种优选的实施例中,基于爬虫的数据源发现和验证系统的功能模块示意图。
具体实施方式
需要说明的是,在不冲突的情况下,下述技术方案,技术特征之间可以相互组合。
下面结合附图对本发明的具体实施方式作进一步的说明:
如图1所示,一种基于爬虫的数据源发现和验证系统,
指令生成模块1,用于提供给管理者输入数据源获取指令,并输出上述数据源获取指令;
多个发现模块2,连接上述指令生成模块1,每个上述发现模块2分别关联多个预设的数据源集合,用于接收上述数据源获取指令,根据上述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据上述相关信息的相应位置生成索引信息;
信息获取模块3,连接多个上述发现模块2,用于获取上述索引信息,根据上述索引信息,并基于爬虫从至少一个上述数据源集合中获取存储有上述可用数据的上述数据源的属性信息和上述可用数据;
验证模块4,连接上述信息获取模块3,用于接收上述属性信息,根据预存的验证策略对上述属性信息进行验证操作以判断上述数据源是否为需求数据源,并在判断结果为是时向上述信息获取模块3发送通过信息,在判断结果为否时向上述信息获取模块3发送不通过信息;
策略更新模块5,连接上述验证模块4,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据上述更新策略实时动态更新上述策略存储单元中存储的上述验证策略;
上述信息获取模块3接收通过信息后向上述管理者输出上述数据源的上述属性信息和上述可用数据,上述信息获取模块3接收上述不通过信息后删除存储的上述数据源的上述属性信息和上述可用数据。
在本实施例中,设置多个发现模块2,由每个发现模块2接收数据源获取指令后从相应的数据源集合中获取可用数据的相关信息并生成索引信息,有效提高数据源获取效率,避免由爬虫程序从海量数据源中一一进行爬取并验证;
由信息获取模块3根据索引信息基于爬虫获取数据源的属性信息和可用数据,验证模块4对属性信息进行验证并通过后,由信息获取模块3输出,通过验证模块4对属性信息进行验证并通过后控制信息获取模块3输出数据源的属性信息和可用数据,有效提高数据源验证效率。
较佳的实施例中,每个上述发现模块2关联的上述数据源集合分别具有一唯一的特征信息,上述特征信息包括上述数据源的类型信息、归属信息以及运行信息。
较佳的实施例中,上述发现模块2还用于根据每个上述发现模块2生成的上述索引信息生成索引模型;
上述信息获取还用于获取上述索引模型,根据上述索引模块从至少一个上述数据源集合中获取存储有上述可用数据的上述数据源的上述属性信息和上述可用数据。
较佳的实施例中,利用多个上述发现模块2每接收一次上述数据源获取指令后生成的上述相关性信息,并基于深度学习方法更新上述索引模型。
较佳的实施例中,上述发现模块2获取上述可用数据的上述相关信息的具体步骤包括:
根据上述数据获取指令获取相应的目标数据源的上述属性信息和数据存储列表;
抽取上述数据存储列表中的有效内容,获取上述有效内容对应的数据集合并进行过滤得到上述可用数据的上述先关信息。
较佳的实施例中,上述信息获取模块3接收上述不通过信息后向多个上述发现模块2发送误差信息;
多个上述发现模块2接收上述误差信息后,对关联于误差信息的多个上述数据源进行标记,每个上述发现模块2再次接收上述数据源获取指令后,根据上述数据源获取指令从相应的上述数据源集合中获取上述可用数据的上述相关信息时,若存储上述可用信息的上述数据源具有上述标记,则手动判断是否根据上述相关信息的相应位置生成上述索引信息。
较佳的实施例中,上述策略存储单元采用高速缓存。
较佳的实施例中,上述验证模块4,根据预存的验证策略对上述属性信息进行验证操作以判断上述数据源是否为需求数据源的具体步骤包括:
上述验证模块4接收上述属性信息,上述属性信息包括数据和数字签名,上述验证模块4对上述加密后的上述属性信息进行解密得到解密后的信息,根据解密后的信息判断签名验证是否成功。
较佳的实施例中,还包括:
分配模块6,连接多个上述发现模块2和上述信息获取模块3,用于获取多个上述发现模块2发送的索引信息,并根据上述索引信息对上述信息获取模块3中各个爬虫程序的宽带占比进行分配,上述索引信息的数据量与上述爬虫程序的宽带占比呈正比。
较佳的实施例中,上述分配模块6间隔预设时间对上述信息获取模块3中各个爬虫程序的宽带占比重新进行分配,信息获取模块3中各个爬虫程序的宽带占比进行分配,若某个爬虫程序停止后释放其所占用资源,并对剩余的各个爬虫程序重新进行带
宽分配。
通过说明和附图,给出了具体实施方式的特定结构的典型实施例,基于本发明精神,还可作其他的转换。尽管上述发明提出了现有的较佳实施例,然而,这些内容并不作为局限。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。

Claims (10)

1.一种基于爬虫的数据源发现和验证系统,其特征在于,包括:
指令生成模块,用于提供给管理者输入数据源获取指令,并输出所述数据源获取指令;
多个发现模块,连接所述指令生成模块,每个所述发现模块分别关联多个预设的数据源集合,用于接收所述数据源获取指令,根据所述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据所述相关信息的相应位置生成索引信息;
信息获取模块,连接多个所述发现模块,用于获取所述索引信息,根据所述索引信息,并基于爬虫从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的属性信息和所述可用数据;
验证模块,连接所述信息获取模块,用于接收所述属性信息,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源,并在判断结果为是时向所述信息获取模块发送通过信息,在判断结果为否时向所述信息获取模块发送不通过信息;
策略更新模块,连接所述验证模块,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据所述更新策略实时动态更新所述策略存储单元中存储的所述验证策略;
所述信息获取模块接收通过信息后向所述管理者输出所述数据源的所述属性信息和所述可用数据,所述信息获取模块接收所述不通过信息后删除存储的所述数据源的所述属性信息和所述可用数据。
2.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,每个所述发现模块关联的所述数据源集合分别具有一唯一的特征信息,所述特征信息包括所述数据源的类型信息、归属信息以及运行信息。
3.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述发现模块还用于根据每个所述发现模块生成的所述索引信息生成索引模型;
所述信息获取还用于获取所述索引模型,根据所述索引模块从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的所述属性信息和所述可用数据。
4.根据权利要求3的基于爬虫的数据源发现和验证系统,其特征在于,利用多个所述发现模块每接收一次所述数据源获取指令后生成的所述相关性信息,并基于深度学习方法更新所述索引模型。
5.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述发现模块获取所述可用数据的所述相关信息的具体步骤包括:
根据所述数据获取指令获取相应的目标数据源的所述属性信息和数据存储列表;
抽取所述数据存储列表中的有效内容,获取所述有效内容对应的数据集合并进行过滤得到所述可用数据的所述先关信息。
6.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述信息获取模块接收所述不通过信息后向多个所述发现模块发送误差信息;
多个所述发现模块接收所述误差信息后,对关联于误差信息的多个所述数据源进行标记,每个所述发现模块再次接收所述数据源获取指令后,根据所述数据源获取指令从相应的所述数据源集合中获取所述可用数据的所述相关信息时,若存储所述可用信息的所述数据源具有所述标记,则手动判断是否根据所述相关信息的相应位置生成所述索引信息。
7.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述策略存储单元采用高速缓存。
8.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述验证模块,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源的具体步骤包括:
所述验证模块接收所述属性信息,所述属性信息包括数据和数字签名,所述验证模块对所述加密后的所述属性信息进行解密得到解密后的信息,根据解密后的信息判断签名验证是否成功。
9.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,还包括:
分配模块,连接多个所述发现模块和所述信息获取模块,用于获取多个所述发现模块发送的索引信息,并根据所述索引信息对所述信息获取模块中各个爬虫程序的宽带占比进行分配,所述索引信息的数据量与所述爬虫程序的宽带占比呈正比。
10.根据权利要求9的基于爬虫的数据源发现和验证系统,其特征在于,所述分配模块间隔预设时间对所述信息获取模块中各个爬虫程序的宽带占比重新进行分配,信息获取模块中各个爬虫程序的宽带占比进行分配,若某个爬虫程序停止后释放其所占用资源,并对剩余的各个爬虫程序重新进行带宽分配。
CN201910833348.1A 2019-09-04 2019-09-04 一种基于爬虫的数据源发现和验证系统 Active CN110688555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833348.1A CN110688555B (zh) 2019-09-04 2019-09-04 一种基于爬虫的数据源发现和验证系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833348.1A CN110688555B (zh) 2019-09-04 2019-09-04 一种基于爬虫的数据源发现和验证系统

Publications (2)

Publication Number Publication Date
CN110688555A true CN110688555A (zh) 2020-01-14
CN110688555B CN110688555B (zh) 2023-07-07

Family

ID=69107774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833348.1A Active CN110688555B (zh) 2019-09-04 2019-09-04 一种基于爬虫的数据源发现和验证系统

Country Status (1)

Country Link
CN (1) CN110688555B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN106294402A (zh) * 2015-05-21 2017-01-04 阿里巴巴集团控股有限公司 一种异构数据源的数据搜索方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294402A (zh) * 2015-05-21 2017-01-04 阿里巴巴集团控股有限公司 一种异构数据源的数据搜索方法及其装置
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法

Also Published As

Publication number Publication date
CN110688555B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN110602052B (zh) 微服务处理方法及服务器
CN110495132B (zh) 用于在分布式网络节点内生成、上传和执行代码区块的系统和方法
US10880287B2 (en) Out of box experience application API integration
CN103227719B (zh) 生成无密钥数字多重签名的系统和方法
CN108234475B (zh) 账号管理方法、电子设备及计算机存储介质
JP7066240B2 (ja) データ同期方法、装置、コンピュータデバイス、およびコンピュータプログラム
CN101159715B (zh) 一种安全信息校验方法及安全信息校验装置以及客户端
US9923990B2 (en) User information widgets and methods for updating and retrieving user information
CN102447677A (zh) 资源访问控制方法、系统和设备
CN109683936A (zh) 灰度发布方法及装置、存储介质及电子设备
CN105378703A (zh) 用于使用统一规则集合来验证输入的多个方法的方法和系统
KR102295593B1 (ko) 인증 문서를 자동으로 생성하는 기법
CN105072608B (zh) 一种管理认证令牌的方法及装置
CN105553671B (zh) 一种数字证书的管理方法、装置及系统
US20150324598A1 (en) Method and System for Managing Uniquely Identifiable Bookmarklets
EP2556461A1 (en) Digital asset authentication system and method
CN112181599B (zh) 模型训练方法、装置及存储介质
CN102801687A (zh) 单点登录系统及方法
CN110674426B (zh) 网页行为上报方法和装置
CN116881275A (zh) 数据库查询方法、装置及存储介质
CN102056025A (zh) Iptv模块的升级方法
CN110688555B (zh) 一种基于爬虫的数据源发现和验证系统
CN103873481A (zh) 验证方法、开放平台、服务端及验证系统
CN115659940A (zh) 基于SaaS系统的模板调整方法、司机信息获取方法及装置
CN108366136A (zh) 一种域名的解析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant