CN109981657B - 一种基于区块链系统的爬虫技术 - Google Patents

一种基于区块链系统的爬虫技术 Download PDF

Info

Publication number
CN109981657B
CN109981657B CN201910249936.0A CN201910249936A CN109981657B CN 109981657 B CN109981657 B CN 109981657B CN 201910249936 A CN201910249936 A CN 201910249936A CN 109981657 B CN109981657 B CN 109981657B
Authority
CN
China
Prior art keywords
public key
block chain
information
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910249936.0A
Other languages
English (en)
Other versions
CN109981657A (zh
Inventor
梅一多
孙昊
马敬东
朱晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Duluo Xinyan Network Technology Co ltd
Original Assignee
Zhejiang Shuzhi Tiaoyue Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuzhi Tiaoyue Network Technology Co ltd filed Critical Zhejiang Shuzhi Tiaoyue Network Technology Co ltd
Priority to CN201910249936.0A priority Critical patent/CN109981657B/zh
Publication of CN109981657A publication Critical patent/CN109981657A/zh
Application granted granted Critical
Publication of CN109981657B publication Critical patent/CN109981657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/26Special purpose or proprietary protocols or architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了基于区块链系统的爬虫技术,步骤如下:步骤1:在区块链网络中,在现有节点之上,增加了公钥开放节点;步骤2:当区块链系统中的节点启动后,可以根据自身启动配置,访问附近的公钥开放节点,向其进行公钥信息注册;步骤3:当爬虫启动后,先寻找附近公钥节点,并下载缓存公钥节点信息;步骤4:根据线索信息进行数据爬取;步骤5:系统中爬虫对于节点的爬取采用泛洪算法来进行处理,并设置TTL相应值,当根据线索信息进行深入爬取时,如果超过TTL设定值的话,就终止该线索的爬取。本发明主要用于区块链系统中,极大的发挥区块链存储特点,有利于区块链应用的发展。

Description

一种基于区块链系统的爬虫技术
技术领域
本发明涉及一种基于区块链系统的爬虫技术,属于互联网技术领域。
背景技术
在区块链系统中,可以将数据存储于区块头和区块体中,而区块链系统中的每个节点都可以看作是一个独立运行的环境及个体,其拥有独立的网络地址、操作系统、运行所需的内存、计算资源等;同时存储于区块头的数据一般具有抽象和描述性,存储于区块体中的数据,往往是通过公私钥进行加密的;区块链的各节点之间又通过不断的进行交互计算来进行共识计算,每个参与区块链共识计算的节点都可以具有相关数据,这样就在区块链网络中存在大量的重复数据;由于区块链是去中心化的分布式网络,同时每个节点又存在这大量的数据,且节点之间数据可重复;存储于节点之间的数据又是拥有公私钥进行加密的。综上所述,现有技术的缺点:现有的网络爬虫技术,本身针对于Http/Https协议,对于网站信息资源进行爬取,而网站资源往往采用的是中心化的网络结构,可通过网络地址进行访问;而在区块链中,网络结构是去中心化的点对点网络,同时网络中所采用的通信协议包括Http/Https但不限于。
发明内容
本发明是针对现有技术存在的不足,提供一种基于区块链系统的爬虫技术,主要用于区块链系统中,极大的发挥区块链存储特点,有利于区块链应用的发展;在互联网系统中,网页数据的查询检索是作为核心应用,在区块链中,数据检索应用也会增加,同时区块链系统中的数据,天然的具有难以篡改的属性,也增强数据的应用价值,满足实际使用要求。
为解决上述问题,本发明所采取的技术方案如下:
一种基于区块链系统的爬虫技术,所述爬虫技术步骤如下:
步骤1:在区块链网络中,在现有节点之上,增加了公钥开放节点;
步骤2:当区块链系统中的节点启动后,可以根据自身启动配置,访问附近的公钥开放节点,向其进行公钥信息注册;
步骤3:当爬虫启动之后,先寻找附近公钥节点,并下载缓存公钥节点信息;
步骤4:根据线索信息进行数据爬取,每次针对于选择的节点的区块体中信息,都需采用公钥对数据进行解密,完成解密之后,再进行数据检索确认,如是所需信息,则将该节点的该区块作为线索信息进行缓存,同时将数据信息针对爬虫中设置的存储地址进行保存;
步骤5:系统中爬虫对于节点的爬取采用泛洪算法来进行处理,并设置TTL相应值,当根据线索信息进行深入爬取时,如果超过TTL设定值的话,就终止该线索的爬取。
本发明与现有技术相比较,本发明的实施效果如下:
本发明将互联网中的爬虫技术应用于区块链网络中,区块链由于其网络结构采用的是去中心化分布式网络,且其中存储数据,都是经过相应加密的;因此对于数据的爬取要比互联网爬虫,从设计上要更为复杂;同时由于区块链系统中的数据传输包括但不限于Http/Https协议,因此对网络协议的处理,也需要采用开放的网络设计协议。
此外,由于互联网、IT、信息化领域对于数据的检索和查询都是重中之重,因此对于数据获取各节点检索其相应信息,是当前阻碍区块链应用技术发展的关键因素;本发明的实现可大幅降低区块链数据应用的门槛。
具体实施方式
下面将结合具体的实施例来说明本发明的内容。
实施例方法:
操作1:在区块链现有节点中增加公钥开放节点,该节点只对信任的爬虫开放;
操作2:当区块链节点启动时,需要积极的向就近的公钥开放节点注册;同时公钥开放节点,也会不定期向全网络进行发起注册工作通知,并优先通知已注册节点;
操作3:当爬虫启动后,会根据配置向公钥开放节点进行请求验证,通过验证认可后,可以从该节点上下载部分节点存储的公钥信息;
操作4:爬虫程序根据区块头数据中的消息信息线索,进行查找,并对于区块体中的加密数据通过公钥信息进行解密,并判断数据的可用性;当数据不可用时;系统根据该区块的交易信息分析线索,并形成线索链信息,根据线索链进行爬取;
操作5:爬虫采用泛洪算法根据线索链进行爬取,考虑到系统的高效性及网络资源的访问范围,因此设置了TTL,当爬虫根据线索信息向下爬取时,首先对TTL进行减1操作,并判断相应的值,如果等于零,则终止该线索的爬取工作,并返回结束标志;当不等于1时,则向下爬取,根据区块头的线索信息进行初期判断是否具有符合的内容,当符合则使用公钥打开区块体的加密数据,并对其进行存储到爬虫指定的网络存储地址。
本发明将互联网中的爬虫技术应用于区块链网络中,区块链由于其网络结构采用的是去中心化分布式网络,且其中存储数据,都是经过相应加密的;因此对于数据的爬取要比互联网爬虫,从设计上要更为复杂;同时由于区块链系统中的数据传输包括但不限于Http/Https协议,因此对网络协议的处理,也需要采用开放的网络设计协议。
此外,由于互联网、IT、信息化领域对于数据的检索和查询都是重中之重,因此对于数据获取各节点检索其相应信息,是当前阻碍区块链应用技术发展的关键因素;本发明的实现可大幅降低区块链数据应用的门槛。
以上内容是结合具体的实施例对本发明所作的详细说明,不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明保护的范围。

Claims (1)

1.一种基于区块链系统的爬虫技术,其特征在于:所述爬虫技术步骤如下:
步骤1:在区块链网络中,在现有节点之上,增加了公钥开放节点;
步骤2:当区块链系统中的节点启动后,根据自身启动配置,访问附近的公钥开放节点,向其进行公钥信息注册;
步骤3:当爬虫启动之后,先寻找附近公钥开放节点,并下载缓存公钥开放节点信息,即线索信息;
步骤4:根据线索信息进行数据爬取,每次针对于选择的节点的区块体中信息,都需采用公钥对数据进行解密,完成解密之后,再进行数据检索确认,如是所需信息,则将该节点的该区块作为线索信息进行缓存,同时将数据信息的存储地址进行保存;
步骤5:系统中爬虫对于节点的爬取采用泛洪算法来进行处理,并设置TTL相应值,当根据线索信息进行深入爬取时,如果超过TTL设定值的话,就终止该线索的爬取。
CN201910249936.0A 2019-03-29 2019-03-29 一种基于区块链系统的爬虫技术 Active CN109981657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910249936.0A CN109981657B (zh) 2019-03-29 2019-03-29 一种基于区块链系统的爬虫技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910249936.0A CN109981657B (zh) 2019-03-29 2019-03-29 一种基于区块链系统的爬虫技术

Publications (2)

Publication Number Publication Date
CN109981657A CN109981657A (zh) 2019-07-05
CN109981657B true CN109981657B (zh) 2021-09-17

Family

ID=67081576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910249936.0A Active CN109981657B (zh) 2019-03-29 2019-03-29 一种基于区块链系统的爬虫技术

Country Status (1)

Country Link
CN (1) CN109981657B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625595A (zh) * 2020-04-28 2020-09-04 鼎链数字科技(深圳)有限公司 基于自启动爬虫技术的区块链管理方法、系统及存储介质
CN111711567B (zh) * 2020-06-12 2022-01-07 杭州溪塔科技有限公司 一种基于区块链的网络消息传输方法装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086413A (zh) * 2018-08-03 2018-12-25 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、设备及可读存储介质
CN109101607A (zh) * 2018-08-03 2018-12-28 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132451B2 (en) * 2017-08-31 2021-09-28 Parity Technologies Ltd. Secret data access control systems and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086413A (zh) * 2018-08-03 2018-12-25 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、设备及可读存储介质
CN109101607A (zh) * 2018-08-03 2018-12-28 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、装置及存储介质

Also Published As

Publication number Publication date
CN109981657A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN105009509B (zh) 在信息中心网络中通过信任锚点扩增基于名称/前缀的路由协议
CN109246211B (zh) 一种区块链中的资源上传和资源请求方法
CN106603713B (zh) 会话管理方法和系统
CN109983752A (zh) 带有编码dns级信息的网络地址
Ling et al. Protocol-level hidden server discovery
CN109919771B (zh) 一种应用分层区块链技术的工业互联网交易装置
CN109981657B (zh) 一种基于区块链系统的爬虫技术
JP2005135381A (ja) クライアントベースのウェブクローリングのためのシステムおよび方法
CN109639758B (zh) 内容中心网络中用户行为隐私的保护方法及装置
CN108429785A (zh) 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
KR101407373B1 (ko) 서버와 클라이언트 시스템 간의 통신 세션에서 상태 추적메커니즘을 수행하는 방법
CN115085902A (zh) 一种电网调度日志管理方法与系统
CN110956463B (zh) 基于可扩展分布式查询系统的可信存证方法与系统
CN108712391B (zh) 一种内容中心网络下应对命名攻击和时间分析攻击的方法
US9560173B2 (en) Techniques for improving SYN cache performance
CN103957173A (zh) 语义交换机
CN115174126B (zh) 基于区块链和sgx的外包数据密文搜索方法及系统
CN113259384B (zh) 基于区块链的机理模型调用信息处理方法、服务器及系统
CN103095858A (zh) 地址解析协议arp报文处理的方法、网络设备及系统
CN103685367B (zh) 离线下载系统和方法
Santos et al. Secure decentralized IoT infrastructure
CN107623743A (zh) 一种远程文件访问方法、服务端及系统
Li et al. Research on CoAP resource directory based on blockchain
Srinivasan et al. XTRA—eXtended bit-Torrent pRotocol for Authenticated covert peer communication: Authenticated covert P2P communication
JP2010268316A (ja) Dns応答制御装置、dns応答制御システム、dns応答制御方法およびdns応答制御プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221109

Address after: 242, second floor, innovation building, Yangzhou tus science and Technology City, No. 9, Zhenzhou North Road, Hanjiang District, Yangzhou City, Jiangsu Province, 225002

Patentee after: Yangzhou duluo Xinyan Network Technology Co.,Ltd.

Address before: 313200 No. 926, Changhong East Street, Fuxi street, Deqing County, Huzhou City, Zhejiang Province (Moganshan national high tech Zone)

Patentee before: ZHEJIANG SHUZHI TIAOYUE NETWORK TECHNOLOGY Co.,Ltd.