CN112925847B - 一种针对区块链的数据处理与网络分析工具 - Google Patents

一种针对区块链的数据处理与网络分析工具 Download PDF

Info

Publication number
CN112925847B
CN112925847B CN202110199199.5A CN202110199199A CN112925847B CN 112925847 B CN112925847 B CN 112925847B CN 202110199199 A CN202110199199 A CN 202110199199A CN 112925847 B CN112925847 B CN 112925847B
Authority
CN
China
Prior art keywords
data
block chain
block
analysis
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110199199.5A
Other languages
English (en)
Other versions
CN112925847A (zh
Inventor
刘儿兀
耿元哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110199199.5A priority Critical patent/CN112925847B/zh
Publication of CN112925847A publication Critical patent/CN112925847A/zh
Application granted granted Critical
Publication of CN112925847B publication Critical patent/CN112925847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种针对区块链的数据处理与网络分析工具,其特征在于,包括数据获取、数据处理和数据分析三个模块;三个模块在整体上形成一个完整体系,实现区块链数据的获取、分析、存储功能一体化;其中,若用户选择以较慢的方式获取数据,即从相应的区块链应用上同步所有区块,则无需使用数据获取模块的功能,可以直接跳转到数据处理模块;当用户选择从交易所获取数据时,需要使用到数据获取模块的功能。

Description

一种针对区块链的数据处理与网络分析工具
技术领域
本发明涉及计算机技术和区块链技术,特别是涉及利用计算机技术完成区块链公链数据处理与网络分析的系统。
背景技术
区块链是近年来新兴的一种技术,能够有效保证数据的公开透明并防止篡改。区块链作为一种技术工具,在一些领域中被用于进行数据处理和数据分析,如CN111552728A、CN111612261A。事实上,每一种区块链(如比特币、以太坊等)本身就存储了庞大且繁杂的数据。若将区块链匿名账户看为网络节点,则整个区块链相当于一个不断增长的网络。使用复杂网络工具对这样的网络和节点进行理论观察,分析和建模该网络的“社会信号”动态能够帮助我们提炼区块链中隐藏的一些内在关系,熟悉这个生态系统并理解作用在其中的力量。
然而目前市面上还没有一套成型的方案能够对某一种特定的区块链系统进行评价和分析。因此,这给需要用到区块链数据的工作者,例如科研工作者、金融数据分析师等,造成极大的不便,并且在无形中提高了区块链数据分析的门槛。
在数据获取方面,目前已有的专利局限于上链前信息的采集工作,如CN110473045B、CN111339203A,而非从链上抓取数据以用于后续分析。由于没有直接提供数据的数据源,需要用到区块链数据或分析结果的工作者需要自行安装相应的区块链应用而后同步大量的区块,或是从交易所的网站上抓取数据。对于不具备计算机编程能力的数据分析者,以及想了解各种区块链特性的兴趣爱好者而言,整个流程的步骤相当繁琐,且耗时长、成本高。在数据分析方面,相关工作者通常因数据集内容和大小等条件的限制,只能进行部分指标的测试,导致分析的结果不够全面且无法动态地观察区块链网络的变化情况。
因此设计可行的方案,以实现区块链数据取、析、存一体化的效果,简化相关的数据处理和网络分析的工作步骤并提升效率,同时方便大众能够直接地感受各种区块链的特性,是区块链领域中的一个重要内容。
发明内容
发明目的
本发明针对现有技术中存在的问题和不足,提出了一套完整的区块链数据处理与分析工具方案,实现区块链数据的获取、分析、存储功能一体化。本发明旨在解决的问题如下:
1、目前市面上还没有一套成型的方案能够对某一种特定的区块链系统进行评价和分析,该空白亟待填补;
2、数据获取方面,区块链中的区块数据量庞大,每次从创始区块获取全部数据则会做多次重复无用的工作,步骤繁琐且耗时漫长;
3、数据处理方面,对于从区块链应用或不同交易所网址得到的数据结果,它们的结构往往也不相同,需要重复编写代码以提取需要的信息,耗时长、成本高;
4、数据分析方面,受制于数据集的不全面性,得出的数据分析结果往往也不够精准和全面,有待进一步改善。
本发明是通过下述技术方案来解决上述技术问题的:
一种区块链跨层工具,其特征在于,包括数据获取、数据处理和数据分析三个模块。所述的三个模块在整体上形成一个完整体系,实现区块链数据的获取、分析、存储功能一体化。其中,若用户选择以较慢的方式获取数据,即从相应的区块链应用上同步所有区块,则无需使用数据获取模块的功能,可以直接跳转到数据处理模块;当用户选择从交易所获取数据时,需要使用到数据获取模块的功能。
所述的数据获取模块,用于抓取庞杂的网络数据并进行二次处理。这里使用Scrapy-Redis技术,针对区块链交易所的网页结构,搭建了一套分布式的爬虫框架Distributed-Scrapy-Blockchain。所述的分布式爬虫框架可以高效地完成区块链数据的抓取任务。在默认情况下,虽然Scrapy爬虫是异步多线程的,但其只能在一台主机上运行,爬取效率不能最大化。所述的分布式爬虫框架将多台主机组合起来,共同完成一个爬取任务,以大大提高爬取的效率。所述数据获取模块由主机、分布式核心和从机组成。所述主机与分布式核心协同工作,提取目标URL和下一个链接,并分别进行存储。所述分布式核心维护任务队列、原始URL队列,并形成良好的日志系统。所述各从机从分布式核心获取待抓取的原始URL队列,协同完成页面抓取,并维护原始数据队列和二次数据队列。
所述的数据处理模块,用于提取二次处理后的网络数据中包含的区块有效信息。从网络上抓取的原始数据相对庞大和复杂,但也有一定的结构特征。所述模块系统内部设置有字符分割算法(已有算法),用于在获得网页二次数据后,找到可以提取的要点。所述字符分割算法对括号和引号符号分别进行记录,分析原始Json数据的层次结构和键值结构,对冒号前的引号对中的内容进行提取和维护,并生成可提取要点。所述可提取要点通过外部接口呈现给用户,由用户选择需要获得的区块数据信息,作为用户需求要点。所述用户需求要点将传递给后台,后台完成结构化类型数据的提取工作,获得区块有效数据。所述区块有效数据通进行数据持久化,按照使用者的需求实现数据入库。
所述的数据分析模块,用于进一步精准化和完善化数据集分析。所述模块的系统核心由复杂网络分析方法和分析结果可视化两个部分构成。所述复杂网络分析方法可以基于数据处理模板得到的区块有效信息,构建网络拓扑图,计算节点的度、度中心性、接近度中心性、介数中心性、网络密度、聚类系数、度-度相关性等相关的性能指标,并分析对应的区块链网络是否具有小世界特性、无标度特性等。上述的计算和分析结果将通过绘图的方式进行进一步的可视化展示,并向用户呈现最终的区块分析结果。
本发明有益效果:
提出一套完整的方案,包含数据获取、处理和分析,可以实现对区块链系统的评价和分析,填补市面上针对区块链的分析工具的空白;
搭建分布式爬虫框架,通过在区块链合适的位置设置断点,实现高效的网络数据抓取工作;
提出一种字符分割算法,对原始数据结构进行解析并提取可选字段,根据用户的需求对相应的信息进行结构化提取和存储,简化信息获取的步骤并避免重复工作;
内置复杂网络分析算法,对完整的区块链数据进行多指标分析,进一步提升数据分析的精准性和全面性,并提供可视化结果展示。
附图说明
图1为本发明实施例的跨层数据处理分析工具的工作流程图。
图2为本发明实施例的数据获取模块的工作流程示意图。
图3为本发明实施例的数据处理模块的工作流程示意图。
图4为本发明实施例的数据分析模块的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供一种针对比特币的区块跨层工具,其至少包括数据获取、数据处理和数据分析三个功能模块,用于实现比特币交易数据的获取、分析、存储功能一体化。
所述的数据获取模块,将从比特币交易所网站抓取庞杂的区块数据并进行二次处理。如图2所示,所述数据获取模块由主机、分布式核心和从机组成。设置初始区块高度并开始工作,所述主机与分布式核心将协同工作,根据初始区块高度生成目标URL,并从目标URL的内容中解析得下一个链接,并分别保存到target_block和next_block中。所述分布式核心将维护任务队列、原始URL队列,以形成良好的日志系统。所述任务队列记录每次用户设置的初始区块高度,以及需要抓取的比特币区块的编号,所述原始URL队列记录所有抓取过的比特币区块的链接地址。所述各从机将从分布式核心获取待抓取的原始URL队列,协同完成比特币区块信息页面的抓取,并维护原始数据队列和二次数据队列。所述原始数据队列记录网页的未经任何处理的所有原始内容,所述二次数据队列记录Json格式的剔除网页头尾等额外信息的仅包含比特币区块主体的内容。
所述的数据处理模块,用于提取二次处理后的网络数据中包含的比特币区块有效信息,如图3所示。所述模块系统内部设置有字符分割算法,用于在获得比特币区块主体部分的数据后,找到可以提取的要点,即比特币区块中包含的各项具体信息。所述字符分割算法对括号和引号两种符号分别进行记录,以分析原始Json数据的层次结构和键值结构,对冒号前的引号对中的内容进行提取和维护,生成可提取要点,如区块生成时间、包含的交易数量、区块总金额等等。所述可提取要点将通过GUI外部接口呈现给用户,由用户选择需要的区块部分,得到用户需求要点。所述用户需求要点将传递给后台,所述后台使用Json-lib等第三方库完成结构化类型数据的提取工作,获得区块有效数据,即该区块包含的各项具体信息。所述区块有效数据由持久化框架Hibernate,按照使用者的需求,生成合适的数据库表结构和映射关系,完成数据持久化。
所述的数据分析模块,用于尽可能地精准化和完善化数据集分析。如图4所示,所述模块的系统核心由复杂网络分析算法和分析结果可视化两个部分构成。获得比特币区块的交易数据后,将比特币匿名账户看为网络节点,则整个区块链相当于一个不断增长的网络。复杂网络分析算法部分,本实施例中使用Python开源库Networkx实现,完成节点度、聚类系数等多项复杂网络指标的计算工作。分析结果可视化部分,本实施例中使用Python开源库Matplotlib实现,将交易数据的计算结果进行进一步的可视化展示,以折线图或散点图等方式向用户呈现最终的区块分析结果。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (1)

1.一种针对区块链的数据处理与网络分析工具,其特征在于,包括数据获取、数据处理和数据分析三个模块;三个模块在整体上形成一个完整体系,实现区块链数据的获取、分析、存储功能一体化;其中,若用户选择以较慢的方式获取数据,即从相应的区块链应用上同步所有区块,则无需使用数据获取模块的功能,直接跳转到数据处理模块;当用户选择从交易所获取数据时,使用到数据获取模块的功能;
所述数据获取模块,用于抓取庞杂的网络数据并进行二次处理;使用Scrapy-Redis技术,针对区块链交易所的网页结构,搭建了一套分布式的爬虫框架Distributed-Scrapy-Blockchain;所述的分布式爬虫框架完成区块链数据的抓取任务;所述数据获取模块由主机、分布式核心和从机组成;所述主机与分布式核心协同工作,提取目标URL和下一个链接,并分别进行存储;所述分布式核心维护任务队列、原始URL队列,并形成良好的日志系统;所述各从机从分布式核心获取待抓取的原始URL队列,协同完成页面抓取,并维护原始数据队列和二次数据队列; 所述二次数据队列记录了Json格式的且仅包含比特币区块主体的内容;
所述的数据处理模块,用于提取所述二次数据队列数据中包含的区块有效信息;采用字符分割算法,用于在获得所述二次数据队列数据后,找到可以提取的要点;所述字符分割算法对括号和引号符号分别进行记录,分析原始Json数据的层次结构和键值结构,对冒号前的引号对中的内容进行提取和维护,并生成可提取要点;所述可提取要点通过外部接口呈现给用户,由用户选择需要获得的区块数据信息,作为用户需求要点;所述用户需求要点将传递给后台,后台完成结构化类型数据的提取工作,获得区块有效数据;所述区块有效数据通进行数据持久化,按照使用者的需求实现数据入库;
所述的数据分析模块,用于进一步精准化和完善化数据集分析;由复杂网络分析方法和分析结果可视化两个部分构成;所述复杂网络分析方法可以基于数据处理模板得到的区块有效信息,构建网络拓扑图,计算节点的度、度中心性、接近度中心性、介数中心性、网络密度、聚类系数、度-度相关性相关的性能指标,并分析对应的区块链网络是否具有小世界特性、无标度特性;上述的计算和分析结果将通过绘图的方式进行进一步的可视化展示,并向用户呈现最终的区块分析结果。
CN202110199199.5A 2021-02-22 2021-02-22 一种针对区块链的数据处理与网络分析工具 Active CN112925847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110199199.5A CN112925847B (zh) 2021-02-22 2021-02-22 一种针对区块链的数据处理与网络分析工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110199199.5A CN112925847B (zh) 2021-02-22 2021-02-22 一种针对区块链的数据处理与网络分析工具

Publications (2)

Publication Number Publication Date
CN112925847A CN112925847A (zh) 2021-06-08
CN112925847B true CN112925847B (zh) 2022-07-05

Family

ID=76170219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110199199.5A Active CN112925847B (zh) 2021-02-22 2021-02-22 一种针对区块链的数据处理与网络分析工具

Country Status (1)

Country Link
CN (1) CN112925847B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107317725A (zh) * 2017-06-14 2017-11-03 物链(北京)科技有限公司 一种区块链的可视化方法及系统
CN111030978B (zh) * 2019-06-19 2022-11-25 安天科技集团股份有限公司 一种基于区块链的恶意数据获取方法、装置及存储设备
CN110334155A (zh) * 2019-07-09 2019-10-15 佛山市伏宸区块链科技有限公司 一种基于大数据整合的区块链威胁情报分析方法及系统
CN110866172B (zh) * 2019-11-07 2023-01-03 博雅正链(北京)科技有限公司 一种面向区块链系统的数据分析方法
CN111199055A (zh) * 2019-12-24 2020-05-26 广东文储区块链科技有限公司 隐私公链区块链数据可视化分析方法及系统
CN111831750A (zh) * 2020-07-09 2020-10-27 恒安嘉新(北京)科技股份公司 一种区块链数据分析方法、装置、计算机设备及存储介质
CN111782644A (zh) * 2020-07-27 2020-10-16 江苏工程职业技术学院 一种基于区块链技术的科研数据管理控制系统及方法

Also Published As

Publication number Publication date
CN112925847A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
US8719308B2 (en) Method and system to process unstructured data
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN111708774B (zh) 一种基于大数据的产业分析系统
CN108228743A (zh) 一种实时大数据搜索引擎系统
CN103838754A (zh) 信息搜索装置及方法
CN109345006A (zh) 一种基于区域发展目标的招商政策分析优化方法及系统
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
WO2020042501A1 (zh) 基金经理社团划分方法、系统、计算机设备和存储介质
CN111125116A (zh) 定位业务表中代码字段及对应代码表的方法及系统
CN110163013A (zh) 一种检测敏感信息的方法和设备
CN112925847B (zh) 一种针对区块链的数据处理与网络分析工具
CN103227810B (zh) 一种在网络监控中识别远程桌面语义的方法、装置和系统
CN112286921A (zh) 一种基于多源异构数据的动态企业画像生成方法
CN105573984A (zh) 社会经济指标的识别方法及装置
CN112347314B (zh) 一种基于图数据库的数据资源管理系统
EP4275187A1 (en) Exploration and production document content and metadata scanner
CN113032496A (zh) 一种基于产业知识图谱的产业大脑数据分析系统
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
CN112069835A (zh) 基于语义分析的计算机流程分析挖掘系统及方法
Duan et al. Fed‐DNN‐Debugger: Automatically Debugging Deep Neural Network Models in Federated Learning
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant