CN110781430A - 互联网新型虚拟数据中心系统及其构造方法 - Google Patents
互联网新型虚拟数据中心系统及其构造方法 Download PDFInfo
- Publication number
- CN110781430A CN110781430A CN201910926698.2A CN201910926698A CN110781430A CN 110781430 A CN110781430 A CN 110781430A CN 201910926698 A CN201910926698 A CN 201910926698A CN 110781430 A CN110781430 A CN 110781430A
- Authority
- CN
- China
- Prior art keywords
- data
- internet
- sampling
- resource
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 213
- 238000010586 diagram Methods 0.000 claims abstract description 37
- 238000005065 mining Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 59
- 230000000670 limiting effect Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 239000000470 constituent Substances 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 abstract description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 7
- 201000004569 Blindness Diseases 0.000 abstract description 6
- 238000011161 development Methods 0.000 abstract description 4
- 208000035475 disorder Diseases 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000009193 crawling Effects 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- XXQCMVYBAALAJK-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(2-phenylethyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C=2C(N(CCC=3C=CC=CC=3)CC=3C=CC=CC=3)=NC(NC(=O)OCC)=CC=2NC=1CCC1=CC=CC=C1 XXQCMVYBAALAJK-UHFFFAOYSA-N 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/188—Virtual file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0662—Virtualisation aspects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种互联网新型虚拟数据中心系统及其构造方法,互联网新型虚拟数据中心系统包括:互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;数据资源分布图用于反映互联网数据的属性信息;互联网虚拟资源库,用于存储数据资源分布图及互联网数据勘探器采集的样本数据;数据资源分布图管理模块,用于管理数据资源分布图;数据资源制导服务模块,用于根据数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。本发明核心是构造互联网数据勘探器和数据资源分布图,向数据中心等数据需求方提供互联网数据的分布情况。本发明克服了现有数据中心的大数据采集与开发利用的盲目性和无序性,避免了资源与能源浪费。
Description
技术领域
本发明属于计算机大数据技术领域,特别是涉及一种互联网新型虚拟数据中心系统及其构造方法。
背景技术
传统数据中心系统的总体结构由基础设施层、信息资源层、应用支撑层、应用层和支撑体系五大部分构成,是一种集中式或分布式存储/访问数据的架构,实现数据资源管理的联动和信息的及时监测、汇总与分析。建设数据中心的目的是把用户的内容或应用服务以更快的速度,安全、稳定地传递到使用者。云计算数据中心中托管的不是客户的设备,而是计算能力和IT可用性。数据在云端进行传输,云计算数据中心为其调配所需的计算能力,并对整个基础构架的后台进行管理。虚拟数据中心即VDC—Virtual Data Center。VDC是将云计算概念运用于数据中心的一种新型的数据中心形态。VDC可以通过虚拟化技术将物理资源抽象整合,动态进行资源分配和调度,实现数据中心的自动化部署,并将大大降低数据中心的运营成本。现有数据中心拥有对数据的控制权,由于将采集到的大量互联网数据统一存储和管理,使得数据中心对数据维护难度高产生大量数据冗余,日常能源消耗较大。
大数据背景下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大且分散。对于数据源的采集可以通过通用爬虫与网站地图相结合的方式或网络机器人的方式采集URL信息,建立URL列表。对于内部数据库的数据采集需要根据DB API协议中的方法,调用API接口实现内部数据库的采集。对于静态Web页面需要完整的html数据通过HTML解析工具分析DOM(Document Object Model)树,从而找到采集的数据,如ScrapySharp。动态Web页面的很多内容是通过javascript来动态生成的,这些动态Web数据用静态的方式无法获取所需数据,对于动态Web页面往往利用浏览器引擎来实现整个页面的加载,得到完整页面后再用静态页面采集方法。现有互联网数据中心的信息来源通过收集、爬取大批量互联网数据,并对数据进行整理和加工,进而对客户提供应用支持。由于互联网信息复杂程度高且信息离散,一味大批量的爬取不仅影响网络通信质量,增加能源消耗而且收集到的信息存在大量冗余且信息价值较低,信息搜索目的性不强。
海量数据背景下,数据无法全部爬取和存储,需要通过分析数据的分布减少数据挖掘的难度。可以采集互联网站点小部分数据用以分析估计整个站点数据规模价值密度和分布情况。现有基于小样本数据分析原始样本分布方法:分类中的决策树分析,回归分析中的一元、多元线性回归分析,Logistic回归分析,多项式回归、逐步回归、岭回归、套索回归等;聚类分析中的样本聚类分析,指标聚类分析,系统聚类,逐步聚类等;判别分析中的Fisher和BAYES判别分析法等。基于大样本数据分析的方法有:神经网络中的以函数型网络、感知机为代表的前馈式神经网络模型,以Hopfield的离散模型和连续模型为代表的反馈式神经网络模型,以ART模型为代表聚类的自组织映射方法等分析方法。
综上,现有互联网数据中心技术存在以下技术问题:
第一,随着大数据爆炸式增长、多样化趋势等特征越来越显著,现有的方法本质上缺少对数据整体上的考虑,没有预先感知数据资源的状况,无法刻画和度量互联网大数据资源的总体分布、数据规模和成分等特征。
第二,传统数据中心对互联网数据进行海量采集和存储,造成了大量低效甚至无效的数据采集与处理,浪费了大量的存储与传输资源。
第三,为应对数据增长,大规模建设新的数据中心和扩容已有数据中心,全球数据中心的数量和规模正在快速增长,无序与重复建设日益严峻,并且带来的一个突出问题是数据中心巨大的能源消耗。
因此,如何提供一种互联网新型虚拟数据中心系统及其构造方法,以解决现有的大数据中心主要采用全量的数据采集、分析、处理等方法,存在数据获取的盲目性、资源利用的无序性,极大地浪费了各种计算资源、存储资源以及能源等缺陷。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种互联网新型虚拟数据中心系统及其构造方法,用于解决现有的大数据中心主要采用全量的数据采集、分析、处理等方法,存在数据获取的盲目性、资源利用的无序性,极大地浪费了各种计算资源、存储资源以及能源的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种互联网新型虚拟数据中心系统,包括:
互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;所述数据资源分布图用于反映互联网数据的属性信息;互联网虚拟资源库,用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;数据资源分布图管理模块,用于管理所述数据资源分布图;数据资源制导服务模块,用于根据所述数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。
于本发明的一实施例中,所述互联网新型虚拟数据中心系统还包括:数据协议生成与管理模块,用于根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理;数据安全管理模块,用于对所述互联网虚拟资源库中虚拟数据资源进行数据安全管理。
于本发明的一实施例中,所述互联网数据勘探器包括:数据采样引导单元,用于根据所述数据提供方提供的数据访问协议文件,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导;所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表;所述数据采样引导树是对互联网数据进行采样的引导信息;所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表;数据采样估算单元,用于根据数据采样引导树和/或数据采样引导表,采样抓取互联网数据至所述互联网虚拟资源库;同时进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算;所述属性信息包括数据类别、数据模态、数据量、数据成分、数据分布;数据资源分布图生成单元,用于根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图。
于本发明的一实施例中,所述数据资源分布图包括初始化层节点和扩展层节点,初始化层节点和扩展层节点构成树形结构;其中,初始化层节点包括第0层节点、第1层节点、第2层节点;所述扩展层节点包括第3层节点;所述第0层节点为根节点,其描述项用于记录数据分类方法、数据分类数量、访问限制、类别1指针、类别2指针……、类别n指针、扩展项;其中,数据分类方法项用于记录数据分类模型或方法;类别指针用于指向类别节;扩展项用于信息扩充;所述第1层节点为领域分类节点,其每个节点描述项记录数据模态数、限制命令、文本类指针、图像类指针、视频类指针、语音类指针、其他类指针、扩展项;其中数据模态数指数据模态的分类数,包括文本、图像、视频、语音以及其他;文本类指针、图像类指针、视频类指针、语音类指针、其他类指针是记录指向子节点的链接指针,其子节点为一种数据模态的节点;所述第2层节点为数据模态分类节点,其每个节点描述项记录网络站点数、限制命令、站点1指针、站点2指针、……、站点m指针、扩展项;网络站点数指一数据模态下的网络站点的总个数,网络站点数同时表明其子节点的数量;站点指针用于记录每个子节点;所述第3层节点为数据节点,其每个节点的描述项记录数据位置、限制命令、数据量、数据成分、数据分布、数据时序性、访问命令及参数、返回数据格式、扩展项;数据位置用于记录数据源的站点位置;限制命令为访问数据源的限制访问描述;数据量为数据提供方提供的数据源的数据数量;数据成分表示数据的组成元素;数据分布表示互联网数据的基本特征及其分布情况;数据时序性表示互联网数据之间是否为时间序列关系;访问命令及参数记录访问数据源的命令及其参数;返回数据格式指所获取的数据的格式。
所述数据资源分布图管理模块用于对所述数据资源分布图的存储、访问以及更新;其中,所述数据资源分布图采用关系型或非关系数据库存储;数据资源分布图的访问按照树形结构进行访问。数据资源分布图的更新为动态更新。
本发明另一方面提供一种互联网新型虚拟数据中心系统的构造方法,包括:根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器;其中,所述互联网数据勘探器用于对互联网数据进行采样及估算,以生成数据资源分布图;根据所述互联网数据勘探器勘探互联网数据,构建互联网虚拟资源库;所述互联网虚拟资源库用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理;根据所述数据资源分布图,为数据中心和/或数据需求方生成并提供数据采集及挖掘的指导服务。
于本发明的一实施例中,所述构造方法还包括:根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理;对所述互联网虚拟资源库中虚拟数据资源进行数据安全管理。
于本发明的一实施例中,所说根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器的步骤包括:S11,根据所述数据提供方提供的数据访问协议文件,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导;所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表;所述数据采样引导树是对互联网Web数据进行采样的引导信息;所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表;S12,根据数据采样引导树和/或数据采样引导表,抓取互联网数据至所述互联网虚拟资源库;同时进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算;所述属性信息包括数据类别、数据模态、数据量、数据成分和/或数据分布;S13,根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图。
于本发明的一实施例中,互联网Web数据采样引导的引导流程包括:步骤111,接收统一资源定位符,抓取网络站点根目录下的爬虫协议文件;步骤112,提取所述爬虫协议文件中的限制项和站点地图文件;步骤113,生成可抽取数据的数据采样引导树和限制访问互联网数据资源列表;将允许访问、限制访问项写入站点节点属性,将禁止访问项写入限制访问互联网数据资源列表;步骤114,广度优先搜索数据采样引导树,随机抽取每个网络站点中的若干链接页面;步骤115,分析链接页面中统一资源定位符,在所述限制访问互联网数据资源列表中查找所述统一资源定位符,若存在于所述限制访问互联网数据资源列表中表中则略去;否则继续下一步骤;步骤116,分析页面内容及文件名后缀,初步分离数据模态,并写入数据采样引导树的树叶子节点的模态属性;步骤117,分析页面内容的时间属性,并写入数据采样引导树的树叶子节点的时间序列相关属性;S118.循环执行步骤114-步骤117,直到访问结束所述数据采样引导树,并将限制访问的属性写入所述数据采样引导树的树叶子节点的限制属性中。
于本发明的一实施例中,内部数据库应用程序编程接口采样引导的引导流程包括:在指定网络站点内,判断是否能够抓取到指定网络站点的内部数据库应用程序编程接口访问配置文件;若否,则指示操作人员人工生成内部数据库应用程序编程接口访问配置文件;若是,则执行下一步骤;分析内部数据库应用程序编程接口访问配置文件,初步分离数据模态,并填入所述内部数据库的数据采样引导信息表。
于本发明的一实施例中,互联网Web数据采样估算的估算流程包括:、
S121,读取网络站点的数据采样引导树;
S122,根据叶子站点抓取页面,根据该叶子节点的统一资源定位符模板,分离出有效链接数;S123,判断站点数据是否与时间序列相关?
若是,则执行S124,设置抓取时间区间,并抓取时间区间内的数据,并写入互联网虚拟资源库,统计页面数;
S125,采用区间估算法,估算出各类模态数据的在该时间区间内的数据分布;
S126,利用已有的分类模型对页面进行分类,采用区间估算法,估算出各类站点数据的在该时间区间内的数据分布,转入S130;
若否,则执行S127,设置随机抓取页面位置,并抓取随机位置的数据,并写入互联网虚拟资源库,统计页面数;
S128,采用点估算法,估算出各类模态数据的数据分布;
S129.利用已有的分类模型对页面进行分类,采用点估算法,估算出各类数据分布,转入S130;
S130,根据站点链接总数、数据模态分布、分类数据分布计算出站点的数据总量,采样估算结束。
于本发明的一实施例中,内部数据库应用程序编程接口采样估算的估算流程包括:
S121’,读取所述数据采样引导表;
S122’.,分析数据采样引导表的数据项;
S123’,判断站点数据是否与时间序列相关;
若是,则执行S124’设置若干个抓取时间区间,抓取时间区间内的站点数据,并写入互联网虚拟资源库,统计各时间区间内的记录数;
S125’,设置时间跳转步长,估算出时间区间内的数据分布;
S126’,利用已有的分类模型对时间区间内数据进行分类并记入数据资源分布图的第一层节点项,转S130’;
若否,则执行S127’,设置若干个随机抓取站点数据的记录号,并抓取站点数据,写入互联网虚拟资源库,统计记录数;S128’,设置记录跳转步长,估算出站点数据分布;
S129’,利用已有的分类模型对数据进行分类并记入分布图的第一层节点项;
S130’,根据站点数据模态分布、分类数据分布计算出网络站点的数据总量。
于本发明的一实施例中,所述根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图的步骤包括:初始化数据资源分布图,包括构造根节点;构造第一层节点:构造第二层节点:根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项分析该位置的数据量,并写入该第三层节点对应的数据总量描述项中;累加数据总量并写入数据总量描述项;分析该位置的数据成分,并将数据的成分写入该第三层节点的数据成分描述项中;分析该位置的数据分布特征,并将数据的分布特征写入该第三层节点的数据分布描述项中;分析该位置的数据时序性,并将数据的时序性特征写入该第三层节点的数据时序性描述项中;根据所述数据采样引导树,将该数据位置的访问限制写入该第三层节点对应的访问限制描述项中;判断数据勘探是否截止;若是,则将填充好的所述数据资源分布图写入所述互联网虚拟资源库,并对外发布访问接口,数据资源分布图生成步骤结束;若否,返回所述根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项的步骤。
于本发明的一实施例中,所述对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理的步骤包括存储、访问以及更新所述数据资源分布图。
于本发明的一实施例中,所述更新所述数据资源分布图的步骤包括:配置更新策略;调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分;对于数据源变动部分,调用所述互联网新型虚拟数据中心系统中数据采样估算单元进行采样估算,并更新所述数据资源分布图原有的数据节点,同时缩短该数据节点的更新周期;对于数据源变动部分,随机选取数据源,调用所述数据采样估算单元进行采样估算,以判断数据源是否发生变化;若是,则更新数据资源分布图;若否,则延长该数据节点更新周期;判断更新是否截止,若是,则将更新数据资源分布图写入所述互联网虚拟资源库;若否,将返回调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分。
如上所述,本发明所述的互联网新型虚拟数据中心系统及其构造方法,具有以下有益效果:
本发明所述互联网新型虚拟数据中心系统及其构造方法提出了互联网大数据勘探的思想与技术,实现了对互联网大数据资源的虚拟化,构建大数据资源分布图,为数据中心提供数据导航等服务。区别于采用全量数据采集、分析、处理等方法的传统的和现有的数据中心,互联网新型虚拟数据中心系统的构造方法,采用互联网大数据勘探思想,变海量采集为预先量化勘探,其核心在于构造互联网数据勘探器和数据资源分布图,向传统的和现有的数据中心等数据需求方,提供互联网数据的分布情况。互联网新型虚拟数据中心系统及其构造方法克服了传统的和现有的数据中心的大数据采集与开发利用的盲目性和无序性,避免了大量的资源浪费与能源浪费。
附图说明
图1A显示为本发明的互联网新型虚拟数据中心系统于一实施例中的结构示意图。
图1B显示为本发明的互联网新型虚拟数据中心系统中互联网数据勘探器的原理结构示意图。
图2A显示为本发明的数据采样引导树的结构示意图。
图2B显示为本发明的数据资源分布图的结构示意图。
图3A显示为本发明的互联网新型虚拟数据中心系统的构造方法于一实施例中的流程示意图。
图3B显示为本发明的互联网新型虚拟数据中心系统的构造方法中S1的流程示意图。
图3C显示为本发明的互联网Web数据采样引导的流程示意图。
图3D显示为本发明的互联网Web数据采样估算的估算流程示意图。
图3E显示为本发明的内部数据库应用程序编程接口采样估算的估算流程示意图。
图3F显示为本发明的互联网新型虚拟数据中心系统的构造方法中S13的流程示意图
图3G显示为本发明的更新数据资源分布图的流程示意图。
元件标号说明
1 | 互联网新型虚拟数据中心系统 |
11 | 数据协议生成与管理模块 |
12 | 互联网数据勘探器 |
13 | 互联网虚拟资源库 |
14 | 数据资源分布图管理模块 |
15 | 数据资源制导服务模块 |
16 | 数据安全管理模块 |
121 | 数据采样引导单元 |
122 | 数据采样估算单元 |
123 | 数据资源分布图生成单元 |
S11~S16 | 步骤 |
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种互联网新型虚拟数据中心系统,包括:
数据协议生成与管理模块,用于根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理;
互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;所述数据资源分布图用于反映互联网数据的属性信息;
互联网虚拟资源库,用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;
数据资源分布图管理模块,用于管理所述数据资源分布图;
数据资源制导服务模块,用于根据所述数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。
以下将结合图示对本实施例所述互联网新型虚拟数据中心系统进行详细描述。本实施例所述互联网新型虚拟数据中心系统应用于数据提供方于数据需求方之间。请参阅图1A,显示为互联网新型虚拟数据中心系统于一实施例中的结构示意图。如图1A所示,所述互联网新型虚拟数据中心系统1包括数据协议生成与管理模块11、互联网数据勘探器12、互联网虚拟资源库13、数据资源分布图管理模块14、数据资源制导服务模块15及数据安全管理模块16。
所述数据协议生成与管理模块11用于根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理,在本实施例中,所述数据访问协议文件包括Web数据访问协议、互联网内部数据库访问协议等,对所述数据访问协议文件进行管理包括对协议的发布,更新等。
与所述数据协议生成与管理模块11耦合的互联网数据勘探器12用于对互联网数据进行采样及估算,以生成数据资源分布图;所述数据资源分布图用于反映互联网数据的属性信息,是互联网新型虚拟数据中心系统的核心数据结构组件。所述互联网数据的属性信息包括网络站点的数据规模价值密度信息和整体分布信息等。所述互联网数据的整体分布信息包括数据位置、数据量、数据特征等信息,是大规模数据采集的指导信息表。
请参阅图1B,显示为互联网数据勘探器的原理结构示意图。如图1B所示,所述互联网数据勘探器12具体包括:数据采样引导单元121、数据采样估算单元122及数据资源分布图生成单元123。
所述数据采样引导单元121用于根据所述数据提供方提供的数据访问协议文件和互联网大数据,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导。所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表。其中,互联网Web数据采样引导指读取互联网中的数据爬取协议文件、站点地图文件,并按照一定的策略读取部分数据,生成数据采样引导树。所述数据采样引导树用于记录可访问数据站点资源及其访问权限等。内部数据库应用程序编程接口采样引导指读取数据提供方提供的访问方式及访问限制的标准访问文件,生成数据采样引导树;若没有提供标准的访问限制文件,则人工配置标准访问文件,然后再生成数据采样引导树。
在本实施例中,所述数据采样引导树是对互联网Web数据进行采样的引导信息。请参阅图2A,显示为数据采样引导树的结构示意图。如图2A所示,所述数据采样引导树呈树形结构。其中,根节点是网站的根目录节点,子节点是子网站的子目录节点,每个节点的描述项包括数据位置(数据所在的站点位置)、数据模态(文本、图像、视频、语音等)、数据勘探器名字、数据访问的限制命令、数据的时序特征、访问命令、命令参数、返回的数据格式(页面或Jason等数据格式)、扩展项(用于其他Web形式数据的扩展描述)。
所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表。数据采样引导信息表具体结构请参阅表1。如表1所示,所述数据采样引导信息表主要包括数据位置(数据所在的站点位置)、数据模态、数据勘探器名称、访问禁止/限制项、API调用函数表(含参数、返回值)描述、数据的时序性、数据的分布性、数据是否在线/离线、扩展项。
表1:数据采样引导信息表
所述数据采样估算单元122用于根据数据采样引导树和/或数据采样引导表,按照区间采样策略或点采样策略抓取互联网数据至所述互联网虚拟资源库;同时通过采样分析,进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算,构建勘探样本库;所述属性信息包括数据类别、数据模态、数据量、数据成分和/或数据分布等。
所述数据资源分布图生成单元123用于根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图。
请参阅图2B,显示为数据资源分布图的结构示意图。如图2A所示,所述数据资源分布图包括初始化层节点和扩展层节点,初始化层节点和扩展层节点构成属性结构;其中,初始化层节点包括第0层节点(第0层节点为根节点)、第1层节点、第2层节点;所述扩展层节点包括第3层节点(第3层节点为数据节点)。
所述第0层节点为数据领域分类节点,其每个节点的描述项包括数据分类方法、数据分类数量、访问限制、类别1指针、类别2指针……、类别n指针、扩展项等描述;其中,数据分类方法项用于记录数据分类模型或方法;类别指针用于指向类别节;扩展项用于节点信息扩充。
所述第1层节点为数据模态分类节点,其每个节点的描述项包括数据模态数、限制命令、文本类指针、图像类指针、视频类指针、语音类指针、其他类指针、扩展项等描述;数据模态数指数据模态的分类数,包括文本、图像、视频、语音以及其他等五种数据;文本类指针、图像类指针、视频类指针、语音类指针、其他类指针是记录指向子节点的链接指针,其子节点为一种数据模态的节点;
所述第2层节点,其每个节点的描述项包括:网络站点数、限制命令、站点1指针、站点2指针、……、站点m指针、扩展项等描述;网络站点数指一数据模态下的网络站点的总个数,网络站点数同时表明其子节点的数量;站点指针用于记录每个子节点;
所述第3层节点为数据节点,其每个节点的描述项包括:数据位置、限制命令、数据量、数据成分、数据分布、数据时序性、访问命令及参数、返回数据格式、扩展项等描述;数据位置用于记录数据源的站点位置;限制命令为访问数据源的限制访问描述;数据量为数据提供方提供的数据源的数据数量(也可以为空);数据成分表示数据的组成元素;数据分布表示互联网数据的基本特征及其分布情况;数据时序性表示互联网数据之间是否为时间序列关系;访问命令及参数记录访问数据源的命令及其参数(也可以为空);返回数据格式指所获取的数据的格式。
所述互联网虚拟资源库13包括数据资源分布图和勘探样本库,数据资源分布图用于反映互联网数据的分布信息,包括数据位置、数据量、数据特征等信息及所述勘探样本库用于存储所述互联网数据勘探器采集的样本数据。
所述数据资源分布图管理模块14用于管理所述数据资源分布图。
具体地,所述数据资源分布图管理模块14用于对所述数据资源分布图的存储、访问以及更新;其中,所述数据资源分布图采用关系型或非关系数据库存储;数据资源分布图的访问按照树形结构进行访问。数据资源分布图的更新为动态更新。本实施例中数据资源分布图管理的核心是数据资源分布图的动态更新方法,以保证互联网虚拟资源库保持最新状态。
所述数据资源制导服务模块15用于根据所述数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。所述数据资源制导服务模块15可以保证数据需求用户能高效地、有序地采集挖掘互联网数据及其进一步的分析。
所述数据安全管理模块16用于对所述互联网虚拟资源库13中虚拟数据资源进行数据安全管理。具体地,对虚拟数据资源访问管理,包括数据隐私保护、数据访问权限等管理。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,x模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个微处理器(Digital Singnal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
本实施例所述互联网虚拟数据中心系统提出了互联网大数据勘探的思想与技术,实现了对互联网大数据资源的虚拟化,构建大数据资源分布图,为数据中心提供数据导航等服务。区别于传统数据中心和云化的数据中心的海量采集与存储,本实施例所述互联网虚拟数据中心系统变海量采集为预先量化勘探,克服了大数据采集与开发利用的盲目性和无序性,避免了大量的资源浪费与能源浪费。
实施例二
本实施例提供一种互联网新型虚拟数据中心系统的构造方法,包括:
根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器;其中,所述互联网数据勘探器用于对互联网数据进行采样及估算,以生成数据资源分布图;
根据所述互联网数据勘探器勘探互联网数据,构建互联网虚拟资源库;所述互联网虚拟资源库用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;
对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理;
根据所述数据资源分布图,为数据中心和/或数据需求方生成并提供数据采集及挖掘的指导服务。
以下将结合图示对本实施例所提供的互联网新型虚拟数据中心系统的构造方法进行详细描述。请参阅图3A,显示为互联网新型虚拟数据中心系统的构造方法于一实施例中的流程示意图。如图3A所示,所述互联网新型虚拟数据中心系统的构造方法具体包括以下几个步骤:
S1,根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器;其中,所述互联网数据勘探器用于对互联网数据进行采样及估算,以生成数据资源分布图。
请参阅图3B,显示为S1的流程示意图。如图3B所示,所述S1具体包括以下步骤:
S11,根据所述数据提供方提供的数据访问协议文件和互联网大数据,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导;所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表;所述数据采样引导树是对互联网数据进行采样的引导信息;所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表。
请参阅图3C,显示为互联网Web数据采样引导的流程示意图。如图3C所示,互联网Web数据采样引导的引导流程包括如下步骤:
步骤111,接收统一资源定位符URL,抓取网络站点根目录下的爬虫协议文件robots.txt;
步骤112,提取所述爬虫协议文件robots.txt中的限制项和站点地图文件sitemap.xml;
步骤113,生成可抽取数据的数据采样引导树Web-GuideTree,如图2A所示和限制访问互联网数据资源列表DisAllow-List;将允许访问Allow、限制访问项Crawl-delay写入站点节点属性,将禁止访问项Disallow写入限制访问互联网数据资源列表DisAllow-List。限制访问互联网数据资源列表如表2所示。
表2:限制访问互联网数据资源列表DisAllow-List
资源位置 | 数据类型 | 数据勘探器名字 | 禁止/限制项 |
Disallow(禁止) | |||
Crawl-delay(限制) |
步骤114,广度优先搜索数据采样引导树Web-GuideTree,随机抽取每个网络站点中的若干链接页面;
步骤115,分析链接页面中统一资源定位符URL,在所述限制访问互联网数据资源列表中查找所述统一资源定位符,若存在于所述限制访问互联网数据资源列表中表中则略去;否则继续下一步骤;
步骤116,分析页面内容及文件名后缀,初步分离数据模态(例如,文本、图像、视频、语音等),并写入数据采样引导树Web-GuideTree的树叶子节点的模态属性;
步骤117,分析页面内容的时间属性,并写入数据采样引导树Web-GuideTree的树叶子节点的时间序列相关属性;
S118,循环执行步骤114-步骤117,直到访问结束所述数据采样引导树Web-GuideTree,并将限制访问的属性写入所述数据采样引导树Web-GuideTree的树叶子节点的限制属性中,互联网Web数据采样引导结束。
在本实施例中,内部数据库应用程序编程接口采样引导的引导流程包括:
在指定网络站点内,判断是否能够抓取到指定网络站点的内部数据库应用程序编程接口访问配置文件;若否,则指示操作人员人工生成内部数据库应用程序编程接口访问配置文件;若没有该访问配置文件,且网络站点不提供API访问,结束进程。若是,则执行下一步骤;
分析内部数据库应用程序编程接口访问配置文件,初步分离数据模态,并填入所述内部数据库的数据采样引导信息表。
S12,根据数据采样引导树和/或数据采样引导表,抓取互联网数据至所述互联网虚拟资源库;同时通过采样分析,进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算,构建勘探样本库;所述属性信息包括数据类别、数据模态、数据量、数据成分和/或数据分布。
请参阅图3D,显示为互联网Web数据采样估算的估算流程示意图。如图3D所示,互联网Web数据采样估算的估算流程包括以下步骤:
S121,读取网络站点的数据采样引导树Web-GuideTree;
S122,根据叶子站点抓取页面,根据该叶子节点的统一资源定位符URL模板,分离出有效链接数;
S123,判断站点数据是否与时间序列相关;
若是,则执行S124,设置抓取时间区间,并抓取时间区间内的数据,并写入互联网虚拟资源库,统计页面数Page-Count;
S125,采用区间估算法,估算出各类模态数据的在该时间区间内的数据分布;
S126,利用已有的分类模型对页面进行分类,采用区间估算法,估算出各类站点数据的在该时间区间内的数据分布DataModalRate,转入S130;
若否,则执行S127,设置随机抓取页面位置,并抓取随机位置的数据,并写入互联网虚拟资源库,统计页面数DataModalRate;
S128.,采用点估算法,估算出各类模态数据的数据分布;
S129.利用已有的分类模型对页面进行分类,采用点估算法,估算出各类数据分布,转入S130;
S130,根据站点链接总数、数据模态分布、分类数据分布计算出站点的数据总量,互联网数据采样估算结束。
请参阅图3E,显示为内部数据库应用程序编程接口采样估算的估算流程示意图。如图3E所示,内部数据库应用程序编程接口采样估算的估算流程具体包括以下步骤:
S121’,读取所述数据采样引导表API-GuideList;
S122’.,分析数据采样引导表API-GuideList的数据项;
S123’,判断站点数据是否与时间序列相关;
若是,则执行S124’设置若干个抓取时间区间,抓取时间区间内的站点数据,并写入互联网虚拟资源库,统计各时间区间内的记录数;
S125’,设置时间跳转步长,估算出时间区间内的数据分布DataModalRate;
S126’,利用已有的分类模型对时间区间内数据进行分类并记入数据资源分布图的第一层节点项,转S130’;
若否,则执行S127’,设置若干个随机抓取站点数据的记录号,并抓取站点数据,写入互联网虚拟资源库,统计记录数;
S128’,设置记录跳转步长,估算出站点数据分布DataModalRate;
S129’,利用已有的分类模型对数据进行分类并记入分布图的第一层节点项;
S130’,根据站点数据模态分布、分类数据分布计算出网络站点的数据总量,内部数据库API采样估算结束。
S13,根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图。
请参阅图3F,显示为S13的流程示意图。如图3F所示,所述S13具体包括以下步骤:
S131,初始化数据资源分布图,包括构造根节点;构造第一层节点:分类节点(例如,电商类、教育类等):构造第二层节点:数据模态节点(例如,文本类、图像类、视频类、语音类等)。
S132,根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项。
S133,分析该位置的数据量,并写入该第三层节点对应的数据总量描述项中;累加数据总量并写入数据总量描述项;分析该位置的数据成分,并将数据的成分写入该第三层节点的数据成分描述项中;分析该位置的数据分布特征,并将数据的分布特征写入该第三层节点的数据分布描述项中;分析该位置的数据时序性,并将数据的时序性特征写入该第三层节点的数据时序性描述项中。
S134,根据所述数据采样引导树Web-GuideTree,将数据位置的访问限制写入该第三层节点对应的访问限制描述项中;
S135,判断数据勘探是否截止;若是,则执行S136,将填充好的所述数据资源分布图写入所述互联网虚拟资源库,并对外发布访问接口,数据资源分布图生成步骤结束;若否,返回S132,即返回根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项的步骤。
S2,根据所述互联网数据勘探器勘探互联网数据,构建互联网虚拟资源库;所述互联网虚拟资源库用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据。
S3,对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理。
具体地,对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理包括存储、访问以及更新所述数据资源分布图。
请参阅图3G,显示为更新数据资源分布图的流程示意图。如图3F所示,更新数据资源分布图的步骤具体包括以下几个步骤:
S31,配置更新策略。在本实施例中,更新策略包括部分/全部更新、结点更新周期等。
S32,调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分;
S33,对于数据源变动部分,调用所述互联网新型虚拟数据中心系统中数据采样估算单元进行采样估算,并更新所述数据资源分布图原有的数据节点,同时缩短该数据节点的更新周期;
S34,对于数据源变动部分,随机选取数据源,调用所述数据采样估算单元进行采样估算,以判断数据源是否发生变化;若是,则执行S35,更新数据资源分布图,并转入S37;若否,则执行S36,延长该数据节点更新周期,并转入S37;
S37,判断更新是否截止,若是,则执行S38,将更新数据资源分布图写入所述互联网虚拟资源库;若否,返回S32,即返回调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分。
S4,根据所述数据资源分布图,为数据中心和/或数据需求方生成并提供数据采集及挖掘的指导服务。
S5,根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理。在本实施例中,所述数据访问协议文件包括Web数据访问协议、互联网内部数据库访问协议等,对所述数据访问协议文件进行管理包括对协议的发布,更新等。
S6,对所述互联网数据勘探器中虚拟数据资源进行数据安全管理。
例如,对虚拟数据资源进行访问管理,包括数据隐私保护、是维护及访问权限等管理。
本发明提供一种互联网新型虚拟数据中心系统,所述互联网新型虚拟数据中心系统可以实现本发明所述的互联网新型虚拟数据中心系统的构造方法,但本发明所述的互联网新型虚拟数据中心系统的构造方法的实现装置包括但不限于本实施例列举的互联网新型虚拟数据中心系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
本发明还提供一种互联网新型虚拟数据中心系统的构造方法,所述的互联网新型虚拟数据中心系统的构造方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
综上所述,本发明所述互联网新型虚拟数据中心系统及其构造方法提出了互联网大数据勘探的思想与技术,实现了对互联网大数据资源的虚拟化,构建大数据资源分布图,为数据中心提供数据导航等服务。区别于传统数据中心和云化的数据中心的海量采集与存储,本实施例所述互联网虚拟数据中心系统变海量采集为预先量化勘探,克服了大数据采集与开发利用的盲目性和无序性,避免了大量的资源浪费与能源浪费。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (15)
1.一种互联网新型虚拟数据中心系统,其特征在于,包括:
互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;所述数据资源分布图用于反映互联网数据的属性信息;
互联网虚拟资源库,用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;
数据资源分布图管理模块,用于管理所述数据资源分布图;
数据资源制导服务模块,用于根据所述数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。
2.根据权利要求1所述的互联网新型虚拟数据中心系统,其特征在于,所述互联网新型虚拟数据中心系统还包括:
数据协议生成与管理模块,用于根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理;
数据安全管理模块,用于对所述互联网虚拟资源库中虚拟数据资源进行数据安全管理。
3.根据权利要求1所述的互联网新型虚拟数据中心系统,其特征在于,所述互联网数据勘探器包括:
数据采样引导单元,用于根据所述数据提供方提供的数据访问协议文件,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导;所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表;所述数据采样引导树是对互联网Web数据进行采样的引导信息;所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表;
数据采样估算单元,用于根据数据采样引导树和/或数据采样引导表,采样抓取互联网数据至所述互联网虚拟资源库;同时进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算;所述属性信息包括数据类别、数据模态、数据量、数据成分、数据分布;
数据资源分布图生成单元,用于根据互联网数据的属性信息以及数据采样引导树和/或引导表中访问限制,生成数据资源分布图。
4.根据权利要求3所述的互联网新型虚拟数据中心系统,其特征在于,所述数据资源分布图包括初始化层节点和扩展层节点,初始化层节点和扩展层节点构成树形结构;其中,初始化层节点包括第0层节点、第1层节点、第2层节点;所述扩展层节点包括第3层节点;
所述第0层节点为资源分布图的根节点,其描述项包括数据分类方法、数据分类数量、访问限制、类别1指针、类别2指针……、类别n指针、扩展项;其中,数据分类方法项用于记录数据分类模型或方法;类别指针用于指向类别节点;扩展项用于节点信息扩充;
所述第1层节点为数据领域分类节点,其每个节点的描述项包括数据模态数、限制命令、文本类指针、图像类指针、视频类指针、语音类指针、其他类指针、扩展项;数据模态数指数据模态的分类数,包括文本、图像、视频、语音以及其他;文本类指针、图像类指针、视频类指针、语音类指针、其他类指针是记录指向子节点的链接指针,其子节点为一种数据模态的节点;
所述第2层节点为数据模态分类节点,其每个节点的描述项包括网络站点数、限制命令、站点1指针、站点2指针、……、站点m指针、扩展项;网络站点数指一种数据模态下的网络站点的总个数,网络站点数同时表明其子节点的数量;站点指针用于记录每个子节点;
所述第3层节点为数据节点,其每个节点的描述项包括数据位置、限制命令、数据量、数据成分、数据分布、数据时序性、访问命令及参数、返回数据格式、扩展项;数据位置用于记录数据源的站点位置;限制命令为访问数据源的限制访问描述;数据量为数据提供方提供的数据源的数据数量;数据成分表示数据的组成元素;数据分布表示互联网数据的基本特征及其分布情况;数据时序性表示互联网数据之间是否为时间序列关系;访问命令及参数记录访问数据源的命令及其参数;返回数据格式指所获取的数据的格式。
5.根据权利要求1所述的互联网新型虚拟数据中心系统,其特征在于,所述数据资源分布图管理模块用于对所述数据资源分布图的存储、访问以及更新;其中,所述数据资源分布图采用关系型或非关系数据库存储;数据资源分布图的访问按照树形结构进行访问。数据资源分布图的更新为动态更新。
6.一种互联网新型虚拟数据中心系统的构造方法,其特征在于,包括:
根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器;其中,所述互联网数据勘探器用于对互联网数据进行采样及估算,以生成数据资源分布图;
根据所述互联网数据勘探器勘探互联网数据,构建互联网虚拟资源库;所述互联网虚拟资源库用于存储所述数据资源分布图及所述互联网数据勘探器采集的样本数据;
对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理;
根据所述数据资源分布图,为数据中心和/或数据需求方生成并提供数据采集及挖掘的指导服务。
7.根据权利要求6所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,所述构造方法还包括:
根据数据提供方提供的数据访问协议及网络站点地图生成统一的数据访问协议文件,并对所述数据访问协议文件进行管理;
对所述互联网虚拟资源库中虚拟数据资源进行数据安全管理。
8.根据权利要求6所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,
所述根据数据提供方提供的数据访问协议及互联网数据构建互联网数据勘探器的步骤包括:
S11,根据所述数据提供方提供的数据访问协议文件,产生数据采样引导信息,以实现互联网Web数据采样引导和/或内部数据库应用程序编程接口采样引导;所述数据采样引导信息的数据结构表示为数据采样引导树和/或数据采样引导表;所述数据采样引导树是对互联网Web数据进行采样的引导信息;所述数据采样引导表是通过应用程序编程接口访问网络站点的内部数据库的数据采样引导信息表;
S12,根据数据采样引导树和/或数据采样引导表,采样抓取互联网数据至所述互联网虚拟资源库;同时进行互联网Web数据采样估算和/或内部数据库应用程序编程接口采样估算;所述属性信息包括数据类别、数据模态、数据量、数据成分、数据分布;
S13,根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图。
9.根据权利要求8所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,互联网Web数据采样引导的引导流程包括:
步骤111,接收统一资源定位符,抓取网络站点根目录下的爬虫协议文件;
步骤112,提取所述爬虫协议文件中的限制项和站点地图文件;
步骤113,生成可抽取数据的数据采样引导树和限制访问互联网数据资源列表;将允许访问、限制访问项写入站点节点属性,将禁止访问项写入限制访问互联网数据资源列表;
步骤114,广度优先搜索数据采样引导树,随机抽取每个网络站点中的若干链接页面;
步骤115,分析链接页面中统一资源定位符,在所述限制访问互联网数据资源列表中查找所述统一资源定位符,若存在于所述限制访问互联网数据资源列表中表中则略去;否则继续下一步骤;
步骤116,分析页面内容及文件名后缀,初步分离数据模态,并写入数据采样引导树的树叶子节点的模态属性;
步骤117,分析页面内容的时间属性,并写入数据采样引导树的树叶子节点的时间序列相关属性;
S118.循环执行步骤114-步骤117,直到访问结束所述数据采样引导树,并将限制访问的属性写入所述数据采样引导树的树叶子节点的限制属性中。
10.根据权利要求8所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,内部数据库应用程序编程接口采样引导的引导流程包括:
在指定网络站点内,判断是否能够抓取到指定网络站点的内部数据库应用程序编程接口访问配置文件;若否,则指示操作人员人工生成内部数据库应用程序编程接口访问配置文件;若是,则执行下一步骤;
分析内部数据库应用程序编程接口访问配置文件,初步分离数据模态,并填入所述内部数据库的数据采样引导信息表。
11.根据权利要求8所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,互联网Web数据采样估算的估算流程包括:
S121,读取网络站点的数据采样引导树;
S122,根据叶子站点抓取页面,根据该叶子节点的统一资源定位符模板,分离出有效链接数;
S123,判断站点数据是否与时间序列相关?
若是,则执行S124,设置抓取时间区间,并抓取时间区间内的数据,并写入互联网虚拟资源库,统计页面数;
S125,采用区间估算法,估算出各类模态数据的在该时间区间内的数据分布;
S126,利用已有的分类模型对页面进行分类,采用区间估算法,估算出各类站点数据的在该时间区间内的数据分布,转入S130;
若否,则执行S127,设置随机抓取页面位置,并抓取随机位置的数据,并写入互联网虚拟资源库,统计页面数;
S128,采用点估算法,估算出各类模态数据的数据分布;
S129.利用已有的分类模型对页面进行分类,采用点估算法,估算出各类数据分布,转入S130;
S130,根据站点链接总数、数据模态分布、分类数据分布计算出站点的数据总量,采样估算结束。
12.根据权利要求8所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,内部数据库应用程序编程接口采样估算的估算流程包括:
S121’,读取所述数据采样引导表;
S122’.,分析数据采样引导表的数据项;
S123’,判断站点数据是否与时间序列相关;
若是,则执行S124’设置若干个抓取时间区间,抓取时间区间内的站点数据,并写入互联网虚拟资源库,统计各时间区间内的记录数;
S125’,设置时间跳转步长,估算出时间区间内的数据分布;
S126’,利用已有的分类模型对时间区间内数据进行分类并记入数据资源分布图的第一层节点项,转S130’;
若否,则执行S127’,设置若干个随机抓取站点数据的记录号,并抓取站点数据,写入互联网虚拟资源库,统计记录数;
S128’,设置记录跳转步长,估算出站点数据分布;
S129’,利用已有的分类模型对数据进行分类并记入分布图的第一层节点项;
S130’,根据站点数据模态分布、分类数据分布计算出网络站点的数据总量。
13.根据权利要求8所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,所述根据互联网数据的属性信息以及数据采样引导树中访问限制,生成数据资源分布图的步骤包括:
初始化数据资源分布图,包括构造根节点;构造第一层节点:构造第二层节点:
根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项分析该位置的数据量,并写入该第三层节点对应的数据总量描述项中;累加数据总量并写入数据总量描述项;
分析该位置的数据成分,并将数据的成分写入该第三层节点的数据成分描述项中;
分析该位置的数据分布特征,并将数据的分布特征写入该第三层节点的数据分布描述项中;
分析该位置的数据时序性,并将数据的时序性特征写入该第三层节点的数据时序性描述项中;
根据所述数据采样引导树,将该数据位置的访问限制写入该第三层节点对应的访问限制描述项中;
判断数据勘探是否截止;若是,则将填充好的所述数据资源分布图写入所述互联网虚拟资源库,并对外发布访问接口,数据资源分布图生成步骤结束;若否,返回所述根据数据采样估算的数据分类和数据模态,继续扩展第三层的节点,并将数据位置的统一资源定位符写入该第三层扩展节点对应的位置描述项中;继续分析该位置的数据量及累加数据总量、数据成分、数据分布、数据时序性、访问限制等,并写入相应描述项的步骤。
14.根据权利要求6所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,所述对所述互联网数据勘探器勘探互联网数据和所述数据资源分布图进行管理的步骤包括存储、访问以及更新所述数据资源分布图。
15.根据权利要求6所述的互联网新型虚拟数据中心系统的构造方法,其特征在于,所述更新所述数据资源分布图的步骤包括:
配置更新策略;
调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分;
对于数据源变动部分,调用所述互联网新型虚拟数据中心系统中数据采样估算单元进行采样估算,并更新所述数据资源分布图原有的数据节点,同时缩短该数据节点的更新周期;
对于数据源变动部分,随机选取数据源,调用所述数据采样估算单元进行采样估算,以判断数据源是否发生变化;若是,则更新数据资源分布图;若否,则延长该数据节点更新周期;
判断更新是否截止,若是,则将更新数据资源分布图写入所述互联网虚拟资源库;若否,将返回调用数据采样引导模块更新数据采样引导树/引导表,比较数据源变动部分。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926698.2A CN110781430B (zh) | 2019-09-27 | 2019-09-27 | 互联网新型虚拟数据中心系统及其构造方法 |
PCT/CN2019/125548 WO2021056854A1 (zh) | 2019-09-27 | 2019-12-16 | 互联网新型虚拟数据中心系统及其构造方法 |
US17/437,049 US20220215109A1 (en) | 2019-09-27 | 2019-12-16 | New internet virtual data center system and method for constructing the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926698.2A CN110781430B (zh) | 2019-09-27 | 2019-09-27 | 互联网新型虚拟数据中心系统及其构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781430A true CN110781430A (zh) | 2020-02-11 |
CN110781430B CN110781430B (zh) | 2022-03-25 |
Family
ID=69384660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910926698.2A Active CN110781430B (zh) | 2019-09-27 | 2019-09-27 | 互联网新型虚拟数据中心系统及其构造方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220215109A1 (zh) |
CN (1) | CN110781430B (zh) |
WO (1) | WO2021056854A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638941A (zh) * | 2020-05-21 | 2020-09-08 | 同济大学 | 基于数据资源分布的跨域方舱计算系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201842A (zh) * | 2007-10-30 | 2008-06-18 | 北京航空航天大学 | 数字博物馆网格及其构造方法 |
CN103605698A (zh) * | 2013-11-06 | 2014-02-26 | 广东电子工业研究院有限公司 | 一种用于分布异构数据资源整合的云数据库系统 |
CN108710625A (zh) * | 2018-03-16 | 2018-10-26 | 电子科技大学成都研究院 | 一种专题知识自动挖掘系统及方法 |
US20190179805A1 (en) * | 2009-06-30 | 2019-06-13 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5845290A (en) * | 1995-12-01 | 1998-12-01 | Xaxon R&D Ltd. | File recording support apparatus and file recording support system for supporting recording of file on home page on internet and intranet |
US6516337B1 (en) * | 1999-10-14 | 2003-02-04 | Arcessa, Inc. | Sending to a central indexing site meta data or signatures from objects on a computer network |
US6675205B2 (en) * | 1999-10-14 | 2004-01-06 | Arcessa, Inc. | Peer-to-peer automated anonymous asynchronous file sharing |
DE60015709T2 (de) * | 2000-01-19 | 2005-11-10 | Hewlett-Packard Development Co., L.P., Houston | Sicherheitspolitik, die auf eine Gemeinschaftsdaten-Sicherheitsarchitektur angewendet wird |
US20020065800A1 (en) * | 2000-11-30 | 2002-05-30 | Morlitz David M. | HTTP archive file |
US7152164B1 (en) * | 2000-12-06 | 2006-12-19 | Pasi Into Loukas | Network anti-virus system |
US7085736B2 (en) * | 2001-02-27 | 2006-08-01 | Alexa Internet | Rules-based identification of items represented on web pages |
US20030110252A1 (en) * | 2001-12-07 | 2003-06-12 | Siew-Hong Yang-Huffman | Enhanced system and method for network usage monitoring |
US20050177384A1 (en) * | 2004-02-10 | 2005-08-11 | Cronin Donald A. | System and method for designing and building e-business systems |
US20120180126A1 (en) * | 2010-07-13 | 2012-07-12 | Lei Liu | Probable Computing Attack Detector |
US9356941B1 (en) * | 2010-08-16 | 2016-05-31 | Symantec Corporation | Systems and methods for detecting suspicious web pages |
IL228896A (en) * | 2012-10-15 | 2017-01-31 | Wix Com Ltd | A system that supports direct links and search engines to create websites that integrate third-party applications and components |
US9811529B1 (en) * | 2013-02-06 | 2017-11-07 | Quantcast Corporation | Automatically redistributing data of multiple file systems in a distributed storage system |
JP6086230B2 (ja) * | 2013-04-01 | 2017-03-01 | 日本電気株式会社 | 中央演算装置、情報処理装置、および仮想コア内レジスタ値取得方法 |
US11281498B1 (en) * | 2016-06-28 | 2022-03-22 | Amazon Technologies, Inc. | Job execution with managed compute environments |
CN106778253A (zh) * | 2016-11-24 | 2017-05-31 | 国家电网公司 | 基于大数据的威胁情景感知信息安全主动防御模型 |
CN106934014B (zh) * | 2017-03-10 | 2021-03-19 | 山东省科学院情报研究所 | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 |
CN107704070B (zh) * | 2017-09-30 | 2020-01-14 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN110162556A (zh) * | 2018-02-11 | 2019-08-23 | 陕西爱尚物联科技有限公司 | 一种有效发挥数据价值的方法 |
US11184359B2 (en) * | 2018-08-09 | 2021-11-23 | Microsoft Technology Licensing, Llc | Automated access control policy generation for computer resources |
-
2019
- 2019-09-27 CN CN201910926698.2A patent/CN110781430B/zh active Active
- 2019-12-16 US US17/437,049 patent/US20220215109A1/en active Pending
- 2019-12-16 WO PCT/CN2019/125548 patent/WO2021056854A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201842A (zh) * | 2007-10-30 | 2008-06-18 | 北京航空航天大学 | 数字博物馆网格及其构造方法 |
US20190179805A1 (en) * | 2009-06-30 | 2019-06-13 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
CN103605698A (zh) * | 2013-11-06 | 2014-02-26 | 广东电子工业研究院有限公司 | 一种用于分布异构数据资源整合的云数据库系统 |
CN108710625A (zh) * | 2018-03-16 | 2018-10-26 | 电子科技大学成都研究院 | 一种专题知识自动挖掘系统及方法 |
Non-Patent Citations (2)
Title |
---|
何蕾: "Web信息资源整合系统的技术研究及实现", 《计算机工程与应用》 * |
吕琳等: "互联网信息长期保存中可视化分析技术应用研究", 《图书馆》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638941A (zh) * | 2020-05-21 | 2020-09-08 | 同济大学 | 基于数据资源分布的跨域方舱计算系统及方法 |
WO2021232610A1 (zh) * | 2020-05-21 | 2021-11-25 | 同济大学 | 基于数据资源分布的跨域方舱计算系统及方法 |
CN111638941B (zh) * | 2020-05-21 | 2022-08-02 | 同济大学 | 基于数据资源分布的跨域方舱计算系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220215109A1 (en) | 2022-07-07 |
WO2021056854A1 (zh) | 2021-04-01 |
CN110781430B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11042569B2 (en) | System and method for load, aggregate and batch calculation in one scan in a multidimensional database environment | |
US20190102447A1 (en) | System and method for metadata sandboxing and what-if analysis in a multidimensional database environment | |
US11520760B2 (en) | System and method for providing bottom-up aggregation in a multidimensional database environment | |
CN105122243B (zh) | 用于半结构化数据的可扩展分析平台 | |
US9361320B1 (en) | Modeling big data | |
US7702682B2 (en) | System and method for creating and manipulating information containers with dynamic registers | |
US7873682B2 (en) | System and method for creating and manipulating information containers with dynamic registers | |
Scheidgen et al. | Automated and transparent model fragmentation for persisting large models | |
US8364723B1 (en) | Apparatus and method for realizing big data into a big object and non-transitory tangible machine-readable medium thereof | |
CN109284435B (zh) | 面向互联网的用户交互痕迹捕获、存储和检索系统及方法 | |
CN106873952B (zh) | 移动端网页开发的数据处理系统和方法、及应用装置 | |
CN110188149A (zh) | 一种数据仓库系统 | |
CN105007314A (zh) | 面向海量读者阅读数据的大数据处理系统 | |
CN105760491A (zh) | 基于设备功能的数据建模方法及装置 | |
CN117271460B (zh) | 基于科研数字对象语用关系的科研数联网服务方法与系统 | |
CN110781430B (zh) | 互联网新型虚拟数据中心系统及其构造方法 | |
CN110019440B (zh) | 数据的处理方法及装置 | |
MX2011003102A (es) | Suscripcion de datos. | |
US20160162814A1 (en) | Comparative peer analysis for business intelligence | |
US9542457B1 (en) | Methods for displaying object history information | |
CN113704272B (zh) | 一种人机物融合环境下的数字对象状态表达方法及装置 | |
CN115248815A (zh) | 预测查询处理 | |
AU2021103781A4 (en) | New internet virtual data center system and method for constructing the same | |
CN113360496A (zh) | 一种构建元数据标签库的方法及装置 | |
CN104040537A (zh) | 数据库查询的自动生成和执行的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |