CN112417327A - 一种数据处理方法、装置、设备及介质 - Google Patents
一种数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112417327A CN112417327A CN202011332351.4A CN202011332351A CN112417327A CN 112417327 A CN112417327 A CN 112417327A CN 202011332351 A CN202011332351 A CN 202011332351A CN 112417327 A CN112417327 A CN 112417327A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- resource
- webpage
- link information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000010219 correlation analysis Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000005259 measurement Methods 0.000 claims description 44
- 238000012795 verification Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 79
- 230000015654 memory Effects 0.000 description 9
- 230000005611 electricity Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种数据处理方法、装置、设备及介质。其中的方法包括:从资源定位队列中获取目标网页的链接信息;基于目标网页的链接信息获取与目标业务关联的至少一个数据;对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型;采用资源量测算模型对目标业务对应的数据集进行处理,得到目标业务的资源量。采用本申请实施例能够得到可信度较高的资源量测算模型,利用资源测算模型预测目标业务的资源量,可提高目标业务资源量测算的准确性。本申请实施例涉及区块链技术,如可将资源量测算模型写入区块链中,以用于目标业务的资源量测算。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
许多目标业务场景(例如,互联网数据中心(Internet Data Center,IDC)租赁业务场景、仓库租赁业务场景等等)均会涉及目标业务的价格测算。目前,对目标业务的价格的测算是通过用户凭借经验设定的预测模型来实现的。比如,采用人为设定的预测模型来对IDC租赁成本进行测算,可得到IDC的预测租赁价格。但实践发现,由于IDC项目分布较广、机房级别较多、设备种类较复杂,使得IDC租赁成本的计算受到许多因素的影响,然而,通过用户经验得到的预测模型依赖于少量的、过时的数据,造成预测模型的可信度低,进而采用该预测模型测算得到的IDC预测租赁价格的可靠性差,预测效率较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及介质,能够得到可信度较高的资源量测算模型,利用资源测算模型测算目标业务的资源量,可提高目标业务的资源量的准确性。
一方面,本申请实施例提供一种数据处理方法,该方法包括:
从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;
基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;
对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组;
对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型;
获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系;
采用资源量测算模型对数据集进行处理,得到待检测的目标业务的资源量。
在一个实施例中,对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组的具体实施过程为:
删除至少一个数据中的第一目标数据,得到至少一个剩余数据,第一目标数据包括以下至少一种:至少一个数据中的重复数据、至少一个数据中的错误数据、至少一个数据中的不完整数据;
对至少一个剩余数据进行相关性分析;
将至少一个剩余数据中具有相关性的剩余数据划分至同一个数据组,以得到至少一个数据组。
在一个实施例中,对至少一个剩余数据进行相关性分析之后,还可以获取相关性分析结果,基于相关性分析结果从至少一个剩余数据中筛选第二目标数据,第二目标数据为至少一个剩余数据中未划分至任一数据组的剩余数据;
显示目标页面,目标页面包含至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据。
在一个实施例中,在目标页面上检测是否存在针对第二目标数据的调整操作;
若存在调整操作,则对调整操作对应的第二目标数据进行校验,得到校验结果;
当校验结果为校验成功时,根据调整操作对第二目标数据进行调整,得到调整后的第二目标数据;
将调整处理后的第二目标数据和各个数据组中包含的数据进行相关性分析,将调整处理后的第二目标数据和各个数据组中包含的数据中,具有相关性的数据划分到同一目标数据组中,以得到至少一个目标数据组;
对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型的具体实施过程为:
对至少一个目标数据组进行回归训练,得到与目标业务关联的资源量测算模型。
在一个实施例中,对各个第二目标数据进行校验,得到校验结果的具体实施过程为:
检测预设数据库中是否存在第二目标数据对应的数据类型,预设数据库中包含与目标业务具有关联关系的至少一种数据类型;
若预设数据库中存在第二目标数据对应的数据类型,则得到校验结果,校验结果为校验成功。
在一个实施例中,对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型的具体实施过程为:
确定数据组中分别为第一数据类型和第二数据类型的数据,第一数据类型为自变量,第二数据类型为因变量;
根据第一数据类型对应的数据和第二数据类型对应的数据,得到关于第一类型对应的数据与第二数据类型对应的数据之间的散点图;
基于散点图,确定回归方程,回归方程中包含第一数据类型和第二数据类型;
根据回归方程得到与目标业务关联的资源量测算模型。
在一个实施例中,目标业务为机房资源量的测算业务,目标网页中包括至少一个页面元素;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据的具体实施过程为:
获取目标网页中各页面元素与机房资源量之间的匹配值;
将各页面元素中匹配值大于或等于匹配阈值的元素确定为目标元素;
将目标元素对应的元数据确定为与测算业务具有关联关系的数据。
另一方面,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
获取单元,用于从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;
获取单元,还用于基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;
处理单元,用于对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,得到至少一个数据组;
处理单元,还用于对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型;
获取单元,还用于获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系;
处理单元,还用于采用资源量测算模型对数据集进行处理,得到待检测的目标业务的资源量。
再一方面,本申请实施例提供一种电子设备,包括处理器、存储装置和通信接口,处理器、存储装置和通信接口相互连接,其中,存储装置用于存储支持终端执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行如下步骤:从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,得到至少一个数据组;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型;获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系;采用资源量测算模型对数据集进行处理,得到待检测的目标业务的资源量。
又一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述数据处理方法。
本申请实施例中,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对从目标网页中抓取得到的至少一个数据进行相关性分析,以得到至少一个数据组,该数据组中包括具有相关性的多个数据;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。通过从目标网页中抓取与目标业务相关联的、海量的、真实的数据,能够丰富用来训练资源量测算模型的样本数据,使得基于海量的样本数据训练得到的资源量测算模型更加可靠。另外,利用资源量测算模型来对目标业务的资源量进行测算,可得到该目标业务较为准确的资源量,以帮助企业更好得管理目标业务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的一种资源定位队列的示意图;
图3是本申请实施例提供的一种初始目标网页的示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种目标页面的示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例涉及测算目标业务的资源量。所谓测算目标业务的资源量是指对构建、租赁目标业务的成本进行预测,其中,目标业务可以包括但不限于:互联网数据中心(Internet Data Center,IDC)租赁业务、仓库租赁业务等等。比如,目标业务为IDC租赁业务,那么测算目标业务的资源量可理解为预测IDC的租赁价格。随着电子商务的兴起,企业用户会把越来越多的业务通过互联网来进行处理,这使IDC市场业务快速发展起来;但是,如果企业自己构建这样一个IDC,就需要自己建机房、建系统、聘请很多的开发及维护人员,不仅需要大量的资金投入,而且也很难达到专业级的服务品质;因此,IDC服务供应商可为企业、媒体和各类网站提供大规模、高质量、安全可靠的IDC服务,相应的,企业租赁该IDC机房即可使用IDC的各项业务。在上述IDC业务租赁场景下,企业需要对各个目标业务的资源量(成本价格)进行计算,以得到成本价格较为合适的目标业务。比如,IDC服务提供方A拥有待出租的机房a、IDC服务提供方B拥有待出租的机房b,现企业C想要租赁一间机房,那么企业C可对机房a和机房b进行成本预测,得到机房a的资源量(成本价格)以及机房b的资源量(成本价格);企业C再对机房a的资源量以及机房b的资源量进行比较(如比较机房a与机房b的资源量的高低),确定最终想要租赁的机房。
基于此,本申请实施例提供一种数据处理方法,该数据处理方法,一方面支持对采集的海量数据进行训练,得到目标业务对应的资源量测算模型,由于该资源量测算模型是基于海量的、真实的、实时的数据训练得到的,这提升了资源量测算模型的可靠性;另一方面,基于该资源量测算模型对目标业务(如机房)的资源量(如租赁价格)进行计算,能够得到与最终的资源量较为吻合的预测资源量,进而提升目标业务的资源量的可信度,以帮助企业更好的实现对目标业务的管理。需要说明的是,本申请实施例以机房租赁场景为例介绍本申请实施例提及的数据处理方案,并不会对本申请实施例起到限定作用,本申请实施例提及的数据处理方案还可以运用于其他测算资源量的场景,本申请实施例对此不作限定。
请参见图1,图1是本申请实施例提供的一种数据处理方法的流程示意图;如图1所示的数据处理方案可由电子设备来执行,该方案包括但不限于步骤S101-步骤S106,其中:
S101,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息。
其中,目标网页的链接信息为资源定位队列包括的任一网页的链接信息。资源定位队列可以是指包含多个统一资源定位符(Uniform Resource Locator,URL)的队列;在该资源定位队列中按序排列各个网页的链接信息,即资源定位队列包括的网页的链接信息可以表示为网页的统一资源定位符。另外,资源定位队列包含的各个网页可能属于不同的领域或行业,比如,资源定位队列可能包含关于教育机构的网页的链接信息,还可能包含建筑领域的网页的链接信息,等等。其中,目标网页的链接信息为与目标业务具有关联关系的网页的链接信息,比如,目标业务为机房租赁业务,则目标网页为与机房相关的网页。
在一种实现方式中,资源定位队列中包含的待抓取数据的全部目标网页的链接信息,这些目标网页的链接信息可以是用户事先设置于资源定位队列中的;具体地,各个目标网页的链接信息按照放置到资源定位队列的时间顺序进行排序;当要获取目标网页的链接信息来获取数据时,可以根据放置到资源定位队列的时间顺序(从早到晚,或从晚到早)依次获取各个目标网页的链接信息来实现对目标网页中数据的获取。举例来说,参见图2,图2是本申请实施例提供的一种资源定位队列的示意图;如图2所示,放置到资源定位队列201中的目标网页的链接信息按照时间从早到晚的排列顺序为:目标页面A的链接信息202、目标网页B的链接信息203以及目标网页C的链接信息204;当要获取目标网页的链接信息来抓取数据时,依次获得的目标网页的链接信息为:目标页面A的链接信息202、目标网页B的链接信息203以及目标网页C的链接信息204,那么,从目标网页中抓取数据的顺序为:目标页面A中的数据、目标网页B中的数据以及目标网页C中的数据。需要说明的是,放置于资源定位队列中的各个目标网页的链接信息的顺序,除按照时间顺序以外,还可以根据用户设置的各个目标网页的链接信息的优先级进行排序,或者,根据其他规则进行排序,本申请实施例对各个目标网页的链接信息在资源定位队列中的排序方式不作限定。
在另一种实现方式中,资源定位队列中可能只包括待抓取数据的初始目标网页的链接信息(可能由用户事先设置于资源定位队列中);当基于初始目标网页的链接信息在初始目标网页中进行抓取数据时,可获取初始目标网页中所包含的与目标业务具有关联关系的其他目标网页的链接信息;并将这些目标网页的链接信息放置于资源定位队列中,这样下一次获取目标网页的链接信息用于获取数据时,可直接从资源定位队列中获取目标网页的链接信息,而不必从初始目标网页中重新获取。举例来说,参见图3,图3是本申请实施例提供的一种初始目标网页的示意图;如图3所示,初始目标网页301中包含多个页面元素,这些页面元素可以包括但不限于:图片302、文字303、视频、符号......;其中,部分页面元素可能携带与该部分页面元素相关的目标网页的链接信息,通过点击该部分页面元素可从初始目标网页302切换至该部分页面元素对应的目标网页;相应的,部分页面元素对应的目标网页中同样包含多个页面元素,部分页面元素同样携带该部分页面元素对应的目标网页的链接信息;通过从初始目标网页中抓取目标网页的链接信息,以及从目标网页中抓取下一目标网页的链接信息的方式,可获取与目标业务具有关联关系的多个目标网页的链接信息,这些目标网页的链接信息被依次放置于资源定位队列中。
S102,基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据。
具体地,将目标网页中包括的各种页面元素和目标业务之间进行匹配,得到各个页面元素的匹配值,页面元素的匹配值越大,表示该页面与目标业务之间的关联性越大,反之,页面元素的匹配值越小,表示该页面与目标业务之间的关联性越低;将匹配值大于或等于匹配阈值的页面元素确定为与目标业务具有关联关系的目标元素;将目标元素对应的元素数据确定为与目标业务具有关联关系的数据。其中,匹配阈值可为用户设定或系统默认的,本申请实施例对此不作限定。
以目标业务为机房资源量的测算业务为例来说,目标网页可以为政府部门对应的官方网页、地方房屋管理部门对应的官方网页等等;目标网页中包括至少一个页面元素;将目标网页中包括的各种页面元素与机房资源量的测算服务之间进行匹配,获取目标网页中各页面元素与机房资源量之间的匹配值;将各页面元素中匹配值大于或等于匹配阈值的页面元素确定为目标元素;将目标元素对应的元素数据确定为与测算业务具有关联关系的数据。比如,假设目标网页中包括的页面元素为:页面元素A、页面元素B、页面元素C以及页面元素D,其中,页面元素A与机房资源量的测算业务之间的匹配值为30%、页面元素B与机房资源量的测算业务之间的匹配值为51%、页面元素C与机房资源量的测算业务之间的匹配值为70%、页面元素D与机房资源量的测算业务之间的匹配值为46%;假设匹配阈值为50%,则页面元素C与机房资源量的测算业务之间的匹配值70%>页面元素B与机房资源量的测算业务之间的匹配值51%>匹配阈值50%>页面元素D与机房资源量的测算业务之间的匹配值46%>页面元素A与机房资源量的测算业务之间的匹配值30%,确定页面元素B和页面元素C是与机房资源量的测算业务具有关联关系的目标元素;进一步的,将页面元素B对应的元素数据和页面元素C对应的元素数据确定为与测算业务具有关联关系的数据。
基于上述描述可知,本申请实施例中用来训练得到资源量测算模型的样本数据是从目标网页中获取的、实时的、真实可靠的数据,这样可使最终得到的资源量测算模型为真实可靠的模型,进而采用可靠的资源量测算模型对目标业务的资源量进行测算,能够获得更加可信的资源量,以帮助企业更好地实现对目标业务的管理。
S103,对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一数据组,得到至少一个数据组。
具体地,针对从目标网页中获取的各个数据的数据类型进行相关性分析,将属于同一资源量测算项目的数据类型下的数据划分到同一数据组中,可得到不同数据类型的数据组。以目标业务为机房资源量的测算业务为例进行说明,机房资源量的测算业务涉及许多的数据类型,比如,人力单价、房租单价(元/月/平方)、实耗电费单价、基础电费单价(元/月/KVA)、市电线路数、单机柜平均功率(KW)、机房寿命月、机房维保月、机柜总数量、面积系数(单机柜占用面积)、每月平均天数、每天平均小时、机房领导人数、几班倒、轮备班组数、每班组人数下限、最小班组维护的机柜上限......,等等;其中,人力单价、机房领导人数、几班倒、轮备班组树、每班组人数下限,这几种类型的数据涉及人力成本计算,则可将人力单价、机房领导人数、几班倒、轮备班组树、每班组人数下限这些数据类型各自对应的数据划分到同一数据组中;同理,房租单价(元/月/平方)、实耗电费单价、基础电费单价(元/月/KVA)、市电线路数、单机柜平均功率(KW)这几种类型的数据涉及电力成本计算,则可将这些数据类型各自对应的数据划分至同一数据组中;等等。
S104,对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。
具体地,可采用一些数据分析工具对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。比如,数据分析工具可包括但不限于:SPSS(StatisticalProduct and Service Solutions,统计产品与服务解决方案)、SAS(STATISTICALANALYSIS SYSTEM,SAS)等等。以数据分析工具为SPSS,目标业务为机房资源量的测算业务为例介绍对至少一个数据组进行回归训练,得到与机房资源量的测算服务关联的资源量测算模型的过程;首先,确定数据组中的第一数据类型和第二数据类型,其中,第一数据类型为自变量,第二数据类型为因变量,换句话说,根据第一数据类型对应的数据可推导出第二数据类型对应的数据;其次,根据第一数据类型对应的数据和第二数据类型对应的数据,得到关于第一数据类型对应的数据和第二数据类型对应的数据之间的散点图,该散点图中以点的形式展现各个数据在坐标中的位置;基于散点图,确定回归方程,回归方程中包含第一数据类型和第二数据类型;根据回归方程得到与目标业务关联的资源量测算模型;其中,基于散点图确定回归方式的方式可以为:分析散点图中第一数据类型对应数据和第二数据类型对应的数据的可能回归关系(如线性、非线性),基于可能的回归关系,得到与目标业务关联的资源量测算模型。比如,第一数据类型可包括但不限于:人力单价(元/天)、总人数、总机柜数量,第二数据类型为:人力成本;采用数据分析工具对第一数据类型对应的数据以及第二数据类型对应的数据进行回归训练后,可得到(1)人力成本=人力单价*总人数/总机柜数量;同理,
(2)投入摊销=概算建设成本*单机柜平均功率*(1-残值率)/机房寿命月;
(3)设备维保=概算建设成本*单机柜平均功率*设备造价比系数*月设备维保费率*机房维保月/机房寿命月;
(4)基本电费=基础电费单价*市电线路数*每路市电电量值/机柜总数;
(5)实耗电费=实耗电费单价*单机柜平均功率*PUE系数*每天平均小时*每月平均天数;
(6)房租成本=房答单*面积系数;
(7)税=城建税+教育附加税+地方教育附加费;
基于此,机房资源量=(人力成本+投入摊销+设备维保+基本电费+实耗电费+房租成本+税)/(1-利润率)。
可知,采用数据分析工具对至少一个数据组进行回归训练,可得到各个数据组对应的子资源量测算模型,基于各个子资源量测算模型计算可得到最终的资源量测算模型,这种采用数据分析工具得到的资源量测算模型相对于由用户人为设置,或者用户主观设计的预测模型来说,提高了资源量测算模型的可靠性。
S105,获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系。
S106,采用资源量测算模型对数据集进行处理,得到目标业务对应的资源量。
基于步骤S101-步骤S104可得到目标业务的资源量测算模型,那么在采用资源量测算模型对待检测的目标业务进行资源量测算之前,可先获取该待检测的目标业务对应的数据集,数据集中包含的各个数据与资源量测算模型具有关联关系,换句话说,数据集中包含的数据对应的数据类型与资源量测算模型是一致的;举例来说,资源量测算模型为:人力成本=人力单价*总人数/总机柜数量,则待检测的目标业务对应的数据集中会包含人力单价这一数据类型对应的数据、总人数这一数据类型对应的数据、以及总机柜这一数据类型对应的数据。通过上述方式,可得到关于目标业务的可信的预测资源量,提升对目标业务的资源量计算的准确性。
举例来说,现有待租赁的机房A和待租赁的机房B,其中,待租赁的机房A属于a地区,待租赁的机房B属于b地区;首先,可采集a地区的与机房租赁的海量数据,并基于海量数据训练得到a地区的机房租赁的资源量测算模型A;同理,可采集b地区的与机房租赁的海量数据,并基于海量数据训练得到b地区的机房租赁的资源量测算模型B;其次,获取a地区的与机房租赁相关的数据集a,并基于数据集a和资源量测算模型A,测算机房A的租赁价格A;同理,获取b地区的与机房租赁相关的数据集b,并基于数据集b和资源量测算模型B,测算机房B的租赁价格B;最后,结合其他因素(比如,机房与企业的距离)、租赁价格A、租赁价格B对机房a和机房b进行评估,确定最终用户想要租用的机房。
本申请实施例中,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对从目标网页中抓取得到的至少一个数据进行相关性分析,以得到至少一个数据组,该数据组中包括具有相关性的多个数据;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。通过从目标网页中抓取与目标业务相关联的、海量的、真实的数据,能够丰富用来训练资源量测算模型的样本数据,使得基于海量的样本数据训练得到的资源量测算模型更加可靠。另外,利用资源量测算模型来对目标业务的资源量进行测算,可得到该目标业务较为准确的资源量,以帮助企业更好得管理目标业务。
请参见图4,图4是本申请实施例提供的另一种数据处理方法的流程示意图;该数据处理方案可由电子设备来执行,该方案可包括但不限于步骤S401-步骤S408,其中:
S401,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息。
S402,基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据。
需要说明的是,步骤S401-步骤S402的具体实施过程可参见图1所示实施例中步骤S101-步骤S102所示的具体实施过程的相关描述,在此不做赘述。
S403,删除至少一个数据中的第一目标数据,得到至少一个剩余数据。
可以理解的是,目标网页中所包含的数据并非全是正确、完整的数据,因此,在从目标网页中抓取到至少一个数据之后,还可以对至少一个数据进行数据清洗(Datacleaning),其中,数据清除的对象是至少一个数据中的第一目标数据。所谓第一目标数据可以包括但不限于:(1)至少一个数据中的重复数据;比如,在第一历史时刻从目标网页中抓取数据类型A对应的数据a,在第二历史时刻从目标网页中抓取数据类型A对应的数据b,其中,第一历史时刻位于第二历史时刻之前,在这种情况下,可将第一历史时刻抓取的数据a进行删除,以保留日期最新的数据b;又如,在某一历史时刻同时从第一目标网页中抓取数据类型A对应的数据c,以及从第二目标网页中抓取数据类型A对应的数据d,由于第一目标网页的可信度高于第二目标网页的可信度,在这种情况下,可删除数据d,保留数据c。(2)至少一个数据中的错误数据;比如,预设数据类型A对应的数据属于范围[2,8],现从目标网页中抓取的数据类型A对应的数据值为1,表示实际数据类型A对应的数据不满足预设条件,在这种情况下,可删除该数据类型对应的数据。(3)至少一个数据中的不完整数据;比如,采集的数据包括某一机房的机房名称(需采集该机房名称下的数据),如果该机房的名称不完整,可能会导致基于该机房名称抓取的数据为不正确的数据,因此,需删除至少一个数据中的不完整数据。基于此,采用上述具体实施过程对抓取得到的至少一个数据进行数据清洗处理后,可得到至少一个剩余数据。
S404,对至少一个剩余数据进行相关性分析,得到第二目标数据。
其中,第二目标数据是指至少一个剩余数据中未划分至任一数据组的剩余数据。具体地,在对至少一个剩余数据进行相关性分析之后,可获取相关性分析结果;基于相关性分析结果从至少一个剩余数据中筛选第二目标数据。比如,至少一个剩余数据包括:剩余数据A、剩余数据B、剩余数据C、剩余数据D以及剩余数据E,其中,剩余数据A与剩余数据B被划分至同一数据组中,剩余数据D与剩余数据E被划分至同一数据组中,剩余数据C未被划分至任一数据组中,则将剩余数据C确定为第二目标数据。
需要说明的是,对至少一个剩余数据进行相关性分析的具体实施过程可参见图1所示实施例中步骤S103所描述的针对至少一个数据的相关性分析的具体实施过程的相关描述,在此不做赘述。
S405,显示目标页面,目标页面包含至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据。
S406,在目标页面上检测是否存在针对第二目标数据的调整操作。
S407,若存在调整操作,则对调整操作对应的第二目标数据进行校验,得到校验结果。
S408,当校验结果为校验成功时,对第二目标数据进行调整,得到调整后的第二目标数据;将调整后的第二目标数据和各个数据组中包含的数据进行相关性分析,得到至少一个目标数据组。
步骤S405-步骤S408中,对至少一个剩余数据进行相关性分析之后,电子设备还可显示目标页面,在目标页面上显示有至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据,这样方便用户查看或调整用于训练得到资源量测算模型的数据;比如,目标页面上显示的某一第二目标数据是可以划分至任一数据组的数据(即第二目标数据对应的数据类型与任意数据组中的数据类型存在相关性),此时用户人为调整第二目标数据,可将第二目标数据划分至某一数据组中,这提高数据划分的准确性;可以理解的是,目标页面显示至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据的形式可以为列表、图形等等形式,本申请实施例对此不作限定。比如,参见图5,图5是本申请实施例提供的一种目标页面的示意图;如图5所示,在目标页面上以列表形式展现至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据。
在一种实现方式中,对至少一个剩余数据进行相关性分析的过程中,很有可能将原本应该被划分至某一数据组中的剩余数据误判为第二目标数据;基于此,本申请实施例还支持在目标页面上检测是否存在针对第二目标数据的调整操作,该调整操作用于指示用户具有对该第二目标数据进行修改或更新的需求;若目标页面上存在针对第二目标数据的调整操作,则对调整操作对应的第二目标数据进行校验,得到校验结果;当校验结果为校验成功时,根据调整操作对第二目标数据进行调整,得到调整后的第二目标数据;将调整后的第二目标数据和各个数据组中包含的数据进行相关性分析,得到至少一个目标数据组。可以理解的是,由于调整后的第二目标数据是满足条件的,因此,第二目标数据会被划分至目标数据组中。这样可避免一些必要的数据被误删,提高最终的资源量测算模型的准确性和可靠性。请再参见图5,如图5所示,在第二目标数据所占区域还显示调整标识501,当调整标识501被选中时,表示用户存在对该第二目标数据进行调整的数据;此时,用户可在目标页面上进行针对第二目标数据进行调整操作,比如将第二目标数据的数值增大或减小,以使修改后的第二目标数据的数值满足条件,等等;将调整后的第二目标数据以及其他剩余数据采用前述的相关性分析方法进行相关性分析,得到更新后的目标数据组,目标数据组中包含第二目标数据。
其中,对第二目标数据进行校验的可选方式可包括:检测预设数据库中是否存在第二目标数据对应的数据类型,预设数据库中包含与目标业务具有关联关系的至少一种数据类型;若预设数据库中存在第二目标数据对应的数据类型,则得到校验结果,校验结果为校验成功。具体地,预设数据库可以是与目标业务关联的数据库,在预设数据库中存储有计算资源量测算模型的各种数据类型;在这种情况下,如果预设数据库中存在第二目标数据对应的数据类型,表示第二目标数据对应的数据类型为计算资源量测算模型所需的数据类型,此时可确定该第二目标数据为误判数据,则触发根据调整操作对第二目标数据进行调整的操作。
S409,对至少一个目标数据组进行回归训练,得到与目标业务关联的资源量测算模型。
需要说明的是,对至少一个目标数据组进行回归训练的具体实施过程与,对至少一个数据组进行回归训练的实施过程类似,可参见图1所示实施例中步骤S104所描述的具体实施过程的相关描述,在此不作赘述。
S410,对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。
具体地,若在目标页面上未检测到针对第二目标数据的调整操作,则执行对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型的步骤。可按照步骤S104所描述的具体实施过程的相关描述对至少一个数据组进行回归训练,得到资源量测算模型,在此不作赘述。
本申请实施例中,根据目标网页的链接信息从目标网页中获取至少一个数据之后,还可以对至少一个数据进行数据清洗,以实现删除至少一个数据中的第一目标数据,以实现对数据的预处理;经过数据清洗后得到至少一个剩余数据,对至少一个剩余数据进行相关性分析,得到相关性分析结果,基于相关性分析结果从至少一个剩余数据中筛选第二目标数据,第二目标数据为至少一个剩余数据中未被划分至任一数据组的数据,通过这种方式,可排除至少一个剩余数据中与其他数据不具有相关性的第二目标数据;另外,本申请实施例还支持在目标页面中显示至少一个数据组、各个数据组所包含的数据、第一目标数据以及第二目标数据,当目标页面中存在针对第二目标数据的调整操作时,根据调整操作可将第二目标数据划分至目标数据组中,这样可避免对第二目标数据的误判,提升数据的准确性,使得基于至少一个目标数据组进行回归训练得到的资源量测算模型更加准确、可靠。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再请参见图6,图6是本申请实施例的提供一种数据处理装置的结构示意图。
本申请实施例的装置的一个实现方式中,装置包括如下结构。
获取单元601,用于从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;
获取单元601,还用于基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;
处理单元602,用于对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,得到至少一个数据组;
处理单元602,还用于对至少一个数据组进行回归训练,以得到与目标业务关联的资源量测算模型;
获取单元601,还用于获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系;
处理单元602,还用于采用资源量测算模型对数据集进行处理,得到待检测的目标业务的资源量。
在一个实施例中,处理单元602在对所述至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组时,具体用于删除至少一个数据中的第一目标数据,得到至少一个剩余数据,第一目标数据包括以下至少一种:至少一个数据中的重复数据、至少一个数据中的错误数据、至少一个数据中的不完整数据;
对至少一个剩余数据进行相关性分析;
将至少一个剩余数据中具有相关性的剩余数据划分至同一个数据组,以得到至少一个数据组。
在一个实施例中,处理单元602在对至少一个剩余数据进行相关性分析之后,还用于:
获取相关性分析结果,基于相关性分析结果从至少一个剩余数据筛选第二目标数据,第二目标数据为至少一个剩余数据中未划分至任一数据组的剩余数据;
显示目标页面,目标页面包含所述至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据。
在一个实施例中,处理单元602还用于:
在目标页面上检测是否存在针对第二目标数据的调整操作;
若存在调整操作,则对调整操作对应的第二目标数据进行校验,得到校验结果;
当所述校验结果为校验成功时,根据所述调整操作对所述第二目标数据进行调整,得到调整后的第二目标数据;
将调整处理后的第二目标数据和各个数据组中包含的数据进行相关性分析,将调整处理后的第二目标数据和各个数据组中包含的数据中,具有相关性的数据划分到同一目标数据组中,以得到至少一个目标数据组;
处理单元602在对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型,具体用于:
对至少一个目标数据组进行回归训练,得到与目标业务关联的资源量测算模型。
在一个实施例中,处理单元602在对各个第二目标数据进行校验,得到校验结果时,具体用于:检测预设数据库中是否存在第二目标数据对应的数据类型,预设数据库中包含与目标业务具有关联关系的至少一种数据类型;
若预设数据库中存在第二目标数据对应的数据类型,则得到校验结果,校验结果为校验成功。
在一个实施例中,处理单元602在对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型时,具体用于:确定数据组中分别为第一数据类型和第二数据类型的数据,第一数据类型为自变量,第二数据类型为因变量;
根据第一数据类型对应的数据和第二数据类型对应的数据,得到关于第一类型对应的数据与第二数据类型对应的数据之间的散点图;
基于散点图,确定回归方程,回归方程中包含第一数据类型和第二数据类型;
根据回归方程得到与目标业务关联的资源量测算模型。
在一个实施例中,目标业务为机房资源量的测算业务,目标网页中包括至少一个页面元素;处理单元602在基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据时,具体用于:获取目标网页中各页面元素与机房资源量之间的匹配值;
将各页面元素中匹配值大于或等于匹配阈值的页面元素确定为目标元素;
将目标元素对应的元素数据确定为与测算业务具有关联关系的数据。
本申请实施例中,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对从目标网页中抓取得到的至少一个数据进行相关性分析,以得到至少一个数据组,该数据组中包括具有相关性的多个数据;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。这种从海量的目标网页中抓取与目标业务相关联的至少一个数据的方式,能够丰富用来训练资源量测算模型的数据,使得后续训练得到的资源量测算模型的可靠性更高。另外,训练得到的资源量测算模型用来对目标业务进行测算,可得到该目标业务较为准确的资源量,以帮助企业更好得管理目标业务。
再请参见图7,图7是本申请实施例提供的一种电子设备的结构示意图,本申请实施例的电子设备包括供电模块等结构,并包括处理器701、存储装置702以及通信接口703。处理器701、存储装置702以及通信接口703之间可以交互数据,由处理器701实现相应的数据处理方案。
存储装置702可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置702也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储装置702还可以包括上述种类的存储器的组合。
处理器701可以是中央处理器701(central processing unit,CPU)。处理器701也可以是由CPU和GPU的组合。在电子设备中,可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中,存储装置702用于存储程序指令。处理器701可以调用程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,电子设备的处理器701,调用存储装置702中存储的程序指令,用于从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型;获取待检测的目标业务对应的数据集,数据集包含的各个数据与资源量测算模型具有关联关系;采用资源量测算模型对数据集进行处理,得到待检测的目标业务的资源量。
在一个实施例中,处理器701在对至少一个数据进行相关性分析,将至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组时,具体用于删除至少一个数据中的第一目标数据,得到至少一个剩余数据,第一目标数据包括以下至少一种:至少一个数据中的重复数据、至少一个数据中的错误数据、至少一个数据中的不完整数据;
对至少一个剩余数据进行相关性分析;
将至少一个剩余数据中具有相关性的剩余数据划分至同一个数据组,以得到至少一个数据组。
在一个实施例中,处理器701在对至少一个剩余数据进行相关性分析之后,还用于:
获取相关性分析结果,基于相关性分析结果从至少一个剩余数据中筛选第二目标数据,第二目标数据为至少一个剩余数据中未划分至任一数据组的剩余数据;
显示目标页面,目标页面包含至少一个数据组、各个数据组中的各个数据、第一目标数据、以及第二目标数据。
在一个实施例中,处理器701还用于:
在目标页面上检测是否存在针对第二目标数据的调整操作;
若存在调整操作,则对调整操作对应的第二目标数据进行校验,得到校验结果;
当所述校验结果为校验成功时,根据所述调整操作对所述第二目标数据进行调整,得到调整后的第二目标数据;
将调整处理后的第二目标数据和各个数据组中包含的数据进行相关性分析,将调整处理后的第二目标数据和各个数据组中包含的数据中,具有相关性的数据划分到同一目标数据组中,以得到至少一个目标数据组;
处理器701在对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型时,具体用于:
对至少一个目标数据组进行回归训练,得到与目标业务关联的资源量测算模型。
在一个实施例中,处理器701在对各个第二目标数据进行校验,得到校验结果时,具体用于:检测预设数据库中是否存在第二目标数据对应的数据类型,预设数据库中包含与目标业务具有关联关系的至少一种数据类型;
若预设数据库中存在第二目标数据对应的数据类型,则得到校验结果,校验结果为校验成功。
在一个实施例中,处理器701在对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型时,具体用于:确定数据组中分别为第一数据类型和第二数据类型的数据,第一数据类型为自变量,第二数据类型为因变量;
根据第一数据类型对应的数据和第二数据类型对应的数据,得到关于第一类型对应的数据与第二数据类型对应的数据之间的散点图;
基于散点图,确定回归方程,回归方程中包含第一数据类型和第二数据类型;
根据回归方程得到与目标业务关联的资源量测算模型。
在一个实施例中,目标业务为机房资源量的测算业务,目标网页中包括至少一个页面元素;处理器701在基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据时,具体用于:获取目标网页中各页面元素与机房资源量之间的匹配值;
将各页面元素中匹配值大于或等于匹配阈值的页面元素确定为目标元素;
将目标元素对应的元素数据确定为与测算业务具有关联关系的数据。
本申请实施例中,从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,目标网页的链接信息为资源定位队列中任一网页的链接信息;基于目标网页的链接信息从目标网页中获取与目标业务关联的至少一个数据;对从目标网页中抓取得到的至少一个数据进行相关性分析,以得到至少一个数据组,该数据组中包括具有相关性的多个数据;对至少一个数据组进行回归训练,得到与目标业务关联的资源量测算模型。这种从海量的目标网页中抓取与目标业务相关联的至少一个数据的方式,能够丰富用来训练资源量测算模型的数据,使得后续训练得到的资源量测算模型的可靠性更高。另外,训练得到的资源量测算模型用来对目标业务进行测算,可得到该目标业务较为准确的资源量,以帮助企业更好得管理目标业务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,所述目标网页的链接信息为所述资源定位队列中任一网页的链接信息;
基于所述目标网页的链接信息从所述目标网页中获取与目标业务关联的至少一个数据;
对所述至少一个数据进行相关性分析,将所述至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个所述数据组;
对至少一个所述数据组进行回归训练,得到与所述目标业务关联的资源量测算模型;
获取待检测的目标业务对应的数据集,所述数据集包含的各个数据与所述资源量测算模型具有关联关系;
采用所述资源量测算模型对所述数据集进行处理,得到所述待检测的目标业务的资源量。
2.如权利要求1所述的方法,其特征在于,所述对所述至少一个数据进行相关性分析,将所述至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个数据组,包括:
删除所述至少一个数据中的第一目标数据,得到至少一个剩余数据,所述第一目标数据包括以下至少一种:所述至少一个数据中的重复数据、所述至少一个数据中的错误数据、所述至少一个数据中的不完整数据;
对所述至少一个剩余数据进行相关性分析;
将所述至少一个剩余数据中具有相关性的剩余数据划分至同一个数据组,以得到所述至少一个数据组。
3.如权利要求2所述的方法,其特征在于,所述对所述至少一个剩余数据进行相关性分析之后,所述方法还包括:
获取相关性分析结果,基于所述相关性分析结果从所述至少一个剩余数据中筛选第二目标数据,所述第二目标数据为所述至少一个剩余数据中未划分至任一所述数据组的剩余数据;
显示目标页面,所述目标页面包含所述至少一个数据组、各个所述数据组中的各个数据、所述第一目标数据、以及所述第二目标数据。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
在所述目标页面上检测是否存在针对所述第二目标数据的调整操作;
若存在所述调整操作,则对所述调整操作对应的第二目标数据进行校验,得到校验结果;
当所述校验结果为校验成功时,根据所述调整操作对所述第二目标数据进行调整,得到调整后的第二目标数据;
将所述调整处理后的第二目标数据和各个所述数据组中包含的数据进行相关性分析,将所述调整处理后的第二目标数据和各个所述数据组包含的数据中,具有相关性的数据划分到同一目标数据组中,以得到至少一个所述目标数据组;
所述对至少一个所述数据组进行回归训练,得到与所述目标业务关联的资源量测算模型,包括:
对至少一个所述目标数据组进行回归训练,得到与所述目标业务关联的资源量测算模型。
5.如权利要求4所述的方法,其特征在于,所述对各个所述第二目标数据进行校验,得到校验结果,包括:
检测预设数据库中是否存在所述第二目标数据对应的数据类型,所述预设数据库中包含与所述目标业务具有关联关系的至少一种数据类型;
若所述预设数据库中存在所述第二目标数据对应的数据类型,则得到校验结果,所述校验结果为校验成功。
6.如权利要求1所述的方法,其特征在于,所述对至少一个所述数据组进行回归训练,得到与所述目标业务关联的资源量测算模型,包括:
确定所述数据组中分别为第一数据类型和第二数据类型的数据,所述第一数据类型为自变量,所述第二数据类型为因变量;
根据所述第一数据类型对应的数据和所述第二数据类型对应的数据,得到所述第一类型对应的数据与所述第二数据类型对应的数据之间的散点图;
基于所述散点图,确定回归方程,所述回归方程中包含所述第一数据类型和所述第二数据类型;
根据所述回归方程得到与所述目标业务关联的资源量测算模型。
7.如权利要求1所述的方法,其特征在于,所述目标业务为机房资源量的测算业务,所述目标网页中包括至少一个页面元素;所述基于所述目标网页的链接信息从所述目标网页中获取与目标业务关联的至少一个数据,包括:
获取所述目标网页中各页面元素与所述机房资源量之间的匹配值;
将所述各页面元素中所述匹配值大于或等于匹配阈值的页面元素确定为目标元素;
将所述目标元素对应的元素数据确定为与所述测算业务关联的数据。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于从资源定位队列包括的至少一个网页的链接信息中获取目标网页的链接信息,其中,所述目标网页的链接信息为所述资源定位队列中任一网页的链接信息;
所述获取单元,还用于基于所述目标网页的链接信息从所述目标网页中获取与目标业务关联的至少一个数据;
处理单元,用于对所述至少一个数据进行相关性分析,将所述至少一个数据中具有相关性的数据划分至同一个数据组,以得到至少一个所述数据组;
所述处理单元,还用于对至少一个所述数据组进行回归训练,得到与所述目标业务关联的资源量测算模型;
所述获取单元,还用于获取待检测的目标业务对应的数据集,所述数据集包含的各个数据与所述资源量测算模型具有关联关系;
所述处理单元,还用于采用所述资源量测算模型对所述数据集进行处理,得到所述待检测的目标业务的资源量。
9.一种电子设备,其特征在于,包括处理器、存储装置和通信接口,所述处理器、所述存储装置和所述通信接口相互连接,其中,所述存储装置用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332351.4A CN112417327B (zh) | 2020-11-24 | 2020-11-24 | 一种数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332351.4A CN112417327B (zh) | 2020-11-24 | 2020-11-24 | 一种数据处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417327A true CN112417327A (zh) | 2021-02-26 |
CN112417327B CN112417327B (zh) | 2024-04-09 |
Family
ID=74777785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011332351.4A Active CN112417327B (zh) | 2020-11-24 | 2020-11-24 | 一种数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417327B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310131A1 (en) * | 2013-01-31 | 2015-10-29 | Lf Technology Development Corporation Limited | Systems and methods of providing outcomes based on collective intelligence experience |
CN105869019A (zh) * | 2016-03-31 | 2016-08-17 | 金蝶软件(中国)有限公司 | 一种商品价格预测方法及装置 |
CN108038164A (zh) * | 2017-12-06 | 2018-05-15 | 上海宽全智能科技有限公司 | 数据关联方法、设备及存储介质 |
CN109034445A (zh) * | 2018-06-08 | 2018-12-18 | 广东红海湾发电有限公司 | 一种面向市场的电力管理系统和方法 |
CN109492827A (zh) * | 2018-12-06 | 2019-03-19 | 深圳市中农易讯信息技术有限公司 | 商品价格预测方法、装置、计算机设备及存储介质 |
CN110992101A (zh) * | 2019-12-05 | 2020-04-10 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 车站广告媒体资源价值及收益预测回归方法及预测模型 |
-
2020
- 2020-11-24 CN CN202011332351.4A patent/CN112417327B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310131A1 (en) * | 2013-01-31 | 2015-10-29 | Lf Technology Development Corporation Limited | Systems and methods of providing outcomes based on collective intelligence experience |
CN105869019A (zh) * | 2016-03-31 | 2016-08-17 | 金蝶软件(中国)有限公司 | 一种商品价格预测方法及装置 |
CN108038164A (zh) * | 2017-12-06 | 2018-05-15 | 上海宽全智能科技有限公司 | 数据关联方法、设备及存储介质 |
CN109034445A (zh) * | 2018-06-08 | 2018-12-18 | 广东红海湾发电有限公司 | 一种面向市场的电力管理系统和方法 |
CN109492827A (zh) * | 2018-12-06 | 2019-03-19 | 深圳市中农易讯信息技术有限公司 | 商品价格预测方法、装置、计算机设备及存储介质 |
CN110992101A (zh) * | 2019-12-05 | 2020-04-10 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 车站广告媒体资源价值及收益预测回归方法及预测模型 |
Non-Patent Citations (1)
Title |
---|
束海峰等: "全球视野,回望中国,国内IDC即将迎来快速增长时期", pages 17, Retrieved from the Internet <URL:http://www.d-long.com/eWebEditor/uploadfile/2018012910185094501900.pdf> * |
Also Published As
Publication number | Publication date |
---|---|
CN112417327B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628435B2 (en) | Extracting seasonal, level, and spike components from a time series of metrics data | |
TWI598839B (zh) | Method and apparatus for determining a target location | |
US20150149091A1 (en) | Apparatus and Method for Determining the Quality or Accuracy of Reported Locations | |
Schiller et al. | Temperature models for pricing weather derivatives | |
US20170140302A1 (en) | Predictive modeling and data analysis in a secure shared system | |
CN106156965B (zh) | 一种物流服务调度方法与设备 | |
JP6852015B2 (ja) | 空室率推計装置及び方法並びにコンピュータプログラム | |
CN105868254A (zh) | 信息推荐方法及装置 | |
CN108648068A (zh) | 一种信用风险评估方法及系统 | |
EP3965050A1 (en) | Systems and methods for deriving rating for properties | |
CN111080417A (zh) | 用于提高预订顺畅率的处理方法、模型训练方法及系统 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN109241435A (zh) | 一种用于数字货币交易的数据推送方法、装置及系统 | |
CN112417327B (zh) | 一种数据处理方法、装置、设备及介质 | |
CN110310476B (zh) | 道路拥堵程度的评估方法、装置、计算机设备及存储介质 | |
CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
CN107145508A (zh) | 网站数据处理方法、装置及系统 | |
CN111080364A (zh) | 一种工程造价数据中心管理系统及装置 | |
CN115759885A (zh) | 一种基于分布式物资供应下的物资抽检方法和装置 | |
CN106649374A (zh) | 导航标签排序的方法及装置 | |
CN115809280A (zh) | 一种群租房识别及迭代识别方法 | |
CN109636437A (zh) | 小区均价预估方法、电子装置及存储介质 | |
CN112073454B (zh) | 资源分发方法、装置、电子设备 | |
CN112927050A (zh) | 待推荐金融产品确定方法、装置、电子设备及存储介质 | |
CN114202149A (zh) | 一种数字化楼宇信息管理方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB03 | Change of inventor or designer information |
Inventor after: Qiu Dong Inventor after: Zhu Xiaoqing Inventor after: Zheng Li Inventor before: Zhu Xiaoqing Inventor before: Teng Houxue Inventor before: Guo Min Inventor before: Qiu Dong |
|
CB03 | Change of inventor or designer information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |