CN112559531B - 数据收集方法、装置、电子设备及存储介质 - Google Patents

数据收集方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112559531B
CN112559531B CN202011532695.XA CN202011532695A CN112559531B CN 112559531 B CN112559531 B CN 112559531B CN 202011532695 A CN202011532695 A CN 202011532695A CN 112559531 B CN112559531 B CN 112559531B
Authority
CN
China
Prior art keywords
time
collection
data table
original data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011532695.XA
Other languages
English (en)
Other versions
CN112559531A (zh
Inventor
邓根强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202011532695.XA priority Critical patent/CN112559531B/zh
Publication of CN112559531A publication Critical patent/CN112559531A/zh
Application granted granted Critical
Publication of CN112559531B publication Critical patent/CN112559531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据采集技术,揭露了一种数据收集方法,包括:获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段,根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间,判断所述真实收集时间是否在所述标准高峰时间段内,若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并再次判断,若所述真实收集时间不在所述标准高峰时间段内,则进行数据收集。此外,本发明还涉及区块链技术,所述真实收集时间可存储于区块链的节点。本发明还提出一种数据收集装置、电子设备以及计算机可读存储介质。本发明可以解决数据无法进行定制化收集的问题。

Description

数据收集方法、装置、电子设备及存储介质
技术领域
本发明涉及数据采集技术领域,尤其涉及一种数据收集方法、装置、电子设备及计算机可读存储介质。
背景技术
大数据背景下,数据规模急剧扩大、数据形式多样、对数据应用的要求也日益提高,这给传统数据库技术带来了巨大的挑战。对于ORACLE、MYSQL等关系型数据库,因为数据库中的对象会经常性发生变化,数据收集有较大难度。比如,金融领域中,Oracle统计信息的默认收集策略是通过JOB(Oracle数据库提供的一个定期执行数据收集或者存储过程的功能)每天全库收集,收集的目标是记录数变更超过10%的对象,默认收集统计信息的时间一般始于晚上10点,终于凌晨2点。
现有技术下,存在以下缺陷:1、无法覆盖到一些特殊的场景,例如大批量更新的时间窗口和统计信息的收集时间窗口冲突,如果大批量更新发生在收集统计信息之后,导致当天收集的统计信息不能准确反映第二天的实际数据量,即已有统计信息不能准确反映表的数据量。2、只收集记录数变更不超过特定数量(如10%)的对象可能存在一些对象漏收集统计信息的情况。3、把收集统计信息窗口人为定死在一段时间内,也可能出现收集统计信息的时间窗口和业务办理时间窗口冲突,容易造成锁表,导致影响到业务办理。
发明内容
本发明提供一种数据收集方法、装置及计算机可读存储介质,其主要目的在于解决数据无法进行定制化收集的问题。
为实现上述目的,本发明提供的一种数据收集方法,包括:
步骤A:获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
步骤B:根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间;
步骤C:判断所述真实收集时间是否在所述标准高峰时间段内;
步骤D:若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C;
步骤E:若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态。
可选地,所述计算所述原始数据表集中每张原始数据表的标准高峰时间段,包括:
在预设时间内,获取所述每张原始数据表的高峰开始、结束时间;
利用所述高峰开始、结束时间计算所述预设时间内每张原始数据表的原始高峰时间段;
计算所述原始高峰时间段在所述预设时间内的平均值,并将所述平均值作为每张原始数据表的标准高峰时间段。
可选地,所述根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,包括:
利用预设的数据冷热度计算方法,计算每张原始数据表中标准高峰时间段内的热数据占比;
根据所述热数据占比及预设的预计收集时间函数计算得到所述预计收集时间。
可选地,所述利用预设的数据冷热度计算方法,计算每张原始数据表中标准高峰时间段内的热数据占比,包括:
获取所述原始数据表中的插入行数、删除行数、更新行数及总行数;
计算所述插入行数、删除行数及更新行数与所述总行数的比值,并将所述比值作为所述热数据占比。
可选地,所述根据所述预计收集时间得到真实收集时间,包括:
获取当前系统时间,根据所述当前系统时间及所述预计收集时间计算得到每张原始数据表的所述真实收集时间。
可选地,所述若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C,包括:
若所述真实收集时间在所述标准高峰时间段内,则利用预设的时间更新方法更新所述真实收集时间;
更新所述原始数据表的收集状态为N,并返回步骤C。
可选地,所述若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态,包括:
若所述真实收集时间不在所述标准高峰时间段内,则判断是否有业务办理;
若无业务办理,则利用预设的函数对所述原始数据表中的统计信息进行数据收集,并更新所述原始数据表的收集状态为Y;
若有业务办理,则先终止数据收集,再利用预设的时间更新方法更新所述真实收集时间,并更新所述原始数据表的收集状态为N,返回步骤C。
为了解决上述问题,本发明还提供一种数据收集装置,所述装置包括:
高峰时间计算模块,用于获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
收集时间计算模块,用于根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间;
收集时间判断模块,用于判断所述真实收集时间是否在所述标准高峰时间段内;
更新时间模块,用于若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回收集时间判断模块;
数据收集模块,用于若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的数据收集方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的数据收集方法。
本发明根据每张原始数据表的标准高峰时间段计算所述每张原始数据表的预计收集时间,并根据所述预计收集时间得到真实收集时间,其中,所述预计收集时间的计算使用了数据冷热度,使得所述真实收集时间的计算更加准确。同时通过判断所述真实收集时间是否在所述标准高峰时间段时,进行数据收集,可以实现每张原始数据表的错峰收集,极大地提高了数据收集效率,并且实现了每张原始数据表的定制化收集策略。因此本发明提出的数据收集方法、装置、电子设备及计算机可读存储介质,可以解决数据无法进行定制化收集的问题。
附图说明
图1为本发明一实施例提供的数据收集方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为图1中另一个步骤的详细实施流程示意图;
图5为本发明一实施例提供的数据收集装置的功能模块图;
图6为本发明一实施例提供的实现所述数据收集方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种数据收集方法。所述数据收集方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据收集方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的数据收集方法的流程示意图。在本实施例中,所述数据收集方法包括:
S1、获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段。
本发明实施例中,所述原始数据表集可以为ORACLE、MYSQL等关系型数据库中的原始数据表集合,例如:金融领域中,所述原始数据表集包括贷款信息表、用户信息表等。
较佳地,参照图2所示,所述计算所述原始数据表集中每张原始数据表的标准高峰时间段,包括:
S10、在预设时间内,获取所述每张原始数据表的高峰开始、结束时间;
S11、利用所述高峰开始、结束时间计算所述预设时间内每张原始数据表的原始高峰时间段;
S12、计算所述原始高峰时间段在所述预设时间内的平均值,并将所述平均值作为每张原始数据表的标准高峰时间段。
其中,本发明实施例中,所述预设时间可以为七天,所述高峰开始、结束时间可以根据预设的时间函数:最近七天业务办理高峰开始时间:Work_Begin_time及最近七天业务办理高峰结束时间:Work_end_time来获取。比如,根据所述最近七天业务办理高峰开始时间及最近七天业务办理高峰结束时间计算出每张原始数据表的最近七天业务办理高峰时间段,再求出每张原始数据表平均每天的业务办理高峰时间段,并将所述平均每天的业务办理高峰时间段作为所述标准高峰时间段。
进一步地,本发明实施例通过计算每张原始数据表的标准高峰时间段,针对不同的原始数据表可以进行个性化定制高峰时间窗口,提高了应用场景。
S2、根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间。
较佳地,参照图3所示,所述根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,包括:
S20、利用预设的数据冷热度计算方法,计算每张原始数据表中标准高峰时间段内的热数据占比;
S21、根据所述热数据占比及预设的预计收集时间函数计算得到所述预计收集时间。
进一步地,所述利用预设的数据冷热度计算方法,计算每张原始数据表中标准高峰时间段内的热数据占比,包括:
获取所述原始数据表中的插入行数、删除行数、更新行数及总行数;
计算所述插入行数、删除行数及更新行数与所述总行数的比值,并将所述比值作为所述热数据占比。
其中,所述数据冷热度是指根据数据的访问频次不同划分的数据标准。从字面意思来简单的说,热数据就是访问频次多的数据,冷数据就是访问频次少的数据,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而存储于大规模存储池里。比如,热数据可以是被计算节点频繁访问的在线类数据,冷数据可以是离线类不经常访问的数据,包括企业备份数据、业务与操作日志数据等。
本发明实施例中,所述预设的预计收集时间函数可以为:Next_collect_time=(1-t1.inserts/t2.num_rows-t1.deletes/t2.num_rows-t1.updates/t2.num_rows)*1440。其中,Next_collect_time为所述预计收集时间,t1.inserts/t2.num_rows、t1.deletes/t2.num_rows及t1.updates/t2.num_rows分别为插入行数与总行数、删除行数与总行数、更新行数与总行数的比值,1440=24*60为每天的分钟数。
详细地,所述根据所述预计收集时间得到真实收集时间,包括:
获取当前系统时间,根据所述当前系统时间及所述预计收集时间计算得到每张原始数据表的所述真实收集时间。
其中,所述真实收集时间为:real_collect_time=sysdate+Next_collect_time,sysdate为所述当前系统时间,Next_collect_time为所述预计收集时间。
进一步地,本发明实施例中,通过计算每张原始数据表中的热数据占比,可以计算出不同的原始数据表的数据预计收集时间,适用性更强,同时针对不同的原始数据表得到不同的所述真实收集时间,可以为每张原始数据表定制化数据收集,提高了数据收集的效率。
S3、判断所述真实收集时间是否在所述标准高峰时间段内。
较佳地,本发明实施例中,通过判断不同的原始数据表的所述真实收集时间是否在所述标准高峰时间段内,对于所有的原始数据表都适用,同时可以精确到每张原始数据表,对所有原始数据表进行定制化数据收集策略。
若所述真实收集时间在所述标准高峰时间段内,则执行S4、更新所述真实收集时间并返回S3。
较佳地,所述若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回S3,包括:
若所述真实收集时间在所述标准高峰时间段内,则利用预设的时间更新方法更新所述真实收集时间;
更新所述原始数据表的收集状态为N,并返回S3。
本发明实施例中,所述原始数据表的收集状态为Collect_state,当所述收集状态Collect_state为Y时表示已经收集,当所述收集状态Collect_state为N时表示未收集。所述预设的时间更新方法可以为real_collect_time=real_collect_time+DBMS_RANDOM.values(1,1440),其中,DBMS_RANDOM.values(1,1440)为1到1440取随机数,当所述收集状态Collect_state为N时,利用所述预设的时间更新方法更新所述真实收集时间。
进一步地,本发明实施例在判断所述真实收集时间在所述标准高峰时间段时,可以通过更新所述真实收集时间,将对所述原始数据表的数据收集延后,实现每张原始数据表的错峰收集。
若所述真实收集时间不在所述标准高峰时间段内,则执行S5、开始数据收集,并更新当前原始数据表的状态。
较佳地,参阅图4所示,所述若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态,包括:
若所述真实收集时间不在所述标准高峰时间段内,则执行S50、判断是否有业务办理;
若无业务办理,则执行S51、利用预设的函数对所述原始数据表中的统计信息进行数据收集,并更新所述原始数据表的收集状态为Y;
若有业务办理,则执行S52、先终止数据收集,再利用所述预设的时间更新方法更新所述真实收集时间,并更新所述原始数据表的收集状态为N,返回S3。
其中,所述预设的函数可以根据所述原始数据表的表名自动收集所述原始数据表中的统计信息。所述统计信息包括表的统计信息及索引的统计信息,表的统计信息包括行数、行平均长度、列的统计信息及列中不同值的数量等,索引的统计信息包括索引的高度等。
进一步地,本发明实施例在判断所述真实收集时间不在所述标准高峰时间段时,进行数据收集,可以实现每张原始数据表的错峰收集,极大地提高了数据收集效率,同时在有业务处理时,可以通过更新所述真实收集时间,将对所述原始数据表的数据收集延后,进一步提高了应用场景的范围。
本发明根据每张原始数据表的标准高峰时间段计算所述每张原始数据表的预计收集时间,并根据所述预计收集时间得到真实收集时间,其中,所述预计收集时间的计算使用了数据冷热度,使得所述真实收集时间的计算更加准确。同时通过判断所述真实收集时间是否在所述标准高峰时间段时,进行数据收集,可以实现每张原始数据表的错峰收集,极大地提高了数据收集效率,并且实现了每张原始数据表的定制化收集策略。因此本发明提出的实施例可以解决数据无法进行定制化收集的问题。
如图5所示,是本发明一实施例提供的数据收集装置的功能模块图。
本发明所述数据收集装置100可以安装于电子设备中。根据实现的功能,所述数据收集装置100可以包括高峰时间计算模块101、收集时间计算模块102、收集时间判断模块103、更新时间模块104及数据收集模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述高峰时间计算模块101,用于获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段。
本发明实施例中,所述原始数据表集可以为ORACLE、MYSQL等关系型数据库中的原始数据表集合,例如:金融领域中,所述原始数据表集包括贷款信息表、用户信息表等。
较佳地,所述高峰时间计算模块101通过下述操作得到每张原始数据表的标准高峰时间段:
在预设时间内,获取所述每张原始数据表的高峰开始、结束时间;
利用所述高峰开始、结束时间计算所述预设时间内每张原始数据表的原始高峰时间段;
计算所述原始高峰时间段在所述预设时间内的平均值,并将所述平均值作为每张原始数据表的标准高峰时间段。
其中,本发明实施例中,所述预设时间可以为七天,所述高峰开始、结束时间可以根据预设的时间函数:最近七天业务办理高峰开始时间:Work_Begin_time及最近七天业务办理高峰结束时间:Work_end_time来获取。比如,根据所述最近七天业务办理高峰开始时间及最近七天业务办理高峰结束时间计算出每张原始数据表的最近七天业务办理高峰时间段,再求出每张原始数据表平均每天的业务办理高峰时间段,并将所述平均每天的业务办理高峰时间段作为所述标准高峰时间段。
进一步地,本发明实施例通过计算每张原始数据表的标准高峰时间段,针对不同的原始数据表可以进行个性化定制高峰时间窗口,提高了应用场景。
所述收集时间计算模块102,用于根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间。
较佳地,所述收集时间计算模块102通过下述操作计算所述每张原始数据表的预计收集时间:
利用预设的数据冷热度计算方法,计算每张原始数据表中标准高峰时间段内的热数据占比;
根据所述热数据占比及预设的预计收集时间函数计算得到所述预计收集时间。
进一步地,所述收集时间计算模块102通过下述操作计算每张原始数据表中标准高峰时间段内的热数据占比:
获取所述原始数据表中的插入行数、删除行数、更新行数及总行数;
计算所述插入行数、删除行数及更新行数与所述总行数的比值,并将所述比值作为所述热数据占比。
其中,所述数据冷热度是指根据数据的访问频次不同划分的数据标准。从字面意思来简单的说,热数据就是访问频次多的数据,冷数据就是访问频次少的数据,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而存储于大规模存储池里。比如,热数据可以是被计算节点频繁访问的在线类数据,冷数据可以是离线类不经常访问的数据,包括企业备份数据、业务与操作日志数据等。
本发明实施例中,所述预设的预计收集时间函数可以为:Next_collect_time=(1-t1.inserts/t2.num_rows-t1.deletes/t2.num_rows-t1.updates/t2.num_rows)*1440。其中,Next_collect_time为所述预计收集时间,t1.inserts/t2.num_rows、t1.deletes/t2.num_rows及t1.updates/t2.num_rows分别为插入行数与总行数、删除行数与总行数、更新行数与总行数的比值,1440=24*60为每天的分钟数。
详细地,所述收集时间计算模块102通过下述操作得到真实收集时间:
获取当前系统时间,根据所述当前系统时间及所述预计收集时间计算得到每张原始数据表的所述真实收集时间。
其中,所述真实收集时间为:real_collect_time=sysdate+Next_collect_time,sysdate为所述当前系统时间,Next_collect_time为所述预计收集时间。
进一步地,本发明实施例中,通过计算每张原始数据表中的热数据占比,可以计算出不同的原始数据表的数据预计收集时间,适用性更强,同时针对不同的原始数据表得到不同的所述真实收集时间,可以为每张原始数据表定制化数据收集,提高了数据收集的效率。
所述收集时间判断模块103,用于判断所述真实收集时间是否在所述标准高峰时间段内。
较佳地,本发明实施例中,通过判断不同的原始数据表的所述真实收集时间是否在所述标准高峰时间段内,对于所有的原始数据表都适用,同时可以精确到每张原始数据表,对所有原始数据表进行定制化数据收集策略。
所述更新时间模块104,用于若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回收集时间判断模块103。
较佳地,所述更新时间模块104通过下述操作更新所述真实收集时间:
若所述真实收集时间在所述标准高峰时间段内,则利用预设的时间更新方法更新所述真实收集时间;
更新所述原始数据表的收集状态为N,并返回收集时间判断模块103。
本发明实施例中,所述原始数据表的收集状态为Collect_state,当所述收集状态Collect_state为Y时表示已经收集,当所述收集状态Collect_state为N时表示未收集。所述预设的时间更新方法可以为real_collect_time=real_collect_time+DBMS_RANDOM.values(1,1440),其中,DBMS_RANDOM.values(1,1440)为1到1440取随机数,当所述收集状态Collect_state为N时,利用所述预设的时间更新方法更新所述真实收集时间。
进一步地,本发明实施例在判断所述真实收集时间在所述标准高峰时间段时,可以通过更新所述真实收集时间,将对所述原始数据表的数据收集延后,实现每张原始数据表的错峰收集。
所述数据收集模块105,用于若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态。
较佳地,所述数据收集模块105通过下述操作开始数据收集,并更新当前原始数据表的状态:
若所述真实收集时间不在所述标准高峰时间段内,则判断是否有业务办理;
若无业务办理,则利用预设的函数对所述原始数据表中的统计信息进行数据收集,并更新所述原始数据表的收集状态为Y;
若有业务办理,则先终止数据收集,再利用所述预设的时间更新方法更新所述真实收集时间,并更新所述原始数据表的收集状态为N,返回收集时间判断模块103。
其中,所述预设的函数可以根据所述原始数据表的表名自动收集所述原始数据表中的统计信息。所述统计信息包括表的统计信息及索引的统计信息,表的统计信息包括行数、行平均长度、列的统计信息及列中不同值的数量等,索引的统计信息包括索引的高度等。
进一步地,本发明实施例在判断所述真实收集时间不在所述标准高峰时间段时,进行数据收集,可以实现每张原始数据表的错峰收集,极大地提高了数据收集效率,同时在有业务处理时,可以通过更新所述真实收集时间,将对所述原始数据表的数据收集延后,进一步提高了应用场景的范围。
如图6所示,是本发明一实施例提供的实现数据收集方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据收集程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据收集程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据收集程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据收集程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
步骤A:获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
步骤B:根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间;
步骤C:判断所述真实收集时间是否在所述标准高峰时间段内;
步骤D:若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C;
步骤E:若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图4对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
步骤A:获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
步骤B:根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,根据所述预计收集时间得到真实收集时间;
步骤C:判断所述真实收集时间是否在所述标准高峰时间段内;
步骤D:若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C;
步骤E:若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种数据收集方法,其特征在于,所述方法包括:
步骤A:获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
步骤B:根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间, 根据所述预计收集时间得到真实收集时间;
步骤C:判断所述真实收集时间是否在所述标准高峰时间段内;
步骤D:若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C;
步骤E:若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态;
其中,所述计算所述原始数据表集中每张原始数据表的标准高峰时间段,包括:在预设时间内,获取所述每张原始数据表的高峰开始、结束时间;利用所述高峰开始、结束时间计算所述预设时间内每张原始数据表的原始高峰时间段;计算所述原始高峰时间段在所述预设时间内的平均值,并将所述平均值作为每张原始数据表的标准高峰时间段;
所述根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,包括:获取所述原始数据表中的插入行数、删除行数、更新行数及总行数;计算所述插入行数、删除行数及更新行数与所述总行数的比值,并将所述比值作为热数据占比;根据所述热数据占比及预设的预计收集时间函数计算得到所述预计收集时间。
2.如权利要求1所述的数据收集方法,其特征在于,所述根据所述预计收集时间得到真实收集时间,包括:
获取当前系统时间,根据所述当前系统时间及所述预计收集时间计算得到每张原始数据表的所述真实收集时间。
3.如权利要求1所述的数据收集方法,其特征在于,所述若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回步骤C,包括:
若所述真实收集时间在所述标准高峰时间段内,则利用预设的时间更新方法更新所述真实收集时间;
更新所述原始数据表的收集状态为N,并返回步骤C。
4.如权利要求1至3中任意一项所述的数据收集方法,其特征在于,所述若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态,包括:
若所述真实收集时间不在所述标准高峰时间段内,则判断是否有业务办理;
若无业务办理,则利用预设的函数对所述原始数据表中的统计信息进行数据收集,并更新所述原始数据表的收集状态为Y;
若有业务办理,则先终止数据收集,再利用预设的时间更新方法更新所述真实收集时间,并更新所述原始数据表的收集状态为N,返回步骤C。
5.一种数据收集装置,其特征在于,所述装置包括:
高峰时间计算模块,用于获取原始数据表集,计算所述原始数据表集中每张原始数据表的标准高峰时间段;
收集时间计算模块,用于根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间, 根据所述预计收集时间得到真实收集时间;
收集时间判断模块,用于判断所述真实收集时间是否在所述标准高峰时间段内;
更新时间模块,用于若所述真实收集时间在所述标准高峰时间段内,则更新所述真实收集时间并返回收集时间判断模块;
数据收集模块,用于若所述真实收集时间不在所述标准高峰时间段内,则开始数据收集,并更新当前原始数据表的状态;
其中,所述计算所述原始数据表集中每张原始数据表的标准高峰时间段,包括:在预设时间内,获取所述每张原始数据表的高峰开始、结束时间;利用所述高峰开始、结束时间计算所述预设时间内每张原始数据表的原始高峰时间段;计算所述原始高峰时间段在所述预设时间内的平均值,并将所述平均值作为每张原始数据表的标准高峰时间段;
所述根据所述标准高峰时间段内的数据冷热度计算所述每张原始数据表的预计收集时间,包括:获取所述原始数据表中的插入行数、删除行数、更新行数及总行数;计算所述插入行数、删除行数及更新行数与所述总行数的比值,并将所述比值作为热数据占比;根据所述热数据占比及预设的预计收集时间函数计算得到所述预计收集时间。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任意一项所述的数据收集方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的数据收集方法。
CN202011532695.XA 2020-12-22 2020-12-22 数据收集方法、装置、电子设备及存储介质 Active CN112559531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011532695.XA CN112559531B (zh) 2020-12-22 2020-12-22 数据收集方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011532695.XA CN112559531B (zh) 2020-12-22 2020-12-22 数据收集方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112559531A CN112559531A (zh) 2021-03-26
CN112559531B true CN112559531B (zh) 2023-07-25

Family

ID=75032189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011532695.XA Active CN112559531B (zh) 2020-12-22 2020-12-22 数据收集方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112559531B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164540A (zh) * 2013-04-15 2013-06-19 武汉大学 一种专利热点发现与趋势分析方法
CN103186566A (zh) * 2011-12-28 2013-07-03 中国移动通信集团河北有限公司 一种数据分级存储方法、装置及系统
CN108268645A (zh) * 2018-01-23 2018-07-10 广州南方人才资讯科技有限公司 大数据处理方法与系统
CN108989116A (zh) * 2018-07-25 2018-12-11 河北华沃通信科技有限公司 大数据收集分析系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120224A1 (en) * 2013-10-29 2015-04-30 C3 Energy, Inc. Systems and methods for processing data relating to energy usage
US9984154B2 (en) * 2015-05-01 2018-05-29 Morpho Detection, Llc Systems and methods for analyzing time series data based on event transitions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186566A (zh) * 2011-12-28 2013-07-03 中国移动通信集团河北有限公司 一种数据分级存储方法、装置及系统
CN103164540A (zh) * 2013-04-15 2013-06-19 武汉大学 一种专利热点发现与趋势分析方法
CN108268645A (zh) * 2018-01-23 2018-07-10 广州南方人才资讯科技有限公司 大数据处理方法与系统
CN108989116A (zh) * 2018-07-25 2018-12-11 河北华沃通信科技有限公司 大数据收集分析系统及方法

Also Published As

Publication number Publication date
CN112559531A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
WO2019114128A1 (zh) 区块链事务区块处理方法、电子装置及可读存储介质
CN112541745B (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN112115152B (zh) 数据增量更新及查询方法、装置、电子设备及存储介质
CN112115143B (zh) 数据自动更新及同步方法、装置、电子设备及存储介质
CN111984426B (zh) 任务调度方法、装置、电子设备及存储介质
CN112579621B (zh) 数据展示方法、装置、电子设备及计算机存储介质
CN112699142A (zh) 冷热数据处理方法、装置、电子设备及存储介质
CN113590632B (zh) 数据库索引创建方法、装置、设备及介质
CN111651426B (zh) 数据迁移方法、装置及计算机可读存储介质
CN111694843A (zh) 缺失号码检测方法、装置、电子设备及存储介质
CN113627160B (zh) 文本纠错方法、装置、电子设备及存储介质
CN112256472B (zh) 分布式数据调取方法、装置、电子设备及存储介质
CN114020721A (zh) 时序数据库集群的数据管理方法、装置、设备及存储介质
CN112559531B (zh) 数据收集方法、装置、电子设备及存储介质
CN117193975A (zh) 任务调度方法、装置、设备及存储介质
CN113849520B (zh) 异常sql的智能识别方法、装置、电子设备及存储介质
CN112925753B (zh) 文件追加写入方法、装置、电子设备及存储介质
CN112527785B (zh) 数据补录方法、装置、电子设备及存储介质
CN114860690A (zh) 数据迁移方法、装置、设备及存储介质
CN114626948A (zh) 区块链交易记账方法、装置、电子设备及存储介质
CN114490137A (zh) 业务数据实时统计方法、装置、电子设备及可读存储介质
CN112380820A (zh) 数据自动回填方法、装置、电子设备及计算机存储介质
CN112446781A (zh) 风控数据生成方法、装置、设备及计算机可读存储介质
CN112632066B (zh) 自动分表数据存取方法、装置、电子设备及存储介质
WO2022134345A1 (zh) 文件访问方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant