CN117349347A - 数据集的更新统计方法、装置、电子设备及存储介质 - Google Patents

数据集的更新统计方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117349347A
CN117349347A CN202311653097.1A CN202311653097A CN117349347A CN 117349347 A CN117349347 A CN 117349347A CN 202311653097 A CN202311653097 A CN 202311653097A CN 117349347 A CN117349347 A CN 117349347A
Authority
CN
China
Prior art keywords
data
sub
counted
data set
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311653097.1A
Other languages
English (en)
Inventor
李少敏
王凯峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuantek Technology Co ltd
Original Assignee
Beijing Yuantek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuantek Technology Co ltd filed Critical Beijing Yuantek Technology Co ltd
Priority to CN202311653097.1A priority Critical patent/CN117349347A/zh
Publication of CN117349347A publication Critical patent/CN117349347A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据集的更新统计方法、装置、电子设备及存储介质,所述方法包括在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集;针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值;基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值;在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新,解决了现有技术中对于数据集的更新统计的效率低的技术问题,提高了对数据集进行更新统计的准确性。

Description

数据集的更新统计方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据集的更新统计方法、装置、电子设备及存储介质。
背景技术
随着网络的应用越来越广泛,网络中的数据流量也越来越多。为了直观得到应用中的有效信息,需要对应用的数据集进行统计。在对数据集的数据进行实时处理时,通常需要对K/V(Key/Value,键值/数值)形式的数据集按指定Key进行数据统计,统计结果的Key也通常需要根据数据处理应用,取不同的Key,并按指定的数据存储组件进行存储。
目前对K/V形式的数据集的统计通常通过编写特定代码的方式对具体应用的K/V数据集进行统计,需要开发人员利用现有代码库手动编写,手动编写代码需要研发时间,且对于编写的代码需要重新开发和测试,存在软件bug的风险,既不利于快速对数据集进行统计,也不利于对数据集统计的准确性。
发明内容
有鉴于此,本申请的目的在于提出一种数据集的更新统计方法、装置、电子设备及存储介质,以克服现有技术中全部或部分不足。
基于上述目的,本申请提供了一种数据集的更新统计方法,所述数据集包括多个子数据集,所述方法包括:在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集;针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值;基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值;在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
可选地,构建预设的统计模板,包括:获取多个数据统计项,并设置每个数据统计项对应的配置信息;基于所述数据统计项和与其对应的配置信息,生成统计模板。
可选地,在生成统计模板之后,所述方法包括:对所述统计模板进行验证,包括:获取待统计的样本数据和所述样本数据对应的预先统计值;利用所述统计模板对所述样本数据进行统计,得到所述样本数据对应的第二统计值;响应于确定所述第二统计值和其对应的预先统计值相同,确定所述统计模板通过验证。
可选地,所述配置信息包括数据执行动作,以及数据键值集合;所述基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,包括:在所述统计模板包含的全部配置信息的数据键值集合中,确定所述键值所属的目标数据键值集合;根据所述目标数据键值集合对应的数据执行动作,对所述待统计子数据进行统计。
可选地,所述第一统计值包括与其关联的存储引擎的标识和所属数据集标识;所述在预设的存储引擎中确定所述数据集的历史统计值,包括:根据所述标识在预先构建的存储表中查询并确定与所述标识对应的存储引擎;利用所述所属数据集标识在所述存储引擎中确定所述数据集的历史统计值。
可选地,在对所述待统计子数据集进行遍历之前,所述方法包括:对所述统计模板进行格式检查以及对所述统计模板中的配置信息进行完整性检查;响应于确定所述统计模板未通过所述格式检查和/或所述配置信息未通过所述完整性检查,发出用于提示所述统计模板异常的信息。
可选地,还包括:响应于接收到对所述存储引擎中的历史统计值的查看指令,生成所述历史统计值对应的查看文件;响应于检测到所述历史统计值完成了更新,向用户发出更新所述查看文件的提示信息。
基于同一发明构思,本申请还提供了一种数据集的更新统计装置,所述数据集包括多个子数据集,所述装置包括:确定模块,被配置为在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集;遍历模块,被配置为针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值;统计模块,被配置为基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值;更新模块,被配置为在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
从上面所述可以看出,本申请提供的数据集的更新统计方法、装置、电子设备及存储介质,所述方法包括在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集,使得待统计数据量减小,初步提高了对于数据集进行统计的效率。针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值,将全部待统计子数据进行准确区分,为后续对待统计子数据集的准确统计奠定了基础。基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值,既提高了对于待统计子数据的统计效率,又提高了对于待统计子数据进行统计的准确性。在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新,提高了对于数据集的统计效率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的数据集的更新统计方法的流程示意图;
图2为本申请实施例的数据集的更新统计装置的结构示意图;
图3为本申请实施例电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,随着网络的应用越来越广泛,网络中的数据流量也越来越多。为了直观得到应用中的有效信息,需要对具体应用的数据集进行统计。在对数据集的数据进行实时处理时,通常需要对K/V(Key/Value,键值/数值)形式的数据集按指定Key进行数据统计。示例性的,上述数据集中的数据的格式可以统计为:JSON格式、各类编程语言的MAP类型数据或者自定义MAP接口的数据并且JSON作为数据交互格式,典型的指定Key的数据等。在进行数据统计时,需要遍历K/V形式的数据集中的所有数据,根据键值Key,对数值Value完成不同类型的统计,最终将统计结果存储至关系数据库或者存储引擎中。统计结果的Key也通常需要根据数据处理应用,取不同的Key,并按指定的数据存储组件进行存储。
目前对K/V形式的数据集的统计通常通过编写特定代码的方式对具体应用的K/V数据集进行统计,需要开发人员利用现有代码库手动编写,手动编写代码需要研发时间,且对于编写的代码需要重新开发和测试,存在软件bug的风险,既不利于快速对数据集进行统计,也不利于对数据集统计的准确性。
有鉴于此,本申请实施例提出了一种数据集的更新统计方法,参考图1,所述数据集包括多个子数据集,所述方法包括以下步骤:
步骤101,在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集。
在该步骤中,应用在运行的过程中会持续产生数据,将应用所产生的数据的集合确定为数据集。为了直观得到应用中的有效信息,能精准化对应用中的有效信息进行查找,需对数据集进行统计。假如直接对整个数据集中已经产生的数据进行统计,在数据集中的数据相对多的情况下,会导致统计效率变慢,进而使得统计不具有及时性。因此,可以将数据集划分为若干个子数据集进行统计。示例性的,按数据产生的时间段,将数据集划分为若干个子数据集,对每个子数据集进行统计,以完成对数据集的统计。在多个子数据集中确定更新的子数据集,由于更新的子数据集并未进行统计,将更新的子数据集作为待统计子数据集,使得待统计数据量减小,初步提高了对于数据集进行统计的效率。
步骤102,针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值。
在该步骤中,待统计子数据具有键值,其中,键值为预定标识,具有唯一性,因此,利用键值能够将每个待统计子数据进行区分。因此,为了完成对于全部待统计子数据的统计,需要对待统计子数据集进行遍历,得到待统计子数据集中的每条待统计子数据的键值。通过每条待统计子数据的键值,将全部待统计子数据进行准确区分,为后续对待统计子数据集的准确统计奠定了基础。
步骤103,基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值。
在该步骤中,通过键值能够将全部待统计子数据进行区分,进而可以基于键值,确定与其关联的待统计子数据在预设的统计模板中需要统计的内容,进而完成对待统计子数据的统计,得到第一统计值。将待统计子数据集中的数据进行统计,无需一次性对数据集中的全部数据进行统计,减少了待统计数据量,进而提高了统计效率。需要说明的是,统计模板中的数据格式可以根据预定需求进行设置,例如,数据格式可以为JSON、XML、YML、INI等。本申请只需利用统计模板对待统计子数据进行统计,无需开发人员通过手动编写代码进行统计,统计模板具有复用性,既提高了对于待统计子数据的统计效率,又提高了对于待统计子数据进行统计的准确性。
步骤104,在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
在该步骤中,数据集根据用户需求可以存储在至少一个存储引擎中,例如,存储引擎可以为JDBC(Java DataBase Connectivity,Java语言数据库连接)、Clickhouse(ClickStream Data WareHouse,用于进行数据分析的列式存储数据库)、ElasticSearch(搜索数据分析引擎)、Redis(Remote Dictionary Server ,远程字典服务)或Hive(数据仓库)。存储引擎中已存储有数据集的历史统计值,基于所述第一统计值,对数据集中的与第一统计值关联的历史统计值进行更新。示例性的,在统计模板中的数据统计项为统计最大值的情况下,假设第一统计值大于历史统计值,则将第一统计值确定为新的历史统计值。对数据集中的更新子数据集进行统计,使得待统计数据量减少,无需等待数据集的全部数据产生完成才对数据集进行统计,能够在数据产生的过程中对于数据集进行更新统计,进而提高了对于数据集的统计效率。需要说明的是,假如数据集对应的子数据集为首次存储至该存储引擎,则根据第一统计值对数据集进行更新。
通过上述方案,在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集,使得待统计数据量减小,初步提高了对于数据集进行统计的效率。针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值,将全部待统计子数据进行准确区分,为后续对待统计子数据集的准确统计奠定了基础。基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值,既提高了对于待统计子数据的统计效率,又提高了对于待统计子数据进行统计的准确性。在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新,提高了对于数据集的统计效率。
在一些实施例中,构建预设的统计模板,包括:获取多个数据统计项,并设置每个数据统计项对应的配置信息;基于所述数据统计项和与其对应的配置信息,生成统计模板。
在本实施例中,统计模板中包括根据预定需求设置的多个数据统计项,示例性的,多个数据统计项包括统计最大值,统计最小值,统计数据的和值,统计数据的商值,统计经过去重后的数据,统计数据出现的总次数,统计数据的最早出现时间和统计数据的最晚出现时间等。每个统计项需对应相应的配置信息,配置信息能够体现该统计项对应的待统计子数据以及该待统计子数据需要执行的动作等信息,进而达到对待统计子数据进行精准统计的目的。示例性的,配置信息包括数据统计项标识、数据键值集合、存储引擎的标识集合、数据统计项标识是否使用MD5(MD5 Message-Digest Algorithm,信息摘要算法)值、数据执行动作等。为了能够确定数据的最晚出现值、最早出现时间和最晚出现时间,配置信息中需配置时间字段以及格式。
需要说明的是,配置信息中的数据类型为K/V类型,因此,与键值关联的数值的格式可以包括:byte(单字节)、short(短整型)、integer(整型)、long(长整型)、float(单精度浮点数)、double(双精度浮点数)、date(日期格式)、ip(IP地址格式)、string(字符串格式),时间字段格式包括:timeString(标准字符串时间格式)、integer(整型)、long(长整型)、unit(单位,包括:秒、毫秒、微秒、纳秒,仅对整型和长整型有效)。统计结果存储平台标识包括:JDBC、Clickhouse、ElasticSearch、Redis、Hive等,可根据用户要求扩展存储平台支持。此外,配置信息中的中文名和描述仅用于管理平台展示使用,方便开发和数据分析人员了解数据统计项的含义。通过数据统计项和与其对应的配置信息,生成统计模板,其中,配置模板中的数据统计项能够根据预定需求进行添加、删除和修改。统计模板能够较为全面的统计到用户所需统计的信息,以便用户对数据集进行直观的了解,此外,统计模板还具有复用性,提高了对数据集的更新统计效率。
在一些实施例中,在生成统计模板之后,所述方法包括:对所述统计模板进行验证,包括:获取待统计的样本数据和所述样本数据对应的预先统计值;利用所述统计模板对所述样本数据进行统计,得到所述样本数据对应的第二统计值;响应于确定所述第二统计值和其对应的预先统计值相同,确定所述统计模板通过验证。
在本实施例中,生成统计模板后,还需对统计模板进行验证,以确保统计模板能够准确的对数据进行统计。获取待统计的样本数据,例如,样本数据可以为典型的数据JSON样例集。利用统计模板对样本数据进行统计,得到样本数据对应的第二统计值。样本数据已提前利用其他统计方法完成统计,得到样本数据对应的预先统计值,获取预先统计值,将第二统计值与预先统计值进行比较。第二统计值中包括多个子统计值,预先统计值中包括多个子预先统计值,在全部子统计值和与其关联的子预先统计值都相同的情况下,说明经过统计模板统计的样本数据具有准确性,在构建统计模板的过程中并未出现错误,确定统计模板通过验证,确保了构建的统计模板在统计数据时具有准确性。需要说明的是,在统计模板未通过验证的情况下,需要发出相应的提示信息,以使得开发人员重新修改数据统计项。
在一些实施例中,所述配置信息包括数据执行动作,以及数据键值集合;所述基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,包括:在所述统计模板包含的全部配置信息的数据键值集合中,确定所述键值所属的目标数据键值集合;根据所述目标数据键值集合对应的数据执行动作,对所述待统计子数据进行统计。
在本实施例中,统计模板中的每个数据统计项都存在与其关联的配置信息,其中,配置信息至少包括数据执行动作以及数据键值集合。数据键值集合可以体现参与数据执行动作的数据。因此,在统计模板包含的全部配置信息的数据键值集合中,确定待统计子数据的键值所属的目标数据键值集合,进而能够确定该待统计子数据对应的数据执行动作,根据数据执行动作对与其关联的待统计子数据进行统计。示例性的,在数据执行动作为统计最大值的情况下,在与统计最大值相关联的待统计子数据中确定最大值;在数据执行动作为统计最小值的情况下,在与统计最小值相关联的待统计子数据中确定最小值;在数据执行动作为统计数据的均值的情况下,确定与统计数据的均值相关联的待统计子数据的和值和个数的比值;在数据执行动作为统计数据的和值的情况下,确定与统计数据的和值相关联的待统计子数据的和值;在数据执行动作为统计数据的最早出现时间的情况下,确定与统计数据的最早出现时间相关联的待统计子数据的时间字段值的最小值;在数据执行动作为统计数据的最晚出现时间的情况下,确定与统计数据的最晚出现时间相关联的待统计子数据的时间字段值的最大值。通过统计模板对待统计子数据进行统计,提高了对待统计子数据进行统计的效率。且统计模板具有复用性,在对待统计数据进行统计时,无需每次都需要开发人员编写代码,避免了出现代码bug,进而通过统计模板对待统计子数据进行统计也具有准确性。
在一些实施例中,所述第一统计值包括与其关联的存储引擎的标识和所属数据集标识;所述在预设的存储引擎中确定所述数据集的历史统计值,包括:根据所述标识在预先构建的存储表中查询并确定与所述标识对应的存储引擎;利用所述所属数据集标识在所述存储引擎中确定所述数据集的历史统计值。
在本实施例中,数据集能够存储在多个存储引擎中,此外,每个存储引擎需统计的待统计数据存在不同。因此,在构建统计模板时,可以在数据统计项的配置信息中配置存储引擎的标识,进而使得得到的统计值中也包括存储引擎的标识。根据第一统计值对存储引擎中的历史统计值进行更新时,需将第一统计值中包括有该存储引擎的标识的统计值对与上述统计值相关联的历史统计值进行更新。示例性的,存储引擎的标识可以为存储引擎的名称,例如,JDBC、Clickhouse、ElasticSearch、Redis和Hive等。因此,需要根据上述标识在预先构建的存储表中查询与所述标识对应的存储引擎。存储引擎中又存储有多个数据集,通过第一统计值中的所属数据集标识,可以在存储引擎中确定第一统计值对应的数据集,进而获取数据集的历史统计值,达到了准确获取第一统计值对应的历史统计值的目的。需要说明的是,第一统计值的格式与存储引擎能够存储的历史统计值的格式不相同的情况下,还需对第一统计值的格式进行格式转换,以使存储引擎能够顺利对第一统计值进行处理。
在一些实施例中,在对所述待统计子数据集进行遍历之前,所述方法包括:对所述统计模板进行格式检查以及对所述统计模板中的配置信息进行完整性检查;响应于确定所述统计模板未通过所述格式检查和/或所述配置信息未通过所述完整性检查,发出用于提示所述统计模板异常的信息。
在本实施例中,根据预定需求可以对统计模板中的数据格式进行设置,例如,数据格式可以指定为JSON、XML、YML或INI等。为了避免统计模板未按预定需求进行统计,对统计模板进行格式检查。此外,由于开发人员可以根据预定需求对配置信息进行相应修改,因此,在对待统计子数据集进行遍历之前,需要对配置信息进行完整性检查,以防止出现未按预定需求进行统计的情况。只有在统计模板通过格式检查和配置信息通过完整性检查的情况下,才能确定统计模板并未出现异常,可以用于后续对于数据集的统计,否则发出用于提示统计模板异常的信息,以使开发人员对于统计模板进行相应检查,进而确保了利用统计模板对于数据集进行统计时能够满足预定需求。
在一些实施例中,还包括:响应于接收到对所述存储引擎中的历史统计值的查看指令,生成所述历史统计值对应的查看文件;响应于检测到所述历史统计值完成了更新,向用户发出更新所述查看文件的提示信息。
在本实施例中,用户可以实时对存储引擎中的数据进行查看。在接收到由用户发出的对存储引擎中的历史统计值进行查看的指令的情况下,生成历史统计值对应的查看文件,以供用户进行查看。查看指令中携带有存储引擎的标识和数据集的标识,通过存储引擎的标识可以准确确定对具体存储引擎中的数据集进行查看,通过数据集的标识又可以确定对该存储引擎中的具体数据集进行查看。由于数据集的更新,会引起历史统计值的更新,之前生成的查看文件并不能体现最准确的历史统计值。因此,在检测到历史统计值完成了更新的情况下,向用户发出更新查看文件的提示信息,进而使得用户能够查看到准确的查看文件。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种数据集的更新统计装置。
参考图2,所述数据集的更新统计装置,所述数据集包括多个子数据集,所述装置包括:
确定模块10,被配置为在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集。
遍历模块20,被配置为针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值。
统计模块30,被配置为基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值。
更新模块40,被配置为在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
通过上述装置,在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集,使得待统计数据量减小,初步提高了对于数据集进行统计的效率。针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值,将全部待统计子数据进行准确区分,为后续对待统计子数据集的准确统计奠定了基础。基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值,既提高了对于待统计子数据的统计效率,又提高了对于待统计子数据进行统计的准确性。在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新,提高了对于数据集的统计效率。
在一些实施例中,还包括构建模块,所述构建模块被配置为构建预设的统计模板,包括:获取多个数据统计项,并设置每个数据统计项对应的配置信息;基于所述数据统计项和与其对应的配置信息,生成统计模板。
在一些实施例中,还包括验证建模块,所述验证模块被配置为在生成统计模板之后,对所述统计模板进行验证,包括:获取待统计的样本数据和所述样本数据对应的预先统计值;利用所述统计模板对所述样本数据进行统计,得到所述样本数据对应的第二统计值;响应于确定所述第二统计值和其对应的预先统计值相同,确定所述统计模板通过验证。
在一些实施例中,所述统计模块30,还被配置为所述配置信息包括数据执行动作,以及数据键值集合;在所述统计模板包含的全部配置信息的数据键值集合中,确定所述键值所属的目标数据键值集合;根据所述目标数据键值集合对应的数据执行动作,对所述待统计子数据进行统计。
在一些实施例中,所述更新模块40,还被配置为所述第一统计值包括与其关联的存储引擎的标识和所属数据集标识;根据所述标识在预先构建的存储表中查询并确定与所述标识对应的存储引擎;利用所述所属数据集标识在所述存储引擎中确定所述数据集的历史统计值。
在一些实施例中,还包括检查模块,所述检查模块被配置为在对所述待统计子数据集进行遍历之前,对所述统计模板进行格式检查以及对所述统计模板中的配置信息进行完整性检查;响应于确定所述统计模板未通过所述格式检查和/或所述配置信息未通过所述完整性检查,发出用于提示所述统计模板异常的信息。
在一些实施例中,还包括生成模块,所述生成模块被配置为响应于接收到对所述存储引擎中的历史统计值的查看指令,生成所述历史统计值对应的查看文件;响应于检测到所述历史统计值完成了更新,向用户发出更新所述查看文件的提示信息。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的数据集的更新统计方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的数据集的更新统计方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的数据集的更新统计方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的数据集的更新统计方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的数据集的更新统计方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据集的更新统计方法,其特征在于,所述数据集包括多个子数据集,所述方法包括:
在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集;
针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值;
基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值;
在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
2.根据权利要求1所述的方法,其特征在于,构建预设的统计模板,包括:
获取多个数据统计项,并设置每个数据统计项对应的配置信息;
基于所述数据统计项和与其对应的配置信息,生成统计模板。
3.根据权利要求2所述的方法,其特征在于,在生成统计模板之后,所述方法包括:
对所述统计模板进行验证,包括:
获取待统计的样本数据和所述样本数据对应的预先统计值;
利用所述统计模板对所述样本数据进行统计,得到所述样本数据对应的第二统计值;
响应于确定所述第二统计值和其对应的预先统计值相同,确定所述统计模板通过验证。
4.根据权利要求2所述的方法,其特征在于,所述配置信息包括数据执行动作,以及数据键值集合;
所述基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,包括:
在所述统计模板包含的全部配置信息的数据键值集合中,确定所述键值所属的目标数据键值集合;
根据所述目标数据键值集合对应的数据执行动作,对所述待统计子数据进行统计。
5.根据权利要求1所述的方法,其特征在于,所述第一统计值包括与其关联的存储引擎的标识和所属数据集标识;
所述在预设的存储引擎中确定所述数据集的历史统计值,包括:
根据所述标识在预先构建的存储表中查询并确定与所述标识对应的存储引擎;
利用所述所属数据集标识在所述存储引擎中确定所述数据集的历史统计值。
6.根据权利要求1所述的方法,其特征在于,在对所述待统计子数据集进行遍历之前,所述方法包括:
对所述统计模板进行格式检查以及对所述统计模板中的配置信息进行完整性检查;
响应于确定所述统计模板未通过所述格式检查和/或所述配置信息未通过所述完整性检查,发出用于提示所述统计模板异常的信息。
7.根据权利要求1所述的方法,其特征在于,还包括:
响应于接收到对所述存储引擎中的历史统计值的查看指令,生成所述历史统计值对应的查看文件;
响应于检测到所述历史统计值完成了更新,向用户发出更新所述查看文件的提示信息。
8.一种数据集的更新统计装置,其特征在于,所述数据集包括多个子数据集,所述装置包括:
确定模块,被配置为在所述多个子数据集中确定更新的子数据集,将更新的子数据集作为待统计子数据集;
遍历模块,被配置为针对每个待统计子数据集,对所述待统计子数据集进行遍历,得到所述待统计子数据集中的每条待统计子数据的键值;
统计模块,被配置为基于所述键值,利用预设的统计模板对所述待统计子数据进行统计,得到第一统计值;
更新模块,被配置为在预设的存储引擎中确定所述数据集的历史统计值,基于所述第一统计值,对所述数据集的历史统计值进行更新。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202311653097.1A 2023-12-05 2023-12-05 数据集的更新统计方法、装置、电子设备及存储介质 Pending CN117349347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311653097.1A CN117349347A (zh) 2023-12-05 2023-12-05 数据集的更新统计方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311653097.1A CN117349347A (zh) 2023-12-05 2023-12-05 数据集的更新统计方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117349347A true CN117349347A (zh) 2024-01-05

Family

ID=89363589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311653097.1A Pending CN117349347A (zh) 2023-12-05 2023-12-05 数据集的更新统计方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117349347A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200042522A1 (en) * 2018-08-06 2020-02-06 Oracle International Corporation Techniques for maintaining statistics in a database system
CN112000668A (zh) * 2020-08-12 2020-11-27 广州市百果园信息技术有限公司 统计数据清理方法、装置、设备及存储介质
CN115391346A (zh) * 2022-08-26 2022-11-25 北京人大金仓信息技术股份有限公司 数据库聚合索引的生成方法、存储介质与计算机设备
CN115658750A (zh) * 2022-11-01 2023-01-31 网易(杭州)网络有限公司 业务数据处理方法、装置、电子设备及存储介质
CN116847132A (zh) * 2023-08-29 2023-10-03 北京小糖科技有限责任公司 基于时间分片的视频更新方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200042522A1 (en) * 2018-08-06 2020-02-06 Oracle International Corporation Techniques for maintaining statistics in a database system
CN112000668A (zh) * 2020-08-12 2020-11-27 广州市百果园信息技术有限公司 统计数据清理方法、装置、设备及存储介质
CN115391346A (zh) * 2022-08-26 2022-11-25 北京人大金仓信息技术股份有限公司 数据库聚合索引的生成方法、存储介质与计算机设备
CN115658750A (zh) * 2022-11-01 2023-01-31 网易(杭州)网络有限公司 业务数据处理方法、装置、电子设备及存储介质
CN116847132A (zh) * 2023-08-29 2023-10-03 北京小糖科技有限责任公司 基于时间分片的视频更新方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晰 等: "矿山遥感监测指标快速统计方法研究与实现", 国土资源遥感, vol. 32, no. 2, pages 0 - 3 *

Similar Documents

Publication Publication Date Title
CN111722839B (zh) 一种代码生成方法、装置、电子设备及存储介质
CN108628748B (zh) 自动化测试管理方法和自动化测试管理系统
CN112559354A (zh) 前端代码规范检测方法、装置、计算机设备及存储介质
CN111260336B (zh) 基于规则引擎的业务核对方法、装置及设备
CN111258832B (zh) 一种接口参数校验方法、装置、设备及介质
CN111309734A (zh) 自动生成表数据的方法及系统
CN109032850A (zh) 现场装置调试系统和现场装置调试方法
CN103235757B (zh) 基于自动化造数对输入域测试对象进行测试的装置和方法
CN107357721B (zh) 测试系统的方法及装置
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
CN113900955A (zh) 自动化测试方法、装置、设备及存储介质
CN116661758B (zh) 一种优化日志框架配置的方法、装置、电子设备及介质
CN116028108B (zh) 一种依赖包安装用时分析方法、装置、设备及存储介质
CN112800194A (zh) 一种接口变更识别方法、装置、设备及存储介质
CN116860636A (zh) 单元测试代码生成方法、装置、设备及存储介质
CN117349347A (zh) 数据集的更新统计方法、装置、电子设备及存储介质
CN114637672A (zh) 自动化数据测试方法、装置、计算机设备及存储介质
KR101968501B1 (ko) 데이터 처리 장치 및 데이터 처리 장치의 메모리에 기록된 데이터의 확인 방법
US9471569B1 (en) Integrating information sources to create context-specific documents
CN113760696A (zh) 一种程序问题定位方法、装置、电子设备和存储介质
CN114327377B (zh) 需求跟踪矩阵生成方法、装置、计算机设备及存储介质
CN116483735B (zh) 一种代码变更的影响分析方法、装置、存储介质及设备
JP7344521B1 (ja) プログラム、方法、情報処理装置、及びシステム
CN112836924B (zh) 一种资源分配审计的方法、装置、电子设备及存储介质
CN116881112A (zh) 模拟数据的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20240105