CN114116774A - 日志数据的查询方法及装置 - Google Patents

日志数据的查询方法及装置 Download PDF

Info

Publication number
CN114116774A
CN114116774A CN202210104293.2A CN202210104293A CN114116774A CN 114116774 A CN114116774 A CN 114116774A CN 202210104293 A CN202210104293 A CN 202210104293A CN 114116774 A CN114116774 A CN 114116774A
Authority
CN
China
Prior art keywords
data
storage
log data
query
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210104293.2A
Other languages
English (en)
Other versions
CN114116774B (zh
Inventor
周磊
姜双林
饶志波
王晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Andi Technology Co ltd
Original Assignee
Beijing Andi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Andi Technology Co ltd filed Critical Beijing Andi Technology Co ltd
Priority to CN202210104293.2A priority Critical patent/CN114116774B/zh
Publication of CN114116774A publication Critical patent/CN114116774A/zh
Application granted granted Critical
Publication of CN114116774B publication Critical patent/CN114116774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本发明提供一种日志数据的查询方法及装置。所述查询方法包括:获取日志数据的查询语句,解析查询语句中所包括的日志数据的数据属性,以及存储地址;依据存储地址,确定日志数据的存储节点以及存储节点对应的数据存储量;为存储节点配置与数据存储量对应的计算力;基于计算力查询获取存储地址中与数据属性对应的日志数据。通过根据存储节点对应的数据存储量分配给存储节点的合适计算力,给需要更多计算力的存储节点分配更多的计算资源,加快查询的速度。并且通过在查询语句中增加相应的日志数据产生时间、类型,以及存储地址这些限定项,便于根据这些限定项锁定较小的查询范围,减少要查询日志的数量,从而加快查询的速度。

Description

日志数据的查询方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种日志数据的查询方法及装置。
背景技术
由于烟草厂商产生的日志报文数据的数据量较大,因此使用非关系型的数据库(not only SQL,NOSQL)作为存储方式。通常情况下,通过部署存储服务器集群,采用多节点,多分区的存储方式对日志报文数据进行集中存储,也即采用分布式存储系统对日志报文数据进行集中存储。在对日志进行结构化查询语言(structured query language,SQL)查询时也可以采用SQL查询语句直接对多节点,多分区的日志报文数据进行查询。
采用现有技术中的分布式存储系统对应的存储方法存储日志报文数据时,需要遍历所有存储节点才能获取得到查询数据,因此存在查询速度慢的缺点。
发明内容
本发明提供一种日志数据的查询方法及装置,用以解决现有技术中查询速度慢的缺陷,实现合理设置存储节点数量及分配计算资源,从而提高查询速度、减少计算资源的浪费。
本发明提供一种日志数据的查询方法,包括:获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;
依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;
为所述存储节点配置与所述数据存储量对应的计算力;
基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
根据本发明提供的一种日志数据的查询方法,所述依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量,包括:
依据所述存储地址,确定至少一个存储节点;
基于与所述至少一个存储节点中每个存储节点分别对应的数据源产生的日志数据的数据量确定所述至少一个存储节点中每个存储节点对应的数据存储量。
根据本发明提供的一种日志数据的查询方法,所述为所述存储节点配置与所述数据存储量对应的计算力,包括:
计算所述至少一个存储节点中每一个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值;
根据所述比值给对应的每一个存储节点分配相应的计算力。
根据本发明提供的一种日志数据的查询方法,在所述获取日志数据的查询语句之前,所述方法还包括:
根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量。
根据本发明提供的一种日志数据的查询方法,所述根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量,包括:
在所述多个数据源产生的日志数据的数据量小于或等于第一预设阈值情况下,为所述多个数据源配置一个存储节点;
在所述多个数据源产生的日志数据的数据量大于第一预设阈值,且小于或等于第二预设阈值情况下,为所述多个数据源中的每个数据源配置一个对应的存储节点;
在所述多个数据源产生的日志数据的数据量大于第二预设阈值情况下,为所述多个数据源中的每个数据源配置多个存储节点。
根据本发明提供的一种日志数据的查询方法,在根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量之后,所述方法还包括:
对不同数据源的日志数据分别标注对应的产生时间、类型并选择对应的存储地址;
将不同数据源的日志数据存储在对应的存储节点中。
根据本发明提供的一种日志数据的查询方法,所述对不同数据源的日志数据分别标注对应的类型包括:
基于预设的模型对每一数据源对应的日志数据增加相应的类型标签;其中,所述预设的模型为基于部分预先标注好类型标签的日志数据和部分无标签的日志数据预训练得到的分类模型,将每一数据源对应的日志数据输入所述预设的模型得到对应的类型标签。
本发明还提供一种日志数据的查询装置,包括:
处理模块,用于获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;
确定模块,用于依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;
配置模块,用于为所述存储节点配置与所述数据存储量对应的计算力;
查询模块,用于基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述日志数据的查询方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述日志数据的查询方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述日志数据的查询方法的步骤。
本发明提供的日志数据的查询方法及装置,通过计算每个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值,得到对应的每个存储节点的数据量与总数据量的比值,从而给需要更多计算力的存储节点分配更多的计算资源,加快查询的速度,给需要更少计算力的存储节点分配更少的计算资源,减少计算资源的浪费。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的日志数据的查询方法的流程示意图之一;
图2是本发明提供的日志数据的查询方法的流程示意图之二;
图3是本发明提供的日志数据的查询方法的流程示意图之三;
图4是本发明提供的日志数据的查询方法的流程示意图之四;
图5是本发明提供的日志数据的查询装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,首先对本发明涉及的术语进行说明。
(1)分布式存储系统
对了非分布式存储系统而言,数据量大、访问量大都会导致输入输出(inputoutput,IO)瓶颈。分布式存储通过把一个完整的数据集分片,存储到不同的节点中,每个节点都能对外提供服务来提高整个存储的存储能力、处理能力、快速响应能力。
下面结合图1-图6描述本发明提供的日志数据的查询方法及装置。
图1为本发明提供的日志数据的查询方法的流程示意图之一。可以理解,图1中的方法可以由日志数据的查询装置执行。如图1所示,本发明提供的日志数据的查询方法包括以下步骤:
步骤110、获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址。
在一个实施例中,数据属性可以包括日志数据产生的时间和/或类型。
其中,类型可以用于指示日志数据重要等级或日志数据具体涉及的功能。其中,用于指示日志数据重要等级的类型例如可以分为运行过程中出现问题(DEBUG)、确认一切按预期运行(INFO)、即将出现影响运行的告警(WARNING)、运行出现错误(ERROR)以及严重的错误(CRITICAL)。日志数据具体涉及的功能对应的类型例如可以为设备开机事件日志以及设备输入输出日志。
可以理解,在进行日志数据查询之前,已经对日志数据标注相应的存储地址以及产生时间和/或类型,因此,在查询语句中可以也增加相应的内容,以便通过产生时间、类型以及存储地址快速定位到相应的日志数据。
步骤120、依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量。
其中,存储节点可以理解为分布式存储系统中的一个存储服务器,分布式存储系统中的所有存储节点构成一个虚拟的存储设备,对外作为一个整体提供存储服务。数据存储量表示存放的数据量。
可以理解,由于对于分布式存储系统来说,可以将不同的数据存放至不同的存储节点中,而本发明中采用分布式存储系统存储日志数据,因此日志数据的存储地址可以对应至少一个存储节点。并且每个存储节点的数据存储量可以相同也可以不同。
步骤130、为所述存储节点配置与所述数据存储量对应的计算力。
可以理解,存储节点对应的数据存储量越多,在对存储节点中的数据进行查询时需要的计算资源就越多,反之,存储节点对应的数据存储量越少,在对存储节点中的数据进行查询时需要的计算资源就越少,因此需要为不同的存储节点配置与其对应的数据存储量对应的计算力。
步骤140、基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
可以理解,通常情况下,若查询分布式系统中存储的日志数据,若不对日志数据标注产生时间和/或类型,则要遍历所有存储节点,而本发明中可以仅查询获取存储地址对应的存储节点中对应的产生时间和/或类型的日志数据,减少查询的范围以及要查询日志的数量,从而加快日志数据查询的速度。
本发明提供的日志数据的查询方法,通过根据存储节点对应的数据存储量分配给存储节点的合适计算力,给需要更多计算力的存储节点分配更多的计算资源,加快查询的速度。并且通过在查询语句中增加相应的日志数据产生时间、类型,以及存储地址这些限定项,便于根据这些限定项锁定较小的查询范围,减少要查询日志的数量,从而加快查询的速度。
基于上述任一实施例,在本实施例中,所述依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量,包括:
依据所述存储地址,确定至少一个存储节点;
基于与所述至少一个存储节点中每个存储节点分别对应的数据源产生的日志数据的数据量确定所述至少一个存储节点中每个存储节点对应的数据存储量。
可以理解,要查询的日志可能分布在一个或多个存储节点中,因此依据所述存储地址,可以确定至少一个存储节点。
还可以理解,每个存储节点的数据可以来自一个或多个数据源,因此可以根据存储节点对应的数据源的数据量确定每个存储节点对应的数据存储量。
本发明提供的日志数据的查询方法,通过根据存储节点对应的数据源的数据量确定每个存储节点对应的数据存储量,给出一种确定存储节点的数据存储量的方法,为后续根据数据存储量为存储节点分配合适的计算力打下基础。
基于上述任一实施例,在本实施例中,所述为所述存储节点配置与所述数据存储量对应的计算力,包括:
计算所述至少一个存储节点中每一个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值;
根据所述比值给对应的每一个存储节点分配相应的计算力。
其中,多个数据源可以是特定生活场景中能够产生日志数据的多个不同来源的数据源。对于烟厂来说,所述多个数据源例如可以是按照区域划分的多个数据源。例如,烟厂分为制丝车间、能管动力车间、卷包车间、仓库物流和生活办公区等多个区域,将这些区域中的每个区域作为一个数据源,每个区域内的计算机设备产生的日志数据作为一个数据源的数据。对应的日志数据是计算机设备用于记录自身或其他设备日常运行状态的数据。
因此,可以将多个数据源的数据作为一个整体,多个数据源的数据量即为总数据量,且多个数据源的数据可以存放在至少一个存储节点中,因此计算每个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量的比值,即可得到对应的每个存储节点的数据量与总数据量的比值,从而根据所述比值为每个存储节点分配相应的计算力。
本发明提供的日志数据的查询方法,通过计算每个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值,得到对应的每个存储节点的数据量与总数据量的比值,从而给需要更多计算力的存储节点分配更多的计算力,加快查询的速度,给需要更少计算力的存储节点分配更少的计算力,减少计算资源的浪费。
基于上述任一实施例,在本实施例中,在所述获取日志数据的查询语句之前,所述方法还包括:
根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量。
可以理解,多个数据源中每个数据源可能产生不同数量的日志数据,当日志数据的数据量过大时,仍然将所有的日志数据集中保存至一个非分布式存储系统,不利于后续的查询等处理。因此为了提高存储系统对数据的存储能力以及便于后期对数据的查询,采用分布式存储系统对日志数据进行存储,也即将日志数据分别保存至多个存储节点中。并且由于存在若存储节点过少,会导致查询压力大,系统运行缓慢甚至内存溢出、数据丢失的情况;以及若存储节点过多,会造成浪费计算资源、维护成本高的情况,因此本发明根据多个数据源中产生的日志数据的数量确定存储节点的数量,选择合适的存储节点的数量,既不会因为存储节点过少造成查询压力大,从而出现系统运行缓慢甚至内存溢出、数据丢失的情况,也不会因为存储节点过多造成浪费计算资源、维护成本高。
本发明提供的日志数据的查询方法,通过根据多个数据源中产生的日志数据的数量确定与所述多个数据源对应的存储节点的数量,从而选择了一个合适的存储节点数量,既不会因为存储节点过少造成查询压力大,避免出现系统运行缓慢甚至内存溢出、数据丢失的情况,也不会因为存储节点过多造成浪费计算资源、维护成本高。
基于上述任一实施例,在本实施例中,所述根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量,包括:
在所述多个数据源产生的日志数据的数据量小于或等于第一预设阈值情况下,为所述多个数据源配置一个存储节点;
在所述多个数据源产生的日志数据的数据量大于第一预设阈值,且小于或等于第二预设阈值情况下,为所述多个数据源中的每个数据源配置一个对应的存储节点;
在所述多个数据源产生的日志数据的数据量大于第二预设阈值情况下,为所述多个数据源中的每个数据源配置多个存储节点。
可以理解,在日志数据的数量较少时,可以采用较少的存储节点,也即对应在所述多个数据源产生的日志数据的数量小于或等于第一预设阈值情况下,为所述多个数据源配置一个存储节点。但是在实际应用中,划分存储节点的方法通常应用于数据较多的情况,因此,数据越多,对应的数据存储节点也可以相应的增多,便于后期的查询及其他处理。
其中,第一预设阈值和第二预设阈值可以为领域内专家根据经验设置。
其中,所述多个数据源例如可以是按照区域划分的多个数据源。可以理解,对于烟厂的数据来说,可以按照不同的区域划分不同的数据源,比如车间、仓库以及办公,因此可以将不同数据源的日志数据存储在不同的存储节点,以便根据存储节点即可快速的定位到工厂中不同区域对应的日志数据。因此,可以为多个数据源中的每个数据源配置一个对应的存储节点,或为多个数据源中的每个数据源配置多个对应的存储节点,从而可以根据存储节点即可快速的定位到工厂中不同数据源即不同区域对应的日志数据。
以烟厂数据为例,说明为多个数据源中的每个数据源配置一个对应的存储节点的情况。示例性地,烟厂分为制丝车间、能管动力车间、卷包车间、仓库物流和生活办公区等多个区域,将这些区域中的每个区域作为一个数据源,则对应每个区域单独划分一个存储节点,即制丝车间、能管动力车间、卷包车间、仓库物流和生活办公区等多个区域对应的存储节点分别为制丝存储节点、能管存储节点、卷包存储节点、仓库物流存储节点和生活办公存储节点。
应理解,上述过程仅以烟厂数据为例说明如何配置存储节点,上述实施例中的方法也可以应用到其他相似的领域,为多个数据源配置相应的存储节点。
本发明提供的日志数据的查询方法,通过根据多个数据源中产生的日志数据的数量配置与所述多个数据源对应的存储节点,从而提供了一种为多个数据源配置存储节点的方法。
基于上述任一实施例,在本实施例中,在根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量之后,所述方法还包括:
对不同数据源的日志数据分别标注对应的产生时间、类型并选择对应的存储地址;
将不同数据源的日志数据存储在对应的存储节点中。
可以理解,在日志数据存储阶段即对日志数据标注对应的产生时间、类型并选择对应的存储地址,为了便于后期查询时根据产生时间、类型及存储地址快速定位到相应的日志数据,从而加快查询的速度。
示例性地,可以查询12月1日对应的制丝车间的日志数据。其中,12月1日即为日志数据的产生时间,制丝车间可以对应至制丝存储节点,即为存储地址,根据所述日志数据的产生时间和所述存储节点能够快速的定位到相关的日志数据,而不需要遍历所有的日志数据。
本发明提供的日志数据的查询方法,通过在日志数据存储阶段对日志数据标注对应的产生时间、类型并选择对应的存储地址,从而便于后续直接根据产生时间查询得到某些存储地址下的某一日期、某个类型的数据,而不必查询所有存储节点的日志数据,有利于加快查询的速度。
基于上述任一实施例,在本实施例中,所述对不同数据源的日志数据分别标注对应的类型包括:
基于预设的模型对每一数据源对应的日志数据增加相应的类型标签。
其中,所述预设的模型为基于部分预先标注好类型标签的日志数据和部分无标签的日志数据预训练得到的分类模型,将每一数据源对应的日志数据输入所述预设的模型即可得到对应的类型标签。
可以理解,可以采用对将要查询的日志数据的一小部分数据标注类型标签,以及大量的不带标签的将要查询的日志数据基于一些半监督学习方法训练得到分类模型,使训练好的分类模型能够根据不同日志数据对其标注相应的类型标签。然后将不带标签的将要查询的日志数据输入预训练好的分类模型即可得到对应的类型。具体的训练分类模型的过程可以参考现有技术,为了简洁此处不再赘述。
本发明提供的日志数据的查询方法,通过模型的方法对日志数据标注相应的类型标签,避免人工标注标签,节省了人工成本。
图2为本发明提供的日志数据的查询方法的流程示意图之二。如图2所示,本发明提供的日志数据的查询方法包括以下步骤:
步骤210、标签处理器接收来自数据源的日志数据。
步骤220、标签处理器对所述日志数据标注对应的产生时间、类型,并将标注好的日志数据送入存储位置选择器。
步骤230、存储位置选择器根据日志数据对应的数据源选择相应的存储位置,并将日志数据存储在相应的存储位置。
可以理解,每个数据源对应的存储位置可以不同,例如每个数据源可以对应一个存储节点,则可以将相应的日志数据存储在每个数据源对应的一个存储节点。
图3为本发明提供的日志数据的查询方法的流程示意图之三。如图3所示,首先,用户通过网络(WEB)采用SQL查询语句查询日志数据。其次,策略配置器接收到SQL查询语句,并对SQL查询语句进行处理得到将要查询的日志数据对应的产生时间、类型以及存储地址。并且根据所述存储地址确定将要查询的日志数据在所有日志数据的占比大小,按照占比以及剩余的计算力给要查询的数据分配相应的计算力。可以理解,所述存储地址对应图3中的一个或者多个存储节点。然后,策略配置器根据要查询的日志数据的查询地址,分配SQL查询语句到指定的存储节点进行运行并返回结果。图3中示例性地给出了5个存储节点以及为每个存储节点分配的扩展分区(shard)。其中,5个存储节点分别为制丝存储节点、能管存储节点、卷包存储节点、仓库物流存储节点和生活办公存储节点。扩展分区可以理解为用于计算的服务器,可以有一个或者多个。可以理解,图3仅示例性的给出了扩展分区的情况,不应对本发明构成限定。
其中,策略配置器对SQL查询语句进行处理的过程可参考图4,图4为本发明提供的日志数据的查询方法的流程示意图之四。如图4所示,本发明提供的日志数据的查询方法包括以下步骤:
步骤410、分析SQL查询语句,解析得到存储地址。
步骤420、分析SQL查询语句,解析得到产生时间、类型。
步骤430、根据所述存储地址计算将要查询的日志数据在所有数据中的占比。
可以理解,所述占比可以由存储地址对应的存储节点中的数据存储量与所有存储节点的数据存储量相比得到。且由于SQL语句是实时接收到的,因此对应的不同存储节点的数据存储量是不同的,因此不同时间对应的占比也可能不同。
步骤440、计算系统的剩余计算力。
步骤450、根据系统的剩余计算力与所述占比得到每个存储节点的计算力,为每个存储节点分配相应的计算力。
下面对本发明提供的日志数据的查询装置进行描述,下文描述的日志数据的查询装置与上文描述的日志数据的查询方法可相互对应参照。
图5是本发明提供的日志数据的查询装置的示意图,如图5所示,本发明实施例提供的日志数据的查询装置,包括:
处理模块510,用于获取日志数据的查询语句,解析所述查询语句中所包括的日志数据数据属性,以及存储地址;
确定模块520,用于依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;
配置模块530,用于为所述存储节点配置与所述数据存储量对应的计算力;
查询模块540,用于基于所述计算力查询获取所述存储地址中与所述的数据属性对应的日志数据。
本发明提供的日志数据的查询装置,通过根据存储节点对应的数据存储量分配给存储节点的合适计算力,给需要更多计算力的存储节点分配更多的计算资源,加快查询的速度。并且通过在查询语句中增加相应的日志数据产生时间、类型,以及存储地址这些限定项,便于根据这些限定项锁定较小的查询范围,减少要查询日志的数量,从而加快查询的速度。
基于上述任一实施例,在本实施例中,所述确定模块520包括:
第一确定单元,用于依据所述存储地址,确定至少一个存储节点;
第二确定单元,用于基于与所述至少一个存储节点中每个存储节点分别对应的数据源产生的日志数据的数据量确定所述至少一个存储节点中每个存储节点对应的数据存储量。
本发明提供的日志数据的查询装置,通过根据存储节点对应的数据源的数据量确定每个存储节点对应的数据存储量,给出一种确定存储节点的数据存储量的方法,为后续根据数据存储量为存储节点分配合适的计算力打下基础。
基于上述任一实施例,在本实施例中,所述配置模块530包括:
计算单元,用于计算所述至少一个存储节点中每一个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值;
分配单元,用于根据所述比值给对应的每一个存储节点分配相应的计算力。
本发明提供的日志数据的查询装置,通过计算每个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值,得到对应的每个存储节点的数据量与总数据量的比值,从而给需要更多计算力的存储节点分配更多的计算力,加快查询的速度,给需要更少计算力的存储节点分配更少的计算力,减少计算资源的浪费。
基于上述任一实施例,在本实施例中,所述装置还包括:
确定模块,用于根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量。
本发明提供的日志数据的查询装置,通过根据多个数据源中产生的日志数据的数量确定与所述多个数据源对应的存储节点的数量,从而选择了一个合适的存储节点数量,既不会因为存储节点过少造成查询压力大,避免出现系统运行缓慢甚至内存溢出、数据丢失的情况,也不会因为存储节点过多造成浪费计算资源、维护成本高。
基于上述任一实施例,在本实施例中,所述确定模块包括:
第一配置单元,用于在所述多个数据源产生的日志数据的数据量小于或等于第一预设阈值情况下,为所述多个数据源配置一个存储节点;
第二配置单元,用于在所述多个数据源产生的日志数据的数据量大于第一预设阈值,且小于或等于第二预设阈值情况下,为所述多个数据源中的每个数据源配置一个对应的存储节点;
第三配置单元,用于在所述多个数据源产生的日志数据的数据量大于第二预设阈值情况下,为所述多个数据源中的每个数据源配置多个存储节点。
本发明提供的日志数据的查询装置,通过根据多个数据源中产生的日志数据的数量配置与所述多个数据源对应的存储节点,从而提供了一种为多个数据源配置存储节点的方法。
基于上述任一实施例,在本实施例中,所述装置还包括:
标注模块,用于对不同数据源的日志数据分别标注对应的产生时间、类型并选择对应的存储地址;
存储模块,用于将不同数据源的日志数据存储在对应的存储节点中。
本发明提供的日志数据的查询装置,通过在日志数据存储阶段对日志数据标注对应的产生时间、类型并选择对应的存储地址,从而便于后续直接根据产生时间查询得到某些存储地址下的某一日期、某个类型的数据,而不必查询所有存储节点的日志数据,有利于加快查询的速度。
基于上述任一实施例,在本实施例中,所述标注模块包括:
类型标注单元,用于基于预设的模型对每一数据源对应的日志数据增加相应的类型标签;其中,所述预设的模型为基于部分预先标注好类型标签的日志数据和部分无标签的日志数据预训练得到的分类模型,将每一数据源对应的日志数据输入所述预设的模型得到对应的类型标签。
本发明提供的日志数据的查询装置,通过模型的方法对日志数据标注相应的类型标签,避免人工标注标签,节省了人工成本。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述日志数据的查询方法,包括:获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;为所述存储节点配置与所述数据存储量对应的计算力;基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行本发明所提供的日志数据的查询方法,包括:获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;为所述存储节点配置与所述数据存储量对应的计算力;基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行本发明所提供的日志数据的查询方法,包括:获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;为所述存储节点配置与所述数据存储量对应的计算力;基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种日志数据的查询方法,其特征在于,包括:
获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;
依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;
为所述存储节点配置与所述数据存储量对应的计算力;
基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
2.根据权利要求1所述的日志数据的查询方法,其特征在于,所述依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量,包括:
依据所述存储地址,确定至少一个存储节点;
基于与所述至少一个存储节点中每个存储节点分别对应的数据源产生的日志数据的数据量确定所述至少一个存储节点中每个存储节点对应的数据存储量。
3.根据权利要求2所述的日志数据的查询方法,其特征在于,所述为所述存储节点配置与所述数据存储量对应的计算力,包括:
计算所述至少一个存储节点中每一个存储节点对应的数据存储量与多个数据源对应的所有存储节点的数据存储量中的比值;
根据所述比值给对应的每一个存储节点分配相应的计算力。
4.根据权利要求1所述的日志数据的查询方法,其特征在于,在所述获取日志数据的查询语句之前,所述方法还包括:
根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量。
5.根据权利要求4所述的日志数据的查询方法,其特征在于,所述根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量,包括:
在所述多个数据源产生的日志数据的数据量小于或等于第一预设阈值情况下,为所述多个数据源配置一个存储节点;
在所述多个数据源产生的日志数据的数据量大于第一预设阈值,且小于或等于第二预设阈值情况下,为所述多个数据源中的每个数据源配置一个对应的存储节点;
在所述多个数据源产生的日志数据的数据量大于第二预设阈值情况下,为所述多个数据源中的每个数据源配置多个存储节点。
6.根据权利要求4所述的日志数据的查询方法,其特征在于,在根据多个数据源中产生的日志数据的数据量确定所需的存储节点的数量之后,所述方法还包括:
对不同数据源的日志数据分别标注对应的产生时间、类型并选择对应的存储地址;
将不同数据源的日志数据存储在对应的存储节点中。
7.根据权利要求6所述的日志数据的查询方法,其特征在于,所述对不同数据源的日志数据分别标注对应的类型包括:
基于预设的模型对每一数据源对应的日志数据增加相应的类型标签;其中,所述预设的模型为基于部分预先标注好类型标签的日志数据和部分无标签的日志数据预训练得到的分类模型,将每一数据源对应的日志数据输入所述预设的模型得到对应的类型标签。
8.一种日志数据的查询装置,其特征在于,包括:
处理模块,用于获取日志数据的查询语句,解析所述查询语句中所包括的日志数据的数据属性以及存储地址;
确定模块,用于依据所述存储地址,确定所述日志数据的存储节点以及所述存储节点对应的数据存储量;
配置模块,用于为所述存储节点配置与所述数据存储量对应的计算力;
查询模块,用于基于所述计算力查询获取所述存储地址中与所述数据属性对应的日志数据。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述日志数据的查询方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述日志数据的查询方法的步骤。
CN202210104293.2A 2022-01-28 2022-01-28 日志数据的查询方法及装置 Active CN114116774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210104293.2A CN114116774B (zh) 2022-01-28 2022-01-28 日志数据的查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210104293.2A CN114116774B (zh) 2022-01-28 2022-01-28 日志数据的查询方法及装置

Publications (2)

Publication Number Publication Date
CN114116774A true CN114116774A (zh) 2022-03-01
CN114116774B CN114116774B (zh) 2022-06-28

Family

ID=80361838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210104293.2A Active CN114116774B (zh) 2022-01-28 2022-01-28 日志数据的查询方法及装置

Country Status (1)

Country Link
CN (1) CN114116774B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701336A (zh) * 2023-05-19 2023-09-05 国网物资有限公司 电力数据日志处理方法、电子设备和计算机可读介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716381A (zh) * 2013-12-12 2014-04-09 华为技术有限公司 一种分布式系统的控制方法,及管理节点
CN105447132A (zh) * 2015-11-19 2016-03-30 上海交通大学 面向物联网应用的四层地理数据存储系统
CN106959820A (zh) * 2016-01-11 2017-07-18 杭州海康威视数字技术股份有限公司 一种数据提取方法和系统
US20170255510A1 (en) * 2016-03-02 2017-09-07 Yunshang company limited System and method for regenerating codes for a distributed storage system
CN109189329A (zh) * 2018-08-08 2019-01-11 杭州数梦工场科技有限公司 存储节点权重的调整方法和装置
CN111061685A (zh) * 2019-11-21 2020-04-24 腾讯科技(深圳)有限公司 日志查询方法、装置、节点设备及存储介质
CN111666131A (zh) * 2020-07-03 2020-09-15 腾讯科技(深圳)有限公司 负载均衡分配方法、装置、计算机设备和存储介质
US20200334106A1 (en) * 2018-01-09 2020-10-22 Alibaba Group Holding Limited Data Storage Method, Apparatus, and System
CN111858656A (zh) * 2020-07-21 2020-10-30 威讯柏睿数据科技(北京)有限公司 一种基于分布式架构的静态数据的查询方法和设备
CN112818047A (zh) * 2021-01-25 2021-05-18 中国铁塔股份有限公司 基于分布式数据库的数据存储方法、装置及电子设备
CN113297323A (zh) * 2021-02-19 2021-08-24 阿里巴巴集团控股有限公司 数据处理系统、方法及装置
CN113742135A (zh) * 2021-08-24 2021-12-03 咪咕音乐有限公司 数据备份方法、装置及计算机可读存储介质
CN113965519A (zh) * 2021-09-06 2022-01-21 阿里巴巴(中国)有限公司 流量控制、集群资源保障方法、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716381A (zh) * 2013-12-12 2014-04-09 华为技术有限公司 一种分布式系统的控制方法,及管理节点
CN105447132A (zh) * 2015-11-19 2016-03-30 上海交通大学 面向物联网应用的四层地理数据存储系统
CN106959820A (zh) * 2016-01-11 2017-07-18 杭州海康威视数字技术股份有限公司 一种数据提取方法和系统
US20170255510A1 (en) * 2016-03-02 2017-09-07 Yunshang company limited System and method for regenerating codes for a distributed storage system
US20200334106A1 (en) * 2018-01-09 2020-10-22 Alibaba Group Holding Limited Data Storage Method, Apparatus, and System
CN109189329A (zh) * 2018-08-08 2019-01-11 杭州数梦工场科技有限公司 存储节点权重的调整方法和装置
CN111061685A (zh) * 2019-11-21 2020-04-24 腾讯科技(深圳)有限公司 日志查询方法、装置、节点设备及存储介质
CN111666131A (zh) * 2020-07-03 2020-09-15 腾讯科技(深圳)有限公司 负载均衡分配方法、装置、计算机设备和存储介质
CN111858656A (zh) * 2020-07-21 2020-10-30 威讯柏睿数据科技(北京)有限公司 一种基于分布式架构的静态数据的查询方法和设备
CN112818047A (zh) * 2021-01-25 2021-05-18 中国铁塔股份有限公司 基于分布式数据库的数据存储方法、装置及电子设备
CN113297323A (zh) * 2021-02-19 2021-08-24 阿里巴巴集团控股有限公司 数据处理系统、方法及装置
CN113742135A (zh) * 2021-08-24 2021-12-03 咪咕音乐有限公司 数据备份方法、装置及计算机可读存储介质
CN113965519A (zh) * 2021-09-06 2022-01-21 阿里巴巴(中国)有限公司 流量控制、集群资源保障方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李志刚: "无线传感器网络分布数据存储策略研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701336A (zh) * 2023-05-19 2023-09-05 国网物资有限公司 电力数据日志处理方法、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN114116774B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN110309196A (zh) 区块链数据存储和查询方法、装置、设备及存储介质
US9521052B1 (en) Methods, systems, and computer readable mediums for utilizing application programming interfaces for accessing key performance indicator information
CN114417417B (zh) 一种基于联邦学习的工业物联网隐私保护系统及方法
CN114116774B (zh) 日志数据的查询方法及装置
CN103324713A (zh) 多级服务器中的数据处理方法、装置和数据处理系统
CN115564071A (zh) 一种电力物联网设备数据标签生成方法及系统
CN114968739A (zh) 运维任务管理方法、运维方法、装置、设备和介质
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备
CN116089414B (zh) 基于海量数据场景的时序数据库写入性能优化方法及装置
CN108711074B (zh) 业务分类方法、装置、服务器及可读存储介质
CN111338903A (zh) 一种交易异常的报警方法及装置
CN109165325A (zh) 用于切分图数据的方法、装置、设备以及计算机可读存储介质
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN113867736B (zh) 部署方案生成方法及装置
CN114153646A (zh) 一种运维故障处置方法、装置及存储介质、处理器
CN115248815A (zh) 预测查询处理
CN115168377A (zh) 一种报表数据处理方法、装置、设备及介质
CN114969189A (zh) 一种数据库连接池中连接确定方法及装置
Cheng et al. Easyrec: An easy-to-use, extendable and efficient framework for building industrial recommendation systems
CN113704251A (zh) 分布式存储数据库一体机的首页布局方法及装置
CN113360576A (zh) 一种基于Flink Streaming的电网海量数据实时处理方法及装置
CN114462373B (zh) 审计规则确定方法、装置、电子设备及存储介质
CN109905475B (zh) 一种基于sql以规定格式输出云计算监控数据的方法
CN110807229B (zh) 一种配网主站系统web接线图的数据更新方法及服务器
CN115473834B (zh) 监控任务调度方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant