CN107704478A - 一种写入日志的方法和系统 - Google Patents

一种写入日志的方法和系统 Download PDF

Info

Publication number
CN107704478A
CN107704478A CN201710028788.0A CN201710028788A CN107704478A CN 107704478 A CN107704478 A CN 107704478A CN 201710028788 A CN201710028788 A CN 201710028788A CN 107704478 A CN107704478 A CN 107704478A
Authority
CN
China
Prior art keywords
daily record
flume
systems
components
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710028788.0A
Other languages
English (en)
Other versions
CN107704478B (zh
Inventor
陈亚川
苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou White Cloud Technology Co Ltd
Guizhou Baishancloud Technology Co Ltd
Original Assignee
Guizhou White Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou White Cloud Technology Co Ltd filed Critical Guizhou White Cloud Technology Co Ltd
Priority to CN201710028788.0A priority Critical patent/CN107704478B/zh
Priority to PCT/CN2018/072764 priority patent/WO2018130222A1/zh
Publication of CN107704478A publication Critical patent/CN107704478A/zh
Application granted granted Critical
Publication of CN107704478B publication Critical patent/CN107704478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种写入日志的方法和系统。所述方法包括:步骤1,获取多条日志;步骤2,根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;步骤3,根据所述日志的等级,分别读取所述日志,并写入HDFS系统。采用本发明的方法和系统,杂乱无章的日志文件在写入HDFS系统后,就变得清楚有序,通过HDFS系统中记录的文件名就可以快速、准确地查到的某个域名某个时间段的访问情况。

Description

一种写入日志的方法和系统
技术领域
本发明涉及网络领域,尤其涉及一种写入日志的方法和系统。
背景技术
Hadoop分布式文件系统(简称HDFS)是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
在客户端提交域名解析请求时,会生成访问日志。根据域名被访问的次数不同,生成的访问日志文件的容量大小不一。这样,在将访问日志文件存储到HDFS系统上时,由于小容量文件的数量非常多,这就需要频繁打开文件读取其中内容,从而造成系统崩溃。此外,在提交域名解析请求时生成的访问日志文件大多是杂乱无章的,如果直接将这些杂乱的日志文件写入HDFS系统,则会使后续处理非常麻烦。
因此,需要一种能够提高日志写入HDFS系统的吞吐量的写入方法和系统。
发明内容
为了解决现有技术中存在的问题,提供了一种写入日志的方法和系统,该方法和系统能够解决将日志问写入HDFS系统时吞吐量不够的问题,且能够对杂乱无章的日志文件进行整理。
根据本发明的一个方面,提供了一种写入日志的方法,所述方法包括:
步骤1,获取多条日志;
步骤2,根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
步骤3,根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
其中,所述步骤2中的域名的请求量为在写入日志前统计的所述域名的请求量。
其中,所述步骤3还包括:将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。
其中,使用第一Flume系统执行所述步骤1和所述步骤2,使用第二Flume系统执行所述步骤3,所述第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。
其中,所述方法在所述步骤2和所述步骤3之间还包括:
将不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。
其中,使用Kafka系统维护所述M个日志队列。
其中,所述步骤1包括:所述第一Flume系统中的source组件读取所述多条日志;
所述步骤2包括:所述第一Flume系统中的source组件对所述日志划分等级,并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中,使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。
其中,所述步骤3包括:
所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。
其中,所述映射算法为哈希算法。
根据本发明的另一个方面,还提供了一种写入日志的系统,所述系统包括:
获取模块,用于获取多条日志;
分级模块,用于根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
写入模块,用于根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
其中,所述域名的请求量为在写入日志前统计的所述域名的请求量。
其中,所述写入模块还用于:
将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。
其中,所述获取模块和所述分级模块由第一Flume系统实现,所述写入模块由第二Flume系统实现,所述第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。
其中,所述系统还包括:
存储模块,用于维护M个不同的日志队列,不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。
其中,所述存储模块由Kafka系统实现。
其中,所述获取模块由所述第一Flume系统中的source组件实现;
所述分级模块由所述第一Flume系统中的source组件、N个channel组件以及N个sink组件实现,所述第一Flume系统中的source组件对所述日志划分等级,并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中,使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。
其中,所述写入模块由所述第二Flume系统中的Flume子系统实现,所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。
其中,所述映射算法为哈希算法。
本发明中的写入日志的方法和系统,对请求量大的域名日志和请求量小的域名日志进行分类,尤其是将数量庞大的请求量小的域名日志分配到不同的通道并写入HDFS系统中,克服了频繁打开小容量日志文件导致的吞吐量太小的问题。并且在写入请求量小的域名日志时,将访问目标为同一域名并且访问时间位于同一时间段的日志写入HDFS系统中相同类别的文件中,即HDFS系统中同一个文件中日志指向同一域名且时间戳位于同一时间段。这样,杂乱无章的日志文件在写入HDFS系统后,就变得清楚有序,通过HDFS系统中记录的文件名就可以快速、准确地查到的某个域名某个时间段的访问情况。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的写入日志的方法的流程图;
图2是根据本发明的写入日志的方法具体实施例的示意图;
图3是根据本发明的第二Flume系统中一个Flume子系统的示意图;
图4是根据本发明的写入日志的系统的示意性框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明提供了一种写入日志的方法。如图1所示,该方法包括:
步骤101,获取多条日志;
步骤102,根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
步骤103,根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
步骤102中的域名的请求量为准写入日志前统计的域名的请求量。例如,可以根据网站(即,域名)的访问量(即,请求量)对网站进行排名。访问量较大的网站被划分到较高等级,访问量较小的网站被划分到较低等级。划分的等级个数可以根据实际情况来定,划分的等级个数越多,则写入HDFS系统的速度越快,但是所需要的系统资源也越多。
步骤103还包括:将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。即,在读取日志后,根据日志中包含的域名以及相应的时间戳来对日志进行分类,将属于同一类的日志写入HDFS系统中相同类别的文件中。
上述步骤101-103可以由两个Flume系统实现,其中,使用第一Flume系统执行步骤101和步骤102,使用第二Flume系统执行步骤103,并且第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。即第二Flume系统包括的Flume子系统的数量与根据日志中域名的请求量将日志划分成的等级数量相同。每一组Flume子系统负责处理相应的一个等级的日志向HDFS系统的写入。在使用两个Flume系统实现上述方法时,第一Flume系统中的sink组件中的日志分别被读入到第二Flume系统中相应的Flume子系统的source组件中。需要注意的是,第二Flume系统的各Flume子系统可以包括多个source组件。
第一Flume系统的操作具体可以包括:在步骤1中,第一Flume系统中的source组件读取多条日志;在步骤2中,第一Flume系统中的source组件对日志划分等级,并将N个等级的日志分别分配到第一Flume系统中的N个channel组件中,使用与N个channel组件一一对应的第一Flume系统中的N个sink组件分别读取各对应的N个channel组件中的日志。
第二Flume系统的操作具体可以包括:在步骤3中,第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的channel组件中的日志。其中,所采用的映射算法为哈希算法。
另外,在步骤102和步骤103之间包括:将不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。并且,使用Kafka系统维护该M个日志队列。在这种实现方式中,在第一Flume系统和第二Flume系统之间加入Kafka系统,在该Kafka系统中设置多个日志队列,且日志队列的个数与日志划分成的等级数量相同,将不同等级的日志分别存储至Kafka系统中各对应的日志队列中。
下面参照图2描述了根据本发明的写入日志的具体实施例。图2包括第一Flume系统、Kafka系统,以及第二Flume系统。需要说明的是,这里的Flume系统和Kafka系统都是示例性的,也可以由其他具有相同功能的系统实现图1中所示的写入日志的方法。
在第一Flume系统中,通过其中的source组件获取多条日志,并根据日志中包含的域名的请求量,将日志划分为两个等级。这种等级划分是根据域名请求量的多少进行的,请求量大的域名被划分到第一等级,请求量小的域名被划分到第二等级。第一等级中的包含相同域名的日志条目数大于第二等级中的包含相同域名的日志条目数。然后将第一等级中的日志和第二等级中的日志分别通过第一channel组件和第二channel组件传输到第一sink组件和第二sink组件。
Kafka系统负责维护第一日志队列和第二日志队列。第一Flume系统中第一sink组件中的日志被写到第一日志队列中,第二sink组件中的日志被写到第二日志队列中。
在第二Flume系统中,分别读取第一日志队列中和第二日志队列中的日志,并将这些日志写入到HDFS系统中。具体地,该第二Flume系统包括第一Flume子系统和第二Flume子系统,其中,每个Flume子系统可以包括一个或多个source组件,每个source组件对应多个channel组件和sink组件。例如,第一Flume子系统和第二Flume子系统分别包括一个source组件。第一Flume子系统中的source组件从第一日志队列中读取请求量较大的域名的日志,第二Flume子系统中的source组件从第二日志队列中读取请求量较小的域名的日志。
对于请求量较大的域名来说,这种域名的数量较少,并且同一域名下日志的条数较多,因此在从第一Flume子系统写入HDFS系统时,较不易出现阻塞问题。对于请求量较小的域名来说,这种域名的数量非常庞大,但是同一域名下日志的条数较少,因此在从第二Flume子系统写入HDFS系统时,由于需要频繁打开文件读取及写入,非常容易出现堵塞问题。因此对于第二Flume子系统采用下述方式处理日志。而第一Flume子系统中一个source组件对应较少的channel组件及sink组件即可,例如,一个或两个channel组件及sink组件。
第二Flume子系统的工作过程如图3所示。图3示出了Flume子系统的示意图,其中以Flume子系统中包括一个source组件为例。即,在图3所示的系统中只是示意性地示出了一个source组件及其对应的channel组件和sink组件。其中,一个source组件对应于多个channel组件,每个channel组件又与一个sink组件一一对应。source组件对应的channel组件及sink组件的个数可根据实际需要进行设置。source组件采用映射算法(例如,哈希算法)将其读取出的日志映射输出到各个channel组件,并由各个对应的sink组件从相应的channel组件中读取日志,并写入HDFS系统中的相应文件中。其中,包含相同的域名,且包含的访问时间为相同时间段的日志被映射到同一个channel组件及其对应的sink组件中,然后再由对应的sink组件将其读取的日志写入到HDFS系统的同一个文件中。例如,source组件读取的日志中涉及4000个域名,source组件采用哈希算法将涉及该4000个域名的日志分配到4个channel组件中,每个channel组件与一个sink组件一一对应,每个sink组件处理与1000个域名相对应的日志,可以大大降低读取日志并写入HDFS系统的阻塞率。
上面是以Flume子系统中包括一个source组件为例描述的,当Flume子系统中包括多个source组件时,同一个Flume系统中的各source组件从同一个日志队列中读取日志,然后每个source组件通过哈希算法将读取的日志分别分配到与该source组件连接的多个channel组件,再由与每个channel组件一一对应的sink组件读取日志并写入到HDFS系统中。需要说明的是,一个Flume子系统包含的source组件的个数越多,则该Flume子系统可处理的日志的吞吐量越大。
本发明还提供了一种写入日志的系统,如图4所示,该系统包括:
获取模块401,用于获取多条日志;
分级模块402,用于根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
写入模块403,用于根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
所述域名的请求量为在写入日志前统计的所述域名的请求量。
所述写入模块403还用于:将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。
所述获取模块401和所述分级模块402由第一Flume系统实现,所述写入模块403由第二Flume系统实现,所述第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。
所述系统还包括:存储模块,用于维护M个不同的日志队列,不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。
所述存储模块由Kafka系统实现。
所述获取模块401由所述第一Flume系统中的source组件实现;
所述分级模块402由所述第一Flume系统中的source组件、N个channel组件以及N个sink组件实现,所述第一Flume系统中的source组件对所述日志划分等级,并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中,使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。
所述写入模块403由所述第二Flume系统中的Flume子系统实现,所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。
所述映射算法为哈希算法。
本发明中的写入日志的方法和系统,对请求量大的域名日志和请求量小的域名日志进行分类,尤其是将数量庞大的请求量小的域名日志分配到不同的通道并写入HDFS系统中,克服了频繁打开小容量日志文件导致的吞吐量太小的问题。并且在写入请求量小的域名日志时,将访问目标为同一域名并且访问时间位于同一时间段的日志写入HDFS系统中相同类别的文件中,即HDFS系统中同一个文件中日志指向同一域名且时间戳位于同一时间段。这样,杂乱无章的日志文件在写入HDFS系统后,就变得清楚有序,通过HDFS系统中记录的文件名就可以快速、准确地查到的某个域名某个时间段的访问情况。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (18)

1.一种写入日志的方法,其特征在于,所述方法包括:
步骤1,获取多条日志;
步骤2,根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
步骤3,根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
2.如权利要求1所述的方法,其特征在于,所述步骤2中的域名的请求量为在写入日志前统计的所述域名的请求量。
3.如权利要求1所述的方法,其特征在于,所述步骤3还包括:
将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。
4.如权利要求1所述的方法,其特征在于,
使用第一Flume系统执行所述步骤1和所述步骤2,使用第二Flume系统执行所述步骤3,所述第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。
5.如权利要求1、3或4所述的方法,其特征在于,所述方法在所述步骤2和所述步骤3之间还包括:
将不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。
6.如权利要求5所述的方法,其特征在于,
使用Kafka系统维护所述M个日志队列。
7.如权利要求5所述的方法,其特征在于,
所述步骤1包括:所述第一Flume系统中的source组件读取所述多条日志;
所述步骤2包括:所述第一Flume系统中的source组件对所述日志划分等级,并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中,使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。
8.如权利要求5所述的方法,其特征在于,所述步骤3包括:
所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。
9.如权利要求8所述的方法,其特征在于,所述映射算法为哈希算法。
10.一种写入日志的系统,其特征在于,所述系统包括:
获取模块,用于获取多条日志;
分级模块,用于根据所述日志中包含的域名的请求量,将所述日志划分为N个等级,其中N为大于等于1的正整数;
写入模块,用于根据所述日志的等级,分别读取所述日志,并写入HDFS系统。
11.如权利要求10所述的系统,其特征在于,所述域名的请求量为在写入日志前统计的所述域名的请求量。
12.如权利要求10所述的系统,其特征在于,所述写入模块还用于:
将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。
13.如权利要求10所述的系统,其特征在于,
所述获取模块和所述分级模块由第一Flume系统实现,所述写入模块由第二Flume系统实现,所述第二Flume系统包括S组Flume子系统,其中S为大于等于1的正整数,S=N。
14.如权利要求10、12或13所述的系统,其特征在于,所述系统还包括:
存储模块,用于维护M个不同的日志队列,不同等级的日志分别存储至M个不同的日志队列中,其中M为大于等于1的正整数,M=N。
15.如权利要求14所述的系统,其特征在于,
所述存储模块由Kafka系统实现。
16.如权利要求14所述的系统,其特征在于,
所述获取模块由所述第一Flume系统中的source组件实现;
所述分级模块由所述第一Flume系统中的source组件、N个channel组件以及N个sink组件实现,所述第一Flume系统中的source组件对所述日志划分等级,并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中,使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。
17.如权利要求14所述的系统,其特征在于,
所述写入模块由所述第二Flume系统中的Flume子系统实现,所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志,将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中,使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。
18.如权利要求17所述的系统,其特征在于,所述映射算法为哈希算法。
CN201710028788.0A 2017-01-16 2017-01-16 一种写入日志的方法和系统 Active CN107704478B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710028788.0A CN107704478B (zh) 2017-01-16 2017-01-16 一种写入日志的方法和系统
PCT/CN2018/072764 WO2018130222A1 (zh) 2017-01-16 2018-01-16 一种写入日志的方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710028788.0A CN107704478B (zh) 2017-01-16 2017-01-16 一种写入日志的方法和系统

Publications (2)

Publication Number Publication Date
CN107704478A true CN107704478A (zh) 2018-02-16
CN107704478B CN107704478B (zh) 2019-03-15

Family

ID=61169440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710028788.0A Active CN107704478B (zh) 2017-01-16 2017-01-16 一种写入日志的方法和系统

Country Status (2)

Country Link
CN (1) CN107704478B (zh)
WO (1) WO2018130222A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN109684172A (zh) * 2018-12-17 2019-04-26 泰康保险集团股份有限公司 基于访问频率的日志推送方法、系统、设备及存储介质
CN112905106A (zh) * 2019-12-04 2021-06-04 贵州白山云科技股份有限公司 一种数据处理方法、装置、系统、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192227A (zh) * 2006-11-30 2008-06-04 阿里巴巴公司 一种基于分布式计算网络的日志文件分析方法和系统
CN101950293A (zh) * 2010-08-11 2011-01-19 东软集团股份有限公司 日志萃取方法及装置
CN103401934A (zh) * 2013-08-06 2013-11-20 广州唯品会信息科技有限公司 获取日志数据的方法和系统
CN103685230A (zh) * 2013-11-01 2014-03-26 上海交通大学 僵尸网络恶意域名的分布式协同检测系统和方法
CN104579777A (zh) * 2015-01-06 2015-04-29 浪潮软件股份有限公司 日志管理系统和实现方法
CN105224691A (zh) * 2015-10-30 2016-01-06 北京网康科技有限公司 一种信息处理方法及装置
CN105429784A (zh) * 2015-10-30 2016-03-23 上海帝联信息科技股份有限公司 中央收集服务器、日志文件处理方法及系统
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
CN105577431A (zh) * 2015-12-11 2016-05-11 青岛云成互动网络有限公司 一种基于互联网应用的用户信息识别分类方法和系统
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9389976B2 (en) * 2014-04-09 2016-07-12 Intel Corporation Distributed persistent memory using asynchronous streaming of log records
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN105608223B (zh) * 2016-01-12 2019-04-30 北京中交兴路车联网科技有限公司 针对kafka的Hbase数据库的入库方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192227A (zh) * 2006-11-30 2008-06-04 阿里巴巴公司 一种基于分布式计算网络的日志文件分析方法和系统
CN101950293A (zh) * 2010-08-11 2011-01-19 东软集团股份有限公司 日志萃取方法及装置
CN103401934A (zh) * 2013-08-06 2013-11-20 广州唯品会信息科技有限公司 获取日志数据的方法和系统
CN103685230A (zh) * 2013-11-01 2014-03-26 上海交通大学 僵尸网络恶意域名的分布式协同检测系统和方法
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
CN104579777A (zh) * 2015-01-06 2015-04-29 浪潮软件股份有限公司 日志管理系统和实现方法
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置
CN105224691A (zh) * 2015-10-30 2016-01-06 北京网康科技有限公司 一种信息处理方法及装置
CN105429784A (zh) * 2015-10-30 2016-03-23 上海帝联信息科技股份有限公司 中央收集服务器、日志文件处理方法及系统
CN105577431A (zh) * 2015-12-11 2016-05-11 青岛云成互动网络有限公司 一种基于互联网应用的用户信息识别分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾明宇: "一种基于Storm和Mongodb的分布式实时日志数据存储与处理系统的设计与实现及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN109684172A (zh) * 2018-12-17 2019-04-26 泰康保险集团股份有限公司 基于访问频率的日志推送方法、系统、设备及存储介质
CN112905106A (zh) * 2019-12-04 2021-06-04 贵州白山云科技股份有限公司 一种数据处理方法、装置、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2018130222A1 (zh) 2018-07-19
CN107704478B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
US11263211B2 (en) Data partitioning and ordering
CN103812939B (zh) 一种大数据存储系统
US20180285167A1 (en) Database management system providing local balancing within individual cluster node
US8356050B1 (en) Method or system for spilling in query environments
CN107045531A (zh) 一种优化hdfs小文件存取的系统及方法
CN104407879B (zh) 一种电网时序大数据并行加载方法
US20140181042A1 (en) Information processor, distributed database system, and backup method
JP5499825B2 (ja) データベース管理方法、データベースシステム、プログラム及びデータベースのデータ構造
US9305112B2 (en) Select pages implementing leaf nodes and internal nodes of a data set index for reuse
CN106874320A (zh) 分布式流式数据处理的方法和装置
CN107704478A (zh) 一种写入日志的方法和系统
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS系统及其使用方法
CN104657435A (zh) 一种应用数据的存储管理方法和网络管理系统
CN110457182A (zh) 一种负载均衡集群实例运行指标监控系统
CN106844288A (zh) 一种随机字符串生成方法及装置
CN109460406A (zh) 一种数据处理方法及装置
US9380126B2 (en) Data collection and distribution management
CN108228606A (zh) 数据的写入方法及装置
CN103345527B (zh) 数据智能统计系统
CN110851758B (zh) 一种网页访客数量统计方法及装置
US9727561B1 (en) Context- and activity-aware content selection
CN115221174A (zh) 基于人工智能的数据分级存储方法、装置、设备及介质
CN111221814A (zh) 二级索引的构建方法、装置及设备
US20210026825A1 (en) Read iterator for pre-fetching nodes of a b-tree into memory
CN101504641B (zh) 报表处理方法和报表处理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 550003 Building No. 12 in the South Park of Gui'an High-end Equipment Industrial Park, Guiyang City, Guizhou Province

Applicant after: Guizhou Baishan cloud Polytron Technologies Inc

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: Guizhou white cloud Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant