CN107357919A - 行为日志查询系统及方法 - Google Patents

行为日志查询系统及方法 Download PDF

Info

Publication number
CN107357919A
CN107357919A CN201710600079.5A CN201710600079A CN107357919A CN 107357919 A CN107357919 A CN 107357919A CN 201710600079 A CN201710600079 A CN 201710600079A CN 107357919 A CN107357919 A CN 107357919A
Authority
CN
China
Prior art keywords
user behaviors
behaviors log
query engine
inquiry
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710600079.5A
Other languages
English (en)
Inventor
许�鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Network Technology Shanghai Co Ltd filed Critical Ctrip Travel Network Technology Shanghai Co Ltd
Priority to CN201710600079.5A priority Critical patent/CN107357919A/zh
Publication of CN107357919A publication Critical patent/CN107357919A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种行为日志查询系统及方法,所述行为日志查询系统包括:日志串接模块,用于在用户进行访问时将唯一标识增加到行为日志中;至少一系统模块,每个系统模块存储有包含唯一标识的行为日志;数据收集模块,用于从至少一系统模块中读取所有行为日志并写入查询引擎;输入模块,用于输入查询关键词,查询关键词包括所述唯一标识;查询引擎,包括至少一查询单位,每个查询单位存储有具有不同元数据的行为日志,查询引擎还用于反馈包括查询关键词的行为日志。本发明解决了海量用户行为日志串接、存储、高效查询、可视化这一系列问题,将大型系统中海量用户的历史和当前行为日志在不同系统模块中串接起来,支持近实时的高效查询。

Description

行为日志查询系统及方法
技术领域
本发明属于大数据处理技术领域,尤其涉及一种行为日志查询系统及方法。
背景技术
互联网时代发展到今天,诞生了无数个超大规模、超大流量的线上系统。大系统内部往往由多个模块组成,各个模块以服务和接口的方式输出功能,因此,大系统内部之间的协作可以看成是成百上千服务之间的调用与被调用。这样的模块划分有利于研发资源的分配和功能实现之间的隔离,带来的问题是系统日志的分散化,原本代表用户行为的日志会被分散到多个模块产生的日志,这给系统定位问题和研究用户的行为特性带来很大的困扰。
当前时代,大数据技术逐步趋于成熟,Hadoop(一种分布式系统基础架构)、hive(基于Hadoop的一个数据仓库工具)等处理框架能够很好解决海量日志存储的问题,但是对数据的实时查询性能有所欠缺;基于hive的查询优化,虽然查询性能有所提升,但似乎也满足不了web(全球广域网)应用秒级返回的需求,同时hive存储依赖于HDFS(Hadoop分布式文件系统)的特性使得数据落地的实时性难以得到保障;Elastic Search(基于Lucene的搜索服务器)、Solr(独立的企业级搜索应用服务器)等分布式查询引擎,可以解决海量数据存储和近实时查询的问题,但是当日积月累的数据到达一定规模时,这些查询引擎的响应时间也很难得到保障。
发明内容
本发明是为了克服现有技术中难以保障高效的用户行为日志实时查询和历史查询的缺陷,提供一种行为日志查询系统及方法。
本发明通过以下技术方案来解决上述问题:
一种行为日志查询系统,包括:
日志串接模块,用于在用户进行访问时将唯一标识增加到行为日志中;
至少一系统模块,每个系统模块存储有包含唯一标识的行为日志;
数据收集模块,用于从所述至少一系统模块中读取所有行为日志并写入查询引擎;
输入模块,用于输入查询关键词,所述查询关键词包括所述唯一标识;
查询引擎,包括至少一查询单位,每个查询单位存储有具有不同元数据的行为日志,所述元数据用于描述行为日志的属性,所述查询引擎还用于反馈包括所述查询关键词的行为日志。
较佳地,所述查询引擎包括实时查询引擎和历史查询引擎。
较佳地,所述行为日志查询系统还包括行为日志更新模块,所述行为日志更新模块用于检测所述查询引擎,在检测到存在新增行为日志时,将所述新增行为日志增加至所述查询引擎中对应的查询单位中。
较佳地,所述行为日志查询系统还包括可视化模块,用于显示包含所述查询关键词的行为日志。
一种行为日志查询方法,利用如上述各优选项任意组合的行为日志查询系统实现,所述行为日志查询方法包括以下步骤:
S1、用户进行访问时将唯一标识增加到行为日志中;
S2、数据收集模块从所述至少一系统模块中读取包含所述唯一标识的行为日志并写入查询引擎;
S3、所述查询引擎对每个唯一标识创建一个与查询单位相对应的索引;
S4、输入模块获取查询关键词,所述查询关键词包括所述唯一标识;
S5、所述查询引擎反馈包括所述查询关键词的行为日志。
较佳地,所述查询引擎包括实时查询引擎和历史查询引擎。
较佳地,所述行为日志查询系统还包括行为日志更新模块,所述行为日志查询方法还包括:
所述行为日志更新模块在检测到所述查询引擎存在新增行为日志时,将所述新增行为日志增加至所述查询引擎对应的查询单位中。
较佳地,所述行为日志查询方法还包括:
S6、可视化模块显示包含所述查询关键词的行为日志。
本发明的积极进步效果在于:本发明通过在系统入口为用户每次访问全局添加唯一标识,通过高吞吐量的消息队列收集用户行为日志,将暂存在消息队列里的带有唯一标识的行为日志,一方面实时将其ETL(描述数据从来源端经过抽取、转换、加载至目的端的过程)到实时数据查询引擎,另一方面定期将积累的增量数据ETL到历史查询引擎,从而支持历史数据和实时数据的查询。
附图说明
图1为本发明实施例1的行为日志查询系统的结构示意图。
图2为本发明实施例2的行为日志查询方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种行为日志查询系统,具体如图1所示,包括:至少一系统模块1、日志串接模块2、数据收集模块3、输入模块4和查询引擎5。
日志串接模块2用于为用户的每次访问添加唯一标识(如Transaction ID),并在系统模块1之间调用时一直将这个唯一标识作为参数传递下去,使得用户在不同的系统模块中分别产生并存储包括所述唯一标识的行为日志;
数据收集模块3用于从所有系统模块1中读取所有行为日志并写入查询引擎5,所述查询引擎5包括至少一查询单位,每个查询单位存储有具有不同元数据的行为日志,元数据用于描述行为日志的属性。
所述查询引擎5包括实时查询引擎和历史查询引擎,本实施例中,实时查询引擎采用Elastic Search查询引擎,能够达到近实时搜索,秒级响应速度,且稳定可靠;历史查询引擎采用hive查询引擎,能够很好的解决海量行为日志存储的问题,可以查询、存储和分析存储在Hadoop中的大规模行为日志。
各个系统模块产生的包括唯一标识的行为日志,通过高吞吐量的数据收集模块(可采用高吞吐量的分布式发布系统Kafka)收集,为了兼顾行为日志的实时性和历史数据的完整性,一方面通过Logstash(日志管理工具)实时地将行为日志ETL到Elastic Search查询引擎;另一方面通过Gobblin(为Hadoop提供的一个数据整合框架)定期地将行为日志ETL至hive查询引擎,并用带索引的文件格式存储(如ORC),这样可以尽量保证查询的性能,从而支持高效的历史行为日志的查询,由于数据ETL至hive时选择ORC的存储格式,还可以选择Presto(一种分布式SQL查询引擎)作为历史查询引擎,相对传统的hive,性能更高。
另外,来自于不同系统模块的行为日志由于各自的元数据设计不一致,这样就会导致行为日志ETL到查询引擎时,行为日志会分布在不同的查询单位中,针对某个唯一标识的查询如果遍历所有查询单位是非常低效的,因此,需要创建一个单独的索引,来统计唯一标识精确对应着哪些查询单位,这样可以保证通过额外的一次查询,精准的找到唯一标识对应的所有查询单位,再对这些查询单位进行查询。
输入模块4用于输入查询关键词,所述查询关键词包括所述唯一标识,输入查询关键词后,所述查询引擎5反馈包括所述查询关键词的行为日志。
本实施例中,所述行为日志查询系统还包括行为日志更新模块6和可视化模块7,所述行为日志更新模块6用于检测所述查询引擎5,在检测到存在新增行为日志时,将所述新增行为日志增加至所述查询引擎5中对应的查询单位中;
所述可视化模块7用于显示包含所述查询关键词的行为日志。本实施例的行为日志查询系统基于web,用户可以通过浏览器直接访问,同时,输入模块输入的查询关键词是针对大量的日志自定义字段,本系统除了显示几个公有重要字段以外,其余都是可配置显示,让不同的使用者更加能够关注到自己感兴趣的字段;另外,对于序列化后报文的展现,本系统根据遇到的所有序列化方法,实现了反序列化库,能够在前端根据需要实时解析出压缩序列化后的报文,并利用前端技术将解析后的报文显示更加优雅易读。
本实施例中,行为日志查询系统解决了海量用户行为日志串接、存储、高效查询、可视化这一系列问题,建立一个统一的系统,将大型系统中海量用户的历史和当前行为日志在不同系统模块中串接起来,支持近实时的高效查询和可视化,从而使得研发人员能够高效地精准定位异常日志模块,提高排障的效率,减少损失;同时可以使得用户行为的精准刻画成为可能,为数据分析人员高效分析用户行为、提升产品体验提供便利。
实施例2
一种行为日志查询方法,具体如图2所示,所述行为日志查询方法利用如实施例1所述的行为日志查询系统实现,所述行为日志查询方法包括以下步骤:
步骤101、用户进行访问时将唯一标识增加到行为日志中;
步骤102、数据收集模块从所述至少一系统模块中读取包含所述唯一标识的行为日志并写入查询引擎;
步骤103、所述查询引擎对每个唯一标识创建一个与查询单位相对应的索引;
步骤104、输入模块获取查询关键词,所述查询关键词包括所述唯一标识;
步骤105、所述查询引擎反馈包括所述查询关键词的行为日志。
步骤106、可视化模块显示包含所述查询关键词的行为日志。
所述行为日志查询系统还包括行为日志更新模块,所述行为日志查询方法还包括:
所述行为日志更新模块在检测到所述查询引擎存在新增行为日志时,将所述新增行为日志增加至所述查询引擎对应的查询单位中。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种行为日志查询系统,其特征在于,所述行为日志查询系统包括:
日志串接模块,用于在用户进行访问时将唯一标识增加到行为日志中;
至少一系统模块,每个系统模块存储有包含唯一标识的行为日志;
数据收集模块,用于从所述至少一系统模块中读取所有行为日志并写入查询引擎;
输入模块,用于输入查询关键词,所述查询关键词包括所述唯一标识;
查询引擎,包括至少一查询单位,每个查询单位存储有具有不同元数据的行为日志,所述元数据用于描述行为日志的属性,所述查询引擎还用于反馈包括所述查询关键词的行为日志。
2.如权利要求1所述的行为日志查询系统,其特征在于,所述查询引擎包括实时查询引擎和历史查询引擎。
3.如权利要求2所述的行为日志查询系统,其特征在于,所述行为日志查询系统还包括行为日志更新模块,所述行为日志更新模块用于检测所述查询引擎,在检测到存在新增行为日志时,将所述新增行为日志增加至所述查询引擎中对应的查询单位中。
4.如权利要求1所述的行为日志查询系统,其特征在于,所述行为日志查询系统还包括可视化模块,用于显示包含所述查询关键词的行为日志。
5.一种行为日志查询方法,其特征在于,所述行为日志查询方法利用如权利要求1所述的行为日志查询系统实现,所述行为日志查询方法包括以下步骤:
S1、用户进行访问时将唯一标识增加到行为日志中;
S2、数据收集模块从所述至少一系统模块中读取包含所述唯一标识的行为日志并写入查询引擎;
S3、所述查询引擎对每个唯一标识创建一个与查询单位相对应的索引;
S4、输入模块获取查询关键词,所述查询关键词包括所述唯一标识;
S5、所述查询引擎反馈包括所述查询关键词的行为日志。
6.如权利要求5所述的行为日志查询方法,其特征在于,所述查询引擎包括实时查询引擎和历史查询引擎。
7.如权利要求6所述的行为日志查询方法,其特征在于,所述行为日志查询系统还包括行为日志更新模块,所述行为日志查询方法还包括:
所述行为日志更新模块在检测到所述查询引擎存在新增行为日志时,将所述新增行为日志增加至所述查询引擎对应的查询单位中。
8.如权利要求5所述的行为日志查询方法,其特征在于,所述行为日志查询方法还包括:
S6、可视化模块显示包含所述查询关键词的行为日志。
CN201710600079.5A 2017-07-21 2017-07-21 行为日志查询系统及方法 Pending CN107357919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710600079.5A CN107357919A (zh) 2017-07-21 2017-07-21 行为日志查询系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710600079.5A CN107357919A (zh) 2017-07-21 2017-07-21 行为日志查询系统及方法

Publications (1)

Publication Number Publication Date
CN107357919A true CN107357919A (zh) 2017-11-17

Family

ID=60285535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710600079.5A Pending CN107357919A (zh) 2017-07-21 2017-07-21 行为日志查询系统及方法

Country Status (1)

Country Link
CN (1) CN107357919A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897873A (zh) * 2018-07-03 2018-11-27 中国银行股份有限公司 一种生成作业文件的方法、装置、存储介质及处理器
CN110019077A (zh) * 2018-08-21 2019-07-16 平安科技(深圳)有限公司 日志查询方法、装置、设备及计算机可读存储介质
CN113792079A (zh) * 2021-11-17 2021-12-14 腾讯科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1694100A (zh) * 2004-04-15 2005-11-09 微软公司 改进文档检索的内容传播
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103631699A (zh) * 2012-08-28 2014-03-12 纽海信息技术(上海)有限公司 日志管理系统及日志监控、获取和查询方法
CN103761165A (zh) * 2014-01-15 2014-04-30 北京奇虎科技有限公司 日志备份方法及装置
US20160098450A1 (en) * 2014-10-03 2016-04-07 The Regents Of The University Of Michigan Querying input data
CN105577454A (zh) * 2016-03-03 2016-05-11 上海新炬网络信息技术有限公司 一种基于日志快速定位业务故障的方法
CN106055621A (zh) * 2016-05-26 2016-10-26 浪潮电子信息产业股份有限公司 一种日志检索方法及装置
CN106095575A (zh) * 2016-06-14 2016-11-09 上海浪潮云计算服务有限公司 一种日志审计的装置、系统和方法
CN106294866A (zh) * 2016-08-23 2017-01-04 北京奇虎科技有限公司 一种日志处理方法和装置
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理系统
CN106599107A (zh) * 2016-11-28 2017-04-26 北京小米移动软件有限公司 获得用户行为的方法、装置及服务器
CN106603296A (zh) * 2016-12-20 2017-04-26 北京奇虎科技有限公司 日志的处理方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1694100A (zh) * 2004-04-15 2005-11-09 微软公司 改进文档检索的内容传播
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103631699A (zh) * 2012-08-28 2014-03-12 纽海信息技术(上海)有限公司 日志管理系统及日志监控、获取和查询方法
CN103761165A (zh) * 2014-01-15 2014-04-30 北京奇虎科技有限公司 日志备份方法及装置
US20160098450A1 (en) * 2014-10-03 2016-04-07 The Regents Of The University Of Michigan Querying input data
CN105577454A (zh) * 2016-03-03 2016-05-11 上海新炬网络信息技术有限公司 一种基于日志快速定位业务故障的方法
CN106055621A (zh) * 2016-05-26 2016-10-26 浪潮电子信息产业股份有限公司 一种日志检索方法及装置
CN106095575A (zh) * 2016-06-14 2016-11-09 上海浪潮云计算服务有限公司 一种日志审计的装置、系统和方法
CN106294866A (zh) * 2016-08-23 2017-01-04 北京奇虎科技有限公司 一种日志处理方法和装置
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理系统
CN106599107A (zh) * 2016-11-28 2017-04-26 北京小米移动软件有限公司 获得用户行为的方法、装置及服务器
CN106603296A (zh) * 2016-12-20 2017-04-26 北京奇虎科技有限公司 日志的处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897873A (zh) * 2018-07-03 2018-11-27 中国银行股份有限公司 一种生成作业文件的方法、装置、存储介质及处理器
CN110019077A (zh) * 2018-08-21 2019-07-16 平安科技(深圳)有限公司 日志查询方法、装置、设备及计算机可读存储介质
CN113792079A (zh) * 2021-11-17 2021-12-14 腾讯科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质
CN113792079B (zh) * 2021-11-17 2022-02-08 腾讯科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11907244B2 (en) Modifying field definitions to include post-processing instructions
CN111444236B (zh) 一种基于大数据的移动终端用户画像构建方法及系统
CN107451225B (zh) 用于半结构化数据的可缩放分析平台
US9773029B2 (en) Generation of a data model
US20190034429A1 (en) Translating a natural language request to a domain-specific language request using templates
CN110334274A (zh) 信息推送方法、装置、计算机设备和存储介质
US11042899B2 (en) System and method for tracking users across a plurality of media platforms
US11494395B2 (en) Creating dashboards for viewing data in a data storage system based on natural language requests
US20190034499A1 (en) Navigating hierarchical components based on an expansion recommendation machine learning model
US20190034430A1 (en) Disambiguating a natural language request based on a disambiguation recommendation machine learning model
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
WO2022165168A1 (en) Configuring an instance of a software program using machine learning
CN107357919A (zh) 行为日志查询系统及方法
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN107153702A (zh) 一种数据处理方法及装置
US10901811B2 (en) Creating alerts associated with a data storage system based on natural language requests
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
US20220114483A1 (en) Unified machine learning feature data pipeline
Wang et al. Block storage optimization and parallel data processing and analysis of product big data based on the hadoop platform
CN116155597A (zh) 访问请求的处理方法、装置及计算机设备
Jiadi et al. Research on Data Center Operation and Maintenance Management Based on Big Data
CN114860851A (zh) 数据处理方法、装置、设备及存储介质
CN114518993A (zh) 基于业务特征的系统性能监控方法、装置、设备及介质
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
CN113641654A (zh) 一种基于实时事件的营销处置规则引擎方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171117