CN106528798A - 一种基于用户日志的数据处理系统 - Google Patents

一种基于用户日志的数据处理系统 Download PDF

Info

Publication number
CN106528798A
CN106528798A CN201610996976.8A CN201610996976A CN106528798A CN 106528798 A CN106528798 A CN 106528798A CN 201610996976 A CN201610996976 A CN 201610996976A CN 106528798 A CN106528798 A CN 106528798A
Authority
CN
China
Prior art keywords
module
user
data
journal
user journal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610996976.8A
Other languages
English (en)
Inventor
许伟刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Original Assignee
SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd filed Critical SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Priority to CN201610996976.8A priority Critical patent/CN106528798A/zh
Publication of CN106528798A publication Critical patent/CN106528798A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户日志的数据处理系统,其包括收集用户日志端和数据处理端,所述收集用户日志端实时收集用户端的操作日志,并将收集的用户日志传输至所述数据处理端,上述数据处理端包括:选择模块,标记模块,预算模块,匹配模块,提取模块,分类模块,第一处理模块,查询模块,第二处理模块,暂存模块。本发明的预算模块能够提前预算结果,再通过匹配模块进行匹配,如果匹配成功则将匹配结果直接推送至用户,提前预算提高了推送的效率,如果没有提前预算到结果,则进行计算。

Description

一种基于用户日志的数据处理系统
技术领域
本发明涉及信息技术领域,具体涉及一种基于用户日志的数据处理系统。
背景技术
日志文件在系统运行过程中产生,其能够记录系统的运行状况和用户的操作行为,当系统运行缓慢或异常时,可以通过查看日志文件,解决系统问题,恢复正常运行。用户日志也是一种重要的信息来源,在社交网站或者商务网站中,可以通过对用户日志的挖掘找出用户的潜在访问模式,设计出更方便用户访问的网页。
用户日志应用在搜索领域中,基于日志的查询分为:关联规则推荐、聚类方法推荐、时间分布推荐。关联规则的方法中,把查询短语视为关联规则的项,把查询日志看作会话的集合,从而推荐会话中的高频词汇;聚类方法是将查询串进行聚类发现相关查询,该方法需要大量丰富的日志数据做支撑;时间分布推荐,需要考虑相似查询的搜索频率在时间分布上是相似的,特殊的时间点通常有特殊的查询和推荐,这类方法可以作为其它方法的补充。
传统的查询方式是在用户查询时,服务器才进行相关查询字段的计算,无法实现实时计算,计算量大,相对查询速度较慢,而且对数据库的要求较高,不再能适应现在的检索系统发展需求。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于用户日志的数据处理系统,本发明的数据处理系统是基于用户日志的方式,实时计算,能够较快速地检索并获得查询结果。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于用户日志的数据处理系统,其包括收集用户日志端和数据处理端,所述收集用户日志端实时收集用户端的操作日志,并将收集的用户日志传输至所述数据处理端,
所述数据处理端包括:
选择模块,所述选择模块对实时收集的用户日志进行选择,获得有效的用户日志,建立第一数据集;
标记模块,所述标记模块对所述第一数据集中的用户日志进行标记,标记后的用户日志建立第二数据集;
预算模块,所述预算模块在所述第二数据集中进行实时预算,建立动态预算数据集;
匹配模块,所述匹配模块将用户的查询字段与所述动态预算数据集中的数据进行匹配,匹配成功的数据将作为查询结果推送给用户;
提取模块,所述提取模块从所述第二数据集中提取与用户查询字段具有相似度的用户日志数据,构建第三数据集;
分类模块,所述分类模块对所述第三数据集中的用户日志数据进行分类,将相同或相似的查询字段作为查询串,或者标记符号聚类相同的用户日志进行分类,或者查询频率时间相同的用户日志进行分类,所述分类模块构建第四数据集;
第一处理模块,所述第一处理模块根据查询规则建立线性回归模型,将与查询字段匹配的用户日志放入线性回归模型中,得到处理后的复合模型,计算出每一个查询字段的关联度;
查询模块,所述查询模块在所述第四数据集中查询到与用户输入的查询字段相匹配的用户日志作为查询集,构建第五数据集;
第二处理模块,所述第二处理模块在所述第五数据集中,根据所述第一数据处理模块得到的关联度进行排序处理,最后确定N个结果作为查询结果,推送给用户。
优选地,还包括暂存模块,所述暂存模块对收集的所述用户日志进行暂存。
优选地,所述收集用户日志端能够自定义用户日志,根据自定义日志格式、日志类型、日志内容、日志关键字符,有选择地收集用户日志。
优选地,所述标记模块的标记符号包括:历史查询字段、查询串、时间、聚类名称。
优选地,所述1≤N≤10,N为整数。
本发明的有益效果是:
本发明的数据处理系统是基于用户日志的方式,实时计算,能够较快地出现检索推荐结果,该系统的预算模块能够提前预算结果,再通过匹配模块进行匹配,如果匹配成功则直接推送至用户,提前预算结果提高了推送结果的效率,如果没有提前预算到结果,则进行计算。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
为了更清楚地说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的系统原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参照图1所示,本实施例中一种基于用户日志的数据处理系统,其包括收集用户日志端和数据处理端,上述收集用户日志端实时收集用户端的操作日志,并将收集的用户日志传输至上述数据处理端。
上述收集用户日志端能够自定义用户日志,根据自定义日志格式、日志类型、日志内容、日志关键字符,有选择地收集用户日志。
上述数据处理端能够对实时收集的用户日志进行计算,提前预算结果,能够较快速地推送查询结果,如果提前没有预算到,则重新计算。
具体的,上述数据处理端包括:选择模块,标记模块,预算模块,匹配模块,提取模块,分类模块,第一处理模块,查询模块,第二处理模块,暂存模块。
其中,上述选择模块对实时收集的用户日志进行选择,获得有效的用户日志,建立第一数据集。
上述标记模块对上述第一数据集中的用户日志进行标记,标记后的用户日志建立第二数据集,上述标记模块的标记符号包括:历史查询字段、查询串、时间、聚类名称。
上述预算模块从上述第二数据集中进行实时预算,建立动态预算数据集。
上述匹配模块将用户的查询字段与上述动态预算数据集中的数据进行匹配,匹配成功的将确定的结果作为查询结果推送给用户。
上述提取模块从上述第二数据集中提取与用户查询字段具有相似度的用户日志数据,构建第三数据集。
上述分类模块对上述第三数据集中的用户日志数据进行分类,将相同或相似的查询字段作为查询串,或者标记符号聚类相同的用户日志进行分类,或者查询频率时间相同的用户日志进行分类,上述分类模块构建第四数据集。
上述第一处理模块根据查询规则建立线性回归模型,将与查询字段匹配的用户日志放入线性回归模型中,得到处理后的复合模型,计算出每一个查询字段的关联度。
上述查询模块在上述第四数据集中查询到与用户输入的查询字段相匹配的用户日志作为查询集,构建第五数据集。
上述第二处理模块在上述第五数据集中,根据上述第一数据处理模块得到的关联度进行排序处理,最后确定N个结果作为查询结果,推送给用户,上述1≤N≤10,N为整数。
上述暂存模块对收集的上述用户日志进行暂存。
上述系统的预算模块能够提前预算结果,再通过匹配模块进行匹配,如果匹配成功则直接推送至用户,提前预算结果提高了推送结果的效率,如果没有提前预算到结果,则进行计算。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于用户日志的数据处理系统,其包括收集用户日志端和数据处理端,所述收集用户日志端实时收集用户端的操作日志,并将收集的用户日志传输至所述数据处理端,其特征在于,
所述数据处理端包括:
选择模块,所述选择模块对实时收集的用户日志进行选择,获得有效的用户日志,建立第一数据集;
标记模块,所述标记模块对所述第一数据集中的用户日志进行标记,标记后的用户日志建立第二数据集;
预算模块,所述预算模块在所述第二数据集中进行实时预算,建立动态预算数据集;
匹配模块,所述匹配模块将用户的查询字段与所述动态预算数据集中的数据进行匹配,匹配成功的数据将作为查询结果推送给用户;
提取模块,所述提取模块从所述第二数据集中提取与用户查询字段具有相似度的用户日志数据,构建第三数据集;
分类模块,所述分类模块对所述第三数据集中的用户日志数据进行分类,将相同或相似的查询字段作为查询串,或者标记符号聚类相同的用户日志进行分类,或者查询频率时间相同的用户日志进行分类,所述分类模块构建第四数据集;
第一处理模块,所述第一处理模块根据查询规则建立线性回归模型,将与查询字段匹配的用户日志放入线性回归模型中,得到处理后的复合模型,计算出每一个查询字段的关联度;
查询模块,所述查询模块在所述第四数据集中查询到与用户输入的查询字段相匹配的用户日志作为查询集,构建第五数据集;
第二处理模块,所述第二处理模块在所述第五数据集中,根据所述第一数据处理模块得到的关联度进行排序处理,最后确定N个结果作为查询结果,推送给用户。
2.根据权利要求1所述的基于用户日志的数据处理系统,其特征在于,还包括暂存模块,所述暂存模块对收集的所述用户日志进行暂存。
3.根据权利要求1所述的基于用户日志的数据处理系统,其特征在于,所述收集用户日志端能够自定义用户日志,根据自定义日志格式、日志类型、日志内容、日志关键字符,有选择地收集用户日志。
4.根据权利要求1所述的基于用户日志的数据处理系统,其特征在于,所述标记模块的标记符号包括:历史查询字段、查询串、时间、聚类名称。
5.根据权利要求1所述的基于用户日志的数据处理系统,其特征在于,所述1≤N≤10,N为整数。
CN201610996976.8A 2016-11-11 2016-11-11 一种基于用户日志的数据处理系统 Pending CN106528798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610996976.8A CN106528798A (zh) 2016-11-11 2016-11-11 一种基于用户日志的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610996976.8A CN106528798A (zh) 2016-11-11 2016-11-11 一种基于用户日志的数据处理系统

Publications (1)

Publication Number Publication Date
CN106528798A true CN106528798A (zh) 2017-03-22

Family

ID=58351302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610996976.8A Pending CN106528798A (zh) 2016-11-11 2016-11-11 一种基于用户日志的数据处理系统

Country Status (1)

Country Link
CN (1) CN106528798A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357919A (zh) * 2017-07-21 2017-11-17 携程旅游网络技术(上海)有限公司 行为日志查询系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN104951570A (zh) * 2015-07-27 2015-09-30 广州九尾信息科技有限公司 基于数据挖掘及lbs的兼职智能推荐系统
CN105550264A (zh) * 2015-12-09 2016-05-04 苏州天平先进数字科技有限公司 用户日志收集和处理系统以及方法
CN105550265A (zh) * 2015-12-09 2016-05-04 苏州天平先进数字科技有限公司 一种准实时用户日志收集和处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN104951570A (zh) * 2015-07-27 2015-09-30 广州九尾信息科技有限公司 基于数据挖掘及lbs的兼职智能推荐系统
CN105550264A (zh) * 2015-12-09 2016-05-04 苏州天平先进数字科技有限公司 用户日志收集和处理系统以及方法
CN105550265A (zh) * 2015-12-09 2016-05-04 苏州天平先进数字科技有限公司 一种准实时用户日志收集和处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357919A (zh) * 2017-07-21 2017-11-17 携程旅游网络技术(上海)有限公司 行为日志查询系统及方法

Similar Documents

Publication Publication Date Title
CN101576923B (zh) Erp单据搜索方法和系统
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN102542061B (zh) 一种产品的智能分类方法
CN105138652A (zh) 一种企业关联关系识别方法及系统
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN106383917A (zh) 一种基于用户日志的数据处理方法
CN107229748A (zh) 一种有效的企业技术需求挖掘及对接方法
CN104915334A (zh) 一种基于语义分析的招投标项目关键信息自动化提取方法
CN101202966A (zh) 一种用户信息的收集方法、系统及设备
CN102567494A (zh) 网站分类方法及装置
CN104881427A (zh) 一种面向电网调控运行的数据血统分析方法
CN106844782B (zh) 一种面向网络的多通道大数据采集系统及方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN102508901A (zh) 基于内容的海量图像检索方法和系统
CN116361367A (zh) 一种高效发布招聘信息的内容识别系统及方法
US9165053B2 (en) Multi-source contextual information item grouping for document analysis
CN101673262B (zh) 音频内容的搜索方法
CN109740147A (zh) 一种大数量人才简历去重匹配分析方法
CN105718457B (zh) 基于电子票据的信息推送方法及系统
CN106528798A (zh) 一种基于用户日志的数据处理系统
CN110196849A (zh) 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN112948510A (zh) 一种媒体行业知识图谱的构建方法
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
CN107943937A (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN110968596A (zh) 一种基于标签系统的数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322