CN111708740A

CN111708740A - 基于云平台的海量搜索查询日志计算分析系统

Info

Publication number: CN111708740A
Application number: CN202010550194.8A
Authority: CN
Inventors: 刘秀萍; 刘文平
Original assignee: Jingmen Huiyijia Information Technology Co ltd
Current assignee: Jingmen Huiyijia Information Technology Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-25

Abstract

本发明提供的基于云平台的海量搜索查询日志计算分析系统，针对互联网电商平台的特征和需求，设计搜索引擎的结构化日志，并将这些结构化日志数据提供给日志分析系统运用，大幅减少传统日志分析需要的空间以及日志清洗工作的工作量，然后结合Hadoop分布式计算平台及大数据处理算法实现一个高效的电商平台搜索查询日志分析系统，挖掘数据背后价值，电商平台的特征选择充分把握了关键点和挖掘潜力，既能清晰直观的展现电商平台当前所需的海量日志关键提炼信息，又能为日志的各种兴趣化特征挖掘提供足够的扩展能力，通过分析用户的行为日志，实现网站优化和精准营销，提供个性化业务，具有巨大的利用价值。

Description

基于云平台的海量搜索查询日志计算分析系统

技术领域

本发明涉及一种搜索日志计算分析系统，特别涉及一种基于云平台的海量搜索查询日志计算分析系统，属于日志计算分析技术领域。

背景技术

随着计算机和信息化在全世界范围内的快速发展，深入渗入到社会生活的方方面面，互联网已经变成了一个巨大的全球信息业务中心，将全世界的人民紧密的联系在一起，给人们生产和生活各个领域带来了巨大的改变。特别在过去的几十年里，中国逐步走上了互联网快速发展的轨道，上网设备逐渐普及、网络环境日趋完善、互联网应用场景日益丰富、物流日益便捷加上巨大的网民规模，使得中国的电子商务市场拥有无限可能，中国的电子商务市场异常繁荣，从市场增速来看，已经进入了成熟期。

繁荣的互联网和电子商务背后产生了爆炸式增长的网络数据，面对海量信息数据时越来越难以选择、难以快速高效的找到有用的信息。现有技术信息获取的解决方式是运用分类目录和搜索引擎，分类目录是把用户常用的网站网址按照网站主要内容和功能特色分类，将信息分门别类，以便于查找，但随着互联网的高速发展，大量较新的网站信息并没有出现在分类目录里，由于信息过于丰富，查找起来很困难，逐渐不能满足人们的需求。搜索引擎大幅提高了信息查找的效率，用户只需将需求转化为关键字的不同组合，再通过互联网搜索需要的信息，若用户明确搜索需求，搜索引擎的效率较高，但很多时候用户并不清楚想要查找的内容，这时就很难找到想要的信息，这类需求在电商平台的搜索引擎中更明显，若能在电商平台给出同类关键词的热门搜索，能基于用户习惯推荐用户喜欢的高品质商品，将大幅提高用户体验，为用户和商家双方创造巨大的价值。

现有技术无论是分类目录还是搜索引擎，若要统计用户信息、分析用户习惯、改进分析系统，方法是根据WEB站点的日志进行日志分析，主要分为三个步骤：一是前置处理，WEB日志里大部分都是非结构化或半结构化的数据，现有技术的数据挖掘算法不能直接用于原始的日志数据，必须进行复杂的前置处理才能得出有价值的信息；二是模式识别，通过采取合适的数据挖掘技术和算法处理前置处理阶段产生的数据文件，找出能反映用户特定行为、会话、资源和简明数据的隐含数据模式；三是模式分析，进一步分析上一步发掘出的模式信息，找出感兴趣的模式然后进行可视化的输出。

现有技术的日志分析大多采用集中式的方法，数据分析系统布署在一个单一的服务器结点上，通过这个结点完成数据的搜集、存储、前置处理和数据挖掘等一系列的复杂工作，当数据处理量不大，分析工作的繁杂度不高时，单结点的工作效率基本能够满足要求。但随着网络规模的进一步扩大，电商平台需要存储和分析的数据量十分巨大，压缩后的数据都是TB级别，现有技术的集中式日志分析处理方式根本无法解决问题。就单从数据规模考虑，单结点分析已不能够满足大规模日志处理的要求。

针对现有技术存在的部分缺点，本发明拟解决以下问题：

一是当前繁荣的互联网和电子商务背后产生了爆炸式增长的网络数据，面对海量信息数据时当前技术越来越难以选择、难以快速高效的找到有用的信息。现有技术信息获取的解决方式是运用分类目录和搜索引擎，分类目录是把用户常用的网站网址按照网站主要内容和功能特色分类，但随着互联网的高速发展，大量较新的网站信息并没有出现在分类目录里，由于信息过于丰富，查找起来很困难，逐渐不能满足人们的需求。搜索引擎若用户明确搜索需求，搜索引擎的效率较高，但很多时候用户并不清楚想要查找的内容，这时就很难找到想要的信息，这类需求在电商平台的搜索引擎中更明显，现有技术不能基于用户习惯推荐用户喜欢的高品质商品，用户体验不好，为用户和商家双方创造较大的不便。

二是现有技术无论是分类目录还是搜索引擎，若要统计用户信息、分析用户习惯、改进分析系统，方法是根据WEB站点的日志进行日志分析，主要分为三个步骤：一是前置处理，WEB日志里大部分都是非结构化或半结构化的数据，现有技术的数据挖掘算法不能直接用于原始的日志数据，必须进行复杂的前置处理才能得出有价值的信息，费时费力且效果不好；二是模式识别，通过采取合适的数据挖掘技术和算法处理前置处理阶段产生的数据文件，找出能反映用户特定行为、会话、资源和简明数据的隐含数据模式，但现有技术在这些方便都没有针对性强且高效实用的方法；三是模式分析，进一步分析上一步发掘出的模式信息，找出感兴趣的模式然后进行可视化的输出，由于现有技术日志计算分析处理不理想，日志的信息挖掘几乎无法进行，兴趣点的法却和可视化输出没有合适的方案。

三是现有技术的日志分析大多采用集中式的方法，数据分析系统布署在一个单一的服务器结点上，通过这个结点完成数据的搜集、存储、前置处理和数据挖掘等一系列的复杂工作，当数据处理量不大，分析工作的繁杂度不高时，单结点的工作效率基本能够满足要求。但随着网络规模的进一步扩大，电商平台需要存储和分析的数据量十分巨大，压缩后的数据都是TB级别，现有技术的集中式日志分析处理方式根本无法解决问题。就单从数据规模考虑，单结点分析已不能够满足大规模日志处理的要求。

四是现有技术还有针对电商平台的海量日志分析系统，利用一般的分析系统无法完成互联网电子商务海量数据分析的任务，也无法提取专门针对电商平台日志数据的专业化分析工具，导致硬件上无法完成海量数据的分析，软件上无法适配电商平台日志数据，几乎没有针对海量搜索查询日志计算分析可行法人技术方案，而电商平台数据的挖掘具有重大的商业价值，日志数据中包含巨大的潜在重要信息。

伴随大数据时代的到来，采用分布式的方式存储和处理海量数据成为一种流行和实用的手段，分布式将一个规模很大的问题划分为很多相同且易于解决的小问题，同时采用多结点计算来提高整体的计算效率。传统单机方式为提高系统处理能力，大多只能运用十分昂贵的大型机，不断提高硬件水平，而大数据云计算方式只需采用廉价的普通机器，将这些机器的计算能力充分挖掘利用起来，整合成具有强大处理、存储能力的分布式集群。采用分布式的方式后，海量数据可通过强大的集群能力进行处理，是有效提高数据处理能力的手段。

Hadoop是Apache软件基金会旗下的一个开源分布式云计算平台，以HDFS分布式文件系统和MapReduce模型为核心，采用底层透明的分布式基础架构提供业务。HDFS具有高伸缩性和高容错性等优点，用户可在低廉的硬件上布署形成分布式文件系统，MapReduce分布式编程模型对底层细节具有精良的封装并提供易用的编程接口，用户可在不知晓分布式系统细节的情况下开发并行应用。用户可利用Hadoop家族的产品轻松的将计算机资源组织起来，搭建分布式平台变得简单可行，组成集群的计算能力和存储能力可被充分利用起来完成海量数据的处理，利用Hadoop云平台使海量搜索查询日志计算分析变得相对容易和可行。

随着互联网和电子商务的盛行，电商平台的日志数据量越来越大，数据的价值也不断凸显，但数据挖掘分析工作也越来越繁杂，而Hadoop云平台分布式的诸多优点使之成为处理这些海量日志的最佳选择之一。因此本发明针对互联网电商平台的特征和需求，设计搜索引擎的结构化日志，记录日志分析系统需要的数据，并将这些结构化日志数据直接提供给日志分析系统运用，可大幅减少传统日志分析需要的空间以及日志清洗工作的工作量，然后结合Hadoop分布式计算平台及优秀的大数据处理算法可实现一个高效的电商平台搜索查询日志分析系统，挖掘数据背后价值，对于电商平台用户行为分析和系统推荐具有重要的意义，海量搜索查询日志计算分析具有巨大的潜在利用价值。

本发明通过对Hadoop技术的二次研发，研究Hadoop云平台分布式在处理海量数据方面的优势以及结合Hadoop云平台分布式处理海量数据的应用趋势，结合电商平台搜索引擎和推荐系统的数据特征，将电商平台的搜索查询日志的数据挖掘和用户行为作为开发主题，设置了一个基于Hadoop的电商平台搜索查询日志的计算分析系统。

发明内容

针对现有技术的不足和需要解决的问题，本发明针对互联网电商平台的特征和需求，设计搜索引擎的结构化日志，记录日志分析系统需要的数据，并将这些结构化日志数据直接提供给日志分析系统运用，可大幅减少传统日志分析需要的空间以及日志清洗工作的工作量，然后结合Hadoop分布式计算平台及优秀的大数据处理算法实现一个高效的电商平台搜索查询日志分析系统，挖掘数据背后价值，电商平台的特征选择充分把握了关键点和挖掘潜力，既能清晰直观的展现电商平台当前所需的海量日志关键提炼信息，又能为日志的各种兴趣化特征挖掘提供足够的扩展能力，通过分析用户的行为日志，实现网站优化和精准营销，提供个性化业务，具有巨大的利用价值。

为达到以上技术效果，本发明所采用的技术方案如下：

基于云平台的海量搜索查询日志计算分析系统，结合电商平台搜索引擎和推荐系统的数据特征，计算分析电商平台的海量搜索查询日志，对电商平台用户搜索行为分类解析，基于Hadoop云平台分布式大数据处理架构，优化HDFS文件系统和MapReduce计算框架，设置搜索查询日志的计算分析系统，系统总体架构包括：Hadoop分布式集群层、HDFS数据分布式存储层、MySQL数据库层、MapReduce模型计算层、核心业务逻辑层、交互接口层；

本发明基于电商平台的特征以及日志产生流程，针对电商平台的搜索引擎设置标准化格式日志，确定日志计算分析特征，根据日志计算分析特征确定日志分析系统的架构和功能模块，基于云平台的海量搜索查询日志计算分析系统主要分为七个特色单元，包括日志数据的搜集与前置处理单元、热词计算分析单元、关联词计算分析单元、点击热度计算单元、关联推荐单元、业务直连计算分析单元、搜索特征计算分析单元；

日志数据搜集与前置处理单元分析搜索查询日志产生的过程，设置标准化格式日志，然后根据设置好的标准化格式日志内容搜集需要的日志信息数据，定时对每天的日志数据进行前置处理；日志数据搜集与前置处理单元主要包括设置标准化格式日志、日志搜集单元、日志前置处理单元三个部分。

基于云平台的海量搜索查询日志计算分析系统，进一步的，设置标准化格式日志包括设置搜索查询日志、行为流量日志、退出关闭日志三种格式日志；

搜索查询日志：

搜索查询日志除记录关键词外，主要记录用户的连接信息和搜索界面上的业务直连信息、展示位信息、广告信息，业务直连是搜索引擎为特殊业务配置的直连业务，当用户搜索一些关联业务的关键词时，搜索引擎给出直连结果，用户在搜索结果页即可办理关联业务，日志以天为时间间隔形成小日志文件，7天为一轮回，同时记录到一个大日志文件中，7天为一个文件；

搜索查询日志字段设置的字段名与描述对应为：searchID-日志ID，searchTime-搜索时间，keyword-关键词，sessionID-sessionID+服务器IP，resultNum-总记录，IP-用户IP，userID-登录用户，searchType-1表示全文检索2表示商城检索，directIds-直连信息，port-端口，platformCode-接入平台，boothIds-展示位信息，areaCode-地区编码；

其中直连信息字段设置的字段名与描述对应为：src_id-直连ID，group_id-直连组ID，series_id-直连序列ID，business_type-直连类型，direct_index-直连位置，template_id-直连模板ID；

展示位信息字段设置的字段名与描述对应为：propose_id-展示位组ID，propose_index展示位组位置，rowIndex-行数，colIndex列数，booth_id-展示位ID，booth_index-展示位位置；

广告信息字段设置的字段名与描述对应为：advert_id-广告，IDadvert_index-广告位置；

MapReduce模型程序对输入文件以行为单位进行处理，上述日志字段采用“$$$”分隔，每条日志记录各占一行；

行为流量日志：

行为流量日志除记录用户与服务器的连接信息外，还记录搜索结果页信息，包括实际点击结果的URL地址、点击事件、停留时间、URL类型、特定的直连信息、展示位信息、广告信息；

行为流量日志字段设置的字段名与描述对应为：searchID-日志ID，keyword-搜索内容，clickTime0-点击时间，rIR-总记录数的某条数据，digest-摘要索引唯一ID，hitURL-实际点击url地址，stayTime-停留时间，sessionID-sessionID+服务器IP，page-当前页0，urlType-url类型，resultType-搜索结果类型，directId-直连信息，port-端口，IP-用户IP，areaCode-地区编码，boothIds-展示位信息，advertIds-广告信息，platformCode-接入平台；

退出关闭日志：

退出关闭日志在用户退出窗口或关闭选项卡时建立，主要记录用户退出时的基本信息，退出关闭日志字段设置的字段名与描述对应为：searchID-日志ID，endingTime-退出时间，keyword-退出搜索词，stayTime-停留时间，platformCode-接入平台，page-当前页，port-端口，sessionID-sessionID+服务器IP，IP-用户IP，areaCode-地区编码。

基于云平台的海量搜索查询日志计算分析系统，进一步的，日志搜集单元的日志记录采用Apache基金会下的开源项目log4j，记录的日志可输出到文件、控制台和数据库，可异步记录日志；服务器的各结点都会记录搜索的日志，日志的记录和搜集都是在各服务器结点上完成的，各个结点记录的日志统一以日期+ip命名，定时将日志上传到HDFS的指定目录下，定时汇总，经由日志前置处理后供其它单元运用。

基于云平台的海量搜索查询日志计算分析系统，进一步的，日志前置处理单元工作步骤为：数据清理，用户标识，会话标识，事物识别；

数据清理：依需求对日志文件进行必要的清洗，删除与数据挖掘任务无关的数据，归并可能存在重复的记录，对用户请求页面出错导致记录不完整的日志，将错误记录找出并删除，过滤恶意攻击日志，数据清理留下完整准确无重复的信息；

用户标识：用户标识识别每个访问的用户；

会话标识：会话可标识用户与服务器之间的一次连接，在一段时间内用户对服务器的访问属于同一会话期，当用户访问的时间跨度较大时产生不同的会话；会话标识将用户的某一次访问的行为全部标识出来；

在搜索查询日志的统计分系统中唯一标识一个用户，采用IP地址加会话的模式，即IP+sessionID，针对搜索记录，可弱化同一IP在一段时间内与服务器有多个会话的情况，但系统定义了单次搜索和相同搜索的区分界线；单次搜索是用户的一次搜索行为，F5刷新，搜索词相同，都算不同搜索；但一次搜索的不同页算是相同搜索；相同搜索是搜索词相同的搜索，包括不同用户的搜索；

各个搜索业务点分别记录日志并存入到HDFS分布式文件系统中，日志归并单元将各结点记录的搜索查询日志和行为流量日志按时间顺序归并，最终形成一个文件，作为每天的定时任务处理；归并过程中对相同的记录去重，删除无效记录和恶意记录，再将这些记录排序后发送至Reducer，最终将不同Mapper归并排序后输出至HDFS，过程中还统计每天访问量和点击次数，并存储到数据库和记录文件中。

基于云平台的海量搜索查询日志计算分析系统，进一步的，热词计算分析单元主要是从海量日志中统计搜索词、搜索次数、热度打分；

热词计算分析单元主要分成二部分，第一部分是热词统计，第二部分是计算热词热度，热词热度计算基于带有历史遗忘元素的最小二乘法设置，历史遗忘元素消除数据饱和现象，加强当前数据权重，减少历史数据的影响；最小二乘法通过最小误差的平方和寻找数据的最佳匹配函数，对于慢时变参数，最优方法为采用渐消记忆法，即采用加权最小二乘估计，指标函数为：

L＝a_N ^TC_Na_N

若去加权矩阵C_N，即：

其中b成为历史遗忘元素，0＜b＜1，展开得：

L(N)＝a²(n)+ba²(n)+b²a²(n-1)+b³a²(n-2)+...+b^N-1a²

a²是误差，根据展开式，新误差的系数是1，历史误差的系数分别是遗忘元素幂指数倍，遗忘元素取0＜b＜1，先前的残差平方的权按b的指数衰减，递推最小二乘法导出渐消记忆递推出最小二乘估计公式，基于带有历史遗忘元素的最小二乘法计算方法，针对搜索词设置热度计算方法，根据一段时间内的用户搜索记录，统计搜索词的搜索次数，并且据此计算其热度得分，计算方法为：

P_A＝(1-e)*Ph_A+e*D_A/D_C

P_A为A词的热度得分，

Ph_A为A词的历史热度得分，

D_A为本次统计时，A词的搜索频次，

D_C为本次统计时，所有词的搜索频次，

e为与历史得分融合的历史遗忘元素，

热词统计和热度计算分别由二个不同的业务流程执行，通过统一的JobRunner进行调度，负责从数据库中读取并初始化本单元信息，创建热词统计业务流程和热度计算业务流程，热词统计业务流程分为二个Mapper过程提取日志信息数据，其中一个Mapper过程对点击过的热词做标记，Reducer过程统计热词的展示次数和点击次数信息；热词热度业务流程读取一遍日志，计算出搜索词的搜索次数，判断搜索词的可阅读比率，当搜索次数和可阅读比率达到系统预设的最低临界值后通过热词热度公式计算搜索词的热度，若热度达到更新临界值则更新流行词数据表。

基于云平台的海量搜索查询日志计算分析系统，进一步的，关联词计算分析单元根据用户的搜索记录，分析搜索短语内的搜索关键字和关联搜索间的搜索关键字的关联性，分为单次搜索统计和关联搜索统计二个模块；单次搜索统计首先分析搜索查询日志，统计出单次搜索的关联关键字集合，然后计算各关联关键字的关联权重；关联搜索统计首先分析搜索查询日志，发现关联搜索短句，计算关联搜索短句的关联权重，然后将关联搜索短句分成关联搜索关键字集合，最后计算关联关键字集合中各关联关键词的关联权重，再按照一定权重归并单次搜索和关联搜索的分值，形成最终得分；

关联词计算分析单元实现过程中用到的主要计算模型包括：关联打分计算模型和词语相似度模型。

基于云平台的海量搜索查询日志计算分析系统，进一步的，点击热度计算单元统计计算一段时间内用户点击记录，首先计算一段时间内的总得分、点击得分、结果排名、URL、点击次数、文档ID，点击热度打分按照关联搜索短句统计中的关联打分方式计算，然后从数据库中查询关联历史打分信息，计算最终的打分，新的结果排名为结果排名总和与结果排名次数的比值，最后将新的数据更新到数据库中。

基于云平台的海量搜索查询日志计算分析系统，进一步的，关联推荐单元由展示位分析统计和广告分析统计二个部分组成，分别统计点击次数、展示位展示次数、广告展示次数、点击率、点击率、平均排名、平均排名、点击次数；主要在商城的推荐系统和广告系统中使用，展示位向用户推荐关联商品，当商城需要推荐热门商品时，从点击日志中按具体商品为划分，统计出用户的个数，作为该商品的浏览次数，然后计算出该商品的点击热度,采用的计算式为：

其中J(A)为本次A商品的点击热度，Jh(A)为A商品的历史点击热度，D_A为本次A商品的点击次数,

为本次A商品所属商品类别的总点击次数，

定时从分析系统统计计算后的点击热度表中，获取每个商品类别的点击热度最高的top5N个不同品牌的商品，然后按照点击热度排序，形成热门推荐列表；用户搜索时，通过类别判别系统，判断其搜索的商品类别，然后到热门推荐列表中获取商品信息显示到相应区域，若用户没有进行任何搜索，就到热门推荐列表中随机选出某个商品的TOP2个商品，直到凑够TOPN个，广告系统主要计算分析广告投放的质量，对于关联推荐和广告信息分为二个独立的作业线，由任务调度器统一调度执行。

基于云平台的海量搜索查询日志计算分析系统，进一步的，业务直连计算分析单元分为三个部分，第一部分计算分析直连信息，第二部分计算分析一键办理模块，第三部分是数据梳理，所有的直连信息从搜索查询日志中取出并标记，另外再从行为流量日志中筛选点击过的直连信息，对这二部分数据汇总处理，得到直连展示总次数、点击次数、点击率信息；

任务调度器调用二个Map过程分别对搜索查询日志和行为流量日志进行前置处理，然后交给同一个Reduce过程进行计算分析，最后对数据库的数据进行梳理。

基于云平台的海量搜索查询日志计算分析系统，进一步的，搜索特征计算分析单元统计搜索特征值作为报表数据，本发明针对特地做出一些规定，对于按照接入平台统计，相同用户同一次会话内的2次搜索算2次；相同用户同一次会话内，相同搜索词的多次搜索中，对同一链接的多次点击算1次点击；数据总量为爬取的网页量+直连html数量；相同用户同一次会话内，第1次搜索后没有任何点击，又进行第2次不同的搜索被认为是一次改进搜索，界定的事件域为一次会话，不考虑时间间隔，搜索改进率＝搜索改进次数/搜索次数；相同用户一次搜索后没有进行任何点击就关闭页面，认为是一次搜索退出，搜索退出率＝搜索退出次数/搜索次数；相同用户一次搜索后有至少1次点击，认为是一次搜索转化，搜索转化率＝搜索转化次数/搜索次数；直连访问比＝直连点击量/结果点击量；

搜索次数必须达到一定临界值后才计入统计，此时搜索次数就是实际的搜索次数；改良搜索量为按照搜索词划分的改良搜索次数；退出搜索量为按搜索词划分的退出搜索次数；平均点击量＝结果点击量/转化搜索次数；平均点击排名＝每次点击的链接位于搜索结果里的位置总和/结果点击量；改良搜索次数必须达到一定临界值后，才计入统计，采用链式判断判定改良搜索词，对按时间先后的4次搜索，A-B-C-D，并且都属于同一次会话，算改良搜索时，B认为是A的改良搜索，C认为是B的改良搜索，D认为是C的改良搜索；不认为C是A的改良搜索，即使实际情况确实C是A的改良搜索；在按照搜索词的计算分析中，点击量必须达到一定临界值后，才计入统计；对搜索A，结果列表中所有的url各自的点击量即为结果url点击量；搜索特征计算分析单元统计的数据设置成几个不同处理部分，点击统计、搜索统计、交互特征统计为互不影响的作业线，在搜索特征调度器分别调度完成作业后，再对数据库中的数据进行梳理，作为报表运用数据。

与现有技术相比，本发明的优点和创新点在于：

一是本发明提供的基于云平台的海量搜索查询日志计算分析系统，基于Hadoop核心技术及整体框架，包括HDFS分布式文件系统，及MapReduce分布式计算框架，优化分布式集群的整体架构，搭建Hadoop分布式平台，通过对Hadoop技术的二次研发，研究Hadoop云平台分布式在处理海量数据方面的优势以及结合Hadoop云平台分布式处理海量数据的应用趋势，结合电商平台搜索引擎和推荐系统的数据特征，将电商平台的搜索查询日志的数据挖掘和用户行为作为开发主题，设计了一个基于Hadoop的电商平台搜索查询日志的计算分析系统，实现了大规模分布式的海量搜索查询日志计算分析，解决了电商平台海量搜索查询日志的关键信息挖掘和扩展运用问题。

二是本发明提供的基于云平台的海量搜索查询日志计算分析系统，基于电商平台的数据特征设置结构化日志，直接获取日志系统需要的有价值信息，并运用MapReduce模型程序进行必要的日志前置处理，将日志系统需要的有价值信息与MapReduce模型巧妙的结合，同时针对电商平台的特征确定计算分析特征及计算方法，包括关键词搜索次数、结果点击量、点击率点击排名，搜索转化率等，重点设置词热度的计算模式、搜索关联度的计算模式、点击热度的计算模式，电商平台的特征选择充分把握了关键点和挖掘潜力，既能清晰直观的展现电商平台当前所需的海量日志关键提炼信息，又能为日志的各种兴趣化特征挖掘提供足够的扩展能力。

三是本发明提供的基于云平台的海量搜索查询日志计算分析系统，基于MapReduce模型编程框架的特征，对记录的标准化格式日志按照功能模块的需要对关键词进行提取，包括搜索查询日志的IP、SesionID、关键词、展示位信息、广告信息、点击的URL等，通过统计这些关键字段的信息来确定有效的用户信息，计算搜索词的搜索次数、结果点击量、数据总量、点击率、点击排名、搜索转换率等数据；设计并实现了海量搜索查询日志的高效计算分析，系统具有鲁棒性、高效性、普适性和可移植性，非常适合对电商平台的海量日志数据进行分析和信息挖掘，市场推广应用潜力巨大。

四是本发明提供的基于云平台的海量搜索查询日志计算分析系统，对计算分析的结果进行展示和分析，计算分析的最小时间粒度为一天的日志，这些特征的计算分析的结果最终会以天为单位存储到数据库中，将一段时间的计算分析结果通过报表等手段进行直观的展示分析。分析系统操作简单、使用方便、云平台硬件装置成本低、算法速度较快，对海量信息的分析处理能力强，日志计算分析精度相对较高，分析特征的选取针对性强，广泛适用于对电商平台及其相关对象的分析，通过分析用户的行为日志，实现网站优化和精准营销，提供个性化业务。

五是本发明提供的基于云平台的海量搜索查询日志计算分析系统，在满足海量搜索查询日志高效计算分析的同时，基于Hadoop云平台分布式大数据处理架构，可高效分布式计算，系统架设简单，算法没有复杂并费时费力的操作，相比其它算法运行成本较低，其效果相对现有技术的其它算法都有明显的改善，对比现有技术的其它算法优势更为明显，能出色的完成海量搜索查询日志计算分析，有较强实用性和推广价值。

附图说明

图1是本发明的系统总体架构示意图。

图2是本发明的系统特色单元组成示意图。

图3是本发明的日志前置处理流程示意图。

图4是本发明的热词计算分析处理流程示意图。

图5是本发明关联词计算分析单元的DAG图。

图6是本发明的点击热度计算单元流程示意图。

图7是本发明的关联推荐统计分析流程示意图。

图8是本发明的业务直连计算分析流程示意图。

具体实施方式

下面结合附图，对本发明提供的基于云平台的海量搜索查询日志计算分析系统的技术方案进行进一步的描述，使本领域的技术人员可以更好的理解本发明并能予以实施。

本发明基于电商平台的特征以及日志产生流程，针对电商平台的搜索引擎设置标准化格式日志，确定日志计算分析的特征，根据日志计算分析的特征确定日志分析系统的架构和功能模块，基于云平台的海量搜索查询日志计算分析系统主要分为七个特色单元，包括日志数据的搜集与前置处理单元、热词计算分析单元、关联词计算分析单元、点击热度计算单元、关联推荐单元、业务直连计算分析单元、搜索特征计算分析单元；

一、系统总体架构

针对电商平台数据流的特征，通过Hadoop大数据分布式云平台让海量搜索数据的计算分析变的可行高效。基于云平台的海量搜索查询日志计算分析系统的总体架构如图1所示。

(一)Hadoop分布式集群层

本发明基于Hadoop分布式计算平台，Hadoop分布式集群层是平台架构的根底，Hadoop分布式集群层利用分布式计算技术为搜索查询日志的计算分析系统提供底层的软硬件和网络支持，依托Hadoop云平台对底层精良的封装处理，Hadoop平台搭建完成后只需简单的配置即可，开发人员可将精力集中在核心逻辑业务的开发上；整个Hadoop分布式集群只需要若干台普通计算机即可，其中一台作为Master结点，Master结点作为NameNode和JobTracker，一台作为SecondaryNameNode结点，其余计算机全部为Slave结点，Slave结点既作为DataNode，又作为TaskTracker。

(二)HDFS数据分布式存储层

HDFS数据分布式存储层作为底层的物理存储平台，为电商平台搜索查询日志的计算分析系统提供支持，HDFS数据分布式存储层为电商平台搜索查询日志的计算分析系统提供分布式存储支持，向MapReduce模型计算层和数据库层提供统一的访存管理接口，配置一个NameNode和若干个DataNode；HDFS数据分布式存储层设置副本策略和负载均衡机制保障日志存储的稳定性和可用性，为方便日志系统和其它系统的数据调用，采用MySQL数据库存储系统的配置信息、分析算法的计算因子、计算分析的结果。

(三)MySQL数据库层

MySQL数据库层给电商平台搜索查询日志的计算分析系统提供存储支持，MySQL数据库层和HDFS数据分布式存储层的不同在于，核心业务逻辑层和MapReduce模型计算层需要长期数据支持；MySQL是高效开源的关系型数据库，在数据库中设置合理的数据表和索引可为上层提供快速有效的数据访问能力，MySQL数据库层主要存储系统的配置信息，分析算法的计算因子，计算分析的结果，除日志系统本身直接运用外，也可为电商平台推荐和运营系统提供数据支持。

(四)MapReduce模型计算层

通过MapReduce模型计算层将经过归并后的大规模日志集采用Key/Value的方法进行并行处理，处理任务在JobTracker结点的管理下由各个TaskTracker结点协同完成，各个TaskTracker结点的处理结果被整合计算成为最终的结果，除并行计算外，MapReduce模型计算层有精良的容错机制和负载均衡调节机制。

(五)核心业务逻辑层

核心业务逻辑层完成搜索查询日志的计算分析的具体工作，利用Hadoop的分布式集群环境，运用HDFS分布式文件系统存储搜索查询日志数据，再运用MapReduce模型计算模型统计搜索查询日志中的数据，并进行计算分析，核心业务逻辑层的工作主要包括日志存储，日志前置处理，日志统计和日志分析。

(六)交互接口层

交互接口层是系统和用户进行信息交换的媒介，交互接口层给用户提供可视化的界面，接受用户的数据和请求，然后将系统的分析处理结果返回给用户，达到交互的目的。电商平台上，搜索查询日志的计算分析系统通过用户运用商城搜索引擎和点击商城页面的搜索结果以及广告推荐信息记录日志，反过来，搜索引擎中用到的热门搜索词汇、搜索结果、广告展示通过搜索查询日志的计算分析结果进行优化和排序。

根据上述特征和总体架构，基于云平台的海量搜索查询日志计算分析系统主要分为七个特色单元，包括日志数据的搜集与前置处理单元、热词计算分析单元、关联词计算分析单元、点击热度计算单元、关联推荐单元、业务直连计算分析单元、搜索特征计算分析单元，具体的统计特征和数据包含在各个单元中，系统特色单元组成如图2所示。

二、日志数据搜集与前置处理单元

日志数据搜集与前置处理单元根据电商平台的特征，分析搜索查询日志产生的过程，设置标准化格式日志，然后根据设置好的标准化格式日志内容搜集需要的日志信息数据，定时对每天的日志数据进行前置处理，以便其它单元的运用；日志数据搜集与前置处理单元主要包括设置标准化格式日志、日志搜集单元、日志前置处理单元三个部分。

(一)设置标准化格式日志

信息爆炸时代，互联网上更多的是非结构化数据，非结构化数据十分混杂，需要先对非结构化的数据进行繁杂的前置处理，梳理出需要的信息然后再进行数据挖掘，但繁杂的前置处理过程会使系统处理效率降低，这时针对数据特征设置结构化的数据，可大幅减少数据前置处理的开销。本发明针对电商平台的特征，设置搜索查询日志、行为流量日志、退出关闭日志三种标准化格式日志。

结构化数据虽也存在噪声，但相对非结构化数据的庞杂，处理分析的效率更高，用户在运用过程中按照标准化格式日志设置的字段记录信息。

(1)搜索查询日志

搜索查询日志除记录关键词外，主要记录用户的连接信息和搜索界面上的业务直连信息、展示位信息、广告信息，业务直连是搜索引擎为特殊业务配置的直连业务，当用户搜索一些关联业务的关键词时，搜索引擎给出直连结果，用户在搜索结果页即可办理关联业务，简化操作，提升体验，增加业务办理成功率。日志以天为时间间隔形成小日志文件，7天为一轮回，同时记录到一个大日志文件中，7天为一个文件。

搜索查询日志字段设置的字段名与描述对应为：searchID-日志ID，searchTime-搜索时间，keyword-关键词，sessionID-sessionID+服务器IP，resultNum-总记录，IP-用户IP，userID-登录用户，searchType-1表示全文检索2表示商城检索，directIds-直连信息，port-端口，platformCode-接入平台，boothIds-展示位信息，areaCode-地区编码。

其中直连信息字段设置的字段名与描述对应为：src_id-直连ID，group_id-直连组ID，series_id-直连序列ID，business_type-直连类型，direct_index-直连位置，template_id-直连模板ID。

展示位信息字段设置的字段名与描述对应为：propose_id-展示位组ID，propose_index展示位组位置，rowIndex-行数，colIndex列数，booth_id-展示位ID，booth_index-展示位位置。

广告信息字段设置的字段名与描述对应为：advert_id-广告，IDadvert_index-广告位置。

MapReduce模型程序对输入文件以行为单位进行处理，上述日志字段采用“$$$”分隔，每条日志记录各占一行，减少日志前置处理的工作量，以便MapReduce模型程序快速处理。

(2)行为流量日志

行为流量日志除记录用户与服务器的连接信息外，还记录搜索结果页信息，包括实际点击结果的URL地址、点击事件、停留时间、URL类型、特定的直连信息、展示位信息、广告信息。

行为流量日志字段设置的字段名与描述对应为：searchID-日志ID，keyword-搜索内容，clickTime0-点击时间，rIR-总记录数的某条数据，digest-摘要索引唯一ID，hitURL-实际点击url地址，stayTime-停留时间，sessionID-sessionID+服务器IP，page-当前页0，urlType-url类型，resultType-搜索结果类型，directId-直连信息，port-端口，IP-用户IP，areaCode-地区编码，boothIds-展示位信息，advertIds-广告信息，platformCode-接入平台。

(3)退出关闭日志

(二)日志搜集单元

搜集日志数据基于日志数据产生的过程，分析电商平台搜索引擎的特征，日志数据的产生过程为：用户进入搜索页面，选择搜索类型的网页或商品，输入搜索词后点击搜索启动搜索查询，用户浏览返回的搜索结果，并点击想看的可能结果，当无法找到合适的结果时修改搜索词继续搜索或直接离开，此过程就是一次完整的搜索过程。在这个过程中系统会记录用户访问的时间、IP地址、SessionID、选择的搜索类型、搜索关键词、关键词是系统推荐还是用户输入的、点击的具体搜索结果，还包括展现结果中的展示位信息、广告信息、离开时间。

日志搜集单元的日志记录采用Apache基金会下的开源项目log4j，log4j的使用和配置都很方便，同时具有以下优点：提供多语言支持，包括C、C++、.Net、PL/SQL的接口，对日志按照Trace，Debug，Info，Warn，Error和Fatal层次分类，可自定义日志格式，记录的日志可输出到文件、控制台和数据库，可异步记录日志。服务器的各结点都会记录搜索的日志，日志的记录和搜集都是在各服务器结点上完成的，各个结点记录的日志统一以日期+ip命名，例如20200118_11.12.13.14，定时将日志上传到HDFS的指定目录下，定时汇总，经由日志前置处理后供其它单元运用。

(三)日志前置处理单元

数据前置处理在整个日志计算分析过程中至关重要，原始日志中存在很多不完整和存在噪声的数据，前置处理直接影响到日志计算分析的效果，通过数据前置处理可获得清晰高效的数据，以便计算分析出准确有价值的信息。数据前置处理包括以下步骤：数据清理，会话标识，用户标识，事物识别。

数据清理：依需求对日志文件进行必要的清洗，删除与数据挖掘任务无关的数据，归并可能存在重复的记录，对用户请求页面出错导致记录不完整的日志，将错误记录找出并删除，过滤恶意攻击日志，数据清理留下完整准确无重复的信息。

用户标识：用户标识识别每个访问的用户，系统实际运用过程中，可能由于防火墙、代理服务器和本地缓存存在原因使用户的识别过程变复杂。

会话标识：会话可标识用户与服务器之间的一次连接，在一段时间内用户对服务器的访问属于同一会话期，当用户访问的时间跨度较大时，会产生不同的会话。会话标识将用户的某一次访问的行为全部标识出来，可能跨越用户不同的会话期，对正确分析用户行为很重要。

本发明在搜索查询日志的统计分系统中唯一标识一个用户，采用IP地址加会话的模式，即IP+sessionID，针对搜索记录，可弱化同一IP在一段时间内与服务器有多个会话的情况，但系统定义了单次搜索和相同搜索的区分界线。单次搜索是用户的一次搜索行为，F5刷新，搜索词相同，都算不同搜索；但一次搜索的不同页算是相同搜索。相同搜索是搜索词相同的搜索，包括不同用户的搜索。

各个搜索业务点分别记录日志并存入到HDFS分布式文件系统中，日志归并单元将各结点记录的搜索查询日志和行为流量日志按时间顺序归并，最终形成一个文件，作为每天的定时任务处理。归并过程中对相同的记录去重，删除无效记录和恶意记录，再将这些记录排序后发送至Reducer，最终将不同Mapper归并排序后输出至HDFS，形成类似202000211.log的日期文件名文件，过程中还统计每天访问量和点击次数，并存储到数据库和记录文件中。日志前置处理流程如图3所示。

三、热词计算分析单元

热词为热门搜索词，电商平台中的搜索引擎下面会有一排热门搜索词，可作为商城搜索风向标，用户可以此知晓商城哪些商品或业务比较受欢迎，若不太清楚可直接点击进入。热词在输入关键词的过程作用为：当用户键入关键词时，可弹出关联提示，帮助用户准确定位关键词，操作速度更快，热词计算分析单元主要是从海量日志中统计搜索词、搜索次数、热度打分。

热词热度反映某个搜索关键词在一定时间内的搜索热度，热度高的词搜索量越大，而关键词的构成来源很多，关键词的热度可分为长期与短期热度，短期热门搜索词是产生于一些重要新闻以及关联热门事件，这类关键词只在一段时间内流行。

热词计算分析单元主要分成二部分，第一部分是热词统计，第二部分是计算热词热度，热词热度计算基于带有历史遗忘元素的最小二乘法设置，历史遗忘元素消除数据饱和现象，加强当前数据权重，减少历史数据的影响。带有历史遗忘元素的算法收敛速度快、跟踪能力强、随机输入函数波动相对较小，最小二乘法通过最小误差的平方和寻找数据的最佳匹配函数，最小二乘法可简便的求得未知数据并使得到的数据与实际数据的误差最小。为反应参数的时变性，加强当前数据对参数的估计作用，削弱先前历史数据的影响，对于慢时变参数，最优方法为采用渐消记忆法，即采用加权最小二乘估计，指标函数为：

L＝a_N ^TC_Na_N

若去加权矩阵C_N，即：

其中b成为历史遗忘元素，0＜b＜1，展开得：

L(N)＝a²(n)+ba²(n)+b²a²(n-1)+b³a²(n-2)+...+b^N-1a²

P_A＝(1-e)*Ph_A+e*D_A/D_C

P_A为A词的热度得分，

Ph_A为A词的历史热度得分，

D_A为本次统计时，A词的搜索频次，

D_C为本次统计时，所有词的搜索频次，

e为与历史得分融合的历史遗忘元素，

热词统计和热度计算分别由二个不同的业务流程执行，通过统一的JobRunner进行调度，负责从数据库中读取并初始化本单元信息，创建热词统计业务流程和热度计算业务流程，热词统计业务流程分为二个Mapper过程提取日志信息数据，其中一个Mapper过程对点击过的热词做标记，Reducer过程统计热词的展示次数和点击次数信息。热词热度业务流程读取一遍日志，计算出搜索词的搜索次数，判断搜索词的可阅读比率，当搜索次数和可阅读比率达到系统预设的最低临界值后通过热词热度公式计算搜索词的热度，若热度达到更新临界值则更新流行词数据表。热词计算分析处理流程如图4所示。

四、关联词计算分析单元

关联词计算分析根据用户的搜索记录，分析搜索短语内的搜索关键字和关联搜索间的搜索关键字的关联性，分为单次搜索统计和关联搜索统计二个模块。单次搜索统计首先分析搜索查询日志，统计出单次搜索的关联关键字集合，然后计算各关联关键字的关联权重。关联搜索统计首先分析搜索查询日志，发现关联搜索短句，计算关联搜索短句的关联权重，然后将关联搜索短句分成关联搜索关键字集合，最后计算关联关键字集合中各关联关键词的关联权重，再按照一定权重归并单次搜索和关联搜索的分值，形成最终得分。关联词计算分析单元的DAG图如图5所示。

关联词计算分析单元实现过程中用到的主要计算模型包括：关联打分计算模型和词语相似度模型

(一)关联打分计算模型

计算关联搜索打分首先统计关联搜索短句，再统计关联搜索共现的次数，然后按照每个搜索计算出关联打分的分值，采用的计算式为：

搜索短语的关联性受先验知识的影响，在公式中采用了Dirichlet平滑，平滑因子为G_X，其中：EP(Y_X)为本次Y搜索短语与X搜索短语的关联打分，EPh(Y_X)为Y搜索短语与X搜索短语的历史关联打分,

为本次Y搜索短语与X搜索短语共现的次数，G_X为本次X搜索短语出现的次数，Gh_X为上次X搜索短语出现的融合次数，EP(Y_X)计算完成后，对Gh_X进行更新，运用如下计算式：

Gh_X＝(1-e)Gh_X+G_X

e为搜索短语出现次数的遗忘元素。

(二)词语相似度模型

针对电商平台搜索查询日志的特征，本发明设置的词语相似度处理算法主要包括：词前缀比率计算、词后缀比率计算、词语相似度计算，三个计算方法都是基于最长公共子串的计算方法，最长公共子串是序贯决策问题，运用动态规划的方法求解，本发明采用矩阵记录结果，最长公共子串的实现为：假设有二个字符串Z1和Z2,创建二维数组TwoArray，TwoArray[m][n]表示Z1中的m位和Z2中的n位之前的最长公共子序列的长度，identical(i,j)表示当X的第i位与Y的第j位，完全相同时为1，否则为0。

TwoArray[m][n]＝Max{TwoArray[i-1][j-1]+identical(i,j),

TwoArray[i-1][j],TwoArray[i][j-1]}

对该数组采用回溯计算TwoArray[i][j]，TwoArray[i][j]中最大的数便是X和Y的最长公共子序列长度，依次找出最长公共子序列。计算词前缀比率、词后缀比率、词语相似度时先将待计算的二个字符串前置处理去除所有空格，计算与处理后的词语最长公共子串的长度。词语相似度为最长公共子串的长度与二个字符串的最小长度的比值。词前缀比率通过比较二个字符串前缀的字符求出前缀相同字符个数，再根据前缀字符相同个数与二个字符串的最小长度相除得到。词后缀比率计算与词前缀比率计算相同，直接比照执行。

五、点击热度计算单元

点击热度统计计算一段时间内用户点击记录，首先计算一段时间内的总得分、点击得分、结果排名、URL、点击次数、文档ID，点击热度打分按照关联搜索短句统计中的关联打分方式计算，然后从数据库中查询关联历史打分信息，按照下式计算最终的打分：

P＝hW*hZ+rW*(1-1/rFP+1/(rFP+rFb*Math.exp(rFc-rFd*rIR)))

其中hW是点击热度权重，hZ是点击得分，rW是点击排名权重，rFP、rFb、rFc、rFd为链接质量参数，rIR是点击排名得分，新的结果排名为结果排名总和与结果排名次数的比值，最后将新的数据更新到数据库中。点击热度计算单元流程如图6所示。

六、关联推荐单元

关联推荐单元由展示位分析统计和广告分析统计二个部分组成，分别统计点击次数、展示位展示次数、广告展示次数、点击率、点击率、平均排名、平均排名、点击次数。主要在商城的推荐系统和广告系统中使用。展示位向用户推荐关联商品，当商城需要推荐热门商品时，从点击日志中按具体商品为划分，统计出用户的个数，作为该商品的浏览次数，然后计算出该商品的点击热度(类似热词热度的计算方式),采用的计算式为：

为本次A商品所属商品类别的总点击次数，

定时从分析系统统计计算后的点击热度表中，获取每个商品类别的点击热度最高的top5N个(如果别的推荐里有该商品了的话，要去掉该商品，但最多去4次，所以是5N)不同品牌的商品，然后按照点击热度排序，形成热门推荐列表；用户搜索时，通过类别判别系统，判断其搜索的商品类别，然后到热门推荐列表中获取商品信息显示到相应区域，若用户没有进行任何搜索，就到热门推荐列表中随机选出某个商品的TOP2个商品，直到凑够TOPN个，广告系统主要计算分析广告投放的质量，统计的过程和关联推荐类似。整个计算分析的流程如图7所示，对于关联推荐和广告信息分为二个独立的作业线，由任务调度器统一调度执行。

七、业务直连计算分析单元

业务直连是搜索引擎为一些特殊业务配置的直连业务，当用户搜索一些关联业务的关键词时，搜索引擎给出直连结果，用户在搜索结果页即可办理关联业务，简化操作，提升用户体验。

业务直连计算分析单元分为三个部分，第一部分计算分析直连信息，第二部分计算分析一键办理模块，第三部分是数据梳理，所有的直连信息从搜索查询日志中取出并标记，另外再从行为流量日志中筛选点击过的直连信息，对这二部分数据汇总处理，得到直连展示总次数、点击次数、点击率信息。整个流程如图8所示，任务调度器调用二个Map过程分别对搜索查询日志和行为流量日志进行前置处理，然后交给同一个Reduce过程进行计算分析，最后对数据库的数据进行梳理。

八、搜索特征计算分析单元

搜索特征计算分析单元统计搜索特征值作为报表数据，不同统计方式的统计数据不同，本发明针对特地做出一些规定，对于按照接入平台统计，相同用户同一次会话内的2次搜索算2次(即使是相同搜索词，也算2次)；相同用户同一次会话内，相同搜索词的多次搜索中，对同一链接的多次点击算1次点击(结果点击量＝普通点击量+直连点击量+商品结果点击量)；数据总量为爬取的网页量(url数量)+直连html数量；相同用户同一次会话内，第1次搜索后没有任何点击，又进行第2次不同的搜索被认为是一次改进搜索，界定的事件域为一次会话，不考虑时间间隔(当然一天是其硬性间隔)，搜索改进率＝搜索改进次数/搜索次数；相同用户一次搜索后没有进行任何点击就关闭页面，认为是一次搜索退出，搜索退出率＝搜索退出次数/搜索次数；相同用户一次搜索后有至少1次点击，认为是一次搜索转化，搜索转化率＝搜索转化次数/搜索次数；直连访问比＝直连点击量/结果点击量。

按照搜索词统计时为避免统计记录过多，搜索次数必须达到一定临界值后才计入统计，此时搜索次数就是实际的搜索次数；改良搜索量为按照搜索词划分的改良搜索次数；退出搜索量为按搜索词划分的退出搜索次数；平均点击量＝结果点击量/转化搜索次数；平均点击排名＝每次点击的链接位于搜索结果里的位置总和/结果点击量；对于改良搜索词，为避免统计记录过多，改良搜索次数必须达到一定临界值后，才计入统计，采用链式判断判定改良搜索词，对按时间先后的4次搜索，A-B-C-D，并且都属于同一次会话，算改良搜索时，B认为是A的改良搜索，C认为是B的改良搜索，D认为是C的改良搜索；不认为C是A的改良搜索，即使实际情况确实C是A的改良搜索，比如对搜索A，其改良搜索B的搜索次数为改良搜索词的改良搜索次数；在按照搜索词的计算分析中，为避免统计记录过多，点击量必须达到一定临界值后，才计入统计；对搜索A，结果列表中所有的url各自的点击量即为结果url点击量。搜索特征计算分析单元统计的数据比较多和繁杂，设置成几个不同处理部分，点击统计、搜索统计、交互特征统计为互不影响的作业线，在搜索特征调度器分别调度完成作业后，再对数据库中的数据进行梳理，作为报表运用数据。

发明关键点和创新点总结：一是基于Hadoop核心技术及整体框架，包括HDFS分布式文件系统，及MapReduce分布式计算框架，优化分布式集群的整体架构，搭建Hadoop分布式平台；二是基于电商平台的数据特征设置结构化日志，直接获取日志系统需要的有价值信息，并运用MapReduce模型程序进行必要的日志前置处理；三是针对电商平台的特征确定计算分析特征及计算方法，包括关键词搜索次数、结果点击量、点击率点击排名，搜索转化率等。重点设置词热度的计算模式、搜索关联度的计算模式、点击热度的计算模式；四是基于MapReduce模型编程框架的特征，对记录的标准化格式日志按照功能模块的需要对关键词进行提取，包括搜索查询日志的IP、SesionID、关键词、展示位信息、广告信息、点击的URL等，通过统计这些关键字段的信息来确定有效地用户信息，计算搜索词的搜索次数、结果点击量、数据总量、点击率、点击排名、搜索转换率等数据；五是对计算分析的结果进行展示和分析，计算分析的最小时间粒度为一天的日志，这些特征的计算分析的结果最终会以天为单位存储到数据库中，将一段时间的计算分析结果通过报表等手段进行直观的展示分析。

Claims

1.基于云平台的海量搜索查询日志计算分析系统，其特征在于，结合电商平台搜索引擎和推荐系统的数据特征，计算分析电商平台的海量搜索查询日志，对电商平台用户搜索行为分类解析，基于Hadoop云平台分布式大数据处理架构，优化HDFS文件系统和MapReduce计算框架，设置搜索查询日志的计算分析系统，系统总体架构包括：Hadoop分布式集群层、HDFS数据分布式存储层、MySQL数据库层、MapReduce模型计算层、核心业务逻辑层、交互接口层；

2.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，设置标准化格式日志包括设置搜索查询日志、行为流量日志、退出关闭日志三种格式日志；

搜索查询日志：

行为流量日志：

退出关闭日志：

3.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，日志搜集单元的日志记录采用Apache基金会下的开源项目log4j，记录的日志可输出到文件、控制台和数据库，可异步记录日志；服务器的各结点都会记录搜索的日志，日志的记录和搜集都是在各服务器结点上完成的，各个结点记录的日志统一以日期+ip命名，定时将日志上传到HDFS的指定目录下，定时汇总，经由日志前置处理后供其它单元运用。

4.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，日志前置处理单元工作步骤为：数据清理，用户标识，会话标识，事物识别；

用户标识：用户标识识别每个访问的用户；

5.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，热词计算分析单元主要是从海量日志中统计搜索词、搜索次数、热度打分；

L＝a_N ^TC_Na_N

若去加权矩阵C_N，即：

其中b成为历史遗忘元素，0＜b＜1，展开得：

L(N)＝a²(n)+ba²(n)+b²a²(n-1)+b³a²(n-2)+...+b^N-1a²

P_A＝(1-e)*Ph_A+e*D_A/D_C

P_A为A词的热度得分，

Ph_A为A词的历史热度得分，

D_A为本次统计时，A词的搜索频次，

D_C为本次统计时，所有词的搜索频次，

e为与历史得分融合的历史遗忘元素，

6.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，关联词计算分析单元根据用户的搜索记录，分析搜索短语内的搜索关键字和关联搜索间的搜索关键字的关联性，分为单次搜索统计和关联搜索统计二个模块；单次搜索统计首先分析搜索查询日志，统计出单次搜索的关联关键字集合，然后计算各关联关键字的关联权重；关联搜索统计首先分析搜索查询日志，发现关联搜索短句，计算关联搜索短句的关联权重，然后将关联搜索短句分成关联搜索关键字集合，最后计算关联关键字集合中各关联关键词的关联权重，再按照一定权重归并单次搜索和关联搜索的分值，形成最终得分；

7.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，点击热度计算单元统计计算一段时间内用户点击记录，首先计算一段时间内的总得分、点击得分、结果排名、URL、点击次数、文档ID，点击热度打分按照关联搜索短句统计中的关联打分方式计算，然后从数据库中查询关联历史打分信息，计算最终的打分，新的结果排名为结果排名总和与结果排名次数的比值，最后将新的数据更新到数据库中。

8.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，关联推荐单元由展示位分析统计和广告分析统计二个部分组成，分别统计点击次数、展示位展示次数、广告展示次数、点击率、点击率、平均排名、平均排名、点击次数；主要在商城的推荐系统和广告系统中使用，展示位向用户推荐关联商品，当商城需要推荐热门商品时，从点击日志中按具体商品为划分，统计出用户的个数，作为该商品的浏览次数，然后计算出该商品的点击热度,采用的计算式为：

为本次A商品所属商品类别的总点击次数，

9.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，业务直连计算分析单元分为三个部分，第一部分计算分析直连信息，第二部分计算分析一键办理模块，第三部分是数据梳理，所有的直连信息从搜索查询日志中取出并标记，另外再从行为流量日志中筛选点击过的直连信息，对这二部分数据汇总处理，得到直连展示总次数、点击次数、点击率信息；

10.根据权利要求1所述的基于云平台的海量搜索查询日志计算分析系统，其特征在于，搜索特征计算分析单元统计搜索特征值作为报表数据，本发明针对特地做出一些规定，对于按照接入平台统计，相同用户同一次会话内的2次搜索算2次；相同用户同一次会话内，相同搜索词的多次搜索中，对同一链接的多次点击算1次点击；数据总量为爬取的网页量+直连html数量；相同用户同一次会话内，第1次搜索后没有任何点击，又进行第2次不同的搜索被认为是一次改进搜索，界定的事件域为一次会话，不考虑时间间隔，搜索改进率＝搜索改进次数/搜索次数；相同用户一次搜索后没有进行任何点击就关闭页面，认为是一次搜索退出，搜索退出率＝搜索退出次数/搜索次数；相同用户一次搜索后有至少1次点击，认为是一次搜索转化，搜索转化率＝搜索转化次数/搜索次数；直连访问比＝直连点击量/结果点击量；