CN106294651A - 基于搜索埋点的决策数据挖掘方法 - Google Patents

基于搜索埋点的决策数据挖掘方法 Download PDF

Info

Publication number
CN106294651A
CN106294651A CN201610630394.8A CN201610630394A CN106294651A CN 106294651 A CN106294651 A CN 106294651A CN 201610630394 A CN201610630394 A CN 201610630394A CN 106294651 A CN106294651 A CN 106294651A
Authority
CN
China
Prior art keywords
search
keyword
results
content
little
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610630394.8A
Other languages
English (en)
Inventor
张天祥
杨爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gold And Network Ltd Co
Original Assignee
Beijing Gold And Network Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gold And Network Ltd Co filed Critical Beijing Gold And Network Ltd Co
Priority to CN201610630394.8A priority Critical patent/CN106294651A/zh
Publication of CN106294651A publication Critical patent/CN106294651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于搜索埋点的决策数据挖掘方法,步骤包括:1)埋点系统搜集用户输入的搜索行为;2)搜索行为实时计算系统实时统计在可配置时间段内的用户搜索关键字及其对应的结果数;3)过滤掉结果数表示关键字有匹配的搜索内容的搜索行为;4)得出在可配置时间段内用户搜索该关键字没有搜索到匹配内容的次数;5)同步到决策支持系统,直到累计可配置时间段时间达到计划时间为止;6)按关键字没有搜索到匹配内容的频率进行排序后以关键字为单位对数据进行展示。本发明从实时分析用户未找到的商品相关的信息的角度为决策支持系统能够做出有效决策,为各行业的企业或个人提供参考、辅助作用。

Description

基于搜索埋点的决策数据挖掘方法
技术领域
本发明涉及信息处理技术,特别是一种基于搜索埋点的决策数据挖掘方法。
背景技术
当前,人们生活在大数据时代,各种数据爆炸式增长,每天均有大量的资讯、娱乐、财经、医疗、教育等各行各业的信息数据注入网络,形成海量数据。从这些海量数据中挖掘出有价值的数据,并对其进行分析做出有效决策,为各行业的企业或个人提供参考、辅助作用。例如,网上购物也已经成为人们主要的购物方式之一,用户只需要联网操作不出家门即可获得较为满意的商品。购物系统需要实时分析用户浏览过或购买过的记录,为了给用户推荐准确的商品,购物系统需要依赖庞大的商品信息数据库。现有的决策支持系统还没有通过实时分析用户未找到的商品相关的信息的角度给用户推荐准确的商品信息。
发明内容
针对所提到的问题,本发明提供了一种基于搜索埋点的决策数据挖掘方法,步骤包括:
1)埋点系统搜集用户输入的搜索行为,所述搜索行为包括:关键字及所述关键字对应的结果数,所述结果数用来区分所述关键字是否有匹配的搜索内容;
2)所述搜索行为实时计算系统过滤掉结果数表示所述关键字有匹配的搜索内容的搜索行为;
3)所述搜索行为实时计算系统统计相同“关键字”的数目,所述数目即为在可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数;
4)所述搜索行为实时计算系统将步骤3得出的数据同步到决策支持系统,所述搜索行为实时计算系统继续统计下一个可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数,然后将所得数据同步到决策支持系统,直到累计可配置时间段时间达到计划时间为止;
5)所述决策支持系统接收步骤4的同步的数据后,按关键字没有搜索到匹配内容的频率进行排序后以关键字为单位对数据进行展示。
优选方案是:所述搜索行为解析成至少包括以下字段的格式数据:{关键字,用户ID, 会话ID,结果数}。
优选方案是:所述搜索行为实时计算系统在下一个时间段开始统计时清零。
优选方案是:所述“关键字”对应的不同的“用户ID”数目。
优选方案是:当所述关键字没有匹配的搜索内容,则所述关键字对应的结果数为“0”;当所述关键字有匹配的搜索内容,则所述关键字对应的结果数不为“0”。
优选方案是:存储单元的滑动窗口存储可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数。
本发明可实时统计用户输入的关键字而没有找到匹配的内容的次数,本发明从实时分析用户未找到的商品相关的信息的角度为决策支持系统能够做出有效决策,为各行业的企业或个人提供参考、辅助作用。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
本发明提供了一种基于搜索埋点的决策数据挖掘方法,步骤包括:
1)埋点系统搜集用户输入的搜索行为,所述搜索行为包括:关键字及所述关键字对应的结果数,所述结果数用来区分所述关键字是否有匹配的搜索内容;
2)所述搜索行为实时计算系统过滤掉结果数表示所述关键字有匹配的搜索内容的搜索行为;
3)所述搜索行为实时计算系统计相同“关键字”的数目,所述数目即为在可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数;
4)所述搜索行为实时计算系统将步骤3得出的数据同步到决策支持系统,所述搜索行为实时计算系统继续统计下一个可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数,然后将所得数据同步到决策支持系统,直到累计可配置时间段时间达到计划时间为止;
5)所述决策支持系统接收步骤4的同步的数据后,按关键字没有搜索到匹配内容的 频率进行排序后以关键字为单位对数据进行展示。
所述搜索行为解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,结果数}。
所述搜索行为实时计算系统在下一个时间段开始统计时清零。
所述“关键字”对应的不同的“用户ID”数目。
当所述关键字没有匹配的搜索内容,则所述关键字对应的结果数为“0”;当所述关键字有匹配的搜索内容,则所述关键字对应的结果数不为“0”。
存储单元的滑动窗口存储可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数。
实施例
本实施例的可配置时间段为5分钟,计划时间为20分钟。步骤如下:
1)用户输入关键字为“CC”,结果数“0”表示搜索“CC”关键字没有找到匹配的内容;
2)对搜索关键字“CC”以20分钟为时间窗口为例进行统计,5分钟更新一次数据,则需要四个存储单元的滑动窗口来存储数据;
3)搜索行为实时计算系统提取出搜索行为,并实时统计在0~5分钟时间段内,用户搜索关键字“CC”有1000次结果数为“0”,则存储如表1所示:
表1
4)5分钟固定时间到了以后,将第一存储单元的数据1000,第二存储单元数据0,第三存储单元数据0,第四存储单元数据0发送给决策支持系统;
5)统计在5~10分钟时间段内,用户搜索关键字“CC”有1500次结果数为“0”,则存储如表2所示:
表2
6)5分钟固定时间到了以后,将第一存储单元的数据1000,第二存储单元数据1500,第三存储单元数据0,第四存储单元数据0发送给决策支持系统;
7)统计在10~15分钟时间段内,用户搜索关键字“CC”有800次结果数为“0”,则存储如表3所示:
表3
8)5分钟固定时间到了以后,将第一存储单元的数据1000,第二存储单元数据1500,第三存储单元数据800,第四存储单元数据0发送给决策支持系统;
9)统计在15~20分钟时间段内,用户搜索关键字“CC”有750次结果数为“0”,则存储如表4所示:
表4
10)5分钟固定时间到了以后,将第一存储单元的数据1000,第二存储单元数据1500,第三存储单元数据800,第四存储单元数据750发送给决策支持系统;
11)所述决策支持系统接收0~20分钟的同步的数据后,按关键字没有搜索到匹配内容的频率进行排序后以关键字为单位对数据进行展示;
12)将下次写入位置第一存储单元数据清0。清空以后如表5所示。
表5
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (6)

1.基于搜索埋点的决策数据挖掘方法,其特征在于,步骤包括:
1)埋点系统搜集用户输入的搜索行为,所述搜索行为包括:关键字及所述关键字对应的结果数,所述结果数用来区分所述关键字是否有匹配的搜索内容;
2)所述搜索行为实时计算系统过滤掉结果数表示所述关键字有匹配的搜索内容的搜索行为;
3)所述搜索行为实时计算系统计相同“关键字”的数目,所述数目即为在可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数;
4)所述搜索行为实时计算系统将步骤3得出的数据同步到决策支持系统,所述搜索行为实时计算系统继续统计下一个可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数,然后将所得数据同步到决策支持系统,直到累计可配置时间段时间达到计划时间为止;
5)所述决策支持系统接收步骤4的同步的数据后,按关键字没有搜索到匹配内容的频率进行排序后以关键字为单位对数据进行展示。
2.根据权利要求1所述的基于搜索埋点的决策数据挖掘方法,其特征在于,所述搜索行为解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,结果数}。
3.根据权利要求1所述的基于搜索埋点的决策数据挖掘方法,其特征在于,所述搜索行为实时计算系统在下一个时间段开始统计时清零。
4.根据权利要求2所述的基于搜索埋点的决策数据挖掘方法,其特征在于,所述“关键字”对应的不同的“用户ID”数目。
5.根据权利要求1所述的基于搜索埋点的决策数据挖掘方法,其特征在于,当所述关键字没有匹配的搜索内容,则所述关键字对应的结果数为“0”;当所述关键字有匹配的搜索内容,则所述关键字对应的结果数不为“0”。
6.根据权利要求1所述的基于搜索埋点的决策数据挖掘方法,其特征在于,存储单元的滑动窗口存储可配置时间段内所述用户搜索该关键字没有搜索到匹配内容的次数。
CN201610630394.8A 2016-08-03 2016-08-03 基于搜索埋点的决策数据挖掘方法 Pending CN106294651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610630394.8A CN106294651A (zh) 2016-08-03 2016-08-03 基于搜索埋点的决策数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610630394.8A CN106294651A (zh) 2016-08-03 2016-08-03 基于搜索埋点的决策数据挖掘方法

Publications (1)

Publication Number Publication Date
CN106294651A true CN106294651A (zh) 2017-01-04

Family

ID=57664777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610630394.8A Pending CN106294651A (zh) 2016-08-03 2016-08-03 基于搜索埋点的决策数据挖掘方法

Country Status (1)

Country Link
CN (1) CN106294651A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866205A (zh) * 2018-08-27 2020-03-06 北京易数科技有限公司 用于存储信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087734A (zh) * 2011-03-04 2011-06-08 宇龙计算机通信科技(深圳)有限公司 商品推荐方法、商品推荐系统及移动终端
CN102841946A (zh) * 2012-08-24 2012-12-26 北京国政通科技有限公司 商品数据检索排序及商品推荐方法和系统
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析系统及其分析方法
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN104657515A (zh) * 2015-03-24 2015-05-27 深圳中兴网信科技有限公司 数据实时分析方法及系统
CN105653697A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 一种推荐词检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087734A (zh) * 2011-03-04 2011-06-08 宇龙计算机通信科技(深圳)有限公司 商品推荐方法、商品推荐系统及移动终端
CN102841946A (zh) * 2012-08-24 2012-12-26 北京国政通科技有限公司 商品数据检索排序及商品推荐方法和系统
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析系统及其分析方法
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN104657515A (zh) * 2015-03-24 2015-05-27 深圳中兴网信科技有限公司 数据实时分析方法及系统
CN105653697A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 一种推荐词检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M.F.KOMARINSKI,等: "《Linux系统管理指南》", 31 May 1999 *
NBTINGWU: "推荐系统-埋点", 《CSDN》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866205A (zh) * 2018-08-27 2020-03-06 北京易数科技有限公司 用于存储信息的方法和装置
CN110866205B (zh) * 2018-08-27 2023-05-02 北京易数科技有限公司 用于存储信息的方法和装置

Similar Documents

Publication Publication Date Title
Heymann et al. Visual analysis of complex networks for business intelligence with gephi
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
US8869042B2 (en) Recommendation engine
CN104462084B (zh) 基于多个查询提供搜索细化建议
KR101079063B1 (ko) 점진적으로 증가하는 데이터를 처리하기 위한 빈발패턴 트리를 이용한 연관규칙 추출 장치 및 방법
US11347758B2 (en) Method and apparatus for processing search data
US9558165B1 (en) Method and system for data mining of short message streams
WO2014210387A2 (en) Concept extraction
US20140032514A1 (en) Association acceleration for transaction databases
CN104376058A (zh) 用户兴趣模型更新方法及相关装置
CN105916032A (zh) 视频推荐的方法及视频推荐的终端设备
Kudryavtseva et al. Modeling cluster development using programming methods: Case of Russian arctic regions
CN103412880B (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN110096646A (zh) 品类关联信息的生成及其视频推送方法和相关设备
Gala et al. Analyzing gender bias within narrative tropes
US11295078B2 (en) Portfolio-based text analytics tool
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
WO2019142391A1 (ja) データ分析支援システム及びデータ分析支援方法
CN110232071A (zh) 药品数据的检索方法、装置及存储介质、电子装置
CN106294651A (zh) 基于搜索埋点的决策数据挖掘方法
US7890494B2 (en) System and/or method for processing events
Kesharwani et al. Movie rating prediction based on: twitter sentiment analysis
Wang et al. Twiinsight: Discovering topics and sentiments from social media datasets
Medina Sada et al. A preliminary investigation with twitter to augment cvd exposome research
Diamantini et al. An integrated system for social information discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication