CN103207882A - 店铺访问数据处理方法及系统 - Google Patents

店铺访问数据处理方法及系统 Download PDF

Info

Publication number
CN103207882A
CN103207882A CN2012100654764A CN201210065476A CN103207882A CN 103207882 A CN103207882 A CN 103207882A CN 2012100654764 A CN2012100654764 A CN 2012100654764A CN 201210065476 A CN201210065476 A CN 201210065476A CN 103207882 A CN103207882 A CN 103207882A
Authority
CN
China
Prior art keywords
shop
user
visit data
data
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100654764A
Other languages
English (en)
Other versions
CN103207882B (zh
Inventor
原攀峰
马琮
史绪良
朱震杰
张茂森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210065476.4A priority Critical patent/CN103207882B/zh
Priority to TW101121761A priority patent/TW201329890A/zh
Priority to EP13701318.1A priority patent/EP2802979A4/en
Priority to US13/738,909 priority patent/US20130185429A1/en
Priority to PCT/US2013/021063 priority patent/WO2013106595A2/en
Priority to JP2014552308A priority patent/JP2015508543A/ja
Publication of CN103207882A publication Critical patent/CN103207882A/zh
Application granted granted Critical
Publication of CN103207882B publication Critical patent/CN103207882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种店铺访问数据处理方法,包括:获取新的访问数据,从中解析出用户标识、店铺标识以及访问时间;判断用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤;判断用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定新的访问数据对应的用户为该店铺的再次访问用户。本发明还提供一种实现前述方法的店铺访问数据处理系统。本发明的店铺访问数据处理方法及系统,对访问数据的处理精确度高,且占用系统资源较少。

Description

店铺访问数据处理方法及系统
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种店铺访问数据处理方法及系统。
背景技术
网上购物逐渐成为新的购物消费趋势,在购物网站上开设网上店铺的人越来越多,通过网上店铺进行购物的用户也越来越多。以一个店铺为例,每天都可能会有来自各地的用户访问该店铺,为了帮助店铺更好的提供服务,一般的购物网站会提供店铺相关统计数据,例如,统计某一商品的销售量、用户访问量、重复访问网站的用户数量等等。通过对这些数据的统计,开设店铺的卖家能够及时基于这些数据进行分析,调整经营商品的种类及数量、或者调整服务。例如,对于重新访问网站的用户,如果某一用户在一定时间内重复访问同一家店铺,即此用户为该店铺的再次访问用户(如回头客),因此,可以认为该用户应该是对店铺中的商品感兴趣。卖家则可以根据其店铺中的所有再次访问用户数据进行分析,调整经营商品种类、服务质量等等。
目前,购物网站常见的再次访问用户计算方法为:设定一个划分再次访问用户的时间段(例如,六天),获取在这个时间段之内所有访问过该购物网站中的用户的历史访问数据,例如用户标识、其访问的店铺标识等等。当有新的用户访问数据产生时,获取该新的访问数据中的用户标识和其访问的店铺标识,并与历史访问数据中的用户标识和店铺标识进行匹配,如果用户标识和店铺标识均能匹配,则确定该用户为该店铺的再次访问用户,反之,则该用户不是该店铺的再次访问用户。前述方法中,每当新来一条用户访问数据,则需要跟历史访问数据进行匹配,因为历史访问数据是动态变化的,每次匹配的数据源中的数据混乱,这就可能会出现匹配耗时长、工作量大的问题、因此会占用过多的系统资源、增加系统的负担。特别是当历史访问数据在短时间内动态变化数量较大时,此种方法还会影响匹配的精准性,从而使判断结果不准确。
发明内容
本申请所要解决的技术问题是提供一种店铺访问数据处理方法及系统,以解决访问数据处理精确度不高,过多占用系统资源的问题。
为了解决上述问题,本申请公开了一种店铺访问数据处理方法,包括以下步骤:
获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间;
判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤;其中,所述静态历史访问数据采用静态数据结构存储;
判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户;其中,所述动态历史访问数据采用动态数据结构存储。
进一步地,所述判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识与静态历史访问数据中的店铺标识进行匹配,若能匹配上,则将用户标识与静态历史访问数据中的用户标识进行匹配;反之,则判定为不能匹配。
进一步地,所述判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识与动态历史访问数据中的店铺标识进行匹配,若能匹配上,则将用户标识与动态历史访问数据中的用户标识进行匹配;反之,则判定为不能匹配。
进一步地,所述静态历史数据包括存储店铺信息的有序数组和存储单个店铺的用户信息的有序数组,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识代入存储店铺信息的有序数组中进行匹配,若能匹配上,则将用户标识代入该店铺对应的存储用户信息的有序数组中进行匹配,反之,则判定为不能匹配。
进一步地,所述动态历史访问数据包括存储店铺信息的红黑树和存储单个店铺的用户信息的红黑树,所述判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识代入存储店铺信息的红黑树中进行匹配,若能匹配上,则将用户标识代入该店铺对应的存储用户信息的红黑树中进行匹配;反之,则判定为不能匹配。
进一步地,在确定所述新的访问数据对应的用户是否为该店铺的再次访问用户之后还包括:
若新的访问数据对应的用户为该店铺的再次访问用户,则将本次访问时间覆盖所述用户上次访问该店铺的时间;反之,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
进一步地,所述方法还包括:
对动态历史访问数据和静态历史访问数据进行合并处理,所述合并处理包括将部分或全部动态历史访问数据采用静态数据结构存储,转化为静态历史访问数据,并与原始的静态历史访问数据合并。
进一步地,所述合并处理在到达预定时间节点时,和/或在动态历史访问数据存储量达到阈值时进行。
进一步地,若所述静态历史数据包括存储店铺信息的有序数组和存储单个店铺的用户信息的有序数组,所述动态历史访问数据包括存储店铺信息的红黑树和存储单个店铺的用户信息的红黑树,所述合并处理包括:
从存储店铺信息的有序数组和红黑树中选取一个店铺;
将当前店铺对应的存储用户信息的有序数组的大小扩充为其原有cookie数和当前店铺对应的存储用户信息的红黑树中的cookie数之和;
将当前店铺对应的存储用户信息的红黑树中的部分或全部cookies按序写入到当前店铺对应的存储用户信息的有序数组的扩充部分;
将当前店铺对应的存储用户信息的有序数组中原有的cookies和新写入的cookies按照cookie的hash散列值进行归并排序,形成新的有序数组。
为了解决上述问题,本申请还公开了一种店铺访问数据处理系统,包括:
解析模块,用于获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间;
静态数据判断模块,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤,所述静态历史访问数据采用静态数据结构存储;
动态数据判断模块,用于判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,所述动态历史访问数据采用动态数据结构存储。
进一步地,所述静态数据判断模块包括:
有序数组匹配单元,用于将店铺标识和用户标识代入有序数组中进行匹配查找。
进一步地,所述动态数据判断模块包括:
红黑树匹配单元,用于将店铺标识和用户标识代入红黑树中进行匹配查找。
进一步地,所述系统还包括:
处理模块,若新的访问数据对应的用户为该店铺的再次访问用户,则将本次访问时间覆盖所述用户上次访问该店铺的时间;反之,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
进一步地,所述系统还包括:
合并模块,将部分或全部动态历史访问数据采用静态数据结构存储,转化为静态历史数据,并与原始的静态历史访问数据合并。
与现有技术相比,本申请包括以下优点:
本申请的店铺访问数据处理方法及系统通过将历史访问数据分成不同的数据结构存储,较早的历史访问数据采用静态数据结构存储,较新的历史访问数据采用动态数据结构存储,其中,静态历史访问数据为相对稳定的数据,帮助实现快速查找、同时降低对系统资源的占用,动态数据结构存储为实时变化的数据,可以实现数据快速的存储和更新,二者结合能够提高访问数据处理的时间、减少对系统资源的占用,同时可以提高数据处理的精准度,保证数据处理结果的准确性。
优选地,在设定的时间节点或者动态数据结构存储量达到阈值时,对历史访问数据进行合并处理,即将动态历史访问数据采用静态数据结构存储,对数据源进行优化,减少动态存储结构的数据对空间的占用,实现历史访问数据的实时更新,从而保证店铺数据处理的效率以及减少对系统资源的占用。
另外,对于静态历史访问数据采用有序数组,动态历史访问数据采用红黑树的结构,其中所有店铺信息分为有序数组和红黑树结构,同时将单个店铺对应的用户信息也分为有序数组和红黑树结构,在进行查找判断时可以实现分步判断,即首选匹配店铺,再匹配用户,从而可以提高查找效率,实现数据的快速处理。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
附图说明
图1是本申请的店铺访问数据处理实现的系统架构图;
图2是本申请的店铺访问数据处理方法实施例一的流程图;
图3是本申请的店铺访问数据处理方法实施例二的流程图;
图4是本申请的店铺访问数据处理系统实施例一的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,其示出实现本申请的店铺访问数据处理的系统架构图。本申请的店铺访问数据处理系统可以置于网页服务器中,也可以单独置于一个服务器中,当用户通过客户端浏览器对网页进行访问后,网页服务器会记录下访问数据,店铺访问数据处理系统可以通过信息交互实时获取该条访问数据,并从中获取用户标识、店铺标识和访问时间等信息,并与历史访问数据进行匹配查找。下面对本申请的店铺访问数据处理方法及系统进行详细的说明。
参照图2,其示出本申请的一种店铺访问数据处理方法实施例一,包括以下步骤:
步骤101,获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间。
当用户通过客户端浏览器访问购物网站时,网站服务器会对客户端浏览器的访问请求进行响应,同时会记录并存储访问数据,例如用户cookie标识、店铺ID、请求的URL、访问时间、客户端浏览器版本号等等。店铺访问数据处理系统则可以从网站服务器预定的位置读取这些访问数据。店铺访问数据处理系统实时监听网站服务器的访问状态,当有新的访问数据产生时,则读取这些新的访问数据,并从中解析出用户标识、店铺标识以及访问时间。
具体的,网页服务器为了收集用户通过客户端浏览器的访问数据,一般会在网页代码中加上日志收集脚本(如JavaScript)。当用户第一次浏览网页时,网页服务器为了辨别用户身份或进行session跟踪,可以为用户生成cookie,并发送给客户端浏览器,浏览器会将cookie的key/value保存到用户本地某个目录下的文本文件内(通常经过加密),下次请求同一网站时就发送该cookie给网页服务器。当网站服务器为用户的客户端浏览器生成cookie之后,日志收集脚本就可以按指定格式,收集客户端浏览器用户访问时的相关日志数据(用户cookie标识、用户昵称、访问的店铺ID标识、访问时间、访问页面等),并通过HTTP请求将收集到的日志数据,发送到网页服务器。店铺访问数据处理系统则可以从网页服务器中读取到这些访问数据,并基于数据存储格式进行解析,从而获取到用户标识、店铺标识以及本次访问时间。其中,用户标识和店铺标识为唯一识别某一用户和店铺的标识,可以根据需要来选取,例如,用户cookie标识可以认为是用户标识,店铺ID标识可以认为是店铺标识。
步骤102,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤;其中,所述静态历史访问数据采用静态数据结构存储。
历史访问数据可以预先加载到系统内存中,同时,可以按照预定规则进行加载,例如,判断是否为再次访问用户的条件之一为:只比较最近七天的数据,那么加载时则只加载最近七天的数据。另外,还可以在加载之后对历史访问数据进行初始化操作,例如,去掉不在此时间范围内的历史访问数据等等,从而保证判断结果的准确性。其中,历史访问数据分成两部分,一部分采用静态数据结构存储,即静态历史访问数据,另一部分采用动态数据结构存储,即动态历史访问数据。例如,以七天为一个时间段,那么包括当天在内的七天内的数据为历史访问数据。其中,可以将前面六天的历史访问数据采用静态数据结构存储,当天产生的历史访问数据(即当天在新的访问数据之前的访问数据)采用动态数据结构存储。当然,也可以将前面五天的历史访问数据采用静态数据结构存储,当天与前一天产生的历史访问数据采用动态数据结构存储。具体的划分可以根据实际情况确定,本申请对此并不限制。可以理解的是,静态数据结构存储的数据,例如有序数组,具有检索效率较高、节省存储空间的优点,动态数据结构的数据,例如,红黑树结构,具有快速存储和便于查找的优点。因此,为了实现快速的判断和减少占用存储空间,同时实现新数据的快速存储和查找,可以尽可能的将大部分的、较早的数据采用静态数据结构存储,小部分的、较新的数据采用动态数据结构存储。
在判断时,可以直接将用户标识与店铺标识与静态历史访问数据中的各条记录中的用户标识与店铺标识一一进行匹配。可以理解的是,还可以采用如下方式进行判断:将新的访问数据中解析出的店铺标识与静态历史访问数据中记录的所有店铺标识进行匹配,若能匹配上,则在所述店铺标识对应的店铺所有来访的用户信息中查找是否存在所述用户标识,若不能匹配上,则无需再匹配用户标识与静态历史访问数据,直接进行步骤103。
当然,也可以先匹配用户标识,再在用户标识对应的用户所有访问的店铺中查找是否存在该店铺标识。可以理解,因为本申请计算的是店铺访问数据,为了减少查询量,优选先匹配店铺标识,再匹配用户标识。此种将用户标识与店铺标识分开匹配的方式,只有其中之一匹配上再确认后者是否匹配,无需逐一比对,从而可以缩小匹配查找的范围、减少查询的次数,节省查询判断工作量,提高查找效率。
步骤103,判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户;其中,所述动态历史访问数据采用动态数据结构存储。
若静态历史访问数据中没有对应的记录时,则可以在动态历史访问数据中进行查找。在查找判断的过程中,可以采用与前述静态历史访问数据中查找判断的方式相同,即可以逐一匹配,也可以先选择其中一项,匹配之后,再用另一项去匹配,本申请对此并不限制。
优选地,在确定用户是否为店铺再次访问用户后,还可以包括根据判断结果进行数据记录,所述记录包括以下步骤:
若所述用户为所述店铺的再次访问用户,将本次访问时间覆盖所述用户上次访问店铺的时间;若所述用户不是所述店铺的再次访问用户,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
优选地,前述的根据判断结果进行数据记录还可以在每一次判断过程中实时添加。参照图3,其示出本申请实施例二的实时添加数据记录的过程,具体包括以下步骤:
步骤301,在静态历史访问数据中查询是否存在所述店铺标识,若是,则进行步骤304;反之,则进行步骤302;
步骤302,在动态历史访问数据中查询是否存在所述店铺标识,若是,则进行步骤304,反之,则进行步骤303;
步骤303,在动态历史访问数据中添加所述店铺标识对应的店铺信息,并进行步骤304;
步骤304,在静态历史访问数据中查询所述店铺标识对应店铺的所有用户记录中是否存在所述用户标识,若是,则进行步骤307,反之,则进行步骤305;
步骤305,在动态历史访问数据中查询所述店铺标识对应店铺的所有用户记录中是否存在所述用户标识,若是,则进行步骤307,反之,则进行步骤306;
步骤306,在动态历史访问数据中添加所述用户标识对应的用户信息到所述店铺对应的用户信息中,并设置所述用户为所述店铺的新用户;
步骤307,将所述历史访问数据中对应的访问时间修改为本次访问时间,并设置所述用户为所述店铺的再次访问用户。
其中,若是在静态历史访问数据中匹配到,则在静态历史访问数据中修改访问时间,若是在动态历史访问数据中匹配到,则在动态历史访问数据中修改。
可以理解,对于前述步骤302,若在动态历史访问数据中存在所述店铺标识,也可以直接跳转到步骤305。因为根据历史访问数据存储的规则,若在静态历史访问数据中不存在店铺标识,那么可以理解为该店铺标识所对应的店铺在这些静态历史访问数据所包含的时间段内并没有用户访问记录,自然也不会有对应的用户标识存在。当然,因为动态历史访问数据还可以根据预订的规则被实时的改用静态数据结构存储,那么就可能出现在判断过程中实时的数据变化(例如,原本在动态历史数据中查询到店铺标识,但是在后续判断时,该动态历史数据已经转换为静态历史数据)。因此,为了保证判断结果的准确性,本申请优选采用前述各步骤所描述的过程,即,若在静态历史访问数据中不存在所述店铺标识,而在动态历史访问数据中存在所述店铺标识,先在静态历史访问数据中查询该店铺标识所对应店铺的用户记录中是否存在用户标识。
优选地,本申请的店铺访问数据处理方法在实施例一和/或实施例二的基础上还包括:
对动态历史访问数据和静态历史访问数据进行合并处理。
合并处理包括在预定的确定历史访问数据节点时和/或者在动态历史访问数据存储量达到预定的阈值时,对同一店铺的动态历史访问数据进行转化,采用静态数据结构进行存储得到新转化的静态历史访问数据,然后将该新转化的静态历史访问数据与原始的静态历史访问数据合并,形成该店铺的新的静态历史访问数据。具体的转化过程可以根据静态历史数据和动态历史数据的数据结构来确定。
例如,在进行再次访问用户计算时,七天为一个时间段,即只考虑七天内的历史访问数据。其中,系统预定的规则为:前面六天的历史访问数据采用静态数据结构存储,第七天的访问数据采用动态数据结构存储。那么,当第七天结束,第八天开始时,例如,以第八天的凌晨00:00:00为节点,根据预定的规则,对于第八天来说,第二天至第七天的历史访问数据应该采用静态数据结构存储,因此,此时需要将第七天的动态历史访问数据采用静态数据结构存储,然后与第二天至第六天的静态历史访问数据合并。另外,第一天的历史访问数据相对于第八天来说已经超过预定的七天时间段,此时需要将第一天的历史访问数据忽略,例如,释放掉,或者删除等等。
另外,为了减少对存储空间的占用以及应用服务器开销,一般来说,会设定动态存储数据的阈值。仍以前述描述为例进行说明,虽然预定的规则为第七天的访问数据采用动态数据结构存储,但是如果某一店铺的第七天的访问数据很大,在还未到达下一个节点之前,已经达到预定的动态存储数据的阈值,为了不过多占用系统资源,此时可以实时的将第七天已经产生的全部或者部分动态历史访问数据与前面六天的静态历史访问数据合并,即将动态历史访问数据采用静态数据结构存储,从而保证后续的访问数据能够采用动态数据结构存储。
下面结合具体的实例对前述描述的店铺访问数据处理方法进行详细的说明。
购物网站下的所有历史访问数据分成静态历史访问数据(前面六天)和动态历史访问数据(当天),分别采用有序数组和红黑树两种结构来存储。所有店铺信息分别组成有序数组units和红黑树new_units,每一个店铺的用户信息又组成一个有序数组cookies和红黑树new_cookies。即,有序数组units中存储前面六天被访问过的店铺信息,红黑树new_units中存储当天被访问过的店铺信息。每一个店铺对应的有序数组cookies中存储该店铺前面六天来访的用户信息,红黑树new_cookies中存储该店铺当天来访的用户信息。其中,店铺信息包括店铺shop_id、cookie列表、新加入的待合并的cookie列表、最近的合并时间等等。用户信息包括:该用户cookie的hash值、访问时间、再次访问用户计算的内部状态标志(记录是否为当天新用户以及停留天数)等等。
其中,判断提出新的访问的用户是否为某一店铺的再次访问用户的具体过程如下:
S101,当有新的访问数据产生时,首先获取其中的用户标识(cookie的hash值)、访问时间和店铺标识(shop_id),然后将店铺标识代入有序数据units进行匹配,若能匹配,则进行步骤S104,若不能匹配,则进行步骤S102;
S102,将店铺标识代入红黑树new_units进行匹配,若能匹配,则进行步骤S104,若不能匹配,则进行步骤S103;
S103,将店铺标识对应的店铺信息作为一个新的单元添加到红黑树new_units,进行步骤S104;
S104,将用户标识代入有序数组cookies进行匹配,若能匹配,则进行步骤S107,若不能匹配,则进行步骤S105;
S105,将用户标识代入红黑树new_cookies进行匹配,若能匹配,则进行步骤S107,若不能匹配,则进行步骤S106;
S106,将用户标识对应的用户信息作为一个新的单元添加到所述店铺对应的红黑树new_cookies,并同时添加该用户为该店铺新用户的标识;
S107,将用户信息中的访问时间修改为本次访问时间,并添加该用户为该店铺再次访问用户的标识。
可以理解,对于在有序数组中进行匹配可以采用二分法进行处理,对于在红黑树中进行匹配则可以采用遍历树的方法进行处理。
另外,当一个时间段到达预订的时间节点,例如按照天数来定的时间段,到达两天交替的时间点时,需要对动态和静态历史访问数据进行合并。具体合并过程如下:
从存储店铺信息的有序数组units和红黑树new_units中逐一选取店铺,并获取当前店铺的数据结构shop_node,扩充shop_node->cookies(即有序数组cookies)的大小为已加入的cookie数和新加入的cookie数之和;
通过遍历shop_node->new_cookies(即红黑树new cookies),将新加入的cookies按序追加写入到shop_node->cookies新扩充的存储单元;
将shop_node->cookies中前后两个有序部分的cookies,按照cookie的hash散列值进行归并排序,合并后形成一个新的有序数组;
释放掉shop_node->new_cookies中已经加入shop_node->cookies的部分所占用的红黑树存储单元;
将shop_node->length设置为shop_node->length+shop_node->new_cookies_length,将shop_node->new_cookies_length设置为0。
另外,还可以设定动态数据存储量的阈值,即当红黑树new_units或红黑树new_cookies的规模达到门限,则将其中的数据合并到有序数组units或有序数组cookies中,具体的合并过程同前所述。
本实例中将每一店铺的访问数据分为有序数组和红黑树结构,同时将购物网站下所有店铺的访问数据也分为有序数组和红黑树结构,在进行查找判断时可以实现分步判断,即首选匹配店铺,再匹配用户,从而可以提高查找效率,实现数据的快速处理。另外,根据预定规则,在到达时间节点或者存储量阈值时对数据进行合并处理,将动态历史访问数据改用静态数据结构存储,实现历史访问数据的动态更新,同时可以使新的访问数据能够采用动态数据结构存储,从而保证店铺数据处理的效率以及减少对系统资源的占用。
参照图4,其示出本申请的店铺访问数据处理系统实施例一,包括解析模块10、静态数据判断模块20和动态数据判断模块30。
解析模块10,用于获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间。
静态数据判断模块20,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤,所述静态历史访问数据采用静态数据结构存储。优选地,静态数据结构为有序数组,则静态数据判断模块还包括有序数组匹配单元,用于将店铺标识和用户标识代入有序数组中进行匹配查找,具体的匹配查找可以采用二分法进行。
动态数据判断模块30,用于判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,所述动态历史访问数据采用动态数据结构存储。优选地,动态数据结构为红黑树,则动态数据判断模块还包括红黑树匹配单元,用于将店铺标识和用户标识代入红黑树中进行匹配查找,具体的匹配查找可以采用遍历树的方法进行。
优选地,该系统还包括处理模块,若新的访问数据对应的用户为该店铺的再次访问用户,则将本次访问时间股改所述用户上次访问该店铺的时间;反之,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
优选地,该系统还包括合并模块,用于对动态历史访问数据和静态历史访问数据进行合并处理,将部分或全部动态历史访问数据采用静态数据结构存储,转化为静态历史访问数据,然后与原始的静态历史访问数据合并。其中,合并模块还包括触发单元,用于触发合并模块进行合并处理。其中,触发单元可以预先设定触发条件,例如时间点或者存储量阈值等等,当监测到触发条件成立,例如到达预订时间点,或者存储量达到阈值时,则触发合并模块进行合并处理操作。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的店铺访问数据处理方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种店铺访问数据处理方法,其特征在于,包括以下步骤:
获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间;
判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤;其中,所述静态历史访问数据采用静态数据结构存储;
判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户;其中,所述动态历史访问数据采用动态数据结构存储。
2.如权利要求1所述的店铺访问数据处理方法,其特征在于,所述判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识与静态历史访问数据中的店铺标识进行匹配,若能匹配上,则将用户标识与静态历史访问数据中的用户标识进行匹配;反之,则判定为不能匹配。
3.如权利要求1所述的店铺访问数据处理方法,其特征在于,所述判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识与动态历史访问数据中的店铺标识进行匹配,若能匹配上,则将用户标识与动态历史访问数据中的用户标识进行匹配;反之,则判定为不能匹配。
4.如权利要求1所述的店铺访问数据处理方法,其特征在于,所述静态历史数据包括存储店铺信息的有序数组和存储单个店铺的用户信息的有序数组,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识代入存储店铺信息的有序数组中进行匹配,若能匹配上,则将用户标识代入该店铺对应的存储用户信息的有序数组中进行匹配,反之,则判定为不能匹配。
5.如权利要求1所述的店铺访问数据处理方法,其特征在于,所述动态历史访问数据包括存储店铺信息的红黑树和存储单个店铺的用户信息的红黑树,所述判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配包括:
将店铺标识代入存储店铺信息的红黑树中进行匹配,若能匹配上,则将用户标识代入该店铺对应的存储用户信息的红黑树中进行匹配;反之,则判定为不能匹配。
6.如权利要求1所述的店铺访问数据处理方法,其特征在于,在确定所述新的访问数据对应的用户是否为该店铺的再次访问用户之后还包括:
若新的访问数据对应的用户为该店铺的再次访问用户,则将本次访问时间覆盖所述用户上次访问该店铺的时间;反之,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
7.如权利要求1至6任一项所述的店铺访问数据处理方法,其特征在于,所述方法还包括:
对动态历史访问数据和静态历史访问数据进行合并处理,所述合并处理包括将部分或全部动态历史访问数据采用静态数据结构存储,转化为静态历史访问数据,并与原始的静态历史访问数据合并。
8.如权利要求7所述的店铺访问数据处理方法,其特征在于,所述合并处理在到达预定时间节点时,和/或在动态历史访问数据存储量达到阈值时进行。
9.如权利要求8所述的店铺访问数据处理方法,其特征在于,若所述静态历史数据包括存储店铺信息的有序数组和存储单个店铺的用户信息的有序数组,所述动态历史访问数据包括存储店铺信息的红黑树和存储单个店铺的用户信息的红黑树,所述合并处理包括:
从存储店铺信息的有序数组和红黑树中选取一个店铺;
将当前店铺对应的存储用户信息的有序数组的大小扩充为其原有cookie数和当前店铺对应的存储用户信息的红黑树中的cookie数之和;
将当前店铺对应的存储用户信息的红黑树中的部分或全部cookies按序写入到当前店铺对应的存储用户信息的有序数组的扩充部分;
将当前店铺对应的存储用户信息的有序数组中原有的cookies和新写入的cookies按照cookie的hash散列值进行归并排序,形成新的有序数组。
10.一种店铺访问数据处理系统,其特征在于,包括:
解析模块,用于获取新的访问数据,从所述新的访问数据中解析出用户标识、店铺标识以及访问时间;
静态数据判断模块,判断所述用户标识与店铺标识是否与静态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,反之,进行下一步骤,所述静态历史访问数据采用静态数据结构存储;
动态数据判断模块,用于判断所述用户标识与店铺标识是否与动态历史访问数据中的用户标识与店铺标识匹配,若匹配,则确定所述新的访问数据对应的用户为该店铺的再次访问用户,所述动态历史访问数据采用动态数据结构存储。
11.如权利要求10所述的店铺访问数据处理系统,其特征在于,所述静态数据判断模块包括:
有序数组匹配单元,用于将店铺标识和用户标识代入有序数组中进行匹配查找。
12.如权利要求10所述的店铺访问数据处理系统,其特征在于,所述动态数据判断模块包括:
红黑树匹配单元,用于将店铺标识和用户标识代入红黑树中进行匹配查找。
13.如权利要求10所述的店铺访问数据处理系统,其特征在于,所述系统还包括:
处理模块,若新的访问数据对应的用户为该店铺的再次访问用户,则将本次访问时间覆盖所述用户上次访问该店铺的时间;反之,则将本次访问记录添加到动态历史访问数据中,所述本次访问记录包括店铺标识对应的店铺信息、用户标识对应的用户信息及访问时间。
14.如权利要求10至13任一项所述的店铺访问数据处理系统,其特征在于,所述系统还包括:
合并模块,将部分或全部动态历史访问数据采用静态数据结构存储,转化为静态历史数据,并与原始的静态历史访问数据合并。
CN201210065476.4A 2012-01-13 2012-01-13 店铺访问数据处理方法及系统 Active CN103207882B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210065476.4A CN103207882B (zh) 2012-01-13 2012-01-13 店铺访问数据处理方法及系统
TW101121761A TW201329890A (zh) 2012-01-13 2012-06-18 店鋪訪問資料處理方法及系統
EP13701318.1A EP2802979A4 (en) 2012-01-13 2013-01-10 PROCESSING LOADING VISITING DATA
US13/738,909 US20130185429A1 (en) 2012-01-13 2013-01-10 Processing Store Visiting Data
PCT/US2013/021063 WO2013106595A2 (en) 2012-01-13 2013-01-10 Processing store visiting data
JP2014552308A JP2015508543A (ja) 2012-01-13 2013-01-10 店舗訪問データを処理すること

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210065476.4A CN103207882B (zh) 2012-01-13 2012-01-13 店铺访问数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN103207882A true CN103207882A (zh) 2013-07-17
CN103207882B CN103207882B (zh) 2016-12-07

Family

ID=47604222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210065476.4A Active CN103207882B (zh) 2012-01-13 2012-01-13 店铺访问数据处理方法及系统

Country Status (6)

Country Link
US (1) US20130185429A1 (zh)
EP (1) EP2802979A4 (zh)
JP (1) JP2015508543A (zh)
CN (1) CN103207882B (zh)
TW (1) TW201329890A (zh)
WO (1) WO2013106595A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置
CN105701694A (zh) * 2015-12-31 2016-06-22 广州东海网络科技有限公司 创建电子商店的方法及创建电子商店的系统
CN105917368A (zh) * 2014-01-17 2016-08-31 Sk普兰尼特有限公司 线下店铺广告服务系统及其方法和应用的装置
CN106897281A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种日志分片方法和装置
CN108153777A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 数据访问信息的获取方法及装置
CN111782941A (zh) * 2016-05-11 2020-10-16 阿里巴巴集团控股有限公司 信息推荐方法、装置及服务器
CN112149391A (zh) * 2020-09-28 2020-12-29 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872353B2 (en) 2015-12-14 2020-12-22 Google Llc Providing content to store visitors without requiring proactive information sharing
US10592913B2 (en) * 2015-12-14 2020-03-17 Google Llc Store visit data creation and management
CN108427687A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种用户数处理方法及装置
CN107562930B (zh) * 2017-09-15 2020-06-19 广州快信信息科技有限公司 操作行为数据的处理方法及装置
JP6616860B2 (ja) * 2018-04-06 2019-12-04 ソフトバンク株式会社 情報生成装置、プログラム及び情報生成方法
CN111367897B (zh) * 2019-06-03 2023-09-08 杭州海康威视系统技术有限公司 一种数据处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250136A1 (en) * 2007-04-05 2008-10-09 Yahoo! Inc. Accelerated and reproducible domain visitor targeting
US20090276692A1 (en) * 2008-05-05 2009-11-05 Norm Rosner Method and System for Data Analysis
CN103001993A (zh) * 2011-09-19 2013-03-27 中兴通讯股份有限公司 服务器、网络数据提供方法及装置
CN104468672A (zh) * 2013-09-17 2015-03-25 北京千橡网景科技发展有限公司 用于对匿名用户进行推荐的方法和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04253266A (ja) * 1991-01-29 1992-09-09 Tokyo Electric Co Ltd 取引処理装置
WO2002039215A2 (en) * 2000-11-09 2002-05-16 Visitalk.Com, Inc. Distributed dynamic data system and method
JP3724721B2 (ja) * 2001-06-22 2005-12-07 レモンクーポン株式会社 販売促進方法、販売促進システム及びコンピュータプログラム
US7136883B2 (en) * 2001-09-08 2006-11-14 Siemens Medial Solutions Health Services Corporation System for managing object storage and retrieval in partitioned storage media
US20030126560A1 (en) * 2001-12-28 2003-07-03 Koninklijke Philips Electronics N.V. Adaptive bookmarking of often-visited web sites
JP2004118621A (ja) * 2002-09-27 2004-04-15 Hitachi Information Systems Ltd 顧客管理システム
JP4439879B2 (ja) * 2003-11-13 2010-03-24 日本電信電話株式会社 データ処理装置および履歴検証方法
CA2499305A1 (en) * 2005-03-04 2006-09-04 668158 B.C. Ltd. Method and apparatus for providing geographically targeted information and advertising
US7953727B2 (en) * 2008-04-04 2011-05-31 International Business Machines Corporation Handling requests for data stored in database tables
GR1006698B (el) * 2008-12-22 2010-02-05 Μεθοδολογια και συστημα για συλλογη, επεξεργασια και διανομη δεδομενων οδικης κινησης για βελτιωμενη δρομολογηση σε συστηματα δορυφορικης πλοηγησης οχηματων
US8504792B2 (en) * 2009-12-22 2013-08-06 Apple Inc. Methods and apparatuses to allocate file storage via tree representations of a bitmap
US20110225288A1 (en) * 2010-03-12 2011-09-15 Webtrends Inc. Method and system for efficient storage and retrieval of analytics data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250136A1 (en) * 2007-04-05 2008-10-09 Yahoo! Inc. Accelerated and reproducible domain visitor targeting
US20090276692A1 (en) * 2008-05-05 2009-11-05 Norm Rosner Method and System for Data Analysis
CN103001993A (zh) * 2011-09-19 2013-03-27 中兴通讯股份有限公司 服务器、网络数据提供方法及装置
CN104468672A (zh) * 2013-09-17 2015-03-25 北京千橡网景科技发展有限公司 用于对匿名用户进行推荐的方法和设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105917368A (zh) * 2014-01-17 2016-08-31 Sk普兰尼特有限公司 线下店铺广告服务系统及其方法和应用的装置
CN104504077B (zh) * 2014-12-22 2018-04-03 北京国双科技有限公司 网页访问数据的统计方法和装置
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置
US10496616B2 (en) 2015-12-17 2019-12-03 Alibaba Group Holding Limited Log fragmentation method and apparatus
CN106897281A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种日志分片方法和装置
CN106897281B (zh) * 2015-12-17 2020-08-14 阿里巴巴集团控股有限公司 一种日志分片方法和装置
CN105701694A (zh) * 2015-12-31 2016-06-22 广州东海网络科技有限公司 创建电子商店的方法及创建电子商店的系统
CN111782941A (zh) * 2016-05-11 2020-10-16 阿里巴巴集团控股有限公司 信息推荐方法、装置及服务器
CN111782941B (zh) * 2016-05-11 2023-12-12 创新先进技术有限公司 信息推荐方法、装置及服务器
CN108153777A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 数据访问信息的获取方法及装置
CN108153777B (zh) * 2016-12-05 2022-02-22 北京国双科技有限公司 数据访问信息的获取方法及装置
CN112149391A (zh) * 2020-09-28 2020-12-29 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质
CN112149391B (zh) * 2020-09-28 2023-06-09 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质

Also Published As

Publication number Publication date
EP2802979A2 (en) 2014-11-19
WO2013106595A3 (en) 2014-01-16
TW201329890A (zh) 2013-07-16
JP2015508543A (ja) 2015-03-19
EP2802979A4 (en) 2016-05-18
US20130185429A1 (en) 2013-07-18
WO2013106595A2 (en) 2013-07-18
CN103207882B (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN103207882A (zh) 店铺访问数据处理方法及系统
US10839038B2 (en) Generating configuration information for obtaining web resources
CN102656570B (zh) 用于缓存的方法和服务器
CN103718171B (zh) 以用户历史优化web爬取
CN104850546B (zh) 移动媒介信息的展示方法和系统
CN106021583B (zh) 页面流量数据的统计方法及其系统
KR20150130282A (ko) 실시간 비딩용 지능형 플랫폼
KR20110100631A (ko) 모바일 광고 최적화 아키텍처
CN102780603B (zh) 网站流量控制方法及装置
CN105183873A (zh) 恶意点击行为检测方法及装置
CN107835132B (zh) 一种流量来源跟踪的方法及装置
US20190205963A1 (en) Data refining engine for high performance analysis system and method
CN110191168A (zh) 在线业务数据的处理方法、装置、计算机设备和存储介质
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
CN111858278A (zh) 基于大数据处理的日志分析方法、系统及可读存储装置
CN111258819A (zh) MySQL数据库备份文件的数据获取方法、装置和系统
CN107526748B (zh) 一种识别用户点击行为的方法和设备
CN110362607A (zh) 异常号码识别方法、装置、计算机设备及存储介质
CN103297419A (zh) 线下线上数据融合方法及系统
US9053197B2 (en) Suggesting websites
US9065859B1 (en) Server side disambiguation of ambiguous statistics
CN113438302A (zh) 动态资源多级缓存方法、系统、计算机设备及存储介质
US20200279298A1 (en) Targeted ads based on user to-do and shopping lists
US20140222559A1 (en) Method and system of customer level transaction analytics across merchant sites
CN102694802A (zh) 网络访问信息记录方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1184563

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1184563

Country of ref document: HK