CN101853282A - 用户跨网站购物模式信息的抽取系统和方法 - Google Patents

用户跨网站购物模式信息的抽取系统和方法 Download PDF

Info

Publication number
CN101853282A
CN101853282A CN201010179025A CN201010179025A CN101853282A CN 101853282 A CN101853282 A CN 101853282A CN 201010179025 A CN201010179025 A CN 201010179025A CN 201010179025 A CN201010179025 A CN 201010179025A CN 101853282 A CN101853282 A CN 101853282A
Authority
CN
China
Prior art keywords
classification
collection
frequent
user
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010179025A
Other languages
English (en)
Inventor
刘红岩
蔡元珏
杨颖慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201010179025A priority Critical patent/CN101853282A/zh
Publication of CN101853282A publication Critical patent/CN101853282A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种用户跨网站购物模式信息的抽取方法,其特征在于包括:A.输入记录着用户在线浏览和购买行为的数据;B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。该方法:提出了寻找用户跨网站购物模式的有效方法;提供了候选项集的合理的剪枝策略,即:如果某一项集的真子集不频繁,那么该项集也不可能频繁,所以可以舍去;该方法可以找到所有频繁的项集和跨网站购物模式,并且根据用户事先设定的最小支持度的不同,会得到用户所需的不同的结果;可以找到复合的跨网站购物模式。还提供了实施该方法的系统。

Description

用户跨网站购物模式信息的抽取系统和方法
技术领域
本发明涉及计算机数据库和数据挖掘领域,特别是涉及用户跨网站购物模式信息的抽取系统和方法。
背景技术
在当今信息时代,互联网已经成为大众获取所需的一种重要手段。大量用户每天通过互联网查询自己所需信息,购买自己所需商品。但是互联网上存在的大量网站,往往只能收集到用户在自己网站上的浏览和购买行为,对于用户在整个网络上的行为并不能很好的分析,而有时用户在自己网站购买商品与在其他的网站上购买的商品存在某种关联和模式。如果可以找到这种跨网站的购买模式,跳出单个网站的局限,将不仅会对各个网站的经营提供有用的信息,还能作为分析消费者行为的有力手段。
用现在已有的技术手段来进行跨网站购物模式的分析,存在两个问题:
1.现有的方法中已经存在比较成熟的模式分析的方法,但是并没有一种进行跨网站购物模式分析的方法,所以说这是一个新的领域;
2.互联网的性质决定了进行跨网站购物模式分析的时候需要处理海量的数据,我们需要寻找一种高效率的方法。
发明内容
为了解决上述所说的问题,本发明的一个目的就是提出了一种抽取用户跨网站购物模式高效的系统和方法。
根据本发明的一个方面,提供了一种用户跨网站购物模式信息的抽取方法,其特征在于包括:
A.输入记录着用户在线浏览和购买行为的数据;
B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;
C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;
D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
根据本发明的另一个方面,提供了用户跨网站购物行为信息抽取系统,其特征在于包括:
输入模块,用于输入互联网上用户的浏览和购买行为的数据,
数据预处理模块,用于为一个模式发现模块准备好可用的数据形式,
所述模式发现模块,用于进行跨网站购物模式发现。
附图说明
图1显示了根据本发明的一个实施例的抽取用户跨网站购物模式的系统体系结构图。
图2显示了根据本发明的一个实施例的数据预处理模块的主要流程。
图3给出了模式发现模块的流程图。
具体实施方式
下面结合附图对本发明做出详细说明。
根据本发明的一个实施例的用户跨网站购物模式信息的抽取方法包括:
A.输入记录着用户在线浏览和购买行为的数据;
B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;
C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;
D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
根据本发明的一个实施例,在上述步骤A中从外部数据库中输入记录用户在线浏览和购买行为的数据。
根据一个具体实施例,上述步骤B进一步包括:
B 1.将每个用户所购买的所有商品及购买商品所在的网站组合到一起,成为一个数据库,记为d1;
B2.对购买的每一种商品类别或类别组合进行计数,当一个用户在同一个网站上购买了某种商品类别或类别组合,该类别或类别组合的计数加1;
B3.当某种商品类别或类别组合出现的频率(或称为支持度sup)大于某一被称为“最小支持度”(minisup)的阈值时,则认为该商品类别或类别组合是频繁的;
B4.对每一个频繁的商品类别或类别组合,都用一个新的项来代替,称为频繁项;
B5.将d1中所有频繁的商品类别或类别组合用项来替换,并删除不频繁的类别或类别组合,成为新的数据库d2。
其中步骤B3中计算商品类别或类别组合的支持度的公式如下:
sup ( P | d 1 ) = Σ P ⋐ U i 1 D
其中P表示某一商品类别或类别组合,d1表示数据库d1,Ui表示第i个用户购买的所有商品,D表示所有用户的个数。当支持度大于某一被称为“最小支持度”(minisup)的阈值时,则认为该商品类别或类别组合是频繁的。最小支持度阈值是由用户事先设定的。
根据一个具体实施例,上述步骤C可进一步包括:
C1.在数据库d2中取出所有含有1个项的项集,他们别或类别组合转换而来,所以他们的支持度均大于“最小支持度”(minisup)阈值,即所有这些1项集都是频繁的;
C2.用所有频繁的1项集组合出所有可能2项集,并对这些所有的2项集进行计数;如果一个用户在2个不同的网站上分别购买了2项集中的2个项,则该2项集的计数加1。如果最后该2项集出现的频率大于“最小支持度”(minisup)阈值,则认为该2项集是频繁的;
C3.用所有频繁的2项集组合出所有可能的3项集,要求这些3项集的所有2项子集都是频繁的,否则不予产生;对所有候选的3项集计数,如果一个用户分别在3个不同的网站上购买了3项集中的3个项,则该3项集的计数加1;如果最后某个3项集出现的频率大于“最小支持度”(minisup)阈值,则认为该3项集是频繁的;
C4.用类似3项集的处理方法,来寻找4项频繁集以及更大的频繁项集,直到找不出频繁项集为止。
上述步骤C1-C4中计算每个k项集(k≥2)出现的频率的公式为:
sup ( I | d 2 ) = Σ I ⋐ U i 1 D
其中I表示候选的项集,d2表示数据库d2,表示用户Ui在不同的网站上购买了I中的各个项。当支持度大于最小支持度(minisup)的阈值时,则认为该项集是频繁的。
根据一个具体实施例,在上述步骤D中,将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
本发明的优点包括:
1.该方法提出了一种寻找用户跨网站购物模式的有效方法;
2.该方法提供了候选项集的合理的剪枝策略:如果某一项集的真子集不频繁,那么该项集也不可能频繁,所以可以舍去。
3.该方法可以找到所有频繁的项集和跨网站购物模式,并且根据用户事先设定的最小支持度的不同,会得到用户所需的不同的结果。
4.该方法可以找到复合的跨网站购物模式,既包含不同网站上购买的商品,也包括在单个网站上购买的多个商品。
如图1所示,根据本发明的一个实施例的用户跨网站购物行为信息抽取系统包括:输入模块101,用于输入互联网上用户的浏览和购买行为的数据,也就是用户在一定时间之内的所有浏览行为和在线购买行为,包括用户的ID,用户所浏览的页面的域名以及用户所购买的商品类别和购买商品所在的页面域名。其次是数据预处理模块102、模式发现模块103和输出模块104。
数据预处理模块102为模式发现模块103准备好可用的数据形式,包括将原始数据转换成以用户为中心的数据,筛选出频繁的商品类别或类别组合,把这些类别组合当作一个单独的项,并将数据库转化成以用户为中心的包含项集的形式。模式发现模块103是本系统的主体模块,主要完成跨网站购物模式发现的任务。
下面参考图2和图3,对根据本发明抽取用户跨网站购物模式的方法进行详细地说明。
图2给出了本发明中数据预处理模块102的一个实施例的主要流程。其中,首先将数据转换成以用户为中心的数据,也就是一个用户一行数据,包括该用户在一定时间之内所购买的所有商品,以及购买这些商品所在的网站,形成数据库d1(步骤201)。然后在d1中对商品类别或类别组合进行筛选,找出那些同一个用户在同一个网站上购买的频繁的商品类别或类别组合。首先设定“最小支持度”阈值,当步骤202中的某个商品类别或类别组合的支持度(此处支持度的计算见上文对步骤B的详细说明)大于等于该“最小支持度”时,则认为该商品类别或类别组合是频繁的(步骤202)。然后我们将其作为一个项处理,便于后续操作(步骤203)。然后,将这些代表频繁的商品类别或类别组合的项形成数据库d2(步骤204),以此作为模式发现所需的数据。在之后的所有操作中,项集即是这些项的集合,同时需要注意,每一个项既可代表的是单个商品,也可代表商品的组合。
图3给出了跨网站购物模式发现模块103的一个实施例的流程图。首先,找出所有1项频繁集(步骤301),这里的1项频繁集实际上就是数据库d2中的所有的项。然后我们从1项频繁集出发,产生2项候选集(步骤302中k=1时的情况)。这里产生的2项候选集就是1项频繁集中的项集的所有可能的组合。然后对2项候选集中的各项集进行计数,当一个用户分别在不同的网站上购买了一个项集中的各项时,给这个项的计数加1(步骤303)。然后,通过项集的计数判定并统计所有项集的支持度(见上文对步骤C的详细解释)(步骤304),把大于等于“最小支持度”的项集加入到2项频繁集中(步骤306)。最后,如果2项频繁集不是空集(步骤307),则将k从1变成2,然后继续回到步骤302,通过2项频繁集去产生3项候选集;产生的方法是,通过2项频繁集组合出所有可能的3项集,但是要求3项集的所有2项子集都在2项频繁集中。以此类推,每次产生k+1项候选集时,都要求其所有的k项子集都在k项频繁集中。这样,产生了所有3项候选集之后,用相同的方法找出3项频繁集。以此类推,再去寻找4项以及更大的频繁项集,直到找不到频繁项集为止,然后将所有频繁的项集输出(步骤308)。这样就可以快速的找出所有的频繁项集,也就是我们所需要的跨网站的购物模式。
最后一个模块是输出模块104,需要将所有找到的频繁项集还原成商品类别或类别组合,再呈现在用户面前。这样就能输出复合的跨网站购物模式,既包括不同网站上购买的商品,也包括各个网站内购买的多个商品。
应当理解的是,在以上叙述和说明中对本发明所进行的描述只是说明而非限定性的,且在不脱离如所附权利要求书所限定的本发明的前提下,可以对上述实施例进行各种改变、变形、和/或修正。

Claims (10)

1.用户跨网站购物模式信息的抽取方法,其特征在于包括:
A.输入记录着用户在线浏览和购买行为的数据;
B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;
C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;
D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
2.根据权利要求1所述的方法,其特征在于所述步骤A包括从外部数据库中输入记录用户在线浏览和购买行为的数据。
3.根据权利要求1所述的方法,其特征在于所述步骤B进一步包括:
B1.将每个用户所购买的所有商品及购买商品所在的网站组合到一起,成为一个第一数据库(d1);
B2.对购买的每一种商品类别或类别组合进行计数,且当一个用户在同一个网站上购买了某种商品类别或类别组合时,该类别或类别组合的计数加1;
B3.当某种商品类别或类别组合出现的频率大于某一事先设定的阈值时,则认为该商品类别或类别组合是频繁的;
B4.对每一个频繁的商品类别或类别组合,都用一个项来代替;
B5.将所述第一数据库(d1)中所有频繁的商品类别或类别组合用所述项来替换,并删除不频繁的类别或类别组合,从而形成一个第二数据库(d2),
其中所述步骤B3中计算商品类别或类别组合出现的频率的公式为:
sup ( P | d 1 ) = Σ P ⋐ U i 1 D
其中P表示某一商品类别或类别组合,d1表示所述第一数据库(d1),Ui表示第i个用户购买的所有商品,D表示所有用户的个数。
4.根据权利要求3所述的方法,其特征在于所述步骤C进一步包括:
C1.在所述第二数据库(d2)中取出所有含有1个项的项集,他们都是由频繁的商品类别或类别组合转换而来,所以他们的频率均大于所述阈值,即所有这些1项集都是频繁的;
C2.用所有频繁的1项集组合出所有可能的2项集,并对这些所有的2项集进行计数;最后检查所有2项集,当某个2项集出现的频率大于所述阈值时,则认为该2项集是频繁的;
C3.用所有频繁的2项集组合出所有可能的3项集;对所有候选的3项集计数;最后检查所有3项集,当某个3项集出现的频率大于所述阈值时,则认为该3项集是频繁的;
C4.用类似3项集的处理方法,来寻找4项频繁集以及更大的频繁项集,直到找不出频繁项集为止。
上述步骤C1-C4中计算每个k项集(k≥2)出现的频率的公式为:
sup ( I | d 2 ) = Σ I ⋐ U i 1 D
其中I表示候选的项集,d2表示所述第二数据库(d2),
Figure FSA00000126996200022
表示用户Ui在不同的网站上购买了I中的各个项。
5.根据权利要求1所述的方法,其特征在于所述步骤D包括:
将寻找到的频繁的的项集还原成商品类别或类别组合,并作为结果输出。
6.用户跨网站购物行为信息抽取系统,其特征在于包括:
输入模块(101),用于输入互联网上用户的浏览和购买行为的数据,
数据预处理模块(102),用于为一个模式发现模块(103)准备好可用的数据形式,
所述模式发现模块(103),用于进行跨网站购物模式发现。
7.根据权利要求6所述的系统,其特征在于
所述用户的浏览和购买行为的数据包括用户的ID、用户所浏览的页面的域名、用户所购买的商品类别、和购买商品所在的页面域名;
所述数据预处理模块(102)为所述模式发现模块(103)准备好可用的数据形式的操作包括:将原始数据转换成以用户为中心的数据,筛选出频繁的商品类别或类别组合,把这些类别组合当作一个单独的项,并将数据库转化成以用户为中心的包含项集的形式。
8.根据权利要求6所述的系统,其特征在于数据预处理模块(102)进一步包括:
将数据转换成以用户为中心的数据的部分,其中所述数据是一个用户一行的数据,该数据包括该用户在一定时间之内所购买的所有商品以及购买这些商品所在的网站,
用于形成一个第一数据库(d1)的部分,
用于在第一数据库(d1)中对所述商品的类别或类别组合进行筛选的部分,用于找出那些同一个用户在同一个网站上购买的频繁的商品类别或类别组合,
用于当某个商品类别或类别组合出现的频率大于等于一个预先设定的阈值时将该商品类别或类别组合记为“频繁的”并将该商品类别或类别组合作为一个项处理以便于后续操作的部分,
用于用代表“频繁的”商品类别或类别组合的项形成一个第二数据库(d2)(步骤204)的部分,所述第二数据库(d2)中的数据被作为模式发现所需的数据。
9.根据权利要求8所述的系统,其特征在于所述模式发现模块(103)进一步包括:
用于找出所有1项频繁集(步骤301)的部分,其中1项频繁集就是所述第二数据库(d2)中的所有的项,
用于从1项频繁集产生2项候选集的部分,其中所产生的2项候选集就是1项频繁集中的项集的所有可能的组合,
用于对2项候选集中的各项集进行计数并当一个用户分别在不同的网站上购买了一个项集中的各项时给这个项的计数加1(步骤303)的部分,
用于对项集进行计数判定并统计所有项集出现的频率(步骤304)的部分,
用于把所述频率大于等于所述阈值的项集加入到2项频繁集中(步骤306)的部分,
用于当2项频繁集不是空集(步骤307)时由所述2项频繁集产生一个3项候选集的部分,其中产生的方法是,通过2项频繁集组合出所有可能的3项集,但是要求3项集的所有2项子集都在2项频繁集中,以此类推,每次产生k+1项候选集时,都要求其所有的k项子集都在k项频繁集中,
用于在产生了所有3项候选集之后找出3项频繁集的部分。
10.根据权利要求8所述的系统,其特征在于所述模式发现模块(103)进一步包括:一个输出模块(104),用于将所有找到的频繁项集还原成商品类别或类别组合,从而能够输出复合的跨网站购物模式,既包括不同网站上购买的商品,也包括各个网站内购买的多个商品。
CN201010179025A 2010-05-20 2010-05-20 用户跨网站购物模式信息的抽取系统和方法 Pending CN101853282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010179025A CN101853282A (zh) 2010-05-20 2010-05-20 用户跨网站购物模式信息的抽取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010179025A CN101853282A (zh) 2010-05-20 2010-05-20 用户跨网站购物模式信息的抽取系统和方法

Publications (1)

Publication Number Publication Date
CN101853282A true CN101853282A (zh) 2010-10-06

Family

ID=42804774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010179025A Pending CN101853282A (zh) 2010-05-20 2010-05-20 用户跨网站购物模式信息的抽取系统和方法

Country Status (1)

Country Link
CN (1) CN101853282A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479366A (zh) * 2010-11-25 2012-05-30 阿里巴巴集团控股有限公司 一种商品推荐方法及系统
CN102541862A (zh) * 2010-12-14 2012-07-04 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
CN103597485A (zh) * 2011-06-08 2014-02-19 株式会社东芝 模式提取装置及其方法
CN104504159A (zh) * 2015-01-19 2015-04-08 齐鲁工业大学 多支持度的正负序列模式在客户购买行为分析中的应用
CN104636956A (zh) * 2015-01-26 2015-05-20 沈阳师范大学 基于移动交易序列模式的用户行为模式增益挖掘方法
CN105468750A (zh) * 2015-11-26 2016-04-06 央视国际网络无锡有限公司 关联规则算法的数据降维与压缩方法
CN103793420B (zh) * 2012-10-31 2017-04-12 国际商业机器公司 用于跨站点数据分析的方法和系统
CN106897898A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种电商平台智能赠送的方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479366A (zh) * 2010-11-25 2012-05-30 阿里巴巴集团控股有限公司 一种商品推荐方法及系统
CN102541862A (zh) * 2010-12-14 2012-07-04 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
CN102541862B (zh) * 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
US9734258B2 (en) 2010-12-14 2017-08-15 Alibaba Group Holding Limited Method and system of displaying cross-website information
CN103597485A (zh) * 2011-06-08 2014-02-19 株式会社东芝 模式提取装置及其方法
CN103793420B (zh) * 2012-10-31 2017-04-12 国际商业机器公司 用于跨站点数据分析的方法和系统
CN104504159A (zh) * 2015-01-19 2015-04-08 齐鲁工业大学 多支持度的正负序列模式在客户购买行为分析中的应用
CN104504159B (zh) * 2015-01-19 2018-10-02 齐鲁工业大学 多支持度的正负序列模式在客户购买行为分析中的应用
CN104636956A (zh) * 2015-01-26 2015-05-20 沈阳师范大学 基于移动交易序列模式的用户行为模式增益挖掘方法
CN104636956B (zh) * 2015-01-26 2018-02-13 沈阳师范大学 基于移动交易序列模式的用户行为模式增益挖掘方法
CN105468750A (zh) * 2015-11-26 2016-04-06 央视国际网络无锡有限公司 关联规则算法的数据降维与压缩方法
CN106897898A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种电商平台智能赠送的方法及系统

Similar Documents

Publication Publication Date Title
CN101853282A (zh) 用户跨网站购物模式信息的抽取系统和方法
Ghazal et al. Bigbench: Towards an industry standard benchmark for big data analytics
Wang et al. Product weakness finder: an opinion-aware system through sentiment analysis
US10664888B2 (en) Method and system for attribute extraction from product titles using sequence labeling algorithms
CN102023989A (zh) 一种信息检索方法及其系统
CN106600302A (zh) 基于Hadoop的商品推荐系统
CN106600372A (zh) 一种基于用户行为的商品推荐方法及系统
CN104462156A (zh) 一种基于用户行为的特征提取、个性化推荐方法和系统
CN103605815A (zh) 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103678620A (zh) 一种基于用户历史行为特征的知识文档推荐方法
CN104866474A (zh) 个性化数据搜索方法及装置
CN102419779A (zh) 一种基于属性排序的商品个性化搜索方法及装置
CN102737021B (zh) 搜索引擎及其实现方法
CN104077286A (zh) 商品信息的搜索方法及系统
CN105447186A (zh) 一种基于大数据平台的用户行为分析系统
CN104809637A (zh) 计算机实现的商品推荐方法及系统
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN103077192B (zh) 一种数据处理方法及其系统
CN104331817A (zh) 电子商务推荐模型的用户特征提取方法及系统
CN103412958A (zh) 一种搜索结果显示方法和装置
Bora Data mining and ware housing
CN102890683A (zh) 信息提供方法及装置
Cho et al. Mining association rules using RFM scoring method for personalized u-commerce recommendation system in emerging data
CN101986301A (zh) 一种基于逆邻分析的协作过滤推荐系统及方法
Li et al. Mining association rules based on deep pruning strategies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101006