CN102289509A - 一种网站数据的获取及迁移使用方法 - Google Patents
一种网站数据的获取及迁移使用方法 Download PDFInfo
- Publication number
- CN102289509A CN102289509A CN2011102549359A CN201110254935A CN102289509A CN 102289509 A CN102289509 A CN 102289509A CN 2011102549359 A CN2011102549359 A CN 2011102549359A CN 201110254935 A CN201110254935 A CN 201110254935A CN 102289509 A CN102289509 A CN 102289509A
- Authority
- CN
- China
- Prior art keywords
- user
- matrix
- product
- behavior
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种网站数据的获取及迁移使用方法,用于垂直电子商务网站,通过迁移学习将已有电子商务网站的历史数据信息迁移到其它电子商务网站,通过脚本采集已有电子商务网站的用户基本信息以及用户行为,由用户基本信息得到用户特征数据库,由所述已有电子商务网站的产品信息得到产品特征数据库,根据用户行为分析用户特征和产品特征的相关度,得到相关度矩阵,其它电子商务网站根据进入网站的用户基本信息,结合所述相关度矩阵,计算该用户与本电子商务网站产品的相关度,进行推荐。本发明对原有历史数据密集的系统中用户特征和产品特征相关模式进行学习,基于迁移学习方法迁移至其他类似的由于历史数据不足无法进行有效推荐的电子商务网站中使用。
Description
技术领域
本发明属于网络数据应用技术领域,涉及迁移学习技术,为一种网站数据的获取及迁移使用方法。
背景技术
电子商务,以电子和信息技术为手段和基础,以商务为核心,把原来传统的销售、购买方式和渠道转移到物联网上来。打破地域的限制,使企业能够发展更为广阔的市场。电子商务被形象的比喻为鼠标加水泥的生产销售方式,在近几年因为其快速便捷的方式获得了飞速的增长。
个性化推荐,由于互联网信息的快速膨胀,使得用户很难快速的找到适合自己的产品或信息。在这样的背景下,个性化推荐技术慢慢得到了广泛的研究和应用。个性化推荐就是要根据对用户特征以及用户历史行为的分析发现客户的真正兴趣,对每个特定用户都进行专门的推荐,使得推荐的产品或服务最大程度上符合客户的需要。
目前垂直型电子商务网站发展速度很快,但是很多网站发展时间较短,数据积累不足,面对激烈的市场竞争,也急需引进效果比较好的个性化推荐技术,而传统推荐方法要获得比较好的推荐效果,则必须要有丰富充足的历史数据,而直接将已有电子商务网站的数据照搬耗时耗力,并且照搬的数据也无法直接用于新网站,可操作性不高。
新建立的电子商务网站因数据稀少,冷启动而无法进行个性化推荐。迁移学习(Transfer Learning),即一种学习对另一种学习的影响,广泛的存在于知识、技能、态度和行为规范的学习中,迁移学习可以从现有的数据中迁移知识,用来帮助将来的学习,其目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。但迁移学习在电子商务网站之间的实际应用会遇到一些问题,比如迁移网站的什么内容,这些内容以什么样的形式存在,如何将这些内容迁移至其他系统等。
发明内容
本发明要解决的技术问题是:对于历史数据稀少的电子商务网站,由于缺少历史数据,无法对用户进行个性化推荐,直接照搬已有网站的数据耗时耗力,需要一种新的机器学习方法来解决历史数据稀少的网站冷启动问题,迁移学习方法虽然提出了新的机器学习理论,但如何具体应用到网站的冷启动上,还有待解决。
本发明的技术方案为:一种网站数据的获取及迁移使用方法,用于垂直电子商务网站,通过迁移学习将已有电子商务网站的历史数据信息迁移到其它电子商务网站,具体为:通过脚本采集已有电子商务网站的用户基本信息以及用户行为,由用户基本信息得到用户特征数据库,由所述已有电子商务网站的产品信息得到产品特征数据库,根据用户行为分析用户特征和产品特征的相关度,得到相关度矩阵,其它电子商务网站根据进入网站的用户基本信息,结合所述相关度矩阵,计算该用户与本电子商务网站产品的相关度,进行推荐。
本发明包括以下步骤:
1)对已有电子商务网站,通过JavaScript脚本收集用户基本信息,建立用户特征数据库,用户特征包括用户的国家、地区、城市、用户使用的计算机操作系统、浏览器以及语言、进入电子商务网站的方式及搜索过的关键字;
2)对已有电子商务网站,通过JavaScript脚本收集用户行为,建立用户的行为历史数据库,用户行为包括浏览和购买行为;
3)识别已有电子商务网站产品的特征,建立产品特征数据库,产品特征包括产品的类别、颜色、材质、规格和价位信息;
4)根据步骤1)的用户特征数据库建立用户特征矩阵U,用户特征矩阵U是一个u×m的矩阵,其中u为用户数,m为用户特征数,其中,若第k个用户包含第j个特征,则矩阵U的第k行第j个元素为1,否则为0;
5)根据步骤3)的产品特征数据库建立产品特征矩阵I,产品特征矩阵I是一个i×n的矩阵,其中i为产品数,n为产品特征数,其中,若第p个产品包含第q个特征,则矩阵I的第p行第q个元素为1,否则为0;
6)根据用户行为建立用户行为矩阵,用户行为矩阵A是一个u×i的矩阵,u为用户数,i为产品数,其中,该矩阵的第x行第y个元素表示第x用户对第y个产品的行为记录,设购买行为为2,浏览行为为1,没有任何行为记录的为0;
7)通过最优化方法计算用户特征与产品特征之间相关度,得到相关度矩阵W,W为一个m×n的矩阵,第s行第t个元素表示第s个用户特征和第t个产品特征的相关度,通过使U×W×IT与A中对应元素相减求平方和最小,使得U×W×IT和A最为接近,此时的W矩阵即为最优化结果;
8)将步骤7)获得的相关度矩阵W通过迁移学习的方式转移到其他电子商务网站系统中,通过新系统的用户特征矩阵U’,产品特征矩阵I’以及相关度矩阵W计算出新系统中用户对所有产品的相关度,然后按照相关度的高低对用户进行产品的推荐。
收集用户行为时,收集用户的点击,悬停,拖动行为。
建立用户行为矩阵时,用户的行为记录还包括用户浏览一个产品的时间、次数、或者是否收藏了此产品到收藏夹。
在本发明方法中,对原有历史数据密集的系统中用户特征和产品特征相关模式进行学习,此模式体现了用户的特征和产品特征之间的关系并以矩阵的形式存在,将此模式矩阵作为迁移学习的内容迁移至其他类似的由于历史数据不足无法进行有效推荐的系统中,实现有效的个性化推荐。
本发明无需对网站数据整体进行大规模迁移即可实现新网站的冷启动,解决了迁移学习如何应用在电子商务网站数据迁移中的问题。首先解决了应该迁移什么的问题,结合解决个性化推荐的冷启动问题,本发明提出了应该将历史数据密集的电子商务网站中用户特征和产品特征之间的关系迁移至其他数据稀疏的电子商务网站中;其次是如何获取用户特征和产品特征关系的问题,定义了用户和产品应该用哪些特征来描述,并用最优化的方法求解出用户特征和产品特征的关系矩阵。
本发明通过迁移学习的方式解决了数据稀疏网站因为冷启动问题而无法进行个性化推荐的问题,实验表明通过迁移学习的方式,在数据稀疏网站上进行推荐的效果能够接近原数据密集网站的推荐效果。
附图说明
图1为本发明的流程图。
具体实施方式
本发明用于垂直电子商务网站,通过迁移学习将已有电子商务网站的历史数据信息迁移到其它电子商务网站,如图1所述:通过脚本采集已有电子商务网站的用户基本信息以及用户行为,由用户基本信息得到用户特征数据库,由所述已有电子商务网站的产品信息得到产品特征数据库,根据用户行为分析用户特征和产品特征的相关度,得到相关度矩阵,其它电子商务网站根据进入网站的用户基本信息,结合所述相关度矩阵,计算该用户与本电子商务网站产品的相关度,进行推荐。
下面通过具体的实施例来说明本发明的实时,本发明按照如下步骤实施:
1)通过JavaScript脚本收集用户的基本信息,建立用户特征数据库;用户基本信息包括用户所处的国家、地区、城市,用户使用的系统、浏览器和语言,用户进入网站的方式,比如通过社交网站的链接,或者通过搜索引擎搜索进入,在使用搜索引擎时可以收集的可能使用的搜索关键字。
用户基本信息可用如下JavaScript脚本采集:
var x=navigator;
var Name=x.appName;//浏览器
var Platform=x.platform;//操作系统
varSystemLanguage=x.systemLanguage?x.systemLanguage:x.language;//系统语言
varRefer=
encodeURIComponent(encodeURIComponent(document.referrer));//访问方式
varStr=new Date();
var Date=Str.getTime();//时间
var country=geoip_country_name();//国家
var region=geoip_region_name();//地区
var city=geoip_city();//城市
比如收集到的一条用户信息如下:
(MSIE,Win32,Australia,Victoria,Footscray,www.bagsok.com,20110312);
2)通过JavaScript脚本收集用户的行为,建立用户的行为历史数据库;用户行为主要包括用户的浏览行为和下单购买行为。还可以通过收集用户的点击,悬停,拖动等更具体的行为来更好的区分用户对产品的喜好。
用户的访问行为可用如下JavaScript脚本采集:
var page=encodeURIComponent(encodeURIComponent(location.href));//用户浏览的网页的URI
通过记录用户去过那个产品的展示页面和购买页面,可以的到用户的浏览和购买历史记录;
3)识别产品的特征,建立产品数据库,包括产品的类别、颜色、材质、规格、价位等信息;
对产品数据库中的原始数据进行处理,得到类似如下的一条产品信息:
(Kingsons,Leisure,Men’s,$74.49,Nylon,Zip Closure,1340g);
4)根据收集的用户信息建立用户特征矩阵。用户特征矩阵U是一个u×m的矩阵,其中u为用户数,m为用户特征数。其中,若第k个用户包含第j个特征,则矩阵U的第k行第j个元素为1,即Ukj=1,否则为0;
5)根据收集的产品信息建立产品特征矩阵。产品特征矩阵I是一个i×n的矩阵,其中i为产品数,n为用户特征数。其中,若第p个产品包含第q个特征,则矩阵I的第p行第q个元素为1,即Ipq=1,否则为0;
6)根据用户的访问和购买信息,建立用户行为矩阵。用户行为矩阵A是一个u×i的矩阵,其中u为用户数,i为产品数。其中,该矩阵的第x行第y个元素表示第x用户对第y个产品的行为记录,设购买过为2,即Axy=2,浏览过为1,即Axy=1,没有任何记录的为0。如果收集到其他数据,例如用户浏览一个产品的时间,次数,或者收藏了此产品到收藏夹等,也可以分更多的层次来表示用户对产品的行为记录。
7)通过最优化方法计算用户特征与产品特征之间相关度。该相关度矩阵W为一个m×n的矩阵,第s行第t个元素表示第s个用户特征和第t个产品特征的相关度。通过使U×W×IT与A中对应元素相减求平方和最小,使得U×W×IT和A最为接近,此时的W矩阵即为最优化结果。
计算公式如下:
使得该公式结果最小的W矩阵即为最优化结果。
8)将步骤7)获得的相关度矩阵W通过迁移学习的方式转移到其他历史数据稀疏的电子商务网站系统中,通过新系统的用户特征矩阵U’,产品特征矩阵I’以及相关度矩阵W计算出新系统中用户对所有产品的相关度,然后按照相关度的高低对用户进行产品的推荐。应用的条件是,原系统和目标系统的用户和产品是类似的,可以抽象出相同的或者相近的属性特征。
用户和产品的相关度矩阵计算如下:
A’=U’×W×I’T,
其中A’的元素A’xy即为第x’个用户和第y’个产品的相关度,在对第x’个用户进行推荐时,选取和此用户相关度最高的N个产品进行推荐,实现网站的冷启动。
Claims (4)
1.一种网站数据的获取及迁移使用方法,用于垂直电子商务网站,其特征是通过迁移学习将已有电子商务网站的历史数据信息迁移到其它电子商务网站,具体为:通过脚本采集已有电子商务网站的用户基本信息以及用户行为,由用户基本信息得到用户特征数据库,由所述已有电子商务网站的产品信息得到产品特征数据库,根据用户行为分析用户特征和产品特征的相关度,得到相关度矩阵,其它电子商务网站根据进入网站的用户基本信息,结合所述相关度矩阵,计算该用户与本电子商务网站产品的相关度,进行推荐。
2.根据权利要求1所述的一种网站数据的获取及迁移使用方法,其特征是包括以下步骤:
1)对已有电子商务网站,通过JavaScript脚本收集用户基本信息,建立用户特征数据库,用户特征包括用户的国家、地区、城市、用户使用的计算机操作系统、浏览器以及语言、进入电子商务网站的方式及搜索过的关键字;
2)对已有电子商务网站,通过JavaScript脚本收集用户行为,建立用户的行为历史数据库,用户行为包括浏览和购买行为;
3)识别已有电子商务网站产品的特征,建立产品特征数据库,产品特征包括产品的类别、颜色、材质、规格和价位信息;
4)根据步骤1)的用户特征数据库建立用户特征矩阵U,用户特征矩阵U是一个u×m的矩阵,其中u为用户数,m为用户特征数,其中,若第k个用户包含第j个特征,则矩阵U的第k行第j个元素为1,否则为0;
5)根据步骤3)的产品特征数据库建立产品特征矩阵I,产品特征矩阵I是一个i×n的矩阵,其中i为产品数,n为产品特征数,其中,若第p个产品包含第q个特征,则矩阵I的第p行第q个元素为1,否则为0;
6)根据用户行为建立用户行为矩阵,用户行为矩阵A是一个u×i的矩阵,u为用户数,i为产品数,其中,该矩阵的第x行第y个元素表示第x用户对第y个产品的行为记录,设购买行为为2,浏览行为为1,没有任何行为记录的为0;
7)通过最优化方法计算用户特征与产品特征之间相关度,得到相关度矩阵W,W为一个m×n的矩阵,第s行第t个元素表示第s个用户特征和第t个产品特征的相关度,通过使U×W×IT与A中对应元素相减求平方和最小,使得U×W×IT和A最为接近,此时的W矩阵即为最优化结果;
8)将步骤7)获得的相关度矩阵W通过迁移学习的方式转移到其他电子商务网站系统中,通过新系统的用户特征矩阵U’,产品特征矩阵I’以及相关度矩阵W计算出新系统中用户对所有产品的相关度,然后按照相关度的高低对用户进行产品的推荐。
3.根据权利要求2所述的一种网站数据的获取及迁移使用方法,其特征是收集用户行为时,收集用户的点击,悬停,拖动行为。
4.根据权利要求2所述的一种网站数据的获取及迁移使用方法,其特征是建立用户行为矩阵时,用户的行为记录还包括用户浏览一个产品的时间、次数、或者是否收藏了此产品到收藏夹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102549359A CN102289509A (zh) | 2011-08-31 | 2011-08-31 | 一种网站数据的获取及迁移使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102549359A CN102289509A (zh) | 2011-08-31 | 2011-08-31 | 一种网站数据的获取及迁移使用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102289509A true CN102289509A (zh) | 2011-12-21 |
Family
ID=45335935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102549359A Pending CN102289509A (zh) | 2011-08-31 | 2011-08-31 | 一种网站数据的获取及迁移使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102289509A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365928A (zh) * | 2012-04-10 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种信息推荐方法及装置 |
CN103885987A (zh) * | 2012-12-21 | 2014-06-25 | 中国移动通信集团公司 | 一种音乐推荐方法和系统 |
CN105095305A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 一种个性化页面的生成方法及装置 |
CN105302880A (zh) * | 2015-10-14 | 2016-02-03 | 合一网络技术(北京)有限公司 | 内容关联推荐方法及装置 |
CN105404626A (zh) * | 2014-09-03 | 2016-03-16 | 阿里巴巴集团控股有限公司 | 一种类目上下游关系计算方法、类目推荐方法及对应装置 |
CN105446973A (zh) * | 2014-06-20 | 2016-03-30 | 华为技术有限公司 | 社交网络中用户推荐模型的建立及应用方法和装置 |
CN107103028A (zh) * | 2017-03-03 | 2017-08-29 | 北京小度信息科技有限公司 | 一种信息处理方法及装置 |
WO2018145637A1 (zh) * | 2017-02-08 | 2018-08-16 | 广州市动景计算机科技有限公司 | 上网行为记录方法、装置及用户终端 |
CN111800538A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 信息处理方法、装置、存储介质及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
US20100064040A1 (en) * | 2008-09-05 | 2010-03-11 | Microsoft Corporation | Content recommendations based on browsing information |
CN102073717A (zh) * | 2011-01-07 | 2011-05-25 | 南京大学 | 一种面向垂直电子商务网站的首页推荐方法 |
-
2011
- 2011-08-31 CN CN2011102549359A patent/CN102289509A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100064040A1 (en) * | 2008-09-05 | 2010-03-11 | Microsoft Corporation | Content recommendations based on browsing information |
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
CN102073717A (zh) * | 2011-01-07 | 2011-05-25 | 南京大学 | 一种面向垂直电子商务网站的首页推荐方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365928A (zh) * | 2012-04-10 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种信息推荐方法及装置 |
CN103365928B (zh) * | 2012-04-10 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种信息推荐方法及装置 |
CN103885987A (zh) * | 2012-12-21 | 2014-06-25 | 中国移动通信集团公司 | 一种音乐推荐方法和系统 |
CN105095305A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 一种个性化页面的生成方法及装置 |
CN105095305B (zh) * | 2014-05-20 | 2019-03-08 | 深圳市腾讯计算机系统有限公司 | 一种个性化页面的生成方法及装置 |
CN105446973B (zh) * | 2014-06-20 | 2019-02-26 | 华为技术有限公司 | 社交网络中用户推荐模型的建立及应用方法和装置 |
CN105446973A (zh) * | 2014-06-20 | 2016-03-30 | 华为技术有限公司 | 社交网络中用户推荐模型的建立及应用方法和装置 |
CN105404626B (zh) * | 2014-09-03 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种类目上下游关系计算方法、类目推荐方法及对应装置 |
CN105404626A (zh) * | 2014-09-03 | 2016-03-16 | 阿里巴巴集团控股有限公司 | 一种类目上下游关系计算方法、类目推荐方法及对应装置 |
CN105302880A (zh) * | 2015-10-14 | 2016-02-03 | 合一网络技术(北京)有限公司 | 内容关联推荐方法及装置 |
WO2018145637A1 (zh) * | 2017-02-08 | 2018-08-16 | 广州市动景计算机科技有限公司 | 上网行为记录方法、装置及用户终端 |
CN107103028A (zh) * | 2017-03-03 | 2017-08-29 | 北京小度信息科技有限公司 | 一种信息处理方法及装置 |
CN111800538A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 信息处理方法、装置、存储介质及终端 |
CN111800538B (zh) * | 2019-04-09 | 2022-01-25 | Oppo广东移动通信有限公司 | 信息处理方法、装置、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102289509A (zh) | 一种网站数据的获取及迁移使用方法 | |
CN103886074B (zh) | 基于社交媒体的商品推荐系统 | |
Liu et al. | A convolutional click prediction model | |
CN102629257B (zh) | 一种基于关键字的电子商务网站商品推荐方法 | |
CN110222272A (zh) | 一种潜在客户挖掘与推荐方法 | |
US20100161605A1 (en) | Context transfer in search advertising | |
CN109191240A (zh) | 一种进行商品推荐的方法和装置 | |
CN103353872B (zh) | 一种基于神经网络的教学资源个性化推荐方法 | |
CN104391883B (zh) | 一种基于迁移学习的在线广告受众排序方法 | |
CN102073717A (zh) | 一种面向垂直电子商务网站的首页推荐方法 | |
CN104268292A (zh) | 画像系统的标签词库更新方法 | |
CN104951518B (zh) | 一种基于动态增量更新的上下文推荐方法 | |
CN102542490A (zh) | 基于模型匹配的商品推荐方法 | |
CN103198118A (zh) | 一种商品网页回溯方法及系统 | |
CN106530017A (zh) | 一种网店优惠券自动获取和购物组合推荐的方法 | |
CN106682963A (zh) | 基于凸优化局部低秩矩阵近似的推荐系统数据补全方法 | |
Niu et al. | Product hierarchy-based customer profiles for electronic commerce recommendation | |
Duwairi et al. | An enhanced CBAR algorithm for improving recommendation systems accuracy | |
CN110717089A (zh) | 一种基于网络日志的用户行为分析系统及方法 | |
CN106484795A (zh) | 一种基于非结构化网页数据的兴趣推荐方法 | |
CN113822738A (zh) | 一种多维度农产品供需双向个性化推荐方法 | |
Jiang et al. | Mining e-commerce data to analyze the target customer behavior | |
KR20210106297A (ko) | 블록체인 결제 플랫폼 기반 유무선 광고 서비스 제공 시스템 | |
KR20210041733A (ko) | 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램 | |
Li et al. | Construction of multi-agent system for decision support of online shopping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111221 |