CN111143678B - 推荐系统和推荐方法 - Google Patents
推荐系统和推荐方法 Download PDFInfo
- Publication number
- CN111143678B CN111143678B CN201911374040.1A CN201911374040A CN111143678B CN 111143678 B CN111143678 B CN 111143678B CN 201911374040 A CN201911374040 A CN 201911374040A CN 111143678 B CN111143678 B CN 111143678B
- Authority
- CN
- China
- Prior art keywords
- category
- commodity
- user
- commodities
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种推荐系统和推荐方法。所述推荐系统包括:类别划分单元,用于将多个商品划分到至少一个类别;匹配度计算单元,用于针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的每个商品之间的匹配度;概率转换单元,用于针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;推荐单元,用于针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
Description
技术领域
本申请涉及数据挖掘领域,更具体地讲,涉及一种针对商品的推荐方法和推荐系统。
背景技术
现有的大多数商品推荐方式通常是根据用户的浏览历史或购买历史而向用户推荐用户购买或查看过的商品的同类商品。这样的商品推荐方式通常仅能够向用户推荐有限类别的商品。
而随着数据挖掘技术的发展以及机器学习算法的成熟,越来越多的公司开始构建自己的推荐系统,以求给不同的客户推荐定制化产品,扩大推荐范围,提升购买率,从而增加公司收入。
将机器学习应用到推荐系统中,通常需要提取“商品的特征”作为模型训练的一部分特征。但不同类型的商品通常不具有完全相同的特征,因此,当在众多不同类型的商品之中进行商品推荐时,传统的做法是将这些商品的特征全部拼接来构成商品的特征向量。当商品不具备特征向量中的某些特征时,将该商品的这些特征的特征值赋值为null。通常情况下,由于不同类别的商品具有不同的特征,因此当商品的类别较多时,商品的特征向量往往是一个非常稀疏的特征向量(这里,稀疏指的是该特征向量上的许多特征的取值为空或0)。
当特征向量过于稀疏时,在进行模型训练时不仅会增加模型的计算量,还会引入一些不必要的噪音。因此传统的推荐方法在商品种类较多的情况下很难取得理想的推荐结果。
因此,需要一种即使在商品类别繁多的情况下也能够准确地预测客户需求并实现相应商品推荐的方案。
以上信息仅作为背景信息被提供以用于帮助理解本公开。至于以上信息中的任何信息是否可作为针对本公开的现有技术适用,并未作出确定,并且也未作出任何声明。
发明内容
根据本公开的示例性实施例,提供了一种推荐系统,所述推荐系统包括:类别划分单元,用于将多个商品划分到至少一个类别;匹配度计算单元,用于针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的每个商品之间的匹配度;概率转换单元,用于针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;推荐单元,用于针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
针对所述至少一个类别中的每个类别,匹配度计算单元可通过使用该类别中的各商品的交易记录样本对第一模型进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度。
针对所述至少一个类别中的每个类别,概率转换单元可通过以各用户分别与该类别中的每个商品之间的匹配度为特征并以各用户是否对该类别中的各商品进行购买为标签对第二模型进行训练,并使用经过训练的第二模型来预测各用户购买该类别中的各商品的概率值。
类别划分单元可基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别,其中,商品特征向量中的特征可由所述多个商品中的每个商品的特征拼接构成。
类别划分单元可将所述多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别,其中,所述两个或更多个商品之间的特征相似度可指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
类别划分单元可基于所述多个商品中的每个商品的商品特征向量,通过聚类方法将所述多个商品划分到所述至少一个类别。
所述交易记录样本可包括正交易记录样本和负交易记录样本,其中,所述正交易记录样本是从与所述多个商品相关的交易记录数据获得的,所述负交易记录样本可以是基于所有用户以及所述多个商品生成的全部负交易记录样本之中的至少一些负交易记录样本。
所述预设的特征相似度阈值可以是预先设置的固定值或者是针对所述至少一个类别中的每个类别被分别设置的。类别划分单元可基于划分到每个类别中的商品数量调整与该类别对应的特征相似度阈值,并基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分。
根据本公开的另一示例性实施例,提供了一种推荐方法,所述方法包括:将多个商品划分到至少一个类别;针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的各商品之间的匹配度;针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
计算各用户分别与该类别中的各商品之间的匹配度的步骤可包括:针对所述至少一个类别中的每个类别,通过使用该类别中的各商品的交易记录样本对第一模型进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度。
将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值的步骤可包括:针对所述至少一个类别中的每个类别,通过以各用户分别与该类别中的每个商品之间的匹配度为特征并以各用户是否对该类别中的各商品进行购买为标签对第二模型进行训练,并使用经过训练的第二模型来预测各用户购买该类别中的各商品的概率值。
将多个商品划分到至少一个类别的步骤可包括:基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别,其中,商品特征向量中的特征可由所述多个商品中的每个商品的特征拼接构成。
将多个商品划分到至少一个类别的步骤可包括:将所述多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别,其中,所述两个或更多个商品之间的特征相似度可指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
将多个商品划分到至少一个类别的步骤可包括:基于所述多个商品中的每个商品的商品特征向量,通过聚类方法将所述多个商品划分到所述至少一个类别。
所述交易记录样本可包括正交易记录样本和负交易记录样本,其中,所述正交易记录样本是从与所述多个商品相关的交易记录数据获得的,所述负交易记录样本可以是基于所有用户以及所述多个商品生成的全部负交易记录样本之中的至少一些负交易记录样本。
所述预设的特征相似度阈值可以是预先设置的固定值或者是针对所述至少一个类别中的每个类别被分别设置的,并且将多个商品划分到至少一个类别的步骤还可包括:基于划分至每个类别中的商品数量调整与该类别对应的特征相似度阈值,并基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分。
根据本公开的另一示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如前所述的推荐方法。
根据本公开的另一示例性实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如前所述的推荐方法。
有益效果
通过应用根据本发明的示例性实施例的推荐方法和系统,能够有效提高推荐的准确度和效率,并减少对软硬件设备的计算性能需求。
附图说明
从下面结合附图进行的描述,本公开的特定实施例的以上和其他方面、特征和优点将更加清楚,其中:
图1是示出根据本公开的示例性实施例的推荐系统的框图;
图2是示出根据本公开的示例性实施例的推荐方法的流程图。
在整个附图中,应注意,相同的参考标号用于表示相同或相似的元件、特征和结构。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
图1是示出根据本公开的示例性实施例的推荐系统100的框图。
参照图1,推荐系统100可包括:类别划分单元110、匹配度计算单元120、概率转换单元130以及推荐单元140。
在本发明的示例性实施例中,所述类别划分单元110可将多个商品划分到至少一个类别。
这里,类别划分单元110可基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别。
在本发明的示例性实施例中,商品特征向量中的特征可由所述多个商品中的每个商品的特征拼接构成。仅作为示例,如果商品“甲”的特征为{A,B,C},商品“乙”的特征为{D,E,F},商品“丙”的特征为{G,H,I},则对上述商品“甲”、“乙”和“丙”进行类别划分时所使用的商品特征向量的特征是由商品“甲”、“乙”和“丙”各自的特征所拼接构成的{A,B,C,D,E,F,G,H,I}。此时,由于商品“甲”仅具有特征A、B和C,则商品“甲”的商品特征向量可以是[VA,VB,VC,Null,Null,Null,Null,Null,Null],类似地,商品“乙”的商品特征向量可以是[Null,Null,Null,VE,VF,VG,Null,Null,Null],而商品“丙”的商品特征向量可以是[Null,Null,Null,Null,Null,Null,VG,VH,VI]。VA、VB、VC、VD、VE、VF、VG、VH、VI分别是与特征A、B、C、D、E、F、G、H和I对应的特征值,Null表示商品不具有对应特征。
在本发明的示例性实施例中,类别划分单元110可将多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别。这里,两个或更多个商品之间的特征相似度指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
为更清楚地解释本申请,在下面的描述中将以表1的商品示例为代表来解释本申请的发明构思。
【表1】
在表1中,手机A、手机B、手机C、手机D、汽车A、汽车B和汽车C是商品的集合,屏幕大小、电池容量和价格是手机A、手机B、手机C和手机D的特征,而价格、百米加速和排量是汽车A、汽车B和汽车C的特征,表格中的各个具体值代表相应特征的特征值,而Null表示商品不具有相应特征。
仅作为示例,为便于计算商品之间的特征相似度,类别划分单元110可首先对表1中的各个商品的特征的特征值进行转换。具体地讲,当商品具有商品特征向量上的某个特征(即,特征值不为Null)时,类别划分单元110可将该商品在该特征上的特征值转换为1(或其他非零值),否则,设置为0。
由此,可得到如下的表2。
【表2】
类别划分单元110可基于表2来计算商品之间的特征相似度。例如,基于表2可计算出,手机A和手机B之间的特征相似度为1,而手机A与汽车A之间的特征相似度为0.2,等等。
在本发明的示例性实施例中,仅作为示例,可将彼此之间的特征相似度高于0.75的商品确定为同一类别的商品。由此,从上表可计算出,手机A、手机B、手机C与手机D中的任意两个之间的特征相似度为1,且汽车A、汽车B和汽车C中的任意两个之间的特征相似度为1,因此可将表1的商品划分为类别A{手机A、手机B、手机C、手机D},以及类别B{汽车A、汽车B、汽车C},如下表3所示:
【表3】
应该理解,尽管在上面将用于类别划分的特征相似度阈值统一设置为0.75,但本发明不限于此,还可考虑各种因素(例如,推荐准确度等)而将该阈值设置为其他值。可选择地,也可动态地设置特征相似度阈值,例如,可针对每种类别分别设置其各自的特征相似度阈值。此外,还可调整与每种商品类别对应的特征相似度阈值。具体地,在基于预设的特征相似度阈值完成类别划分之后,类别划分单元110可基于划分至每个类别中的商品数量(例如,基于划分至每个类别中的商品数量与预设数量的比较)调整与该类别对应的特征相似度阈值,然后基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分,例如,当某种类别的商品数量过多(或过少)时,可提高(或降低)与该类别对应特征相似度阈值的大小,使得该类别中的商品数量减少(或增加),一些商品被划分到其他类别(或另一些商品被划分入该类别),由此能够进一步提高运算效率以及推荐准确度。此外,当基于与特征相似度阈值的比较,一个商品可被划分到多个类别时,可将该商品最终划分为属于具有更高特征相似度的一个类别。
此外,尽管在上面通过计算出的特征相似度与特征相似度阈值的直接比较来划分商品类别,但本发明不限于此,还可使用各种其他划分方法。例如,类别划分单元110可基于商品的商品特征向量,用聚类的方法来将多个商品划分到至少一个类别。这里,可预先设置对商品进行划分的类别的数量,该数量可以是根据经验设置的,或者也可以是在经过试验之后确定的。或者,还可通过模型的训练和学习来对商品进行分类。
在对所有商品完成类别划分之后,匹配度计算单元120可分别针对每个类别的商品,计算各用户分别与该类别中的每个商品之间的匹配度。
具体地讲,针对每个类别的商品,匹配度计算单元120可通过使用该类别中的各商品的交易记录样本对第一模型(例如,GBDT(梯度提升决策树)模型)进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度。
为了便于解释,以下以上述类别A的商品为例来说明匹配度计算操作。
针对类别A中的商品,匹配度计算单元120可首先获得类别A中的各商品的相应交易记录数据,如以下的表4所示:
【表4】
用户id | 商品 |
1 | 手机A |
2 | 手机B |
2 | 手机C |
在表4中,用户id是各个用户的标识。表4的交易记录数据示出用户1购买过手机A,用户2购买过手机B和手机C,且关于手机D,没有交易记录(即,没有用户购买手机D的记录)。
基于表4中示出的交易记录数据,可得到3条正交易记录样本。这里,正交易记录样本表示具有实际购买记录的样本,可将其标签设置为1,如下的表5中所示。
【表5】
用户id | 商品 | 标签 |
1 | 手机A | 1 |
2 | 手机B | 1 |
2 | 手机C | 1 |
为了提高第一模型预测的准确度,还可增加对第一模型进行训练的样本数量。在本发明的示例性实施例中,可基于与商品相关的交易记录数据生成负交易记录样本(即,指示用户与商品之间未产生交易记录的样本),并选择(例如,随机选择)生成的负交易记录样本中的一些负交易记录样本与正交易记录样本一起由匹配度计算单元120对第一模型进行训练。
具体地讲,针对类别A的商品,可首先获得用户-商品笛卡尔集,如下表6所示:
【表6】
用户id | 商品 |
1 | 手机A |
1 | 手机B |
1 | 手机C |
1 | 手机D |
2 | 手机A |
2 | 手机B |
2 | 手机C |
2 | 手机D |
然后,为表6的每条记录添加关于交易记录的标签,可得到如下的表7:
【表7】
用户id | 商品 | 标签 |
1 | 手机A | 1 |
1 | 手机B | 0 |
1 | 手机C | 0 |
1 | 手机D | 0 |
2 | 手机A | 0 |
2 | 手机B | 1 |
2 | 手机C | 1 |
2 | 手机D | 0 |
在表7中,标签为0的交易记录样本即为所生成的负交易记录样本,指示用户没有购买对应商品。
一般来讲,当商品集合中所包括的商品的数量和类别很多时,由于大多用户通常仅购买过全部商品中的少量商品,因此所生成的负交易记录样本的数量会远大于正交易记录样本(例如,正交易记录样本与负交易记录样本的比例大约为1:50),使用全部的负交易记录样本对模型进行训练可能使得运算效率下降。因此,匹配度计算单元120可选择一些负交易记录样本(例如,与从交易记录数据获得的正交易记录样本的数量一样多数量的负交易记录样本,或者,当负交易记录样本的数量不够多时,则可选择全部的负交易记录样本)。然而,应该理解,所选择的用于模型训练的负交易记录样本的数量不限于上述数量,还可根据各种因素选择更多或更少的负交易记录样本。
在本发明的示例性实施例中,由于以上示例中的正负交易样本的数量较少且数量差别不大,因此在以下说明中,假设匹配度计算单元120选择表7示出的全部的正负交易记录样本来训练第一模型。
之后,匹配度计算单元120可使用经过训练的第一模型来预测各个用户(例如,用户1和用户2)与类别A中的每个商品之间的匹配度。
仅作为示例,假设对于类别A,使用经过训练的第一模型所预测出的用户与商品之间的匹配度可如下表8所示:
【表8】
用户id | 商品 | 标签 | 匹配度 |
1 | 手机A | 1 | 0.9 |
1 | 手机B | 0 | 0.5 |
1 | 手机C | 0 | 0.7 |
1 | 手机D | 0 | 0.8 |
2 | 手机A | 0 | 0.7 |
2 | 手机B | 1 | 0.8 |
2 | 手机C | 1 | 0.9 |
2 | 手机D | 0 | 0.2 |
从以上表8可看出,对于用户1,最匹配的商品依次为:手机A、手机D、手机C和手机B;而对于用户2,最匹配的商品依次为:手机C、手机B、手机A和手机D。
对类别B的商品应用以上类似的方法,可得如下表9所示使用经过训练的第一模型所预测出的用户与类别B的商品之间的匹配度:
【表9】
用户id | 商品 | 匹配度 |
1 | 汽车A | 0.8 |
1 | 汽车B | 0.6 |
1 | 汽车C | 0.9 |
2 | 汽车B | 0.6 |
2 | 汽车C | 0.8 |
2 | 汽车D | 0.7 |
由于在对第一模型进行训练时,考虑到运算效率的问题,可能并未使用全部的负交易样本,而是使用抽样出的一部分负交易记录样本来对第一模型进行训练。然而,一旦对样本进行抽样,训练的数据分布和实际的数据分布就会有不同,这会导致模型预测出来的用户-商品匹配度不能完全表现出用户购买商品的概率值,这样的匹配度只能在同类商品中得到一个相对排序(即,表现用户购买商品可能性大小的相对排序),这种相对排序无法在全部类别的商品下用来预测用户购买各个商品的概率值。
因此,在本发明的示例性实施例中,可通过概率转换单元130将用户与商品之间的匹配度映射为用户购买该商品的概率值。概率转换单元130可针对每个商品类别,将各用户与该类别中的各商品之间的匹配度转换为各用户购买该类别中的各商品的概率值。
仍以类别A为例进行说明,概率转换单元130可以以各用户(即,用户1和用户2)与类别A中的每个商品(即,手机C、手机B、手机A和手机D)之间的匹配度作为特征,并以各用户是否对类别A中的各商品进行购买作为标签,来获得用于对第二模型进行训练的样本数据,如下表10所示:
【表10】
概率转换单元130可使用这样得到的样本对第二模型进行训练,然后使用经过训练的第二模型来预测各用户购买类别A中的各商品的概率值。
在本发明的示例性实施例中,所述第二模型可以是逻辑回归(LR)模型,然而,应该理解,本发明的不限于此,还可使用各种其他分类模型来进行训练。
此外,在上述训练过程中,可使用全量的匹配度和标签数据(即,该类别下通过第一模型训练得到的全部匹配度及其对应标签)作为样本数据来对第二模型进行训练,这是因为匹配度和标签数据只有一个特征值,因此即使使用全量的匹配度和标签数据对第二模型进行训练,运算速度也不会很慢,并且可保证训练集和真实数据分布情况相同,由此能够将匹配度准确地映射为概率值。
在完成对第二模型的训练之后,可基于经过训练的第二模型获得从匹配度映射得到的概率值,例如,可获得如下表11所示的针对类别A中的各商品的购买概率值:
【表11】
用户id | 商品 | 标签 | 匹配度 | 概率值 |
1 | 手机A | 1 | 0.9 | 0.13 |
1 | 手机B | 0 | 0.5 | 0.07 |
1 | 手机C | 0 | 0.7 | 0.09 |
1 | 手机D | 0 | 0.8 | 0.11 |
2 | 手机A | 0 | 0.7 | 0.09 |
2 | 手机B | 1 | 0.8 | 0.11 |
2 | 手机C | 1 | 0.9 | 0.13 |
2 | 手机D | 0 | 0.2 | 0.01 |
以类似的方式,可获得用户购买类别B中的各个商品的概率值,如下表12所示:
【表12】
用户id | 商品 | 标签 | 匹配度 | 概率值 |
1 | 汽车A | 0 | 0.8 | 0.14 |
1 | 汽车B | 0 | 0.6 | 0.01 |
1 | 汽车C | 1 | 0.9 | 0.15 |
2 | 汽车A | 0 | 0.6 | 0.01 |
2 | 汽车B | 1 | 0.8 | 0.14 |
2 | 汽车C | 0 | 0.7 | 0.05 |
在按照如上方式针对各个类别的商品完成购买概率值的计算之后,推荐单元140可针对每个用户,对该用户购买所有类别中的各商品的概率值进行总体排序,并按照排序结果确定向该用户推荐的商品。
仅作为示例,为便于解释,仍以表1的用户和商品的示例为例进行说明。在如上获得所有用户(即,用户1和用户2)购买类别A中的各商品和类别B中的各商品的概率值(即,表11和表12示出的概率值)之后,可对所获得的所有概率值进行排序,获得如下的表13:
【表13】
按照表13示出的概率值排序,例如,当需要向各用户分别推荐3个商品时,可向用户1推荐汽车C、汽车A和手机A,而向用户2推荐汽车B、手机C和手机B。按照这种推荐方法,即使存在多种类别的大量商品,也能够在兼顾运算效率的情况下向用户提供准确的推荐结果。
图2是示出根据本发明的示例性的推荐方法的流程图。
参照图2,在步骤S210,可通过类别划分单元110将多个商品划分到至少一个类别。
在本发明的示例性实施例中,类别划分单元110可基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别。根据本发明的示例性实施例的商品特征向量中的特征可由所述多个商品中的每个商品的特征拼接构成。
具体来说,仅作为示例,类别划分单元110可将所述多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别。这里,所述两个或更多个商品之间的特征相似度指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
在本发明的示例性实施例中,所述预设的特征相似度阈值可以是预先设置的固定值,也可以是动态地设置的值。例如,可针对每种商品类别分别设置其各自的特征相似度阈值。此外,还可不断调整与每种商品类别对应的特征相似度阈值。具体地,在基于预设的特征相似度阈值完成类别划分之后,类别划分单元110可基于划分至每个类别中的商品数量(例如,基于划分至每个类别中的商品数量与预设数量的比较)调整与该类别对应的特征相似度阈值,然后基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分,例如,当某种类别的商品数量过多(或过少)时,可提高(或降低)与该类别对应特征相似度阈值的大小,使得该类别中的商品数量减少(或增加),一些商品被划分到其他类别(或另一些商品被划分入该类别),由此能够进一步提高运算效率以及推荐准确度。
此外,对商品进行类别划分的方法不限于上述与阈值直接比较的方法,还可使用其他各种方法进行类别划分。例如,类别划分单元110还可基于所述多个商品中的每个商品的商品特征向量,通过聚类方法将所述多个商品划分到所述至少一个类别。
在本发明的示例性实施例中,可预先设置对商品进行划分的类别的数量,该数量可以是根据经验设置的,或者也可以是在经过试验之后确定的。或者,还可通过模型的训练和学习来对商品进行分类。
在完成步骤S210的商品类别划分步骤之后,在步骤220,可通过匹配度计算单元120来针对每种商品类别,计算各用户分别与该类别中的各商品之间的匹配度。
在本发明的示例性实施例中,匹配度计算单元120可针对每种商品类别,通过使用该类别中的各商品的交易记录样本对第一模型进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度。所述交易记录样本可包括正交易记录样本和负交易记录样本,其中,正交易记录样本是从与所述多个商品相关的交易记录数据获得的,而负交易记录样本是基于所有用户以及所述多个商品生成的全部负交易记录样本之中的至少一些负交易记录样本。
之后,在步骤S230,可由概率转换单元130针对每种商品类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值。具体地,概率转换单元130可针对每种商品类别,通过以各用户分别与该类别中的每个商品之间的匹配度为特征并以各用户是否对该类别中的各商品进行购买为标签对第二模型进行训练,并使用经过训练的第二模型来预测各用户购买该类别中的各商品的概率值。
在本发明的示例性实施例中,在步骤S220中使用的第一模型可以是例如GBDT模型,而在步骤S230中使用的第二模型可以是LR模型。然而,应该理解,本申请不限于此,还可使用其他合适的模型来进行替换。
最后,在步骤S240,当进行商品推荐时,可由推荐单元140针对每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
前面已参照图1的各个示例更详细描了以上操作的具体实施,因此为了简明,再次将不再进行赘述。
以上已参照图1至图2描述了根据本公开的示例性实施例的推荐方法和推荐系统。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本申请的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:将多个商品划分到至少一个类别;针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的各商品之间的匹配度;针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;以及针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1至图2进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的推荐系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本申请示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:将多个商品划分到至少一个类别;针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的各商品之间的匹配度;针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;以及针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。
Claims (14)
1.一种推荐系统,所述推荐系统包括:
类别划分单元,用于将多个商品划分到至少一个类别;
匹配度计算单元,用于针对所述至少一个类别中的每个类别,计算各用户分别与该类别中的每个商品之间的匹配度;
概率转换单元,用于针对所述至少一个类别中的每个类别,将各用户与该类别中的各商品之间的匹配度转换为所述各用户购买该类别中的各商品的概率值;
推荐单元,用于针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品,
其中,
针对所述至少一个类别中的每个类别,匹配度计算单元通过使用该类别中的各商品的交易记录样本对第一模型进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度,并且
针对所述至少一个类别中的每个类别,概率转换单元通过以各用户分别与该类别中的每个商品之间的匹配度为特征并以各用户是否对该类别中的各商品进行购买为标签对第二模型进行训练,并使用经过训练的第二模型来预测各用户购买该类别中的各商品的概率值。
2.如权利要求1所述的推荐系统,其中,
类别划分单元基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别,
其中,商品特征向量中的特征由所述多个商品中的每个商品的特征拼接构成。
3.如权利要求2所述的推荐系统,其中,类别划分单元将所述多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别,
其中,所述两个或更多个商品之间的特征相似度指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
4.如权利要求2所述的推荐系统,其中,类别划分单元基于所述多个商品中的每个商品的商品特征向量,通过聚类方法将所述多个商品划分到所述至少一个类别。
5.如权利要求1所述的推荐系统,其中,所述交易记录样本包括正交易记录样本和负交易记录样本,
其中,所述正交易记录样本是从与所述多个商品相关的交易记录数据获得的,
其中,所述负交易记录样本是基于所有用户以及所述多个商品生成的全部负交易记录样本之中的至少一些负交易记录样本。
6.如权利要求3所述的推荐系统,其中,所述预设的特征相似度阈值是预先设置的固定值或者是针对所述至少一个类别中的每个类别被分别设置的,并且
其中,类别划分单元基于划分到每个类别中的商品数量调整与该类别对应的特征相似度阈值,并基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分。
7.一种推荐方法,所述方法包括:
将多个商品划分到至少一个类别;
针对所述至少一个类别中的每个类别,通过使用该类别中的各商品的交易记录样本对第一模型进行训练,并使用经过训练的第一模型来预测各用户分别与该类别中的每个商品之间的匹配度;
针对所述至少一个类别中的每个类别,通过以各用户分别与该类别中的每个商品之间的匹配度为特征并以各用户是否对该类别中的各商品进行购买为标签对第二模型进行训练,并使用经过训练的第二模型来预测各用户购买该类别中的各商品的概率值;
针对所述各用户中的每个用户,对该用户购买所有类别中的各商品的概率值进行排序,并按照排序结果确定向该用户推荐的商品。
8.如权利要求7所述的推荐方法,其中,将多个商品划分到至少一个类别的步骤包括:
基于所述多个商品中的每个商品的商品特征向量来将所述多个商品划分到所述至少一个类别,
其中,商品特征向量中的特征由所述多个商品中的每个商品的特征拼接构成。
9.如权利要求8所述的推荐方法,其中,将多个商品划分到至少一个类别的步骤包括:将所述多个商品之中的彼此之间的特征相似度高于预设的特征相似度阈值的两个或更多个商品划分到同一类别,
其中,所述两个或更多个商品之间的特征相似度指所述两个或更多个商品的商品特征向量中的相同非空特征的数量与商品特征向量中的特征的总数量之比。
10.如权利要求8所述的推荐方法,其中,将多个商品划分到至少一个类别的步骤包括:
基于所述多个商品中的每个商品的商品特征向量,通过聚类方法将所述多个商品划分到所述至少一个类别。
11.如权利要求7所述的推荐方法,其中,所述交易记录样本包括正交易记录样本和负交易记录样本,
其中,所述正交易记录样本是从与所述多个商品相关的交易记录数据获得的,
其中,所述负交易记录样本是基于所有用户以及所述多个商品生成的全部负交易记录样本之中的至少一些负交易记录样本。
12.如权利要求9所述的推荐方法,其中,所述预设的特征相似度阈值是预先设置的固定值或者是针对所述至少一个类别中的每个类别被分别设置的,并且
其中,将多个商品划分到至少一个类别的步骤还包括:
基于划分至每个类别中的商品数量调整与该类别对应的特征相似度阈值,并基于经过调整的各类别的对应特征相似度阈值来对所述多个商品再次进行类别划分。
13.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求7至12中的任一权利要求所述的方法。
14.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求7至12中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374040.1A CN111143678B (zh) | 2019-12-27 | 2019-12-27 | 推荐系统和推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374040.1A CN111143678B (zh) | 2019-12-27 | 2019-12-27 | 推荐系统和推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111143678A CN111143678A (zh) | 2020-05-12 |
CN111143678B true CN111143678B (zh) | 2023-10-17 |
Family
ID=70520822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911374040.1A Active CN111143678B (zh) | 2019-12-27 | 2019-12-27 | 推荐系统和推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143678B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914191B (zh) * | 2020-06-29 | 2023-09-19 | 长沙市到家悠享网络科技有限公司 | 一种目标排序方法、装置和设备 |
CN113032589B (zh) * | 2021-03-29 | 2024-01-23 | 北京奇艺世纪科技有限公司 | 多媒体文件推荐方法、装置、电子设备及可读存储介质 |
CN115935068B (zh) * | 2022-12-12 | 2023-09-05 | 杭州洋驼网络科技有限公司 | 互联网平台的商品推荐方法以及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009237891A (ja) * | 2008-03-27 | 2009-10-15 | Dainippon Printing Co Ltd | 商品推薦システム、サーバおよびプログラム |
CN102346894A (zh) * | 2010-08-03 | 2012-02-08 | 阿里巴巴集团控股有限公司 | 推荐信息的输出方法、系统及服务器 |
WO2012049987A1 (ja) * | 2010-10-12 | 2012-04-19 | 日本電気株式会社 | 商品推薦システムおよび商品推薦方法 |
JP2013089145A (ja) * | 2011-10-20 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 商品推薦装置及び方法及びプログラム |
CN109064285A (zh) * | 2018-08-02 | 2018-12-21 | 西北大学 | 一种获得商品推荐序列及商品推荐方法 |
CN109584006A (zh) * | 2018-11-27 | 2019-04-05 | 中国人民大学 | 一种基于深度匹配模型的跨平台商品匹配方法 |
CN110060090A (zh) * | 2019-03-12 | 2019-07-26 | 北京三快在线科技有限公司 | 推荐商品组合的方法、装置、电子设备及可读存储介质 |
CN110428295A (zh) * | 2018-08-01 | 2019-11-08 | 北京京东尚科信息技术有限公司 | 商品推荐方法和系统 |
-
2019
- 2019-12-27 CN CN201911374040.1A patent/CN111143678B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009237891A (ja) * | 2008-03-27 | 2009-10-15 | Dainippon Printing Co Ltd | 商品推薦システム、サーバおよびプログラム |
CN102346894A (zh) * | 2010-08-03 | 2012-02-08 | 阿里巴巴集团控股有限公司 | 推荐信息的输出方法、系统及服务器 |
WO2012049987A1 (ja) * | 2010-10-12 | 2012-04-19 | 日本電気株式会社 | 商品推薦システムおよび商品推薦方法 |
JP2013089145A (ja) * | 2011-10-20 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 商品推薦装置及び方法及びプログラム |
CN110428295A (zh) * | 2018-08-01 | 2019-11-08 | 北京京东尚科信息技术有限公司 | 商品推荐方法和系统 |
CN109064285A (zh) * | 2018-08-02 | 2018-12-21 | 西北大学 | 一种获得商品推荐序列及商品推荐方法 |
CN109584006A (zh) * | 2018-11-27 | 2019-04-05 | 中国人民大学 | 一种基于深度匹配模型的跨平台商品匹配方法 |
CN110060090A (zh) * | 2019-03-12 | 2019-07-26 | 北京三快在线科技有限公司 | 推荐商品组合的方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Application of Improved Clustering Algorithm in Commodity Diversity Recommendation;Xiaohan Zhang 等;《2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference(ITAIC)》;全文 * |
基于情境的商品个性化推荐方法研究;吕苗;《中国博士学位论文全文数据库(电子期刊)信息科技辑》;全文 * |
无监督的中文商品属性结构化方法;侯博议 等;《软件学报》(第2期);262-277 * |
Also Published As
Publication number | Publication date |
---|---|
CN111143678A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783454B2 (en) | Scalable-effort classifiers for energy-efficient machine learning | |
CN111143678B (zh) | 推荐系统和推荐方法 | |
CN111798273A (zh) | 产品的购买概率预测模型的训练方法及购买概率预测方法 | |
CN111523010A (zh) | 推荐方法、装置、终端设备及计算机存储介质 | |
CN110827112B (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
US8793201B1 (en) | System and method for seeding rule-based machine learning models | |
CN111783039B (zh) | 风险确定方法、装置、计算机系统和存储介质 | |
AU2019201241B2 (en) | Automated structuring of unstructured data | |
US11741956B2 (en) | Methods and apparatus for intent recognition | |
CN112330382B (zh) | 物品推荐方法、装置、计算设备和介质 | |
CN110135769B (zh) | 货品属性填充方法及装置、存储介质及电子终端 | |
US20230076083A1 (en) | Methods and apparatus for generating training data to train machine learning based models | |
CN112115710A (zh) | 一种行业信息识别方法及装置 | |
US11803889B2 (en) | Systems and methods for determining price bands and user price affinity predictions using machine learning architectures and techniques | |
CN111612385A (zh) | 一种对待配送物品进行聚类的方法和装置 | |
CN111026973B (zh) | 一种商品兴趣度预测方法、装置及电子设备 | |
CN112766995A (zh) | 物品推荐方法、装置、终端设备及存储介质 | |
CN111667208A (zh) | 一种物品存储控制方法、装置、设备及介质 | |
CN114492306A (zh) | 语料标注方法、装置、电子设备及存储介质 | |
CN113297479A (zh) | 一种用户画像生成方法、装置及电子设备 | |
CN117726843B (zh) | 商品识别方法、装置、电子设备及存储介质 | |
CN114661936B (zh) | 一种应用于工业视觉中的图像检索的方法及电子设备 | |
US20240095802A1 (en) | Systems and methods for providing customer-behavior-based dynamic enhanced order conversion | |
CN111309817B (zh) | 行为识别方法、装置及电子设备 | |
CN111382244B (zh) | 一种深度检索匹配分类方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |