CN113239268B

CN113239268B - 一种商品推荐方法、装置及系统

Info

Publication number: CN113239268B
Application number: CN202110474256.6A
Authority: CN
Inventors: 陈继钟; 霍颖瑜; 陈勇辉; 许可; 杨祥槟; 李治辉
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2023-04-07
Anticipated expiration: 2041-04-29
Also published as: CN113239268A

Abstract

本发明涉及数据处理技术领域，具体涉及一种商品推荐方法、装置及系统，所述方法包括：获取预先收集的历史商品信息，从所述历史商品信息中提取待切分中文句，根据待切分中文句建立商品的特征词表；确定与用户行为关联的商品，获取所述商品的商品信息，根据所述特征词表删除所述商品信息中不属于所述特征词表的特征词，得到所述商品的商品特征项；基于所述商品特征项建立用户画像信息表，从所述用户画像信息表中的特征项序列中筛选出特征序列，作为该用户的用户画像；基于目标用户的用户画像确定目标用户的近邻用户，从近邻用户的列表区中确定目标用户的商品推荐列表，本发明能够缓解数据稀疏问题，降低计算规模，提高商品推荐的时效性。

Description

一种商品推荐方法、装置及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种商品推荐方法、装置及系统。

背景技术

目前主要的推荐技术主要有：基于内容推荐，协同过滤推荐，基于关联规则推荐，基于效用推荐，基于知识推荐和组合推荐。

传统的推荐算法依赖于用户的评分，对于大型的商务网站来说，由于用户和产品的数量都很庞大，用户评分商品一般不超过产品总数的1％，两个用户共同评分的产品少之又少，数据稀疏问题影响着推荐的质量。

其次，在对目标用户进行相似度匹配时，当用户数量庞大时，产生的计算规模过大，不能提供实时高效的推荐结果。

因此，有必要对现有的商品推荐方式进行改进，避免或弥补现有推荐技术中的弱点。

发明内容

本发明目的在于提供一种商品推荐方法、装置及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为了实现上述目的，本发明提供以下技术方案：

一种商品推荐方法，所述方法包括以下步骤：

步骤S100、获取预先收集的历史商品信息，从所述历史商品信息中提取待切分中文句，根据所述待切分中文句建立商品的特征词表；

步骤S200、确定与用户行为关联的商品，获取所述商品的商品信息，根据所述特征词表删除所述商品信息中不属于所述特征词表的特征词，得到所述商品的商品特征项；

步骤S300、基于所述商品特征项建立用户画像信息表，其中，所述用户画像信息表包括列表区和特征项序列，所述列表区包括每个商品的商品标识和商品权重，所述特征项序列为所述列表区中全部商品权重的集合；

步骤S400、从所述用户画像信息表中的特征项序列中筛选出特征序列，作为该用户的用户画像；

步骤S500、基于目标用户的用户画像确定目标用户的近邻用户，从所述近邻用户的列表区中确定目标用户的商品推荐列表。

进一步，步骤S100中，所述根据所述待切分中文句建立商品的特征词表包括：

步骤S110、取待切分中文句的m个字符作为待匹配字段，将所述待匹配字段与词典进行查找匹配，将匹配成功的待匹配字段作为一个词切分出来；其中，m为词典中最长词条的字符数；

步骤S120、将匹配不成功的待匹配字段的最后一个字去掉，将所述待匹配字段中剩下的字符串作为新的匹配字段，对所述新的匹配字段进行再次匹配，直到所述待匹配字段中的所有字段均完成匹配；

步骤S130、将全部切分得到的词形成词表，将所述词表与预先设置的停用词表进行遍历匹配，将所述词表中匹配到的词进行删除，得到有效词表；

步骤S140、采用TF-IDF算法确定所述有效词表中每个词的词频，将所述有效词表中词频较高的词删掉，得到商品的特征词表。

进一步，所述步骤S300包括：

步骤S310、对所述商品的商品特征项赋予行为权重，得到商品权重，基于目标商品的商品标识和商品权重建立列表区；

步骤S320、基于所述列表区中全部商品权重的集合建立特征项序列；

步骤S330、基于所述列表区和特征项序列建立用户画像信息表。

进一步，所述步骤S400包括：

步骤S410、将所述用户画像信息表中的特征项序列转换为向量，确定所述特征项序列中每个商品特征项的权重；

步骤S420、对所述特征项序列中的所有商品特征项分别进行权重赋值，得到所有商品特征项的权值；

步骤S430、从所有商品特征项中选取权值最大的N个商品特征项，作为目标用户的特征序列，用于表示该目标用户的用户画像。

进一步，所述步骤S500包括：

步骤S510、将所有用户的用户画像划分为多个分类簇；

步骤S520、基于目标用户的用户画像，从目标用户所在的分类簇中求得多个最近邻用户；从所述多个最近邻用户的列表区中确定目标用户的推荐列表。

进一步，所述步骤S510包括：

步骤S511、设所有用户的用户画像组成的用户画像集为D，D＝(D₁，D₂，D_i，…，D_p)，在用户画像集D中随机设定k个初始质心点S，S＝(S₁，S₂，S_j，…，S_k)，根据所述k个初始质心点对所述用户画像集D进行簇分配，其中，p为用户的总数；

步骤S512、当任意一个初始质心点的簇分配结果发生改变时，计算每个初始质心点与所述用户画像集中的每个用户画像之间的距离，将所述用户画像分配到距离最近的初始质心点所在的簇；

步骤S513、将每个簇中所有用户画像的均值更新为该簇的质心点，直至目标函数达到最小，所述目标函数为：

其中，D_i为用户画像集D中的第i个用户画像，Sj为第j个质心点。

进一步，所述步骤S520包括：

步骤S521、确定目标用户的用户画像所在的簇中的K个最近邻用户；

步骤S522、分别确定K个最近邻用户的特征序列中TF-IDF值最大的商品特征项，得到K个商品特征项MAX_K；

步骤S523、从所述K个最近邻用户的列表区中寻找有商品特征项存在于所述K个商品特征项MAX_K中的商品，作为推荐商品，将所述推荐商品的商品标识进行记录，得到所述目标用户的推荐列表。

一种商品推荐装置，所述装置包括：

信息预处理模块，用于获取预先收集的历史商品信息，从所述历史商品信息中提取待切分中文句，根据所述待切分中文句建立商品的特征词表；

商品特征项确定模块，用于确定与用户行为关联的商品，获取所述商品的商品信息，根据所述特征词表删除所述商品信息中不属于所述特征词表的特征词，得到所述商品的商品特征项；

用户画像信息表建立模块，用于基于所述商品特征项建立用户画像信息表，其中，所述用户画像信息表包括列表区和特征项序列，所述列表区包括每个商品的商品标识和商品权重，所述特征项序列为所述列表区中全部商品权重的集合；

用户画像建立模块，用于从所述用户画像信息表中的特征项序列中筛选出特征序列，作为该用户的用户画像；

商品推荐模块，用于基于目标用户的用户画像确定目标用户的近邻用户，从所述近邻用户的列表区中确定目标用户的商品推荐列表。

一种计算机可读存储介质，所述计算机可读存储介质上存储有商品推荐程序，所述商品推荐程序被处理器执行时实现如上述任意一项所述的商品推荐方法的步骤。

一种商品推荐系统，所述终端包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一项所述的商品推荐方法。

本发明的有益效果是：本发明公开一种商品推荐方法、装置及系统，本发明通过自然语言领域的方法来处理商品信息，并通过用户的行为和所述商品信息来构建用户的画像，不涉及用户评分，可以缓解数据稀疏造成的商品推荐质量下降的问题；在进行商品推荐时，先使用户聚类，让相似的用户聚在一个簇中，不需要在所有用户中一一查找最近邻，只需在用户所在的簇中寻找即可。如此可以大大减少计算的规模，提高寻找的效率，实现高效寻找最近邻并做出商品推荐。本发明能够缓解数据稀疏问题，降低计算规模，提高商品推荐的时效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中商品推荐方法的流程示意图；

图2是本发明实施例中商品推荐系统的结构框图。

具体实施方式

以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本申请的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参考图1，如图1所示为本申请实施例提供的一种商品推荐方法，所述方法包括以下步骤：

其中，所述用户行为包括以下至少一种：浏览行为，收藏行为，购买行为；

作为上述实施例的改进，步骤S100中，所述根据所述待切分中文句建立商品的特征词表包括：

在一些实施例中，采用从左向右的方式依次取待切分中文句的m个字符作为匹配字段，作为商品信息的匹配字段，一般取m＝3；

在一些实施例中，若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。例如，将“一件宽松的九分裤”切分成“宽松”“九分裤”。

本实施例中，通过对所述待切分中文句进行分词和去停用词，以建立商品的特征词表；在一些实施例中，所述停用词包括“吧、啊、呢、地、的”；代词“我、你、他”；数词、量词、副词、介词、连词、感叹词等。

在一些实施例中，利用现有的购物平台的商品信息，通过一系列处理得到商品的特征词表，特征词表就是一部商品属性词典，包含商品的常有属性。在确定特征词表后，根据特征词表删除本平台商品信息中不属于特征词表的特征词，从而进一步减少商品的特征词，加快确定目标用户的近邻用户。

下面给出一个确定商品特征项的具体示例的步骤：

1、提取某购物平台商品信息：

利用URL获取指定网页的超文本文件并保存到本地；

利用urllib.request模块处理指定网页的URL，获得本地txt格式的文本文件；其中，所述文本文件包括指定网页的所有文本信息。

2、特征词提取：

运用TF-IDF算法筛选掉所述文本文件中词频更高的词语，得到指定网页中所有商品的特征词。

在一些实施例中，假设文档中总共有1000个特征词，其中，特征词“黑色”出现5次、“大的”出现20次，总共有100份文档，其中包含“黑色”的有30份文档，包含“大的”的有10份文档，具体统计结果为：

黑色：TF＝5/1000＝0.005IDF＝log(100/(30+1))大概为0.51；

大的：TF＝20/1000＝0.02IDF＝log(100/(10+1))大概为0.95；

黑色：TF-IDF＝0.005*0.51＝0.00255；

大的：TF-IDF＝0.02*0.95＝0.019；

从计算的结果可以看出，“黑色”比“大的”的TF-IDF小，如果对文档选择关键词，则选择“黑色”，筛选掉与商品特征无关的词语之后得出新文本t1.txt，其中已经包含指定网页中所有商品的特征词。

3、储存特征词：

将每一个指定网页中的特征词储存到目标数据库中，作为商品的特征词表。

在一些实施例中，实时获取的商品信息经过预处理后得到一些特征词，这些特征词通过已建好的特征词表的筛选，过滤掉一些不在特征词表中的特征词，得到最终的商品特征项。从而进一步减少商品信息的特征词，加快用户画像的相似度计算。如表1所示，本实施例中，还建立有所述商品的商品信息表，所述商品信息表包括所述商品的商品标识、商品信息和商品特征项；

表1：商品信息表：

作为上述实施例的改进，所述步骤S300包括：

本实施例中，首先获取与所述用户行为关联的商品，根据用户行为，在目标商品加入到用户画像信息表的列表区之前对所述目标商品赋予商品权重；其中，所述用户画像信息表包括列表区和特征项序列；所述列表区包括商品的编码item_id和每个商品的商品权重Q_Clear_word；特征项序列为所述列表区中全部商品权重Q_Clear_word的集合。在一实施例中，浏览行为的权重为J，收藏行为的权重为K，购买行为的权重为L，其中，J、K、L∈N*，N*表示正自然数集。

例如，商品001被A用户浏览，在商品001加入A用户的用户画像信息表之前，商品001的商品特征项为Clear_word，对商品特征项Clear_word经过权值计算之后，对目标商品赋予的商品权重Q_Clear_word＝Clear_word*J＝[[W₁，W₂，…，W_n]*J]]；建立的用户画像信息表如表2所示。

表2：用户画像信息表：

作为上述实施例的改进，所述步骤S400包括：

步骤S410、确定所述特征项序列中每个商品特征项的权重；

其中，所述用户画像信息表中的特征项序列表示为Segment＝S(W₁，W₂，…，W_n)，其中，每个所述特征项序列中包含n个商品特征项，W_k表示第k个商品特征项，1≤k≤n。

本实施例中，每个商品特征项都对应一个权重，所述特征项序列采用商品特征项与权重来表示，即S(W₁，Q₁；W₂，Q₂；……W_n，Q_n)，简记为S(W₁，W₂，…，W_n)，其中Q_k就是W_k的权重；根据特征项序列S(W₁，W₂，…，W_n)对所有商品特征项分别进行权重赋值，便于后续通过VSM模型将所述特征项序列表示为向量。本实施例中，所述特征项序列在VSM模型中被形式化为一个向量，所述特征项序列中每个商品特征项的权重通过TF-IDF算法计算得到。

本实施例中，需要将所述用户画像信息表中的特征项序列转换为向量，则有N＝m×n；其中，m表示特征序列的总数，n表示每个所述特征项序列中包含的商品特征项，N表示全部特征项的总数，1≤i≤m，1≤j≤n；

作为上述实施例的改进，商品特征项的权重计算公式为：

其中，n_j表示特征项序列中包含商品特征项j的特征序列数，tf_ij表示商品特征项j在特征序列i中出现的频率，W_ij表示特征序列i中商品特征项j的权重。

本实施例中，选取权值最大的N个商品特征项，重新组成该用户的特征序列，用于表示该用户的画像，目标用户的画像表示为Icon(W₁，W₂，……，W_n)。

作为上述实施例的改进，所述步骤S500包括：

步骤S510、将所有用户的用户画像划分为多个分类簇；

作为上述实施例的改进，所述步骤S510包括：

本实施例提供的目标函数表示k个簇中所有用户画像与该簇的质心点的距离之和，所述目标函数是非凸优化函数，会收敛于局部最优解；该函数有非唯一个局部最优点，当时初始质心点取值不同的时候，最终的聚类效果也不一样。

作为上述实施例的改进，所述距离的计算公式为：

其中，W_1k为特征序列D₁中商品特征项的权重，W_1k为特征序列D₂中商品特征项的权重。

本实施例中，当特征项序列通过VSM模型表示为向量之后，两个特征序列的距离通过以上公式来求得。

作为上述实施例的改进，所述步骤S520包括：

作为上述实施例的改进，所述步骤S521包括：

确定目标用户所在的簇人数是否≤K，若是，则该目标用户的最近邻为该用户所在簇中的所有其他用户；若否，确定该目标用户与簇中其他用户的相似度sim(i，j)；

对计算得到的相似度排序，取相似度最大的K个用户作为该目标用户的K-最近邻用户。

作为上述实施例的改进，所述方法还包括：

根据用户画像中特征序列的长度确定所述特征序列的衰减周期，以所述衰减周期对所述特征序列中的全部商品特征项进行衰减；

当所述特征序列中的商品特征项衰减到0时，将该商品特征项移出用户画像中的特征序列。

考虑到不同用户的活跃度不一样，所以，因人而异，不同用户画像中商品特征项的衰减周期X有所差异。衰减周期X根据用户活跃度确定，用户越活跃衰减周期X越大。用户的活跃度根据用户画像中特征序列的长度L来衡量，特征序列的长度L越长说明该用户经常浏览收藏商品，可以说明该用户比较活跃。

作为上述实施例的改进，所述衰减周期的计算公式如下：

X＝3.2L₀ ^-0.13；

L₀＝L-L_min；

其中，X为衰减周期，L为用户画像中特征项序列的长度，Lmin为特征项序列的最小长度，L₀＞0。

本实施例中，Lmin为一个预先设定的阈值，L为变量，当L＝Lmin时不再进行周期衰减。

在一个实施例中，对于用户i，计算得到其衰减周期为Xi，即Xi天之后对该用户的所有商品特征项数量进行减一衰减，然后再次计算衰减周期，重复上述操作就完成了模拟用户兴趣迁移的过程。当然，一直衰减下去，也会使得一些本来就已经完全不感兴趣的商品特征项数目可能衰减到0，这时就可以把该商品特征项移出用户画像特征序列。

参考图2，与图1的方法相对应，本发明实施例还提供一种商品推荐装置，所述装置包括：

信息预处理模块100，用于获取预先收集的历史商品信息，从所述历史商品信息中提取待切分中文句，根据所述待切分中文句建立商品的特征词表；

商品特征项确定模块200，用于确定与用户行为关联的商品，获取所述商品的商品信息，根据所述特征词表删除所述商品信息中不属于所述特征词表的特征词，得到所述商品的商品特征项；

用户画像信息表建立模块300，用于基于所述商品特征项建立用户画像信息表，其中，所述用户画像信息表包括列表区和特征项序列，所述列表区包括每个商品的商品标识和商品权重，所述特征项序列为所述列表区中全部商品权重的集合；

用户画像建立模块400，用于从所述用户画像信息表中的特征项序列中筛选出特征序列，作为该用户的用户画像；

商品推荐模块500，用于基于目标用户的用户画像确定目标用户的近邻用户，从所述近邻用户的列表区中确定目标用户的商品推荐列表。

作为上述实施例的改进，所述装置还包括衰减模块，所述衰减模块用于：

与图1的方法相对应，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有商品推荐程序，所述商品推荐程序被处理器执行时实现如上述任意一实施例所述的商品推荐方法的步骤。

与图1的方法相对应，本发明实施例还提供一种商品推荐系统，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一实施例所述的商品推荐方法。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

所述处理器可以是中央处理单元(Central-Processing-Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor，DSP)、专用集成电路(Application-Specific-Integrated-Circuit，ASIC)、现场可编程门阵列(Field-Programmable-Gate-Arr ay，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述商品推荐系统的控制中心，利用各种接口和线路连接整个商品推荐系统可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述商品推荐系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart-Media-Card，SMC)，安全数字(Secure-Digital，SD)卡，闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本申请的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求，考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本申请的预定范围。此外，上文以发明人可预见的实施例对本申请进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本申请的非实质性改动仍可代表本申请的等效改动。

Claims

1.一种商品推荐方法，其特征在于，所述方法包括以下步骤：

步骤S500、基于目标用户的用户画像确定目标用户的近邻用户，从所述近邻用户的列表区中确定目标用户的商品推荐列表；

其中，步骤S100中，所述根据所述待切分中文句建立商品的特征词表包括：

步骤S110、取待切分中文句的c个字符作为待匹配字段，将所述待匹配字段与词典进行查找匹配，将匹配成功的待匹配字段作为一个词切分出来；其中，c为词典中最长词条的字符数；

步骤S140、采用TF-IDF算法确定所述有效词表中每个词的词频，将所述有效词表中词频较高的词删掉，得到商品的特征词表；

所述步骤S300包括：

步骤S330、基于所述列表区和特征项序列建立用户画像信息表；其中，所述用户画像信息表包括列表区和特征项序列；所述列表区包括商品的编码item_id和每个商品的商品权重Q_Clear_word；特征项序列为所述列表区中全部商品权重Q_Clear_word的集合；其中，浏览行为的权重为J，收藏行为的权重为K，购买行为的权重为L，其中，J、K、L∈N*，N*表示正自然数集；

所述步骤S400包括：

步骤S410、确定所述特征项序列中每个商品特征项的权重；

步骤S430、从所有商品特征项中选取权值最大的N个商品特征项，作为目标用户的特征序列，用于表示该目标用户的用户画像；其中，所述用户画像信息表中的特征项序列表示为Segment＝S(W₁，W₂，…，W_n)，其中，每个所述特征项序列中包含n个商品特征项，W_t表示第t个商品特征项，1≤t≤n；每个商品特征项都对应一个权重，所述特征项序列采用商品特征项与权重来表示，即S(W₁，Q₁；W₂，Q₂；……W_n，Q_n)，简记为S(W₁，W₂，…，W_n)，其中Q_t是W_t的权重；N＝m×n；其中，m表示特征序列的总数，n表示每个所述特征项序列中包含的商品特征项，N表示全部特征项的总数，1≤i≤m，1≤j≤n；

商品特征项的权重计算公式为：

其中，n_j表示特征项序列中包含商品特征项j的特征序列数，tf_ij表示商品特征项j在特征序列i中出现的频率，W_ij表示特征序列i中商品特征项j的权重；

选取权值最大的N个商品特征项，重新组成该用户的特征序列，用于表示该用户的画像，目标用户的画像表示为Icon(W₁，W₂，……，W_n)；

所述步骤S500包括：

步骤S510、将所有用户的用户画像划分为多个分类簇；

步骤S520、基于目标用户的用户画像，从目标用户所在的分类簇中求得多个最近邻用户；从所述多个最近邻用户的列表区中确定目标用户的推荐列表；

所述步骤S510包括：

其中，D_i为用户画像集D中的第i个用户画像，Sj为第j个质心点；

所述步骤S520包括：

步骤S523、从所述K个最近邻用户的列表区中寻找有商品特征项存在于所述K个商品特征项MAX_K中的商品，作为推荐商品，将所述推荐商品的商品标识进行记录，得到所述目标用户的推荐列表；

所述步骤S521包括：

对计算得到的相似度排序，取相似度最大的K个用户作为该目标用户的K-最近邻用户；

所述方法还包括：

当所述特征序列中的商品特征项衰减到0时，将该商品特征项移出用户画像中的特征序列；所述衰减周期的计算公式如下：

X＝3.2L₀ ^-0.13；

L₀＝L-L_min；

2.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1所述的商品推荐方法的步骤。

3.一种商品推荐系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1所述的商品推荐方法。