CN113722443A

CN113722443A - 一种融合文本相似度和协同过滤的标签推荐方法和系统

Info

Publication number: CN113722443A
Application number: CN202111059171.8A
Authority: CN
Inventors: 张灿; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-11-30
Anticipated expiration: 2041-09-10
Also published as: CN113722443B

Abstract

本发明公开了一种融合文本相似度和协同过滤的标签推荐方法，其特征在于，包括步骤一：生成标签知识库；步骤二：物品标签映射得到物品标签相似度矩阵；步骤三：计算用户标签相似度矩阵；步骤四：计算物品协同相似矩阵和用户协同相似矩阵；步骤五：计算用户对物品的兴趣预测评分。标签推荐系统能直观捕捉用户对物品标签属性的偏好，加强了推荐系统的可解释性，与协同过滤结合补充了推荐的发散性、多样性和合理性，能达到更准确地为用户推荐其感兴趣的物品，提高平台的用户粘性的效果。

Description

一种融合文本相似度和协同过滤的标签推荐方法和系统

技术领域

本发明涉及电子商务和信息技术领域，特别是涉及一种融合文本相似度和协同过滤的标签推荐方法和系统。

背景技术

推荐系统能够帮人们在面临海量信息时快速找到需要的物品。目前的推荐系统常用技术有基于内容的推荐、基于协同过滤的推荐、深度学习推荐等。基于内容的推荐算法中，标签推荐算法是一种能对用户兴趣进行建模的实用性算法，用户通过打标签标记自己喜好的物品类型，系统推荐与标签相符的物品给用户。其缺陷在于获取标签的过程通常是显性的，一般由用户主动标记，因而标签数量较少，不能较全面覆盖用户偏好，且难捕捉用户通过行为表现出的隐式偏好。另一方面，标签的文字表述样式繁杂，不易管理。推荐系统常采用协同过滤算法根据用户历史行为计算物品相似度矩阵、用户相似度矩阵进行个性化推荐，这种算法能根据用户隐式行为偏好进行推荐，但缺少建模用户对物品内容属性偏好的直接考量。而深度学习推荐算法能通过模型学习用户和物品的代理向量，通过向量运算实现高效的大规模物品推荐，但其可解释性不强，且用户与物品交互矩阵非常稀疏，很难解决冷启动问题。

因此，需要一种可解释性强，能提供直观的解释的完整、实用性强且高性能的标签推荐方法和系统

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种融合文本相似度和协同过滤的标签推荐方法和系统。

为解决上述技术问题，本发明提供一种融合文本相似度和协同过滤的标签推荐方法，其特征在于，包括如下步骤：

步骤一：生成标签知识库；对数据库中全部物品的文本内容进行新词发现，获取指定数量的关键词,所述文本内容包括标题、详情描述，所述关键词是描述物品关键属性的业务术语，对于每个所述的关键词，筛选包含该关键词的物品，对筛选后的物品的文本内容进行文本聚类，通过文本聚类发掘包含该关键词的相似标签词，所述相似标签词组成标签知识库，其中包含若干类知识，每条知识的形式为[标准标签，相似标签1,…,相似标签k]，其中，所述标准标签为所有相似标签中共现频率最高的词语，所述相似标签为该类知识中除标准标签以外的其他相似标签词；

步骤二：物品标签映射得到物品标签相似度矩阵；具体为：基于标签知识库训练深度学习的句向量模型，将文本内容中每一个句子都输入句向量模型得到内容向量，计算内容向量与标签知识库中每条标签的向量的余弦相似度，选择余弦相似度最高的标签所对应的标准标签作为物品的标签；每个物品被映射到至少一个标签；基于tf-idf算法计算物品与全量标准标签的tf-idf权值，得到物品标签相似度，构成物品标签相似度矩阵，所述物品标签相似度矩阵是一个N_prods行T列的矩阵，所述N_prods是指所有物品的数量，T等于标签知识库中所有标准标签的数量；

步骤三：计算用户标签相似度矩阵；基于数据库中用户历史行为记录构建用户行为偏好矩阵，构建用户标签相似度矩阵为行为评分与物品标签相似度矩阵的乘积，所述用户标签相似度矩阵中的第i个值为用户与单个标准标签i的相似度。

步骤四：计算物品协同相似矩阵和用户协同相似矩阵；所述物品协同相似矩阵的计算方法为：对所有物品，计算两两之间的第一相似度和第二相似度的加权平均值；所述用户协同相似矩阵的计算方法为：计算两两用户标签相似度矩阵向量的余弦相似度；

步骤五：计算用户对物品的兴趣预测评分，所述兴趣预测评分为行为兴趣评分、用户协同评分和物品协同评分三者的融合；所述行为兴趣评分的计算方法为：用户标签相似度矩阵乘以物品标签相似度矩阵的转置；所述用户协同评分是指根据用户协同相似矩阵匹配与当前用户最相似的指定数量用户，计算这批用户的用户行为偏好矩阵的加权平均值；所述物品协同评分是指对行为兴趣评分中得0分的物品，根据物品协同相似矩阵补充评分，使其评分大于0。

所述步骤一中，还包括：新词发现方法采用信息熵与互信息算法将物品的全部文本内容作为输入后进行计算获取指定数量的关键词，所述文本聚类还包括进行文本聚类后得到指定数量的子类,每一个子类中包含指定数量的语义相似的文本内容,将聚类结果表示为[keyword_i,subclass₁,…,subclass_n],所述聚类结果中的subclass_i的形式为[text₁,text₂,…,text_k]，对subclass_i中所有text进行词语共现分析，将词频最高的词语作为标准标签，所有text作为相似标签，并组成一条知识[标准标签，相似标签1,…,相似标签k]。

所述步骤二中，所述物品标签映射还包括如下步骤：将标签知识库作为训练语料，训练样本为[text_j,label_j]，其中text_j是标签知识库中的相似标签j，label_j是对应的标准标签，训练句向量模型；对于所有物品的每条文本内容，都输入句向量模型，得到内容向量，计算每一个内容向量Context_i与标签知识库中所有相似标签对应的向量的余弦相似度，选择余弦相似度最高且高于指定阈值的相似标签，所述相似标签所对应的标准标签作为该内容向量Context_i的映射，每一个内容向量Context_i将被映射为一个标准标签tag_z，一个物品prod_i将被映射为不定数量的标准标签[tag₁,tag₂,…,tag_z]；所述基于tf-idf算法计算物品与全量标签的tf-idf权值，得到物品标签相似度的过程为：W_prodi,tagi＝Freq(tag_i)*log(N_prods/N_{prod_contain_tagi})，其中，W_prodi,tagi代表物品prod_i关于标准标签tag_i的权重，Freq(tag_i)指物品prod_i中标准标签tag_i出现的频率，N_{prod_contain_tagi}是指包含标准标签tag_i的物品总数，所述物品标签相似度矩阵中的元素值为对应tf-idf权值。

所述步骤三中，在用户行为偏好矩阵中，没有交互过的物品i的评分为：behavior_scores[i]＝0，交互过的物品j评分为：behavior_scores[j]＝∑timedecay(prod_i,behavior_k)，其中，behavior_k代表第k种交互行为，所述物品j评分等于该物品经过不同交互行为加权和时间衰减后的分数总和，所述时间衰减的函数的定义如下：timedecay(prod_i,behavior_k)＝1*behavior_weight_k×e^-t*rate,其中behavior_weight_k代表第k种交互行为的权重，t是交互行为的距今天数，rate是代表时间衰减速率的一个常数。

所述步骤四中，计算物品协同相似矩阵具体为：计算所有物品两两之间的第一相似度，所述第一相似度是物品标签相似度矩阵的两两行向量之间的余弦相似度；计算所有物品两两之间的第二相似度,所述第二相似度为：

将所有物品两两之间的第一相似度值和第二相似度值分别归一化后加权平均，得到物品协同相似矩阵。

所述步骤四中，所述第一相似度构成一个N_prods行N_prods列的矩阵，其中，sim[i,j]是指物品i与物品j之间的标签余弦相似度，sim[i,j]＝cosine(P2T[i],P2T[j])；所述第二相似度也构成一个N_prods行N_prods列的矩阵，其中，

N_i是购买物品i的用户集合，N_j是购买物品j的用户集合；N_i∩N_j是同时购买物品i和物品j的用户数，N_i×N_j是购买物品i和物品j的用户数的乘积；第一相似度和第二相似度通过归一化函数进行转换，所述归一化函数为：score′＝(score+min*p-min)/(max-min),p＝max^1/3，其中min和max分别是sim和cf中的最小值和最大值，得到元素值sim′和cf′；物品协同相似矩阵的计算方法为：ItemCollab＝w1×sim′+w2×cf′,其中w1是sim′的自定义权重，w1是cf′的自定义权重；计算待推荐用户的用户协同相似矩阵，具体为计算待推荐用户的用户标签相似度矩阵和第i个用户的用户标签相似度矩阵的向量余弦相似度，得到待推荐用户与n个用户中第i个用户的相似度：UserCollab_1×n[i]＝cosine(U2T,U2Tⁱ)。

所述步骤五中，所述用户协同评分计算过程包括：基于用户协同相似矩阵中记录当前用户向量与其他用户向量的余弦相似度，对相似度进行从大到小排序，截取前topk个相似度分值，得到user_similarity_1×topk，以及前topk个相似度分值所对应用户的行为评分behavior_scores_topk×nprods，用户协同评分的计算公式为：UCP＝user_similarity×behavior_scores，所述物品协同评分的计算过程具体为：对每一个行为兴趣评分等于0的物品，通过物品协同相似矩阵的行向量余弦相似度运算，得到该0分物品与其他物品的相似度矩阵，记为sim_matrix，所述sim_matrix是一个1行N_prods列的矩阵，其中，sim_matrix[j]代表该0分物品与第j个物品的相似度，对行为兴趣评分与sim_matrix.T的乘积的总和值a进行约束，得到：a’＝_min_*min(score,0.99999)，将行为兴趣评分的矩阵中的0分修改为补充评分a’，得到物品协同评分的矩阵，所述用户对所有物品的兴趣预测评分公式为：Prediction＝w^ucp×UCP+w^uap×UAP，w代表自定义权重。

一种融合文本相似度和协同过滤的标签推荐系统，其特征在于，其特征在于，包括四个独立模块：标签生成模块、预处理模块、缓存模块和运算模块，所述四个独立模块共同连接调度模块，所述调度模块用于统筹并决定独立模块的执行顺序；

所述标签生成模块，用于从物品的文本内容中智能抽取标签信息，构建标签体系，其中包括：聚类子模块、知识库子模块、标签映射子模块；所述聚类子模块用于新词的发现和聚类；所述知识库子模块用于维护标签知识库；所述标签映射子模块用于执行映射逻辑；

所述预处理模块，用于提前对物品和用户的数据进行预处理；其中包括：物品预处理子模块、用户预处理子模块；所述物品预处理子模块负责运算物品标签映射物品标签相似度矩阵、物品协同矩阵和物品上架下架状态；所述用户预处理子模块负责运算用户的用户标签相似度矩阵和用户行为偏好矩阵；

所述运算模块，用于执行用户协同相似矩阵和用户协同评分的运算过程；

所述缓存模块，用于将预处理模块生成的数据缓存到数据库中；

所述调度模块，用于统筹推荐过程，将标签生成模块、预处理模块、运算模块、缓存模块所定义的执行逻辑进行串联，实现从接收待推荐命令到生成推荐列表的完整过程；其中包括实施推荐调度子模块和预处理调度子模块；所述实施推荐调度子模块接收待推荐命令后，从缓存库中提取缓存数据，随后执行运算模块获得推荐列表，将推荐列表反馈给推荐结果接收者；所述预处理调度子模块负责每天执行定时任务包括执行标签生成模块保存标签知识库，执行预处理模块并缓存数据的任务。

本发明所达到的有益效果:标签推荐系统能直观捕捉用户对物品标签属性的偏好，加强了推荐系统的可解释性，与协同过滤结合补充了推荐的发散性、多样性和合理性，能更准确地为用户推荐其感兴趣的物品，提高平台的用户粘性。

附图说明

图1为本发明的示例性实施例中一种标签推荐方法的流程示意图；

图2为本发明的示例性实施例中一种标签推荐系统的结构示意图。

具体实施方式

本发明针对标签推荐算法缺乏隐式兴趣建模和协同过滤算法缺少内容特征建模的问题进行了方法设计。物品标签映射机制通过用户隐式行为捕捉用户对标签的潜在偏好，并基于标签文本相似度改进了协同过滤中相似度矩阵计算过程。此外，针对标签表述繁杂，需要归一化的问题，运用关键词聚类算法自动聚类相似标签，建立标签知识库，运用文本相似度算法将多样化的物品内容映射成标准标签。针对深度学习模型可解释性不强的问题，标签推荐算法能提供直观的解释，即根据用户感兴趣的标签推荐具备这些标签的物品。最后，本发明将标签推荐算法和推荐实施过程模块化，形成一套完整、实用性强、高性能的推荐系统。

可能涉及到的对应的中英文技术术语包括但不限于：物品标签相似度矩阵P2T、用户标签相似度矩阵U2T、用户行为偏好矩阵behavior_scores、物品协同相似矩阵ItemCollab、用户协同相似矩阵UserCollab、第一相似度sim、第二相似度cf、向量Context、行为兴趣评分U2P、用户协同评分UCP、物品协同评分UAP、关键词keywords。

本发明提供一种融合文本相似度和协同过滤的标签推荐方法，包括如下步骤：

步骤二：物品标签映射得到物品标签相似度矩阵；具体为：基于标签知识库训练深度学习的句向量模型，将文本内容中每一个句子都输入句向量模型得到内容向量，计算内容向量与标签知识库中每条标签的向量的余弦相似度，选择余弦相似度最高的标签所对应的标准标签作为物品的标签；每个物品有若干句文本描述内容，因此每个物品被映射到至少一个标签；基于tf-idf算法计算物品与全量标准标签的tf-idf权值，得到物品标签相似度，构成物品标签相似度矩阵P2T，所述物品标签相似度矩阵P2T是一个N_prods行T列的矩阵，所述N_prods是指所有物品的数量，T等于标签知识库中所有标准标签的数量；

步骤三：计算用户标签相似度矩阵；基于数据库中用户历史行为记录构建用户行为偏好矩阵behavior_scores，构建用户标签相似度矩阵为行为评分与物品标签相似度矩阵P2T的乘积：U2T＝behavior_scores×P2T，所述U2T中的第i个值为用户与单个标准标签i的相似度。

步骤四：计算物品协同相似矩阵和用户协同相似矩阵；所述物品协同相似矩阵ItemCollab的计算方法为：对所有物品，计算两两之间的第一相似度sim和第二相似度cf的加权平均值；所述用户协同相似矩阵UserCollab的计算方法为：计算两两用户标签相似度矩阵U2T向量的余弦相似度；

步骤五：计算用户对物品的兴趣预测评分，所述兴趣预测评分为行为兴趣评分、用户协同评分和物品协同评分三者的融合；所述行为兴趣评分的计算方法为：用户标签相似度矩阵U2T乘以物品标签相似度矩阵P2T的转置，U2P＝U2T×P2T.T，所述P2T.T是指P2T矩阵的转置矩阵；所述用户协同评分UCP是指根据用户协同相似矩阵UserCollab匹配与当前用户最相似的指定数量用户，计算这批用户的用户行为偏好矩阵behavior_scores的加权平均值；所述物品协同评分UAP是指对U2P中得0分的物品，根据物品协同相似矩阵ItemCollab补充评分，使其评分大于0。

所述步骤一中，还包括：新词发现方法采用信息熵与互信息算法将物品的全部文本内容作为输入后进行计算获取指定数量的关键词keywords，所述文本聚类还包括进行文本聚类后得到指定数量的子类,每一个子类中包含指定数量的语义相似的文本内容,将聚类结果表示为[keyword_i,subclass₁,…,subclass_n],所述聚类结果中的subclass_i的形式为[text₁,text₂,…,text_k]，对subclass_i中所有text进行词语共现分析，将词频最高的词语作为标准标签，所有text作为相似标签，并组成一条知识[标准标签，相似标签1,…,相似标签k]。

所述步骤二中，所述物品标签映射还包括如下步骤：将标签知识库作为训练语料，训练样本为[text_j,label_j]，其中text_j是标签知识库中的相似标签j，label_j是对应的标准标签，训练句向量模型；对于所有物品的每条文本内容，都输入句向量模型，得到内容向量Context，由于一个物品具有标题和多个属性描述，一个物品将获得多个内容向量Context，计算每一个内容向量Context_i与标签知识库中所有相似标签对应的向量的余弦相似度，选择余弦相似度最高且高于指定阈值的相似标签，所述相似标签所对应的标准标签作为该内容向量Context_i的映射，每一个内容向量Context_i将被映射为一个标准标签tag_z，一个物品prod_i将被映射为不定数量的标准标签[tag₁,tag₂,…,tag_z]；所述基于tf-idf算法计算物品与全量标签的tf-idf权值，得到物品标签相似度的过程为：W_prodi,tagi＝Freq(tag_i)*log(N_prods/N_{prod_contain_tagi}),其中，W_prodi,tagi代表物品prod_i关于标准标签tag_i的权重，Freq(tag_i)指物品prod_i中标准标签tag_i出现的频率，N_{prod_contain_tagi}是指包含标准标签tag_i的物品总数所述物品标签相似度矩阵P2T中的元素值为对应tf-idf权值。

所述步骤三中，在用户行为偏好矩阵中，没有交互过的物品i的评分为behavior_scores[i]＝0，交互过的物品j评分behavior_scores[j]＝∑timedecay(prod_i,behavior_k)，其中，behavior_k代表第k种交互行为，所述物品j评分等于该物品经过不同交互行为加权和时间衰减后的分数总和，所述时间衰减的函数的定义如下：timedecay(prod_i,behavior_k)＝1*behavior_weight_k×e^-t*rate,其中behavior_weight_k代表第k种交互行为的权重，t是交互行为的距今天数，rate是代表时间衰减速率的一个常数。

所述步骤四中，计算物品协同相似矩阵ItemCollab，具体为：计算所有物品两两之间的第一相似度sim，所述第一相似度sim是P2T矩阵的两两行向量之间的余弦相似度；计算所有物品两两之间的第二相似度cf,所述

将所有物品两两之间的sim值和cf值分别归一化后加权平均后得到物品协同相似矩阵ItemCollab。

所述步骤四中，所述第一相似度sim构成一个N_prods行N_prods列的矩阵，其中sim[i,j]是指物品i与物品j之间的标签余弦相似度，sim[i,j]＝cosine(P2T[i],P2T[j])；所述第二相似度cf也构成一个N_prods行N_prods列的矩阵，其中

N_i是购买物品i的用户集合，N_j是购买物品j的用户集合；N_i∩N_j是同时购买物品i和物品j的用户数，N_i×N_j是购买物品i和物品j的用户数的乘积；将第一相似度sim和第二相似度cf中的每个元素值通过归一化函数score′＝(score+min*p-min)/(max-min),p＝max^1/3进行转换变为sim′和cf′，其中min和max分别是sim和cf中的最小值和最大值；ItemCollab＝w1×sim′+w2×cf′,其中w1是sim′的自定义权重，w1是cf′的自定义权重；计算待推荐用户的用户协同相似矩阵，UserCollab_1×n[i]＝cosine(U2T,U2Tⁱ),具体为计算待推荐用户的用户标签相似度矩阵U2T和第i个用户的用户标签相似度矩阵U2T的向量余弦相似度，得到待推荐用户与n个用户中第i个用户的相似度。

所述步骤五中，所述用户协同评分UCP计算过程包括：基于用户协同相似矩阵UserCollab中记录当前用户向量与其他用户向量的余弦相似度，对相似度进行从大到小排序，截取前topk个相似度分值，得到user_similarity_1×topk，以及前topk个相似度分值所对应用户的行为评分behavior_scores_topk×nprods，计算公式为UCP＝user_similarity×behavior_scores所述物品协同评分UAP的计算过程具体为：对每一个行为兴趣评分等于0的物品，通过物品协同相似矩阵ItemCollab的行向量余弦相似度运算得到该0分物品与其他物品的相似度矩阵sim_matrix，其中sim_matrix是一个1行N_prods列的矩阵，sim_matrix[j]代表该0分物品与第j个物品的相似度，将行为兴趣评分u2p*sim_matrix.T后的总和值a进行约束a’＝_min_*min(score,0.99999)，将U2P矩阵中的0分修改为补充评分a’，得到UAP矩阵，所述用户对所有物品的兴趣预测评分公式为：Prediction＝w^ucp×UCP+w^uap×UAP，w代表自定义权重。

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本发明公开一种融合文本相似度和协同过滤的标签推荐算法，包括：

步骤S1，生成标签知识库；所述S1中，标签知识库生成还包括如下步骤：(1)采用信息熵与互信息的新词发现算法将物品的全部文本内容作为输入，发掘并筛选出一批重要的描述物品特征的关键词短语keywords。(2)通过关键词短语抽取出包含该关键词的文本内容，进行文本聚类后得到若干子类,每一个子类中包含若干语义相似的文本内容,根据文本聚类结果判定，聚在同一个子类的文本内容自然都是语义相似的，将聚类结果表示为[keyword,subclass₁,…,subclass_n],subclass_i的形式为[text₁,text₂,…,text_k]。(3)对subclass_i中的所有text进行词语共现分析，将词频最高的词语作为标准标签，其余text作为相似标签，组成标签知识库中的一类知识即[标准标签,相似标签₁,相似标签₂,…,相似标签_k]。

具体地，物品有标题、功能描述、背景介绍等文本内容，这些文本内容通常包含一些代表该物品特征的关键词，关键词通常较为新颖难以被分词工具识别，运用新词发现算法可以发掘这些关键词，然后找到包含该关键词的句子。由于关键词的词义模糊性和可拓展性，不能简单将包含某关键词的句子视为一类，而是进行聚类，将包含同一关键词的句子通过聚类划分成若干子类，对词语进行词语共现分析后，将词频最高的词语作为标准标签，将子类中句子作为相似标签，形成一条由[标准标签,相似标签₁,相似标签₂,…,相似标签_k]组成的知识。如关键词“扩香器”通过聚类和词语共现分析会得到标准标签为“车载扩香器”,“床头扩香器”这样的子类，“床头扩香器”子类下的文本句子如“卧室助眠床头扩香器”,“香薰机床头扩香器”将作为相似标签，保存到知识库中。若其他产品其标题为“扩香器卧室家用”，则会通过文本相似度算法判断该产品具有“床头扩香器”的标签。

步骤S2：物品标签映射，得到物品标签相似度矩阵；所述S2中，物品标签映射的步骤是：将知识库作为训练语料，训练样本为[text_j,label_j]其中text_j是知识库中的相似标签j，label_j是对应的标准标签，训练Bert句向量模型。对于所有物品的每条内容，都输入句向量模型，得到内容向量，由于一个物品具有标题和多个属性描述，一个物品将获得多个内容向量Context，对每一个内容向量Context_i与知识库中所有相似标签对应的向量计算余弦相似度,选择余弦相似度最高且高于阈值的相似标签所对应标准标签作为该Context_i的映射，即每一个Context_i将被映射为一个标准标签tag_z,一个物品将被映射为若干个标准标签prod_iVS[tag₁,tag₂,…,tag_z]。所述基于tf-idf算法计算物品与全量标签的标签相似度过程如下：W_prodi,tagi＝Freq(tag_i)*log(N_prods/N_{prod_contain_tagi}),

W_prodi,tagi代表prod_i关于tag_i的权重，Freq(tag_i)指prod_i中tag_i出现的频率，N_prods是指所有物品的数量，N_{prod_contain_tagi}是指包含tag_i的物品总数。具体地，一个“香薰机”物品的标题、详情描述通过标签映射后可得[香薰机,扩香器,超声波,蓝牙音乐]等标准标签，其权重分别为[0.4,0.1,0.2,0.3]，代表对应标签对该物品的重要性。

进一步，所述物品标签相似度矩阵P2T是一个N_prods行T列的矩阵，T等于标签知识库中所有标准标签的数量。P2T是一个由标签相似度结果转换得到的one-hot矩阵，具体地，假设所有标签有200个，一个“香薰机”物品的P2T’矩阵是[0.4,0.1,0.2,0.3,0,0,0,…,0]。

步骤S3：计算用户标签相似度矩阵；所述S3中，所述用户行为偏好矩阵behavior_scores的步骤如下：(1)behavior_scores是一个代表用户对所有物品的行为偏好的矩阵，用户对没有交互过的物品i的偏好值为behavior_scores[i]＝0，对交互过的物品j偏好值behavior_scores[j]＝∑timedecay(prod_i,behavior_k),behavior_k代表第k种交互行为，即物品j评分等于该物品经过不同交互行为加权和时间衰减后的分数总和。

(2)timedecay即时间衰减函数的定义如下：timedecay(prod_i,behavior_k)＝1*behavior_weight_k×e^-t*rate,其中behavior_weight_k代表第k种交互行为的权重，t是指交互行为距今多久时间，rate是一个常数代表时间衰减速率。

计算完behavior_scores后，将该矩阵乘以所述步骤二中的P2T矩阵得到用户标签相似度矩阵U2T。

具体地，用户有浏览、收藏、购买等行为，假设物品j被用户1小时前和100小时前浏览过2次，1小时前收藏1次，则用户对物品j的行为评分为浏览行为得分与收藏行为得分之和。假设浏览行为和收藏行为的权重behavior_weight_k都为1，经过时间衰减函数，1小时前的浏览行为和收藏行为从原始1分衰减为0.9分，100小时前的行为分数衰减为0.1分。因此用户对物品j的交互评分behavior_scores^j＝0.9+0.9+0.1＝1.9。

步骤S4，计算物品协同相似矩阵ItemCollab，分三步：(1)根据标物品标签相似度矩阵计算第一相似度sim,sim是一个N_prods行N_prods列的矩阵。sim[i,j]＝cosine(P2T[i],P2T[j])。(2)根据传统协同过滤算法计算第二相似度cf。cf也是一个N_prods行N_prods列的矩阵。

N_i是购买i的用户集合，N_j是购买j的用户集合。N_i∩N_j是同时购买i和j的用户数，N_i×N_j是购买i和j的用户数的乘积。(3)将sim和cf中的每个元素值通过归一化函数f(score)＝(score+min*p-min)/(max-min),p＝max^1/3进行转换变为sim′和cf′，其中min和max分别是sim和cf中的最小值和最大值。ItemCollab＝w1×sim′+w2×cf′,其中w1是sim′的自定义权重，w1是cf′的自定义权重。然后计算用户协同相似矩阵UserCollab，待推荐用户的UserCollab_1×n[i]＝cosine(U2T,U2Tⁱ),即当前用户与n个用户中第i个用户的相似度为当前用户的U2T和第i个用户的U2T向量的余弦相似度。

步骤S5：计算用户对物品的兴趣预测评分；所述S5中，用户对所有物品的兴趣预测评分计算分为四个步骤：(1)所述用户协同评分UCP的计算过程为：UserCollab中记录了用户对指定数量的其他用户的相似度，将相似度值从大到小排序后截取前topk个分值得到user_similarity_1×topk，找到前topk个分值所对应用户的behavior_scores_topk×nprods，计算公式UCP＝user_similarity×behavior_scores。(2)所述行为兴趣评分U2P，令U2P＝U2T×T2P(P2T的转置)。(3)所述物品协同评分UAP。先获取U2P中得0分物品的索引indexes＝[i,j,…,m]，对indexes中的每一个索引，提取ItemCollab中对应索引行如ItemCollab[i]作为相似度权重sim_matrix,令a＝U2P×sim_matrix.T,对a值进行如下约束：a’＝_min_*min(a,0.99999),_min_代表u2p值得非0最小值。循环将indexes中所有索引的补充评分a’都填入U2P对应位置后得到新的评分矩阵UAP。例如U2P＝[0.9,0.4,0,0]代表用户对后两个物品不感兴趣。对最后一个物品，其sim_matrix为[0.5,0.8,0.3,1]代表它与这四个物品的相似度，计算a＝0.9*0.5+0.4*0.8+0*0.3+0*1＝0.77,a’＝0.4*min(0.77,0.99999)＝0.308,最终UAP矩阵为[0.9,0.4,0.308,0.3]，代表对0值产品也有一个基于物品协同思想的补充分值，且不会超过用户本身的兴趣分值。(4)所述将UCP与UAP进行加权融合得到最终评分Prediction是指令Prediction＝w^ucp×UCP+w^uap×UAP，w代表自定义权重。

如图2所示，本发明公开一种融合文本相似度和协同过滤的标签推荐系统，主要包括：标签生成模块、预处理模块、运算模块、缓存模块、调度模块。

所述标签生成模块，用于海量从物品文本内容中智能抽取标签信息，构建标签体系，主要包括：聚类子模块、知识库子模块、标签映射子模块。聚类子模块即所述步骤S1中(1)、(2)步对应的新词发现、聚类过程。知识库子模块维护所述步骤S1(3)中形成的知识库。标签映射子模块执行所述步骤S2中的映射逻辑。

所述预处理模块，用于提前对客户端数据库中的物品和用户数据进行预处理，生成便于推荐算法运算的数据流并存入缓存模块，从而加速推荐运算过程。主要包括：物品预处理子模块、用户预处理子模块。物品预处理子模块负责运算物品标签映射P2T矩阵，物品协同矩阵ItemCollab，物品上架下架状态等。用户预处理子模块负责运算大批量用户的behavior_scores和U2T，便于运算模块快速计算UserCollab和UCP。

所述运算模块，用于执行步骤S3、步骤S4、步骤S5中的运算过程。

所述缓存模块，用于将预处理模块生成的数据缓存到缓存库中，便于运算模块直接调用。

所述调度模块，用于统筹推荐过程，将标签生成模块、预处理模块、运算模块、缓存模块所定义的执行逻辑进行串联，实现从客户端接收命令到生成推荐列表的完整过程。包括实施推荐调度子模块和预处理调度子模块。实施推荐调度子模块接收命令后，从缓存库中提取缓存数据，随后执行运算模块获得推荐列表，将推荐列表反馈给客户端。预处理调度子模块负责每天执行定时任务包括执行标签生成模块保存标签知识库，执行预处理模块和缓存模块等任务。

本发明主要用于提供一种融合文本相似度和协同过滤的标签推荐方法和系统。该方法和系统能直观捕捉用户对物品标签属性的偏好，加强了推荐系统的可解释性，与协同过滤结合补充了推荐的发散性、多样性和合理性，能更准确地为用户推荐其感兴趣的物品，提高平台的用户粘性，能够高效准确的完成挖掘用户潜在兴趣并推荐感兴趣商品的任务。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：包括如下步骤：

步骤三：计算用户标签相似度矩阵；基于数据库中用户历史行为记录构建用户行为偏好矩阵，构建用户标签相似度矩阵为行为评分与物品标签相似度矩阵的乘积，所述用户标签相似度矩阵中的第i个值为用户与单个标准标签i的相似度；

2.如权利要求1所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：所述步骤一中，还包括：新词发现方法采用信息熵与互信息算法将物品的全部文本内容作为输入后进行计算获取指定数量的关键词，所述文本聚类还包括进行文本聚类后得到指定数量的子类,每一个子类中包含指定数量的语义相似的文本内容,将聚类结果表示为[keyword_i,subclass₁,…,subclass_n],所述聚类结果中的subclass_i的形式为[text₁,text₂,…,text_k]，对subclass_i中所有text进行词语共现分析，将词频最高的词语作为标准标签，所有text作为相似标签，并组成一条知识[标准标签，相似标签1,…,相似标签k]。

3.如权利要求2所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：所述步骤二中，所述物品标签映射还包括如下步骤：将标签知识库作为训练语料，训练样本为[text_j,label_j]，其中text_j是标签知识库中的相似标签j，label_j是对应的标准标签，训练句向量模型；对于所有物品的每条文本内容，都输入句向量模型，得到内容向量，计算每一个内容向量Context_i与标签知识库中所有相似标签对应的向量的余弦相似度，选择余弦相似度最高且高于指定阈值的相似标签，所述相似标签所对应的标准标签作为该内容向量Context_i的映射，每一个内容向量Context_i将被映射为一个标准标签tag_z，一个物品prod_i将被映射为不定数量的标准标签[tag₁,tag₂,…,tag_z]；所述基于tf-idf算法计算物品与全量标签的tf-idf权值，得到物品标签相似度的过程为：W_prodi,tagi＝Freq(tag_i)*log(N_prods/N_{prod_contain_tagi})，其中，W_prodi,tagi代表物品prod_i关于标准标签tag_i的权重，Freq(tag_i)指物品prod_i中标准标签tag_i出现的频率，N_{prod_contain_tagi}是指包含标准标签tag_i的物品总数，所述物品标签相似度矩阵中的元素值为对应tf-idf权值。

4.如权利要求3所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：所述步骤三中，在用户行为偏好矩阵中，没有交互过的物品i的评分为：behavior_scores[i]＝0，交互过的物品j评分为：behavior_scores[j]＝∑timedecay(prod_i,behavior_k)，其中，behavior_k代表第k种交互行为，所述物品j评分等于该物品经过不同交互行为加权和时间衰减后的分数总和，所述时间衰减的函数的定义如下：

timedecay(prod_i,behavior_k)＝1*behavior_weight_k×e^-t*rate,其中behavior_weight_k代表第k种交互行为的权重，t是交互行为的距今天数，rate是代表时间衰减速率的一个常数。

5.如权利要求4所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：所述步骤四中，计算物品协同相似矩阵具体为：计算所有物品两两之间的第一相似度，所述第一相似度是物品标签相似度矩阵的两两行向量之间的余弦相似度；计算所有物品两两之间的第二相似度,所述第二相似度为：

6.如权利要求5所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于：所述步骤四中，所述第一相似度构成一个N_prods行N_prods列的矩阵，其中，sim[i,j]是指物品i与物品j之间的标签余弦相似度，sim[i,j]＝cosine(P2T[i],P2T[j])；所述第二相似度也构成一个N_prods行N_prods列的矩阵，其中，

7.如权利要求6所述的一种融合文本相似度和协同过滤的标签推荐方法，其特征在于，所述步骤五中，所述用户协同评分计算过程包括：基于用户协同相似矩阵中记录当前用户向量与其他用户向量的余弦相似度，对相似度进行从大到小排序，截取前topk个相似度分值，得到user_similarity_1×topk，以及前topk个相似度分值所对应用户的行为评分behavior_scores_topk×nprods，用户协同评分的计算公式为：UCP＝user_similarity×behavior_scores，所述物品协同评分的计算过程具体为：对每一个行为兴趣评分等于0的物品，通过物品协同相似矩阵的行向量余弦相似度运算，得到该0分物品与其他物品的相似度矩阵，记为sim_matrix，所述sim_matrix是一个1行N_prods列的矩阵，其中，sim_matrix[j]代表该0分物品与第j个物品的相似度，对行为兴趣评分与sim_matrix.T的乘积的总和值a进行约束，得到：a’＝_min_*min(score,0.99999)，将行为兴趣评分的矩阵中的0分修改为补充评分a’，得到物品协同评分的矩阵，所述用户对所有物品的兴趣预测评分公式为：Prediction＝w^ucp×UCP+w^uap×UAP，w代表自定义权重。

8.一种根据权利要求1-7之一所述方法运行的融合文本相似度和协同过滤的标签推荐系统，其特征在于，包括四个独立模块：标签生成模块、预处理模块、缓存模块和运算模块，所述四个独立模块共同连接调度模块，所述调度模块用于统筹并决定独立模块的执行顺序；