CN113254664B

CN113254664B - 面向企业的物品推荐方法、装置和存储介质

Info

Publication number: CN113254664B
Application number: CN202110528921.5A
Authority: CN
Inventors: 王东; 宋江涛
Original assignee: Zkh Industrial Supply Co ltd
Current assignee: Zkh Industrial Supply Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-05-24
Anticipated expiration: 2041-05-14
Also published as: CN113254664A

Abstract

本发明提供了一种面向企业的物品推荐方法、装置和存储介质。该方法包括：根据购买数据和浏览数据计算历史偏好；将信息写入图数据库；计算任意两个企业之间的行为相似度，并存储到图数据库中；获取任意两个企业之间的属性相似度，并存储到图数据库中；计算总体相似度；根据总体相似度选取高相似度参考企业；获取高相似度参考企业历史购买的物品减去目标企业历史购买的物品的差集；来计算目标企业对差集中的物品的预期偏好；根据预期偏好，从差集中的物品中选取向目标企业推荐的物品。本发明借助知识图谱良好的关系表达和图计算能力，结合企业‑物品的关系以及企业之间的相似度，综合推荐个性化商品，提高了推荐物品的多样性、新颖性和惊喜度。

Description

面向企业的物品推荐方法、装置和存储介质

技术领域

本发明的实施方式总体上涉及智能信息处理领域，更具体地，涉及一种面向企业的物品推荐方法、装置和存储介质。

背景技术

目前，在电子商务领域中，推荐系统算法概括起来主要有以下几种。

(1)基于人口统计学推荐：在ToC(对客户)领域中，比如基于用户A的年龄、性别、兴趣、地理位置等信息找到相似用户B，给其推荐用户B感兴趣的物品，ToB领域可以结合用户A的行业、经营范围、地理位置等信息找到相似用户B，给用户A推荐用户B感兴趣的物品，该算法最为简单，缺点也很明显推荐的物品精准性不高，范围很宽泛；

(2)基于内容的推荐：结合物品的标题、品牌、标签等文本特征，给企业推荐其感兴趣物品的相似物品，该算法推荐的物品比较精确，但是缺乏推荐系统的新颖性和惊喜度；

(3)基于协同过滤推荐：利用企业的显式反馈和隐式反馈(官网上浏览的物品，购物信息)等行为数据，构建企业与企业的相似度或者物品与物品的相似度，从而给企业推荐其潜在感兴趣的物品，该算法无法纳入企业的其他维度特征，比如行业、经营范围等信息；

(4)基于模型的协同过滤推荐：比如利用FM、Wide&Deep、YouTubeDNN等神经网络模型的推荐算法，该类算法能够全面地纳入用户和项目特征，且能够很好的解决数据稀疏的问题，目前是电商推荐系统的主流算法，该类算法的缺点是用户和项目都是嵌入向量的形式，可解释性很差，另外对于深度学习模型需要有大数据量的学习才能很好的表达企业的兴趣及物品的特征，数据体量及质量有较高的要求。

因此，需要一种具有高精准度同时能够提高推荐物品的多样性、新颖性和惊喜度的物品推荐方案。

发明内容

为了解决现有技术中的上述问题，在第一方面，本发明的实施方式提供了一种面向企业的物品推荐方法，所述方法包括：根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好，其中所述对象企业包括目标企业和多个参考企业；将物品信息、所述对象企业的企业信息、企业-物品关系信息写入图数据库，其中，所述物品信息包括物品标识符；所述企业信息包括企业标识符和购买物品数量；所述企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好；根据所述图数据库中存储的所述企业信息中的购买物品数量、所述企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算所述对象企业中任意两个企业之间的行为相似度，并且将所述行为相似度存储到所述图数据库中的企业-企业关系信息中；根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度，并且将所述属性相似度存储到所述图数据库中的所述企业-企业关系信息中；根据所述图数据库中存储的所述企业-企业关系信息中的所述行为相似度和所述属性相似度，计算所述目标企业与所述多个参考企业中的每个参考企业之间的总体相似度；根据所述总体相似度，从所述多个参考企业中选取预定数目的高相似度参考企业；根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，获取所述高相似度参考企业历史购买的物品减去所述目标企业历史购买的物品的差集；根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，确定所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好；根据所述图数据库中存储的所述企业-企业关系信息中的总体相似度，确定所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度；并且，根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好；以及根据所述预期偏好，从所述差集中的物品中选取向所述目标企业推荐的物品。

在一些实施方式中，根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好包括：根据所述购买数据计算所述对象企业对物品的购买维度的偏好；根据所述浏览数据计算所述对象企业对物品的浏览维度的偏好；通过对所述购买维度的偏好和所述浏览维度的偏好进行加权来确定所述对象企业对物品的历史偏好。

在一些实施方式中，根据所述购买数据计算所述对象企业对物品的购买维度的偏好包括：使得特定对象企业对特定物品的购买维度的偏好与所述特定对象企业对所述特定物品的购买数量呈正相关、与所述特定对象企业购买的物品的总数量呈负相关，并且利用购买维度惩罚项来惩罚通用或流行物品的购买数量。

在一些实施方式中，根据以下公式来计算特定对象企业对特定物品的购买维度的偏好：

其中，buy_preference_value表示所述特定对象企业对所述特定物品的购买维度的偏好，buy_sku_cnt表示所述特定对象企业对所述特定物品的购买数量，buy_cnt表示所述特定对象企业购买的物品的总数量，buy_customer_cnt表示购买所述特定物品的对象企业的数量，log(buy_customer_cnt)*α表示所述购买维度惩罚项，α表示购买维度调节因子。

在一些实施方式中，根据所述浏览数据计算所述对象企业对物品的浏览维度的偏好包括：使得特定对象企业对特定物品的浏览维度的偏好与所述特定对象企业对所述特定物品的浏览次数呈正相关、与所述特定对象企业浏览所有物品的总次数呈负相关，并且利用浏览维度惩罚项来惩罚通用或流行物品的浏览次数。

在一些实施方式中，根据以下公式来计算特定对象企业对特定物品的浏览维度的偏好：

其中，view_preference_value表示所述特定对象企业对所述特定物品的浏览维度的偏好，view_sku_cnt表示所述特定对象企业对所述特定物品的浏览次数，view_cnt表示所述特定对象企业浏览所有物品的总次数，view_customer_cnt表示浏览所述特定物品的对象企业的数量，log(view_customer_cnt)*β表示所述浏览维度惩罚项，β表示浏览维度调节因子。

在些实施方式中，计算所述对象企业中任意两个企业之间的行为相似度包括：使得所述行为相似度与所述任意两个企业共同购买的物品数量和所述任意两个企业之间的历史偏好余弦相似度呈正相关、与所述任意两个企业各自的购买物品数量呈负相关。

在一些实施方式中，根据以下公式来计算所述对象企业中任意两个企业之间的行为相似度：

其中，behavior_sim表示任意两个企业A、B之间的行为相似度，common_sku_cnt表示企业A与企业B共同购买的物品数量，userA_sku_cnt表示企业A购买的物品数量，userB_sku_cnt表示企业B购买的物品数量，cosine(A，B)表示企业A与企业B之间的所述历史偏好余弦相似度，γ表示行为相似度调节因子。

在些实施方式中，根据以下公式来计算所述历史偏好余弦相似度：

其中，cosine(A，B)表示企业A与企业B之间的所述历史偏好余弦相似度，n表示企业A和企业B共同购买的物品集合，x_i表示企业A对物品i的历史偏好，y_i表示企业B对物品i的历史偏好。

在一些实施方式中，所述企业属性信息包括经营范围信息、无序属性信息和有序属性信息。并且，根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度包括：根据所述经营范围信息计算所述任意两个企业之间的经营范围相似度；将所述无序属性信息进行独热编码，得到独热编码值；根据所述独热编码值计算所述任意两个企业之间的无序属性信息相似度；将所述有序属性信息进行标签编码，得到标签编码值；根据所述标签编码值计算所述任意两个企业之间的有序属性信息相似度；根据所述经营范围相似度、所述无序属性信息相似度和所述有序属性信息相似度计算所述属性相似度。

在一些实施方式中，根据所述经营范围信息计算所述任意两个企业之间的经营范围相似度包括：将所述经营范围信息进行分词得到词语，所述词语形成训练样本；将所述训练样本输入预训练语言模型中进行训练，获得所述词语的词向量；将每个企业的词语的词向量进行求平均，获得每个企业的词向量；以及根据所述词向量，通过以下公式计算所述经营范围相似度：

其中，S₀表示所述经营范围相似度，n表示词向量的维度数目，x_i表示所述任意两个企业中的一个企业的词向量的第i维数值，y_i表示所述任意两个企业中的另一企业的词向量的第i维数值。

在一些实施方式中，将所述经营范围信息进行分词得到词语包括：加载预先确定的自定义词典和停用词典；根据所述自定义词典和所述停用词典对所述经营范围信息进行分词、去停用词，得到所述词语。

在些实施方式中，所述无序属性信息包括企业所属行业、企业类型、所属地区、是否上市、是否高新技术企业中的一个或多个。

在一些实施方式中，所述有序属性信息包括注册资本、市值、成立时间、人员规模、融资轮数中的一个或多个属性。

在些实施方式中，将所述有序属性信息进行标签编码，得到标签编码值包括：将所述有序属性信息中的一个或多个属性的信息分别进行归一化并分箱，获得分箱数据；分别根据每个所述分箱数据得到与每个所述分箱数据相对应的标签编码值。

在些实施方式中，根据所述标签编码值计算所述任意两个企业之间的有序属性信息相似度包括根据以下公式计算所述有序属性信息相似度：

其中，sim(A，B)表示所述任意两个企业A、B之间的有序属性信息相似度，dim表示该属性的维度数量，x_A表示企业A该属性的标签编码值，x_B表示企业B该属性的标签编码值。

在一些实施方式中，根据所述经营范围相似度、所述无序属性信息相似度和所述有序属性信息相似度计算所述属性相似度包括根据以下公式来计算所述属性相似度：

其中，attribute_sim表示所述对象企业中任意两个企业之间的属性相似度，Si表示所述任意两个企业之间第i个属性的相似度，wi表示第i个属性的权重，S0表示所述任意两个企业之间的经营范围相似度。

在一些实施方式中，根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好包括：根据以下公式来计算所述目标企业对所述差集中的物品的预期偏好：

其中，expect_preference_value表示所述目标企业对所述差集中的特定物品的预期偏好，K表示购买所述特定物品的企业集合，p_j表示K中的第j个企业对所述特定物品的历史偏好，S_j表示所述目标企业与所述第j个企业的总体相似度。

在第二方面，本发明的实施方式提出了一种面向企业的物品推荐装置，所述装置包括：历史偏好计算模块，配置用于根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好，其中所述对象企业包括目标企业和多个参考企业；图数据库写入模块，配置用于将物品信息、所述对象企业的企业信息、企业-物品关系信息写入图数据库，其中，所述物品信息包括物品标识符；所述企业信息包括企业标识符和购买物品数量；所述企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好；行为相似度计算模块，配置用于根据所述图数据库中存储的所述企业信息中的购买物品数量、所述企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算所述对象企业中任意两个企业之间的行为相似度，并且将所述行为相似度存储到所述图数据库中的企业-企业关系信息中；属性相似度获取模块，配置用于根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度，并且将所述属性相似度存储到所述图数据库中的所述企业-企业关系信息中；总体相似度计算模块，配置用于根据所述图数据库中存储的所述企业-企业关系信息中的所述行为相似度和所述属性相似度，计算所述目标企业与所述多个参考企业中的每个参考企业之间的总体相似度；高相似度参考企业选取模块，配置用于根据所述总体相似度，从所述多个参考企业中选取预定数目的高相似度参考企业；差集获取模块，配置用于根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，获取所述高相似度参考企业历史购买的物品减去所述目标企业历史购买的物品的差集；预期偏好计算模块，配置用于：根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，确定所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好；根据所述图数据库中存储的所述企业-企业关系信息中的总体相似度，确定所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度；根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好；以及推荐物品选取模块，配置用于根据所述预期偏好，从所述差集中的物品中选取向所述目标企业推荐的物品。

在第三方面，本发明的实施方式提出了一种存储介质，其中存储有机器可执行代码，当所述代码由机器执行时，实现上述任一实施方式所述的面向企业的物品推荐方法。

本发明的实施方式提出的面向企业的物品推荐方法、装置和存储介质涉及电子商务领域中的一种基于知识图谱的协同过滤技术，该技术借助知识图谱良好的关系表达和图计算能力，通过结合企业浏览、购买等行为数据，将企业与物品通过关系进行连接，同时将企业的外部特征纳入到算法的学习过程，比如行业、企业经营范围、地理位置、注册资本等信息，能够很好的表达企业的兴趣特征，通过计算企业间的相似度及企业对物品的喜爱程度，从目标企业未购买过的物品集合中选择企业潜在感兴趣的物品，综合推荐个性化商品，提高了推荐物品的多样性、新颖性和惊喜度。另外，借助于图数据库强大的存储和查询能力，提高了运算速度，实现了高效、快速的物品推荐过程。在具体应用中，本发明的实施方式提出的面向企业的物品推荐方法可以实现为电子商务领域中网络软件平台的中间件或嵌入式软件。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了根据本发明的实施方式的面向企业的物品推荐方法的流程图；

图2示出了根据本发明的实施方式的企业-物品关系的示意图；

图3示出了根据本发明的实施方式的企业-企业关系的示意图；

图4示出了根据本发明的实施方式的计算历史偏好的步骤的流程图；

图5示出了根据本发明的实施方式的获取企业之间的属性相似度的步骤的流程图；

图6示出了根据本发明的实施方式的计算企业之间的经营范围相似度的步骤的流程图；以及

图7示出了根据本发明的实施方式的面向企业的物品推荐装置的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

在一个方面，本发明的实施方式提供了一种面向企业的物品推荐方法，参考图1，其示出了根据本发明的实施方式的面向企业的物品推荐方法100的流程图。如图1所示，方法100可以包括步骤S101-S109。

在步骤S101中，根据对象企业对物品的购买数据和浏览数据计算对象企业对物品的历史偏好，其中对象企业包括目标企业和多个参考企业。例如，购买数据和浏览数据可以是某个时间段内的，诸如对象企业在近一年内的购买数据和浏览数据。

作为一个具体示例，对象企业购买过的物品可以被赋予较高历史偏好值，对象企业浏览过的物品可以被赋予较低历史偏好值。

作为另一具体示例，对象企业购买数量较多或浏览次数较多的物品可以被赋予较高历史偏好值，对象企业购买数量较少或浏览次数较少的物品可以被赋予较低历史偏好值。

在步骤S102中，将物品信息、对象企业的企业信息、企业-物品关系信息写入图数据库，其中，物品信息包括物品标识符；企业信息包括企业标识符和购买物品数量；企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好。在图数据中，企业和物品分别作为节点，企业信息和物品信息分别作为企业和物品节点的属性，企业-物品关系信息作为企业与物品节点之间的关系的属性。

作为本发明的一个实施方式，图数据库例如可以是neo4j图数据库，在该实施方式中，图数据库的查询语言是CQL，CQL代表Cypher查询语言。像Oracle数据库具有查询语言SQL，Neo4j具有CQL作为查询语言。

参考图2，其示出了根据本发明的实施方式的企业-物品关系的示意图。其中C1是企业标识符，表示企业用户，sku1-sku6是物品标识符，代表物品1-物品6，关系连线上的数字表示步骤S101计算出的企业对物品的历史偏好值，例如，取值范围可以是[0,1]。

可选地，图数据库中存储的企业-物品关系还可以包括企业对物品的购买维度的偏好、浏览维度的偏好、企业对物品的浏览次数等等。

在步骤S103中，根据图数据库中存储的企业信息中的购买物品数量、企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算对象企业中任意两个企业之间的行为相似度，并且将行为相似度存储到图数据库中的企业-企业关系信息中。

作为本发明的一个实施方式，计算对象企业中任意两个企业之间的行为相似度可以包括：使得行为相似度与任意两个企业共同购买的物品数量和任意两个企业之间的历史偏好余弦相似度呈正相关、与任意两个企业各自的购买物品数量呈负相关。

作为一个具体示例，可以根据以下公式(1)来计算对象企业中任意两个企业之间的行为相似度：

其中，behavior_sim表示任意两个企业A、B之间的行为相似度，common_sku_cnt表示企业A与企业B共同购买的物品数量，userA_sku_cnt表示企业A购买的物品数量，userB_sku_cnt表示企业B购买的物品数量，cosine(A，B)表示企业A与企业B之间的历史偏好余弦相似度，γ表示行为相似度调节因子。

作为一个具体示例，可以根据以下公式(2)来计算历史偏好余弦相似度：

其中，cosine(A，B)表示企业A与企业B之间的历史偏好余弦相似度，n表示企业A和企业B共同购买的物品集合，x_i表示企业A对物品i的历史偏好，y_i表示企业B对物品i的历史偏好。

作为本发明的另一实施方式，计算对象企业中任意两个企业之间的行为相似度可以使得行为相似度仅与任意两个企业共同购买的物品数量呈正相关，即，两个企业共同购买的物品数量越多，则行为相似度越高。

作为本发明的又一实施方式，计算对象企业中任意两个企业之间的行为相似度可以使得行为相似度仅与任意两个企业之间的历史偏好相似度呈正相关，即，两个企业的历史偏好相似度越高，则行为相似度越高。

在步骤S104中，根据对象企业的企业属性信息来获取对象企业中任意两个企业之间的属性相似度，并且将属性相似度存储到图数据库中的企业-企业关系信息中。

参考图3，其示出了根据本发明的实施方式的企业-企业关系的示意图。其中C1-C9表示企业用户1-企业用户9，关系连线上的数字分别表示步骤S103和步骤S104计算出的行为相似度和属性相似度，中间用逗号分隔。仅作为示例，两种相似度的取值范围可以为[0,1]。

为了使图数据库的信息更加完备，提高可视化程度，并且为了使该图数据库可以用于其他的扩展计算，可选地，在图数据库中，物品信息还可以包括物品名称、购买该物品的企业数量和浏览该物品的企业数量，企业信息还可以包括企业名称、购买订单数量，等等。

作为本发明的一个实施方式，企业属性信息可以包括经营范围信息、无序属性信息和有序属性信息。作为本发明的一个实施方式，无序属性信息可以包括企业所属行业、企业类型、所属地区、是否上市、是否高新技术企业中的一个或多个，有序属性信息可以包括注册资本、市值、成立时间、人员规模、融资轮数中的一个或多个属性。可选地，可以列出的以上所有属性，并进行缺失值填充，缺失值统一用N/A填充。

作为一个具体示例，企业之间的属性相似度可以与企业的经营范围信息相关。例如，两个企业重合的经营范围越多，则属性相似度越高。作为另一具体示例，企业之间的属性相似度可以与企业所属行业有关。例如，两个企业所属行业越接近，则属性相似度越高。属性相似度与各个属性信息之间的相关性可以根据应用中的具体需求而进行灵活调整，此处不再一一枚举。

在步骤S105中，根据图数据库中存储的企业-企业关系信息中的行为相似度和属性相似度，计算目标企业与多个参考企业中的每个参考企业之间的总体相似度。例如，可以将行为相似度和属性相似度进行加权，来计算总体相似度。

在步骤S106中，根据总体相似度，从多个参考企业中选取预定数目的高相似度参考企业。例如，可以根据总体相似度对多个参考企业进行降序排序，取预定数目N个参考企业。仅作为示例，CQL例句如下：

MATCH(c1:customer)-[s:similarity]->(c2:customer)

WHERE c1.customer_code＝’A00001’

with c1,c2,(s.behavior_similarity*w1+s.property_similarity*w2)assimilarity

order by similarity desc

limit N

在步骤S107中，根据图数据库中存储的企业-物品关系信息中的特定企业对特定物品的购买次数，获取高相似度参考企业历史购买的物品减去目标企业历史购买的物品的差集，例如，将该差集记为U。

在步骤S108中，根据图数据库中存储的企业-物品关系信息中的特定企业对特定物品的购买次数，确定多个参考企业中历史购买过差集中的物品的参考企业对差集中的该物品的历史偏好；根据图数据库中存储的企业-企业关系信息中的总体相似度，确定目标企业与多个参考企业中历史购买过差集中的物品的参考企业的总体相似度；并且，根据多个参考企业中历史购买过差集中的物品的参考企业对差集中的该物品的历史偏好以及目标企业与多个参考企业中历史购买过差集中的物品的参考企业的总体相似度，来计算目标企业对差集中的物品的预期偏好。

作为本发明的一个实施方式，可以根据以下公式(3)来计算目标企业对差集中的物品的预期偏好：

其中，expect_preference_value表示目标企业对差集中的特定物品的预期偏好，K表示购买特定物品的企业集合，p_j表示K中的第j个企业对特定物品的历史偏好，S_j表示目标企业与第j个企业的总体相似度。

在步骤S109中，根据预期偏好，从差集中的物品中选取向目标企业推荐的物品。例如，可以将目标企业与差集中的所有物品按照偏好值降序排序，推荐topN个物品给目标企业。CQL例句如下：

MATCH(c1：customer)-[s：similarity]-＞(c2：customer)

WHEREc1.customer_code＝′A20481′

with c1，c2，(s.behavior_similarity+s.property_similarity)as similarity

orderby similarity desc

limit20

MATCH(c1：customer)-[s：similarity]-＞(c2：customer)-[r：purchase]-＞(p：product)

WHERE c1.customer_code＝′A20481′andNOT((c1)-[：purchase]-＞(p：product))

WITHp，COLLECT(r.rating*(s.behavior_similarity+s.property_similarity)*log(c2.order_cnt))[0..3]AS ratingS，collect(c2.customer_name)[0..3]AScustomers

WITH p，customers，REDUCE(s＝0.0，i in ratings|s+i)/size(ratings)ASrecommendation

ORDER BY recommendation DESC

RETURN p.skuno as skuno，p.product_name as product_name，customers，recommendation LIMIT30

通过获取高相似度参考企业历史购买的物品减去目标企业历史购买的物品的差集，并在该差集中选择向目标企业推荐的物品，首先，可以保证推荐的物品均是目标企业未曾购买过的，提高了推荐物品的多样性、新颖性和惊喜度；其次，该差集中的物品是高相似度参考企业曾经购买过的，而企业之间的相似度越高，购买物品的倾向也越趋于一致，保证了目标企业对推荐物品的潜在兴趣程度，有效排除了与目标企业完全无关、目标企业不可能感兴趣和购买的物品，提高了物品推荐的有效性。

本发明的实施方式提出的面向企业的物品推荐方法是一种基于知识图谱的协同过滤方法，该方法借助知识图谱良好的关系表达和图计算能力，通过结合企业浏览、购买等行为数据，将企业与物品通过关系进行连接，同时将企业的外部特征纳入到算法的学习过程，比如行业、企业经营范围、地理位置、注册资本等信息，能够很好的表达企业的兴趣特征，通过计算企业间的相似度及企业对物品的喜爱程度，从目标企业未购买过的物品集合中选择企业潜在感兴趣的物品，综合推荐个性化商品，提高了推荐物品的多样性、新颖性和惊喜度。另外，借助于图数据库强大的存储和查询能力，提高了运算速度，实现了高效、快速的物品推荐过程。

在具体应用中，本发明的实施方式提出的面向企业的物品推荐方法可以实现为电子商务领域中网络软件平台的中间件或嵌入式软件。

参考图4，其示出了根据本发明的实施方式的计算历史偏好的步骤S101的流程图。如图4所示，步骤S101可以包括步骤S1011-S1013。

在步骤S1011中，根据购买数据计算对象企业对物品的购买维度的偏好。作为本发明的一个实施方式，可以使得特定对象企业对特定物品的购买维度的偏好与特定对象企业对特定物品的购买数量呈正相关、与特定对象企业购买的物品的总数量呈负相关，并且利用购买维度惩罚项来惩罚通用或流行物品的购买数量。

作为一个具体示例，可以根据以下公式(4)来计算特定对象企业对特定物品的购买维度的偏好：

其中，buy_preference_value表示特定对象企业对特定物品的购买维度的偏好，buy_sku_cnt表示特定对象企业对特定物品的购买数量，buy_cnt表示特定对象企业购买的物品的总数量，buy_customer_cnt表示购买特定物品的对象企业的数量，log(buy_customer_cnt)*α表示购买维度惩罚项，用来惩罚通用或流行物品的购买数量。α表示购买维度调节因子。作为示例，α的取值范围可以是0.01-0.2之间，例如可以设置为0.1左右。

通过设置购买维度惩罚项，可以减少通用或流行物品对购买维度偏好的影响，使得购买维度偏好的计算更加客观，能够反映出企业真实的购买偏好。

在步骤S1012中，根据浏览数据计算对象企业对物品的浏览维度的偏好。作为本发明的一个实施方式，可以使得特定对象企业对特定物品的浏览维度的偏好与特定对象企业对特定物品的浏览次数呈正相关、与特定对象企业浏览所有物品的总次数呈负相关，并且利用浏览维度惩罚项来惩罚通用或流行物品的浏览次数。

作为一个具体示例，可以根据以下公式(5)来计算特定对象企业对特定物品的浏览维度的偏好：

其中，view_preference_value表示特定对象企业对特定物品的浏览维度的偏好，view_sku_cnt表示特定对象企业对特定物品的浏览次数，view_cnt表示特定对象企业浏览所有物品的总次数，view_customer_cnt表示浏览特定物品的对象企业的数量，log(view_customer_cnt)*β表示浏览维度惩罚项，用来惩罚通用或流行物品的浏览次数，β表示浏览维度调节因子。仅作为示例，β的取值范围可以在0.01-0.2之间，例如可以设置为0.1左右。

通过设置浏览维度惩罚项，可以减少通用或流行物品对浏览维度偏好的影响，使得浏览维度偏好的计算更加客观，能够反映出企业真实的浏览偏好。

在步骤S1013中，通过对购买维度的偏好和浏览维度的偏好进行加权来确定对象企业对物品的历史偏好。作为一个具体示例，可以根据以下公式(6)来计算历史偏好：

preference_value＝buy_preference_value*w1+view_preference_value*w2(6)

其中，preference_value表示对象企业对物品的历史偏好，buy_preference_value表示对象企业对物品的购买维度的偏好，view_preference_value表示对象企业对物品的浏览维度的偏好，w1表示购买维度的偏好的权重，w2表示浏览维度的偏好的权重，购买维度的偏好的权重w1及浏览维度的偏好的权重w2可根据情况进行调整。例如，w1可以设置为0.7，w2可以设置为0.3，等等。

参考图5，其示出了根据本发明的实施方式的获取企业之间的属性相似度的步骤S104的流程图。如图5所示，步骤S104可以包括步骤S1041-S1046。

在步骤S1041中，根据经营范围信息计算任意两个企业之间的经营范围相似度。

在步骤S1042中，将无序属性信息(企业所属行业、企业类型、所属地区、是否上市、是否高新技术企业中的一个或多个)进行独热编码(OneHotEncoder)，得到独热编码值。

在步骤S1043中，根据独热编码值计算任意两个企业之间的无序属性信息相似度。作为一个具体示例，可以用S₁，S₂，S₃，S₄，S₅分别表示行业、企业类型、所属地区、是否上市、是否高新技术企业的余弦相似度。

在步骤S1044中，将有序属性信息(注册资本、市值、成立时间、人员规模、融资轮数中的一个或多个)进行标签编码(LabelEncoder)，得到标签编码值。例如，可以将融资轮数A-E分别用1-5表示，作为融资轮数这一属性的标签编码值。

作为本发明的一个实施方式，将有序属性信息进行标签编码，得到标签编码值可以包括：将有序属性信息中的一个或多个属性的信息分别进行归一化并分箱，获得分箱数据；分别根据每个分箱数据得到与每个分箱数据相对应的标签编码值。

作为一个具体示例，可以将企业的注册资本和市值的信息进行归一化，统一用人民币为单位，同时将注册资本和市值信息进行等距分箱为10等份，记为注册资本和市值的分箱数据。

作为另一具体示例，可以将成立时间按照0-5、5-10、10-20、20年以上进行分箱，获得成立时间分箱数据。

在步骤S1045中，根据标签编码值计算任意两个企业之间的有序属性信息相似度。作为本发明的一个实施方式，可以根据以下公式(7)计算有序属性信息相似度：

其中，sim(A，，B)表示任意两个企业A、B之间的有序属性信息相似度，dim表示该属性的维度数量，x_A表示企业A该属性的标签编码值，x_B表示企业B该属性的标签编码值。

作为一个具体示例，可以用S₆，S₇，S₈，S₉，S₁₀分别表示注册资本、市值分箱数据、融资轮数、人员规模、成立时间的相似度。

在步骤S1046中，根据经营范围相似度、无序属性信息相似度和有序属性信息相似度计算属性相似度。作为本发明的一个实施方式，可以通过以下公式(8)，根据经营范围相似度、无序属性信息相似度和有序属性信息相似度来计算属性相似度：

其中，attribute_sim表示对象企业中任意两个企业之间的属性相似度，S_i表示任意两个企业之间第i个属性的相似度，w_i表示第i个属性的权重，S₀表示任意两个企业之间的经营范围相似度。

参考图6，其示出了根据本发明的实施方式的计算企业之间的经营范围相似度的步骤S1041的流程图。如图6所示，S1041可以包括步骤S601-S604。

在步骤S601中，将经营范围信息进行分词得到词语，词语形成训练样本。每个企业一条训练样本，每个训练样本包含N个词语。作为本发明的一个实施方式，将经营范围信息进行分词得到词语包括：加载预先确定的自定义词典和停用词典；根据自定义词典和停用词典对经营范围信息进行分词、去停用词，得到词语。分词例如可以通过jieba分词来实现。

在步骤S602中，将训练样本输入预训练语言模型中进行训练，获得词语的词向量。预训练语言模型例如可以是word2vec模型。仅作为一个具体示例，word2vec模型参数可以如下：词向量维度32，窗口大小3，负采样数5，最小频次3，迭代次数20。在词向量维度32的情况下，每个词语可以获得32的词向量。

在步骤S603中，将每个企业的词语的词向量进行求平均，获得每个企业的词向量。

在步骤S604中，根据词向量，通过以下公式(9)计算经营范围相似度：

其中，S₀是词向量余弦相似度，表示经营范围相似度，n表示词向量的维度数目，x_i表示任意两个企业中的一个企业的词向量的第i维数值，y_i表示任意两个企业中的另一企业的词向量的第i维数值。

本发明的实施方式还提出了一种面向企业的物品推荐装置。参考图7，其示出了根据本发明的实施方式的面向企业的物品推荐装置700的框图。如图7所示，装置700包括模块701-709。

历史偏好计算模块701可以配置用于根据对象企业对物品的购买数据和浏览数据计算对象企业对物品的历史偏好，其中对象企业包括目标企业和多个参考企业。

图数据库写入模块702可以配置用于将物品信息、对象企业的企业信息、企业-物品关系信息写入图数据库，其中，物品信息包括物品标识符；企业信息包括企业标识符和购买物品数量；企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好。

行为相似度计算模块703可以配置用于根据图数据库中存储的企业信息中的购买物品数量、企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算对象企业中任意两个企业之间的行为相似度，并且将行为相似度存储到图数据库中的企业-企业关系信息中。

属性相似度获取模块704可以配置用于根据对象企业的企业属性信息来获取对象企业中任意两个企业之间的属性相似度，并且将属性相似度存储到图数据库中的企业-企业关系信息中。

总体相似度计算模块705可以配置用于根据图数据库中存储的企业-企业关系信息中的行为相似度和属性相似度，计算目标企业与多个参考企业中的每个参考企业之间的总体相似度。

高相似度参考企业选取模块706可以配置用于根据总体相似度，从多个参考企业中选取预定数目的高相似度参考企业。

差集获取模块707可以配置用于根据图数据库中存储的企业-物品关系信息中的特定企业对特定物品的购买次数，获取高相似度参考企业历史购买的物品减去目标企业历史购买的物品的差集。

预期偏好计算模块708可以配置用于：根据图数据库中存储的企业-物品关系信息中的特定企业对特定物品的购买次数，确定多个参考企业中历史购买过差集中的物品的参考企业对差集中的该物品的历史偏好；根据图数据库中存储的企业-企业关系信息中的总体相似度，确定目标企业与多个参考企业中历史购买过差集中的物品的参考企业的总体相似度；根据多个参考企业中历史购买过差集中的物品的参考企业对差集中的该物品的历史偏好以及目标企业与多个参考企业中历史购买过差集中的物品的参考企业的总体相似度，来计算目标企业对差集中的物品的预期偏好。

推荐物品选取模块709可以配置用于根据预期偏好，从差集中的物品中选取向目标企业推荐的物品。

装置700中的各个模块实现的功能与方法100中的各个步骤相对应，其具体实施方式和技术效果请参考上文对于面向企业的物品推荐方法的描述，此处不再赘述。

本发明的实施方式还提出了一种存储介质，其中存储有机器可执行代码，当代码由机器执行时，可以实现上述任一实施方式描述的面向企业的物品推荐方法。

本发明的实施方式提出的面向企业的物品推荐方法、装置和存储介质是一种基于知识图谱的协同过滤技术，该技术借助知识图谱良好的关系表达和图计算能力，通过结合企业浏览、购买等行为数据，将企业与物品通过关系进行连接，同时将企业的外部特征纳入到算法的学习过程，比如行业、企业经营范围、地理位置、注册资本等信息，能够很好的表达企业的兴趣特征，通过计算企业间的相似度及企业对物品的喜爱程度，从目标企业未购买过的物品集合中选择企业潜在感兴趣的物品，综合推荐个性化商品，提高了推荐物品的多样性、新颖性和惊喜度。另外，借助于图数据库强大的存储和查询能力，提高了运算速度，实现了高效、快速的物品推荐过程。

出于示意的目的，已经给出了本发明的实施方式的前述说明，其并非是穷举性的也并非要将本发明限制为所公开的确切形式。本领域技术人员可以理解的是，在不偏离本发明的范围的情况下可以做出各种变化，并且可以将其中的元件替换为等同物。另外，在不偏离本发明的基本范围的情况下，可以进行很多修改以使得特定的情况或材料适应于本发明的教导。因此，本发明不试图限制于所公开的作为用于实现本发明所预期的最佳模式的特定实施方式，本发明将包括落入所附的权利要求的范围内的所有实施方式。

Claims

1.一种面向企业的物品推荐方法，其特征在于，所述方法包括：

根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好，其中所述对象企业包括目标企业和多个参考企业；

将物品信息、所述对象企业的企业信息、企业-物品关系信息写入图数据库，其中，所述物品信息包括物品标识符；所述企业信息包括企业标识符和购买物品数量；所述企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好；

根据所述图数据库中存储的所述企业信息中的购买物品数量、所述企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算所述对象企业中任意两个企业之间的行为相似度，并且将所述行为相似度存储到所述图数据库中的企业-企业关系信息中；

根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度，并且将所述属性相似度存储到所述图数据库中的所述企业-企业关系信息中；

根据所述图数据库中存储的所述企业-企业关系信息中的所述行为相似度和所述属性相似度，计算所述目标企业与所述多个参考企业中的每个参考企业之间的总体相似度；

根据所述总体相似度，从所述多个参考企业中选取预定数目的高相似度参考企业；

根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，获取所述高相似度参考企业历史购买的物品减去所述目标企业历史购买的物品的差集；

根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，确定所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好；根据所述图数据库中存储的所述企业-企业关系信息中的总体相似度，确定所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度；并且，根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好；以及

根据所述预期偏好，从所述差集中的物品中选取向所述目标企业推荐的物品。

2.根据权利要求1所述的方法，其特征在于，根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好包括：

根据所述购买数据计算所述对象企业对物品的购买维度的偏好；

根据所述浏览数据计算所述对象企业对物品的浏览维度的偏好；

通过对所述购买维度的偏好和所述浏览维度的偏好进行加权来确定所述对象企业对物品的历史偏好。

3.根据权利要求2所述的方法，其特征在于，根据所述购买数据计算所述对象企业对物品的购买维度的偏好包括：

使得特定对象企业对特定物品的购买维度的偏好与所述特定对象企业对所述特定物品的购买数量呈正相关、与所述特定对象企业购买的物品的总数量呈负相关，并且利用购买维度惩罚项来惩罚通用或流行物品的购买数量。

4.根据权利要求3所述的方法，其特征在于，根据以下公式来计算特定对象企业对特定物品的购买维度的偏好：

5.根据权利要求2所述的方法，其特征在于，根据所述浏览数据计算所述对象企业对物品的浏览维度的偏好包括：

使得特定对象企业对特定物品的浏览维度的偏好与所述特定对象企业对所述特定物品的浏览次数呈正相关、与所述特定对象企业浏览所有物品的总次数呈负相关，并且利用浏览维度惩罚项来惩罚通用或流行物品的浏览次数。

6.根据权利要求5所述的方法，其特征在于，根据以下公式来计算特定对象企业对特定物品的浏览维度的偏好：

7.根据权利要求1所述的方法，其特征在于，计算所述对象企业中任意两个企业之间的行为相似度包括：

使得所述行为相似度与所述任意两个企业共同购买的物品数量和所述任意两个企业之间的历史偏好余弦相似度呈正相关、与所述任意两个企业各自的购买物品数量呈负相关。

8.根据权利要求7所述的方法，其特征在于，根据以下公式来计算所述对象企业中任意两个企业之间的行为相似度：

其中，behavior_sim表示任意两个企业A、B之间的行为相似度，common_sku_cnt表示企业A与企业B共同购买的物品数量，userA_sku_cnt表示企业A购买的物品数量，userB_sku_cnt表示企业B购买的物品数量，cosine(A,B)表示企业A与企业B之间的所述历史偏好余弦相似度，γ表示行为相似度调节因子。

9.根据权利要求8所述的方法，其特征在于，根据以下公式来计算所述历史偏好余弦相似度：

其中，cosine(A,B)表示企业A与企业B之间的所述历史偏好余弦相似度，n表示企业A和企业B共同购买的物品集合，x_i表示企业A对物品i的历史偏好，y_i表示企业B对物品i的历史偏好。

10.根据权利要求1所述的方法，其特征在于，所述企业属性信息包括经营范围信息、无序属性信息和有序属性信息，并且，

根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度包括：

根据所述经营范围信息计算所述任意两个企业之间的经营范围相似度；

将所述无序属性信息进行独热编码，得到独热编码值；

根据所述独热编码值计算所述任意两个企业之间的无序属性信息相似度；

将所述有序属性信息进行标签编码，得到标签编码值；

根据所述标签编码值计算所述任意两个企业之间的有序属性信息相似度；

根据所述经营范围相似度、所述无序属性信息相似度和所述有序属性信息相似度计算所述属性相似度。

11.根据权利要求10所述的方法，其特征在于，根据所述经营范围信息计算所述任意两个企业之间的经营范围相似度包括：

将所述经营范围信息进行分词得到词语，所述词语形成训练样本；

将所述训练样本输入预训练语言模型中进行训练，获得所述词语的词向量；

将每个企业的词语的词向量进行求平均，获得每个企业的词向量；以及

根据所述词向量，通过以下公式计算所述经营范围相似度：

12.根据权利要求11所述的方法，其特征在于，将所述经营范围信息进行分词得到词语包括：

加载预先确定的自定义词典和停用词典；

根据所述自定义词典和所述停用词典对所述经营范围信息进行分词、去停用词，得到所述词语。

13.根据权利要求10所述的方法，其特征在于，所述无序属性信息包括企业所属行业、企业类型、所属地区、是否上市、是否高新技术企业中的一个或多个。

14.根据权利要求10所述的方法，其特征在于，所述有序属性信息包括注册资本、市值、成立时间、人员规模、融资轮数中的一个或多个属性。

15.根据权利要求10所述的方法，其特征在于，将所述有序属性信息进行标签编码，得到标签编码值包括：

将所述有序属性信息中的一个或多个属性的信息分别进行归一化并分箱，获得分箱数据；

分别根据每个所述分箱数据得到与每个所述分箱数据相对应的标签编码值。

16.根据权利要求10所述的方法，其特征在于，根据所述标签编码值计算所述任意两个企业之间的有序属性信息相似度包括根据以下公式计算所述有序属性信息相似度：

其中，sim(A,B)表示所述任意两个企业A、B之间的有序属性信息相似度，dim表示该属性的维度数量，x_A表示企业A该属性的标签编码值，x_B表示企业B该属性的标签编码值。

17.根据权利要求10所述的方法，其特征在于，根据所述经营范围相似度、所述无序属性信息相似度和所述有序属性信息相似度计算所述属性相似度包括根据以下公式来计算所述属性相似度：

其中，attribute_sim表示所述对象企业中任意两个企业之间的属性相似度，S_i表示所述任意两个企业之间第i个属性的相似度，w_i表示第i个属性的权重，S₀表示所述任意两个企业之间的经营范围相似度。

18.根据权利要求1所述的方法，其特征在于，根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好包括：

根据以下公式来计算所述目标企业对所述差集中的物品的预期偏好：

19.一种面向企业的物品推荐装置，其特征在于，所述装置包括：

历史偏好计算模块，配置用于根据对象企业对物品的购买数据和浏览数据计算所述对象企业对物品的历史偏好，其中所述对象企业包括目标企业和多个参考企业；

图数据库写入模块，配置用于将物品信息、所述对象企业的企业信息、企业-物品关系信息写入图数据库，其中，所述物品信息包括物品标识符；所述企业信息包括企业标识符和购买物品数量；所述企业-物品关系信息包括企业标识符、物品标识符、特定企业对特定物品的购买次数、特定企业对特定物品的历史偏好；

行为相似度计算模块，配置用于根据所述图数据库中存储的所述企业信息中的购买物品数量、所述企业-物品关系信息中的特定企业对特定物品的购买次数以及特定企业对特定物品的历史偏好中的一个或多个，来计算所述对象企业中任意两个企业之间的行为相似度，并且将所述行为相似度存储到所述图数据库中的企业-企业关系信息中；

属性相似度获取模块，配置用于根据所述对象企业的企业属性信息来获取所述对象企业中任意两个企业之间的属性相似度，并且将所述属性相似度存储到所述图数据库中的所述企业-企业关系信息中；

总体相似度计算模块，配置用于根据所述图数据库中存储的所述企业-企业关系信息中的所述行为相似度和所述属性相似度，计算所述目标企业与所述多个参考企业中的每个参考企业之间的总体相似度；

高相似度参考企业选取模块，配置用于根据所述总体相似度，从所述多个参考企业中选取预定数目的高相似度参考企业；

差集获取模块，配置用于根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，获取所述高相似度参考企业历史购买的物品减去所述目标企业历史购买的物品的差集；

预期偏好计算模块，配置用于：根据所述图数据库中存储的所述企业-物品关系信息中的特定企业对特定物品的购买次数，确定所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好；根据所述图数据库中存储的所述企业-企业关系信息中的总体相似度，确定所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度；根据所述多个参考企业中历史购买过所述差集中的物品的参考企业对所述差集中的该物品的历史偏好以及所述目标企业与所述多个参考企业中历史购买过所述差集中的物品的参考企业的总体相似度，来计算所述目标企业对所述差集中的物品的预期偏好；以及

推荐物品选取模块，配置用于根据所述预期偏好，从所述差集中的物品中选取向所述目标企业推荐的物品。

20.一种存储介质，其中存储有机器可执行代码，当所述代码由机器执行时，实现如权利要求1-18中任一项所述的面向企业的物品推荐方法。