CN112948238B

CN112948238B - 推荐系统的多样性的量化方法

Info

Publication number: CN112948238B
Application number: CN202110136164.7A
Authority: CN
Inventors: 安俊秀; 孙琛恺; 靳宇倡; 陈宏松
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-05-02
Anticipated expiration: 2041-02-01
Also published as: CN112948238A

Abstract

本发明公开了推荐系统的多样性的量化方法，属于推荐系统技术领域，具体涉及推荐系统的多样性的量化领域，以解决现有的推荐系统缺乏评价指数的问题，包括如下步骤：步骤1、从日志中获取URL及用户信息；步骤2、编写程序，根据类别的信息将URL进行分类并初次筛选；步骤3、将所得的三元组中的值导入MySQL数据库中，再从中筛选重复数据，得到了多个类别的三部图；步骤4、将三部图思想编入程序中并进行计算，计算各类的校准的多样性指数与其在总类别中所占的比例，得到推荐系统的多样性指数。对推荐系统类别受众多样性进行量化，在评价推荐系统时，将本申请的多样性指数纳入评价体系中，将其作为评价标准之一。

Description

推荐系统的多样性的量化方法

技术领域

推荐系统的多样性的量化方法，本发明属于推荐系统技术领域，具体涉及推荐系统的多样性的量化领域。

背景技术

随着互联网的飞速发展以及移动互联网时代的到来，互联网的用户飞速增长导致了数据量的指数级增长。在2019年，中国产生的数据量已经达到了9.8ZB，而且还保持着快速增长，预计在2025年的数据量将达到48.6ZB。互联网的海量信息可以方便用户的日常生活，也带来了信息过载和信息迷航的问题。如何从数据中提取到有价值的信息并更好地对用户提供服务，成为了现在企业界以及学术界研究的重点。

现在生活中常见的推荐系统主要应用于搜索引擎(例如百度，Google)以及平台的推荐机制(例如今日头条，抖音)等。搜索引擎主要依赖于用户输入的信息，所以不同的用户输入相同的信息所得到的内容是一致的，没有办法实现个性化的推荐。现在用在平台上的推荐算法更多地会根据用户访问的内容、标签以及其对应的点击、收藏、点赞、评论等行为构建模型，针对不同的用户向其推荐专为用户个人的内容。虽然这种方式让用户获取信息更加便捷，但也影响了用户获取信息的机会。如何衡量算法所做选择的质量及其对用户的影响还有如何衡量推荐系统的偶然性和多样性成了当前急需解决的问题。

推荐系统的核心是算法。推荐算法在生活中的应用取得了较好的效果。GemaBello-Orgaz等从推特上获取数据并用多种聚类方法对酒庄的推特进行分析，通过距离、客户满意度等多条信息进行模型优化，最终发现采用精准营销策略的酒庄销量更好。陈兴喆等利用Web日志挖掘技术，掌握用户的行为模式，实现了针对用户个人的精准推荐，避免了“千人一面”的问题。Yiqun Liu等构建点击行为模型，使得到的文档不总是与用户的查询相关，但是用户点击的部分最有可能满足用户的需求，从点击率的角度实现了精准推荐。由此可见，合理地使用推荐算法来对平台进行优化可以创造更大的价值。

多样性对于确保复杂系统长期生存具有重要作用，通常比较常见的多样性有生物领域，政治领域，科学领域以及经济领域等。推荐平台的广泛使用(今日头条，抖音等)让研究者对如何量化用户行为的多样性产生思考。对于如何衡量推荐算法的多样性，现在还没有一个完全统一的标准，大多数方法还是通过余弦相似度，欧氏距离以及逆皮尔逊系数来衡量。

现在的推荐系统的流程分为：建立用户、项目评价关系模型—相似性计算—预测用户喜好—推荐性能评估，在推荐性能评估这部分，主要还是准确性的评价更多，推荐系统越准确，表明推荐效果越好。但是在评价过程中忽略了用户接受信息的多样性，用户获取信息的机会被剥夺。

发明内容

本发明的目的在于：推荐系统的多样性的量化方法，以解决当今数据量庞大，但现有的推荐系统缺乏评价指数的问题。

本发明采用的技术方案如下：

推荐系统的多样性的量化方法，包括如下步骤：

步骤1、从日志中获取URL及用户信息，并根据分类词提前设定URL种类，将相关信息保存在同一文件中；

步骤2、编写程序将URL进行分类并初次筛选，将可分类且分类项明确的URL保存下来，形成类别—URL—用户的三部图；

步骤3、将所得的三元组中的值导入MySQL数据库中，再从中筛选重复数据，第二次筛选将用户访问URL次数大于2次的筛选出来，再将其根据类别分别导出，得到了多个类别的三部图；

步骤4、将三部图思想编入程序中并进行计算，得到Herfindahl多样性指数以及校准的Herfindahl多样性指数，将各类别的校准的多样性指数与其在总类别中所占的比例进行计算，得到推荐系统的多样性指数：

其中，S表示推荐系统的名称，T表示URL的类别的集合，v表示在T集合中的某一个类别，count(v)表示v类别下的URL总数，count(T)表示在T集合中的所有类别的URL总数,⊥为用户的集合，u表示在⊥集合中的某一用户节点,chd(v,u)表示类别v的校准的Herfindahl多样性指数的值，chd(S)表示推荐系统的校准的Herfindahl多样性指数的值。

本申请的技术方案中：提出基于三部图校准的Herfindahl多样性指数，通过该指数来量化推荐系统的多样性。首先，根据设定好的分类方式进行URL分类；进而设计形成用户—URL—类别的三部图；其次，对原本的Herfindahl指数进行改良，从而有效地减少数量的差异对多样性的影响；最后，结合改良的Herfindahl多样性指数，得到推荐系统的多样性指数，对推荐系统类别受众多样性进行量化，在评价推荐系统时，将本申请的多样性指数纳入评价体系中，将其作为评价标准之一，同时也可以对推荐系统的优化以及推荐算法的改良提供帮助。

优选的，步骤4中Herfindahl多样性指数，将形式上的随机游走用概率分布来表示，即定义T类别和⊥用中的节点u的Herfindahl指数为：

其中，T为URL类别的集合，⊥为用户的集合，p表示概率，u表示在⊥集合中的某一用户节点，v表示在T集合中的某一个类别，hd(T,u)表示用户u在集合T中的Herfindahl指数的值。

优选的，步骤4中校准的Herfindahl多样性指数为：chd(T,u)，

其中，Rand(T)表示用户访问URL时，在T集合下的随机访问形成的三部图，T为URL类别的集合，u表示在⊥集合中的某一用户节点，chd(T,u)表示集合T的校准的Herfindahl多样性指数的值，hd(Rand(T),u)表示用户u在随机生成的集合Rand(T)中的Herfindahl指数的值，hd(T,u)表示用户u在集合T中的Herfindahl指数的值。

优选的，URL三部图是将一个独立集合上的点与另一个独立集合的点联系起来，定义为三元组B＝(T,⊥,E)，并根据搜狗搜索引擎日志中的信息构造三部图，具体的，将T定义为URL类别的集合，⊥定义为用户的集合，

是URL类别与用户联系关系的集合；对于每个节点v∈T，定义其相邻点集合N(v)＝{u∈⊥|(v,u)∈E}并且通过类似的方式定义节点u∈⊥，相邻点集合N(u)＝{v∈T|(u,v)∈E}；相邻点的集合大小称为度：d(u)＝|N(u)|；同样，定义一个二部图来表示URL与类别之间的关系，在此基础上，将两个二部图合并起来为了分析用户活动的完整结构形成一个三部图T＝(T,X,⊥,E₁,E₂)，其中，T是URL的类型的集合，X是URL的集合，⊥是用户的集合，

是URL类型与URL关系的集合，

是URL与用户关系的集合。

更为优选的，用户及URL的访问次数的权重函数

将加权度定义为：

通过三部图，分析T的双向投影来对类别与用户活动的关系进行分析，将双向投影定义为Pr(T)＝(T,⊥,E_Pr(T))，其中

若三部图是加权的，则投影会得出的加权函数

将其定义为：

其中，T为URL类别的集合，u表示在⊥集合中的某一用户节点，v表示在T集合中的某一个类别，z表示在X集合中的某一条URL，

表示类别v与用户u之间的双向投影的加权函数，w_E2(u,z)表示在关系集合E₂上，用户u与URL集合中的某项z的加权函数，N(v)表示v的相邻点集合，N(u)表示u的相邻点集合，

三部图设置完成后，在分析用户与类别的关系时，舍弃常用的距离量化，而依赖三部图中的随机游走，计算不同URL属于类别v的概率分布，定义任意节点v∈T，z∈X，定义从z到v的概率为：

其中，T是URL的类型的集合，X是URL的集合。v表示在T集合中的某一个类别，z表示在X集合中的某一条URL，w(z,v)表示URL集合中的节点z到类别v的加权函数，d_w(z)表示URL集合中的节点z的加权度，

同理，对任意节点z∈X，u∈⊥，定义从u到z概率为：

其中，X是URL的集合，⊥是用户的集合u表示在⊥集合中的某一用户节点，z表示在X集合中的某一条URL，w(u,z)表示用户u到URL集合中的节点z的加权函数，d_w(u)表示用户集合中的节点u的加权度，

得到从u到v的概率是：

其中，T是URL的类型的集合，X是URL的集合，⊥是用户的集合，u表示在⊥集合中的某一用户节点，z表示在X集合中的某一条URL，v表示在T集合中的某一个类别。

本申请中，Herfindahl为赫芬达尔；

URL：Uniform Resource Locator,统一资源定位器；

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，对推荐系统类别受众多样性进行量化，在评价推荐系统时，将本申请的多样性指数纳入评价体系中，将其作为评价标准之一；

2、本发明中，同时也可以对推荐系统的优化以及推荐算法的改良提供帮助；

3、本发明中，三部图可以很好地反映顶部节点与底部节点间的联系，从而为研究用户行为以及分析类别受众提供帮助；

4、本发明中，将用户访问的随机性定义为从⊥到T的概率分布，通过对概率进行计算，从而可以进行量化；

5、本发明中，通过对搜狗搜索引擎的用户日志进行分析研究，发现实验所得的推荐系统的多样性指数可以实现对推荐系统多样性的描述。

附图说明

图1为本发明类别1与类别3的三部图；

图2为本发明URL三部图；

图3为本发明用户与类别的双向投影；

图4为本发明实施例5中的二部图；

图5为本发明实施例5中的三部图；

图6为本发明各类别及其URL数量；

图7为本发明各类别的Herfindahl多样性指数；

图8为本发明各类别的Herfindahl多样性指数与类别数量的关系；

图9为本发明校准的赫芬达尔多样性指数与类别数量的关系；

图10为本发明各类别的Richness丰富度指数；

图11为本发明各类别的优势度指数；

图12为本发明各类别的香农指数。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

推荐系统的多样性的量化方法，包括如下步骤：

多样性指数的构建方法主要是根据URL三部图的构造思想，用Python语言编程，对三部图进行复现，并结合随机游走的概率分布来计算Herfindahl多样性指数以及校准的Herfindahl多样性指数。

实施例2

如图1所示，在实施例1的基础上，赫芬达尔多样性指数(Herfindahl diversityindex)将形式上的随机游走用概率分布来表示，即定义T类别和⊥用户中的节点u的Herfindahl指数为：

当Herfindahl指数高时，表明类别更趋于均匀分布；当Herfindahl指数低时，则表明该类别受众更集中。Herfindahl指数的值是以类别数为限制的，当分布均匀时就达到了这个上限。在三部图中，本申请对类别1和类别3进行分析：

类别1和类别3均访问了两个URL，用户2和用户4的三部图如图1所示。

类别1(C₁)其赫芬达尔系数通过计算可知

类别3(C₃)的赫芬达尔系数hd(C₃)＝2，类别1的值更大，可以说明类别1的受众多样性更广泛，而事实也是如此。通过这种方式实现了多样性的量化。

实施例3

在实施例2的基础上，步骤4中校准的Herfindahl多样性指数为：chd(T,u)，

在该随机三部图形成过程中，假设用户访问次数是恒定的，访问任何URL都是随机选择的，校准的多样性指数可以将用户访问过程中对不同量的类别所产生的Herfindahl指数的差异进一步缩小。

实施例4

如图2和图3所示，在实施例1的基础上，URL三部图是将一个独立集合上的点与另一个独立集合的点联系起来，定义为三元组B＝(T,⊥,E)，并根据搜狗搜索引擎日志中的信息构造三部图，具体的，将T定义为URL类别的集合，⊥定义为用户的集合，

是URL类型与URL关系的集合，

是URL与用户关系的集合。URL三部图如图2所示。

对相关信息设置权重函数：用户及URL的访问次数的权重函数

将加权度定义为：

如图3所示；若三部图是加权的，则投影会得出的加权函数

将其定义为：

表示类别v与用户u之间的双向投影的加权函数，

表示在关系集合E₂上，用户u与URL集合中的某项z的加权函数，N(v)表示v的相邻点集合，N(u)表示u的相邻点集合，

同理，对任意节点z∈X，u∈⊥，定义从u到z概率为：

得到从u到v的概率是：

实施例5

如图4和图5所示，在实施例1的基础上，二部图又称为二分图，设G＝(V,E)是一个无向图，如果顶点V可分割为两个互不相交的子集A和B，并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B)，则称图G为一个二部图，如图4所示，图1中二部图可以记为G＝(A,B,E)。三部图是在二部图的基础上增加了C集合，并且通过某种联系，将三个集合联系在一起，假设在A集合与B集合之间找到中间联系C集合，三部图如图5所示。

试验例

如图6-9所示，本次实验的数据来源于搜狗实验室，通过分类词筛选，得到了929588个用户，1801560条记录和17个类别。

数据的类别与URL数量的关系如图6所示。从图6中可以看出，关于招聘的信息查询量较少，调查访问最多的类是国内信息以及娱乐方面的信息。因为招聘类提供的信息较少，所以将招聘类去除。对数据进行统计分析，将日志中访问网站的次数大于2次的用户筛选出来。最终得到了902065个用户，715415条URL，16个类别。

从图7中可以看到，各类别的多样性指数与URL数量的分布类似，这时考虑Herfindah l的多样性可能与什么因素相关。结合本申请校准的赫芬达尔指数部分的内容，可以从量的角度思考。

从图8中可以较为明显地发现，国内、教育、娱乐的数量相较于其他类别来说更为庞大，所以这三者的多样性指数更高，这样是无法实现多样性指数引入的初衷的，此外，根据类别分析，可以发现国内与国际这两个类不同于其他类，故本申请将类别分为两组，采用不同标记表示：一组是按照区域划分的含有国内与国外两个元素，另一组是按照内容划分的其他十三四个元素。因此，为了使多样性得分仅捕捉到多样性而不被数量所影响，采用了改进Herfindahl多样性指数的办法。校准的赫芬达尔多样性(Calibrated Herfindahldiversity)与数量的关系如图9所示。按本申请校准的赫芬达尔指数的模型建立方式构造校准的赫芬达尔多样性指数。通过图9可以观察到在引入随机行走模型后，“旅游”这个数量较少的类与“国内”这个数量较大的类具有相似的多样性指数。此外还可以看出：校准的多样性指数的区间范围大都在0-0.7的范围内。而“社会”类的校准值过高，这是因为这个类数量相对较少并且在用户的访问记录中有多条相同的URL访问记录。从图中可以看出，这个指数的提出不能完全将量的影响剥离，一个类别的访问量更多就说明该类别的受众更多，说明该类别可以有更多的机会吸引更广泛的受众。而本申请提出的改进指数在一定程度上有效地减少类别的量对多样性的影响。

最后，运用公式(7)进行计算，算得搜狗搜索引擎的推荐系统得分为：

至此，本申请实现了推荐系统多样性的量化，并得到了推荐系统的多样性指数。通过此模型得到的多样性指数可以很好地作为推荐系统的评价参数。

对比例

如图10-12所示，本申请中的Herfindahl指数是通过随机游走来实现一种均匀分布的量化方式，在本对比例中，对其他多样性指数试验，并与本申请Herfindahl多样性指数进行对比：

各多样性指数及多样性指数公式如表1。

表1各多样性指数及多样性指数公式

实验结果如图10，Richness多样性指数理论来源于物种丰富度，在数量更多的类别中，其多样性值更高。图11中的Berger-Parker多样性指数会在各类别中选择概率最大的URL，从所得结果来看，在访问量更多的类别中，整体多样性指数还是更高。并且因为其计算与最大值相关，故容易受极端值影响。图12可以看出，与前两张图类似，“国内”，“娱乐”，“教育”在多样性方面仍然占据优势，而“社会”，“国际”数量较少的类多样性值更低。表明这三种多样性指数不能很好地体现多样性的概念，这些多样性指数无法消除量对其的影响，但是本申请改进的Herfindahl多样性指数可以有效地削减量对其的影响。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.推荐系统的多样性的量化方法，其特征在于，包括如下步骤：

步骤2、编写程序将URL进行分类并初次筛选，将可分类且分类项明确的URL保存下来，形成类别—URL—用户的三部图，URL—用户的三部图是将一个独立集合上的点与另一个独立集合的点联系起来，定义为三元组B＝(Τ,⊥,E)；

步骤3、将所得的三元组中的值导入MySQL数据库中，再从中筛选重复数据，第二次筛选将用户访问URL次数大于2次的筛选出来，再将其根据类别分别导出，得到多个类别的三部图；

其中，S表示推荐系统的名称，T表示URL的类别的集合，v表示在T集合中的某一个类别，count(v)表示v类别下的URL总数，count(Τ)表示在T集合中的所有类别的URL总数,⊥为用户的集合，u表示在⊥集合中的某一用户节点,chd(v,u)表示类别v的校准的Herfindahl多样性指数的值，chd(S)表示推荐系统的校准的Herfindahl多样性指数的值；

步骤4中Herfindahl多样性指数，将形式上的随机游走用概率分布来表示，即定义T类别和⊥用户中的节点u的Herfindahl指数为：

其中，T为URL类别的集合，⊥为用户的集合，p表示概率，u表示在⊥集合中的某一用户节点，v表示在T集合中的某一个类别，hd(Τ,u)表示用户u在集合T中的Herfindahl指数的值；

步骤4中校准的Herfindahl多样性指数为：

其中，Rand(Τ)表示用户访问URL时，在T集合下的随机访问形成的三部图，T为URL类别的集合，u表示在⊥集合中的某一用户节点，chd(T,u)表示集合T的校准的Herfindahl多样性指数的值，hd(Rand(Τ),u)表示用户u在随机生成的集合Rand(T)中的Herfindahl指数的值，hd(Τ,u)表示用户u在集合T中的Herfindahl指数的值。

2.根据权利要求1所述的推荐系统的多样性的量化方法，其特征在于，定义为三元组B＝(Τ,⊥,E)，并根据搜狗搜索引擎日志中的信息构造三部图，具体的，将Τ定义为URL类别的集合，⊥定义为用户的集合，是URL类别与用户联系关系的集合；对于每个节点v∈Τ，定义其相邻点集合N(v)＝{u∈⊥|(v,u)∈E}并且通过类似的方式定义节点u∈⊥，相邻点集合N(u)＝{v∈Τ|(u,v)∈E}；相邻点的集合大小称为度：d(u)＝|N(u)|；同样，定义一个二部图来表示URL与类别之间的关系，在此基础上，将两个二部图合并起来为了分析用户活动的完整结构形成一个三部图T＝(Τ,X,⊥,E₁,E₂)，其中，Τ是URL的类型的集合，X是URL的集合，⊥是用户的集合，是URL类型与URL关系的集合，是URL与用户关系的集合。

3.根据权利要求2所述的推荐系统的多样性的量化方法，其特征在于，用户及URL的访问次数的权重函数将加权度定义为：通过三部图，分析Τ的双向投影来对类别与用户活动的关系进行分析，将双向投影定义为Pr(Τ)＝(Τ,⊥,E_Pr(Τ))，其中若三部图是加权的，则投影会得出的加权函数将其定义为：

其中，T为URL类别的集合，u表示在⊥集合中的某一用户节点，v表示在T集合中的某一个类别，z表示在X集合中的某一条URL，表示类别v与用户u之间的双向投影的加权函数，表示在关系集合E₂上，用户u与URL集合中的某项z的加权函数，N(v)表示v的相邻点集合，N(u)表示u的相邻点集合，

三部图设置完成后，在分析用户与类别的关系时，舍弃常用的距离量化，而依赖三部图中的随机游走，计算不同URL属于类别v的概率分布，定义任意节点v∈Τ，z∈X，定义从z到v的概率为：

其中，Τ是URL的类型的集合，X是URL的集合，v表示在T集合中的某一个类别，z表示在X集合中的某一条URL，w(z,v)表示URL集合中的节点z到类别v的加权函数，d_w(z)表示URL集合中的节点z的加权度，

同理，对任意节点z∈X，u∈⊥，定义从u到z概率为：

得到从u到v的概率是：

其中，Τ是URL的类型的集合，X是URL的集合，⊥是用户的集合，u表示在⊥集合中的某一用户节点，z表示在X集合中的某一条URL，v表示在T集合中的某一个类别。