CN110119424A

CN110119424A - 基于圆桌流感算法的稀疏信任挖掘方法

Info

Publication number: CN110119424A
Application number: CN201910260582.XA
Authority: CN
Inventors: 李龙鹏; 许光全; 刘梦迪; 胡正迪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-13

Abstract

本发明属本发明属于数据挖掘、信息处理领域，为挖掘出大量被大数据噪声掩盖的稀疏信任关系。通过利用信任的传播性质，挖掘潜在的信任信息。利用此种技术，能够在信任数据被大数据噪声干扰的情况下有效的挖掘信任信息。为此，本发明采取的技术方案是，基于圆桌流感算法的稀疏信任挖掘方法，包括信息预处理步骤，流感信任传递步骤与隐藏信任关系挖掘步骤，其中信息预处理步骤进行信任数据格式化以及信任数据归一化，数据归一化的目的就是为防止不同标准数据对挖掘结果造成影响；流感信任传递步骤通过传递信任计算进行信任挖掘；隐藏信任关系挖掘步骤是对流感传播的信任值进行聚合。本发明主要应用于信息处理、情报获取场合。

Description

基于圆桌流感算法的稀疏信任挖掘方法

技术领域

本发明属于数据挖掘领域，涉及稀疏信任挖掘方向，通过设计一种基于圆桌流感的信任挖掘技术，实现推荐系统对大量信任数据的需求。

背景技术

为缓解推荐系统面临的冷启动与稀疏评价等问题，信任数据被广泛应用于推荐系统。推荐系统中信任信息的挖掘有两种方法：基于信任传播机制和基于信任特征的挖掘方法。

1)基于信任传播机制的挖掘方法

Mole Trust利用用户之间显式的信任关系替代用用户之前的相似度并且允许这种信任关系在信任网络中传播；Tidal Trust同样允许信任信息在信任网络中传播，但用户之间的潜在信任值只有达到了某一阈值才会传播。TrustWalker使信任关系在信任网络中随机游走从而挖掘潜在的信任关系。

2)基于信任特征的挖掘方法

Multi-Faceted Trust and Distrust framework从多方面综合分析信任的建立，根据用户的行为特征挖掘潜在的信任关系。采用基于SVR的挖掘方法，挖掘用户之间的非线性信任关系。

发明内容

为克服现有技术的不足，本发明旨在提出一个新型的基于圆桌流感的稀疏信任挖掘技术。相比最新的技术，它能挖掘出大量被大数据噪声掩盖的稀疏信任关系。通过利用信任的传播性质，挖掘潜在的信任信息。利用此种技术，能够在信任数据被大数据噪声干扰的情况下有效的挖掘信任信息。为此，本发明采取的技术方案是，基于圆桌流感算法的稀疏信任挖掘方法，包括信息预处理步骤，流感信任传递步骤与隐藏信任关系挖掘步骤，其中信息预处理步骤进行信任数据格式化以及信任数据归一化，数据归一化的目的就是为防止不同标准数据对挖掘结果造成影响；流感信任传递步骤通过传递信任计算进行信任挖掘；隐藏信任关系挖掘步骤是对流感传播的信任值进行聚合。

利用softmax函数来归一化稀疏信任：

其中G_ij表示归一化后i对j的信任值，I表示包含所有实体的信任网络，p_ij表示在数列p中实体i对实体j的信任值，如果此时的原始信任值p_ij是0，表示不信任，这被称为信任的稀疏性；如果实体不与任何其他主体客体交互，则自信任值不会出现在矩阵中，或者与其他所有其他主体的信任值都被定义为0，将这种情况下的归一化信任值定义为零，以用于挖掘信任值；而且，只有具有信任值的那些节点被归一化，下列公式中示出了改进的softmax函数。

流感信任传递具体过程如下：

流感信任算法基于信任传递机制，旨在找到邻居传递信任关系：

t_ik＝∑_j∈Ig_ijg_jk

其中t_ik代表实体i对实体k的信任，g_ij,g_jk表示中间实体i对j，j对k的信任值，通过他们的共同邻居来进行信任传递来确认的，共同的邻居在这里也被称为中间实体，中间实体为不具有信任关系的两个实体进行信任值的传递，每个实体变量包括两个信息量：一个与实体结点有信任关系的结点邻接表，用Trustlist(i)表示；另一个是与每个中间实体信任值的集合，表示为Data_set(g_ij)，采用深度优先搜索策略来寻找中间实体，搜索道德实体被标记并存储到堆栈中，而且，搜索到的有效路径被输出并存储到矩阵中，如果在搜索到最后一个实体后仍然不是有效的路径，指针将返回到前一个结点来进行下一个路径的搜索。

隐藏信任关系挖掘具体过程如下：

第一步，选取信任数据，利用模型对信任数据进行预处理，即对信任数据进行格式化以及归一化，计算特征；

第二步，将同一社区的所有实体抽象成一个圆桌，然后根据信任度把实体放在桌面上，直到所有的实体被放置或者圆桌被填满，如果在圆桌上有一个或多个实体仍然没有放置，实体将被淘汰；

第三步，在已建立的多维信任场模型上，基于信任的传递机制，即基于信任场模型的流感信任传递算法，找到邻居传递信任关系；

第四步，根据挖掘信任关系聚合算法对用户之间的信任关系聚合并筛选；

第五步，得出最终的稀疏信任网络，并进一步应用于辅助推荐系统推荐。

本发明的特点及有益效果是：

1.针对目前大数据环境下推荐系统所面临的冷启动与稀疏评价等问题，以及信任数据所面临的稀疏性等问题。该技术能有效降低信任数据的稀疏性。通过将去稀疏化的信任应用到推荐系统，能显著提高推荐系统准确性

2.目前购物网站以及评分网站中普遍存在着恶意刷单，水军的不属实评价等恶意行为，对推荐系统造成了不良影响。本文的研究将从用户行为特征入手，能够减轻恶意行为在信任建立以及推荐中造成的不良影响，增强推荐系统健壮性。

附图说明：

附图1整体架构图。

附图2多维信任场模型图。

附图3稀疏信任关系模型图。

具体实施方式

1.整体架构

本发明涉及的稀疏信任挖掘技术整体结构如附图1所示，主要由三个部分组成，信息预处理模块，流感信任传递模块与隐藏信任关系挖掘模块。其中信息预处理模块包括信任数据格式化以及信任数据归一化，数据归一化的目的就是为防止不同标准数据对挖掘结果造成影响。流感信任传递模块是信任挖掘方法的主体模块。另外，隐藏信任关系挖掘模块是对流感传播的信任值进行聚合。

2.信任数据归一化

实体在同一虚拟社区中有不同的级别。要将所有实体放置在圆桌上，有必要对它们进行标准化。否则，忽视低优先级实体的行为不利于挖掘意向关联。我们利用softmax函数来归一化稀疏信任：

这个函数确保归一化之后的信任值的总和为1。对于在圆桌流感模型中执行几个步骤是重要的。注意，如果此时的原始信任值P_ij是0，表示不信任。这被称为信任的稀疏性。但是，softmax函数也会为它计算一个值G_ij。这是不现实的。并且，这种信任值为0的情况在现实中很常见，所以处理这些实体尤为重要。例如，如果实体不与任何其他主体客体交互，则自信任值不会出现在矩阵中，或者与其他所有其他主体的信任值都被定义为0。在我们的工作中，我们将这种情况下的归一化信任值定义为零，以用于挖掘信任值。而且，只有具有信任值的那些节点被归一化。下列公式中示出了改进的softmax函数。

3.流感信任传递

流感信任算法基于信任传递机制，旨在找到邻居传递信任关系。

t_ik＝∑_j∈Ig_ijg_jk

t_ik代表实体i对实体k的信任，通过他们的共同邻居来进行信任传递来确认的，共同的邻居g_ij,g_jk在这里也被称为中间实体。中间实体为不具有信任关系的两个实体进行信任值的传递。在我们的算法中，每个实体变量包括两个信息量：一个与实体结点有信任关系的结点邻接表，用Trustlist(i)表示；另一个是与每个中间实体信任值的集合，表示为Data_set(g_ij)。我们采用深度优先搜索策略来寻找中间实体。搜索道德实体被标记并存储到堆栈中。而且，搜索到的有效路径被输出并存储到矩阵中，如果在搜索到最后一个实体后仍然不是有效的路径，指针将返回到前一个结点来进行下一个路径的搜索。

4.隐藏信任挖掘

一般来说，社会关系分为单一模式和多种模式。许多学者通过参考其他信息来源(如与其朋友的不活跃用户关系)来解决信任的稀疏性问题。然而，由于跨层关联规则挖掘中存在很多社交关联数据不相关的问题，从单一的友谊或成员获得的信息是有限的。在上面的例子中，j是唯一的中间实体。在我们的工作中，我们考虑了多个社区潜在的信任关系。

在信任网络中，一个实体与另一个实体相连接可有多条路径，路径上经过的实体数量，以及在传播过程中的信任衰减程度各不相同。因此在最后，我们需要对挖掘得到的信任关系进行聚合，通过计算出实体i可以通向实体k的所有路径(r条)，并计算出经过每条路径传播得到的信任值计算所有路径得到信任的平均值，从而得出最终的信任值。

最终的实现形式是一个信任挖掘模型，命名为RGA。利用该模型对潜在信任进行挖掘的流程如下：

第一步，选取信任数据，利用模型对信任数据进行预处理，即对信任数据进行格式化以及归一化，计算特征。

第二步，将同一社区的所有实体抽象成一个圆桌，然后根据信任度把实体放在桌面上，直到所有的实体被放置或者圆桌被填满，如果在圆桌上有一个或多个实体仍然没有放置，实体将被淘汰。

第三步，在已建立的多维信任场模型上，基于信任的传递机制，即基于信任场模型的流感信任传递算法，找到邻居传递信任关系。

第四步，根据挖掘信任关系聚合算法对用户之间的信任关系聚合并筛选。

Claims

1.一种基于圆桌流感算法的稀疏信任挖掘方法，其特征是，包括信息预处理步骤，流感信任传递步骤与隐藏信任关系挖掘步骤，其中信息预处理步骤进行信任数据格式化以及信任数据归一化，数据归一化的目的就是为防止不同标准数据对挖掘结果造成影响；流感信任传递步骤通过传递信任计算进行信任挖掘；隐藏信任关系挖掘步骤是对流感传播的信任值进行聚合。

2.如权利要求1所述的基于圆桌流感算法的稀疏信任挖掘方法，其特征是，利用softmax函数来归一化稀疏信任：

其中G_ij表示归一化后i对j的信任值，I表示包含所有实体的信任网络，p_ij表示在数列p中实体i对实体j的信任值，如果此时的原始信任值p_ij是0，表示不信任，这被称为信任的稀疏性；如果实体不与任何其他主体客体交互，则自信任值不会出现在矩阵中，或者与其他所有其他主体的信任值都被定义为0，将这种情况下的归一化信任值定义为零，以用于挖掘信任值；而且，只有具有信任值的那些节点被归一化，下列公式中示出了改进的softmax函数：

流感信任传递具体过程如下：

t_ik＝∑_j∈Ig_ijg_jk

3.如权利要求1所述的基于圆桌流感算法的稀疏信任挖掘方法，其特征是，隐藏信任关系挖掘具体过程如下：