CN108304479A - 一种基于图结构过滤的快速密度聚类双层网络推荐方法 - Google Patents
一种基于图结构过滤的快速密度聚类双层网络推荐方法 Download PDFInfo
- Publication number
- CN108304479A CN108304479A CN201711469928.4A CN201711469928A CN108304479A CN 108304479 A CN108304479 A CN 108304479A CN 201711469928 A CN201711469928 A CN 201711469928A CN 108304479 A CN108304479 A CN 108304479A
- Authority
- CN
- China
- Prior art keywords
- user
- comment
- cluster
- score
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图结构过滤的快速密度聚类双层网络推荐方法,所述方法包括以下步骤:1)首先依据历史用户评论信息通过TextGAN自动生成模拟评论数据作为准确标注类标的与真实样本极为相似的虚假评论;2)将历史真实评论和标注虚假的模拟评论作为输入,考虑到生成的虚假评论与真实评论极为相似,设计一种研究用户访问记录的基于图的虚拟信息过滤器,通过不断迭代用户、商店和评论的置信度检测虚假用户与虚假评论;3)为了结果推荐数据的稀疏性的问题,设计基于快速密度聚类双层网络的推荐方法,该方法能够实现参数的自适应选取,并得到较好的聚类结果,从而可以获得更为有效的用户的个性化推荐列表,提高推荐的准确率。本发明利用对抗生成网络生成与真实评论数据极为相似的虚假样本,并提出了一种高效可靠的基于图结构过滤的快速密度聚类双层网络推荐方法。
Description
技术领域
本发明属于信息推荐方法,涉及一种基于图结构过滤的快速密度聚类双层网络推荐方法。
背景技术
随着网络技术飞速发展,信息交换日益频繁,带来了信息选取的困难。用户在面对大量信息时无法从中获取有效的信息,即信息过载问题,而推荐系统则应运而生。在实际情况中,推荐系统会对用户的选择产生影响,而一些商店为了最大化个人利益则会利用虚假用户与虚假评论增加目标商店推荐的概率,并降低其他相似商店的推荐概率。因此实现有效的虚假评论过滤并实现精准推荐至关重要。
推荐技术包括基于内容推荐、基于知识推荐和协同过滤推荐等,其中基于内容推荐和基于知识推荐均基于对象的内容进行推荐,不依赖于用户对商店的评分。协同过滤推荐则能够为用户找到与自己喜好相似的人或者与自己喜爱的商店相似的商店进行推荐,效果良好并应用广泛。其次,大多的推荐系统存在用户-项目关联矩阵稀疏的问题,即用户对项目的评价或者消费记录较少。为目标用户寻找相似用户时,数据稀疏直接影响推荐结果的准确性。将聚类引入到推荐系统中,为解决数据稀疏性提供思路。基于聚类的推荐系统通过将大量稀疏数据压缩成一系列密集子集来解决数据稀疏性的问题。Xue等人利用K-means聚类算法对用户进行聚类,为每个用户在所在簇中选取K个最相似度的用户作为临近用户;Guo等人提出了一种依据评分信息与社区信任关系不断对用户进行迭代聚类的聚类推荐算法。由于聚类结果会对基于聚类的推荐算法产生较大的影响,而聚类算法普遍存在聚类中心难以确定和参数的鲁棒性较差的问题,直接影响推荐效果。
推荐方法能够较好的解决信息过载等问题,但容易会被数据库中包含的虚假信息影响。为了降低虚假信息对推荐系统的影响,需要在推荐系统中引入过滤器,检测并剔除虚假信息。随着Jindal等人首次提出虚假用户和虚假评论检测的问题,在虚假信息检测领域的研究也逐步增加。基于监督学习的过滤器能够有效的检测虚假信息,但是基于监督学习的过滤器特别依赖于标记类标的数据的训练。在训练集较少的情况下,基于监督学习的过滤器的过滤效果欠佳。
发明内容
为了能够有效的过滤虚假用户和虚假信息对推荐系统的影响,并且为了克服已有推荐方法的效率较低、可靠性较差的不足,本发明提供了一种高效可靠的基于图结构过滤的快速密度聚类双层网络推荐方法。
本发明解决其技术问题所采用的技术方案是:
一种基于图结构过滤的快速密度聚类双层网络推荐方法,所述方法包括以下步骤:
1)依据历史用户评论信息通过基于TextGAN生成器自动生成模拟评论数据作为准确标注类标的虚假评论,所生成的评论信息与真实评论记为相似;
2)考虑到虚假评论的与真实评论极其相似,本文依据用户的访问信息设计基于图的虚拟信息过滤器,计算用户和评论的置信度过滤虚假信息;
3)设计基于快速密度聚类双层网络的推荐方法,快速的、高效的获得用户的个性化推荐列表。
进一步,所述步骤1)中,基于TextGAN的虚拟评论生成,是以部分真实历史评论作为输入,依据TextGAN生成较为相似的作为攻击数据的虚拟评论;
基于TextGAN的自动点评技术能根据输入的文本语句生成与输入相似的评论信息;生成的模拟评论信息按照文本表达的不同情感给予不同的评分,情感分析的目的是根据评论中情感词,对每条评论判断它们的倾向,将其分为积极倾向或者消极倾向,对于每个单词的每种用法都有相应的积极得分与消极得分,将积极得分Ps与消极得分Ns相减,得到该单词这种用法的得分Score:
Score=PsNs (1)
最终每个词的得分的取值在[-1,1]之间,大于0时我们认为这个单词的这种用法具有积极倾向,反之则具有消极倾向;
为了给评论文本添加评分信息,提取除了特征外能够表示情感倾向的形容词、副词、动词和名词作为情感词,累加句子中所有中情感词的得分,并同时考虑生成该评论的真实评论样本的评分均值,计算得到该语句的最终得分。
再进一步,所述步骤2)中,用户和项目的网络主要由三部分构成:用户节点、项目节点和评分信息,基于图结构的过滤器为这些元素设置相应的置信度计算法则,通过多次迭代的方法过滤出虚拟的用户节点和评分信息;
对于任意一个用户节点u,其置信度用Hu表示:
其中nu表示用户节点u留下的评分信息数,表示用户u的第i条评分的置信度;
为将用户的置信度限制在一定的区间内,令
其中T(u)∈(-1,1)。由于T(u)和Hu之间的关系一一对应,且T(u)的有界性更适合后续过程中用户置信度阈值的设置,故最终使用T(u)表示用户节点u的置信度;
对于任意评分信息v,其置信度H(v)的计算公式为:
其中φv表示评论v的目标项目,R(φv)表示该目标项目的置信度,A(v)则表示用户置信度对v置信度的影响;
对于任意项目t,它的置信度R(t)的计算公式为:
其中
Ut表示访问过项目t的用户集合,ψv表示t和r之间评分信息的具体分值,α是衡量评分信息性质的阈值参数;
先初始化所有的T(u)和R(t)为1,计算出每条评分信息的置信度H(v);当H(v)计算完毕后,再按顺序依次计算T(u)和R(t);接着可根据更新后的T(u)和R(t)计算下一轮的H(v),如此迭代多次后,T(u),H(v)和R(t)将逐渐收敛稳定,算法将输出T(u),H(v)和R(t)的最终值。
T(u)和H(v)的值域均为(-1,1),提出了一种根据置信度的频度分布来快速确定置信度阈值的方法,若设定的置信度阈值能落在频度分布双高峰之间的低谷处,则能有效对虚拟用户和真实用户进行区分,最终完成对虚拟用户节点的过滤。
所述步骤3)中,采用基于快速密度聚类的双层网络推荐方法,包括以下步骤:
3.1)提取用户和项目的特征信息,并分别依据其特征信息对用户上项目进行聚类;
3.2)建立双层二分网络模型,根据网络结构和聚类结果进行最终推荐。
所述步骤3.1)中,采用快速确定聚类中心的算法,
定义1:对于任意的样本点i,其局部密度ρi的计算公式为:
ρi=∑ξ(dij-dc) (7)
其中dij表示样本点i和样本点j之间的距离值;
定义2:对于任意样本点i,其最小距离δi为局部密度大于该点的所有点中离点i的最小距离值。
δi=min(dij)(ρj≥ρi) (9)
考虑到自动确定聚类中心的算法存在的问题,引入变量γ,其定义为:
γi=ρi×δi (10)
依据γ的定义得到γ的概率密度分布,从其分布可以发现它的形状近似于正态分布,依据近似正态分布曲线计算置信区间,通过置信区间确定奇异点;
假设对应的γ均是服从均值为μ,标准差为σ,的正态分布,为确定均值和标准差时,首先计算出样本均值和样本方差S,再根据矩估计原理,则可得:
对一个数据集的γ密度分布图进一步分析,发现所有数据的γ值均为非负,在这一点上说明对于任意数据点i,其γ值的分布并非严格的正态分布,因为在γ值为负的区间内存在数据点的缺失,会对公式(11)的结果造成较大的影响,为能够准确地求取μ和σ的值,需要对缺损的区间内数据进行补全:
先求出样本均值选取范围内样本点,更新得到样本均值再选取范围内样本点,并更新得到样本均值依次不断迭代直到样本均值不再变化或变化非常小,最终样本均值为依据对称性原则,以为对称轴将区间内数据填充到(-∞,0],弥补γ密度分布图在负半轴的数据缺失的问题,依据当前数据计算样本方差S,再利用公式(11)得到μ和σ值;
求出μ和σ的值后,得到一条正态分布曲线,现在根据正态分布的5σ原则选取置信区间以找出奇异点,过程为:
设置边界值Wide=μ+5σ,将数据集中所有点的γ值与Wide进行比较。对于数据点i,若γi>Wide,则标记i为聚类中心点。
所述步骤3.2)中,采用双层二部网络框架进行用户的个性化推荐,包括以下步骤:
3.2.1)分别对用户和项目进行聚类,得到用户簇集合和项目簇集合;以用户簇和项目簇为节点,统计用户簇和项目簇之间的访问次数,构建第一层二部网络;对构建的二部网络使用基于二部网络的推荐算法,得到所有用户簇的个性化推荐列表;
3.3.2)对于每个用户簇,选取上一步得到的个性化推荐列表中的前N个项目簇,以用户簇中包含的用户和选中项目簇中包含的项目为节点,以用户和项目之间的评分信息为连边构建第二层二部网络;同样地,对第二层二部网络也使用基于二部网络的推荐算法,最终得到每个用户的个性化推荐列表。
本发明的技术构思为:Goodfellow等人首次提出了生成式对抗网络模型(GAN),该模型在应用实数空间上取得了较大的成功,但在处理离散数据时并没有效果,特别是文本数据。为了使得生成式对抗网络能够有效的处理离散的文本数据,Zhang等人提出了文本生成式对抗网络(TextGAN)。该模型是由生成器和判别器两个部分组成,其中生成器为时间递归神经网络,而判别器为卷积神经网络。
TextGAN的框架以时间递归神经网络生成器,用光滑近似逼近时间递归神经网络的输出,以卷积神经网络为判别器,提取最重要的语义特征进行判别。该框架下的卷积神经网络是由一个卷基层和一个最大池化层组成。最大池化层能够能有效的过滤信息较少的单词,提取出语句中的最重要的特征。
TextGAN框架的目标函数与标准的GAN的目标函数有所不同。TextGAN的目标函数增加了特征匹配的优化函数,其中迭代优化过程包含以下两个步骤:
最小化:
最小化:其中,Σs和Σr分别表示真实的特征向量fs和模拟语句的特征向量fr所对应的协方差矩阵;μs和μr分别表示fs和fr的平均向量。其中第二个损失函数LG是两个多变量高斯分布N(μr,Σr)和N(μs,Σs)之间的Jensen-Shannon散度。
基于聚类的推荐方法:实际数据往往会存在稀疏性而使得传统推荐算法的推荐结果相对较差。将聚类的概念引入到推荐算法中将大量稀疏数据压缩成一系列密集子集,能够有效的解决数据稀疏性的问题。
Joseph等人通过主题模型将用户进行分类,使其能够同时区分出用户的类型(旅客或者司机)和兴趣;Rana等人提出了通过进化算法聚类用户的动态推荐系统;Wang等人利用K-means算法将用户进行聚类,并估计在用户-商店矩阵中的评分,而得到目标用户的偏好;Puntheeranurak等人提出了一种用模糊K-means聚类算法聚类用户的混合推荐算法;Connor等人利用一些列划分算法对项目进行聚类,并计算每个子集的预测值。
虚假信息对推荐系统的影响也日益凸显,虚假信息的检测问题也备受关注。监督学习的方式检测虚假信息是检测技术中最为重要的技术之一。Jindal等人利用监督学习的算法依据评论的重要特征以及用户的特征检测虚假评论,其中重复度较高的评论被认为是虚假评论;Li等人提出了一种依据协同训练的方式检测虚假信息的方法;Lim等人使用行为特征来分析检测评论;Wang等人提出了基于图的过滤算法,依据用户、商店和访问记录之间所存在的关系过滤虚假信息。
虚假信息会对推荐系统的推荐结果产生较大的影响。为了能够提高推荐系统推荐的准确性,需要在推荐系统中添加过滤虚假信息的过滤器,过滤虚假信息,提高推荐准确率。
本发明的有益效果主要表现在:1、采用基于文本生成式对抗网络的自动点评方法。该方法依据历史评论利用对抗生成式网络生成模拟评论,并依据情感分析为每个模拟评论生成评分信息;获得具有准确评论类标信息的数据集;2、设计一种能快速确定节点置信度阈值的基于图的过滤器。基于图的过滤器对用户和项目间评论网络的图结构进行分析,能有效删除网络结构中的虚拟用户节点和虚拟评论信息,提高推荐算法的准确性;3、提出一种基于快速密度聚类的双层网络推荐算法,该算法能够依据数据点的局部密度和最小距离的分布关系确定聚类中心点,实现参数的自适应,并具有较好的聚类结果,从而提高推荐的准确率。
附图说明
图1是基于图结构过滤的快速密度聚类双层网络推荐方法的流程图。
图2是含虚拟信息的用户置信度频度分布图。
图3是聚类推荐方法的基本框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于图结构过滤的快速密度聚类双层网络推荐方法,包括以下步骤:
1)依据历史用户评论信息通过TextGAN自动生成模拟评论数据作为准确标注类标的虚假评论;
2)将历史真实评论和标注虚假的模拟评论作为输入,设计基于图的虚拟信息过滤器,提取真实评论信息。
3)设计基于快速密度聚类双层网络的推荐算法,获得用户的个性化推荐列表。
所述步骤1)中,基于TextGAN的虚拟评论生成,是以部分评分较高的真实历史评论作为输入,依据TextGAN生成评分较高的虚拟评论。同理,以部分评分较低的真实历史评论作为输入生成评分较低的虚拟评论。生成的虚拟评论信息的功能也有两种:(1)评分较高的评论用以增大推荐系统中目标商店的被推荐的概率;(2)评分较低的虚拟评价可以用于降低推荐系统推荐与目标商店相似的商店的概率。
依据TextGAN模型,以Yelp数据集中对餐厅的评论数据为输入数据生成与输入评论相似的虚拟评论。总体来说,在Yelp数据集上的评论信息往往伴随着用户对项目的评分信息。评分信息的取值为1-5之间的整数,在处理数据时可以以3为分界判定用户对项目的情感倾向。若评分信息大于3分,则说明用户对项目的情感倾向为正;反之则为负。通过这种方法,我们能有效甄别用户评论信息的情感倾向,将其大致分为积极倾向评论和消极倾向评论两类并标记类标。
基于TextGAN的自动点评技术能根据输入的文本语句生成与输入相似的评论信息。其情感倾向与输入文本语句的情感倾向保持一致。以生成积极倾向的评论信息为例,我们需要将Yelp数据集中大量的积极倾向评论作为输入进行模型的训练,并根据模型输出虚拟评论信息。其中真实的输入样本例如:“Very nice and clean place to havebreakfast or lunch”等大量文本语句。生成的虚拟评论如:“Great food and service.”和“It was amazing.I am a fan,and the service was really great.”。
生成的模拟评论信息按照文本表达的不同情感给予不同的评分。情感分析的目的是根据评论中情感词,对每条评论判断它们的倾向,将其分为积极倾向或者消极倾向。情感分析的方法有多种,我们选用SentiWordNet。SentiWordNet是一个庞大的字典资源,它包含一个很大的文本文件,存有字典中每一个单词的用法与得分。对于每个单词的每种用法都有相应的积极得分与消极得分,将积极得分Ps与消极得分Ns相减,可以得到该单词这种用法的得分Score:
Score=PsNs (14)
最终每个词的得分的取值在[-1,1]之间,大于0时我们认为这个单词的这种用法具有积极倾向,反之则具有消极倾向。
为了给评论文本添加评分信息,我们提取除了特征外能够表示情感倾向的形容词、副词、动词和名词作为情感词,累加句子中所有中情感词的得分,并同时考虑生成该评论的真实评论样本的评分均值,计算得到该语句的最终得分。
对以上所列举的基于TextGAN生成的虚拟评论为例进行情感分析:
“Great food and service.”:对于句子分析其所得的评分:将其中的“food”和“service”作为特征词,不考虑其对语句情感倾向的影响。根据以上的情感分析可得“Great”在情感词典中所对应的Score=0.25,并由真实输入评论样本的评分均值为4可得,该虚拟评论的评分为4.25。
“It was amazing.I ama fan,and the service was really great.”:将其中“service”作为特征词,根据的情感分析可得,“amazing”所对应的Score=0.15,“great”所对应的Score=0.25,“really”所对应的Score=0.375,并由真实输入评论样本的评分均值为4可得,该虚拟评论的评分为4.75。
所述步骤2)中,Wang等在中首次提出了基于图结构的过滤器。该算法对用户和项目之间的网络关系进行分析,通过简单迭代计算所有用户节点的置信度,最终过滤置信度较低的虚拟用户节点,提高网络推荐算法的抗干扰能力。然而,这种算法不能有效选取用户节点的置信度阈值,过滤效果受数据集影响较大。本文提出了一种能快速确定用户置信度阈值的方法,能有效删除网络中的虚拟用户节点,并提高推荐算法的准确性。
用户和项目的网络主要由三部分构成:用户节点、项目节点和评分信息。基于图结构的过滤器为这些元素设置相应的置信度计算法则,通过多次迭代的方法过滤出虚拟的用户节点和评分信息。
对于任意一个用户节点u,其置信度用Hu表示:
其中nu表示用户节点u留下的评分信息数,表示用户u的第i条评分的置信度。
为将用户的置信度限制在一定的区间内,令
其中T(u)∈(-1,1)。由于T(u)和Hu之间的关系一一对应,且T(u)的有界性更适合后续过程中用户置信度阈值的设置,故最终使用T(u)表示用户节点u的置信度。
对于任意评分信息v,其置信度H(v)的计算公式为:
其中φv表示评论v的目标项目,R(φv)表示该目标项目的置信度,A(v)则表示用户置信度对v置信度的影响。
对于任意项目t,它的置信度R(t)的计算公式为:
其中
Ut表示访问过项目t的用户集合,ψv表示t和r之间评分信息的具体分值,α是衡量评分信息性质的阈值参数。
根据上述描述,不难发现T(u),H(v)和R(t)彼此联系密切。一般情况下,可先初始化所有的T(u)和R(t)为1,计算出每条评分信息的置信度H(v);当H(v)计算完毕后,再按顺序依次计算T(u)和R(t);接着可根据更新后的T(u)和R(t)计算下一轮的H(v),如此迭代多次后,T(u),H(v)和R(t)将逐渐收敛稳定,算法将输出T(u),H(v)和R(t)的最终值。
由于T(u)和H(v)的值域均为(-1,1),在原始基于图的过滤器中,一般直接将0作为T(u)和H(v)的阈值鉴定u和v的真实性。然而,这种方法在面对不同的数据集时会产生较大的过滤差异,从而减少算法的应用范围。为了消除这一弊端,我们提出了一种根据置信度的频度分布来快速确定置信度阈值的方法。
以用户节点为例,由于虚拟的用户节点对项目的评论一般具有靶向性和重复性,所以虚拟用户节点间的置信度差异不会太大,即虚拟节点的置信度将集中在(-1,1)的某一子区间内;而真实用户节点的置信度应普遍高于虚拟节点的置信度。事实上,通过之后的实验分析可以发现,大量真实用户节点的置信度接近于1。因此,用户节点置信度的频度分布图将呈现图2的双高峰形态。若设定的置信度阈值恰好能落在双高峰之间的低谷处,则能有效对虚拟用户和真实用户进行区分,最终完成对虚拟用户节点的过滤。
所述步骤3)中,为了解决基于聚类的推荐算法中存在的问题两个主要问题:用户或者商品的典型类型代表(聚类中心)需要人工确定;相似用户的个性化推荐。采用基于快速密度聚类的双层网络推荐方法,其基本框架如图3所示,主要分两步完成,即:
3.1)提取用户和项目的特征信息,并分别依据其特征信息对用户上项目进行聚类;
3.2)建立双层二分网络模型,根据网络结构和聚类结果进行最终推荐。
所述步骤3.1)中,社交网络数据往往存在较大的数据稀疏性,且由于社交网络数据具有节点众多,节点实时更新添加等特点,传统推荐算法在处理这类数据时会产生极高的时间复杂度且推荐效果不佳。基于聚类的推荐算法能够将大量稀疏数据压缩成一系列密集子集,既能够优化推荐效果,也能够降低算法的时间复杂度。
Rodriguezs等人提出了一种自动确定聚类中心的算法,在该算法中人为聚类中心具有高密度且与密度更高点之间的距离也较大。但是这种聚类算法任然存在两个缺点:无法完全自动的确定聚类中心和密度半径会直接影响聚类的结果。基于这种思想,我们提出了一种快速确定聚类中心的算法,并有效的解决了以上所述的两个问题。
定义1(局部密度):对于任意的样本点i,其局部密度ρi的计算公式为:
ρi=∑ξ(dij-dc) (20)
其中dij表示样本点i和样本点j之间的距离值。
定义2(最小距离):对于任意样本点i,其最小距离δi为局部密度大于该点的所有点中离点i的最小距离值。
δi=min(dij)(ρj≥ρi) (22)
考虑到自动确定聚类中心的算法存在的问题,我们引入变量γ,其定义为:
γi=ρi×δi (23)
依据γ的定义得到γ的概率密度分布,从其分布可以发现它的形状近似于正态分布。依据近似正态分布曲线计算置信区间,通过置信区间确定奇异点。
假设对应的γ均是服从均值为μ,标准差为σ,的正态分布。为确定均值和标准差时,首先计算出样本均值和样本方差S,再根据矩估计原理,则可得:
对一个数据集的γ密度分布图进一步分析,可以发现所有数据的γ值均为非负。在这一点上说明对于任意数据点i,其γ值的分布并非严格的正态分布,因为在γ值为负的区间内存在数据点的缺失,会对公式(24)的结果造成较大的影响。为能够准确地求取μ和σ的值,需要对缺损的区间内数据进行补全:
先求出样本均值选取范围内样本点,更新得到样本均值再选取范围内样本点,并更新得到样本均值依次不断迭代直到样本均值不再变化或变化非常小,最终样本均值为依据对称性原则,以为对称轴将区间内数据填充到(-∞,0],弥补γ密度分布图在负半轴的数据缺失的问题。依据当前数据计算样本方差S,再利用公式(24)得到μ和σ值。
求出μ和σ的值后,我们就能得到一条正态分布曲线,现在根据正态分布的5σ原则选取置信区间以找出奇异点。具体方法为:
设置边界值Wide=μ+5σ,将数据集中所有点的γ值与Wide进行比较。对于数据点i,若γi>Wide,则标记i为聚类中心点。
所述步骤3.2)中,采用双层二部网络框架进行用户的个性化推荐,包括以下步骤:
3.2.1)分别对用户和项目进行聚类,得到用户簇集合和项目簇集合;以用户簇和项目簇为节点,统计用户簇和项目簇之间的访问次数,构建第一层二部网络;对构建的二部网络使用基于二部网络的推荐算法,得到所有用户簇的个性化推荐列表。
3.3.2)对于每个用户簇,选取上一步得到的个性化推荐列表中的前N个项目簇,以用户簇中包含的用户和选中项目簇中包含的项目为节点,以用户和项目之间的评分信息为连边构建第二层二部网络。同样地,对第二层二部网络也使用基于二部网络的推荐算法,最终得到每个用户的个性化推荐列表。
双层网络结构能有效降低原本二分网络的复杂度,提高推荐算法的运行效率;此外,两层网络使用不同的连边构建方法,先通过用户和项目之间的访问记录数量寻找用户簇的强关联性项目簇,再通过具体的评分信息对每个用户进行个性化推荐,这使得推荐算法具有较高的精确度。
Claims (7)
1.一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述方法包括以下步骤:
1)通过历史用户评论信息基于TextGAN自动生成模拟评论数据作为准确标注类标的虚假评论,生成的评论数据与真实评论极为相似,难以使用传统对虚假评论过滤的方法进行检测;
2)将考虑到利用机器学习的方法生成的评论数据难以仅凭传统方法进行过滤,本文设计了一种基于图的虚拟信息过滤器,通过用户的行为特征对掺杂虚假用户的数据进行过滤;
3)设计基于快速密度聚类双层网络的推荐方法,有效的获得用户的个性化推荐列表。
2.如权利要求1所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述步骤1)中,基于TextGAN的虚拟评论生成,是以部分真实历史评论作为输入,依据TextGAN生成与真实样本极为相似的虚拟评论;
基于TextGAN的自动点评技术能根据输入的文本语句生成与输入相似的评论信息;生成的模拟评论信息按照文本表达的不同情感给予不同的评分,情感分析的目的是根据评论中情感词,对每条评论判断它们的倾向,将其分为积极倾向或者消极倾向,对于每个单词的每种用法都有相应的积极得分与消极得分,将积极得分Ps与消极得分Ns相减,得到该单词这种用法的得分Score:
Score=PsNs (1)
最终每个词的得分的取值在[-1,1]之间,大于0时我们认为这个单词的这种用法具有积极倾向,反之则具有消极倾向;
为了给评论文本添加评分信息,提取除了特征外能够表示情感倾向的形容词、副词、动词和名词作为情感词,累加句子中所有中情感词的得分,并同时考虑生成该评论的真实评论样本的评分均值,计算得到该语句的最终得分。
3.如权利要求1或2所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述步骤2)中,用户和项目的网络主要由三部分构成:用户节点、项目节点和评分信息,基于图结构的过滤器为这些元素设置相应的置信度计算法则,通过多次迭代的方法过滤出虚拟的用户节点和评分信息;
对于任意一个用户节点u,其置信度用Hu表示:
其中nu表示用户节点u留下的评分信息数,表示用户u的第i条评分的置信度;
为将用户的置信度限制在一定的区间内,令
其中T(u)∈(-1,1)。由于T(u)和Hu之间的关系一一对应,且T(u)的有界性更适合后续过程中用户置信度阈值的设置,故最终使用T(u)表示用户节点u的置信度;
对于任意评分信息v,其置信度H(v)的计算公式为:
其中φv表示评论v的目标项目,R(φv)表示该目标项目的置信度,A(v)则表示用户置信度对v置信度的影响;
对于任意项目t,它的置信度R(t)的计算公式为:
其中
Ut表示访问过项目t的用户集合,ψv表示t和r之间评分信息的具体分值,α是衡量评分信息性质的阈值参数;
先初始化所有的T(u)和R(t)为1,计算出每条评分信息的置信度H(v);当H(v)计算完毕后,再按顺序依次计算T(u)和R(t);接着可根据更新后的T(u)和R(t)计算下一轮的H(v),如此迭代多次后,T(u),H(v)和R(t)将逐渐收敛稳定,算法将输出T(u),H(v)和R(t)的最终值。
4.如权利要求3所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,T(u)和H(v)的值域均为(-1,1),提出了一种根据置信度的频度分布来快速确定置信度阈值的方法,若设定的置信度阈值能落在频度分布双高峰之间的低谷处,则能有效对虚拟用户和真实用户进行区分,最终完成对虚拟用户节点的过滤。
5.如权利要求1或2所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述步骤3)中,采用基于快速密度聚类的双层网络推荐方法,具体包括以下步骤:
5.1)提取用户和项目的特征信息,并分别依据其特征信息对用户上项目进行聚类;
5.2)建立双层二分网络模型,根据网络结构和聚类结果进行最终推荐。
6.如权利要求5所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述步骤3)中,采用快速确定聚类中心的算法,具体包括以下步骤:
定义1:对于任意的样本点i,其局部密度ρi的计算公式为:
ρi=∑ξ(dij-dc) (7)
其中dij表示样本点i和样本点j之间的距离值;
定义2:对于任意样本点i,其最小距离δi为局部密度大于该点的所有点中离点i的最小距离值。
δi=min(dij)(ρj≥ρi) (9)
考虑到自动确定聚类中心的算法存在的问题,引入变量γ,其定义为:
γi=ρi×δi (10)
依据γ的定义得到γ的概率密度分布,从其分布可以发现它的形状近似于正态分布,依据近似正态分布曲线计算置信区间,通过置信区间确定奇异点;
假设对应的γ均是服从均值为μ,标准差为σ,的正态分布,为确定均值和标准差时,首先计算出样本均值和样本方差S,再根据矩估计原理,则可得:
对一个数据集的γ密度分布图进一步分析,发现所有数据的γ值均为非负,在这一点上说明对于任意数据点i,其γ值的分布并非严格的正态分布,因为在γ值为负的区间内存在数据点的缺失,会对公式(11)的结果造成较大的影响,为能够准确地求取μ和σ的值,需要对缺损的区间内数据进行补全:
先求出样本均值选取范围内样本点,更新得到样本均值再选取范围内样本点,并更新得到样本均值依次不断迭代直到样本均值不再变化或变化非常小,最终样本均值为依据对称性原则,以为对称轴将区间内数据填充到(-∞,0],弥补γ密度分布图在负半轴的数据缺失的问题,依据当前数据计算样本方差S,再利用公式(11)得到μ和σ值;
求出μ和σ的值后,得到一条正态分布曲线,现在根据正态分布的5σ原则选取置信区间以找出奇异点,过程为:
设置边界值Wide=μ+5σ,将数据集中所有点的γ值与Wide进行比较。对于数据点i,若γi>Wide,则标记i为聚类中心点。
7.如权利要求6所述的一种基于图结构过滤的快速密度聚类双层网络推荐方法,其特征在于,所述步骤3)中,采用双层二部网络框架进行用户的个性化推荐,具体包括以下步骤:
7.1)分别对用户和项目进行聚类,得到用户簇集合和项目簇集合;以用户簇和项目簇为节点,统计用户簇和项目簇之间的访问次数,构建第一层二部网络;对构建的二部网络使用基于二部网络的推荐算法,得到所有用户簇的个性化推荐列表;
7.2)对于每个用户簇,选取上一步得到的个性化推荐列表中的前N个项目簇,以用户簇中包含的用户和选中项目簇中包含的项目为节点,以用户和项目之间的评分信息为连边构建第二层二部网络;同样地,对第二层二部网络也使用基于二部网络的推荐算法,最终得到每个用户的个性化推荐列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711469928.4A CN108304479B (zh) | 2017-12-29 | 2017-12-29 | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711469928.4A CN108304479B (zh) | 2017-12-29 | 2017-12-29 | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304479A true CN108304479A (zh) | 2018-07-20 |
CN108304479B CN108304479B (zh) | 2022-05-03 |
Family
ID=62868047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711469928.4A Active CN108304479B (zh) | 2017-12-29 | 2017-12-29 | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304479B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508740A (zh) * | 2018-11-09 | 2019-03-22 | 郑州轻工业学院 | 基于高斯混合噪声生成式对抗网络的物体硬度识别方法 |
CN111783980A (zh) * | 2020-06-28 | 2020-10-16 | 大连理工大学 | 基于双重协作生成式对抗网络的排序学习方法 |
CN112950295A (zh) * | 2021-04-21 | 2021-06-11 | 北京大米科技有限公司 | 用户数据挖掘的方法、装置、可读存储介质和电子设备 |
CN112989179A (zh) * | 2019-12-13 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 模型训练、多媒体内容推荐方法和装置 |
CN114241263A (zh) * | 2021-12-17 | 2022-03-25 | 电子科技大学 | 基于生成对抗网络的雷达干扰半监督开集识别系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016062095A1 (zh) * | 2014-10-24 | 2016-04-28 | 华为技术有限公司 | 视频分类方法和装置 |
CN107506480A (zh) * | 2017-09-13 | 2017-12-22 | 浙江工业大学 | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 |
-
2017
- 2017-12-29 CN CN201711469928.4A patent/CN108304479B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016062095A1 (zh) * | 2014-10-24 | 2016-04-28 | 华为技术有限公司 | 视频分类方法和装置 |
CN107506480A (zh) * | 2017-09-13 | 2017-12-22 | 浙江工业大学 | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 |
Non-Patent Citations (3)
Title |
---|
GUAN WANG等: "Review Graph based Online Store Review Spammer Detection", 《IEEE》 * |
JINYIN CHEN等: "Double Layered Recommendation Algorithm Based on Fast Density Clustering: Case Study on Yelp Social Networks Dataset", 《IEEE》 * |
YIZHE ZHANG等: "Generating Text via Adversarial Training", 《IEEE》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508740A (zh) * | 2018-11-09 | 2019-03-22 | 郑州轻工业学院 | 基于高斯混合噪声生成式对抗网络的物体硬度识别方法 |
CN109508740B (zh) * | 2018-11-09 | 2019-08-13 | 郑州轻工业学院 | 基于高斯混合噪声生成式对抗网络的物体硬度识别方法 |
CN112989179A (zh) * | 2019-12-13 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 模型训练、多媒体内容推荐方法和装置 |
CN112989179B (zh) * | 2019-12-13 | 2023-07-28 | 北京达佳互联信息技术有限公司 | 模型训练、多媒体内容推荐方法和装置 |
CN111783980A (zh) * | 2020-06-28 | 2020-10-16 | 大连理工大学 | 基于双重协作生成式对抗网络的排序学习方法 |
CN112950295A (zh) * | 2021-04-21 | 2021-06-11 | 北京大米科技有限公司 | 用户数据挖掘的方法、装置、可读存储介质和电子设备 |
CN112950295B (zh) * | 2021-04-21 | 2024-03-19 | 北京大米科技有限公司 | 用户数据挖掘的方法、装置、可读存储介质和电子设备 |
CN114241263A (zh) * | 2021-12-17 | 2022-03-25 | 电子科技大学 | 基于生成对抗网络的雷达干扰半监督开集识别系统 |
CN114241263B (zh) * | 2021-12-17 | 2023-05-02 | 电子科技大学 | 基于生成对抗网络的雷达干扰半监督开集识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108304479B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304479A (zh) | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN106650725A (zh) | 基于全卷积神经网络的候选文本框生成和文本检测方法 | |
CN110046260A (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN109684636B (zh) | 一种基于深度学习的用户情感分析方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN110363049A (zh) | 图形元素检测识别和类别确定的方法及装置 | |
CN111008337A (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
CN113343126B (zh) | 基于事件与传播结构的谣言检测方法 | |
CN114492423A (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
Yao et al. | Online deception detection refueled by real world data collection | |
Zhang et al. | Research on borrower's credit classification of P2P network loan based on LightGBM algorithm | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
CN107590742B (zh) | 一种基于行为的社交网络用户属性值反演方法 | |
CN108717450A (zh) | 影评情感倾向性分析算法 | |
CN114218445A (zh) | 基于元图动态异构信息网络表示的异常检测方法 | |
CN110069783B (zh) | 一种答题内容评测方法及装置 | |
Kaiser et al. | Ant-based simulation of opinion spreading in online social networks | |
Matapurkar et al. | Comparative analysis for mining fuzzified dataset using association rule mining approach | |
Phuc et al. | Using SOM based graph clustering for extracting main ideas from documents | |
CN110674257B (zh) | 评估网络空间中文本信息真实性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |