CN107633444A

CN107633444A - 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法

Info

Publication number: CN107633444A
Application number: CN201710756063.3A
Authority: CN
Inventors: 朱俊; 韩立新
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2018-01-26
Anticipated expiration: 2037-08-29
Also published as: CN107633444B

Abstract

本发明公开了基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其步骤如下：第一步是收集整理目标推荐系统的用户历史评分数据；第二步、使用蒙特卡洛随机模拟，构建用户评分数据的子数据集，运行推荐算法，获取到不同子数据集的信息熵与推荐精度；第三步、对信息熵集合按照不确定性高低进行分类，对推荐精度集合按照推荐精度的高低进行分类，构建经验模型判断潜在自然噪声数据的比例；第四步、对所有的用户评分数据集进行模糊聚类分析，识别并删除噪声数据；第五步、对所有的评分数据集运行推荐算法，使用推荐精度指标评价推荐质量。本发明能够实现用户评分信息的量化度量,提出的自然噪声数据过滤技术具有一定的普适性与移植性。

Description

基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法

技术领域

本发明属于人工智能与机器学习技术领域，涉及一种从海量用户数据消除噪声数据，特别是涉及一种使用信息熵与模糊C均值聚类的噪声数据过滤方法。

背景技术

截止到2017年为止，新浪微博的月活跃人数已达到2.97亿,淘宝用户突破8亿,店铺逾500万家,商品超8亿件。据不完全统计，98％的商品有机会被不同爱好的用户所接受。相关技术人员系统地统计了谷歌、亚马逊、eBay、Netflix等电子平台的销售记录，按销售量倒序排列所有商品形成一个长尾的形状，发现整体销量较低商品的销售总额远超过主要流行商品的销售总额。这种“长尾理论”极大地影响了电子商务界的核心运行原则——二八定律，即总体利润的80％得益于20％主流产品。究其原因，是由于现代通讯与电子信息技术发生的飞快变化导致了用户购买行为的多样性与差异性。如果电影、音乐、图书等商品的电子销售仍停留在发行主流产品的阶段，将造成资源的极大浪费与服务质量的显著降低。因此，发掘目标用户潜在的购买兴趣或偏好就成为了当代商品销售阶段的重要主题。

作为一种特殊的信息过滤系统,推荐系统能够通过分析用户的历史兴趣和个人信息,挖掘用户潜在的偏好信息,并根据现有项目信息给用户推荐相应的商品、服务等。有别于常规的数据挖掘技术，推荐系统并不是针对目标用户的有限的历史信息进行分析,而是分析与目标用户具有相同/相似兴趣的用户群体，进而根据这些用户群体与目标用户的相似度，主动推荐相应的信息给目标用户。基于此，当前的电子商务网站与社交网站均量体裁衣，根据现有商品/服务与目标群体，构建不同的推荐系统。例如，著名的亚马逊、淘宝、eBay、京东等电子商务网站均设计了个性化商品推荐服务；Youtube、爱奇艺、优酷设计了网络视频推荐服务；雅虎、谷歌构建了新闻推荐系统；Netflix、Flixster推出了电影推荐服务；Linkedin、Twitter、Facebook提供了交友推荐功能。

自上世纪90年代,推荐系统技术充分融合了多种学科的相关技术，如近似理论、管理科学、认知科学、信息检索等。推荐系统的设计主要包含了两大功能模块：数据输入与推荐算法。推荐算法是推荐系统输出的主要技术构成，算法效率的高低很大程度上决定了推荐系统的运行效率与推荐结果的准确性。根据设计策略，推荐算法主要包括协同过滤算法、基于内容的过滤算法和混合推荐算法。由于算法假设、需求、设计方法的差异，不同的推荐算法能够应用在不同的应用场景，解决不同的推荐问题。目前，推荐算法研究已取得长足的进步，设计原则与表现形式呈现多样化特征，已很大程度上解决了推荐系统的数据分析功能。

推荐系统的输入数据主要包括用户对项目的评分、商品点击量、社交信息、注册信息、位置信息、购买/浏览记录等。大量的用户群体与琳琅满目的商品导致推荐系统的输入数据量急剧膨胀。传统的解决技术主要包括信息检索和信息过滤，信息检索可以在关键词层次帮助用户获得信息资源，信息过滤则充分利用用户的信息需求,在动态的信息流中,搜索用户感兴趣的信息,并屏蔽无用或不良信息。

然而，推荐系统的输入数据存在着大量的噪声，这些数据显著地影响了推荐结果的质量，尤其是对于个性化推荐系统，这些数据可能会导致推荐结果出现非常大的偏差。有别于常规数据挖掘中的噪声数据，推荐系统中的噪声数据不仅包含了恶意噪声数据(Malicious noise)也包含了自然噪声数据(Natural noise)。恶意噪声数据主要是部分用户对项目(商品/服务)的恶意评分。如果商品的评分范围是1至5,5表示最好，1表示最差，某一用户对所有商品的评价都是最低值(评分为1)或最高值(评分为2)。这些恶意噪声数据具有一定的规律性，能够通过常规的信息过滤技术有效地解决。

自然噪声数据是由于用户行为的不确定性导致的项目评分出现误差，所评价的分值与用户客观的评分具有一定的差异，而不是恶意地对项目进行评价。部分用户本意并不想恶意评分(打分)，但是由于急躁、开玩笑、消遣等缘故，无意中错误的评分(打分)。例如，有些电影网站要求用户至少对20部以上的电影进行打分评价，部分忠实的用户可能就会为了追求快速评分，对个别的电影给出随机的评分结果；如果该用户对受到该电影某一片段影响较大，或对电影的主演、演员阵容非常喜好，则可能给出比一般人高的评价甚至满分；用户行为的差异性也体现在评分习惯方面，如果将一部电影的评分范围设定为1-5，可能部分用户觉得非常好的电影应该评为4分，值得一看的电影应评为3分，而部分用户则可能将5分作为非常好的电影的分值，4分作为值得一看的电影评分。该问题受评分系统的设计影响较大。评分系统包括布尔型评分(如喜欢/不喜欢、是/否)、符号评分(如1-5分的星形符号)、数字评分(如数字1至5)、顺序评分(如好/中/坏)。

这些自然噪声数据较为隐蔽，很难通过格式化、规则化的程序简单地过滤掉。如果将某一商品的评价分值进行聚类，可以发现部分的离散值与自然噪声数据具有显著的相关性。因为这些数据起源于不真实的评分行为，评分数据与其他用户的相似性计算会出现显著的差异。推荐系统日益追求高准确度的推荐，以更好地为用户提供个性化的推荐系统服务，这些自然噪声问题逐步得到了国内外相关领域人员的广泛关注。

目前，推荐系统输入的用户评分数据存在着一定的自然噪声数据，现有技术在处理这些噪声数据方面尚存在一定的局限性，具体归纳起来有以下几点：

(1)搜索引擎能够在关键词层次帮助用户获得信息资源,但是该方法智能化程度较低,无法在知识层面描述用户的信息需求,导致搜索到的信息资源空间非常大。现有信息过滤虽然能够处理动态变化的用户需求，允许用户对需求进行修正和调整，但是其处理手段较为单一，无法甄别用户行为多样性导致的自然噪声数据。

(2)部分自然噪声数据的评分跟正常用户的评分非常相似，因而在计算用户相似度的时候，很容易进入用户的近邻圈中，正常用户对目标项目的推荐评分将发生偏差。用户的评分数据是协作过滤算法的主要输入信息。推荐系统涉及到大量的项目信息,然而绝大部分的用户仅能评价少数的项目，导致用户-项目的评分矩阵非常稀疏。因此，用户评分数据的稀疏性问题已成为限制推荐算法应用的主要问题。

(3)推荐系统很大程度上取决于输入的用户兴趣信息与推荐项目在特征上的相似性。但随着互联网应用的全面发展,互联网上项目与用户的信息量呈现指数级增长态势，传统的特征提取和表示主要依赖于核心信息提取与相似性计算的相关技术,这些技术大多需要较高的计算时间复杂度。随着计算数据量的增加，这些方法的计算量已成为推荐系统应用的瓶颈。如果仅使用部分的用户数据作为输入，又可能导致部分项目的评价数据量不足，进而导致推荐系统无法对部分用户进行高质量的推荐服务。

以上所述现有推荐系统中自然噪声过滤技术的不足，在不同电子商务平台的设计、开发、部署与运行中带来较大困难，尤其是在海量项目信息的网络平台上造成推荐系统服务质量的下降，进而影响电子商务系统的销售业绩。

发明内容

针对现有技术的不足，本发明以过滤用户评分数据的自然噪声数据为目标，设计了一套新的基于信息熵与模糊C均值聚类的自然噪声数据过滤工程技术方案。该技术系统地给出了自然噪声数据的预处理技术流程。同时，考虑到用户行为的多样性特征，本发明创新地提出使用用户距离聚类中心距离的分析模式，提升推荐系统输入数据的准确性，进而强化了推荐系统的服务质量。

本发明的主要目的是在推荐系统运行之前，对输入数据——用户对项目(商品/服务)的评分数据，进行预处理，过滤输入数据中存在的自然噪声数据——用户非客观、非恶意的项目评分。

本发明的基本思想是首先选取原始的用户评分数据，基于蒙特卡洛随机模拟机制，从输入数据中随机选取一部分的数据构建子数据集。使用不同的推荐算法对子数据集进行项目推荐，并应用客观的推荐精度评价指标体系来评价推荐结果。进而使用信息熵来定量分析用户评分数据导致推荐系统推荐性能的不确定性，根据分析结果推导出潜在噪声数据的比例。然后，使用模糊C均值聚类对用户进行聚类，根据噪声数据比例通过分析用户打分行为的相似性来甄别出潜在的噪声数据，最终删除掉自然噪声数据，以期提升推荐系统的推荐质量。

为实现上述发明目的，本发明采用的技术方案为基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，具体包含以下步骤：

步骤1、收集整理目标推荐系统的用户历史评分数据；

步骤2、使用蒙特卡洛随机模拟，构建用户评分数据的子数据集，运行推荐算法，获取到不同子数据集的信息熵与推荐精度；

步骤3、对信息熵集合按照不确定性高低进行分类，对推荐精度集合按照推荐精度的高低进行分类，构建经验模型判断潜在自然噪声数据的比例；

步骤4、对所有的用户评分数据集进行模糊聚类分析，识别并删除噪声数据；

步骤5、对所有的评分数据集运行推荐算法，使用推荐精度指标评价推荐质量，对比自然噪声数据过滤前后不同数据集的推荐精度，评价所提出技术在目标数据集的适用性。

进一步，上述步骤1的具体过程如下：

步骤11，选择目标推荐系统的用户评分数据集R，该数据集由N个用户对M个项目评分所得，具体表达为R＝<U_i，I_j，V_ij>，式中U_i是第i个用户(1≤i≤N)，I_j是第j个项目(1≤j≤M)，V_ij是用户U_i对项目I_j的评分值；

步骤12，将原始用户评分数据集R进行数值化操作，具体方法是：

如果评分系统为符号评分，则将评分值设置为符号数量，为整数，更新R数据集；

如果评分系统为顺序评分，则将评分值设置为相应级别的整数，更新R数据集；

如果评分系统为数字评分，则不做处理；

经过该步骤的处理，R数据集中所有的评分数据为数值型，即整数型或浮点型数值；

步骤13，将上述用户评分数据集R进行归一化操作，将结果映射到[1，10]的区间，数值1表示用户给出了最低的评价，数值10表示用户给出了最高的评价，数值5.5表示用户给出了中等的评价，

具体计算方法为：

式中：V_ij是用户U_i对项目I_j的评分值，min是R中V的最低值，max是R中V的最高值，10为拉深系数；

步骤14，识别、删除恶意噪声数据，具体的筛选条件是：

如果用户i的评分数据满足以下原则之一：(1)所有的评分大于9或均小于2；(2)对于不同项目的评分数值均相等，则将用户i的评分视为恶意噪声数据，删除用户i的评分数据；

否则，保留用户i的评分数据；

更新原始数据集，将删除恶意噪声数据后的用户评分数据集表示为R_Ma，更新用户数量N。

进一步，上述步骤2的具体过程如下：

步骤21，设定蒙特卡洛随机模拟次数为N_Samping，设定计数器n_sam＝0；选择一种推荐算法RS_Algorithm，推荐精度的评价指标为F1，具体计算方法为：

Recall为召回率，具体的计算方法是：

式中：hit_i是被推荐的次数，Rate_i是用户的评分数值，N是用户数量

Precision为准确率，具体的计算方法是：

式中：N_Top是受欢迎项目的排列数目，设置为50；

步骤22，蒙特卡洛随机模拟次数计数器增长：n_sam＝n_sam+1，

如果n_sam>N_Samping，进入步骤26；

否则，进入步骤23；

步骤23，构建蒙特卡洛预测的随机数据集：选择删除恶意噪声数据后的用户评分数据集R_Ma的80％作为建模点R_Ma_train；

步骤24，计算R_Ma_train数据集的信息熵En_n_sam：

En_n_sam＝-∫p(x)ln(x)d_x (5)

式中：p是V_ij的概率分布；

步骤25，对建模评分数据集建模点R_Ma_train运行推荐算法RS_Algorithm，使用十折交叉验证得到推荐精度评价结果F1_n_sam；

步骤26，将上述步骤计算的信息熵与推荐精度评价结果构建两个新的集合En＝{En_1，En_2，…，En_n_sam，…，En_N_Samping}与Me＝{F1_1，F1_2，…，F1_n_sam，…，F1_N_Samping}。

进一步，上述步骤3的具体过程如下：

步骤31，将计算的信息熵集合进行分组：将集合En中所有的信息熵的值从高到低进行排序，最大值为En_max，最小值为En_min：

构建代表不确定较高的信息熵集合HEn∈En，其中的信息熵满足条件：

构建代表不确定中等的信息熵集合MEn＝∈En，其中的信息熵满足条件：

构建代表不确定较低的信息熵集合LEn＝∈En，其中的信息熵满足条件：

最终形成集合En＝{HEn，MEn，LEn}；

步骤32，将计算的推荐精度集合进行分组：将集合Me中所有的信息熵的值从高到低进行排序，最大值为Me_max，最小值为Me_min：

构建指示推荐精度较高的推荐精度集合GMe∈Me，集合的推荐精度满足条件：

构建指示推荐精度中等的推荐精度集合MMe∈Me，集合的推荐精度满足条件：

构建指示推荐精度较低的推荐精度集合BMe∈Me，集合的推荐精度满足条件：

最终形成集合Me＝{GMe，MMe，BMe}；

步骤33，构建判断自然噪声比例的经验模型，根据输入的信息熵En_i与推荐精度F1_i的值判断：

如果En_i∈HEn，且F1_i∈BMe，则设定潜在自然噪声数据的比例为6％；

如果En_i∈MEn，且F1_i∈MMe，则设定潜在自然噪声数据的比例为4％；

如果En_i∈LEn，且F1_i∈GMe，则设定潜在自然噪声数据的比例为2％。

进一步，上述步骤4的具体过程如下：

步骤41，初始化删除恶意噪声数据后的用户评分数据集R_Ma，设定模糊C均值聚类算法的参数：模糊C均值聚类算法的迭代次数为N_Iter，设定计数器n_iter＝0，设定聚类数目Cl＝10，m为加权指数，取值范围为[1，∞]，这里设定为2.0，δ为聚类停止误差，设定为0.001，对隶属度矩阵mem_ij设定随机值，隶属度矩阵满足一下条件：

步骤42，模糊C均值聚类算法的迭代次数计数器增长：n_iter＝n_sam+1，

如果n_iter>N_Iter，进入步骤46；

否则，进入步骤43；

步骤43，构建模糊C均值聚类的目标函数J，具体计算方法为：

式中：Cen是聚类的中心点位置，Cl是聚类的数量，d_ij是点x_j与第i个聚类中心点cen_i的欧式距离，

计算每一个聚类的中心点位置，具体计算方法为：

步骤44，更新隶属度函数矩阵：

步骤45，比较前后的两次的聚类中心，判断模糊C均值聚类结果是否符合要求：

如果||Mem-Mem'||≤δ，则结束迭代，进入步骤46；

否则，进入步骤42；

步骤46，计算每一样点距离聚类中心点位置的相对距离：

式中：D_Absolute表示第j个点到聚类i的欧氏距离，D_Mean表示所有样点到聚类i的欧氏距离的平均值，

根据步骤33构建的经验模型，计算当前数据的信息熵与推荐精度，判断并构建潜在自然噪声数据集R_Na；

步骤47,根据准则判断R_Na集中的样点是否为自然噪声，

定义D_Relative(cen＝max_mem)为数据点u与其最大隶属度聚类中心点的相对距离，D_Relative(cen≠max_mem)为数据点u到其他聚类中心的相对距离，D_Relative(cen∈{1,2，…Cl})为数据点u到聚类中心点cen的相对距离，D_Relative_Other(cen∈{1,2，…Cl})为其余数据点到聚类中心点cen的相对距离，

如果：D_Relative(cen＝max_mem)<D_Relative(cen≠max_mem)

且D_Relative(cen∈{1,2，…Cl})>D_Relative_Other(cen∈{1,2，…Cl})，则将该样点作为自然噪声数据点，从R_Ma数据集中删除该点，

更新目标用户评分数据集R_Ma为R_Ma_Na。

进一步，上述步骤5的具体过程如下：

步骤51,使用推荐算法对用户评分原始数据集(R)、删除恶意噪声的数据集(R_Ma)、删除恶意与自然噪声的数据集(R_Ma_Na)进行分析，使用十折交叉验证得出评价结果F1、F1_Ma、F1_Ma_Na；

步骤52,对比分析不同的推荐结果：

如果F1_Ma_Na>F1且F1_Ma_Na>F1_Ma，说明所提出的降噪技术较好地过滤掉了恶意与自然噪声数据；

如果F1_Ma>F1_Ma_Na且F1_Ma>F1，说明所提出的降噪技术较好地过滤掉了恶意噪声数据，没有很好地过滤掉自然噪声数据；

如果F1>F1_Ma或F1>F1_Ma_Na，说明所提出的降噪技术需要针对该评分数据集进行更新。

本发明的技术特点及有益效果：

(1)本发明提出的基于信息熵的自然噪声数据比例识别方法，能够实现用户评分信息的量化度量。将用户评分信息的信息量与推荐精度进行耦合性分析，能够充分考虑不同输入数据对于推荐系统带来的不确定性。采用“噪声比例识别，用户行为分析”技术，保证分析用户评分行为时不会错误地过滤掉合理的用户数据，修正了传统噪声识别方法在确定噪声数据比例方面的局限性，实现了“信息量化，判断准确”的通用自然噪声数据过滤技术，在电子商务、决策支持、信息服务等相关平台的数据预处理方面具有广阔的工业化应用前景。

(2)本发明提出的自然噪声数据过滤技术具有一定的普适性与移植性。所提出技术方案不仅能够面向基于协同过滤的推荐系统，也能够应用在部分基于内容的过滤算法和混合推荐算法。本发明提出的技术通过适当的改进能够与用户语义偏好模型有机结合，将用户语义描述资源映射为用户评分属性，进而实现语义资源推荐，减少了噪声问题对推荐算法的影响,实现了提高推荐算法预测准确性与可信度的目标。

(3)基于数据归一化操作与信息熵分析，本发明提出的降噪技术能够充分兼容不同类型的用户评分数据，不仅能够有效地分析整型的评价数据，还能够有效地分析浮点型评分系统。所使用的蒙特卡洛随机模拟机制、强化对比模式兼顾了不同推荐算法的运行机制，定量分析了所提出技术在不同种类数据集的适用性，能够更加鲁棒地提升推荐系统的服务质量。

附图说明

图1是本发明提出的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法的概要示意图；

图2是本发明提出的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法的具体步骤流程图；

图3是本发明使用蒙特卡洛随机模拟获取到不同子数据集的信息熵与推荐精度的步骤流程图；

图4是本发明提供的基于模糊聚类分析识别自然噪声数据的步骤流程图；

图5是本发明提供的典型自然噪声用户与评分矩阵示意图；

图6是本发明实施案例中蒙特卡洛随机模拟信息熵的频率直方图；

图7是本发明实施案例中蒙特卡洛随机模拟准确率的频率直方图；

图8是本发明实施案例中蒙特卡洛随机模拟召回率的频率直方图；

图9是本发明实施案例中基于其他推荐精度评价指标的计算结果——负正类率与真正类率分布图。

具体实施方式

下面结合附图和具体实例，对本发明作进一步详细说明。

本发明提出的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法的概要如图1所示。

本发明的具体流程见图2，过程中主要的变量、参数如表1。

表1

第一步、收集整理目标推荐系统的用户历史评分数据，实现步骤如下：

(1.a)选择目标推荐系统的用户评分数据集R。该数据集由N个用户对M个项目(商品/服务)评分所得，具体表达为R＝<U_i，I_j，V_ij>，式中U_i是第i个用户(1≤i≤N)，I_j是第j个项目(1≤j≤M)，V_ij是用户U_i对项目I_j的评分值。

(1.b)将原始用户评分数据集R进行数值化操作。

具体方法是：

如果评分系统为数字评分，则不做处理；

经过该步骤的处理，R数据集中所有的评分数据为数值型，即整数型或浮点型数值。

(1.c)将上述用户评分数据集R进行归一化操作，将结果映射到[1，10]的区间，数值1表示用户给出了最低的评价，数值10表示用户给出了最高的评价，数值5.5表示用户给出了中等的评价。

具体计算方法为：

式中：V_ij是用户U_i对项目I_j的评分值，min是R中V的最低值，max是R中V的最高值，10为拉深系数。

(1.d)识别、删除恶意噪声数据。具体的筛选条件是：

否则，保留用户i的评分数据；

第二步、使用蒙特卡洛随机模拟，构建用户评分数据的子数据集，运行推荐算法，获取到不同子数据集的信息熵与推荐精度，具体流程见图3，实现步骤如下：

(2.a)设定蒙特卡洛随机模拟次数为N_Samping，设定计数器n_sam＝0；选择一种推荐算法RS_Algorithm，推荐精度的评价指标为F1，具体计算方法为：

Recall为召回率，具体的计算方法是：

Precision为准确率，具体的计算方法是：

式中：N_Top是受欢迎项目的排列数目，设置为50。

(2.b)蒙特卡洛随机模拟次数计数器增长：n_sam＝n_sam+1。

如果n_sam>N_Samping，进入第(2.f)步；

否则，进入第(2.c)步。

(2.c)构建蒙特卡洛预测的随机数据集：选择删除恶意噪声数据后的用户评分数据集R_Ma的80％作为建模点R_Ma_train。

(2.d)计算R_Ma_train数据集的信息熵En_n_sam：

En_n_sam＝-∫p(x)ln(x)dx (5)

式中：p是V_ij的概率分布。

(2.e)对建模评分数据集建模点R_Ma_train运行推荐算法RS_Algorithm，使用十折交叉验证得到推荐精度评价结果F1_n_sam。

(2.f)将上述步骤计算的信息熵与推荐精度评价结果构建两个新的集合En＝{En_1，En_2，…，En_n_sam，…，En_N_Samping}与Me＝{F1_1，F1_2，…，F1_n_sam，…，F1_N_Samping}。

第三步、对信息熵集合按照不确定性高低进行分类，对推荐精度集合按照推荐精度的高低进行分类，构建经验模型判断潜在自然噪声数据的比例，实现步骤如下：

(3.a)将计算的信息熵集合进行分组：将集合En中所有的信息熵的值从高到低进行排序，最大值为En_max，最小值为En_min：

最终形成集合En＝{HEn，MEn，LEn}。

(3.b)将计算的推荐精度集合进行分组：将集合Me中所有的信息熵的值从高到低进行排序，最大值为Me_max，最小值为Me_min：

最终形成集合Me＝{GMe，MMe，BMe}。

(3.c)构建判断自然噪声比例的经验模型，根据输入的信息熵En_i与推荐精度F1_i的值判断：

如果En_i∈LEn，且F1_i∈GMe，则设定潜在自然噪声数据的比例为2％；

第四步、对所有的用户评分数据集进行模糊聚类分析，识别并删除噪声数据，具体流程见图4，实现步骤如下：

(4.a)初始化删除恶意噪声数据后的用户评分数据集R_Ma，设定模糊C均值聚类算法的参数：模糊C均值聚类算法的迭代次数为N_Iter，设定计数器n_iter＝0，设定聚类数目Cl＝10，m为加权指数，取值范围为[1，∞]，这里设定为2.0，δ为聚类停止误差，设定为0.001，对隶属度矩阵mem_ij设定随机值，隶属度矩阵满足一下条件：

(4.b)模糊C均值聚类算法的迭代次数计数器增长：n_iter＝n_sam+1。

如果n_iter>N_Iter，进入第(4.f)步；

否则，进入第(4.c)步。

(4.c)构建模糊C均值聚类的目标函数J，具体计算方法为：

式中：Cen是聚类的中心点位置，Cl是聚类的数量，d_ij是点x_j与第i个聚类中心点cen_i的欧式距离。

计算每一个聚类的中心点位置。具体计算方法为：

(4.d)更新隶属度函数矩阵：

(4.e)比较前后的两次的聚类中心，判断模糊C均值聚类结果是否符合要求：

如果||Mem-Mem'||≤δ，则结束迭代，进入第(4.f)步；

否则，进入步骤(4.b)。

(4.f)计算每一样点距离聚类中心点位置的相对距离：

式中：D_Absolute表示第j个点到聚类i的欧氏距离，D_Mean表示所有样点到聚类i的欧氏距离的平均值。

根据第(3.c)步构建的经验模型，计算当前数据的信息熵与推荐精度，判断并构建潜在自然噪声数据集R_Na。

(4.g)根据准则判断R_Na集中的样点是否为自然噪声。

定义D_Relative(cen＝max_mem)为数据点u与其最大隶属度聚类中心点的相对距离，D_Relative(cen≠max_mem)为数据点u到其他聚类中心的相对距离，D_Relative(cen∈{1,2，…Cl})为数据点u到聚类中心点cen的相对距离，D_Relative_Other(cen∈{1,2，…Cl})为其余数据点到聚类中心点cen的相对距离。

如果：D_Relative(cen＝max_mem)<D_Relative(cen≠max_mem)

且D_Relative(cen∈{1,2，…Cl})>D_Relative_Other(cen∈{1,2，…Cl})，则将该样点作为自然噪声数据点，从R_Ma数据集中删除该点。自然噪声数据示例如图5中的U₂用户。

更新目标用户评分数据集R_Ma为R_Ma_Na。

第五步、对所有的评分数据集运行推荐算法，使用推荐精度指标评价推荐质量。对比自然噪声数据过滤前后不同数据集的推荐精度，评价所提出技术在目标数据集的适用性。实现步骤如下：

(5.a)使用推荐算法对用户评分原始数据集(R)、删除恶意噪声的数据集(R_Ma)、删除恶意与自然噪声的数据集(R_Ma_Na)进行分析，使用十折交叉验证得出评价结果F1、F1_Ma、F1_Ma_Na。

(5.b)对比分析不同的推荐结果：

下面以协同过滤算法在MovieLens数据集的推荐系统为例进行说明。

最初的MovieLens数据集是通过MovieLens网站，从1997年9月到1998年4月汇总的943个用户对1682部电影的100000个评分。截止2016年10月，该数据集已包含了259137用户对40110部电影的24404096个评分数据。目前该数据集已更新了用户评分值用1到5之间的整数表示。经过预处理，每个用户至少评价20部电影。MovieLens数据集也成为推荐系统研究人员目前最为常用的测试数据集。协同过滤推荐算法是推荐系统中最为成功的技术之一，目前已广泛应用在众多的电子商务平台。协同过滤方法关注用户的兴趣,能够在用户群中筛选出具有相似爱好的用户,进而根据用户间的相似性，为目标用户推荐商品。这里选择推荐算法：基于用户的协同过滤算法(UBCF)与基于项目的协同过滤算法(IBCF)，选择数据集：经典的MovieLens数据集(包含了100000个评分数据)。

第一步、收集整理目标推荐系统的用户历史评分数据准备，实现步骤如下：

(1.a)选择目标推荐系统的用户评分数据集R。该数据集由N＝943个用户对M＝1682个电影评分所得，具体表达为R＝<U_i，I_j，V_ij>，式中U_i是第i个用户(1≤i≤943)，I_j是第j个项目(1≤j≤1682)，V_ij是用户U_i对项目I_j的评分值。

(1.b)因为该数据集的评分范围为1-5，不对数据集R进行数值化操作。

具体计算方法为：

(1.d)识别、删除恶意噪声数据。具体的筛选条件是：

否则，保留用户i的评分数据；

更新原始数据集，将删除72个恶意噪声数据后的用户评分数据集表示为R_Ma，更新用户数量N。

第二步、使用蒙特卡洛随机模拟，构建用户评分数据的子数据集，运行推荐算法，获取到不同子数据集的信息熵与推荐精度，实现步骤如下：

(2.a)设定蒙特卡洛随机模拟次数为N_Samping＝100，设定计数器n_sam＝0；选择一种推荐算法RS_Algorithm，推荐精度的评价指标为F1。

(2.b)蒙特卡洛随机模拟次数计数器增长：n_sam＝n_sam+1。

如果n_sam>N_Samping，进入第(2.f)步；

否则，进入第(2.c)步。

(2.d)计算R_Ma_train数据集的信息熵En_n_sam。

(2.f)将上述步骤计算的信息熵与推荐精度评价结果构建两个新的集合En＝{En_1，En_2，…，En_n_sam，…，En_N_Samping}与Me＝{F1_1，F1_2，…，F1_n_sam，…，F1_N_Samping}。计算100次后的信息熵、准确率与召回率的直方图如图6、7、8所示

(3.a)将计算的信息熵集合进行分组：将集合En中所有的信息熵的值从高到低进行排序，最大值为En_max，最小值为En_min，分别构建代表不确定较高、中等、较低的信息熵集合HEn、MEn、LEn。

(3.b)将计算的推荐精度集合进行分组：将集合Me中所有的信息熵的值从高到低进行排序，最大值为Me_max，最小值为Me_min。分别构建指示推荐精度较高、中等、较低的推荐精度集合GMe、MMe、BMe。

第四步、对所有的用户评分数据集进行模糊聚类分析，识别并删除噪声数据，实现步骤如下：

(4.a)初始化删除恶意噪声数据后的用户评分数据集R_Ma，设定模糊C均值聚类算法的参数：模糊C均值聚类算法的迭代次数为N_Iter＝20，设定计数器n_iter＝0，设定聚类数目Cl＝10，m为加权指数，取值范围为[1，∞]，这里设定为2.0，δ为聚类停止误差，设定为0.001，对隶属度矩阵mem_ij设定随机值。

如果n_iter>N_Iter，进入第(4.f)步；

否则，进入第(4.c)步。

(4.c)构建模糊C均值聚类的目标函数J，计算每一个聚类的中心点位置。具体计算方法为：

(4.d)更新隶属度函数矩阵：

如果||Mem-Mem'||≤δ，则结束迭代，进入第(4.f)步；

否则，进入步骤(4.b)。

(4.f)计算每一样点距离聚类中心点位置的相对距离。

(4.g)根据准则判断R_Na集中中的样点是否为自然噪声。

如果：D_Relative(cen＝max_mem)<D_Relative(cen≠max_mem)

且D_Relative(cen∈{1,2，…Cl})>D_Relative_Other(cen∈{1,2，…Cl})，则将该样点作为自然噪声数据点，从R_Ma数据集中删除该点。

最终，从数据集R_Ma中过滤掉743个自然噪声，更新目标用户评分数据集R_Ma为R_Ma_Na。

第五步、对所有的评分数据集运行推荐算法，使用推荐精度指标评价推荐质量。对比自然噪声数据过滤前后不同数据集的推荐精度，评价所提出技术在目标数据集的适用性。

选择推荐系统前30名(Top-30)与前50名(Top-50)项目作为推荐精度评价的参数，运行基于用户的协同过滤算法(UBCF)与基于项目的协同过滤算法(IBCF)。使用推荐算法对用户评分原始数据集(R)、删除恶意噪声的数据集(R_Ma)、删除恶意与自然噪声的数据集(R_Ma_Na)进行分析，使用十折交叉验证得出评价结果F1、F1_Ma、F1_Ma_Na，如表2所示：

表2不同数据集的推荐精度

对比分析推荐结果：F1_Ma_Na>F1_Ma>F1，说明所提出的降噪技术较好地过滤掉了恶意与自然噪声数据。适宜在该数据集或相似的数据集上进行自然噪声数据过滤，亦适宜采用协同过滤算法进行项目推荐。

本文中的F1指标为推荐精度的一种代表性指标，也可以使用其他的指标。例如能够指示二分喜好的精度指标(AUC：Area Under roc Curve)、代表预测误差的均方根误差(RMSE)等。设定不同推荐系统的商品排名额度，计算噪声过滤后的推荐精度结果如图9所示，其中横坐标为负正类率(FPR：False positive rate)，指相对于虚假目标的总量里有多少被误识为真实目标，反之，纵坐标是真正类率(TPR：True positive rate)。

有别于常规的噪声消除方法，本发明将用户评分信息的信息量与推荐精度进行耦合性分析，能够充分考虑不同输入数据对于推荐系统带来的不确定性。使用模糊C均值聚类对用户进行聚类，根据噪声数据比例通过分析用户打分行为的相似性来甄别出潜在的噪声数据，最终删除掉自然噪声数据，显著提升了推荐系统的推荐质量。有望在电子商务、决策支持、信息服务等相关平台上应用，以检验其性能。

以上所述技术流程，仅是本发明的较佳实施方式，但并不能代表本发明的所有细节。任何熟悉本技术领域的专业人员在本发明揭露的技术范围内，在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于包含以下步骤：

步骤1、收集整理目标推荐系统的用户历史评分数据；

2.根据权利要求1所述的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于，所述步骤1的具体过程如下：

如果评分系统为数字评分，则不做处理；

具体计算方法为：

<mrow> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>10</mn> <mo>&times;</mo> <mfrac> <mrow> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mi>min</mi> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

步骤14，识别、删除恶意噪声数据，具体的筛选条件是：

否则，保留用户i的评分数据；

3.根据权利要求1所述的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于，所述步骤2的具体过程如下：

<mrow> <mi>F</mi> <mn>1</mn> <mo>=</mo> <mn>2</mn> <mo>&times;</mo> <mfrac> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mo>&times;</mo> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mo>+</mo> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

Recall为召回率，具体的计算方法是：

<mrow> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>hit</mi> <mi>i</mi> </msub> <mo>/</mo> <msub> <mi>Rate</mi> <mi>i</mi> </msub> <mo>&times;</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

Precision为准确率，具体的计算方法是：

<mrow> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>hit</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>N</mi> <mo>_</mo> <mi>T</mi> <mi>o</mi> <mi>p</mi> <mo>&times;</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式中：N_Top是受欢迎项目的排列数目，设置为50；

步骤22，蒙特卡洛随机模拟次数计数器增长：n_sam＝n_sam+1，

如果n_sam>N_Samping，进入步骤26；

否则，进入步骤23；

步骤24，计算R_Ma_train数据集的信息熵En_n_sam：

En_n_sam＝-∫p(x)ln(x)dx (5)

式中：p是V_ij的概率分布；

4.根据权利要求1所述的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于，所述步骤3的具体过程如下：

<mrow> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>i</mi> <mo>&GreaterEqual;</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>2</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo><</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>i</mi> <mo><</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>2</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>i</mi> <mo>&le;</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>E</mi> <mi>n</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

最终形成集合En＝{HEn，MEn，LEn}；

<mrow> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>i</mi> <mo>&GreaterEqual;</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>2</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo><</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>i</mi> <mo><</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>2</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>i</mi> <mo>&le;</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>-</mo> <mi>M</mi> <mi>e</mi> <mo>_</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

最终形成集合Me＝{GMe，MMe，BMe}；

5.根据权利要求1所述的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于，所述步骤4的具体过程如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>C</mi> <mi>l</mi> </mrow> </munderover> <msub> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> <mtd> <mrow> <mo>&ForAll;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>,</mo> <mo>...</mo> <mi>N</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

如果n_iter>N_Iter，进入步骤46；

否则，进入步骤43；

步骤43，构建模糊C均值聚类的目标函数J，具体计算方法为：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>J</mi> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>C</mi> <mi>l</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>cen</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>C</mi> <mi>l</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>cen</mi> <mi>i</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

计算每一个聚类的中心点位置，具体计算方法为：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>cen</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <mo>&ForAll;</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>,</mo> <mo>...</mo> <mi>C</mi> <mi>l</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

步骤44，更新隶属度函数矩阵：

<mrow> <msub> <mi>mem</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msub> <mi>d</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mn>2</mn> <mo>/</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>&rsqb;</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

如果||Mem-Mem'||≤δ，则结束迭代，进入步骤46；

否则，进入步骤42；

步骤46，计算每一样点距离聚类中心点位置的相对距离：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>D</mi> <mo>_</mo> <mi>Re</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mi>D</mi> <mo>_</mo> <mi>A</mi> <mi>b</mi> <mi>s</mi> <mi>o</mi> <mi>l</mi> <mi>u</mi> <mi>t</mi> <mi>e</mi> </mrow> <mrow> <mi>D</mi> <mo>_</mo> <mi>M</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>cen</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>cen</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mi>N</mi> </mfrac> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>

步骤47,根据准则判断R_Na集中的样点是否为自然噪声，

如果：D_Relative(cen＝max_mem)<D_Relative(cen≠max_mem)

更新目标用户评分数据集R_Ma为R_Ma_Na。

6.根据权利要求1所述的基于信息熵与模糊C均值聚类的推荐系统噪声过滤方法，其特征在于，所述步骤5的具体过程如下：

步骤52,对比分析不同的推荐结果：