CN116644227A - 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 - Google Patents
一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 Download PDFInfo
- Publication number
- CN116644227A CN116644227A CN202310458878.9A CN202310458878A CN116644227A CN 116644227 A CN116644227 A CN 116644227A CN 202310458878 A CN202310458878 A CN 202310458878A CN 116644227 A CN116644227 A CN 116644227A
- Authority
- CN
- China
- Prior art keywords
- user
- check
- recommendation
- users
- sign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013139 quantization Methods 0.000 title claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 34
- 239000006185 dispersion Substances 0.000 claims abstract description 33
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 206010027951 Mood swings Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,包括:第一步、收集、整理用户签到数据集,过滤无社交关系、不活跃的用户和不受欢迎的位置;第二步、计算用户已访问位置群的地理中心点;第三步、定义并计算用户访问某位置的一般频次距离和频次矫正距离;第四步、基于已访问位置集合,计算用户的一般频次距离之和与频次矫正距离之和,提取各用户签到数据离散度;第五步、按签到离散度对所有用户进行排序,拟合经验模型,筛选并删除签到离散度较高的若干个用户数据;第六步、对比自然噪声过滤前后推荐算法在不同数据集内的推荐准确度,评价所提出技术在位置推荐系统中的有效性和适用性。本发明能提升推荐系统可靠性。
Description
技术领域
本发明涉及位置社交网络中的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,属于人工智能与机器学习技术领域。
背景技术
随着智能移动设备的普及和发展,移动互联网已经占据主导地位,极大地影响和改变了人们的生活。中国互联网络信息中心发布的第51次《中国互联网络发展状况统计报告》指出,截至2022年12月,我国网民规模已达10.67亿,其中手机网民规模为10.65亿,网民中使用手机上网的比例为99.8%。高精度定位技术、民用GPS等定位芯片的广泛应用推动了基于位置的社交网络(Location-based Social Networks,LBSNs)的飞速发展。目前,国内外已有一大批成熟的基于位置的社交网络平台,国外的Foursquare、Gowalla、Yelp、Instagram、Uber、Google Maps以及国内的滴滴出行、美团、去哪儿旅行、百度地图等位置服务应用吸引了上亿的用户。在基于位置的社交网络中,用户可以利用添加的地理标签查看一些感兴趣的位置,如餐厅,商店,电影院等;可以利用移动设备进行签到,发布地理位置信息,分享他们的建议和评论。位置社交网络既能给用户带来便利,同时也可以帮助商家了解网络背后真实的用户,从而“投其所好”地为不同用户定制符合其需求的个性化服务,具有很强的实用性和先进性。
数以亿计的用户在位置社交网络中主动或被动地留下了地理位置信息,由此产生了大量的位置签到数据。海量的信息虽然给用户提供了丰富的数据资源,但也引发了信息过载(Information Overload)问题,增加了用户准确获取目标项目的难度。因此,致力于解决信息过载问题的推荐系统(Recommender Systems,RSs)受到了越来越多研究人员的关注,如著名的Amazon公司运用推荐系统给用户推荐商品,为商家提高了点击率和营业额;电影推荐网站Netflix通过举办推荐系统大赛吸引了众多研究团队,提高了推荐的准确度。作为一种特殊的信息过滤系统,推荐系统不需要用户主动提供准确的关键词,而是通过分析用户已有的历史行为,对用户的兴趣爱好进行建模,挖掘用户的潜在偏好,进而主动给用户推荐符合其需求的商品、服务等。位置推荐作为传统推荐系统与位置社交网络协同发展的必然产物,已经成为了一个研究热点。位置推荐系统既能为用户寻找更符合其兴趣偏好的目标位置,同时也可以帮助商家给潜在客户精准推送广告,为商家提供宝贵的商业机会,使用户和商家达到双赢的目的,蕴藏着巨大的市场潜力和广阔的应用前景。
推荐系统的设计主要包含两大模块:数据预处理与推荐算法设计。为了提升推荐系统的预测准确度,大多数研究人员将推荐算法的设计作为主要研究内容,而忽略了推荐系统源数据中无法避免的噪声信息。早在2006年,O'Mahony等就提出推荐系统中存在着两类固有的噪声数据——恶意噪声和自然噪声。根据误差传播定律,在使用同一推荐算法的情况下,不同的噪声过滤方法会传递不同程度的不确定性给推荐算法,造成推荐结果差异。噪声数据使推荐系统成为一个“伪专家”,极大地降低了用户满意度。因此,推荐系统的研究不仅要关注推荐算法的设计,还应重视源数据中不同性质的噪声干扰信息,为推荐算法提供可靠的输入保障。
位置推荐系统中的自然噪声则可定义为用户由于外部因素的影响而无意引入的不一致的、离散的签到信息,具体表现为:因网络通信信号不稳定或定位技术不够精确而导致用户无意地访问非目标地址;个别用户由于情绪波动或个人习惯问题而产生访问地址多样化、离散化的特征。在基于签到记录生成的评分矩阵中,这些非恶意的签到偏差分布于某行或某列中,最终表现为评分数据中的自然噪声。与恶意噪声往往具有一定的规律性,能够通过分析用户的统计特征或使用攻击检测算法等技术进行处理不同,自然噪声更为隐蔽,且不服从任何规律和分布,很难通过格式化、规则化的程序简单地过滤掉。因此,在位置推荐系统中,如何针对自然噪声数据设计有效的识别和过滤方法,以降低数据的误差传播率,是一个值得研究的问题。
目前,已有的推荐系统自然噪声过滤技术尚存在一些不足,归纳起来有以下几点:
(1)相关研究都集中在以电影、笑话、音乐等为推荐目标的传统推荐领域,几乎没有研究在位置推荐场景下鉴别自然噪声。实际上,在两类推荐系统中,无论是源数据特征,还是自然噪声的产生原因和表现方式均有较大差别。因此,传统推荐系统中的自然噪声处理技术在位置推荐领域是否适用尚有待验证。
(2)一些自然噪声过滤技术除了需要原始评分之外,还需要额外收集大量的项目和用户信息,大大地影响了推荐系统的执行效率。
(3)部分研究方法基于严格的二值逻辑识别自然噪声,忽略了自然噪声固有的不确定性和模糊性。
(4)推荐系统中存在着能够引发自然噪声的数据驱动的不确定性,主要来源于用户签到偏好以及项目特征的多样性。已有一些研究工作围绕不确定性展开研究,但却未明确提出不确定性的具体量化方法,降低了自然噪声过滤的可解释性。
以上所述为现有的推荐系统自然噪声过滤技术的不足,在不同的位置社交网络平台的设计、开发、部署与运行中带来较大弊端,尤其是在海量项目信息的网络平台上造成推荐系统服务质量的下降,进而影响电子商务系统的销售业绩。
发明内容
本发明目的在于针对上述现有技术的缺陷和不足,提出了一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,该方法面向位置推荐系统,以过滤用户签到记录中的自然噪声数据为目标,设计了一套基于离散特征量化的自然噪声过滤工程技术,该方法提供了位置推荐系统中检测和过滤自然噪声的技术流程,针对用户签到行为的离散化特征,提出了离散度量化方法,旨在提高位置推荐系统的源数据质量,降低数据干扰和误差传播,为后续的推荐算法提供可靠的输入,提升位置推荐系统的整体性能。
本发明解决其技术问题所采取的技术方案是:首先,根据位置的地理经纬度,逐个用户计算已访问位置群的地理中心点;然后,分别定义并计算用户访问某位置的一般频次距离和频次矫正距离;基于频次矫正距离之和与一般频次距离之和计算每个用户签到数据的离散度;按签到离散度对用户进行排序,拟合经验模型,将离散度较高的若干个用户的签到数据视为自然噪声;删除自然噪声数据,提升推荐系统的源数据质量(图1所示)。
本发明方法的具体流程包括:
步骤1:收集、整理位置推荐系统中的历史签到记录,构成原始的用户签到数据集。过滤无社交关系的、不活跃的用户和不受欢迎的位置。
步骤2:根据历史签到记录,计算某个用户所有已访问位置的地理中心点。
步骤3:定义并计算用户访问某位置的一般频次距离和频次矫正距离。
步骤4:基于用户已访问的位置集合,计算用户的一般频次距离之和与频次矫正距离之和,进而提取每个用户签到数据的离散度。
步骤5:按签到离散度对所有用户进行排序,拟合经验模型,筛选并删除签到特征离散度较高的若干个用户数据。
步骤6:将自然噪声过滤前后的签到数据集分别转换为用户-位置二维评分矩阵。运行不同类别的位置推荐算法,使用推荐精度指标评价推荐质量。对比自然噪声数据过滤前后不同数据集内的推荐准确度,评价所提出技术在位置推荐系统中的有效性和适用性。
有益效果:
1、本发明面向位置推荐系统提出基于签到数据离散特征量化的自然噪声过滤方法,充分考虑用户签到偏好以及项目特征的多样性给推荐系统带来的不确定性,合理量化用户签到行为的离散化特征,填补了位置推荐系统中自然噪声过滤研究的空白,在电子商务、位置服务、社交网络等相关平台的数据预处理方面具有广阔的应用前景。
2、本发明基于用户访问频次设计矫正系数,量化用户签到行为的多样化、离散化特征,保证分析用户签到行为时不会错误地过滤掉合理的签到数据,实现了“离散量化,判断准确”的自然噪声过滤技术,提升了推荐系统的可靠性。
3、本发明具有一定的普适性与移植性,不仅可以应用于位置推荐系统,也适用于以非地理特征项目为推荐对象的传统推荐领域。该方法能够有效提升推荐系统源数据的质量,降低数据干扰和误差传播,为后续的推荐算法提供可靠的输入,是推荐系统性能获得提升的前提和基础。
附图说明
图1是本发明提出的基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法的概要示意图。
图2是本发明提出的基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法的流程图。
图3是本发明实施案例中原始签到数据集的预处理流程图。
图4是本发明实施案例中所有用户签到数据离散度的散点图。
图5是本发明实施案例中基于用户的协同过滤(UBCF)推荐算法在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图。
其中,图5(a)是UBCF算法在自然噪声过滤前后的精确率Precision对比图。图5(b)是UBCF算法在自然噪声过滤前后的召回率Recall对比图。
图6是本发明实施案例中基于项目的协同过滤(IBCF)推荐算法在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图。
其中,图6(a)是IBCF算法在自然噪声过滤前后的精确率Precision对比图。图6(b)是IBCF算法在自然噪声过滤前后的召回率Recall对比图。
图7是本发明实施案例中奇异值分解(SVD)算法在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图。
其中,图7(a)是SVD算法在自然噪声过滤前后的精确率Precision对比图。图7(b)是SVD算法在自然噪声过滤前后的召回率Recall对比图。
图8是本发明实施案例中基于社交关系的协同过滤(FCF)推荐算法在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图。
其中,图8(a)是FCF算法在自然噪声过滤前后的精确率Precision对比图。图8(b)是FCF算法在自然噪声过滤前后的召回率Recall对比图。
图9是本发明实施案例中基于地理特征的核密度估计算法(KDE)在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图。
其中,图9(a)是KDE算法在自然噪声过滤前后的精确率Precision对比图。图9(b)是KDE算法在自然噪声过滤前后的召回率Recall对比图。
具体实施方式
下面结合说明书附图对本发明创造作进一步地详细说明。
如图1和图2所示,本发明提供了一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,该方法包括如下步骤:
步骤1:收集、整理位置推荐系统中的历史签到记录,构成原始的用户签到数据集。过滤无社交关系的、不活跃的用户和不受欢迎的位置。操作步骤如下:
步骤1-1:选择目标推荐系统的用户签到数据集C。该数据集包含n条签到记录,记作C={c1,c2,…,cn},每一条签到记录均由用户ID、签到时间、地理纬度、地理经度以及位置ID五元组表示,记作{userID,time,latitude,longitude,locationID}。
步骤1-2:根据位置的经纬度,为每一条签到记录标注发生地所在的国家和城市。对每个地区的位置数量和签到次数进行统计和排序,确定实验观测范围,并筛选出相应的用户签到记录。
步骤1-3:删除孤立用户,只保留存在至少1条社交关系的用户。
步骤1-4:删除不活跃的用户,只保留访问过至少Lmin个位置的用户。
步骤1-5:删除冷门的位置,若某位置被少于Umin个用户访问,则认为该位置是不受欢迎的,将其从签到记录中删除。
步骤1-6:重复步骤1-3~步骤1-5,直至所有用户均至少有1条社交关系,且至少访问了Lmin个位置,所有位置均被至少Lmin个用户访问。整理过滤后的签到数据集C',该数据集中的用户个数和位置个数分别为NU和NL。
步骤2:根据历史签到记录,计算某个用户所有已访问位置的地理中心点。操作步骤如下:
步骤2-1:根据签到数据集C',统计用户ui(1≤i≤NU)已访问的位置个数mi,将其已访问的位置集合记为Li={l1,l2,…,lmi},记录Li集合中各位置lj的经纬度<lonj,latj>(1≤j≤mi)。
步骤2-2:依次对Li集合中各位置lj的经纬度<lonj,latj>进行转换:
lonj'和latj'分别是位置lj转换后的经度和纬度。
步骤2-3:根据所有位置转换后的经纬度,计算3D坐标系中的中心点:
其中,lonj'和latj'分别是位置lj转换后的经度和纬度,mi为用户ui已访问的位置个数。
步骤2-4:计算用户ui已访问位置集合Li={l1,l2,…,lmi}的地理中心点Pi的经度lonp和纬度latp,X、Y、Z是步骤2-3中获取的3D坐标系中的中心点坐标:
步骤3:定义并计算用户访问某位置的一般频次距离和频次矫正距离。操作步骤如下:
步骤3-1:lonj和latj分别是位置lj的经度和纬度,lonp和latp分别是用户ui已访问位置的地理中心点Pi的经度和纬度,计算位置lj=<lonj,latj>到地理中心点Pi=<lonp,latp>的地理距离:
dis(Pi,lj)=R*arccos[sinlatp*sinlatj+coslatp*coslatj*cos(lonp-lonj)] (8)
其中,R为地球半径,R=6371km。
步骤3-2:用户ui访问位置lj的一般频次距离dpij为中心点Pi到位置lj的地理距离dis(Pi,lj)乘以该用户在lj上的签到次数cj:
dpij=dis(Pi,lj)×cj (9)
步骤3-3:根据用户ui在位置lj上的签到次数cj,为每次的距离计算设置一个与签到次数成正比的矫正系数,用户ui访问位置lj的频次矫正距离为:
其中,dis(Pi,lj)是位置lj到用户ui已访问位置的地理中心点Pi的地理距离,cmax是所有用户签到次数的最大值。
步骤4:基于用户已访问的位置集合,计算用户的一般频次距离之和与频次矫正距离之和,进而提取每个用户签到数据的离散度。操作步骤如下:
步骤4-1:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的一般频次距离之和:
其中,dpij是用户ui访问位置lj的一般频次距离,mi是用户ui已访问位置的数量。
步骤4-2:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的频次矫正距离之和:
其中,是用户ui访问位置lj的频次矫正距离,mi是用户ui已访问位置的数量。
步骤4-3:量化用户ui签到行为的离散特征,定义用户ui签到数据的离散度disperi为该用户在已访问位置集合Li中的频次矫正距离之和与一般频次距离之和的比值:
其中,mi为用户ui已访问的位置个数,sdpi是用户ui已访问位置的一般频次距离之和,是用户ui已访问位置的频次矫正距离之和。
步骤5:按签到离散度对所有用户进行排序,拟合经验模型,筛选并删除签到特征离散度较高的若干个用户数据。操作步骤如下:
步骤5-1:为签到数据集C'中的每个用户执行步骤2~步骤4,生成NU个用户的签到数据离散度集合D={disper1,disper2,…,disperNU}。
步骤5-2:将离散度集合D中的元素按从大到小的顺序进行排序,排序后的离散度集合记作D'。
步骤5-3:对处理自然噪声的相关技术进行经验总结,发现在数据集中一般存在着大约4%~10%的潜在自然噪声。基于此,将自然噪声比例设定为6%。
步骤5-4:取离散度集合D'中的前6%个元素,记录其对应的用户ID,将这些用户的签到数据视为自然噪声。在签到数据集C'中删除与其对应的签到数据。更新签到数据集C'为C_Na。
步骤6:将自然噪声过滤前后的签到数据集分别转换为用户-位置二维评分矩阵。运行不同类别的位置推荐算法,使用推荐精度指标评价推荐质量。对比自然噪声数据过滤前后不同数据集内的推荐准确度,评价所提出技术在位置推荐系统中的有效性和适用性。操作步骤如下:
步骤6-1:基于C'签到数据集,生成用户-位置二维评分矩阵R'={rul},u∈[1,NU],l∈[1,NL]。其中,u表示用户编号,l表示地址编号,NU表示用户总数,NL表示地址总数,rul表示用户u对位置l的评分:
其中,cul是用户u在位置l上的签到次数,cmax是所有用户签到次数的最大值。
同理,基于C_Na签到数据集,生成用户-位置二维评分矩阵R_Na={ru'l'},u'∈[1,0.94×NU],l'∈[1,NL]。其中,u'表示用户编号,l'表示地址编号,NU表示用户总数,NL表示地址总数,ru'l'表示用户u'对位置l'的评分。
步骤6-2:基于C'签到数据集和R'评分数据集,随机选取20%的用户作为目标用户集AU',为集合中每个目标用户运行各类推荐算法,生成推荐列表。
步骤6-3:基于C_Na签到数据集和R_Na评分数据集,随机选取20%的用户作为目标用户集AU_Na,为集合中每个目标用户运行各类推荐算法,生成推荐列表。
步骤6-4:针对各个推荐算法,逐一评估同一推荐算法在不同数据集中的推荐准确度。各推荐算法为目标用户集运行一次的准确率Precision、召回率Recall和推荐精度指标F1的值是集合中所有用户该指标的平均值。
步骤6-5:重复步骤6-2~步骤6-4步骤Ntimes次,各个推荐算法的准确率Precision、召回率Recall和推荐精度指标F1的值是Ntimes次运行结果的平均值。
步骤6-6:对比分析各指标结果:如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的推荐精度指标F1大于在C'签到数据集和R'评分数据集中的推荐精度指标F1值,则说明所提出的技术有效地过滤掉了自然噪声数据;如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的精确率Precision大于在C'签到数据集和R'评分数据集中的Precision值,则所述方法能够帮助推荐算法更准确地为用户找到感兴趣的地址;如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的召回率Recall大于在C'签到数据集和R'评分数据集中的Recall值,则所述方法能够帮助推荐算法更全面地覆盖用户感兴趣的位置。
如图3-图9所示,本发明以具体的基于位置的社交网络Brightkite为例,详细说明本发明中的基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法是如何运行的。
Brightkite数据集是由美国斯坦福大学SNAP实验室收集的在2008年4月至2010年10月期间58228名用户在Brightkite网站上的社交关系和签到信息。Brightkite数据集中的位置数量共693362个,用户的签到记录共4747281条,用户之间形成了214078条社交关系。Brightkite数据集是位置推荐系统研究人员最为常用的测试数据集之一。
实施案例中选择的推荐算法是:基于用户的协同过滤(UBCF)、基于项目的协同过滤(IBCF)、奇异值分解(SVD)、基于社交关系的协同过滤(FCF)和基于地理特征的核密度估计算法(KDE)。具体包括:
步骤1:收集、整理位置推荐系统中的历史签到记录,构成原始的用户签到数据集。过滤无社交关系的、不活跃的用户和不受欢迎的位置。操作步骤如下(图3):
步骤1-1:选择Brightkite数据集作为目标推荐系统的用户签到数据集C。该数据集包含4747281条签到记录,记作C={c1,c2,…,c4747281},每一条签到记录均由用户ID、签到时间、地理纬度、地理经度以及位置ID五元组表示,记作{userID,time,latitude,longitude,locationID}。
步骤1-2:根据位置的经纬度,为每一条签到记录标注发生地所在的国家和城市。将观测数据范围限定在美国地区,筛选出美国地区的签到记录,并标注每个美国地点的县(county)名。在对各个县的位置数量和签到次数进行统计和排序后(表1),选择美国数据量最丰富的前三个县(Los Angeles、San Francisco、NewYork)作为实验观测范围,并筛选出相应的用户签到记录。
表1美国地区排名前五的县的签到数据统计
步骤1-3:删除孤立用户,只保留存在至少1条社交关系的用户。
步骤1-4:删除不活跃的用户,只保留访问过至少3个位置的用户。
步骤1-5:删除冷门的位置,若某位置被少于5个用户访问,则认为该位置是不受欢迎的,将其从签到记录中删除。
步骤1-6:重复步骤1-3~步骤1-5,直至所有用户均至少有1条社交关系,且至少访问过3个位置,所有位置均被至少5个用户访问。整理过滤后的签到数据集C',该数据集中的用户个数和位置个数分别为863和2906。
步骤2:根据历史签到记录,计算某个用户所有已访问位置的地理中心点。操作步骤如下:
步骤2-1:根据签到数据集C',统计用户ui(1≤i≤863)已访问的位置个数mi,将其已访问的位置集合记为Li={l1,l2,…,lmi},记录Li集合中各位置lj的经纬度<lonj,latj>(1≤j≤mi)。
步骤2-2:依次对Li集合中各位置lj的经纬度<lonj,latj>进行转换:
lonj'和latj'分别是位置lj转换后的经度和纬度。
步骤2-3:根据所有位置转换后的经纬度,计算3D坐标系中的中心点:
其中,lonj'和latj'分别是位置lj转换后的经度和纬度,mi为用户ui已访问的位置个数。
步骤2-4:计算用户ui已访问位置集合Li={l1,l2,…,lmi}的地理中心点Pi的经度lonp和纬度latp,X、Y、Z是步骤2-3中获取的3D坐标系中的中心点坐标:
步骤3:定义并计算用户访问某位置的一般频次距离和频次矫正距离。操作步骤如下:
步骤3-1:lonj和latj分别是位置lj的经度和纬度,lonp和latp分别是用户ui已访问位置的地理中心点Pi的经度和纬度,计算位置lj=<lonj,latj>到地理中心点Pi=<lonp,latp>的地理距离:
dis(Pi,lj)=R*arccos[sinlatp*sinlatj+coslatp*coslatj*cos(lonp-lonj)](22)
其中,R为地球半径,R=6371km。
步骤3-2:用户ui访问位置lj的一般频次距离dpij为中心点Pi到位置lj的地理距离dis(Pi,lj)乘以该用户在lj上的签到次数cj:
dpij=dis(Pi,lj)×cj (23)
步骤3-3:根据用户ui在位置lj上的签到次数cj,为每次的距离计算设置一个与签到次数成正比的矫正系数,用户ui访问位置lj的频次矫正距离为:
其中,dis(Pi,lj)是位置lj到用户ui已访问位置的地理中心点Pi的地理距离,cmax是所有用户签到次数的最大值,cmax=1828。
步骤4:基于用户已访问的位置集合,计算用户的一般频次距离之和与频次矫正距离之和,进而提取每个用户签到数据的离散度。操作步骤如下:
步骤4-1:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的一般频次距离之和:
其中,dpij是用户ui访问位置lj的一般频次距离,mi是用户ui已访问位置的数量。
步骤4-2:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的频次矫正距离之和:
其中,是用户ui访问位置lj的频次矫正距离,mi是用户ui已访问位置的数量。
步骤4-3:量化用户ui签到行为的离散特征,定义用户ui签到数据的离散度disperi为该用户在已访问位置集合Li中的频次矫正距离之和与一般频次距离之和的比值:
其中,mi为用户ui已访问的位置个数,sdpi是用户ui已访问位置的一般频次距离之和,是用户ui已访问位置的频次矫正距离之和。
步骤5:按签到离散度对所有用户进行排序,拟合经验模型,筛选并删除签到特征离散度较高的若干个用户数据。操作步骤如下:
步骤5-1:为签到数据集C'中的每个用户执行步骤2~步骤4,生成863个用户的签到数据离散度集合D={disper1,disper2,…,disper863}。863个用户的签到数据离散度的散点图如图4所示。
步骤5-2:将离散度集合D中的元素按从大到小的顺序进行排序,排序后的离散度集合记作D'。
步骤5-3:对处理自然噪声的相关技术进行经验总结,发现在数据集中一般存在着大约4%~10%的潜在自然噪声。基于此,将自然噪声比例设定为6%。
步骤5-4:取离散度集合D'中的前6%个元素,记录其对应的用户ID,将这些用户的签到数据视为自然噪声。在签到数据集C'中删除与其对应的签到数据。更新签到数据集C'为C_Na。C_Na数据集中的用户数量为811。
步骤6:将自然噪声过滤前后的签到数据集分别转换为用户-位置二维评分矩阵。运行不同类别的位置推荐算法,使用推荐精度指标评价推荐质量。对比自然噪声数据过滤前后不同数据集内的推荐准确度,评价所提出技术在位置推荐系统中的有效性和适用性。操作步骤如下:
步骤6-1:基于C'签到数据集,生成用户-位置二维评分矩阵R'={rul},u∈[1,863],l∈[1,2906]。其中,u表示用户编号,l表示地址编号,rul表示用户u对位置l的评分:
其中,cul是用户u在位置l上的签到次数。
同理,基于C_Na签到数据集,生成用户-位置二维评分矩阵R_Na={ru'l'},u'∈[1,811],l'∈[1,2906]。其中,u'表示用户编号,l'表示地址编号,ru'l'表示用户u'对位置l'的评分。
步骤6-2:基于C'签到数据集和R'评分数据集,随机选取173个用户作为目标用户集AU',为集合中每个目标用户运行各类推荐算法,生成推荐列表。
步骤6-3:基于C_Na签到数据集和R_Na评分数据集,随机选取162个用户作为目标用户集AU_Na,为集合中每个目标用户运行各类推荐算法,生成推荐列表。
步骤6-4:利用UBCF、IBCF、SVD、FCF和KDE五类推荐算法,逐一评估同一推荐算法在不同数据集中的推荐准确度。各推荐算法为目标用户集运行一次的准确率Precision、召回率Recall和推荐精度指标F1的值是集合中所有用户该指标的平均值。
步骤6-5:重复步骤6-2~步骤6-4步骤100次,各个推荐算法的准确率Precision、召回率Recall和推荐精度指标F1的值是100次运行结果的平均值。当推荐列表长度N分别取值为10,20,30,40,50时,各推荐方法在自然噪声过滤前后的精确率Precision和召回率Recall对比的柱状图如图5~图9所示。综合精度指标F1结果如表2所示:
表2各推荐算法在自然噪声过滤前后的Brightkite数据集中的F1值
步骤6-6:对比分析各指标结果:所有推荐算法在C_Na签到数据集和R_Na评分数据集中的推荐精度指标F1均大于在C'签到数据集和R'评分数据集中的推荐精度指标F1值,说明所提出的技术有效地过滤掉了自然噪声数据;所有推荐算法在C_Na签到数据集和R_Na评分数据集中的精确率Precision均大于在C'签到数据集和R'评分数据集中的Precision值,说明所述方法能够帮助推荐算法更准确地为用户找到感兴趣的地址;所有推荐算法在C_Na签到数据集和R_Na评分数据集中的召回率Recall均大于在C'签到数据集和R'评分数据集中的Recall值,说明所述方法能够帮助推荐算法更全面地覆盖用户感兴趣的位置。
有别于常规的自然噪声过滤方法,本发明面向位置推荐系统,以过滤用户签到记录中的自然噪声数据为目标,针对用户签到行为的离散化特征,创新地提出了离散度量化方法,根据用户签到数据的离散度甄别自然噪声数据,最终过滤自然噪声数据,显著提升了推荐系统的服务质量。本发明提出的技术填补了位置推荐系统中自然噪声过滤研究的空白,在电子商务、位置服务、社交网络等相关平台的数据预处理方面具有广阔的应用前景,有望在基于位置的社交网络市场中获得广泛的应用。
以上所述技术流程,仅是本发明的较佳实施方式,但并不能代表本发明的所有细节。任何熟悉本技术领域的专业人员在本发明揭露的技术范围内,在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述方法包括如下步骤:
步骤1:收集、整理位置推荐系统中的历史签到记录,构成原始的用户签到数据集,过滤无社交关系的、不活跃的用户和不受欢迎的位置;
步骤2:根据历史签到记录,计算某个用户所有已访问位置的地理中心点;
步骤3:定义并计算用户访问某位置的一般频次距离和频次矫正距离;
步骤4:基于用户已访问的位置集合,计算用户的一般频次距离之和与频次矫正距离之和,进而提取每个用户签到数据的离散度;
步骤5:按签到离散度对所有用户进行排序,拟合经验模型,筛选并删除签到特征离散度较高的若干个用户数据;
步骤6:将自然噪声过滤前后的签到数据集分别转换为用户-位置二维评分矩阵,运行不同类别的位置推荐算法,使用推荐精度指标评价推荐质量,对比自然噪声数据过滤前后不同数据集内的推荐准确度,评价所提出技术在位置推荐系统中的有效性和适用性。
2.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述方法的步骤1包括:
步骤1-1:选择目标推荐系统的用户签到数据集C,该数据集包含n条签到记录,记作C={c1,c2,…,cn},每一条签到记录均由用户ID、签到时间、地理纬度、地理经度以及位置ID五元组表示,记作{userID,time,latitude,longitude,locationID};
步骤1-2:根据位置的经纬度,为每一条签到记录标注发生地所在的国家和城市,对每个地区的位置数量和签到次数进行统计和排序,确定实验观测范围,并筛选出相应的用户签到记录;
步骤1-3:删除孤立用户,只保留存在至少1条社交关系的用户;
步骤1-4:删除不活跃的用户,只保留访问过至少Lmin个位置的用户;
步骤1-5:删除冷门的位置,若某位置被少于Umin个用户访问,则认为该位置是不受欢迎的,将其从签到记录中删除;
步骤1-6:重复步骤1-3~步骤1-5,直至所有用户均至少有1条社交关系,且至少访问了Lmin个位置,所有位置均被至少Lmin个用户访问,整理过滤后的签到数据集C',该数据集中的用户个数和位置个数分别为NU和NL。
3.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述方法的步骤2包括:
步骤2-1:根据签到数据集C',统计用户ui(1≤i≤NU)已访问的位置个数mi,将其已访问的位置集合记为Li={l1,l2,…,lmi},记录Li集合中各位置lj的经纬度<lonj,latj>(1≤j≤mi);
步骤2-2:依次对Li集合中各位置lj的经纬度<lonj,latj>进行转换:
lonj'和latj'分别是位置lj转换后的经度和纬度;
步骤2-3:根据所有位置转换后的经纬度,计算3D坐标系中的中心点:
其中,lonj'和latj'分别是位置lj转换后的经度和纬度,mi为用户ui已访问的位置个数;
步骤2-4:计算用户ui已访问位置集合Li={l1,l2,…,lmi}的地理中心点Pi的经度lonp和纬度latp,X、Y、Z是步骤2-3中获取的3D坐标系中的中心点坐标:
4.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述的步骤3包括:
步骤3-1:lonj和latj分别是位置lj的经度和纬度,lonp和latp分别是用户ui已访问位置的地理中心点Pi的经度和纬度,计算位置lj=<lonj,latj>到地理中心点Pi=<lonp,latp>的地理距离:
dis(Pi,lj)=R*arccos[sinlatp*sinlatj+coslatp*coslatj*cos(lonp-lonj)] (8)
其中,R为地球半径,R=6371km;
步骤3-2:用户ui访问位置lj的一般频次距离dpij为中心点Pi到位置lj的地理距离dis(Pi,lj)乘以该用户在lj上的签到次数cj:
dpij=dis(Pi,lj)×cj (9)
步骤3-3:根据用户ui在位置lj上的签到次数cj,为每次的距离计算设置一个与签到次数成正比的矫正系数,用户ui访问位置lj的频次矫正距离为:
其中,dis(Pi,lj)是位置lj到用户ui已访问位置的地理中心点Pi的地理距离,cmax是所有用户签到次数的最大值。
5.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述方法的步骤4包括:
步骤4-1:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的一般频次距离之和:
其中,dpij是用户ui访问位置lj的一般频次距离,mi是用户ui已访问位置的数量;
步骤4-2:计算用户ui已访问集合Li={l1,l2,…,lmi}中各个位置的频次矫正距离之和:
其中,是用户ui访问位置lj的频次矫正距离,mi是用户ui已访问位置的数量;
步骤4-3:量化用户ui签到行为的离散特征,定义用户ui签到数据的离散度disperi为该用户在已访问位置集合Li中的频次矫正距离之和与一般频次距离之和的比值:
其中,mi为用户ui已访问的位置个数,sdpi是用户ui已访问位置的一般频次距离之和,是用户ui已访问位置的频次矫正距离之和。
6.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述方法的步骤5包括:
步骤5-1:为签到数据集C'中的每个用户执行步骤2~步骤4,生成NU个用户的签到数据离散度集合D={disper1,disper2,…,disperNU};
步骤5-2:将离散度集合D中的元素按从大到小的顺序进行排序,排序后的离散度集合记作D';
步骤5-3:对处理自然噪声的相关技术进行经验总结,发现在数据集中一般存在着大约4%~10%的潜在自然噪声,基于此,将自然噪声比例设定为6%;
步骤5-4:取离散度集合D'中的前6%个元素,记录其对应的用户ID,将这些用户的签到数据视为自然噪声,在签到数据集C'中删除与其对应的签到数据,更新签到数据集C'为C_Na。
7.根据权利要求1所述的一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法,其特征在于,所述的步骤6包括:
步骤6-1:基于C'签到数据集,生成用户-位置二维评分矩阵R'={rul},u∈[1,NU],l∈[1,NL],其中,u表示用户编号,l表示地址编号,NU表示用户总数,NL表示地址总数,rul表示用户u对位置l的评分:
其中,cul是用户u在位置l上的签到次数,cmax是所有用户签到次数的最大值;
同理,基于C_Na签到数据集,生成用户-位置二维评分矩阵R_Na={ru'l'},u'∈[1,0.94×NU],l'∈[1,NL],其中,u'表示用户编号,l'表示地址编号,NU表示用户总数,NL表示地址总数,ru'l'表示用户u'对位置l'的评分;
步骤6-2:基于C'签到数据集和R'评分数据集,随机选取20%的用户作为目标用户集AU',为集合中每个目标用户运行各类推荐算法,生成推荐列表;
步骤6-3:基于C_Na签到数据集和R_Na评分数据集,随机选取20%的用户作为目标用户集AU_Na,为集合中每个目标用户运行各类推荐算法,生成推荐列表;
步骤6-4:针对各个推荐算法,逐一评估同一推荐算法在不同数据集中的推荐准确度,各推荐算法为目标用户集运行一次的准确率Precision、召回率Recall和推荐精度指标F1的值是集合中所有用户该指标的平均值;
步骤6-5:重复步骤6-2~步骤6-4步骤Ntimes次,各个推荐算法的准确率Precision、召回率Recall和推荐精度指标F1的值是Ntimes次运行结果的平均值;
步骤6-6:对比分析各指标结果:如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的推荐精度指标F1大于在C'签到数据集和R'评分数据集中的推荐精度指标F1值,则说明所提出的技术有效地过滤掉了自然噪声数据;如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的精确率Precision大于在C'签到数据集和R'评分数据集中的Precision值,则所述方法能够帮助推荐算法更准确地为用户找到感兴趣的地址;如果同一推荐算法在C_Na签到数据集和R_Na评分数据集中的召回率Recall大于在C'签到数据集和R'评分数据集中的Recall值,则所述方法能够帮助推荐算法更全面地覆盖用户感兴趣的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458878.9A CN116644227A (zh) | 2023-04-25 | 2023-04-25 | 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458878.9A CN116644227A (zh) | 2023-04-25 | 2023-04-25 | 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116644227A true CN116644227A (zh) | 2023-08-25 |
Family
ID=87617823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310458878.9A Pending CN116644227A (zh) | 2023-04-25 | 2023-04-25 | 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644227A (zh) |
-
2023
- 2023-04-25 CN CN202310458878.9A patent/CN116644227A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102332025B (zh) | 一种智能垂直搜索方法和系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN107633444B (zh) | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 | |
US20140040371A1 (en) | Systems and methods for identifying geographic locations of social media content collected over social networks | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN102254265A (zh) | 一种富媒体互联网广告内容匹配、效果评估方法 | |
CN107896153B (zh) | 一种基于移动用户上网行为的流量套餐推荐方法及装置 | |
CN108415913A (zh) | 基于不确定邻居的人群定向方法 | |
CN103955480B (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN111611499B (zh) | 协同过滤方法、协同过滤装置及系统 | |
CN115408618B (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
CN112380433A (zh) | 面向冷启动用户的推荐元学习方法 | |
CN111079009A (zh) | 一种用于政务地图服务的用户兴趣检测方法及系统 | |
CN114036376A (zh) | 一种基于k均值聚类的时间感知自适应兴趣点推荐方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN116166878A (zh) | 一种基于k均值聚类的时间感知自适应兴趣点推荐方法 | |
CN105335363A (zh) | 一种对象推送方法及系统 | |
CN105159898A (zh) | 一种搜索的方法和装置 | |
CN111159559A (zh) | 根据用户需求和用户行为构建推荐引擎的方法 | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 | |
Tan et al. | Preference-oriented mining techniques for location-based store search | |
CN106909626A (zh) | 改进的决策树分类算法实现搜索引擎优化技术 | |
CN106844626B (zh) | 利用微博关键词和位置信息模拟空气质量的方法及系统 | |
CN109492924B (zh) | 一种基于微博用户自身和行为价值二阶的影响力评估方法 | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |