CN116701772A - 数据推荐方法和装置、计算机可读存储介质、电子设备 - Google Patents
数据推荐方法和装置、计算机可读存储介质、电子设备 Download PDFInfo
- Publication number
- CN116701772A CN116701772A CN202310970382.XA CN202310970382A CN116701772A CN 116701772 A CN116701772 A CN 116701772A CN 202310970382 A CN202310970382 A CN 202310970382A CN 116701772 A CN116701772 A CN 116701772A
- Authority
- CN
- China
- Prior art keywords
- webpage
- service
- determining
- recommendation
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims description 30
- 238000012216 screening Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 abstract description 3
- 230000037430 deletion Effects 0.000 abstract description 3
- 239000011435 rock Substances 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据推荐方法和装置、计算机可读存储介质、电子设备,所述方法应用于数据推荐技术领域,所述方法包括:获取用户行为数据集和网页服务数据集;对用户行为数据集和网页服务数据集进行处理,以生成目标数据集;根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇;根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。本发明的推荐方法,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
Description
技术领域
本发明涉及数据推荐技术领域,尤其涉及一种数据推荐方法、一种数据推荐装置、一种计算机可读存储介质和一种电子设备。
背景技术
随着互联网技术的飞速发展和网民数量的快速增长,虚拟世界中的信息量呈现出爆炸式增长的趋势。在信息繁杂的时代,使用何种技术筛选并处理现有的数据信息用以推荐符合用户兴趣的高质量网页服务,从而提高互联网用户的体验满意度是现在互联网行业的研究热点之一。
目前的推荐系统使用的原始数据集数据限制多且杂乱,直接影响了后续所有的环节,推荐算法中需要的用户评分主要依赖于用户主动对服务的评分,评分的主观性较强,获取的评分缺值较多,且无法避免恶意评分、刷分等对整个预测结果的干扰。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种数据推荐方法,通过获取并处理用户行为数据集和网页服务数据集,并计算网页主题评分,根据网页主题评分确定网页服务的点击频繁项集和目标用户簇,从而根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
本发明的第二个目的在于提出一种数据推荐装置。
本发明的第三个目的在于提出一种计算机可读存储介质。
本发明的第四个目的在于提出一种电子设备。
为达到上述目的,本发明第一方面实施例提出了一种数据推荐方法,包括:获取用户行为数据集和网页服务数据集;对用户行为数据集和网页服务数据集进行处理,以生成目标数据集;根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇;根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。
根据本发明实施例的数据推荐方法,首先获取用户行为数据集和网页服务数据集,然后对用户行为数据集和网页服务数据集进行处理,以生成目标数据集,接着根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇,最后根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。由此,该方法能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
另外,根据本发明上述实施例的数据推荐方法还可以具有如下的附加技术特征:
根据本发明的一个实施例,根据目标数据集计算网页主题评分,包括:获取每个网页主题的点击频次;根据每个网页主题的点击频次和所有网页主题的点击频次确定每个网页主题的点击概率;根据每个网页主题的点击概率确定每个网页主题评分。
根据本发明的一个实施例,根据网页主题评分确定网页服务的点击频繁项集,包括:根据网页主题评分生成网页主题推荐列表;采用关联规则对主题推荐列表进行处理,以获得网页服务的点击频繁项集。
根据本发明的一个实施例,根据网页主题评分生成网页主题推荐列表,包括:按照网页主题评分的高低顺序筛选出预设个数的网页主题,以作为网页主题推荐列表。
根据本发明的一个实施例,根据网页主题评分确定目标用户簇,包括:根据网页主题评分确定网页服务评分;根据网页服务评分确定用户评分相似度;根据用户评分相似度采用聚类算法确定目标用户簇。
根据本发明的一个实施例,网页主题评分与网页服务评分呈正相关关系。
根据本发明的一个实施例,根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表,包括:获取目标用户簇中的网页服务列表;根据网页服务列表和网页服务的点击频繁项集确定对不同网页服务的评分;根据不同网页服务的评分确定网页服务推荐列表。
根据本发明的一个实施例,在确定网页服务推荐列表之前,数据推荐方法还包括:删除已点击过的网页服务,以对网页服务推荐列表进行过滤。
根据本发明的一个实施例,数据推荐方法还包括:根据评估指标对网页服务评分进行评估;在评估结果满足预设条件时,确定网页服务评分有效;其中,评估指标包括召回率、均方根误差、平均绝对误差和均方误差中的一种或多种。
为达到上述目的,本发明第二方面实施例提出了一种数据推荐装置,包括:获取模块,用于获取用户行为数据集和网页服务数据集;数据处理模块,用于对用户行为数据集和网页服务数据集进行处理,以生成目标数据集;第一确定模块,用于根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇;第二确定模块,用于根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。
根据本发明实施例的数据推荐装置,获取模块用于获取用户行为数据集和网页服务数据集,数据处理模块用于对用户行为数据集和网页服务数据集进行处理,以生成目标数据集,第一确定模块用于根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇,第二确定模块用于根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。由此,该装置能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
为达到上述目的,本发明第三方面实施例提出了一种计算机可读存储介质,其上存储有数据推荐程序,该数据推荐程序被处理器执行时实现上述的数据推荐方法。
本发明实施例的计算机可读存储介质,通过执行上述的数据推荐方法,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
为达到上述目的,本发明第四方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的数据推荐程序,处理器执行数据推荐程序时,实现上述的数据推荐方法。
根据本发明实施例的电子设备,通过执行上述的数据推荐方法,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为根据本发明实施例的数据推荐方法的流程图;
图2为根据本发明一个具体示例的数据推荐方法的流程图;
图3为根据本发明实施例的数据推荐装置的方框示意图;
图4为根据本发明实施例的电子设备的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例提出的数据推荐方法、数据推荐装置、计算机可读存储介质和电子设备。
图1为根据本发明实施例的数据推荐方法的流程图。
如图1所示,本发明实施例的数据推荐方法可包括以下步骤:
S1,获取用户行为数据集和网页服务数据集。
具体而言,针对数据的获取问题,本实施例的原始数据集来源于埋点数据,前期根据需要来规划具体的埋点计划,由此可以大大提高后期数据分析和挖掘的效率。首先获取埋点数据,例如,在多个网页中选取一个网页,可获取用户在该网页上的行为数据,如性别、年龄、职业、ID、IP地址等,以生成用户行为数据集,并统计网页服务的服务ID、服务访问地址、网页页面点击次数、地理位置(如经纬度)、所在网络自治区域等信息,以生成网页服务数据集。
S2,对用户行为数据集和网页服务数据集进行处理,以生成目标数据集。
具体而言,在获取到用户行为数据集和网页服务数据集之后,还需要对用户行为数据集和网页服务数据集进行预处理,例如,可对用户行为数据集和网页服务数据集按照一定比例划分为训练集和测试集,如可将用户行为数据集和网页服务数据集按照7:3的比例分成训练集和测试集,并对测试集和训练集分别进行数据预处理,如在训练集和测试集中,进行标准化及缺失值处理,可对缺失值、异常值、空值、重复值进行检测与处理,如将异常值或者重复值删除等,同时处理与提取特征值,得到一个处理后的数据集,以生成目标数据集。
S3,根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇。
S4,根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。
具体而言,在获取到目标数据集后,可根据目标数据集并通过相应的算法计算网页主题评分,在获取到网页主题评分后,可根据网页主题评分的高低来确定网页服务的点击频繁项集和目标用户簇,频繁项集为经常出现在一块的事物的集合,网页服务的点击频繁项集即为经常点击某个网页服务时并且还经常点击其他的网页服务的网页服务集合,目标用户簇中可包括多个用户,多个用户对某一个网页主题评分可相同或相近。例如,可选取网页主题评分最高的网页确定网页服务的点击频繁项集和目标用户簇,如根据网页主题评分确定主题评分最高的为音乐,且在多个用户中,如用户A、用户B和用户C中,用户A和用户B在多个网页主题中,对音乐的评分最高,可将用户A和用户B作为目标用户簇。网页服务为主题下面的小类,如主题为音乐,网页服务可为古典乐、摇滚乐、民谣等,可根据相应的规则确定用户喜欢某种音乐类型的同时,还喜欢其他的音乐类型,例如,用户B为目标用户,当前确定用户A和用户B为一个用户簇,且根据网页主题评分确定用户A喜欢古典乐后,同时根据网页服务的点击频繁项集确定用户A也喜欢摇滚乐,因此可同时将古典乐和摇滚乐作为网页服务推荐列表,推荐给用户B。由此,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
下面详细描述本发明的数据推荐方法的具体工作流程。
根据本发明的一个实施例,根据目标数据集计算网页主题评分,包括:获取每个网页主题的点击频次;根据每个网页主题的点击频次和所有网页主题的点击频次确定每个网页主题的点击概率;根据每个网页主题的点击概率确定每个网页主题评分。
具体而言,在根据目标数据集计算网页主题评分时,首先可将所得到的目标数据集中的服务进行主题的分类,例如,主题可包括社交、音乐、游戏、学习、网购、房产、汽车、新闻等,可组成得到集合T。对每个不同的主题统计点击频次,可根据每个网页主题的点击频次和所有网页主题的点击频次计算每个网页主题的点击概率,其公式如(1)所示:
(1)
其中,矢量表示为推荐目标用户 u 在某一时段t内对主题/>的兴趣度(即此用户点击某主题/>的点击概率),/>表示用户在某一时段t之内点击网页主题/>(i的取值为1,2,3,……,n)的频次,/>表示该用户在某一时段t中对所有网页主题的点击频次。
在确定每个网页主题的点击概率后,即可根据每个网页主题的点击概率计算每个网页主题评分,根据每个网页主题的点击概率确定每个网页主题评分时,可根据百分制计算方式将点击的概率引申为用户对该网页主题的评分,每个网页主题的点击概率与每个网页主题评分呈正相关关系,即用户点击主题的概率越高,用户对该主题的评分则越高,用户点击主题的概率越低,用户对该主题的评分则越低。
根据本发明的一个实施例,根据网页主题评分确定网页服务的点击频繁项集,包括:根据网页主题评分生成网页主题推荐列表;采用关联规则对主题推荐列表进行处理,以获得网页服务的点击频繁项集。
具体而言,在获取到网页主题评分后,可根据网页主题评分生成主题推荐列表,在本发明的一个实施例中,可根据每个网页主题点击时所浏览的时长确定网页主题评分,如,当该网页主题浏览的时间越长时,说明用户对该网页主题比较感兴趣,可确定网页主题的评分较高,当该网页主题浏览的时间越短时,说明用户对该网页主题不是很感兴趣,可确定网页主题的评分较低。在获取到网页主题评分后,可将网页主题按照网页评分由小到大的顺序排列,例如,音乐主题为10分、游戏主题为20分、学习主题为30分、网购主题为40分,汽车主题为50分,可通过确定中位数的方式,即30分为中位数,选择比中位数高的分数对应的主题生成主题推荐列表,即可将网购主题和汽车主题作为主题推荐列表。
在确定主题推荐列表后,为了使推荐列表更加精准,即更细致的推荐用户所感兴趣的内容,还可以采用预设算法对主题推荐列表进行处理,如通过关联规则(如Aprior算法、FP-Growth算法、Eclat算法和PrefixSpan算法等)对主题推荐列表进行处理,以获得网页服务的点击频繁项集。即频繁项集为经常出现在一块的事物的集合,点击频繁项集即为经常点击某个网页服务时并且还经常点击其他的网页服务的网页服务集合。
对于主题推荐列表而言,每个主题下可包含多个网页服务,例如,音乐主题下包含的网页服务可为古典乐、摇滚乐、民谣等,游戏主题下包含的网页服务可以为单机游戏、网页游戏等。在获得网页服务的点击频繁项集时,例如,可将数据导入到数据仓库中,使用特定算法(如Aprior算法)来挖掘用户的历史点击频繁项集,如在用户点击较多的网页服务为古典乐时,根据算法可确定该用户还点击摇滚乐、民谣较多,因此可将古典乐、摇滚乐和民谣共同作为网页服务的点击频繁项集。其中该算法是面向大数据处理的算法,将动态规划算法思想融入其中,有效地将庞大的项集划分为一个个分散的项集。首先,可将每个频繁项集提取出来,生成数据库并分发到对应的节点机上,由节点机对得到的数据库来生成对应的频繁项集,最后结合成一个总体的频繁项集。由此,该算法利用节点机来分散主机生成项集的压力的同时,确保生成网页服务之间的关联规则正确性,也避免了因为单一主机无法承载过量信息生成的项集而导致算法失效的现象。
进一步地,根据本发明的一个实施例,根据网页主题评分生成网页主题推荐列表,包括:按照网页主题评分的高低顺序筛选出预设个数的网页主题,以作为网页主题推荐列表。其中,预设个数可根据实际情况而定。
具体而言,在根据网页主题评分生成网页主题推荐列表时,可以按照主题评分的高低顺序筛选出预设个数的网页主题,例如,当前主题可包括音乐、游戏、学习、网购、房产和汽车,首先将主题评分按照由高到低的顺序进行排列,如,主题评分按照由高到低的顺序排列后为游戏-音乐-网购-汽车-房产-学习,然后选取预设个数的网页主题作为网页主题推荐列表,如预设个数为2时,可将游戏和音乐作为网页主题推荐列表。也就是说,根据网页主题评分筛选出用户比较感兴趣的主题,以作为网页主题推荐列表。
根据本发明的一个实施例,根据网页主题评分确定目标用户簇,包括:根据网页主题评分确定网页服务评分;根据网页服务评分确定用户评分相似度;根据用户评分相似度采用聚类算法确定目标用户簇。其中,网页主题评分与网页服务评分呈正相关关系。
具体而言,在计算网页服务评分时,可能存在用户从未点击过某网页服务的可能性,因此可根据网页评分来确定网页服务评分,例如,网页主题评分越高,可确定网页服务评分越高,网页主题评分越低,可确定网页服务评分越低,即网页主题评分与网页服务评分呈正相关关系。在获取到网页服务评分后,可根据网页服务评分确定用户评分相似度,具体的计算方式如下述公式(3)确定。
(3)
其中,表示用户u和用户v的评分相似度,其值是两个用户的协方差与标准差的商,/>表示用户u与用户v共同访问的网页服务合集,/>表示用户u对网页服务z的评分,/>表示用户v对网页服务z的评分,/>表示用户u对所有网页服务的评分,/>表示用户v对所有网页服务的评分。
在根据网页服务评分确定用户评分相似度后,可根据用户评分相似度采用聚类算法确定目标用户簇。例如,经计算用户A和用户B的用户评分相似度较高,用户B和用户C的用户评分相似度较高,因此可将用户A和用户B和用户C作为目标用户簇。
根据本发明的一个实施例,根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表,包括:获取目标用户簇中的网页服务列表;根据网页服务列表和网页服务的点击频繁项集确定对不同网页服务的评分;根据不同网页服务的评分确定网页服务推荐列表。
具体而言,在确定网页服务的点击频繁项集和目标用户簇后,可根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。首先获取目标用户簇中的网页服务列表,例如,如用户B为目标用户,当前确定用户A和用户B为一个用户簇时,并且根据网页主题评分确定用户A喜欢古典乐后,同时根据网页服务的点击频繁项集确定用户A也喜欢摇滚乐,因此可同时将古典乐和摇滚乐作为网页服务列表。在获取到目标用户簇中的网页服务列表后,可根据网页服务列表和网页服务的点击频繁项集确定对不同网页服务的评分,即该评分可依据网页服务的点击频繁项集的关联规则强度和网页服务列表中每个网页服务所在的主题评分加权得到。在确定不同网页服务的评分后,可根据不同网页服务的评分确定网页服务推荐列表,例如,摇滚乐的评分为10分,古典乐的评分为5分,民谣的评分为7分,可根据不同网页服务的评分的高低,生成网页服务推荐列表,如将网页服务评分处于中上等的生成网页服务推荐列表,即可将摇滚乐、民谣作为网页服务推荐列表。
根据本发明的一个实施例,在确定网页服务推荐列表之前,数据推荐方法还包括:删除已点击过的网页服务,以对网页服务推荐列表进行过滤。具体而言,在确定网页服务推荐列表之前,对目标用户簇中的网页服务进行过滤,如基于协同过滤的规则对目标用户簇中的网页服务进行过滤,例如,根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表包括古典乐和流行乐,若目标用户B已经点击过古典乐了,则可将网页服务推荐列表中的古典乐删除,从而对目标用户已经点击的或者使用过的网页服务进行过滤,避免推荐列表中有过多的推荐服务是用户已经使用过的,使得最后生成的推荐列表更加精准。
根据本发明的一个实施例,数据推荐方法还包括:根据评估指标对网页服务评分进行评估;在评估结果满足预设条件时,确定网页服务评分有效;其中,评估指标包括召回率、均方根误差、平均绝对误差和均方误差中的一种或多种。
具体而言,为了确定网页服务评分的准确性,从而根据不同网页服务的评分确定网页服务推荐列表以将网页服务推荐列表推荐给用户,可以采用评估指标对网页服务评分进行评估。即可将预测出网页服务评分的结果与实际结果带入到评估指标数学表达式当中进行评估,评估指标主要采用了召回率、均方根误差、平均绝对误差、均方误差四种评估指标综合评估推荐结果,数学表达式分别如下述公式(4)、(5)、(6)、(7)所示。
Recall=(4)
RMSE=(5)
MAE=(6)
MSE=(7)
其中,在召回率Recall的数学表达式当中,TP表示真实情况正例预测结果中正例的(预测值与实际差值较小的)数量,FN表示真实情况正例预测结果中负例(预测值与实际差值较大的)的数量,TP+FN为实际正样本总数量。在均方根误差RMSE、平均绝对误差MAE和均方误差MSE的数学表达式中,表示为测试集的真实值,/>表示为测试预测结果,/>表示为测试样本数。需要说明的是,在上述四个评估指标中,均方根误差RMSE和平均绝对误差MAE具有相同量纲,但平均绝对误差MAE结果展示真实误差,而均方根误差RMSE结果则展示较大误差的情况。
在根据上述公式获取到评估结果后,在评估结果满足预设条件时,例如,评估结果的值大于某一设定值时,如评估结果的值高于0.8,可确定网页服务评分有效且准确。
综上,本发明结合了埋点数据与数据挖掘技术,通过挖掘埋点数据分析用户行为,生成用户兴趣评分值,随后使用结合关联规则的用户协同过滤推荐算法得出挖掘结果,并将该结果融入精准推荐列表。本发明综合分析了用户的唯一标识、ip地址和mac地址以及用户所浏览网页的访问地址并进行域名解析,通过对原始数据的预处理及分析计算得出用户评分,极大地减少了问卷调查的工作量,以非主观动态情感信息得出用户评分的形式也使得用户偏好结果更加客观,然后使用特定算法计算出用户历史点击频繁项集、计算用户相似度、聚类确定用户簇以及协同过滤原则预测目标用户对网页服务的评分,最后采用四类评估指标来评估网页服务评分的有效性。
下面结合图2来描述本发明的推荐方法。
作为一个具体示例,本发明的数据推荐方法可包括以下步骤:
S101,获取用户行为数据集和网页服务数据集。
S102,对用户行为数据集和网页数据集进行处理,以生成目标数据集。
S103,获取每个网页主题的点击频次,根据每个网页主题的点击频次和所有网页主题的点击频次确定每个网页主题的点击概率,根据每个网页主题的点击概率确定每个网页主题评分。
S104,按照网页主题评分的高低顺序筛选出预设个数的网页主题,以作为网页主题推荐列表。
S105,采用关联规则对主题推荐列表进行处理,以获得网页服务的点击频繁项集。
S106,根据网页主题评分确定网页服务评分,并根据网页服务评分确定用户评分相似度,根据用户评分相似度采用聚类算法确定目标用户簇。
S107,获取目标用户簇中的网页服务列表。
S108,根据网页服务列表和网页服务的点击频繁项集确定对不同网页服务的评分。
S109,根据不同网页服务的评分确定网页服务推荐列表。
S110,删除已点击过的网页服务,以对网页服务推荐列表进行过滤。
S111,根据评估指标对网页服务评分进行评估,在评估结果满足预设条件时,确定网页服务评分有效。
综上所述,根据本发明实施例的数据推荐方法,首先获取用户行为数据集和网页服务数据集,然后对用户行为数据集和网页数据集进行处理,以生成目标数据集,接着根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇,最后根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。由此,该方法能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
对应上述实施例,本发明还提出了一种数据推荐装置。
如图3所示,本发明实施例提出的数据推荐装置100包括:获取模块110、数据处理模块120、第一确定模块130和第二确定模块140。
其中,获取模块110用于获取用户行为数据集和网页服务数据集。数据处理模块120用于对用户行为数据集和网页服务数据集进行处理,以生成目标数据集。第一确定模块130用于根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇。第二确定模块140用于根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。根据本发明的一个实施例,第一确定模块130根据目标数据集计算网页主题评分,具体用于:获取每个网页主题的点击频次;根据每个网页主题的点击频次和所有网页主题的点击频次确定每个网页主题的点击概率;根据每个网页主题的点击概率确定每个网页主题评分。
根据本发明的一个实施例,第一确定模块130根据网页主题评分确定网页服务的点击频繁项集,具体用于:根据网页主题评分生成网页主题推荐列表;采用关联规则对主题推荐列表进行处理,以获得网页服务的点击频繁项集。
根据本发明的一个实施例,第一确定模块130根据网页主题评分生成网页主题推荐列表,具体用于:按照网页主题评分的高低顺序筛选出预设个数的网页主题,以作为网页主题推荐列表。
根据本发明的一个实施例,第一确定模块130根据网页主题评分确定目标用户簇,具体用于:根据网页主题评分确定网页服务评分;根据网页服务评分确定用户评分相似度;根据用户评分相似度采用聚类算法确定目标用户簇。
根据本发明的一个实施例,网页主题评分与网页服务评分呈正相关关系。
根据本发明的一个实施例,第二确定模块140根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表,具体用于:获取目标用户簇中的网页服务列表;根据网页服务列表和网页服务的点击频繁项集确定对不同网页服务的评分;根据不同网页服务的评分确定网页服务推荐列表。
根据本发明的一个实施例,在确定网页服务推荐列表之前,第二确定模块140还用于:删除已点击过的网页服务,以对网页服务推荐列表进行过滤。
根据本发明的一个实施例,第二确定模块140还用于:根据评估指标对网页服务评分进行评估;在评估结果满足预设条件时,确定网页服务评分有效;其中,评估指标包括召回率、均方根误差、平均绝对误差和均方误差中的一种或多种。
需要说明的是,本发明实施例的数据推荐装置中未披露的细节,请参照本发明实施例的数据推荐方法中所披露的细节,具体这里不再赘述。
根据本发明实施例的数据推荐装置,获取模块用于获取用户行为数据集和网页服务数据集,数据处理模块用于对用户行为数据集和网页服务数据集进行处理,以生成目标数据集,第一确定模块用于根据目标数据集计算网页主题评分,并根据网页主题评分确定网页服务的点击频繁项集和目标用户簇,第二确定模块用于根据网页服务的点击频繁项集和目标用户簇确定网页服务推荐列表。由此,该装置能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
对应上述实施例,本发明还提出了一种计算机可读存储介质。
本发明实施例的计算机可读存储介质,其上存储有数据推荐程序,该数据推荐程序被处理器执行时实现上述的数据推荐方法。
根据本发明实施例的计算机可读存储介质,通过执行上述的数据推荐方法,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
对应上述实施例,本发明还提出了一种电子设备。
如图4所示,本发明实施例的电子设备200可包括:存储器210、处理器220以及存储在存储器210上并可在处理器220上运行的数据推荐程序,处理器220执行数据推荐程序时,实现上述的数据推荐方法。
根据本发明实施例的电子设备,通过执行上述的数据推荐方法,能够解决现有的用户评分仅来源于用户的主观评价、缺失值多、评价来源单一造成推荐算法不准确的问题,同时避免极端评价对预测结果产生的负面影响,可以准确的进行数据推荐。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种数据推荐方法,其特征在于,所述方法包括:
获取用户行为数据集和网页服务数据集;
对所述用户行为数据集和所述网页服务数据集进行处理,以生成目标数据集;
根据所述目标数据集计算网页主题评分,并根据所述网页主题评分确定网页服务的点击频繁项集和目标用户簇;
根据所述网页服务的点击频繁项集和所述目标用户簇确定网页服务推荐列表。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集计算网页主题评分,包括:
获取每个网页主题的点击频次;
根据每个所述网页主题的点击频次和所有所述网页主题的点击频次确定每个所述网页主题的点击概率;
根据每个所述网页主题的点击概率确定每个所述网页主题评分。
3.根据权利要求1所述的方法,其特征在于,所述根据所述网页主题评分确定网页服务的点击频繁项集,包括:
根据所述网页主题评分生成网页主题推荐列表;
采用关联规则对所述主题推荐列表进行处理,以获得所述网页服务的点击频繁项集。
4.根据权利要求3所述的方法,其特征在于,所述根据所述网页主题评分生成网页主题推荐列表,包括:
按照所述网页主题评分的高低顺序筛选出预设个数的所述网页主题,以作为所述网页主题推荐列表。
5.根据权利要求1所述的方法,其特征在于,所述根据所述网页主题评分确定目标用户簇,包括:
根据所述网页主题评分确定网页服务评分;根据所述网页服务评分确定用户评分相似度;
根据所述用户评分相似度采用聚类算法确定所述目标用户簇。
6.根据权利要求5所述的方法,其特征在于,所述网页主题评分与所述网页服务评分呈正相关关系。
7.根据权利要求1所述的方法,其特征在于,所述根据所述网页服务的点击频繁项集和所述目标用户簇确定所述网页服务推荐列表,包括:
获取所述目标用户簇中的网页服务列表;
根据所述网页服务列表和所述网页服务的点击频繁项集确定对不同网页服务的评分;
根据所述不同网页服务的评分确定所述网页服务推荐列表。
8.根据权利要求1所述的方法,其特征在于,在确定所述网页服务推荐列表之前,所述方法还包括:
删除已点击过的网页服务,以对所述网页服务推荐列表进行过滤。
9.根据权利要求5所述的方法,其特征在于,还包括:
根据评估指标对所述网页服务评分进行评估;
在评估结果满足预设条件时,确定所述网页服务评分有效;
其中,所述评估指标包括召回率、均方根误差、平均绝对误差和均方误差中的一种或多种。
10.一种数据推荐装置,其特征在于,包括:
获取模块,用于获取用户行为数据集和网页服务数据集;
数据处理模块,用于对所述用户行为数据集和所述网页服务数据集进行处理,以生成目标数据集;
第一确定模块,用于根据所述目标数据集计算网页主题评分,并根据所述网页主题评分确定网页服务的点击频繁项集和目标用户簇;
第二确定模块,用于根据所述网页服务的点击频繁项集和所述目标用户簇确定网页服务推荐列表。
11.一种计算机可读存储介质,其特征在于,其上存储有数据推荐程序,该数据推荐程序被处理器执行时实现根据权利要求1-9中任一项所述的数据推荐方法。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的数据推荐程序,所述处理器执行所述数据推荐程序时,实现根据权利要求1-9中任一项所述的数据推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310970382.XA CN116701772B (zh) | 2023-08-03 | 2023-08-03 | 数据推荐方法和装置、计算机可读存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310970382.XA CN116701772B (zh) | 2023-08-03 | 2023-08-03 | 数据推荐方法和装置、计算机可读存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701772A true CN116701772A (zh) | 2023-09-05 |
CN116701772B CN116701772B (zh) | 2024-03-19 |
Family
ID=87837795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310970382.XA Active CN116701772B (zh) | 2023-08-03 | 2023-08-03 | 数据推荐方法和装置、计算机可读存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701772B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024423A1 (en) * | 2015-07-20 | 2017-01-26 | Guangzhou Ucweb Computer Technology Co., Ltd | Webpage pre-reading method, apparatus and smart terminal |
CN106600372A (zh) * | 2016-12-12 | 2017-04-26 | 武汉烽火信息集成技术有限公司 | 一种基于用户行为的商品推荐方法及系统 |
CN108132963A (zh) * | 2017-11-23 | 2018-06-08 | 广州优视网络科技有限公司 | 资源推荐方法和装置、计算设备和存储介质 |
CN111259133A (zh) * | 2020-01-17 | 2020-06-09 | 成都信息工程大学 | 一种融合多信息的个性化推荐方法 |
CN112380451A (zh) * | 2020-12-04 | 2021-02-19 | 江苏科技大学 | 一种基于大数据的喜好内容推荐方法 |
CN113643103A (zh) * | 2021-08-31 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 基于用户相似度的产品推荐方法、装置、设备及存储介质 |
CN115048569A (zh) * | 2022-01-27 | 2022-09-13 | 上海沐冉信息科技有限公司 | 大数据精准推荐方法、装置、设备及存储介质 |
-
2023
- 2023-08-03 CN CN202310970382.XA patent/CN116701772B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024423A1 (en) * | 2015-07-20 | 2017-01-26 | Guangzhou Ucweb Computer Technology Co., Ltd | Webpage pre-reading method, apparatus and smart terminal |
CN106600372A (zh) * | 2016-12-12 | 2017-04-26 | 武汉烽火信息集成技术有限公司 | 一种基于用户行为的商品推荐方法及系统 |
CN108132963A (zh) * | 2017-11-23 | 2018-06-08 | 广州优视网络科技有限公司 | 资源推荐方法和装置、计算设备和存储介质 |
CN111259133A (zh) * | 2020-01-17 | 2020-06-09 | 成都信息工程大学 | 一种融合多信息的个性化推荐方法 |
CN112380451A (zh) * | 2020-12-04 | 2021-02-19 | 江苏科技大学 | 一种基于大数据的喜好内容推荐方法 |
CN113643103A (zh) * | 2021-08-31 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 基于用户相似度的产品推荐方法、装置、设备及存储介质 |
CN115048569A (zh) * | 2022-01-27 | 2022-09-13 | 上海沐冉信息科技有限公司 | 大数据精准推荐方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
俞美华: "融合用户兴趣度与项目相关度的电影推荐算法研究", 《电脑知识与技术》, vol. 13, no. 8, 31 March 2017 (2017-03-31), pages 22 - 26 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116701772B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222267B (zh) | 一种游戏平台信息推送方法、系统、存储介质及设备 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
Amatriain et al. | Rate it again: increasing recommendation accuracy by user re-rating | |
US7660459B2 (en) | Method and system for predicting customer behavior based on data network geography | |
US7080052B2 (en) | Method and system for sample data selection to test and train predictive algorithms of customer behavior | |
Wang et al. | A data-driven network analysis approach to predicting customer choice sets for choice modeling in engineering design | |
US20090177645A1 (en) | Adapting a context-independent relevance function for identifying relevant search results | |
Blooma et al. | Predictors of high‐quality answers | |
WO2018192348A1 (zh) | 数据处理方法、装置及服务器 | |
Fazeli et al. | Which recommender system can best fit social learning platforms? | |
CN116701772B (zh) | 数据推荐方法和装置、计算机可读存储介质、电子设备 | |
US9009083B1 (en) | Mechanism for automatic quantification of multimedia production quality | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
US8140444B2 (en) | Method of measuring a large population of web pages for compliance to content standards that require human judgement to evaluate | |
Saleem et al. | Personalized decision-strategy based web service selection using a learning-to-rank algorithm | |
Gomes Ferreira et al. | On network backbone extraction for modeling online collective behavior | |
Khoshnevis et al. | Prioritizing ground‐motion validation metrics using semisupervised and supervised learning | |
CN113435713B (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN112818234B (zh) | 一种网络舆情信息分析处理方法及系统 | |
CN110543601B (zh) | 一种基于中智集的上下文感知兴趣点推荐方法及系统 | |
Luttbeg et al. | Comparing alternative models to empirical data: cognitive models of western scrub-jay foraging behavior | |
Barcaroli et al. | Integration of ICT survey data and Internet data from enterprises websites at the Italian National Institute of Statistics | |
Bornmann | Which research institution performs better than average in a subject category or better than selected other institutions? | |
CN104063514A (zh) | 垂直搜索方法 | |
CN114092216A (zh) | 企业信贷评级方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |