CN111079009B

CN111079009B - 一种用于政务地图服务的用户兴趣检测方法及系统

Info

Publication number: CN111079009B
Application number: CN201911268194.2A
Authority: CN
Inventors: 郭艳; 林伟华; 刘福江; 赵泽军; 陈泽平; 张宏博; 刘福寿; 欧阳迎坤
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-05-26
Anticipated expiration: 2039-12-11
Also published as: CN111079009A

Abstract

本发明公开了一种用于政务地图服务的用户兴趣检测方法及系统，通过获取用于体现用户行为特征的政务数据，且基于当前获取的体现用户行为特征的数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务建模的情况下，构建主动性用户兴趣推荐模型；基于当前构建的主动性用户兴趣模型，进行相关服务的推荐；本发明公开的技术方案有效的提高了政务平台的地图服务能力，大大提升了政务用户地图服务体验。

Description

一种用于政务地图服务的用户兴趣检测方法及系统

技术领域

本发明涉及互联网信息服务技术领域，更具体地说，涉及一种用于政务地图服务的主动性用户兴趣检测方法及模型。

背景技术

当前，以智慧政务服务为导向的政务“互联网+”已成为社会的主旋律。在这个大背景下，政务信息资源目录、政务信息资源共享融合、政务数据资产化以及社会信用体系建设等地图业务专题都十分依赖政务大数据，中央政府也屡次提出国家大数据战略。当前政务地图服务的规模一直扩大，复杂多样的地图数据充斥着网络，同时也带来了信息超负载的问题；人们在享受丰富的政务地图数据资源带来的愉悦的同时，一方面也在承受在大量无关数据中找寻相关信息的痛苦，另一方面政务用户无法在过量的数据中迅速获取对自己有用的资源，降低了数据的利用率，许多有用的海量地图数据不能被快速浏览甚至搜索超时，造成了“资源浪费”。

目前基于提高精准性的用户兴趣模型中，尽管采用了个性化结合整体的服务推荐方式，一定程度上有效地解决了用户兴趣定位的精准性问题，但其推荐结果仍然有待提高。

而基于提高精准性的用户兴趣模型并没有针对用户潜在兴趣特征进行深入挖掘，使推荐模型仍然缺乏一定的主动性，导致其推荐结果仍不够完善。因此，面对海量而复杂的政务地图大数据，如何针对不同类型用户进行高效缓存和存储，提升政务地图个性化服务的主动性已成为迫切需要解决的问题。

发明内容

本发明要解决的技术问题在于，针对现有技术在面对海量而复杂的政务地图大数据时，无法对不同类型用户数据，进行高效缓存和存储的缺陷，提供一种用于政务地图服务的用户兴趣检测方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种用于政务地图服务的用户兴趣检测方法，包括以下步骤：

获取用于体现用户行为特征的政务数据，所述政务数据包括政务地图瓦片数据和设有用户属性的用户行为数据；

基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务建模结果的情况下，构建主动性用户兴趣推荐模型；其中：

在进行整体服务建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；

在进行个性化服务建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；

在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行加权排序，进行潜在兴趣服务推荐；

基于当前构建的主动性用户兴趣模型，得到模型推荐的数据集；通过所述数据集进一步将相关服务推荐给用户。

本发明提出的一种用于政务地图服务的用户兴趣检测系统，包括以下模块：

数据获取模块，用于获取用于体现用户行为特征的政务数据，所述政务数据包括政务地图瓦片数据和设有用户属性的用户行为数据；

主动性用户兴趣推荐模型构建模块，用于基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务建模结果的情况下，构建主动性用户兴趣推荐模型；其中，主动性用户兴趣推荐模型构建模块还包括以下模块：

整体服务建模模块，用于在进行整体服务建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；

个性化服务建模模块，用于在进行个性化服务建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；

潜在兴趣服务推荐建模模块，用于在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行加权排序，进行潜在兴趣服务推荐。

在本发明所述的一种用于政务地图服务的用户兴趣检测方法及系统中，将信息量权重和重要性权重评价法进行改进，从而得到一种更加精准地适用于用户兴趣建模的权重建模方法。

实施本发明的一种用于政务地图服务的用户兴趣检测方法及系统，具有以下有益效果：

1、提高服务推荐的命中率和响应时间，有效的提高了政务平台的地图服务能力，大大提升了政务用户地图服务的用户体验；

2、通过引入加权排序推荐方法，减少共有不为零和评分项目数量上造成的误差；

3、结合用户的属性特征，引入加权排序推荐方法，挖掘出各类型用户对于相似用户的潜在兴趣，使得各类型用户的服务推荐结果更加精准，从而促进模型的准确度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是主动性的用户兴趣模型框架图；

图2是用户兴趣检测系统结构图；

图3是基于用户的协同过滤原理图；

图4是基于UserCF算法改进方法流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明通过对整体服务推荐、个性化服务推荐和潜在兴趣服务推荐进行建模，基于用户行为的历史访问数据，结合用户类型、访问服务类别、访问次数、访问行列号以及访问层级等来分析用户的行为特征，构建主动性用户兴趣模型，最终得到模型推荐的数据集，有效的提供了政务平台的地图服务能力，大大提高了政务平台的地图服务能力，大大提升了用户地图服务体验。

请参考图1，其为主动性的用户兴趣模型框架图，构建所述主动性的用户兴趣模型具体包括以下步骤：

S1、获取用于体现用户行为特征的政务数据，所述政务数据包括政务地图瓦片数据和设有用户属性的用户行为数据；

所述用户行为包括用户背景属性、用户行为访问次数、访问区域等属性信息。

本实施例依托于海南省政务服务地理空间信息大数据平台，进而获取到包含政务地图的瓦片数据和政务用户行为，这两种类型的数据，其中：

1.政务地图瓦片数据包括海南省已公开的政务数据公安厅、国土厅、食药监、林业厅等共计15个厅局，58项地图服务数据(包含点、线、面三种类型的要素数据，其中包括43种点要素、5种线要素、10种面要素服务的矢量瓦片数据)。政务大数据地图服务数据大多都是以点要素简单表现形式呈现，只有少数以线、面复杂要素表现形式呈现。

2.政务用户行为数据：本发明选择获取政务用户访问的地图服务日志进行用户行为分析，从而构造用户兴趣模型进行服务推荐。

上述两种类型数据的获取方式，具体为通过安装Kibana日志管理系统来获取用户访问矢量瓦片访问的行为日志数据，并配置合适的日志系统的用户行为属性字段，以此分析用户行为并构造用户兴趣模型。

因此本实施例下，是以Kibana日志管理系统来记录各类用户IP、访问服务名、访问瓦片行号、列号及访问层级等用户行为数据，统计用户访问次数来分析各厅局用户行为热度。

目前，用户访问行为都是通过访问量来反映其热度，其表现形式包括矢量瓦片访问量和服务访问量。由于矢量瓦片访问量多而繁杂，且用户访问不同级别的地图服务需要加载的矢量瓦片数量往往存在较大差异，不能准确表达用户行为，故本发明采用统计服务访问量来表示用户行为热度。

通常规定，用户在访问其他服务之后，又重复访问此服务的统计结果视为服务访问量。

S2、当前基于Kibana日志管理系统获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中：

在进行整体服务建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；具体为：

对于政务地图服务来说，在整体评价中最能体现用户行为特征数据的是用户访问种类数和访问数量这两个属性数据，因此，本实施例选择这两个属性数据作为评分项，进行整体服务推荐并进行排序。

结合整体建模方法，由矢量瓦片日志系统得到两个月数据分析区间内的评分项统计结果表如表1所示：

表1评分项统计结果表

/>

由表1可以看出，在全省58类地图服务中，访问用户种类为10种以上的服务的用户访问数量都在400次以上；访问用户种类为10种以下的服务，用户访问数量大概都在100～400次之间。同时，随着访问用户种类的增多，用户访问数量呈现一定的增长趋势，尤其在访问用户种类较多时，增长趋势越明显。

因此可以得出以下结论：

用户访问数量与访问用户种类存在着一定的正相关关系，两者之间具有一定的依赖性。

本实施例中，将表1的评分项数据代入欧几里德距离公式中进行整体服务推荐评价系数计算，其中，所述整体建模是基于欧几里德距离评价算法，通过构建散点图，计算不同服务在散点图中的距离，进行判断用户对不同服务的偏好程度；其中：

服务代表的节点距离原点的距离越大，表示用户对此服务的偏好程度越高；

多项服务节点之间的间距越小，表示用户对所述多项服务的偏好程度越接近。

然后由归一化后的评分项结果得到各服务距原点的欧几里德距离评价结果如下表2，表中结果为排序靠前的10类地图服务。

表2各服务欧几里德距离评价结果表

对于每项服务基于评分项值，为保证用户各个评分项值的评分标准的统一，本实施例对评分项值进行零-均值标准化处理，通过去掉各维数据间的数量级差别，避免由于各维数据间的数量级差别较大，而造成预测误差较大的情况，其中，零-均值标准化处理的数学表达式为：

x_n为评分项值，μ为各维数据集的均值，σ为各维数据集的方差。

由表2可以看出，在用户访问数量较高时，欧几里德距离评价系数排序表与表1的评分项统计结果排序一致，反映出欧几里德距离评价系数一定程度上取决于评分项中用户访问数量的高低，符合欧几里德距离评价规律，同时符合用户行为习惯，验证了此评价系数的可靠性。

同时，在58类地图服务中，随着用户访问数量的增多，欧几里德距离评价系数越高，尤其在用户访问数量较高时，欧几里德距离评价系数普遍越高，反映出用户对此类服务的偏好程度越高，因此具有越高的可推荐性。

在进行个性化服务建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；具体为：

结合个性化建模改进方法，统计矢量瓦片日志系统中各厅局两个月数据分析区间内的服务访问量并进行排序，得到各厅局个性化服务访问量排序结果，其具体可参考表3(以公安局和国土局为例)。

表3各厅局服务访问量排序结果表

由于表3是根据个性化用户对自身历史访问服务的访问量进行排序统计的，足以体现用户行为的个性化偏好，因此在用户个性化的服务推荐中，服务的访问量越高，排序越靠前，从而具有越高的可推荐性。

在个性化建模改进方法的服务推荐结果表中，统计各厅局自身服务命中率得到如下表4：

表4本厅局服务命中数量表

由表4可得到，各厅局服务访问量排序靠前的服务基本上都是自身厅局服务类型，例如：公安厅用户的自身10类服务在个性化建模方法的前10类中被推荐了9类，国土厅用户的自身8类服务被推荐了7类，其他厅局用户的自身服务全部都被推荐，说明此方法能够较准确地反映出各类厅局用户的访问行为偏好，验证了此推荐方法的可靠性。

在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行加权排序，进行潜在兴趣服务推荐；其中，所述潜在兴趣服务推荐建模具体为：

首先，对输入的数据集进行分类粒度的选择，所述分类粒度的选择包括对数据进行分类处理；

由于矢量瓦片日志数据维度很大，稀疏度也很高，这种数据集是没有办法直接进行协同过滤算法计算的，所以首先必须对数据集进行合适的粒度分类。依托海南省政务大数据平台，将地图服务按照性质属性分为地理空间、自然资源、企业法人、团体机构、电子证照和监测执法6大领域类，以此减轻高维度、高稀疏的数据集问题，按照性质属性分类的六大领域具有同时具备多样化和个性化的特点，促进了协同过滤算法评分项更加丰富多元化；同时实现了降维、减轻数据稀疏的效果，达到了数据集分类的目的。

其次，进行相似用户的寻找，基于前述的数据分类结果，统计各分类领域的服务访问量，进而进行相似用户的寻找，计算出不同用户之间的相似度；其中，基于对地图服务的分类，根据表1中各服务访问量统计各分类领域的服务访问量，从而计算各厅局用户间的相似度。下面以公安厅为例，代入皮尔逊相似系数公式进行皮尔逊相似系数计算，得到公安厅用户的皮尔逊相似系数排序结果表如下表5：

表5公安厅相似用户皮尔逊相似系数排序表

最后，选取相似度值较高的用户，为其进行服务加权排序推荐；其中，加权计算公式为：

其中，W(i,j)为加权相似结果，w_ij为用户i和用户j共有项的评分高的项目评分值，n为选取的共有评分高的项目个数。

当前，在需要对各厅局用户推荐服务时，首先需要选取相似度排序较高的用户进行推荐服务，选取相似度较高的用户。这类用户是一个群体，拥有相同的偏好。因此，对目标用户推荐相似度排序靠前的用户喜欢访问的服务。同时，由于不能重复推荐，有些服务已经被目标用户访问过的就不能直接推荐给目标用户，因此需要进一步对目标用户推荐还没有浏览过的服务。

例如，选取与公安厅用户相似度较高的用户为其进行服务加权排序推荐，其中相似用户喜欢访问的排序较高的服务如下表6所示，代入上述加权计算公式中，进行服务加权排序推荐。

表6公安厅相似用户加权相似服务表

由此得到公安厅用户的相似用户加权推荐结果较高的服务如下表7。

表7公安厅相似用户加权相似服务排序表

由表7可以看出，基于改进的UserCF算法能够找到与公安厅相似用户的相似服务相似度较高的服务类型为地震及火山监测站、地震避难所、地震带、地震监测设施、自然村及海岸线服务。这些服务不仅被所有厅局用户关注较高，而且增加了公安厅潜在感兴趣的厅局服务类型，如地震局、环保厅等服务类型，丰富了公安厅的服务推荐种类，使其用户兴趣模型的推荐更加丰富多样化。因此可以得出结论，基于改进的UserCF算法能够有效地找到与目标用户有相似兴趣用户的相似服务类型，从而提高用户兴趣模型的推荐结果精度。

S3、基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务建模结果的情况下，构建主动性用户兴趣推荐模型；

所述权重建模方法，具体为设置重要性权重系数，来权衡各部分之间的权重关系，将整体与个性化推荐方式有效结合，从而优化用户兴趣模型；其中：

将信息量权重和重要性权重评价法进行组合，在变异系数CV中加入重要性权重参数，设置偏好权重系数，得到改进的变异系数SV，以此调整用户兴趣模型的推荐精度；其中，改进的变异系数SV的公式如下：

其中，SV为改进后的变异系数，α、β、γ为各种偏好权重系数；

为指标X_i的平均值，S_i为指标X_i的标准差。

由于潜在兴趣服务推荐方式无法通过具体的评分项来量化反映，导致三种推荐方式之间的影响程度无法具体比较，因此本实施例只能通过设置重要性权重系数对三种推荐方式进行组合建模。

通过各厅局用户对潜在兴趣服务推荐方式的偏好程度，适当调整当前各推荐方式重要度偏好系数。由于依托平台中各厅局自身地图服务数量最大仅为全部访问种类的一半，而且自身厅局服务的用户行为又相对稳定，所以潜在兴趣服务在很大程度上影响了用户行为变化导向，由此可见潜在兴趣服务推荐方式的重要度偏好系数尤为重要，应设置较高。基于调研各厅局用户对推荐方式的重要度偏好程度，并结合各推荐方式分配均匀的原则，统计得到个性化推荐方式的重要度偏好系数α＝0.35，整体推荐方式的重要度偏好系数β＝0.3，潜在兴趣服务推荐方式的重要度偏好系数γ＝0.35。考虑依托项目的服务推荐容量，计算得到个性化推荐方式的推荐服务种类为7类，整体推荐方式的推荐服务种类为6类，潜在兴趣服务推荐方式的服务种类为7类。

当个性化推荐和整体推荐结果有重复时，同时保证一级缓存内的10类服务被个性化推荐结果和整体推荐结果填满的情况下，由潜在兴趣服务推荐结果依次补充，直至满足20类服务推荐种数。基于此推荐原则，得到提高主动性的用户兴趣模型的总服务推荐结果表，见表8。

表8主动性的用户兴趣模型的总服务推荐结果表

对比精准性的用户兴趣模型，结合表8基于提高主动性的用户兴趣模型模型推荐结果分析得到，在基于提高主动性的用户兴趣模型的总服务推荐结果中，除重点关注服务类型外，还增加了一些潜在的关注服务类型。例如公安厅增加了地震、海洋等相关服务的推荐；国土厅增加了安全监管、食品药品监管相关服务的推荐，并加大了交通相关服务的推荐等；食药监增加了公安、医疗等相关服务的推荐；林业厅增加了公安、安全监管、环保等相关服务的推荐；交通厅增加了海洋与渔业相关服务的推荐，并加大了公安相关服务的推荐；海洋与渔业厅增加了安全监管、地质遗迹相关服务的推荐，并加大了地震相关服务分推荐；环保厅加大了国土、公安、交通等相关服务的推荐；民政厅增加了公安、交通、食品监管等相关服务的推荐；农业厅加大了国土、交通等相关服务的推荐；文体厅增加了视频监控、地震、公厕等相关服务的推荐；地震厅增加了旅游、安全监管等相关服务的推荐；旅游委增加了地震相关服务的推荐；安监局增加了国土、农业、企业法人等相关服务的推荐；教育厅增加了视频监控、地震、海域等相关服务的推荐；卫计委增加了安全监管等相关服务的推荐。随着这些潜在兴趣服务被分析挖掘推荐，使得各厅局的推荐服务类型更加丰富多样，促进了模型主动推荐潜在兴趣服务的能力，有效地提高模型的推荐精度。

总结得到，主动性用户兴趣模型不仅使得各厅局服务的推荐结果种类更加丰富多样和具有针对性，能够保证模型的精准性；而且还能够挖掘出用户潜在兴趣的服务类型，增加潜在兴趣服务的主动推荐，使用户兴趣模型模型推荐结果更加准确，能够缓解用户兴趣模型缺乏主动性的问题，从而能够促进用户兴趣模型的命中率和响应效率。

请参考图2，其为本发明提供的用户兴趣检测系统结构图，该系统包括数据获取模块L1和主动性用户兴趣推荐模型构建模块L2：

数据获取模块L1用于获取用于体现用户行为特征的政务数据，所述政务数据包括政务地图瓦片数据和设有用户属性的用户行为数据；

主动性用户兴趣推荐模型构建模块L2用于基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务建模结果的情况下，构建主动性用户兴趣推荐模型；其中，主动性用户兴趣推荐模型构建模块L2还包括整体服务建模模块L21、个性化服务建模模块L22、潜在兴趣服务推荐建模模块L23和权重建模模块L24：

(1)整体服务建模模块L21用于在进行整体服务建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；其中：

所述整体服务建模模块L21是基于欧几里德距离评价算法，通过构建散点图，计算不同服务在散点图中的距离，进行判断用户对不同服务的偏好程度；其中：

(2)个性化服务建模模块L22用于在进行个性化服务建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；

(3)潜在兴趣服务推荐建模模块L23用于在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行加权排序，进行潜在兴趣服务推荐；其中，所述潜在兴趣服务推荐建模模块L23还包括分类粒度选择模块L231、相似用户寻找模块来L232和服务加权排序推荐模块L233：

分类粒度选择模块L231用于对输入的数据集进行分类粒度的选择，所述分类粒度的选择包括对数据进行分类处理；

相似用户寻找模块L232用于进行相似用户的寻找，基于前述的数据分类结果，统计各分类领域的服务访问量，进而进行相似用户的寻找，计算出不同用户之间的相似度；

服务加权排序推荐模块L233用于选取相似度值较高的用户，为其进行服务加权排序推荐；其中，加权计算公式为：

/>

本实施例下，在进行潜在兴趣服务推荐建模的过程中采用到的加权推荐算法是用户兴趣建模的核心。

目前，加权推荐算法己成功应用于多个领域，它是用户兴趣模型常用的用来挖掘用户潜在兴趣服务的推荐算法，能够有效融合不同的协同过滤算法进行用户兴趣建模，从而增加模型预测结果的主动性。

它的基本原理为：在过去有相似偏好的用户或物品将来可能也会有相似的偏好。它利用其他用户对商品的历史行为来协助对目标用户商品的推荐，向用户推荐与其兴趣相似且用户喜欢的商品，或通过其他相似物品被用户的喜好程度推荐给目标用户。由于它只依赖相关物品和用户的信息，不依赖相关领域的知识，并且能够方便地应用到不同领域中，所以该算法是目前最流行和应用最广泛的算法之一。

基于用户的协同过滤算法简称UserCF，因为它的算法效率较高、具有较强的操作性，所以在推荐领域中被广泛应用。UserCF算法的思想是：在推荐中，每个系统中的用户一定存在兴趣爱好(用户行为)和它接近的一类用户。它首先将用户输入的评分数据以用户-项目评分矩阵来代替，然后按照相似度公式计算用户之间相似性，寻找与目标用户有相似喜好的邻居用户，最后按照邻居用户的喜好，推荐可能喜好的项目。我们称那批相近的用户为邻居用户，他们的历史行为记录能够成为对当前目标用户做出物品推荐的基础。

传统的UserCF算法是按照用户间品味或爱好的相似性产生的推荐。如果两个用户是相似用户，那么一个用户可能对另一个用户感兴趣的东西也感兴趣，其原理图如下图3表示，这里的物品等同于本文研究的地图服务。

从图3中可以看出，在X、Y、Z三个用户中，用户X和用户Z都对物品x感兴趣，则认为用户X和用户Z是相似用户。若将用户Z视作目标用户，则目标用户的相似用户为用户X，用户X在对物品x感兴趣的同时也对物品z感兴趣，则模型可以把物品z推荐给目标用户Z。

然而，随着评分项的差异的增多，用户间的共有不为零项越来越多，那么用户间的共有项不为零和评分项目数量上的差异就会越来越大，此时传统的UserCF算法就不能满足推荐结果的精准性要求了，需要对其进行算法改进。本实施例针对此问题，结合用户背景特征属性，引入加权排序推荐方法，挖掘各类型用户对于相似用户的潜在兴趣需求，使各类型用户的服务推荐结果更加精准，从而促进模型的准确度。

基于用户的协同过滤算法的改进步骤可以参考图4，由图4可以看出，UserCF算法的实现步骤包括：数据表示、相似度计算和产生推荐。本文将在相似度计算时进行算法加权改进；下面将分别对算法的具体实现过程进行介绍：

1、数据表示

基于UserCF推荐算法的数据表示是将用户的评分以矩阵形式展现，见下表9：

表9 User-Item评分矩阵

其中，x为用户数，y为项目数，r_ab为用户a对项目b的评分，如果没有评分，则该项为0。

在表示评分矩阵的过程中，当遇到高维度、高稀疏度的数据时，应先对数据进行简单分类。分类原则根据评分项属性标准来划分，尽量保证既能达到划分领域种数据多样化的效果，又能实现数据降维、减轻数据稀疏的目的。

2、相似度计算改进

相似度计算是协同过滤算法最关键的内容，即使对同一个数据集，不同的相似度计算方法也会带来不同的推荐结果。基于UserCF推荐算法的相似度计算是按照两个用户对项目评分差异高低或共同评分项数量的差异，采用相似度方法进行计算；基于ItemCF推荐算法的相似度计算则是按照两个项目在各个用户对项目评分差异的高低或他共同评分用户数量的多少，进行相似度衡量。下面介绍协同过滤算法中常用的几种相似度计算方法和本文改进的相似度计算方法。

余弦相似度是协同过滤算法中常用的相似度衡量方法，它表示两向量的点积与其模的乘积之商，公式如下：

其中，

和/>

分别表示第i行和第j行数据构成的向量。这种方法是直接以真实评分计算相似度，不太严谨。例如用户i评分标准可能宽松，它的不太喜欢的项目也可能会有较高的评分，但用户j可能苛刻，即便对喜欢的项目评分也可能较低，这时候利用此方法计算相似性就不太准确了。

皮尔逊相似度是另一种比较常用的衡量相似度的方法。两个变量之间的皮尔逊相似系数定义为两个变量之间的协方差和标准差的商，它的定义见式：

其中，U代表系统中的所有评分项目，

和/>

分别代表第i行和第j行所有项的平均值。

皮尔逊相似系数sim描述的是两个变量间线性相关强弱的程度。sim的取值都在-1与+1之间，若sim<0，代表负相关；如果sim>0，代表正相关。sim的绝对值越大代表相关性越强。

上述皮尔逊相似系数公式存在问题，它没有思考用户共有不为零和评分项数量的因素，而现实中的用户评分项确实存在为零的现象，从而导致相似系数缺乏一定的有效性。例如，假如用户A和用户B多数评分项都是一样的，但共有不为零评分项较多；而用户A和用户C评分项相对较少，但共有不为零较少，且评分项上显然用户A和用户C的相似度更真实，这时相似度系数结果却可能因共有不为零项和评分项数量而造成误差。因此，上述的皮尔逊相似系数计算方法需要改进。

本实施例引入加权排序推荐方法，在皮尔逊相关系数的基础上提出一种新的加权衡量方法来改进协同过滤算法，减少共有不为零和评分项目数量上造成的误差。

然而在传统加权方法中，单一地从相似度权值来进行加权改进，没有考虑到两个用户共同评分过的项目评分值才是影响相似度计算主要的因素，特别是在评分项数量较少时更加突出。基于此，本实施例融合上述两种因素，将相似度系数值和评分项目值相乘，对传统协同过滤算法进行加权改进，它的定义见下式：

其中，W(i,j)为加权相似结果，w_ij为用户i和用户j共有项的评分高的项目评分值，n为选取的共有评分高的项目个数；最后，由上式得到最终的加权相似结果值，并对其进行排序推荐。

(4)所述权重建模模块L24用于设置重要性权重系数，来权衡各部分之间的权重关系，将整体与个性化推荐方式有效结合，从而优化用户兴趣模型；其中：

为指标X_i的平均值，S_i为指标X_i的标准差。

由于在传统的用户兴趣模型中，推荐方式单一，缺乏整体与个性化推荐方式的有效结合。因此本实施例改进传统的建模方法，通过权重建模方法应用于用户兴趣建模方法中来权衡各部分之间的权重关系，将整体与个性化推荐方式有效结合，从而优化用户兴趣模型，得到最优建模方法。

传统的权重评价法有很多，由于前人建模推荐方式单一，故前人研究中还没有应用于用户兴趣模型中的权重评价法，因此研究一种能够适用于用户兴趣模型中的权重评价法对于用户兴趣模型的构建很有科学价值。

常见的权重评价法有信息量权重和重要性权重评价法，本实施例对这两种评价方法进行改进，从而得到一种更加精准地适用于用户兴趣建模的权重建模方法，以下是具体改进方法介绍：

首先，信息量权重评价法是基于指标数据所包含的信息量来确定指标权重的一种方法；它采用变异系数法，变异系数越大，所赋的权重也越大。具体评价公式如下：

其中，CV为变异系数(变异系数越大，所赋的权重也越大；由于在传统的用户兴趣模型中，推荐方式单一，缺乏整体与个性化推荐方式的有效结合。因此本实施例改进了传统的建模方法，通过权重建模方法应用于用户兴趣建模方法中来权衡各部分之间的权重关系，将整体与个性化推荐方式有效结合，从而优化用户兴趣模型，得到最优建模方法。传统的权重评价法有很多，由于前人建模推荐方式单一，故前人研究中还没有应用于用户兴趣模型中的权重评价法，因此研究一种能够适用于用户兴趣模型中的权重评价法对于用户兴趣模型的构建很有科学价值)，

为指标X_i的平均值，S_i为指标X_i的标准差。

变异系数CV是各指标的权重得分，通过归一化处理，就能得到信息量权重系数。

为了进一步突出用户个性化偏好推荐，提高模型推荐结果的精准性，本实施例将信息量权重和重要性权重评价法进行组合，在变异系数CV中加入重要性权重，设置偏好权重系数，得到改进的变异系数SV，以此调整用户兴趣模型的推荐精度。具体改进公式如下：

其中，SV为改进后的变异系数，α、β、γ为各种偏好权重系数。

本发明能实际有效地提高地图服务推荐的命中率及响应时间，有效地提高了政务平台的地图服务能力，大大提升了政务用户地图服务体验。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种用于政务地图服务的用户兴趣检测方法，其特征在于，包括以下步骤：

基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务推荐建模结果的情况下，构建主动性用户兴趣推荐模型；其中：

在进行整体服务推荐建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；

在进行个性化服务推荐建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；

在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行的服务进行加权排序，进行潜在兴趣服务推荐；

基于当前构建的主动性用户兴趣推荐模型，得到模型推荐的数据集；通过所述数据集进一步将相关服务推荐给用户；

所述整体服务推荐建模是基于欧几里德距离评价算法，通过构建散点图，计算不同服务在散点图中的距离，进行判断用户对不同服务的偏好程度；其中：

多项服务节点之间的间距越小，表示用户对所述多项服务的偏好程度越接近；

所述潜在兴趣服务推荐建模具体为：

其次，进行相似用户的寻找，基于前述的数据分类结果，统计各分类领域的服务访问量，进而进行相似用户的寻找，计算出不同用户之间的相似度；

其中，W(i,j)为加权相似结果，w_i,j为用户i和用户j共有项的评分高的项目评分值，n为选取的共有评分高的项目个数，sim(i,j)为用户i和用户j之间的皮尔逊相似系数，即相似度。

2.根据权利要求1所述的用户兴趣检测方法，其特征在于，在进行整体建模的过程中，每项服务基于评分项值，进一步计算其到对应节点之间的距离；

为保证用户各个评分项值的评分标准的统一，对评分项值进行零-均值标准化处理，通过去掉各维数据间的数量级差别，避免由于各维数据间的数量级差别较大，而造成预测误差较大的情况，其中，零-均值标准化处理的数学表达式为：

3.根据权利要求1所述的用户兴趣检测方法，其特征在于，所述个性化服务推荐建模具体为：

基于传统用户兴趣模型，通过对不同类型的用户进行区分，从得到的各种类型的用户行为数据统计结果中，统计用户的历史访问量，然后依次针对各类型用户，进行相关服务的推荐。

4.一种用于政务地图服务的用户兴趣检测系统，其特征在于，包括以下模块：

主动性用户兴趣推荐模型构建模块，用于基于当前获取的体现用户行为特征的政务地图瓦片数据，结合用户行为数据来分析用户的行为特征，进行整体服务推荐建模、个性化服务推荐建模和潜在兴趣服务推荐建模；其中，通过引入权重建模方法，在融合了整体、个性化和潜在兴趣服务推荐建模结果的情况下，构建主动性用户兴趣推荐模型；其中，主动性用户兴趣推荐模型构建模块还包括以下模块：

整体服务推荐建模模块，用于在进行整体服务推荐建模的过程中，基于每项服务的评分项值，计算出用户对不同服务的偏好程度；

个性化服务推荐建模模块，用于在进行个性化服务推荐建模的过程中，基于识别出的不同用户类型，进行个性化服务推荐；

潜在兴趣服务推荐建模模块，用于在进行潜在兴趣服务推荐建模的过程中，基于统计到的各分类领域的服务访问量，计算不同用户间的相似性，通过对相似用户进行的服务进行加权排序，进行潜在兴趣服务推荐；

所述整体服务建模模块是基于欧几里德距离评价算法，通过构建散点图，计算不同服务在散点图中的距离，进行判断用户对不同服务的偏好程度；其中：

服务代表的节点距离原点的距离越大，表示用户对此服务的偏好程度越高；多项服务节点之间的间距越小，表示用户对所述多项服务的偏好程度越接近；

所述潜在兴趣服务推荐建模模块还包括：

分类粒度选择模块，用于对输入的数据集进行分类粒度的选择，所述分类粒度的选择包括对数据进行分类处理；

相似用户寻找模块，用于进行相似用户的寻找，基于前述的数据分类结果，统计各分类领域的服务访问量，进而进行相似用户的寻找，计算出不同用户之间的相似度；

服务加权排序推荐模块，用于选取相似度值较高的用户，为其进行服务加权排序推荐；其中，加权计算公式为：