CN109255586A - 一种面向电子政务办事的在线个性化推荐方法 - Google Patents
一种面向电子政务办事的在线个性化推荐方法 Download PDFInfo
- Publication number
- CN109255586A CN109255586A CN201810970919.1A CN201810970919A CN109255586A CN 109255586 A CN109255586 A CN 109255586A CN 201810970919 A CN201810970919 A CN 201810970919A CN 109255586 A CN109255586 A CN 109255586A
- Authority
- CN
- China
- Prior art keywords
- user
- working
- item
- users
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005065 mining Methods 0.000 claims abstract description 14
- 238000009412 basement excavation Methods 0.000 claims abstract description 11
- 230000003068 static effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向电子政务办事的在线个性化推荐方法,包括如下步骤:1)数据预处理与用户建模;2)建立基于用户社区的办事项推荐模型;3)建立序列模式挖掘的类Apriori算法推荐模型;4)结合用户社区和关联序列挖掘所形成的推送结果推送给目标客户。当被推荐项目具有序列或流程特性领域的推荐,本发明提供的推荐方法比传统推荐算法具有更高的推荐精度,推荐的多样性表现突出,具有一定的应用价值,在实际应用场景下能够有效提升办事服务质量与体验。
Description
技术领域
本发明涉及智慧城市和电子政务领域,具体涉及一种面向电子政务办事的在线个性化推荐方法。
背景技术
随着以互联网为主的信息新技术在经济、社会生活各部分的扩散和应用,“互联网+政务”以电子政务服务平台为基础,以实现智慧政府为目标,对政府组织结构和办事流程进行优化重组。传统的电子政务系统缺乏面向用户个性化需求的精准服务,独立、多源、异构的政务信息增加了用户的办事难度。结合个性化推荐的电子政务系统能够根据用户画像和动态行为特征进行建模分析,推送符合该用户特征的相关项目,进一步提高了用户体验。
传统的协同过滤推荐算法,如基于内容和项目的推荐,基于矩阵分解以及由其衍生而出的具有偏好的矩阵分解算法或结合上下文的推荐算法已在电商、音乐和电影等领域推荐取得一定成果。例如集成语义相似度与协同过滤的推荐算法提供了准确性和扩展性更高的个性化推荐服务,主要有结合模糊描述逻辑语言提出一种模糊语义的推荐服务来促进电子政务中的资源信息利用;通过集成语义相似性和传统的基于项目的协同过滤解决电子政务服务中唯一项目的推荐问题;基于增强推荐中的混合语义信息提出了一种项目语义相关性模型,并开发了智能商业定位器推荐系统原型进行验证。基于本体理论的相关算法提供了主动推送、动态、差异的个性化推荐等。
然而,电子政务办事项的序列化特征难以直接将传统个性化推荐算法直接进行应用推广。已有推荐方法主要对推荐算法进行改进优化设计,缺乏结合电子政务办事项的业务特征向用户推荐更精准的服务。因此,综合考虑电子政务办事项的序列化特征,设计出符合电子政务特点的推荐算法是构建智慧城市的关键技术之一。
发明内容
本发明的目的在于提供一种面向电子政务办事的在线个性化推荐方法,以解决现有技术缺乏结合电子政务办事项的业务特征向用户推荐更精准的服务能力的缺陷。
所述的面向电子政务办事的在线个性化推荐方法,包括如下步骤:
1)数据预处理与用户建模;
2)建立基于用户社区的办事项推荐模型;
3)建立序列模式挖掘的类Apriori算法推荐模型;
4)结合用户社区和关联序列挖掘所形成的推送结果推送给目标客户。
优选的,步骤1)中,抽取截止当前时间的用户数据以及用户的历史办事行为数据,并对数据进行常规数据清洗和数据集成,再对用户和办事项的静态基本属性以及动态行为属性进行特征建模;
步骤2)中,构建用户办事行为关系矩阵的用户社区,用户办事行为关系网络反映了用户办事行为间关联的紧密程度,再基于用户社区的办事项推荐算法,获取到基于用户社区的办事项推荐待选集合;
步骤3)中,初步监测过滤难以判断的房屋账单数据,建立单个用户相关联的办事项有序集合,定义序列的支持度为该序列包含的所有办事项序列所占的比例,序列模式的挖掘可以枚举所有可能的序列,再进行支持度计算,最后通过计算提取的序列模式,获得序列模式的关联挖掘预选推荐办事项集合;
步骤4)中,将步骤2)获得的基于用户社区的办事项推荐待选集合与步骤3)获得的序列模式的关联挖掘预选推荐办事项集合结合根据两部分结果的重叠程度进行优化筛选,形成最终的办事项推荐结果集合,并实时的推送给目标用户。
优选的,静态属性包括基本属性和个人隐私,基本属性包括ID、性别、年龄、婚姻和学历,个人隐私包括社保、公积金和医保信息;动态行为属性包括用户的历史行为信息和用户的反馈信息,所述历史行为信息包括已办理事和浏览行为记录,所述用户的反馈信息是用户对推送内容反馈的信息。
优选的,步骤1)的具体步骤如下:
步骤一:抽取截止当前时间的用户数据以及用户的历史办事行为数据,并对数据进行常规数据清洗,数据集成等处理,提高数据质量,同时也便于推荐中的量化计算;
步骤二:用户建模,用户模型为用户社区的划分和准确推荐提供计算基础,用户的静态和动态属性是计算用户之间相似程度的主要根据,用户社区划分依据用户自身属性特征,主要包括BIU,SI有效属性特征向量组合;
步骤2)的具体步骤如下:
步骤三、若使用G表示用户的隐式办事关系网,G中的结点表示不同的办事用户,用户之间的链接表示存在办事记录交集,链接上的权值则反应了用户间的关系强弱,计算方式主要是基于用户的属性相似度和办事行为交集程度,对G的存储采用压缩优化的邻接矩阵V存储,电子政务用户办事数据集,用户办事关系中的权值设定不仅仅与办事行为关系有关,还与用户的基本属性有关,即用户之间的相似程度,对用户的相似度已进行归一化处理;
步骤四、基于用户社区的办事项推荐算法,根据步骤三构建的用户社区,其中,S(u,K),是用户u最相似最高的K个用户,通过对用户对某一办事项是否有过行为进行记录,通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU,即获取到基于用户社区的办事项推荐待选集合;
步骤3)的具体步骤如下:
步骤五、定义序列S的支持度为S包含的所有办事项序列所占的比例,若S的支持度大于或等于阈值minsup,则S即为一个序列模式;
步骤六、序列模式的挖掘可以枚举所有可能的序列,再进行支持度计算,如对于n个办事项,依次对1个办事项,2个办事项,3个办事项直到n个办事项进行枚举;
步骤七、由于先验原理对序列数据成立,因此包含特定k个办事项的任何序列必然包括该k个办事项的所有k-1个办事项的子序列;基于Apriori算法挖掘用户办事项记录中的序列模式,最终根据支持度和步骤五提供的阈值提取序列模式,并由此获得序列模式的关联挖掘预选推荐办事项集合RSA;
步骤4)的具体步骤如下:
步骤八、在完成用户社区挖掘及相似用户预选推荐办事项集合RSU和序列模式的关联挖掘预选推荐办事项集合RSA之后,需要根据两部分结果的重叠程度进行优化筛选,形成最终的办事项推荐结果集合,并实时的推送给目标用户。
优选的,所述步骤二还包括下列子步骤:
步骤2.1、用户样本可以表示为包含上述属性的n维向量所有维度的取值范围为0或1,当ss,hi,pf,ho,li,ca取值为1时,表示用户拥有社保、医保、公积金、房产、驾照和车辆;sex取值1表示性别相同;而age取值为1表示任意两条记录的年龄属于同一年龄段,0为否;age和ss指在进行两个不同用户计算相似度时,考虑年龄或工资等级是否是同一年龄段或工资等级;如存在用户样本A与样本B,其基本属性向量和分别表示A和B性别、年龄段相同,工资等级不同以及其他属性的拥有状态;
步骤2.2、基于上述用户向量,若用M00代表向量A和向量B都是0的维度个数;M01代表向量A是0而向量B是1的维度个数;M10代表向量A是1而向量B是0的维度个数;M11代表向量A和向量B都是1的维度个数,n维向量的每一维都会落入上述向量中的某一类,利用Jac(A,B)=M11/M01+M10+M11计算出用户在基础属性BIU和隐私属性SI的相似度,属性的类别区分主要是解决不同属性对相似度结果的偏好影响;接着,利用sim(ui,uj)=(1-α)·b_sim(ui,uj)+α·s_sim(ui,uj)计算融合相似度,α=0.63获得最优结果。
优选的,所述步骤三中,计算基于用户的属性相似度和办事行为交集程度的相关规则如下:
a.用户之间无任何办事行为交集,且用户基础属性相似度低,则判定为无链接行为;
b.用户间存在办事行为交集,且用户基础属性相似度低,则链接权值为办事记录的相似系数;
c.用户间存在办事行为交集,且用户基础属性相似度高,则链接权值为两种相似度之和。
优选的,所述步骤三还包括下列子步骤:
步骤3.1、利用模块度公式计算社区划分的程度,其中,Aij为连接节点i和j边的权值;m为网络中边的数量;ki为节点i的度;kj为节点j的度;Ci为i所属的社区;
步骤3.2、用户社区划分采用层次贪心算法,筛选出K个与目标用户相似度最大的用户集合,算法主要包括两个阶段,第一阶段合并社区,初始状态将每个节点视为独立社区,基于最近邻居相似度最大标准决定哪些社区应该被合并;第二阶段,将第一阶段发现的社区重新视为独立节点社区,重复构建,这两个阶段重复进行,直到网络社区划分的模块度趋于稳定。
优选的,所述步骤四还包括下列子步骤:
步骤4.1、区别于传统的音乐、电影类的评分推荐,用户与办事项之间不存在评分,仅具有办理或未办理的状态值,通过对用户对某一办事项是否有过行为进行记录,1表示用户办理或浏览办事项,状态0表示对办事项无行为记录,令ri,j={0,1}表示第i个用户对第j个项目的办事记录行为,由于ri,j取值的特殊性,计算公式采用Jaccard相似度进行计算;
步骤4.2、通常大多数用户对于基础的热门办事项都会办理,这将造成用户的相似度差异较小,考虑在计算行为相似度时,对热门事项进行惩罚,通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU。
优选的,所述步骤八中,若假定推送给目标用户的办事项数目为K,对于RSU和RSA两种结果集的覆盖结果筛选,可细分为图3所示的三种情况:
(a).覆盖结果集能够满足N(RSA∩RSU)≥K,Top(RSA)被选择作为最终推荐结果集合;
(b).当N(RSA∩RSU)≤K,覆盖部分优先作为推荐结果;对于较多未覆盖部分的办事项,分别选取K-N(RSA∩RSU)/2个结果集作为最终结果集;
(c).完全无覆盖的推荐结果计算采用(b)的未覆盖部分的筛选结果。
本发明的优点在于:首先,本发明提高推荐结果的多样性,减少推荐过程中的计算量;其次,办事项的关联序列挖掘充分考虑了电子政务的业务特性,加入时间维度的办事项序列挖掘进一步提高了推荐结果的精度。此外,通过对用户脱敏后的信息基于Spark计算平台对提出的发明方法进行验证,结果表明当被推荐项目具有序列或流程特性领域的推荐,比传统推荐算法具有更高的推荐精度,推荐的多样性表现突出,具有很好的应用价值,在实际应用场景下能够有效提升办事服务质量与体验。
附图说明
图1为本发明面向电子政务办事的在线个性化推荐方法的整体流程图;
图2为本发明中基于用户社区的办事项推荐算法获取到基于用户社区的办事项推荐待选集合的流程图;
图3为本发明中基于Apriori算法获取基于用户办事项记录中的序列模式的流程图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
如图1-3所示,本发明提供了一种面向电子政务办事的在线个性化推荐方法。具体步骤如下:
1)数据预处理与用户建模。
步骤一:抽取截止当前时间的用户数据以及用户的历史办事行为数据,并对数据进行常规数据清洗,数据集成等处理,提高数据质量,同时也便于推荐中的量化计算。
步骤二:用户建模,用户模型为用户社区的划分和准确推荐提供计算基础,用户的静态和动态属性是计算用户之间相似程度的主要根据。用户社区划分依据用户自身属性特征,主要包括BIU,SI有效属性特征向量组合。包括以下步骤:
步骤2.1、用户样本可以表示为包含上述属性的n维向量所有维度的取值范围为0或1,当ss,hi,pf,ho,li,ca取值为1时,表示用户拥有社保、医保、公积金、房产、驾照和车辆;sex取值1表示性别相同;而age取值为1表示任意两条记录的年龄属于同一年龄段,0为否;age和ss指在进行两个不同用户计算相似度时,考虑年龄或工资等级是否是同一年龄段或工资等级。如存在用户样本A与样本B,其基本属性向量和分别表示A和B性别、年龄段相同,工资等级不同以及其他属性的拥有状态。
步骤2.2、基于上述用户向量,若用M00代表向量A和向量B都是0的维度个数;M01代表向量A是0而向量B是1的维度个数;M10代表向量A是1而向量B是0的维度个数;M11代表向量A和向量B都是1的维度个数,n维向量的每一维都会落入上述向量中的某一类,利用Jac(A,B)=M11/M01+M10+M11计算出用户在基础属性BIU和隐私属性SI的相似度,属性的类别区分主要是解决不同属性对相似度结果的偏好影响。接着,利用sim(ui,uj)=(1-α)·b_sim(ui,uj)+α·s_sim(ui,uj)计算融合相似度,α=0.63获得最优结果。
2)建立基于用户社区的办事项推荐模型。
步骤三、若使用G表示用户的隐式办事关系网,G中的结点表示不同的办事用户,用户之间的链接表示存在办事记录交集,链接上的权值则反应了用户间的关系强弱,计算方式主要是基于用户的属性相似度和办事行为交集程度。对G的存储采用压缩优化的邻接矩阵V存储。电子政务用户办事数据集,用户办事关系中的权值设定不仅仅与办事行为关系有关,还与用户的基本属性有关,即用户之间的相似程度,对用户的相似度已进行归一化处理,相关规则如下:
a.用户之间无任何办事行为交集,且用户基础属性相似度低,则判定为无链接行为;
b.用户间存在办事行为交集,且用户基础属性相似度低,则链接权值为办事记录的相似系数;
c.用户间存在办事行为交集,且用户基础属性相似度高,则链接权值为两种相似度之和。
之后构建用户社区的步骤如下:
步骤3.1、利用模块度公式计算社区划分的程度。其中,Aij为连接节点i和j边的权值;m为网络中边的数量;ki为节点i的度;kj为节点j的度;Ci为i所属的社区。
步骤3.2、用户社区划分采用层次贪心算法,筛选出K个与目标用户相似度最大的用户集合。算法主要包括两个阶段,第一阶段合并社区,初始状态将每个节点视为独立社区,基于最近邻居相似度最大标准决定哪些社区应该被合并;第二阶段,将第一阶段发现的社区重新视为独立节点社区,重复构建。这两个阶段重复进行,直到网络社区划分的模块度趋于稳定。
步骤四、基于用户社区的办事项推荐算法。根据步骤三构建的用户社区,其中,S(u,K),是用户u最相似最高的K个用户,通过对用户对某一办事项是否有过行为进行记录。通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU,即获取到基于用户社区的办事项推荐待选集合。具体步骤如下:
步骤4.1、区别于传统的音乐、电影类的评分推荐,用户与办事项之间不存在评分,仅具有办理或未办理的状态值。通过对用户对某一办事项是否有过行为进行记录,1表示用户办理或浏览办事项,状态0表示对办事项无行为记录。令ri,j={0,1}表示第i个用户对第j个项目的办事记录行为,由于ri,j取值的特殊性,计算公式采用Jaccard相似度进行计算。
步骤4.2、通常,大多数用户对于基础的热门办事项都会办理,这将造成用户的相似度差异较小。考虑在计算行为相似度时,对热门事项进行惩罚,通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU。附图2给出了基于用户社区的办事项推荐算法。
3)建立序列模式挖掘的类Apriori算法推荐模型。
首先初步监测过滤难以判断办事序列的数据信息,如房屋账单数据,之后对剩下的数据,办事项序列模式挖掘能够有效识别出电子政务系统中的动态系统特征,预测用户在未来一段时间内可能的办事项序列信息。D是包含一个或多个办事项序列,即与单个用户相关联的办事项有序集合。具体模型建立步骤如下:
步骤五、定义序列S的支持度为S包含的所有办事项序列所占的比例。若S的支持度大于或等于阈值minsup,则S即为一个序列模式。
步骤六、序列模式的挖掘可以枚举所有可能的序列,再进行支持度计算,如对于n个办事项,依次对1个办事项,2个办事项,3个办事项直到n个办事项进行枚举。
步骤七、由于先验原理对序列数据成立,因此包含特定k个办事项的任何序列必然包括该k个办事项的所有k-1个办事项的子序列。基于Apriori算法给出挖掘用户办事项记录中的序列模式的流程图如附图3所示。根据候选序列的支持度和步骤五提供的阈值提取支持度不小于阈值的序列模式,并由此获得序列模式的关联挖掘预选推荐办事项集合RSA。
4)结合用户社区和关联序列挖掘的推送结果。
步骤八、在完成用户社区挖掘及相似用户预选推荐办事项集合RSU和序列模式的关联挖掘预选推荐办事项集合RSA之后,需要根据两部分结果的重叠程度进行优化筛选,形成最终的办事项推荐结果集合,并实时的推送给目标用户。
若假定推送给目标用户的办事项数目为K,对于RSU和RSA两种结果集的覆盖结果筛选,可细分为图3所示的三种情况:
(a).覆盖结果集能够满足N(RSA∩RSU)≥K,Top(RSA)被选择作为最终推荐结果集合;
(b).当N(RSA∩RSU)≤K,覆盖部分优先作为推荐结果;对于较多未覆盖部分的办事项,分别选取K-N(RSA∩RSU)/2个结果集作为最终结果集;
(c).完全无覆盖的推荐结果计算采用(b)的未覆盖部分的筛选结果。
通过Spark计算平台对提出的发明方法进行验证后表明:当被推荐项目具有序列或流程特性领域的推荐,本发明提供的推荐方法比传统推荐算法具有更高的推荐精度,推荐的多样性表现突出,具有一定的应用价值,在实际应用场景下能够有效提升办事服务质量与体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。
Claims (9)
1.一种面向电子政务办事的在线个性化推荐方法,其特征在于:包括如下步骤:
1)数据预处理与用户建模;
2)建立基于用户社区的办事项推荐模型;
3)建立序列模式挖掘的类Apriori算法推荐模型;
4)结合用户社区和关联序列挖掘所形成的推送结果推送给目标客户。
2.根据权利要求1所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:步骤1)中,抽取截止当前时间的用户数据以及用户的历史办事行为数据,并对数据进行常规数据清洗和数据集成,再对用户和办事项的静态基本属性以及动态行为属性进行特征建模;
步骤2)中,构建用户办事行为关系矩阵的用户社区,用户办事行为关系网络反映了用户办事行为间关联的紧密程度,再基于用户社区的办事项推荐算法,获取到基于用户社区的办事项推荐待选集合;
步骤3)中,初步监测过滤难以判断办事序列的数据信息,建立单个用户相关联的办事项有序集合,定义序列的支持度为该序列包含的所有办事项序列所占的比例,序列模式的挖掘可以枚举所有可能的序列,再进行支持度计算,最后通过计算提取的序列模式,获得序列模式的关联挖掘预选推荐办事项集合;
步骤4)中,将步骤2)获得的基于用户社区的办事项推荐待选集合与步骤3)获得的序列模式的关联挖掘预选推荐办事项集合结合根据两部分结果的重叠程度进行优化筛选,形成最终的办事项推荐结果集合,并实时的推送给目标用户。
3.根据权利要求2所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:静态属性包括基本属性和个人隐私,基本属性包括ID、性别、年龄、婚姻和学历,个人隐私包括社保、公积金和医保信息;动态行为属性包括用户的历史行为信息和用户的反馈信息,所述历史行为信息包括已办理事和浏览行为记录,所述用户的反馈信息是用户对推送内容反馈的信息。
4.根据权利要求2所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:步骤1)的具体步骤如下:
步骤一:抽取截止当前时间的用户数据以及用户的历史办事行为数据,并对数据进行常规数据清洗,数据集成等处理,提高数据质量,同时也便于推荐中的量化计算;
步骤二:用户建模,用户模型为用户社区的划分和准确推荐提供计算基础,用户的静态和动态属性是计算用户之间相似程度的主要根据,用户社区划分依据用户自身属性特征,主要包括BIU,SI有效属性特征向量组合;
步骤2)的具体步骤如下:
步骤三、若使用G表示用户的隐式办事关系网,G中的结点表示不同的办事用户,用户之间的链接表示存在办事记录交集,链接上的权值则反应了用户间的关系强弱,计算方式主要是基于用户的属性相似度和办事行为交集程度,对G的存储采用压缩优化的邻接矩阵V存储,电子政务用户办事数据集,用户办事关系中的权值设定不仅仅与办事行为关系有关,还与用户的基本属性有关,即用户之间的相似程度,对用户的相似度已进行归一化处理;
步骤四、基于用户社区的办事项推荐算法,根据步骤三构建的用户社区,其中,S(u,K),是用户u最相似最高的K个用户,通过对用户对某一办事项是否有过行为进行记录,通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU,即获取到基于用户社区的办事项推荐待选集合;
步骤3)的具体步骤如下:
步骤五、定义序列S的支持度为S包含的所有办事项序列所占的比例,若S的支持度大于或等于阈值minsup,则S即为一个序列模式;
步骤六、序列模式的挖掘可以枚举所有可能的序列,再进行支持度计算,如对于n个办事项,依次对1个办事项,2个办事项,3个办事项直到n个办事项进行枚举;
步骤七、由于先验原理对序列数据成立,因此包含特定k个办事项的任何序列必然包括该k个办事项的所有k-1个办事项的子序列;基于Apriori算法挖掘用户办事项记录中的序列模式,最终根据支持度和步骤五提供的阈值提取序列模式,并由此获得序列模式的关联挖掘预选推荐办事项集合RSA;
步骤4)的具体步骤如下:
步骤八、在完成用户社区挖掘及相似用户预选推荐办事项集合RSU和序列模式的关联挖掘预选推荐办事项集合RSA之后,需要根据两部分结果的重叠程度进行优化筛选,形成最终的办事项推荐结果集合,并实时的推送给目标用户。
5.根据权利要求4所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:所述步骤二还包括下列子步骤:
步骤2.1、用户样本可以表示为包含上述属性的n维向量所有维度的取值范围为0或1,当ss,hi,pf,ho,li,ca取值为1时,表示用户拥有社保、医保、公积金、房产、驾照和车辆;sex取值1表示性别相同;而age取值为1表示任意两条记录的年龄属于同一年龄段,0为否;age和ss指在进行两个不同用户计算相似度时,考虑年龄或工资等级是否是同一年龄段或工资等级;如存在用户样本A与样本B,其基本属性向量和分别表示A和B性别、年龄段相同,工资等级不同以及其他属性的拥有状态;
步骤2.2、基于上述用户向量,若用M00代表向量A和向量B都是0的维度个数;M01代表向量A是0而向量B是1的维度个数;M10代表向量A是1而向量B是0的维度个数;M11代表向量A和向量B都是1的维度个数,n维向量的每一维都会落入上述向量中的某一类,利用Jac(A,B)=M11/M01+M10+M11计算出用户在基础属性BIU和隐私属性SI的相似度,属性的类别区分主要是解决不同属性对相似度结果的偏好影响;接着,利用sim(ui,uj)=(1-α)·b_sim(ui,uj)+α·s_sim(ui,uj)计算融合相似度,α=0.63获得最优结果。
6.根据权利要求4所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:所述步骤三中,计算基于用户的属性相似度和办事行为交集程度的相关规则如下:
a.用户之间无任何办事行为交集,且用户基础属性相似度低,则判定为无链接行为;
b.用户间存在办事行为交集,且用户基础属性相似度低,则链接权值为办事记录的相似系数;
c.用户间存在办事行为交集,且用户基础属性相似度高,则链接权值为两种相似度之和。
7.根据权利要求4所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:所述步骤三还包括下列子步骤:
步骤3.1、利用模块度公式计算社区划分的程度,其中,Aij为连接节点i和j边的权值;m为网络中边的数量;ki为节点i的度;kj为节点j的度;Ci为i所属的社区;
步骤3.2、用户社区划分采用层次贪心算法,筛选出K个与目标用户相似度最大的用户集合,算法主要包括两个阶段,第一阶段合并社区,初始状态将每个节点视为独立社区,基于最近邻居相似度最大标准决定哪些社区应该被合并;第二阶段,将第一阶段发现的社区重新视为独立节点社区,重复构建,这两个阶段重复进行,直到网络社区划分的模块度趋于稳定。
8.根据权利要求4所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:所述步骤四还包括下列子步骤:
步骤4.1、区别于传统的音乐、电影类的评分推荐,用户与办事项之间不存在评分,仅具有办理或未办理的状态值,通过对用户对某一办事项是否有过行为进行记录,1表示用户办理或浏览办事项,状态0表示对办事项无行为记录,令ri,j={0,1}表示第i个用户对第j个项目的办事记录行为,由于ri,j取值的特殊性,计算公式采用Jaccard相似度进行计算;
步骤4.2、通常大多数用户对于基础的热门办事项都会办理,这将造成用户的相似度差异较小,考虑在计算行为相似度时,对热门事项进行惩罚,通过给定K值,即可获取用户可能性最高的待办事项集合,表示为RSU。
9.根据权利要求4所述的一种面向电子政务办事的在线个性化推荐方法,其特征在于:所述步骤八中,若假定推送给目标用户的办事项数目为K,对于RSU和RSA两种结果集的覆盖结果筛选,可细分为图3所示的三种情况:
(a).覆盖结果集能够满足N(RSA∩RSU)≥K,Top(RSA)被选择作为最终推荐结果集合;
(b).当N(RSA∩RSU)≤K,覆盖部分优先作为推荐结果;对于较多未覆盖部分的办事项,分别选取K-N(RSA∩RSU)/2个结果集作为最终结果集;
(c).完全无覆盖的推荐结果计算采用(b)的未覆盖部分的筛选结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810970919.1A CN109255586B (zh) | 2018-08-24 | 2018-08-24 | 一种面向电子政务办事的在线个性化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810970919.1A CN109255586B (zh) | 2018-08-24 | 2018-08-24 | 一种面向电子政务办事的在线个性化推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255586A true CN109255586A (zh) | 2019-01-22 |
CN109255586B CN109255586B (zh) | 2022-03-29 |
Family
ID=65050416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810970919.1A Active CN109255586B (zh) | 2018-08-24 | 2018-08-24 | 一种面向电子政务办事的在线个性化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255586B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766208A (zh) * | 2019-10-09 | 2020-02-07 | 中电科新型智慧城市研究院有限公司 | 一种基于社会群体行为的政务服务需求预测方法 |
CN111027926A (zh) * | 2019-11-28 | 2020-04-17 | 北明软件有限公司 | 一种多事项套餐生成方法、系统和存储介质 |
CN111079025A (zh) * | 2019-11-18 | 2020-04-28 | 广州赛宝联睿信息科技有限公司 | 基于大数据分析的政务推荐方法及包含该方法的系统 |
CN111400474A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯云计算(北京)有限责任公司 | 一种政务服务的智能客服问答方法及装置 |
CN111694878A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN112132727A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 基于城市大数据的情境大数据的政务服务推送方法 |
CN112241420A (zh) * | 2020-10-26 | 2021-01-19 | 浪潮云信息技术股份公司 | 一种基于关联规则算法的政务服务事项推荐方法 |
CN112650924A (zh) * | 2020-12-23 | 2021-04-13 | 山东爱城市网信息技术有限公司 | 一种特定办事事项推荐方法 |
CN112733067A (zh) * | 2020-12-22 | 2021-04-30 | 上海机器人产业技术研究院有限公司 | 一种面向机器人目标检测算法的数据集选择方法 |
CN114969566A (zh) * | 2022-06-27 | 2022-08-30 | 中国测绘科学研究院 | 一种距离度量的政务服务事项协同过滤推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030140063A1 (en) * | 2001-12-17 | 2003-07-24 | Pizzorno Joseph E. | System and method for providing health care advice by diagnosing system function |
CN103345698A (zh) * | 2013-07-09 | 2013-10-09 | 焦点科技股份有限公司 | 电子商务环境下基于云计算处理模式的个性化推荐方法 |
CN103744957A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 基于Web用户时间属性的序列模式挖掘方法 |
CN105809475A (zh) * | 2016-02-29 | 2016-07-27 | 南京大学 | “互联网+旅游”环境下支持o2o应用的商品推荐方法 |
-
2018
- 2018-08-24 CN CN201810970919.1A patent/CN109255586B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030140063A1 (en) * | 2001-12-17 | 2003-07-24 | Pizzorno Joseph E. | System and method for providing health care advice by diagnosing system function |
CN103345698A (zh) * | 2013-07-09 | 2013-10-09 | 焦点科技股份有限公司 | 电子商务环境下基于云计算处理模式的个性化推荐方法 |
CN103744957A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 基于Web用户时间属性的序列模式挖掘方法 |
CN105809475A (zh) * | 2016-02-29 | 2016-07-27 | 南京大学 | “互联网+旅游”环境下支持o2o应用的商品推荐方法 |
Non-Patent Citations (1)
Title |
---|
刘新跃: "数字图书馆个性化信息推荐系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766208A (zh) * | 2019-10-09 | 2020-02-07 | 中电科新型智慧城市研究院有限公司 | 一种基于社会群体行为的政务服务需求预测方法 |
CN111079025A (zh) * | 2019-11-18 | 2020-04-28 | 广州赛宝联睿信息科技有限公司 | 基于大数据分析的政务推荐方法及包含该方法的系统 |
CN111027926A (zh) * | 2019-11-28 | 2020-04-17 | 北明软件有限公司 | 一种多事项套餐生成方法、系统和存储介质 |
CN111027926B (zh) * | 2019-11-28 | 2023-04-18 | 北明软件有限公司 | 一种多事项套餐生成方法、系统和存储介质 |
CN111400474B (zh) * | 2020-03-20 | 2023-02-03 | 腾讯云计算(北京)有限责任公司 | 一种政务服务的智能客服问答方法及装置 |
CN111400474A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯云计算(北京)有限责任公司 | 一种政务服务的智能客服问答方法及装置 |
CN111694878A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN111694878B (zh) * | 2020-05-11 | 2023-08-11 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN112132727A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 基于城市大数据的情境大数据的政务服务推送方法 |
CN112132727B (zh) * | 2020-09-23 | 2023-08-18 | 长三角信息智能创新研究院 | 基于城市大数据的情境大数据的政务服务推送方法 |
CN112241420A (zh) * | 2020-10-26 | 2021-01-19 | 浪潮云信息技术股份公司 | 一种基于关联规则算法的政务服务事项推荐方法 |
CN112733067A (zh) * | 2020-12-22 | 2021-04-30 | 上海机器人产业技术研究院有限公司 | 一种面向机器人目标检测算法的数据集选择方法 |
CN112650924B (zh) * | 2020-12-23 | 2022-11-08 | 浪潮卓数大数据产业发展有限公司 | 一种特定办事事项推荐方法 |
CN112650924A (zh) * | 2020-12-23 | 2021-04-13 | 山东爱城市网信息技术有限公司 | 一种特定办事事项推荐方法 |
CN114969566A (zh) * | 2022-06-27 | 2022-08-30 | 中国测绘科学研究院 | 一种距离度量的政务服务事项协同过滤推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109255586B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255586A (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
CN111428147B (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN102708130B (zh) | 计算用户微细分以用于要约匹配的可扩展引擎 | |
CN100504866C (zh) | 一种综合搜索结果的排序系统及方法 | |
US20200320100A1 (en) | Sytems and methods for combining data analyses | |
JP5921536B2 (ja) | コンピュータ化エージェントのシステムとユーザ指図セマンティックネットワーキング | |
CN109189867A (zh) | 基于公司知识图谱的关系发现方法、装置及存储介质 | |
CN108920641A (zh) | 一种信息融合个性化推荐方法 | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN110135890A (zh) | 基于知识关系挖掘的产品数据推送方法及相关设备 | |
CN104794242A (zh) | 一种搜索方法 | |
CN107391542A (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN107194672B (zh) | 一种融合学术专长与社会网络的评审分配方法 | |
CN108765042A (zh) | 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法 | |
US11609971B2 (en) | Machine learning engine using a distributed predictive analytics data set | |
Wang et al. | Hybrid customer requirements rating method for customer-oriented product design using QFD | |
CN115203550A (zh) | 一种增强邻居关系的社交推荐方法及系统 | |
CN105608118B (zh) | 基于用户交互信息的结果推送方法 | |
CN114519073A (zh) | 一种基于图谱关系挖掘的产品配置推荐方法及系统 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
Zhang et al. | Clustering with implicit constraints: A novel approach to housing market segmentation | |
Usman et al. | A data mining approach to knowledge discovery from multidimensional cube structures | |
CN116561345A (zh) | 一种基于多模态数据公司情报知识图谱构建方法 | |
JP5113779B2 (ja) | 情報処理装置、情報処理方法、プログラム、およびデータ構造 | |
CN106126739A (zh) | 一种处理业务关联数据的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 241000 room 01, 18 / F, iFLYTEK intelligent building, No. 9, Wenjin West Road, Yijiang District, Wuhu City, Anhui Province Patentee after: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: 241000 Floor 9, block A1, Wanjiang Fortune Plaza, Jiujiang District, Wuhu City, Anhui Province Patentee before: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |