CN109582714B - 一种基于时间衰减关联的政务事项数据处理方法 - Google Patents

一种基于时间衰减关联的政务事项数据处理方法 Download PDF

Info

Publication number
CN109582714B
CN109582714B CN201811461853.XA CN201811461853A CN109582714B CN 109582714 B CN109582714 B CN 109582714B CN 201811461853 A CN201811461853 A CN 201811461853A CN 109582714 B CN109582714 B CN 109582714B
Authority
CN
China
Prior art keywords
item
frequent
transaction
association
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811461853.XA
Other languages
English (en)
Other versions
CN109582714A (zh
Inventor
李保印
赵武
刘涛
张宝玉
王坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Wanwei Information Technology Co Ltd
Original Assignee
China Telecom Wanwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Wanwei Information Technology Co Ltd filed Critical China Telecom Wanwei Information Technology Co Ltd
Priority to CN201811461853.XA priority Critical patent/CN109582714B/zh
Publication of CN109582714A publication Critical patent/CN109582714A/zh
Application granted granted Critical
Publication of CN109582714B publication Critical patent/CN109582714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机通信技术领域,特别是一种基于时间衰减关联的政务事项数据处理方法。本发明针对政务服务中事项流程复杂冗余等问题,提供了一种基于时间衰减关联规则挖掘方法,并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。

Description

一种基于时间衰减关联的政务事项数据处理方法
技术领域
本发明涉及计算机通信技术领域,特别是一种基于时间衰减关联的政务事项数据处理方法。
背景技术
随着社会的发展和科技的进步,人们的生活越来越电子化,与此同时累积产生的数据量也正在迅速膨胀。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。面对如此大的数据量,如何充分利用现有数据,挖掘数据中的潜在价值并服务于现有业务,是我们亟待解决的问题。
数据挖掘涉及范围非常广泛,主要是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、频繁项集挖掘、序列模式、聚类模式、神经网络算法等等。频繁项集挖掘是数据挖掘中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解、运用频繁项集是完成数据挖掘任务的重要手段。但现有的数据挖掘还是存在权重单一,无法匹配时间因素等问题。
发明内容
本发明解决现有技术不足提供一种简化流程、快速实施的基于时间衰减关联的政务事项数据处理方法。
本发明解决其技术问题所采用的技术方案为:
一种基于时间衰减关联的政务事项数据处理方法,包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重generals
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R;
l、关联规则R中涉及的事项若有先后顺序,则对事项进行串行,优化办事流程;
m、关联规则R中涉及的事项若无先后顺序,则对事项进行合并,优化办事流程关联规则。
所述步骤e中时间衰减权重因子decayt的计算方法为decayt=e0.05*t;在关联关系的置信度采用改进的贝叶斯定理进行度量,在计算后验概率时,没有使用古典概率的计数结果进行计算,对事项的普遍性进行了度量,对计数结果引入了普遍性权重;若某一事项出现在多个高频事项子集中,则增加其权重;反之则减小其权重,普遍性权重的具体计算方法为其中,ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数。
本发明针对政务服务中事项流程复杂冗余等问题,提供了一种基于时间衰减关联规则挖掘方法,并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。本发明通过设置权重,融合权重的序列可由用户和政务动态调节。不同于常规的平均模型融合法,本方法通过赋予不同模型不同的融合权重,更能捕捉到时间更近的数据的特征,从而达到更好的预估效果。
频繁项集挖掘方法主要有Apriori和FP-Growth,Apriori算法由于效率低下,实际中人们往往选择FP-Growth进行频繁项集的挖掘。由于数据是随着时间的推进不断产生的,因此受时间影响较大。对于短时间内产生的大量数据,FP-Growth算法得到的结果很能反映这段时间内的频繁集,但是当时间范围跨度较大时,可能会有原先频繁出现的事项后期就不那么频繁出现了,或者之前较少出现的事项由于一些原因后期会频繁出现。而现有公开的文献中并没有针对时间变化进行分析的频繁项集挖掘方法。因此本发明的算法在进行频繁项挖掘的时候,能够将时间变化因素考虑在内,从而使得到的结果能够反映出事项发生的时间特性。
附图说明
图1为本发明的处理方法示意图。
具体实施方式
一种基于时间衰减关联的政务事项数据处理方法,包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重generals
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R;
l、关联规则R中涉及的事项若有先后顺序,则对事项进行串行,优化办事流程;
m、关联规则R中涉及的事项若无先后顺序,则对事项进行合并,优化办事流程关联规则。
所述步骤e中时间衰减权重因子decayt的计算方法为decayt=e0.05*t;在关联关系的置信度采用改进的贝叶斯定理进行度量,在计算后验概率时,没有使用古典概率的计数结果进行计算,对事项的普遍性进行了度量,对计数结果引入了普遍性权重;若某一事项出现在多个高频事项子集中,则增加其权重;反之则减小其权重,普遍性权重的具体计算方法为其中,ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数。并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。本发明通过设置权重,融合权重的序列可由用户和政务动态调节。不同于常规的平均模型融合法,本方法通过赋予不同模型不同的融合权重,更能捕捉到时间更近的数据的特征,从而达到更好的预估效果。

Claims (1)

1.一种基于时间衰减关联的政务事项数据处理方法,其特征在于包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数;
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R;
l、关联规则R中涉及的事项若有先后顺序,则对事项进行串行,优化办事流程;
m、关联规则R中涉及的事项若无先后顺序,则对事项进行合并,优化办事流程关联规则。
CN201811461853.XA 2018-12-03 2018-12-03 一种基于时间衰减关联的政务事项数据处理方法 Active CN109582714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811461853.XA CN109582714B (zh) 2018-12-03 2018-12-03 一种基于时间衰减关联的政务事项数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811461853.XA CN109582714B (zh) 2018-12-03 2018-12-03 一种基于时间衰减关联的政务事项数据处理方法

Publications (2)

Publication Number Publication Date
CN109582714A CN109582714A (zh) 2019-04-05
CN109582714B true CN109582714B (zh) 2023-07-25

Family

ID=65926579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811461853.XA Active CN109582714B (zh) 2018-12-03 2018-12-03 一种基于时间衰减关联的政务事项数据处理方法

Country Status (1)

Country Link
CN (1) CN109582714B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192012B (zh) * 2019-12-27 2023-04-14 腾讯云计算(北京)有限责任公司 事项处理方法、装置、服务器及存储介质
CN111694878B (zh) * 2020-05-11 2023-08-11 电子科技大学 一种基于事项关联网络的政务主题事项联办方法与系统
CN112241420A (zh) * 2020-10-26 2021-01-19 浪潮云信息技术股份公司 一种基于关联规则算法的政务服务事项推荐方法
CN112650924B (zh) * 2020-12-23 2022-11-08 浪潮卓数大数据产业发展有限公司 一种特定办事事项推荐方法
CN113268681A (zh) * 2021-07-05 2021-08-17 数字广东网络建设有限公司 一种用户归属地识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996102A (zh) * 2009-08-31 2011-03-30 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
CN104573080A (zh) * 2015-01-27 2015-04-29 南京信息职业技术学院 一种基于事务二进制的约束频繁项集挖掘方法
WO2016029570A1 (zh) * 2014-08-28 2016-03-03 北京科东电力控制系统有限责任公司 一种面向电网调度的智能告警分析方法
CN105808766A (zh) * 2016-03-21 2016-07-27 西南科技大学 一种基于事务项约束扩展的多层关联规则挖掘方法
CN106033424A (zh) * 2015-03-11 2016-10-19 哈尔滨工业大学深圳研究生院 数据挖掘方法和装置
CN106570128A (zh) * 2016-11-03 2017-04-19 南京邮电大学 一种基于关联规则分析的挖掘算法
CN107145609A (zh) * 2017-06-13 2017-09-08 上海应用技术大学 基于FP‑Growth算法的隧道交通事故关联规则算法
CN107229752A (zh) * 2017-06-27 2017-10-03 重庆邮电大学 一种基于嵌套时间窗口的流式数据频繁项集挖掘算法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489363B2 (en) * 2016-10-19 2019-11-26 Futurewei Technologies, Inc. Distributed FP-growth with node table for large-scale association rule mining

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996102A (zh) * 2009-08-31 2011-03-30 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
WO2016029570A1 (zh) * 2014-08-28 2016-03-03 北京科东电力控制系统有限责任公司 一种面向电网调度的智能告警分析方法
CN104573080A (zh) * 2015-01-27 2015-04-29 南京信息职业技术学院 一种基于事务二进制的约束频繁项集挖掘方法
CN106033424A (zh) * 2015-03-11 2016-10-19 哈尔滨工业大学深圳研究生院 数据挖掘方法和装置
CN105808766A (zh) * 2016-03-21 2016-07-27 西南科技大学 一种基于事务项约束扩展的多层关联规则挖掘方法
CN106570128A (zh) * 2016-11-03 2017-04-19 南京邮电大学 一种基于关联规则分析的挖掘算法
CN107145609A (zh) * 2017-06-13 2017-09-08 上海应用技术大学 基于FP‑Growth算法的隧道交通事故关联规则算法
CN107229752A (zh) * 2017-06-27 2017-10-03 重庆邮电大学 一种基于嵌套时间窗口的流式数据频繁项集挖掘算法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数据流模式挖掘算法及应用研究;王乐;《中国博士学位论文全文数据库信息科技辑》;20140515(第5期);全文 *
短时间序列挖掘方法研究;骆科东;《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》;20050715(第3期);全文 *

Also Published As

Publication number Publication date
CN109582714A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
US10042912B2 (en) Distributed clustering with outlier detection
CN111698247B (zh) 异常账号检测方法、装置、设备及存储介质
CN105389713A (zh) 基于用户历史数据的移动流量套餐推荐算法
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
US9460236B2 (en) Adaptive variable selection for data clustering
Nandurge et al. Analyzing road accident data using machine learning paradigms
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和系统
CN109754258B (zh) 一种基于个体行为建模的面向线上交易欺诈检测方法
CN109118155B (zh) 一种生成操作模型的方法及装置
Halibas et al. Determining the intervening effects of exploratory data analysis and feature engineering in telecoms customer churn modelling
CN111159428A (zh) 经济领域知识图谱事件关系自动抽取的方法和装置
CN110297853A (zh) 频繁集挖掘方法和装置
Yoo et al. Sampling subgraphs with guaranteed treewidth for accurate and efficient graphical inference
CA3156642A1 (en) Anti-fraud method and system based on automatic feature engineering
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN109977131A (zh) 一种房型匹配系统
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN109754023A (zh) 基于j散度的新型决策树分类方法
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
CN113378842A (zh) 基于分割图像特征提取的推荐方法
CN110489652B (zh) 基于用户行为检测的新闻推荐方法、系统及计算机设备
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
US10181102B2 (en) Computer implemented classification system and method
Ozdemir et al. Performance Comparison with Hierarchical and Partitional Clustering Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 730000 No.553, Zhangsutan, Chengguan District, Lanzhou City, Gansu Province (4-7 floors, Zone B, the second hub of telecommunications)

Applicant after: China Power World Wide Information Technology Co.,Ltd.

Address before: 730000 Zhangsutan 553, Chengguan District, Lanzhou City, Gansu Province

Applicant before: GANSU WANWEI CO.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant