CN109582714A - 一种基于时间衰减关联的政务事项数据处理方法 - Google Patents
一种基于时间衰减关联的政务事项数据处理方法 Download PDFInfo
- Publication number
- CN109582714A CN109582714A CN201811461853.XA CN201811461853A CN109582714A CN 109582714 A CN109582714 A CN 109582714A CN 201811461853 A CN201811461853 A CN 201811461853A CN 109582714 A CN109582714 A CN 109582714A
- Authority
- CN
- China
- Prior art keywords
- item
- frequent
- time
- date
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机通信技术领域,特别是一种基于时间衰减关联的政务事项数据处理方法。本发明针对政务服务中事项流程复杂冗余等问题,提供了一种基于时间衰减关联规则挖掘方法,并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。
Description
技术领域
本发明涉及计算机通信技术领域,特别是一种基于时间衰减关联的政务事项数据处理方法。
背景技术
随着社会的发展和科技的进步,人们的生活越来越电子化,与此同时累积产生的数据量也正在迅速膨胀。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。面对如此大的数据量,如何充分利用现有数据,挖掘数据中的潜在价值并服务于现有业务,是我们亟待解决的问题。
数据挖掘涉及范围非常广泛,主要是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、频繁项集挖掘、序列模式、聚类模式、神经网络算法等等。频繁项集挖掘是数据挖掘中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解、运用频繁项集是完成数据挖掘任务的重要手段。但现有的数据挖掘还是存在权重单一,无法匹配时间因素等问题。
发明内容
本发明解决现有技术不足提供一种简化流程、快速实施的基于时间衰减关联的政务事项数据处理方法。
本发明解决其技术问题所采用的技术方案为:
一种基于时间衰减关联的政务事项数据处理方法,包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1;
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t,
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重generals;
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R;
l、关联规则R中涉及的事项若有先后顺序,则对事项进行串行,优化办事流程;
m、关联规则R中涉及的事项若无先后顺序,则对事项进行合并,优化办事流程关联规则。
所述步骤e中时间衰减权重因子decayt的计算方法为decayt=e0.05*t;在关联关系的置信度采用改进的贝叶斯定理进行度量,在计算后验概率时,没有使用古典概率的计数结果进行计算,对事项的普遍性进行了度量,对计数结果引入了普遍性权重;若某一事项出现在多个高频事项子集中,则增加其权重;反之则减小其权重,普遍性权重的具体计算方法为其中,ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数。
本发明针对政务服务中事项流程复杂冗余等问题,提供了一种基于时间衰减关联规则挖掘方法,并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。本发明通过设置权重,融合权重的序列可由用户和政务动态调节。不同于常规的平均模型融合法,本方法通过赋予不同模型不同的融合权重,更能捕捉到时间更近的数据的特征,从而达到更好的预估效果。
频繁项集挖掘方法主要有Apriori和FP-Growth,Apriori算法由于效率低下,实际中人们往往选择FP-Growth进行频繁项集的挖掘。由于数据是随着时间的推进不断产生的,因此受时间影响较大。对于短时间内产生的大量数据,FP-Growth算法得到的结果很能反映这段时间内的频繁集,但是当时间范围跨度较大时,可能会有原先频繁出现的事项后期就不那么频繁出现了,或者之前较少出现的事项由于一些原因后期会频繁出现。而现有公开的文献中并没有针对时间变化进行分析的频繁项集挖掘方法。因此本发明的算法在进行频繁项挖掘的时候,能够将时间变化因素考虑在内,从而使得到的结果能够反映出事项发生的时间特性。
附图说明
图1为本发明的处理方法示意图。
具体实施方式
一种基于时间衰减关联的政务事项数据处理方法,包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1;
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t,
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重generals;
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R;
l、关联规则R中涉及的事项若有先后顺序,则对事项进行串行,优化办事流程;
m、关联规则R中涉及的事项若无先后顺序,则对事项进行合并,优化办事流程关联规则。
所述步骤e中时间衰减权重因子decayt的计算方法为decayt=e0.05*t;在关联关系的置信度采用改进的贝叶斯定理进行度量,在计算后验概率时,没有使用古典概率的计数结果进行计算,对事项的普遍性进行了度量,对计数结果引入了普遍性权重;若某一事项出现在多个高频事项子集中,则增加其权重;反之则减小其权重,普遍性权重的具体计算方法为其中,ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数。
并将挖掘出的关联规则用于政务事项流程优化,从而精简政务事项优化过程。本发明通过设置权重,融合权重的序列可由用户和政务动态调节。不同于常规的平均模型融合法,本方法通过赋予不同模型不同的融合权重,更能捕捉到时间更近的数据的特征,从而达到更好的预估效果。
Claims (2)
1.一种基于时间衰减关联的政务事项数据处理方法,其特征在于包括如下步骤:
a、获取所有办理事项的用户身份ID、事项名称n、办理日期t;
b、对获取的用户身份ID、事项名称n中字母和数字转化为小写半角符号,去除字段信息中空格;
c、对办理日期t以日为级数单位,起算日期记为0,距离起算日期d天,则对应的日期t记为-d;
d、对事项名称n、办理日期t进行分组,得到每一个用户办理的事项集合s,所有用户的事项集合组成了频繁模式挖掘的事务集S1;
e、根据办理日期t,计算各事项的时间衰减权重因子decayt=e0.05*t,
f、遍历事务集S1,得到各事项的时间衰减加权计数,满足最小支持度SUPmin的事项组成频繁1-项集f1,并按计数从大到小排列;
g、构造FP树,根节点设为null;对事务集S1中的每个事项集合s,选取出现在频繁1-项集f1中的元素,并按照时间衰减加权计数从大到小的顺序依次从根节点开始创建分枝;若多个事项集合si和sj按照时间衰减加权计数从大到小排列后,有相同的前缀,则它们也共享FP树中的祖先节点,FP树中各节点的计数仍为节点上所有事项的时间衰减加权和;
h、从频繁1-项集f1开始,找出每一个频繁项在FP树上的所有前缀路径,并使用前缀路径,按照步骤g创建该频繁项的条件FP树,递归的在该树上挖掘,直到前缀路径为空,得到所有频繁项的集合F,计算每个频繁子集的普遍性权重
j、使用改进的贝叶斯定理度量事项间的关联关系的置信度CONF;
k、满足最小置信度CONFmin=0.9的关联关系即为关联规则R。
2.根据权利要求1所述一种基于时间衰减关联的政务事项数据处理方法,其特征在于所述步骤e中时间衰减权重因子decayt的计算方法为decayt=e0.05*t;在关联关系的置信度采用改进的贝叶斯定理进行度量,普遍性权重的具体计算方法为
其中,ns表示s作为子集的频繁项集数,N表示频繁项集F的集合数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811461853.XA CN109582714B (zh) | 2018-12-03 | 2018-12-03 | 一种基于时间衰减关联的政务事项数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811461853.XA CN109582714B (zh) | 2018-12-03 | 2018-12-03 | 一种基于时间衰减关联的政务事项数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582714A true CN109582714A (zh) | 2019-04-05 |
CN109582714B CN109582714B (zh) | 2023-07-25 |
Family
ID=65926579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811461853.XA Active CN109582714B (zh) | 2018-12-03 | 2018-12-03 | 一种基于时间衰减关联的政务事项数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582714B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192012A (zh) * | 2019-12-27 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 事项处理方法、装置、服务器及存储介质 |
CN111694878A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN112241420A (zh) * | 2020-10-26 | 2021-01-19 | 浪潮云信息技术股份公司 | 一种基于关联规则算法的政务服务事项推荐方法 |
CN112650924A (zh) * | 2020-12-23 | 2021-04-13 | 山东爱城市网信息技术有限公司 | 一种特定办事事项推荐方法 |
CN113268681A (zh) * | 2021-07-05 | 2021-08-17 | 数字广东网络建设有限公司 | 一种用户归属地识别方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996102A (zh) * | 2009-08-31 | 2011-03-30 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
CN104573080A (zh) * | 2015-01-27 | 2015-04-29 | 南京信息职业技术学院 | 一种基于事务二进制的约束频繁项集挖掘方法 |
WO2016029570A1 (zh) * | 2014-08-28 | 2016-03-03 | 北京科东电力控制系统有限责任公司 | 一种面向电网调度的智能告警分析方法 |
CN105808766A (zh) * | 2016-03-21 | 2016-07-27 | 西南科技大学 | 一种基于事务项约束扩展的多层关联规则挖掘方法 |
CN106033424A (zh) * | 2015-03-11 | 2016-10-19 | 哈尔滨工业大学深圳研究生院 | 数据挖掘方法和装置 |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN107145609A (zh) * | 2017-06-13 | 2017-09-08 | 上海应用技术大学 | 基于FP‑Growth算法的隧道交通事故关联规则算法 |
CN107229752A (zh) * | 2017-06-27 | 2017-10-03 | 重庆邮电大学 | 一种基于嵌套时间窗口的流式数据频繁项集挖掘算法 |
CN107463665A (zh) * | 2017-08-01 | 2017-12-12 | 广东云下汇金科技有限公司 | 一种数据关联规则挖掘算法 |
US20180107695A1 (en) * | 2016-10-19 | 2018-04-19 | Futurewei Technologies, Inc. | Distributed fp-growth with node table for large-scale association rule mining |
-
2018
- 2018-12-03 CN CN201811461853.XA patent/CN109582714B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996102A (zh) * | 2009-08-31 | 2011-03-30 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
WO2016029570A1 (zh) * | 2014-08-28 | 2016-03-03 | 北京科东电力控制系统有限责任公司 | 一种面向电网调度的智能告警分析方法 |
CN104573080A (zh) * | 2015-01-27 | 2015-04-29 | 南京信息职业技术学院 | 一种基于事务二进制的约束频繁项集挖掘方法 |
CN106033424A (zh) * | 2015-03-11 | 2016-10-19 | 哈尔滨工业大学深圳研究生院 | 数据挖掘方法和装置 |
CN105808766A (zh) * | 2016-03-21 | 2016-07-27 | 西南科技大学 | 一种基于事务项约束扩展的多层关联规则挖掘方法 |
US20180107695A1 (en) * | 2016-10-19 | 2018-04-19 | Futurewei Technologies, Inc. | Distributed fp-growth with node table for large-scale association rule mining |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN107145609A (zh) * | 2017-06-13 | 2017-09-08 | 上海应用技术大学 | 基于FP‑Growth算法的隧道交通事故关联规则算法 |
CN107229752A (zh) * | 2017-06-27 | 2017-10-03 | 重庆邮电大学 | 一种基于嵌套时间窗口的流式数据频繁项集挖掘算法 |
CN107463665A (zh) * | 2017-08-01 | 2017-12-12 | 广东云下汇金科技有限公司 | 一种数据关联规则挖掘算法 |
Non-Patent Citations (2)
Title |
---|
王乐: "数据流模式挖掘算法及应用研究", 《中国博士学位论文全文数据库信息科技辑》 * |
骆科东: "短时间序列挖掘方法研究", 《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192012A (zh) * | 2019-12-27 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 事项处理方法、装置、服务器及存储介质 |
CN111192012B (zh) * | 2019-12-27 | 2023-04-14 | 腾讯云计算(北京)有限责任公司 | 事项处理方法、装置、服务器及存储介质 |
CN111694878A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN111694878B (zh) * | 2020-05-11 | 2023-08-11 | 电子科技大学 | 一种基于事项关联网络的政务主题事项联办方法与系统 |
CN112241420A (zh) * | 2020-10-26 | 2021-01-19 | 浪潮云信息技术股份公司 | 一种基于关联规则算法的政务服务事项推荐方法 |
CN112650924A (zh) * | 2020-12-23 | 2021-04-13 | 山东爱城市网信息技术有限公司 | 一种特定办事事项推荐方法 |
CN112650924B (zh) * | 2020-12-23 | 2022-11-08 | 浪潮卓数大数据产业发展有限公司 | 一种特定办事事项推荐方法 |
CN113268681A (zh) * | 2021-07-05 | 2021-08-17 | 数字广东网络建设有限公司 | 一种用户归属地识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109582714B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582714A (zh) | 一种基于时间衰减关联的政务事项数据处理方法 | |
Zhou et al. | Movie recommendation system employing the user-based cf in cloud computing | |
CN106709035A (zh) | 一种电力多维全景数据的预处理系统 | |
CN106202430A (zh) | 基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法 | |
CN108737492A (zh) | 一种基于大数据系统的导航与位置服务的方法 | |
CN106599230A (zh) | 一种分布式数据挖掘模型评估的方法与系统 | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
CN105654196A (zh) | 一种基于电力大数据的自适应负荷预测选择方法 | |
CN105335785B (zh) | 一种基于向量运算的关联规则挖掘方法 | |
CN102243628A (zh) | 成矿案例推理模型与方法 | |
CN113761393B (zh) | 商品协同推荐方法及其装置、设备、介质、产品 | |
CN104765852B (zh) | 大数据背景下基于模糊算法的数据挖掘方法 | |
CN114385376B (zh) | 一种异构数据下边缘侧联邦学习的客户端选择方法 | |
CN113779169B (zh) | 时空数据流模型自增强方法 | |
CN105404637A (zh) | 数据挖掘方法和装置 | |
CN105389358A (zh) | 基于关联规则的Web服务推荐方法 | |
CN111062511B (zh) | 基于决策树与神经网络的水产养殖病害预测方法及系统 | |
CN106407379A (zh) | 一种基于Hadoop平台的电影推荐方法 | |
CN118013207A (zh) | 一种勘探作业数据采集和质检的管理方法及系统 | |
Singh et al. | A comparative analysis of distributed clustering algorithms: A survey | |
Patel et al. | A reduced error pruning technique for improving accuracy of decision tree learning | |
Wang et al. | A Novel Multi‐Input AlexNet Prediction Model for Oil and Gas Production | |
CN106126739A (zh) | 一种处理业务关联数据的装置 | |
CN115577757A (zh) | 基于图卷积网络节点标签异构图的社区发现方法 | |
CN115982373A (zh) | 结合多级交互式对比学习的知识图谱推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 730000 No.553, Zhangsutan, Chengguan District, Lanzhou City, Gansu Province (4-7 floors, Zone B, the second hub of telecommunications) Applicant after: China Power World Wide Information Technology Co.,Ltd. Address before: 730000 Zhangsutan 553, Chengguan District, Lanzhou City, Gansu Province Applicant before: GANSU WANWEI CO. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |