CN112883080B - 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法 - Google Patents

一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法 Download PDF

Info

Publication number
CN112883080B
CN112883080B CN202110199231.XA CN202110199231A CN112883080B CN 112883080 B CN112883080 B CN 112883080B CN 202110199231 A CN202110199231 A CN 202110199231A CN 112883080 B CN112883080 B CN 112883080B
Authority
CN
China
Prior art keywords
item set
support degree
frequent
uncertain
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110199231.XA
Other languages
English (en)
Other versions
CN112883080A (zh
Inventor
袁泉
李志龙
罗瑶
董昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Information Technology Designing Co ltd, Chongqing University of Post and Telecommunications filed Critical Chongqing Information Technology Designing Co ltd
Priority to CN202110199231.XA priority Critical patent/CN112883080B/zh
Publication of CN112883080A publication Critical patent/CN112883080A/zh
Application granted granted Critical
Publication of CN112883080B publication Critical patent/CN112883080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于UFIM‑Matrix算法改进的不确定频繁项集营销数据挖掘算法。该方法包括:在引入前置剪枝策略,该策略只涉及到一些常数的四则运算,是一种十分高效的剪枝手段,提前删除不频繁的项,避免前期数据量过大而导致过多的空间消耗;同时在计算k‑项集期望支持度时,引入位图表,根据位图表计算出相应的项集支持度,与最小阈值minsup比较,删减不频繁项集,得到频繁项集。该方法只需要对营销数据库进行两次扫描,节省了算法的时间,同时引入前置剪枝修剪策略和位图表,提高了内存和时间。

Description

一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据 挖掘算法
技术领域
本发明属于数据挖掘领域,涉及一种基于UFIM-Matrix算法改进的不确定频繁项集挖掘算法。
背景技术
随着时代的发展,数据挖掘受到了各行各业的重视,已变成众多学者研究的热点。数据挖掘指在许多领域信息中,找出隐蔽、新奇、有效、容易分析的高级数据处理操作。随着信息技术的发展,在金融、物流以及天体研究等众多领域,时刻都会产生和记录海量的数据。如何从这些数据中获取有价值的潜在信息,如何智能地将海量的数据转换成有用的知识,并用知识对未来进行指引,这些需求引发了对新的技术和自动工具的研究,数据挖掘始然出现。
不确定数据的出现,使数据挖掘领域变得更加棘手,不确定数据是指每一条事务中项目的存在不再是百分百确定的,而是依据某种相似性度量或是概率形式存在。不确定数据主要是由于数据本身的特点或者数据在产生、收集、存储和传输过程中存在大量随机性导致的,比如说通过对购物篮分析从而预测商品需求量时,购物篮中的商品用户并不是肯定要购买的。目前,不确定数据广泛应用于传感器网络、RFID应用、Web应用、商业决策等诸多领域。
商品营销在生活中非常的常见,一个大型的超市,每天都有海量的购物数据产生,那么如何从这些海量的营销数据中挖掘出对商场有用的信息呢?在营销数据挖掘方面虽然有很多的技术,如:U-Apriori算法、UF-Growth算法、CUF-growth算法等等,但是它们无论是在数据的准确度,挖掘的时间还是算法运行占用的内存,都存在一定的弊端,无法适应越来越多的营销数据。
尤其是营销数据的不确定性给频繁模式挖掘带来了极大挑战,一方面是相对于营销数据规模呈指数增长,另一方面是新出现的概率维度,这导致传统的针对确定性营销数据的频繁模式挖掘算法的准确性和时效性大大降低,不能满足具体的应用需求。因此,迫切需要提出新的理论模型和算法解决不确定营销数据的频繁模式挖掘问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法。本发明的技术方案如下:
一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其包括以下步骤:
步骤一:首先扫描营销不确定数据库,根据前置剪枝策略对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1
步骤二:对原始营销数据集D(即不确定数据库)进行扫描,生成最大概率矩阵R;
步骤三:将L1自乘并利用最大概率矩阵R生成2-项集;
步骤四:依次取出步骤三的各个2-项集,采用子集检测的方法扩展为3-项集,依次类推扩展出k-项集,并利用位图表求出相关项集的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的营销数据频繁项集。
进一步的,所述步骤一具体为:首次扫描不确定营销数据库,利用前置剪枝策略(1)(2)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1
策略1如果cnt(X)<minsup,则X是非频繁的;
sup表示支持度,cnt(X)表示包含项集X的事物数。
策略2定义u=e sup(X),
Figure BDA0002947491760000021
如果满足如下两个条件之一,那么X是非频繁的;
u表示X的期望支持度、e sup(X)表示X的期望支持度、σ分别表示支持度偏离度。
(1)σ≥2e-1并且2-σu<min prob (5)
(2)0<σ<2e-1并且
Figure BDA0002947491760000031
prob表示概率支持度
进一步的,所述步骤二具体为:根据公式(7)第二次对原始营销数据集D进行扫描,生成最大概率矩阵R;
定义3设不确定数据集D中有n个事务和m个基于期望支持度的频繁1-项集,经过f:D→R转换为最大概率矩阵R;
其中,R=f(D)=(rju)n*m(j=1,2,...,n;u=1,2,...,m)
Figure BDA0002947491760000032
rju表示矩阵中j列m行数据、f(D)分别表示映射函数,n*m表示n行m列矩阵;PCap*表示最大概率,T表示事务数据。
进一步的,所述步骤三具体为:根据公式(8)将L1自乘并利用最大概率矩阵R生成2-项集;
定义4二项集{ix,iy}的定义为:
Figure BDA0002947491760000033
式中:“Λ”表示求最小值运算。
进一步的,所述步骤四具体为:依次取出各个2-项集,并采用子集检测的方法,扩展为3-项集,依次类推扩展出k-项集,根据位图表利用期望支持度的求值公式求出每个项集的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的频繁项集。
本发明的优点及有益效果如下:
1)本发明通过引入前置剪枝策略,与常规的索引剪枝策略相比,该策略只涉及到一些常数的四则运算,是一种十分高效的剪枝手段,提前删除不频繁的项,避免前期数据量过大而导致过多的空间消耗,节省算法运行的空间。由于该策略需要用到期望偏离度,而前期的剪枝策略都没有出现计算期望偏离度的方法,所以本发明用到的这个策略与常规方法相比具有一定的高效性。
2)本发明在计算k-项集支持度时,引入位图表和项集期望的求值公式,通过计算出相应的项集支持度,得到频繁项集,与常规的先计算估算期望支持度,然后进行第三次扫描营销数据库,进而得到频繁项集相比,该方法最大的优势
在于只需要对数据库进行两次扫描,节省了算法的时间。
附图说明
图1是本发明提供优选实施例基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
在本实施例中,一种基于UFIM-Matrix算法改进的不确定频繁项集挖掘算法是按如下步骤进行的。
步骤一:扫描营销数据库获取频繁1-项集;
首次扫描不确定营销数据库,利用前置剪枝策略(9)(10)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1
策略1如果cnt(X)<minsup,则X是非频繁的;
sup表示支持度,cnt(X)表示包含项集X的事物数。
策略2定义u=e sup(X),
Figure BDA0002947491760000051
如果满足如下两个条件之一,那么X是非频繁的;
u表示X的期望支持度、e sup(X)表示X的期望支持度、σ分别表示支持度偏离度。
(1)σ≥2e-1并且2-σu<min prob (9)
(2)0<σ<2e-1并且
Figure BDA0002947491760000052
prob表示概率支持度
步骤二:第二次扫描原始数据集D,生成最大概率矩阵R;
对不确定营销数据库进行第二次扫描,根据公式(11)生成最大概率矩阵R;
定义5设不确定数据集D中有n个事务和m个基于期望支持度的频繁1-项集,经过f:D→R转换为最大概率矩阵R;
其中,R=f(D)=(rju)n*m(j=1,2,...,n;u=1,2,...,m)
Figure BDA0002947491760000053
rju表示矩阵中j列m行数据、f(D)分别表示映射函数,n*m表示n行m列矩阵;PCap*表示最大概率,T表示事务数据。
步骤三:将L1自乘并利用最大概率矩阵R生成2-项集;
根据公式(12)将L1自乘并利用最大概率矩阵R生成2-项集;
定义6二项集{ix,iy}的定义为:
Figure BDA0002947491760000061
式中:“Λ”表示求最小值运算。
步骤四:依次取出各个2-项集,并采用子集检测的方法,扩展为3-项集,依次类推扩展出k-项集,根据位图表利用期望支持度的求值公式求出每个项集的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的频繁项集。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (1)

1.一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其特征在于,包括以下步骤:
步骤一:首先扫描营销不确定数据库,根据前置剪枝策略对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1
步骤二:对原始营销数据集D即不确定数据库进行扫描,生成最大概率矩阵R;
步骤三:将L1自乘并利用最大概率矩阵R生成2-项集;
步骤四:依次取出步骤三的各个2-项集,采用子集检测的方法,扩展为3-项集,依次类推扩展出k-项集,根据位图表求出相关的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的营销数据频繁项集;
所述步骤一具体为:首次扫描不确定数据库,利用前置剪枝策略(1)(2)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1
策略1如果cnt(X)<minsup,则X是非频繁的;
sup表示支持度阈值,cnt(X)表示包含项集X的事物数;
策略2定义u=esup(X),
Figure FDA0003794430420000011
如果满足如下两个条件之一,那么X是非频繁的;
u表示X的期望支持度,esup(X)表示X的期望支持度,σ分别表示支持度偏离度;
(1)σ≥2e-1并且2-σu<minprob (1)
(2)0<σ<2e-1并且
Figure FDA0003794430420000012
prob表示概率支持度;
所述步骤二具体为:根据公式(3)第二次对原始营销数据集D进行扫描,生成最大概率矩阵R;
定义1设不确定数据集D中有n个事务和m个基于期望支持度的频繁1-项集,经过f:D→R转换为最大概率矩阵R;
其中,R=f(D)=(rju)n*m,其中j=1,2,...,n;u=1,2,...,m;
Figure FDA0003794430420000021
rju表示矩阵中j列u行数据,f(D)分别表示映射函数,n*m表示n行
m列矩阵;Tj表示事务数据;
所述步骤三具体为:根据公式(4)将L1自乘并利用最大概率矩阵R生成2-项集;
定义2二项集{ix,iy}的定义为:
Figure FDA0003794430420000022
式中:“Λ”表示求最小值运算;
所述步骤四具体为:依次取出各个2-项集,扩展为3-项集,依次类推扩展出k-项集,并根据位图表采用子集检测的方法求出相关的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的频繁项集。
CN202110199231.XA 2021-02-22 2021-02-22 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法 Active CN112883080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110199231.XA CN112883080B (zh) 2021-02-22 2021-02-22 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110199231.XA CN112883080B (zh) 2021-02-22 2021-02-22 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法

Publications (2)

Publication Number Publication Date
CN112883080A CN112883080A (zh) 2021-06-01
CN112883080B true CN112883080B (zh) 2022-10-18

Family

ID=76056845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110199231.XA Active CN112883080B (zh) 2021-02-22 2021-02-22 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法

Country Status (1)

Country Link
CN (1) CN112883080B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN110807053A (zh) * 2019-11-12 2020-02-18 深圳易嘉恩科技有限公司 一种基于改进Apriori算法找出频繁项集的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100812378B1 (ko) * 2005-11-28 2008-03-11 이원석 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법
CN102867118B (zh) * 2012-08-30 2016-03-23 重庆汉光电子工程有限责任公司 不确定时间序列中不确定频繁模式的确定方法
CN107966902B (zh) * 2017-11-27 2020-09-04 辽宁石油化工大学 一种不确定性间歇过程的约束2d跟踪控制方法
CN108346284A (zh) * 2018-01-29 2018-07-31 河海大学 一种基于马尔科夫模型的不确定性路网车辆轨迹预测方法
CN111930797A (zh) * 2020-07-09 2020-11-13 西北工业大学 不确定周期性频繁项集挖掘方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN110807053A (zh) * 2019-11-12 2020-02-18 深圳易嘉恩科技有限公司 一种基于改进Apriori算法找出频繁项集的方法

Also Published As

Publication number Publication date
CN112883080A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Xu et al. Recent progress of anomaly detection
Liu et al. Feature selection based on quality of information
Giannakis et al. Nonlinear Laplacian spectral analysis: capturing intermittent and low‐frequency spatiotemporal patterns in high‐dimensional data
Bhaduri et al. Using empirical recurrence rates ratio for time series data similarity
CN103678530A (zh) 一种频繁项集快速检出的方法
Zhao et al. Improving ELM-based microarray data classification by diversified sequence features selection
Revin et al. Automated machine learning approach for time series classification pipelines using evolutionary optimization
Nguyen et al. Subgraph mining in a large graph: A review
Tyagi et al. Implementation of ROCK clustering algorithm for the optimization of query searching time
Wang et al. New developments in unsupervised outlier detection
Tavakoli et al. Clustering time series data through autoencoder-based deep learning models
CN112883080B (zh) 一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法
Baek et al. Uncertainty-based pattern mining for maximizing profit of manufacturing plants with list structure
CN116051229A (zh) 一种基于标签的关联规则的商品推荐方法
Aliberti et al. EXPEDITE: EXPress closED ITemset enumeration
Kumar et al. Preprocessing and symbolic representation of stock data
Assent et al. Clustering multidimensional sequences in spatial and temporal databases
Meneses et al. Categorization and evaluation of data mining techniques
Pasha et al. A comparative study on outlier detection techniques
Babu et al. Clustering algorithms for high dimensional data–a survey of issues and existing approaches
Wang et al. Enhancing outlier detection by filtering out core points and border points
Ninoria et al. Review On Rare Itemset Mining
Choubey et al. Graph based new approach for frequent pattern mining
Deng et al. A Novel Data Dependent Similarity Measure Algorithm Based on Attribute Selection
Arumugam et al. Time Series Modeling and Forecasting Using Autoregressive Integrated Moving Average and Seasonal Autoregressive Integrated Moving Average Models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant