CN106570128A - 一种基于关联规则分析的挖掘算法 - Google Patents

一种基于关联规则分析的挖掘算法 Download PDF

Info

Publication number
CN106570128A
CN106570128A CN201610953160.7A CN201610953160A CN106570128A CN 106570128 A CN106570128 A CN 106570128A CN 201610953160 A CN201610953160 A CN 201610953160A CN 106570128 A CN106570128 A CN 106570128A
Authority
CN
China
Prior art keywords
item
support
data set
affairs
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610953160.7A
Other languages
English (en)
Inventor
岳东
朱昌敏
商永婕
黄崇鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610953160.7A priority Critical patent/CN106570128A/zh
Publication of CN106570128A publication Critical patent/CN106570128A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于关联规则分析的挖掘算法,属于互联网个性化推荐领域。本发明首先将数据集进行频繁1‑项集的项总数扫描,在产生FP‑Tree之前,对不必要的冗余项先进行删除,减少挖掘量,然后对事务中每个项的提取得到各数据集子集,再使用FP‑Growth算法对各数据集子集进行频繁项挖掘,在挖掘过程中,只保留当前索要挖掘的有用的,必要的信息,省时又省空间。最后按L‑1的次序对事务数据集的每一列排序,在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀,根据共享前缀构建FP树。提高生成FP‑Tree的速度,进而提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。

Description

一种基于关联规则分析的挖掘算法
技术领域
本发明涉及互联网个性化推荐领域,尤其涉及一种基于关联规则分析的挖掘算法。
背景技术
关联规则最早是由R.Agrawal等人针对超市购物篮分析问题提出的,其目的是发现超市交易数据库中不同商品之间的关联关系。关联规则体现了顾客购物的行为模式,这可以为经营决策、市场预测和策划等方面提供依据。关联规则挖掘系统已经被成功应用于市场营销、银行业、零售业、保险业、电信业和公司经营管理等各个方面。关联规则还可以应用于文本挖掘、商品广告有机分析和网络故障分析等领域。
假设是项的集合。给定一个数据集D,其中每个事务t是I的非空子集,即每一个事务都与一个唯一的标识符Tid(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的(阈值是人为设定)。
关联规则挖掘分两步进行:1)生成频繁项集。这一阶段找出所有满足最小支持度的项集,找出的这些项集称为频繁项集。2)生成规则。在上一步产生的频繁项集的基础上生成满足最小支持度的规则,产生的规则称为强规则。
Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-Tree),同时依然保留其中的关联信息,随后再将FP-Tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-Tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
FP-Growth算法虽然只扫描数据库两次,而且不产生候选项集,但数据集规模过大时,构造FP-Tree的条件模式基和条件FP-Tree时,这种链表存储的数据结构,产生的分枝多且长,构造和遍历FP-Tree占用大量存储和计算资源,大大降低空间利用率,影响挖掘效率。
发明内容
本发明目的是解决现有技术的不足,提供一种首先对不必要的冗余项进行删除,减少挖掘量,提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。
一种基于关联规则分析的挖掘算法,包括如下步骤:
第一步:扫描数据集D,生成候选1-项集,按支持度降序排列,删除支持度小于minSupport的项,得到频繁L-1项集;
第二步:再次扫描数据集D,删除各事务中支持度小于minSupport的项,再将事务中剩余项按支持度降序排列,得到数据集D/
第三步:对第二步得到的数据集D/中每个事务抽取某项,并删除事务中支持度小于该项支持度的项,得到数据子集D//
第四步:对于第三步得到的数据子集D//的每一列分别按照L-1项集的次序排序,构建共享前缀数据集D///
第五步:对第四步得到的共享前缀数据集D///进行FP-Tree的创建;
第六步:对第五步的创建进行是否含有相同前缀进行判断,若判断为是,则对共享前缀计数加1,继续搜索下一前缀;若判断为否,则建立新节点,连接到FP-Tree;
第七步:对第六步处理完的数据判断是否为最后一个数据,若判断为是,结束;若判断为否,则返回第六步再次判断,直到结束。
上述第三步根据频繁L-1项集的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到数据子集D//
本发明的优点:本发明的改进算法,继承了FP-Growth算法不产生候选项集的优点,首先将数据集进行频繁1-项集的项总数扫描,在产生FP-Tree之前,对不必要的冗余项先进行删除,减少挖掘量,然后对事务中每个项的提取得到各数据集子集,再使用FP-Growth算法对各数据集子集进行频繁项挖掘,在挖掘过程中,只保留当前索要挖掘的有用的,必要的信息,省时又省空间。最后按L-1的次序对事务数据集的每一列排序,在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀,根据共享前缀构建FP树。提高生成FP-Tree的速度,进而提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。
附图说明
图1是本发明共享前缀数据集D///的过程图。
图2是现有技术与本发明的运行时间表生成对比分析图。
具体实施方式
下面详细描述本发明的实施例,参考附图描述实现实施例的关联规则的挖掘算法。
数据集D中有10个事务,最小支持度=4,最小支持度阈值minSupport=40%。
*每一个事务都与一个唯一的标识符Tid(Transaction ID)对应
Tid Tid所包含的项
1 I1,I2,I3,I5,I6
2 I1,I2,I3,
3 I1,I2,I4,I5
4 I1,I2,I5,I6
5 I4,I5
6 I1,I2,I4
7 I1,I4,I5,I6
8 I2,I5,I6
9 I5,I6
10 I1,I2,I3
首先对数据集进行第一次扫描,找出候选1-项集及其支持度计数。删除小于minSupport=40%的项,得到频繁1-项集L-1。
*1-项集表
项集 支持度
I1 7
I2 7
I3 3
I4 4
I5 7
I6 5
*频繁L-1项集
项集 支持度
I1 7
I2 7
I5 7
I6 5
I4 4
再次扫描数据集D,将支持度小于minSupport的项从各事务中删除,并按照各项的支持度计数递减顺序将各事务重新排列,得到数据集D/
*数据集D/
根据L-1中的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到新的数据集子集D//。以项I1为例,项I1的数据集子集由包含项I1的事务{T1,T2,T3,T4,T6,T9,T10}组成,但由于事务T1中最后一项I6其支持度小于项I1的支持度,因此删除I6项;同理删除事务T3中的I4项;删除T4中的I6项;删除T6中的I4项;删除T9中的I6项。按照相同方法,对L-1中每项的数据库子集进行提取,结果如下表所示。
*数据集子集D//
项I1子集 项I2子集 项I4子集 项I5子集 项I6子集
I1,I2,I5 I1,I2,I5 I1,I2,I5,I4 I1,I2,I5 I1,I2,I5,I6
I1,I2 I1,I2 I5,I4 I1,I2,I5 I1,I2,I5,I6
I1,I2,I5 I1,I2,I5 I1,I2,I4 I1,I2,I5 I1,I5,I6
I1,I2,I5 I1,I2,I5 I1,I5,I4 I5 I2,I5,I6
I1,I2 I1,I2 I1,I5 I5,I6
I5 I2,I5 I2,I5
I1,I2 I1,I2 I5
按照L-1的次序对事务数据集D″的整个数据集排序,即首先对事务集的第一列按照L-1的次序排序,然后在此基础上对事务集的第二列按照L-1的次序排序,依次类推到数据集的最后一列得到共享前缀数据集D///(如图1所示)。
*共享前缀数据集D///
项I1子集 项I2子集 项I4子集 项I5子集 项I6子集
I1,I2, I1,I2 I1,I2,I5,I4 I1,I2,I5 I1,I2,I5,I6
I1,I2 I1,I2 I1,I2,I4 I1,I2,I5 I1,I2,I5,I6
I1,I2, I1,I2 I1,I5,I4 I1,I2,I5 I2,I5,I6
I1,I2,I5 I1,I2,I5 I5,I4 I1,I5 I1,I5,I6
I1,I2,I5 I1,I2,I5 I2,I5 I5,I6
I1,I2,I5 I1,I2,I5 I5
I5 I2,I5 I5
根据共享前缀数据集D///生成FP-Tree,构造FP-Tree的条件模式基和条件FP-Tree,导出其频繁项集。项I1所提取的数据集子集挖掘如下表所示:
得到的共享前缀数据集D///是存储在一个头指针表中(见上表),头指针表是用字典存储的。HeadList={'i1':6,'I2':6,'I5':4}.从头指针表的第一项HeadList[0]开始,循环构建FP-Tree直到到达链表末尾HeadList[-1]。根据头指针表构建FP-Tree时,代码实现是用一个for循环,循环次数就是头指针表的长度len(HeadList)。当循环结束时即表示已到达最后数据。算法描述时写的是判断当前数据是否是最后数据,但是代码实现其实没有判断,for循环结束就代表已经处理了所有数据。
合并所有的约束频繁项集即可得到数据库D的所有频繁项集。
通过实验比较FP-Growth算法和改进算法的性能。测试算法用python语言编写,Selenium+Python自动化测试环境,CPU:PIV 2.10GHZ,内存6G,实验数据选取的是阿里天池大数据比赛--新人实战赛(离线赛)的20000用户的完整行为数据以及百万级的商品信息。在不同支持度情况下对两种算法进行测试,测试两种算法的运行时间(单位s)。参见图2。
*运行时间表
支持度 40% 35% 30% 25% 20% 15% 10%
FP-Growth 115 133 176 256 577 1343 4326
改进后算法 78 99 126 189 441 1154 3633

Claims (2)

1.一种基于关联规则分析的挖掘算法,其特征在于包括如下步骤:
第一步:扫描数据集D,生成候选1-项集,按支持度降序排列,删除支持度小于minSupport的项,得到频繁L-1项集;
第二步:再次扫描数据集D,删除各事务中支持度小于minSupport的项,再将事务中剩余项按支持度降序排列,得到数据集D/
第三步:对第二步得到的数据集D/中每个事务抽取某项,并删除事务中支持度小于该项支持度的项,得到数据子集D//
第四步:对于第三步得到的数据子集D//的每一列分别按照L-1项集的次序排序,构建共享前缀数据集D///
第五步:对第四步得到的共享前缀数据集D///进行FP-Tree的创建;
第六步:对第五步的创建进行是否含有相同前缀进行判断,若判断为是,则对共享前缀计数加1,继续搜索下一前缀;若判断为否,则建立新节点,连接到FP-Tree;
第七步:对第六步处理完的数据判断是否为最后一个数据,若判断为是,结束;若判断为否,则返回第六步再次判断,直到结束。
2.根据权利要求1所述的基于关联规则分析的挖掘算法,其特征在于上述第三步根据频繁L-1项集的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到数据子集D//
CN201610953160.7A 2016-11-03 2016-11-03 一种基于关联规则分析的挖掘算法 Pending CN106570128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610953160.7A CN106570128A (zh) 2016-11-03 2016-11-03 一种基于关联规则分析的挖掘算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610953160.7A CN106570128A (zh) 2016-11-03 2016-11-03 一种基于关联规则分析的挖掘算法

Publications (1)

Publication Number Publication Date
CN106570128A true CN106570128A (zh) 2017-04-19

Family

ID=58535160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610953160.7A Pending CN106570128A (zh) 2016-11-03 2016-11-03 一种基于关联规则分析的挖掘算法

Country Status (1)

Country Link
CN (1) CN106570128A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN109582714A (zh) * 2018-12-03 2019-04-05 甘肃万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN109669967A (zh) * 2018-12-13 2019-04-23 深圳市信义科技有限公司 一种基于大数据技术的时空数据关联分析方法
CN109711912A (zh) * 2017-10-25 2019-05-03 贵州师范学院 一种融合FP-growth算法和Slope-One算法的混合推荐模型
CN109753519A (zh) * 2018-12-29 2019-05-14 成都信息工程大学 一种基于强弱相关规则挖掘的气象服务业务发现方法
CN110019383A (zh) * 2017-07-26 2019-07-16 香港理工大学深圳研究院 一种关联规则挖掘方法、装置及计算机可读存储介质
CN110309200A (zh) * 2019-06-26 2019-10-08 复旦大学 改进的产品质量异常数据FP-Growth关联分析方法
CN110336706A (zh) * 2019-07-23 2019-10-15 中国工商银行股份有限公司 网络报文传输处理方法和装置
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN110992109A (zh) * 2019-12-16 2020-04-10 重庆锐云科技有限公司 基于关联规则的房地产客户分析方法、装置及存储介质
CN111382154A (zh) * 2018-12-29 2020-07-07 赫狮网络科技(上海)有限公司 一种基于fp树及最大频繁项的广告匹配系统及其工作方法
CN111563782A (zh) * 2019-02-13 2020-08-21 北京京东尚科信息技术有限公司 一种待推荐产品的确定方法和终端
CN111626239A (zh) * 2020-05-29 2020-09-04 山东山科智能科技有限公司 基于行为特征的服刑人员危险倾向预测方法及系统
CN111782705A (zh) * 2020-05-28 2020-10-16 平安医疗健康管理股份有限公司 频繁数据的挖掘方法、装置、设备及计算机可读存储介质
CN112180752A (zh) * 2020-10-14 2021-01-05 四川长虹电器股份有限公司 自动生成智能家居场景联动设置的系统及方法
CN112204543A (zh) * 2018-05-25 2021-01-08 易享信息技术有限公司 用于分布式系统的频繁模式分析
CN112434104A (zh) * 2020-12-04 2021-03-02 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置
CN112528519A (zh) * 2020-05-14 2021-03-19 北京赛宝工业技术研究院有限公司 发动机质量预警服务的方法、系统、可读介质和电子设备
CN112968865A (zh) * 2021-01-26 2021-06-15 西安理工大学 一种基于关联规则挖掘的网络协议语法特征快速提取方法
CN113064934A (zh) * 2021-03-26 2021-07-02 安徽继远软件有限公司 电力传感网感知层故障关联规则挖掘方法及系统
CN113917905A (zh) * 2021-09-09 2022-01-11 华能汕头风力发电有限公司 一种升压站辅控系统的综合分析方法
CN116662673A (zh) * 2023-07-28 2023-08-29 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置
CN107123032B (zh) * 2017-05-02 2020-11-13 北京邮电大学 一种物品推荐方法及装置
CN110019383A (zh) * 2017-07-26 2019-07-16 香港理工大学深圳研究院 一种关联规则挖掘方法、装置及计算机可读存储介质
CN109711912A (zh) * 2017-10-25 2019-05-03 贵州师范学院 一种融合FP-growth算法和Slope-One算法的混合推荐模型
CN108415789B (zh) * 2018-01-24 2020-05-22 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN112204543A (zh) * 2018-05-25 2021-01-08 易享信息技术有限公司 用于分布式系统的频繁模式分析
CN109582714A (zh) * 2018-12-03 2019-04-05 甘肃万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN109582714B (zh) * 2018-12-03 2023-07-25 中电万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN109669967B (zh) * 2018-12-13 2022-04-15 深圳市信义科技有限公司 一种基于大数据技术的时空数据关联分析方法
CN109669967A (zh) * 2018-12-13 2019-04-23 深圳市信义科技有限公司 一种基于大数据技术的时空数据关联分析方法
CN111382154A (zh) * 2018-12-29 2020-07-07 赫狮网络科技(上海)有限公司 一种基于fp树及最大频繁项的广告匹配系统及其工作方法
CN111382154B (zh) * 2018-12-29 2023-07-14 赫狮网络科技(上海)有限公司 一种基于fp树及最大频繁项的广告匹配系统及其工作方法
CN109753519A (zh) * 2018-12-29 2019-05-14 成都信息工程大学 一种基于强弱相关规则挖掘的气象服务业务发现方法
CN111563782A (zh) * 2019-02-13 2020-08-21 北京京东尚科信息技术有限公司 一种待推荐产品的确定方法和终端
CN110309200A (zh) * 2019-06-26 2019-10-08 复旦大学 改进的产品质量异常数据FP-Growth关联分析方法
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN110336706A (zh) * 2019-07-23 2019-10-15 中国工商银行股份有限公司 网络报文传输处理方法和装置
CN110336706B (zh) * 2019-07-23 2022-09-13 中国工商银行股份有限公司 网络报文传输处理方法和装置
CN110992109A (zh) * 2019-12-16 2020-04-10 重庆锐云科技有限公司 基于关联规则的房地产客户分析方法、装置及存储介质
CN112528519A (zh) * 2020-05-14 2021-03-19 北京赛宝工业技术研究院有限公司 发动机质量预警服务的方法、系统、可读介质和电子设备
CN111782705A (zh) * 2020-05-28 2020-10-16 平安医疗健康管理股份有限公司 频繁数据的挖掘方法、装置、设备及计算机可读存储介质
CN111626239A (zh) * 2020-05-29 2020-09-04 山东山科智能科技有限公司 基于行为特征的服刑人员危险倾向预测方法及系统
CN112180752A (zh) * 2020-10-14 2021-01-05 四川长虹电器股份有限公司 自动生成智能家居场景联动设置的系统及方法
CN112434104A (zh) * 2020-12-04 2021-03-02 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置
CN112434104B (zh) * 2020-12-04 2023-10-20 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置
CN112968865A (zh) * 2021-01-26 2021-06-15 西安理工大学 一种基于关联规则挖掘的网络协议语法特征快速提取方法
CN113064934A (zh) * 2021-03-26 2021-07-02 安徽继远软件有限公司 电力传感网感知层故障关联规则挖掘方法及系统
CN113064934B (zh) * 2021-03-26 2023-12-08 安徽继远软件有限公司 电力传感网感知层故障关联规则挖掘方法及系统
CN113917905A (zh) * 2021-09-09 2022-01-11 华能汕头风力发电有限公司 一种升压站辅控系统的综合分析方法
CN116662673A (zh) * 2023-07-28 2023-08-29 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法
CN116662673B (zh) * 2023-07-28 2023-11-03 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法

Similar Documents

Publication Publication Date Title
CN106570128A (zh) 一种基于关联规则分析的挖掘算法
US7266548B2 (en) Automated taxonomy generation
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
US20120102057A1 (en) Entity name matching
CN105260387B (zh) 一种面向海量事务数据库的关联规则分析方法
Ding et al. A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search①
Chang et al. A novel incremental data mining algorithm based on fp-growth for big data
CN112464233B (zh) 一种云平台上基于rnn的恶意软件检测方法
CN113268667B (zh) 一种基于中文评论情感引导的序列推荐方法及系统
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN111562920A (zh) 小程序代码相似度确定方法、装置、服务器及存储介质
CN108170799A (zh) 一种海量数据的频繁序列挖掘方法
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
Olech et al. Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes
Shayegan et al. An approach to improve apriori algorithm for extraction of frequent itemsets
KR101070738B1 (ko) 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치
Silva et al. Pattern mining on stars with fp-growth
CN107609110B (zh) 基于分类树的最大多样频繁模式的挖掘方法及装置
Ansari et al. TFI-Apriori: Using new encoding to optimize the apriori algorithm
Lin et al. Efficient updating of sequential patterns with transaction insertion
Vijayalakshmi et al. An efficient count based transaction reduction approach for mining frequent patterns
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
Kanaan et al. kNN Arabic text categorization using IG feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419