CN106570128A - 一种基于关联规则分析的挖掘算法 - Google Patents
一种基于关联规则分析的挖掘算法 Download PDFInfo
- Publication number
- CN106570128A CN106570128A CN201610953160.7A CN201610953160A CN106570128A CN 106570128 A CN106570128 A CN 106570128A CN 201610953160 A CN201610953160 A CN 201610953160A CN 106570128 A CN106570128 A CN 106570128A
- Authority
- CN
- China
- Prior art keywords
- item
- support
- data set
- affairs
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于关联规则分析的挖掘算法,属于互联网个性化推荐领域。本发明首先将数据集进行频繁1‑项集的项总数扫描,在产生FP‑Tree之前,对不必要的冗余项先进行删除,减少挖掘量,然后对事务中每个项的提取得到各数据集子集,再使用FP‑Growth算法对各数据集子集进行频繁项挖掘,在挖掘过程中,只保留当前索要挖掘的有用的,必要的信息,省时又省空间。最后按L‑1的次序对事务数据集的每一列排序,在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀,根据共享前缀构建FP树。提高生成FP‑Tree的速度,进而提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。
Description
技术领域
本发明涉及互联网个性化推荐领域,尤其涉及一种基于关联规则分析的挖掘算法。
背景技术
关联规则最早是由R.Agrawal等人针对超市购物篮分析问题提出的,其目的是发现超市交易数据库中不同商品之间的关联关系。关联规则体现了顾客购物的行为模式,这可以为经营决策、市场预测和策划等方面提供依据。关联规则挖掘系统已经被成功应用于市场营销、银行业、零售业、保险业、电信业和公司经营管理等各个方面。关联规则还可以应用于文本挖掘、商品广告有机分析和网络故障分析等领域。
假设是项的集合。给定一个数据集D,其中每个事务t是I的非空子集,即每一个事务都与一个唯一的标识符Tid(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的(阈值是人为设定)。
关联规则挖掘分两步进行:1)生成频繁项集。这一阶段找出所有满足最小支持度的项集,找出的这些项集称为频繁项集。2)生成规则。在上一步产生的频繁项集的基础上生成满足最小支持度的规则,产生的规则称为强规则。
Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-Tree),同时依然保留其中的关联信息,随后再将FP-Tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-Tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
FP-Growth算法虽然只扫描数据库两次,而且不产生候选项集,但数据集规模过大时,构造FP-Tree的条件模式基和条件FP-Tree时,这种链表存储的数据结构,产生的分枝多且长,构造和遍历FP-Tree占用大量存储和计算资源,大大降低空间利用率,影响挖掘效率。
发明内容
本发明目的是解决现有技术的不足,提供一种首先对不必要的冗余项进行删除,减少挖掘量,提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。
一种基于关联规则分析的挖掘算法,包括如下步骤:
第一步:扫描数据集D,生成候选1-项集,按支持度降序排列,删除支持度小于minSupport的项,得到频繁L-1项集;
第二步:再次扫描数据集D,删除各事务中支持度小于minSupport的项,再将事务中剩余项按支持度降序排列,得到数据集D/;
第三步:对第二步得到的数据集D/中每个事务抽取某项,并删除事务中支持度小于该项支持度的项,得到数据子集D//;
第四步:对于第三步得到的数据子集D//的每一列分别按照L-1项集的次序排序,构建共享前缀数据集D///;
第五步:对第四步得到的共享前缀数据集D///进行FP-Tree的创建;
第六步:对第五步的创建进行是否含有相同前缀进行判断,若判断为是,则对共享前缀计数加1,继续搜索下一前缀;若判断为否,则建立新节点,连接到FP-Tree;
第七步:对第六步处理完的数据判断是否为最后一个数据,若判断为是,结束;若判断为否,则返回第六步再次判断,直到结束。
上述第三步根据频繁L-1项集的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到数据子集D//。
本发明的优点:本发明的改进算法,继承了FP-Growth算法不产生候选项集的优点,首先将数据集进行频繁1-项集的项总数扫描,在产生FP-Tree之前,对不必要的冗余项先进行删除,减少挖掘量,然后对事务中每个项的提取得到各数据集子集,再使用FP-Growth算法对各数据集子集进行频繁项挖掘,在挖掘过程中,只保留当前索要挖掘的有用的,必要的信息,省时又省空间。最后按L-1的次序对事务数据集的每一列排序,在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀,根据共享前缀构建FP树。提高生成FP-Tree的速度,进而提高生成频繁项集的速度,提高挖掘数据集中关联规则的速度。
附图说明
图1是本发明共享前缀数据集D///的过程图。
图2是现有技术与本发明的运行时间表生成对比分析图。
具体实施方式
下面详细描述本发明的实施例,参考附图描述实现实施例的关联规则的挖掘算法。
数据集D中有10个事务,最小支持度=4,最小支持度阈值minSupport=40%。
*每一个事务都与一个唯一的标识符Tid(Transaction ID)对应
Tid | Tid所包含的项 |
1 | I1,I2,I3,I5,I6 |
2 | I1,I2,I3, |
3 | I1,I2,I4,I5 |
4 | I1,I2,I5,I6 |
5 | I4,I5 |
6 | I1,I2,I4 |
7 | I1,I4,I5,I6 |
8 | I2,I5,I6 |
9 | I5,I6 |
10 | I1,I2,I3 |
首先对数据集进行第一次扫描,找出候选1-项集及其支持度计数。删除小于minSupport=40%的项,得到频繁1-项集L-1。
*1-项集表
项集 | 支持度 |
I1 | 7 |
I2 | 7 |
I3 | 3 |
I4 | 4 |
I5 | 7 |
I6 | 5 |
*频繁L-1项集
项集 | 支持度 |
I1 | 7 |
I2 | 7 |
I5 | 7 |
I6 | 5 |
I4 | 4 |
再次扫描数据集D,将支持度小于minSupport的项从各事务中删除,并按照各项的支持度计数递减顺序将各事务重新排列,得到数据集D/。
*数据集D/
根据L-1中的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到新的数据集子集D//。以项I1为例,项I1的数据集子集由包含项I1的事务{T1,T2,T3,T4,T6,T9,T10}组成,但由于事务T1中最后一项I6其支持度小于项I1的支持度,因此删除I6项;同理删除事务T3中的I4项;删除T4中的I6项;删除T6中的I4项;删除T9中的I6项。按照相同方法,对L-1中每项的数据库子集进行提取,结果如下表所示。
*数据集子集D//
项I1子集 | 项I2子集 | 项I4子集 | 项I5子集 | 项I6子集 |
I1,I2,I5 | I1,I2,I5 | I1,I2,I5,I4 | I1,I2,I5 | I1,I2,I5,I6 |
I1,I2 | I1,I2 | I5,I4 | I1,I2,I5 | I1,I2,I5,I6 |
I1,I2,I5 | I1,I2,I5 | I1,I2,I4 | I1,I2,I5 | I1,I5,I6 |
I1,I2,I5 | I1,I2,I5 | I1,I5,I4 | I5 | I2,I5,I6 |
I1,I2 | I1,I2 | I1,I5 | I5,I6 | |
I5 | I2,I5 | I2,I5 | ||
I1,I2 | I1,I2 | I5 |
按照L-1的次序对事务数据集D″的整个数据集排序,即首先对事务集的第一列按照L-1的次序排序,然后在此基础上对事务集的第二列按照L-1的次序排序,依次类推到数据集的最后一列得到共享前缀数据集D///(如图1所示)。
*共享前缀数据集D///
项I1子集 | 项I2子集 | 项I4子集 | 项I5子集 | 项I6子集 |
I1,I2, | I1,I2 | I1,I2,I5,I4 | I1,I2,I5 | I1,I2,I5,I6 |
I1,I2 | I1,I2 | I1,I2,I4 | I1,I2,I5 | I1,I2,I5,I6 |
I1,I2, | I1,I2 | I1,I5,I4 | I1,I2,I5 | I2,I5,I6 |
I1,I2,I5 | I1,I2,I5 | I5,I4 | I1,I5 | I1,I5,I6 |
I1,I2,I5 | I1,I2,I5 | I2,I5 | I5,I6 | |
I1,I2,I5 | I1,I2,I5 | I5 | ||
I5 | I2,I5 | I5 |
根据共享前缀数据集D///生成FP-Tree,构造FP-Tree的条件模式基和条件FP-Tree,导出其频繁项集。项I1所提取的数据集子集挖掘如下表所示:
得到的共享前缀数据集D///是存储在一个头指针表中(见上表),头指针表是用字典存储的。HeadList={'i1':6,'I2':6,'I5':4}.从头指针表的第一项HeadList[0]开始,循环构建FP-Tree直到到达链表末尾HeadList[-1]。根据头指针表构建FP-Tree时,代码实现是用一个for循环,循环次数就是头指针表的长度len(HeadList)。当循环结束时即表示已到达最后数据。算法描述时写的是判断当前数据是否是最后数据,但是代码实现其实没有判断,for循环结束就代表已经处理了所有数据。
合并所有的约束频繁项集即可得到数据库D的所有频繁项集。
通过实验比较FP-Growth算法和改进算法的性能。测试算法用python语言编写,Selenium+Python自动化测试环境,CPU:PIV 2.10GHZ,内存6G,实验数据选取的是阿里天池大数据比赛--新人实战赛(离线赛)的20000用户的完整行为数据以及百万级的商品信息。在不同支持度情况下对两种算法进行测试,测试两种算法的运行时间(单位s)。参见图2。
*运行时间表
支持度 | 40% | 35% | 30% | 25% | 20% | 15% | 10% |
FP-Growth | 115 | 133 | 176 | 256 | 577 | 1343 | 4326 |
改进后算法 | 78 | 99 | 126 | 189 | 441 | 1154 | 3633 |
Claims (2)
1.一种基于关联规则分析的挖掘算法,其特征在于包括如下步骤:
第一步:扫描数据集D,生成候选1-项集,按支持度降序排列,删除支持度小于minSupport的项,得到频繁L-1项集;
第二步:再次扫描数据集D,删除各事务中支持度小于minSupport的项,再将事务中剩余项按支持度降序排列,得到数据集D/;
第三步:对第二步得到的数据集D/中每个事务抽取某项,并删除事务中支持度小于该项支持度的项,得到数据子集D//;
第四步:对于第三步得到的数据子集D//的每一列分别按照L-1项集的次序排序,构建共享前缀数据集D///;
第五步:对第四步得到的共享前缀数据集D///进行FP-Tree的创建;
第六步:对第五步的创建进行是否含有相同前缀进行判断,若判断为是,则对共享前缀计数加1,继续搜索下一前缀;若判断为否,则建立新节点,连接到FP-Tree;
第七步:对第六步处理完的数据判断是否为最后一个数据,若判断为是,结束;若判断为否,则返回第六步再次判断,直到结束。
2.根据权利要求1所述的基于关联规则分析的挖掘算法,其特征在于上述第三步根据频繁L-1项集的各项的支持度由小到大,提取所有含该项的事务,并且删除事务中支持度小于该项支持度的项,得到数据子集D//。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610953160.7A CN106570128A (zh) | 2016-11-03 | 2016-11-03 | 一种基于关联规则分析的挖掘算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610953160.7A CN106570128A (zh) | 2016-11-03 | 2016-11-03 | 一种基于关联规则分析的挖掘算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106570128A true CN106570128A (zh) | 2017-04-19 |
Family
ID=58535160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610953160.7A Pending CN106570128A (zh) | 2016-11-03 | 2016-11-03 | 一种基于关联规则分析的挖掘算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570128A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123032A (zh) * | 2017-05-02 | 2017-09-01 | 北京邮电大学 | 一种物品推荐方法及装置 |
CN108415789A (zh) * | 2018-01-24 | 2018-08-17 | 西安交通大学 | 面向大规模混合异构存储系统的节点故障预测系统及方法 |
CN109582714A (zh) * | 2018-12-03 | 2019-04-05 | 甘肃万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN109669967A (zh) * | 2018-12-13 | 2019-04-23 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN109711912A (zh) * | 2017-10-25 | 2019-05-03 | 贵州师范学院 | 一种融合FP-growth算法和Slope-One算法的混合推荐模型 |
CN109753519A (zh) * | 2018-12-29 | 2019-05-14 | 成都信息工程大学 | 一种基于强弱相关规则挖掘的气象服务业务发现方法 |
CN110019383A (zh) * | 2017-07-26 | 2019-07-16 | 香港理工大学深圳研究院 | 一种关联规则挖掘方法、装置及计算机可读存储介质 |
CN110309200A (zh) * | 2019-06-26 | 2019-10-08 | 复旦大学 | 改进的产品质量异常数据FP-Growth关联分析方法 |
CN110336706A (zh) * | 2019-07-23 | 2019-10-15 | 中国工商银行股份有限公司 | 网络报文传输处理方法和装置 |
CN110489453A (zh) * | 2019-07-02 | 2019-11-22 | 广东工业大学 | 基于大数据日志分析的用户游戏实时推荐方法及系统 |
CN110992109A (zh) * | 2019-12-16 | 2020-04-10 | 重庆锐云科技有限公司 | 基于关联规则的房地产客户分析方法、装置及存储介质 |
CN111382154A (zh) * | 2018-12-29 | 2020-07-07 | 赫狮网络科技(上海)有限公司 | 一种基于fp树及最大频繁项的广告匹配系统及其工作方法 |
CN111563782A (zh) * | 2019-02-13 | 2020-08-21 | 北京京东尚科信息技术有限公司 | 一种待推荐产品的确定方法和终端 |
CN111626239A (zh) * | 2020-05-29 | 2020-09-04 | 山东山科智能科技有限公司 | 基于行为特征的服刑人员危险倾向预测方法及系统 |
CN111782705A (zh) * | 2020-05-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
CN112180752A (zh) * | 2020-10-14 | 2021-01-05 | 四川长虹电器股份有限公司 | 自动生成智能家居场景联动设置的系统及方法 |
CN112204543A (zh) * | 2018-05-25 | 2021-01-08 | 易享信息技术有限公司 | 用于分布式系统的频繁模式分析 |
CN112434104A (zh) * | 2020-12-04 | 2021-03-02 | 东北大学 | 面向关联规则挖掘的冗余规则筛除方法及装置 |
CN112528519A (zh) * | 2020-05-14 | 2021-03-19 | 北京赛宝工业技术研究院有限公司 | 发动机质量预警服务的方法、系统、可读介质和电子设备 |
CN112968865A (zh) * | 2021-01-26 | 2021-06-15 | 西安理工大学 | 一种基于关联规则挖掘的网络协议语法特征快速提取方法 |
CN113064934A (zh) * | 2021-03-26 | 2021-07-02 | 安徽继远软件有限公司 | 电力传感网感知层故障关联规则挖掘方法及系统 |
CN113917905A (zh) * | 2021-09-09 | 2022-01-11 | 华能汕头风力发电有限公司 | 一种升压站辅控系统的综合分析方法 |
CN116662673A (zh) * | 2023-07-28 | 2023-08-29 | 西安银信博锐信息科技有限公司 | 基于数据监控的用户偏好数据分析方法 |
-
2016
- 2016-11-03 CN CN201610953160.7A patent/CN106570128A/zh active Pending
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123032A (zh) * | 2017-05-02 | 2017-09-01 | 北京邮电大学 | 一种物品推荐方法及装置 |
CN107123032B (zh) * | 2017-05-02 | 2020-11-13 | 北京邮电大学 | 一种物品推荐方法及装置 |
CN110019383A (zh) * | 2017-07-26 | 2019-07-16 | 香港理工大学深圳研究院 | 一种关联规则挖掘方法、装置及计算机可读存储介质 |
CN109711912A (zh) * | 2017-10-25 | 2019-05-03 | 贵州师范学院 | 一种融合FP-growth算法和Slope-One算法的混合推荐模型 |
CN108415789B (zh) * | 2018-01-24 | 2020-05-22 | 西安交通大学 | 面向大规模混合异构存储系统的节点故障预测系统及方法 |
CN108415789A (zh) * | 2018-01-24 | 2018-08-17 | 西安交通大学 | 面向大规模混合异构存储系统的节点故障预测系统及方法 |
CN112204543A (zh) * | 2018-05-25 | 2021-01-08 | 易享信息技术有限公司 | 用于分布式系统的频繁模式分析 |
CN109582714A (zh) * | 2018-12-03 | 2019-04-05 | 甘肃万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN109582714B (zh) * | 2018-12-03 | 2023-07-25 | 中电万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN109669967B (zh) * | 2018-12-13 | 2022-04-15 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN109669967A (zh) * | 2018-12-13 | 2019-04-23 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN111382154A (zh) * | 2018-12-29 | 2020-07-07 | 赫狮网络科技(上海)有限公司 | 一种基于fp树及最大频繁项的广告匹配系统及其工作方法 |
CN111382154B (zh) * | 2018-12-29 | 2023-07-14 | 赫狮网络科技(上海)有限公司 | 一种基于fp树及最大频繁项的广告匹配系统及其工作方法 |
CN109753519A (zh) * | 2018-12-29 | 2019-05-14 | 成都信息工程大学 | 一种基于强弱相关规则挖掘的气象服务业务发现方法 |
CN111563782A (zh) * | 2019-02-13 | 2020-08-21 | 北京京东尚科信息技术有限公司 | 一种待推荐产品的确定方法和终端 |
CN110309200A (zh) * | 2019-06-26 | 2019-10-08 | 复旦大学 | 改进的产品质量异常数据FP-Growth关联分析方法 |
CN110489453A (zh) * | 2019-07-02 | 2019-11-22 | 广东工业大学 | 基于大数据日志分析的用户游戏实时推荐方法及系统 |
CN110336706A (zh) * | 2019-07-23 | 2019-10-15 | 中国工商银行股份有限公司 | 网络报文传输处理方法和装置 |
CN110336706B (zh) * | 2019-07-23 | 2022-09-13 | 中国工商银行股份有限公司 | 网络报文传输处理方法和装置 |
CN110992109A (zh) * | 2019-12-16 | 2020-04-10 | 重庆锐云科技有限公司 | 基于关联规则的房地产客户分析方法、装置及存储介质 |
CN112528519A (zh) * | 2020-05-14 | 2021-03-19 | 北京赛宝工业技术研究院有限公司 | 发动机质量预警服务的方法、系统、可读介质和电子设备 |
CN111782705A (zh) * | 2020-05-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
CN111626239A (zh) * | 2020-05-29 | 2020-09-04 | 山东山科智能科技有限公司 | 基于行为特征的服刑人员危险倾向预测方法及系统 |
CN112180752A (zh) * | 2020-10-14 | 2021-01-05 | 四川长虹电器股份有限公司 | 自动生成智能家居场景联动设置的系统及方法 |
CN112434104A (zh) * | 2020-12-04 | 2021-03-02 | 东北大学 | 面向关联规则挖掘的冗余规则筛除方法及装置 |
CN112434104B (zh) * | 2020-12-04 | 2023-10-20 | 东北大学 | 面向关联规则挖掘的冗余规则筛除方法及装置 |
CN112968865A (zh) * | 2021-01-26 | 2021-06-15 | 西安理工大学 | 一种基于关联规则挖掘的网络协议语法特征快速提取方法 |
CN113064934A (zh) * | 2021-03-26 | 2021-07-02 | 安徽继远软件有限公司 | 电力传感网感知层故障关联规则挖掘方法及系统 |
CN113064934B (zh) * | 2021-03-26 | 2023-12-08 | 安徽继远软件有限公司 | 电力传感网感知层故障关联规则挖掘方法及系统 |
CN113917905A (zh) * | 2021-09-09 | 2022-01-11 | 华能汕头风力发电有限公司 | 一种升压站辅控系统的综合分析方法 |
CN116662673A (zh) * | 2023-07-28 | 2023-08-29 | 西安银信博锐信息科技有限公司 | 基于数据监控的用户偏好数据分析方法 |
CN116662673B (zh) * | 2023-07-28 | 2023-11-03 | 西安银信博锐信息科技有限公司 | 基于数据监控的用户偏好数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570128A (zh) | 一种基于关联规则分析的挖掘算法 | |
US7266548B2 (en) | Automated taxonomy generation | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN109325032B (zh) | 一种索引数据存储及检索方法、装置及存储介质 | |
US20120102057A1 (en) | Entity name matching | |
CN105260387B (zh) | 一种面向海量事务数据库的关联规则分析方法 | |
Ding et al. | A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search① | |
Chang et al. | A novel incremental data mining algorithm based on fp-growth for big data | |
CN112464233B (zh) | 一种云平台上基于rnn的恶意软件检测方法 | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN111562920A (zh) | 小程序代码相似度确定方法、装置、服务器及存储介质 | |
CN108170799A (zh) | 一种海量数据的频繁序列挖掘方法 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
Olech et al. | Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes | |
Shayegan et al. | An approach to improve apriori algorithm for extraction of frequent itemsets | |
KR101070738B1 (ko) | 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치 | |
Silva et al. | Pattern mining on stars with fp-growth | |
CN107609110B (zh) | 基于分类树的最大多样频繁模式的挖掘方法及装置 | |
Ansari et al. | TFI-Apriori: Using new encoding to optimize the apriori algorithm | |
Lin et al. | Efficient updating of sequential patterns with transaction insertion | |
Vijayalakshmi et al. | An efficient count based transaction reduction approach for mining frequent patterns | |
KR101085066B1 (ko) | 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
Kanaan et al. | kNN Arabic text categorization using IG feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170419 |