CN104899408A - 有趣项集获取方法和装置 - Google Patents
有趣项集获取方法和装置 Download PDFInfo
- Publication number
- CN104899408A CN104899408A CN201410078745.XA CN201410078745A CN104899408A CN 104899408 A CN104899408 A CN 104899408A CN 201410078745 A CN201410078745 A CN 201410078745A CN 104899408 A CN104899408 A CN 104899408A
- Authority
- CN
- China
- Prior art keywords
- candidate
- support
- project
- cosine similarity
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种有趣项集获取方法和装置,属于数据挖掘领域。该方法包括:扫描事务集,得到事务集中的每个项目,并计算每个项目的支持度,得到多个候选项集;对于每个候选项集,计算候选项集的支持度和余弦相似度;判断余弦相似度是否大于第一预设阈值,并判断支持度是否大于第二预设阈值;当余弦相似度大于第一预设阈值,且支持度大于第二预设阈值时,将候选项集作为有趣项集。本发明通过定义余弦相似度,在获取有趣项集时,计算候选项集的支持度和余弦相似度,并进行过滤,应用余弦相似度这一客观兴趣度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,无需计算出所有候选项集的支持度和置信度,降低了计算量,提高了挖掘效率。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及一种有趣项集获取方法和装置。
背景技术
关联规则挖掘是数据挖掘技术中研究的热点之一。通过对大型事务集进行关联规则挖掘,可以挖掘出隐藏在该大型事务集中不同项之间的关联规则,这些关联规则可以应用于电子商务推荐、购物篮分析等多种领域。
关联规则挖掘算法中一般使用“支持度-置信度”框架,挖掘出支持度不小于支持度阈值的候选项集,再基于这些候选项集,挖掘出置信度不小于置信度阈值的关联规则。但是,这种方法容易产生没有实际应用价值的“干扰性”的关联规则,具有一定的局限性。例如,对于“茶”和“咖啡”两个项来说,通过对事务集进行挖掘后,得到关联规则“不买茶,则不买咖啡”,该否定式的关联规则没有实际应用价值。
为了弥补“支持度-置信度”框架的不足,引入了兴趣度,以修剪具有“干扰性”的关联规则。该兴趣度用于在挖掘出关联规则之后,对关联规则进行评价和过滤。但是,对于被过滤掉的项集来说,在挖掘关联规则的过程中仍然需要计算该项集的支持度和置信度,增加了冗余的计算量,极大地降低了效率。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种有趣项集获取方法和装置。所述技术方案如下:
第一方面,提供了一种有趣项集获取方法,所述方法包括:
扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
基于每个项目的支持度,得到多个候选项集;
对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。
第二方面,提供了一种有趣项集获取装置,所述装置包括:
扫描模块,用于扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
候选项集获取模块,用于基于每个项目的支持度,得到多个候选项集;
计算模块,用于对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
判断模块,用于判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
有趣项集获取模块,用于当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法和装置,通过定义项集的余弦相似度,在获取有趣项集的过程中,计算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行过滤。与使用“支持度-置信度”框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余弦相似度这一客观兴趣度和支持度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,以修剪“干扰性”的候选项集,无需计算出所有候选项集的支持度和置信度后再进行过滤,降低了计算量,提高了挖掘效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种有趣项集获取方法的流程图;
图2是本发明实施例提供的一种有趣项集获取方法的流程图;
图3是本发明实施例提供的项集枚举树形图;
图4是本发明实施例提供的一种有趣项集获取装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种有趣项集获取方法的流程图,参见图1,所述方法包括:
101、扫描待分析的事务集,得到该事务集中的每个项目,并计算每个项目的支持度。
102、基于每个项目的支持度,得到多个候选项集。
103、对于每个候选项集,计算该候选项集的支持度和余弦相似度。
104、判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值。
105、当该候选项集的余弦相似度大于该第一预设阈值,且该候选项集的支持度大于该第二预设阈值时,将该候选项集作为有趣项集。
本发明实施例提供的方法,通过定义项集的余弦相似度,在获取有趣项集的过程中,计算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行过滤。与使用“支持度-置信度”框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余弦相似度这一客观兴趣度和支持度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,以修剪“干扰性”的候选项集,无需计算出所有候选项集的支持度和置信度后再进行过滤,降低了计算量,提高了挖掘效率。
可选地,计算该候选项集的支持度和余弦相似度包括:
获取该事务集包含的事务数目,并获取该候选项集中的每个项目在该事务集中同时出现的次数;
根据该事务数目以及该候选项集中每个项目在该事务集中同时出现的次数,计算该候选项集的支持度;
根据该候选项集的支持度以及该候选项集中每个项目的支持度,应用以下公式计算该候选项集的余弦相似度:
其中,X为该候选项集,X={i1,i2,...,iK},K为该候选项集的宽度,K≥2,k=1,2,...K,cos(X)为该候选项集的余弦相似度,supp(X)为该候选项集的支持度,supp({ik})为该候选项集中项目ik的支持度。
可选地,基于每个项目的支持度,得到多个候选项集包括:
将每个项目所构成的项集分别作为候选项集。
可选地,该方法还包括:
当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值时,将该第一候选项集的直接超集作为该第二候选项集,继续执行计算该第二候选项集的支持度和余弦相似度的步骤;
其中,在该第一候选项集的直接超集与该第一候选项集的差集中,每个项目的支持度均大于该第一候选项集中每个项目的支持度。
可选地,将该第一候选项集的直接超集作为该第二候选项集包括:
从不属于该第一候选项集的项目中选取第一项目,该第一项目的支持度大于该第一候选项集中每个项目的支持度;
将该第一候选项集与该第一项目合并后的项集作为该第二候选项集。
可选地,判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值之后,该方法还包括:
当该候选项集的余弦相似度不大于该第一预设阈值时,过滤该候选项集的直接超集和该候选项集;
当该候选项集的支持度不大于该第二预设阈值时,过滤该候选项集的超集和该候选项集;
其中,在该候选项集的直接超集与该候选项集的差集中,每个项目的支持度均大于该候选项集中每个项目的支持度。
可选地,余弦相似度具有如下的条件反单调性:
对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种有趣项集获取方法的流程图,参见图2,所述方法包括:
201、扫描待分析的事务集,得到该事务集中的每个项目。
其中,该事务集包括多个事务,每个事务包括至少一个项目,则一个事务可以看作一个项集。例如,该事务集可以根据用户选择物品的行为生成,一个用户一次可以选择多种物品,用户的一次选择行为构成一个事务,此次用户所选择的至少一种物品即为该事务包括的至少一个项目。
该事务集用于挖掘隐藏在该至少一个项目中的关联规则,通过对该事务集进行分析,可以确定每个项目的出现频率、两个项目同时出现的频率、一个项目出现而另一个项目不出现的频率、在一个项目出现的条件下另一个项目出现的频率等等,根据获取到的各种频率,能够挖掘出隐藏在该至少一个项目中的关联规则。在本发明实施例中,可以选取多个目标用户作为样本,对于每个目标用户,在该目标用户执行操作行为的过程中,统计该目标用户本次操作行为的至少一个操作对象,该目标用户本次的操作行为构成一个事务,该至少一个操作对象即为该事务中的至少一个项目,该事务包括该至少一个项目,则可以认为在该事务中该至少一个项目同时出现。通过统计多个目标用户执行的操作行为,得到多个事务,该多个事务构成该事务集。
仍以用户选择物品的行为为例,对于每个目标用户,在目标用户选择物品完成时,统计该目标用户本次选择的至少一个物品,构成一个事务,该事务包括该至少一个物品。通过不断地对多个目标用户的选择物品的行为进行统计,可以得到多个事务,将该多个事务构成该事务集,通过对该事务集进行分析,可以挖掘出隐藏在该至少一个物品中的关联规则,确定具有关联关系的物品。那么,物品提供商即可将具有关联关系的物品放置在同一位置或者相邻位置,以主动为用户推荐具有关联关系的物品,节省用户选择物品的时间。
为了区分不同的事务,为每个事务设置一个事务标识TID,当两个事务的TID相同时,表明两个事务相同。例如,该事务集可以如下表1所示。
表1
TID | 事务 | 项集 |
100 | 134 | {{1},{3},{4}} |
200 | 235 | {{2},{3},{5}} |
300 | 1235 | {{1},{2},{3},{5}} |
400 | 25 | {{2},{5}} |
该事务集中包括5个事务“134”、“235”、“1235”、“25”,扫描该事务集,可以确定该事务集中的项目为“1”、“2”、“3”、“4”、“5”。
202、获取该事务集包含的事务数目以及每个项目在该事务集中出现的次数。
具体地,计算该事务集中每个事务的出现次数,计算每个事务的出现次数之和,作为该事务集包含的事务数目。对于每个项目,获取包括该项目的每个事务的出现次数,将包括该项目的每个事务的出现次数之和作为每个项目在该事务集中出现的次数。
参见表1,假设在该事务集中这4个事务的出现次数均为1,则该事务集包含的事务数目为4,对于每个项目,包括该项目的每个事务标识TID以及该项目在该事务集中出现的次数如下表2所示。
表2
203、将每个项目所构成的项集分别作为第一候选项集,对于每个第一候选项集,执行步骤204。
参见表1,5个项目“1”、“2”、“3”、“4”、“5”所构成的项集分别为{1}、{2}、{3}、{4}、{5}。
204、根据该事务数目和每个项目在该事务集中出现的次数,计算支持度和余弦相似度。
在本发明实施例中,将每个项目所构成的项集分别作为第一候选项集,从该第一候选项集中获取有趣项集。实际上,还可以根据该第一候选项集进行迭代,每次迭代过程中,将当前候选项集的直接超集或者超集作为下一次迭代时的候选项集,通过迭代的方式从当前候选项集中获取多个有趣项集。而在每次迭代过程中,需要计算当前候选项集的支持度和余弦相似度,具体包括以下步骤(1)和(2):
(1)获取该事务集包含的事务数目,并获取该候选项集中的每个项目在该事务集中同时出现的次数,根据该事务数目以及该候选项集中每个项目在该事务集中同时出现的次数,计算该候选项集的支持度。
本发明实施例以将每个项目所构成的项集作为第一候选项集为例,则根据该事务数目以及每个项目在该事务集中出现的次数,计算每个项目的支持度,即为该第一候选项集的支持度。具体地,计算每个项目在该事务集中出现的次数与该事务数目之间的商,作为每个项目所构成的第一候选项集的支持度。参见表1和表2,每个项目的支持度如下表3所示。
表3
项目 | 第一候选项集 | 在该事务集中出现的次数 | 支持度 |
1 | {1} | 2 | 0.5 |
2 | {2} | 3 | 0.75 |
3 | {3} | 3 | 0.75 |
4 | {4} | 1 | 0.25 |
5 | {5} | 3 | 0.75 |
而对于在第一候选项集之后得到的、包括至少两个项目的候选项集来说,当任一事务中包括该候选项集中的所有项目时,确定该候选项集中每个项目在该事务集中同时出现一次,则对于每个事务,判断该事务是否包括该候选项集中的所有项目,如果是,将该事务作为该候选项集对应的事务,以统计该候选项集对应的事务的出现次数之和,作为该候选项集中每个项目在该事务集中同时出现的次数,并计算该候选项集中每个项目在该事务集中同时出现的次数与该事务数目之间的商,作为该候选项集的支持度。
参见表1和表3,假设基于该第一候选项集得到{1,2}、{1,3}、{1,4}、{1,5}四个第二候选项集,则四个第二候选项集的支持度如下表4所示。
表4
进一步地,本发明实施例以将该候选项集中每个项目在该事务集中同时出现的次数与该事务数目的比例作为该候选项集的支持度为例,也即是计算该候选项集的“相对支持度”,而实际上,还可以将该候选项集中每个项目在该事务集中同时出现的次数直接作为该候选项集的支持度,也即是计算该候选项集的“绝对支持度”,本发明实施例对此不做限定。
(2)根据该候选项集的支持度以及该候选项集中每个项目的支持度,计算该候选项集的余弦相似度。
可选地,根据该候选项集的支持度以及该候选项集中每个项目的支持度,应用以下公式计算该候选项集的余弦相似度:
其中,X为该候选项集,X={i1,i2,...,iK},K为该候选项集的宽度,K≥2,k=1,2,...K,cos(X)为该候选项集的余弦相似度,supp(X)为该候选项集的支持度,supp({ik})为该候选项集中项目ik的支持度。
对于一个项集X={i1,i2,...,ik},X关于项ik的条件支持度为:
该条件支持度与条件概率的定义类似。结合该条件支持度和该余弦相似度,可以得出:表明项集X的余弦相似度可以看作项集X在项集X的每个项目的条件下的支持度的几何平均值,因此,在关联规则挖掘过程中,余弦相似度可以用于衡量项集X的“紧密程度”。
参见表3和表4,以X={{1},{2}}为例,
应用该余弦相似度的公式可以得出上述第一候选项集和第二候选项集的余弦相似度,如下表5所示。
表5
205、判断该第一候选项集的余弦相似度是否大于第一预设阈值,并判断该第一候选项集的支持度是否大于第二预设阈值,执行步骤206、208、209或210。
其中,该第一预设阈值和该第二预设阈值可以预先根据该事务集的事务数目设定,还可以在更新该事务集时对该第一预设阈值和该第二预设阈值进行调整,本发明实施例对此不做限定。
在本发明实施例中,当该第一候选项集的余弦相似度大于该第一预设阈值时,可以认为该第一候选项集“紧密”,当该第一候选项集的支持度大于该第二预设阈值时,可以认为该第一候选项集“频繁”。通过应用该第一预设阈值和该第二预设阈值,对该第一候选项集进行过滤,可以获取到“频繁”且“紧密”的项集。在本发明实施例中,可以认为“频繁”且“紧密”的项集的每个项目之间具有关联关系,且该关联关系具有实际的应用价值。
206、当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值时,将该第一候选项集作为有趣项集。
在本发明实施例中,以D指代该待分析的事务集,以min_cos指代该第一预设阈值,以min_supp指代该第二预设阈值,则D中关于min_cos和min_supp的有趣模式集合被定义为:
F(D,min_supp,min_cos)={X∈I/supp(X)≥min_supp,cos(X)≥min_cos}。
相应的,集合F(D,min_supp,min_cos)中的元素就是有趣项集。基于有趣项集的定义,当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值时,将该第一候选项集作为有趣项集。
参见表3和表5,当该第一预设阈值为0.7,该第二预设阈值为0.4时,可以确定第一候选项集{1}、{2}、{3}、{5}的余弦相似度大于该0.7且支持度大于0.4,将第一候选项集{1}、{2}、{3}、{5}作为有趣项集。而第一候选项集{4}的支持度小于0.4,则过滤该第一候选项集{4}。
207、将该第一候选项集的直接超集作为该第二候选项集,对于每个第二候选项集,执行步骤204。
在本发明实施例中,支持度具有如下的反单调性:对于任意的项集X和Y,满足则supp(X)≥supp(Y);其中,supp(X)为项集X的支持度,supp(Y)为项集Y的支持度,在此不再证明。
余弦相似度具有如下的条件反单调性:
对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
以下将证明余弦相似度具有条件反单调性。
假设项集X={i1,i2,...,iK},该项集X的宽度为K,K≥1,该项集的超集Y=X∪{iK+1,iK+2,...,iK+L},项集Y的宽度为K+L(L≥0),且均有supp({ik+l})≥supp({ik}),则当L=0时,X=Y,则cos(X)=cos(Y)。当L≠0时,由于支持度具有反单调性,则supp({i1,i2,...,iK})≥supp({i1,i2,...,iK+L}),则
因为,均有supp({ik+l})≥supp({ik}),所以,supp({ik})(1≤k≤K+L)的几何平均值一定不小于supp({ik})(1≤k≤K)的几何平均值,即 则
由于余弦相似度具有条件反单调性,当按照支持度从小到大的顺序遍历项集时,余弦相似度可以作为中评价度量。
基于支持度的反单调性和余弦相似度的条件反单调性,将该第一候选项集的直接超集作为该第二候选项集,这是由于:
在该第一候选项集的直接超集与该第一候选项集的差集中,每个项目的支持度均大于该第一候选项集中每个项目的支持度,则基于支持度的反单调性和余弦相似度的条件反单调性,可以得出,该第一候选项集的支持度大于该第一候选项集的直接超集的支持度,且该第一候选项集的余弦相似度大于该第一候选项集的直接超集的余弦相似度。由于该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值,则该第一候选项集的直接超集的余弦相似度可能大于该第一预设阈值,该第一候选项集的直接超集的支持度可能大于该第二预设阈值,因此,将该第一候选项集的直接超集作为第二候选项集,以便后续通过判断该第二候选项集的余弦相似度是否大于第一预设阈值,并判断该第二候选项集的支持度是否大于第二预设阈值,从多个第二候选项集中获取有趣项集。
该步骤207具体可以包括:从不属于该第一候选项集的项目中选取第一项目,该第一项目的支持度大于该第一候选项集中每个项目的支持度;将该第一候选项集与该第一项目合并后的项集作为该第二候选项集。参见表3,项集{2}、{3}、{5}的支持度均大于项集{1}的支持度,则对于第一候选项集{1}来说,项集{1,2}、{1,3}、{1,5}均为该第一候选项集{1}的直接超集。
优选地,按照支持度从小到大的顺序,对每个项目进行排序,对于每个项目,将该项目与排在该项目之后的每个项目分别合并,得到多个第二候选项集,也即是,将支持度大于该项目的支持度的每个项目分别与该项目合并,得到多个第二候选项集。
同理地,对于包括至少两个项目的候选项集来说,获取该候选项集中支持度最大的项目,将排在该支持度最大的项目之后的每个项目与该候选项集合并,得到该候选项集的多个直接超集。参见表3,项集{2}的支持度大于项集{1}和{4}的支持度,则项集{1,2,4}为项集{1,4}的直接超集。
208、当该第一候选项集的余弦相似度不大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值时,过滤该第一候选项集的直接超集和该第一候选项集。
对于该第一候选项集来说,由于该第一候选项集的余弦相似度不大于该第一预设阈值,则过滤该第一候选项集。
而对于该第一候选项集的直接超集来说,基于余弦相似度的条件反单调性,当该第一候选项集的余弦相似度不大于该第一预设阈值时,由于该第一候选项集的余弦相似度大于该第一候选项集的直接超集的余弦相似度,则可以确定,该第一候选项集的直接超集的余弦相似度也不大于该第一预设阈值,因此,该第一候选项集的直接超集不可能是有趣项集,无需计算该第一候选项集的直接超集的余弦相似度,直接将该第一候选项集的直接超集过滤即可。
需要说明的是,由于余弦相似度的计算公式复杂,因此可以简化公式,计算该第一候选项集的余弦相似度上界,当该第一候选项集的余弦相似度上界不大于该第一预设阈值时,表明该第一候选项集的余弦相似度也不大于该第一预设阈值,此时可以直接过滤该第一候选项集的直接超集和该第一候选项集。
209、当该第一候选项集的余弦相似度大于该第一预设阈值,但该第一候选项集的支持度不大于该第二预设阈值时,过滤该第一候选项集的超集和该第一候选项集。
对于该第一候选项集来说,由于该第一候选项集的支持度不大于该第一预设阈值,则过滤该第一候选项集。
而对于该第一候选项集的超集来说,基于支持度的反单调性,当该第一候选项集的支持度不大于该第二预设阈值时,由于该第一候选项集的支持度大于该第一候选项集的超集的支持度,则可以确定,该第一候选项集的超集的支持度也不大于该第二预设阈值,因此,该第一候选项集的超集不可能是有趣项集,无需计算该第一候选项集的超集的支持度,直接将该第一候选项集的超集过滤即可。
210、当该第一候选项集的余弦相似度不大于该第一预设阈值,且该第一候选项集的支持度不大于该第二预设阈值时,过滤该第一候选项集的超集和该第一候选项集。
在本发明实施例中,在对该第一候选项集的余弦相似度和支持度进行判断之后,通过执行步骤206-207、208、209和210,获取到有趣项集以及第二候选项集,对于每个第二候选项集,继续对该第二候选项集的余弦相似度和支持度进行判断,再次通过执行步骤206-207、208、209和210,获取到有趣项集以及第三候选项集……,直至已过滤当前候选项集的所有超集,没有获取到新的有趣项集时结束,或者直至当前候选项集不存在超集时结束。例如,当前候选项集为包括该事务集中的所有项目的总候选项集时,对该总候选项集的余弦相似度和支持度进行判断,当该总候选项集的余弦相似度大于该第一预设阈值,且该总候选项集的支持度大于该第二预设阈值时,将该总候选项集作为有趣项集,否则,过滤该总候选项集,此时,该总候选项集不存在超集,迭代过程结束。
在获取到多个有趣项集之后,该方法还包括:基于获取到的多个有趣项集和用户当前选择的项目进行推荐。
在本发明实施例中,可以认为有趣项集中的每个项目之间具有关联关系,则当用户选择了一个或多个项目时,可以基于获取到的多个有趣项集,找出该一个或多个项目所属的有趣项集,将该有趣项集中用户未选择的项目推荐给该用户。考虑到了每个用户选择项目的需求,自动为用户推荐关联的项目,实现了个性化推荐。
本发明实施例提供的方法,通过定义项集的余弦相似度,在获取有趣项集的过程中,计算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行过滤。与使用“支持度-置信度”框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余弦相似度这一客观兴趣度和支持度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,以修剪“干扰性”的候选项集,无需计算出所有候选项集的支持度和置信度后再进行过滤,降低了计算量,提高了挖掘效率。
进一步地,在每次迭代过程中,使用产生-测试的方法发现有趣项集,在产生候选项集阶段,以余弦相似度表示项集的“紧密程度”,并采用宽度优先的策略遍历所有的候选项集,基于余弦相似度的条件反单调性和已获取的候选项集,生成新的候选项集。而在测试候选项集阶段,当该候选项集的余弦相似度不大于该第一预设阈值时,过滤该候选项集的直接超集和该候选项集,而当该候选项集的支持度不大于该第二预设阈值时,过滤该候选项集的超集和该候选项集。尽可能少地产生候选项集,且无需计算被过滤项集的支持度和余弦相似度,进一步降低了计算量,提高了挖掘效率。
图3是本发明实施例提供的项集枚举树形图。假设该事务集包括5个项目“A”、“B”、“C”、“D”、“E”,则参见图3,该方法包括:
301、扫描待分析的事务集,得到该事务集中的每个项目“A”、“B”、“C”、“D”、“E”,获取该事务集包含的事务数目以及每个项目在该事务集中出现的次数。
302、将每个项目所构成的项集{A}、{B}、{C}、{D}、{E}分别作为第一候选项集,根据该事务数目和每个项目在该事务集中出现的次数,计算第一候选项集{A}、{B}、{C}、{D}、{E}的支持度和余弦相似度,对于每个第一候选项集,判断该第一候选项集的余弦相似度是否大于第一预设阈值,并判断该第一候选项集的支持度是否大于第二预设阈值。
以supp({A})指代项集{A}的支持度,假设supp({A})<supp({B})<supp({C})<supp({D})<supp({E}),则按照支持度从小到大的顺序,对每个项目进行排列,得到按照顺序排列的第一候选项集{A}、{B}、{C}、{D}、{E}。
303、当确定第一候选项集{A}、{B}、{C}、{D}、{E}的余弦相似度均大于该第一预设阈值,且支持度均大于该第二预设阈值时,将第一候选项集{A}、{B}、{C}、{D}、{E}作为有趣项集,将第一候选项集{A}、{B}、{C}、{D}、{E}的直接超集作为第二候选项集。
如图3所示,对于每个项目,将该项目与排在该项目之后的每个项目分别合并,得到多个第二候选项集,则第一候选项集{A}的直接超集为项集{AB}、{AC}、{AD}和{AE},第一候选项集{B}的直接超集为项集{BC}、{BD}和{BE},第一候选项集{C}的直接超集为项集{CD}和{CE},第一候选项集{D}的直接超集为项集{DE},第一候选项集{E}不存在直接超集。
304、对于每个第二候选项集,计算该第二候选项集的支持度和余弦相似度,并判断该第二候选项集的余弦相似度是否大于第一预设阈值,判断该第二候选项集的支持度是否大于第二预设阈值。
305、当确定第二候选项集{AC}的余弦相似度不大于该第一预设阈值、支持度大于该第二预设阈值,而除第二候选项集{AC}以外的其他的第二候选项集的余弦相似度均大于该第一预设阈值、支持度均大于该第二预设阈值时,过滤第二候选项集{AC}的直接超集{ACD}和{ACE}以及第二候选项集{AC},将其他的第二候选项集作为有趣项集,将其他的第二候选项集的直接超集作为第三候选项集。
图3中以斜线阴影表示项集的余弦相似度不大于该第一预设阈值,或者支持度不大于该第二预设阈值,以网格阴影表示项集直接被过滤,而没有计算余弦相似度和支持度。第二候选项集{AC}的余弦相似度不大于该第一预设阈值时,表明该第二候选项集{AC}的直接超集{ACD}和{ACE}的余弦相似度也不大于该第一预设阈值,则无需再计算项集{ACD}和{ACE}的余弦相似度,直接过滤项集{ACD}和{ACE}即可。而项集{ABC}是第二候选项集{AB}的直接超集,不是第二候选项集{AC}的直接超集,因此并不过滤项集{ABC},而是将项集{ABC}作为第三候选项集。
306、对于每个第三候选项集,计算该第三候选项集的支持度和余弦相似度,并判断该第三候选项集的余弦相似度是否大于第一预设阈值,判断该第三候选项集的支持度是否大于第二预设阈值。
由于已过滤项集{ACD}和{ACE},因此,如图3所示,基于第二候选项集,得到了除项集{ACD}和{ACE}以外的8个第三候选项集,对这8个第三候选项集分别进行判断。
307、当确定第三候选项集{BCD}的余弦相似度不大于该第一预设阈值、支持度大于该第二预设阈值,而除第三选项集{BCD}以外的其他的第三候选项集的余弦相似度均大于该第一预设阈值、支持度均大于该第二预设阈值时,过滤第三候选项集{BCD}的直接超集{BCDE}和第三候选项集{BCD},将其他的第二候选项集作为有趣项集,将其他的第三候选项集的直接超集作为第四候选项集,即{ABCD}、{ABCE}和{ABDE}。
第三候选项集{BCD}的余弦相似度不大于该第一预设阈值时,表明该第三候选项集{BCD}的直接超集{BCDE}的余弦相似度也不大于该第一预设阈值,则无需再计算项集{BCDE}的余弦相似度,直接过滤项集{BCDE}即可。
308、对于每个第四候选项集,计算该第四候选项集的支持度和余弦相似度,并判断该第四候选项集的余弦相似度是否大于第一预设阈值,判断该第四候选项集的支持度是否大于第二预设阈值。
由于已过滤项集{ACD}、{ACE}以及{BCDE},因此,如图3所示,基于第三候选项集,得到了3个第四候选项集,对这3个第四候选项集分别进行判断。
309、当确定第四候选项集{ABCD}、{ABCE}和{ABDE}的余弦相似度均大于该第一预设阈值,且支持度大于该第二预设阈值时,将第四候选项集{ABCD}、{ABCE}和{ABDE}作为有趣项集,将第四候选项集{ABCD}的直接超集{ABCDE}作为第五候选项集。
310、计算该第五候选项集{ABCDE}的支持度和余弦相似度,并判断该第五候选项集{ABCDE}的余弦相似度是否大于第一预设阈值,判断该第五候选项集{ABCDE}的支持度是否大于第二预设阈值。
311、当确定该第五候选项集{ABCDE}的余弦相似度不大于该第一预设阈值,且支持度不大于该第二预设阈值时,过滤该第五候选项集{ABCDE},结束。
312、基于获取到的多个有趣项集和用户当前选择的项目进行推荐。
例如,项集{ABCE}为有趣项集,则当用户选择了A和B两个项目时,可以为该用户推荐项目C和项目E。而项集{ACDE}不是有趣项集,当用户选择了A、C和D三个项目时,无需为该用户推荐项目E。
为了实现本发明实施例提供的方法,提供伪代码如下:
“输入:
D:事务集;
min_cosmin_cos:第一预设阈值;
min_suppmin_supp:第二预设阈值。
输出:FFD,min_supp,min_coss
1一次性扫描D并得到频繁项的集合I;
2重新编码并对每个事务中的项按照支持度从小到大排序;
伪代码的第1-2行用于准备构造支持度升序项集枚举树,在第2行中按照项目的支持度的大小进行排序(用表示这个顺序)。第4行用于生成有趣1-项集F1F1,且Fk用于表示下一次迭代时生成的k+1项候选项集。
第5-26行用于描述获取所有的有趣项集的迭代过程,每次迭代包括两个阶段。其中,第7-17行为第一个阶段,用于生成候选项集,第18-25行为第二个阶段,用于对生成的候选项集进行测试,首先扫描一次事务集,确定候选项集的支持度和余弦相似度,并分别与该第二预设阈值和第一预设阈值进行比较。最终在27行将所有的有趣项集合并为一个项集返回。
与Brute-force方法和Fk×F1的方法相比,Apriori算法使用Fk×Fk的方法产生k+1项的候选项集,能够在保证完整性的前提下,尽可能少地产生候选项集。但是,Fk×Fk的方法并不适用于本发明实施例提供的方法,原因在于,余弦相似度仅具有条件反单调性,而不具有反单调性。参见图3,项集{ABC}是项集{AB}的直接超集,而不是项集{AC}的直接超集,如果使用Fk×Fk的方法,则可能会由于项集{AC}不是有趣项集而过滤掉项集{ABC}。
因此,在第7-8行中提出了Fk×(Fk∪Jk)的方法,生成候选项集。在第9行中检测了该候选项集的所有直接子集的支持度,以便在该候选项集的任一直接子集的支持度不大于该第二预设阈值时,过滤该候选项集。然而,由于余弦相似度的剪枝作用,在上一次迭代过程中,可能已经过滤了一个或多个该候选项集的直接子集,即无法得到该候选项集的所有直接子集的支持度,因此,实际上可能仅检测了部分直接子集的支持度。第15行中,Jk用来存储所有由于余弦相似度的剪枝而被过滤的项集。虽然检测了每一个候选项集的余弦相似度,实际上,可以计算余弦相似度上界降低计算成本。
图4是本发明实施例提供的一种有趣项集获取装置结构示意图,参见图4,该装置包括:
扫描模块401,用于扫描待分析的事务集,得到该事务集中的每个项目,并计算每个项目的支持度,该事务集包括多个事务,每个事务包括至少一个项目;
候选项集获取模块402与扫描模块401连接,用于基于每个项目的支持度,得到多个候选项集;
计算模块403与扫描模块401和候选项集获取模块402分别连接,用于对于每个候选项集,计算该候选项集的支持度和余弦相似度;
判断模块404与计算模块403连接,用于判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值;
有趣项集获取模块405与判断模块404连接,用于当该候选项集的余弦相似度大于该第一预设阈值,且该候选项集的支持度大于该第二预设阈值时,将该候选项集作为有趣项集。
可选地,该计算模块403包括:
数目获取单元,用于获取该事务集包含的事务数目,并获取该候选项集中的每个项目在该事务集中同时出现的次数;
支持度计算单元,用于根据该事务数目以及该候选项集中每个项目在该事务集中同时出现的次数,计算该候选项集的支持度;
余弦相似度计算单元,用于根据该候选项集的支持度以及该候选项集中每个项目的支持度,应用以下公式计算该候选项集的余弦相似度:
其中,X为该候选项集,X={i1,i2,...,iK},K为该候选项集的宽度,K≥2,k=1,2,...K,cos(X)为该候选项集的余弦相似度,supp(X)为该候选项集的支持度,supp({ik})为该候选项集中项目ik的支持度。
可选地,该候选项集获取模块402用于将每个项目所构成的项集分别作为候选项集。
可选地,该装置还包括:
第二候选项集获取模块,用于当第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度大于该第二预设阈值时,将该第一候选项集的直接超集作为该第二候选项集,继续执行计算该第二候选项集的支持度和余弦相似度的步骤;
其中,在该第一候选项集的直接超集与该第一候选项集的差集中,每个项目的支持度均大于该第一候选项集中每个项目的支持度。
可选地,该第二候选项集获取模块用于从不属于该第一候选项集的项目中选取第一项目,该第一项目的支持度大于该第一候选项集中每个项目的支持度;将该第一候选项集与该第一项目合并后的项集作为该第二候选项集。
可选地,该装置还包括:
第一过滤模块,用于当该候选项集的余弦相似度不大于该第一预设阈值时,过滤该候选项集的直接超集和该候选项集;
第二过滤模块,用于当该候选项集的支持度不大于该第二预设阈值时,过滤该候选项集的超集和该候选项集;
其中,在该候选项集的直接超集与该候选项集的差集中,每个项目的支持度均大于该候选项集中每个项目的支持度。
可选地,其特征在于,余弦相似度具有如下的条件反单调性:
对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
本发明实施例提供的装置,通过定义项集的余弦相似度,在获取有趣项集的过程中,计算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行过滤。与使用“支持度-置信度”框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余弦相似度这一客观兴趣度和支持度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,以修剪“干扰性”的候选项集,无需计算出所有候选项集的支持度和置信度后再进行过滤,降低了计算量,提高了挖掘效率。
需要说明的是:上述实施例提供的有趣项集获取装置在获取有趣项集时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的有趣项集获取装置与有趣项集获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种有趣项集获取方法,其特征在于,所述方法包括:
扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
基于每个项目的支持度,得到多个候选项集;
对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。
2.根据权利要求1所述的方法,其特征在于,计算所述候选项集的支持度和余弦相似度包括:
获取所述事务集包含的事务数目,并获取所述候选项集中的每个项目在所述事务集中同时出现的次数;
根据所述事务数目以及所述候选项集中每个项目在所述事务集中同时出现的次数,计算所述候选项集的支持度;
根据所述候选项集的支持度以及所述候选项集中每个项目的支持度,应用以下公式计算所述候选项集的余弦相似度:
其中,X为所述候选项集,X={i1,i2,...,iK},K为所述候选项集的宽度,K≥2,k=1,2,...K,cos(X)为所述候选项集的余弦相似度,supp(X)为所述候选项集的支持度,supp({ik})为所述候选项集中项目ik的支持度。
3.根据权利要求1所述的方法,其特征在于,基于每个项目的支持度,得到多个候选项集包括:
将每个项目所构成的项集分别作为候选项集。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一候选项集的余弦相似度大于所述第一预设阈值,且所述第一候选项集的支持度大于所述第二预设阈值时,将所述第一候选项集的直接超集作为所述第二候选项集,继续执行计算所述第二候选项集的支持度和余弦相似度的步骤;
其中,在所述第一候选项集的直接超集与所述第一候选项集的差集中,每个项目的支持度均大于所述第一候选项集中每个项目的支持度。
5.根据权利要求4所述的方法,其特征在于,将所述第一候选项集的直接超集作为所述第二候选项集包括:
从不属于所述第一候选项集的项目中选取第一项目,所述第一项目的支持度大于所述第一候选项集中每个项目的支持度;
将所述第一候选项集与所述第一项目合并后的项集作为所述第二候选项集。
6.根据权利要求1所述的方法,其特征在于,判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值之后,所述方法还包括:
当所述候选项集的余弦相似度不大于所述第一预设阈值时,过滤所述候选项集的直接超集和所述候选项集;
当所述候选项集的支持度不大于所述第二预设阈值时,过滤所述候选项集的超集和所述候选项集;
其中,在所述候选项集的直接超集与所述候选项集的差集中,每个项目的支持度均大于所述候选项集中每个项目的支持度。
7.根据权利要求1-6任一项所述的方法,其特征在于,余弦相似度具有如下的条件反单调性:
对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
8.一种有趣项集获取装置,其特征在于,所述装置包括:
扫描模块,用于扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
候选项集获取模块,用于基于每个项目的支持度,得到多个候选项集;
计算模块,用于对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
判断模块,用于判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的支持度是否大于第二预设阈值;
有趣项集获取模块,用于当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。
9.根据权利要求8所述的装置,其特征在于,所述计算模块包括:
数目获取单元,用于获取所述事务集包含的事务数目,并获取所述候选项集中的每个项目在所述事务集中同时出现的次数;
支持度计算单元,用于根据所述事务数目以及所述候选项集中每个项目在所述事务集中同时出现的次数,计算所述候选项集的支持度;
余弦相似度计算单元,用于根据所述候选项集的支持度以及所述候选项集中每个项目的支持度,应用以下公式计算所述候选项集的余弦相似度:
其中,X为所述候选项集,X={i1,i2,...,iK},K为所述候选项集的宽度,K≥2,k=1,2,...K,cos(X)为所述候选项集的余弦相似度,supp(X)为所述候选项集的支持度,supp({ik})为所述候选项集中项目ik的支持度。
10.根据权利要求8所述的装置,其特征在于,所述候选项集获取模块用于将每个项目所构成的项集分别作为候选项集。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二候选项集获取模块,用于当第一候选项集的余弦相似度大于所述第一预设阈值,且所述第一候选项集的支持度大于所述第二预设阈值时,将所述第一候选项集的直接超集作为所述第二候选项集,继续执行计算所述第二候选项集的支持度和余弦相似度的步骤;
其中,在所述第一候选项集的直接超集与所述第一候选项集的差集中,每个项目的支持度均大于所述第一候选项集中每个项目的支持度。
12.根据权利要求11所述的装置,其特征在于,所述第二候选项集获取模块用于从不属于所述第一候选项集的项目中选取第一项目,所述第一项目的支持度大于所述第一候选项集中每个项目的支持度;将所述第一候选项集与所述第一项目合并后的项集作为所述第二候选项集。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一过滤模块,用于当所述候选项集的余弦相似度不大于所述第一预设阈值时,过滤所述候选项集的直接超集和所述候选项集;
第二过滤模块,用于当所述候选项集的支持度不大于所述第二预设阈值时,过滤所述候选项集的超集和所述候选项集;
其中,在所述候选项集的直接超集与所述候选项集的差集中,每个项目的支持度均大于所述候选项集中每个项目的支持度。
14.根据权利要求8-13任一项所述的方法,其特征在于,余弦相似度具有如下的条件反单调性:
对于任意的项集X和Y,满足且则当supp({i})<supp({i'})时,cos(X)≥cos(Y);
其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i})为i的支持度,supp({i'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410078745.XA CN104899408A (zh) | 2014-03-05 | 2014-03-05 | 有趣项集获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410078745.XA CN104899408A (zh) | 2014-03-05 | 2014-03-05 | 有趣项集获取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104899408A true CN104899408A (zh) | 2015-09-09 |
Family
ID=54032070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410078745.XA Pending CN104899408A (zh) | 2014-03-05 | 2014-03-05 | 有趣项集获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899408A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631709A (zh) * | 2015-12-26 | 2016-06-01 | 深圳大学 | 一种购物篮分析方法及系统 |
CN107092668A (zh) * | 2017-04-10 | 2017-08-25 | 广州油融互联网金融信息服务有限公司 | 一种数据分析方法 |
WO2018001237A1 (en) * | 2016-06-30 | 2018-01-04 | Huawei Technologies Co., Ltd. | Data mining interest generator |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN110020169A (zh) * | 2017-12-28 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种确定对象相关性的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011162A1 (en) * | 2005-07-08 | 2007-01-11 | International Business Machines Corporation | System, detecting method and program |
US20080126347A1 (en) * | 2006-11-27 | 2008-05-29 | Kabushiki Kaisha Toshiba | Frequent pattern mining system |
CN101286156A (zh) * | 2007-05-29 | 2008-10-15 | 北大方正集团有限公司 | 基于元数据去除重复对象的方法 |
CN103559420A (zh) * | 2013-11-20 | 2014-02-05 | 苏州大学 | 一种异常检测训练集的构建方法及装置 |
-
2014
- 2014-03-05 CN CN201410078745.XA patent/CN104899408A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011162A1 (en) * | 2005-07-08 | 2007-01-11 | International Business Machines Corporation | System, detecting method and program |
US20080126347A1 (en) * | 2006-11-27 | 2008-05-29 | Kabushiki Kaisha Toshiba | Frequent pattern mining system |
CN101286156A (zh) * | 2007-05-29 | 2008-10-15 | 北大方正集团有限公司 | 基于元数据去除重复对象的方法 |
CN103559420A (zh) * | 2013-11-20 | 2014-02-05 | 苏州大学 | 一种异常检测训练集的构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
JUNJIE WU等: "Cosine interesting pattern discovery", 《INFORMATION SCIENCES》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631709A (zh) * | 2015-12-26 | 2016-06-01 | 深圳大学 | 一种购物篮分析方法及系统 |
WO2018001237A1 (en) * | 2016-06-30 | 2018-01-04 | Huawei Technologies Co., Ltd. | Data mining interest generator |
CN107092668A (zh) * | 2017-04-10 | 2017-08-25 | 广州油融互联网金融信息服务有限公司 | 一种数据分析方法 |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN109002432B (zh) * | 2017-06-07 | 2022-01-04 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN110020169A (zh) * | 2017-12-28 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种确定对象相关性的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899408A (zh) | 有趣项集获取方法和装置 | |
CN110297853B (zh) | 频繁集挖掘方法和装置 | |
CN105975608A (zh) | 一种数据挖掘方法和装置 | |
CN102253889A (zh) | 一种回归测试中基于分布的测试用例优先级划分方法 | |
CN104155519B (zh) | 谐波序列关系分析与电力计算相结合的谐波源定位方法 | |
CN103116540A (zh) | 基于全局超级块支配图的动态符号执行方法及其装置 | |
Boria et al. | Fast reoptimization for the minimum spanning tree problem | |
CN101984415A (zh) | 一种设定监控指标阈值的方法和装置 | |
CN105912588A (zh) | 一种基于内存计算的大数据可视化处理方法及系统 | |
CN103617119B (zh) | 基于语句交互覆盖的回归测试用例选择方法 | |
CN104933171A (zh) | 兴趣点数据关联方法和装置 | |
CN104536882A (zh) | 基于频繁子图挖掘的错误定位方法 | |
CN105183824A (zh) | 数据整合方法及装置 | |
CN104899666A (zh) | 企业运营分析预警系统的监测指标优化方法 | |
JP2013003669A (ja) | グラフ構造を有するデータから頻度の高い部分構造を抽出する方法、その装置およびプログラム | |
CN104794636B (zh) | 基于用户显示评分的机型推荐方法 | |
Sharmin et al. | SAL: An effective method for software defect prediction | |
Sandhu et al. | Integration of Artificial Intelligence into software reuse: An overview of Software Intelligence | |
Zhang et al. | Government Process Management under electronic government and its application | |
CN106445975B (zh) | 项集挖掘方法及装置 | |
Drozdova et al. | Radio-astronomical image reconstruction with a conditional denoising diffusion model | |
CN102073653B (zh) | 信息抽取方法和装置 | |
Iungo et al. | A procedure based on proper orthogonal decomposition for time-frequency analysis of time series | |
Basha et al. | A Methodology to manage victim components using CBO measure | |
CN107092618A (zh) | 一种信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150909 |
|
RJ01 | Rejection of invention patent application after publication |