CN107102999A - 关联分析方法和装置 - Google Patents

关联分析方法和装置 Download PDF

Info

Publication number
CN107102999A
CN107102999A CN201610096728.8A CN201610096728A CN107102999A CN 107102999 A CN107102999 A CN 107102999A CN 201610096728 A CN201610096728 A CN 201610096728A CN 107102999 A CN107102999 A CN 107102999A
Authority
CN
China
Prior art keywords
data
association analysis
support
node
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610096728.8A
Other languages
English (en)
Other versions
CN107102999B (zh
Inventor
代斌
杨旭
姜晓燕
蔡宁
王少萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610096728.8A priority Critical patent/CN107102999B/zh
Priority to TW106103977A priority patent/TWI730043B/zh
Priority to PCT/CN2017/073135 priority patent/WO2017143908A1/zh
Publication of CN107102999A publication Critical patent/CN107102999A/zh
Priority to US16/107,927 priority patent/US10956395B2/en
Application granted granted Critical
Publication of CN107102999B publication Critical patent/CN107102999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了关联分析方法和装置,通过将原始数据库划分为相互之间不贡献频繁项集支持度的各投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析,然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。

Description

关联分析方法和装置
技术领域
本发明涉及计算机技术,尤其涉及一种关联分析方法和装置。
背景技术
关联分析是进行数据挖掘中的一种分析技术,主要用于根据大量数据发现项目之间的关联性。关联分析的一个典型应用实例便是购物篮分析:基于购物数据进行关联分析,发现顾客放入购物篮中的不同商品之间的关联性。进而由这种关联分析所获得的关联性体现出顾客的购买习惯,通过了解这些购买习惯可以有利于零售商制定营销策略。
序列模式关联分析不同于其他模式下的关联分析,序列模式还考虑了项目发生的时间,从而使得各项目之间有一定的顺序性。针对序列模式的关联分析,其所进行分析的对象往往是超大规模的数据库,因此,运算量很大不适宜采用单机进行数据处理。现有技术中通常采用对数据库中的数据进行简单分片,将每个分片数据在各节点进行单独的关联分析,获得候选频繁项集及其支持度,然后进行合并获得各候选频繁项集的全局支持度,进而依据预设的筛选条件进行剪枝后获得全局频繁项集。
但是,由于在进行关联分析生成候选频繁项集的过程中存在数据膨胀,导致候选频繁项集的数据量是分片数据的数据量的指数倍,因此,在对各节点生成的候选频繁项集及其支持度进行汇总以便执行合并操作时,传输数据量过大,导致执行效率较低。
发明内容
本发明提供一种关联分析方法和装置,用于解决现有技术中进行并行关联分析时由于汇总数据时数据传输量过大导致执行效率较低的技术问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种关联分析方法,包括:
将原始数据库划分为各投影数据库,所述各投影数据库相互之间不贡献频繁项集的支持度;
由各节点分别对所对应的投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度;
对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
第二方面,提供一种关联分析装置,包括:
划分模块,用于将原始数据库划分为各投影数据库,所述各投影数据库相互之间不贡献频繁项集的支持度;
分析模块,用于由各节点分别对所述投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度;
汇总模块,用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
本发明实施例提供的关联分析方法和装置,通过将原始数据库划分为相互之间不贡献支持度的各投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析,然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的一种关联分析方法的流程示意图;
图2为本发明实施例二提供的一种关联分析方法的流程示意图;
图3为关联分析方法执行过程的示意图;
图4为本发明实施例所提供的一种关联分析装置的结构示意图;
图5为实施例三提供的另一种关联分析装置的结构示意图;
图6为实施例四提供的一种关联分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在待进行关联分析的数据库中,通常记载了各个事务,事务又包括了各个项目,每一个项目包括至少一个元素。其中,一个元素用于指示一个操作对象,项目用于指示由同一用户同时进行操作的各操作对象,而一个用户在不同时刻所进行操作的操作对象可以用一个事务标识。由于序列模式下的关联分析需要考虑时序性,因此,每一个事务所包括的各个项目是具有一定顺序性的,这种具有顺序的各个项目可以称之为一个序列,因此,也可以说事务是由一个序列进行表示的。
比如数据库中的一个事务为序列abc,abc,ac,d,cf,可以用于表示一个用户分别在第一天买了商品a、b和c,第二天又买了商品a、b和c,第三天买了商品a和c。针对每一天买的总商品叫项目,每件商品叫元素。
发明人针对现有技术中的关联分析方法进行分析,发现现有技术中在对各节点生成的候选频繁项集及其支持度进行汇总以便执行合并操作时,传输数据量过大,主要是由于各节点未在本地执行剪枝的步骤。发明人在此基础上,进行了进一步分析,现有技术中对原始数据仅进行了简单分片,各个分片数据对于某个频繁项级都存在贡献支持度的可能,从而无法在本地执行剪枝的步骤,因此,需要将原始数据划分为相互之间不存在支持度的数据库才能够在节点本地进行剪枝,进而避免传输候选频繁项集及其支持度。基于这一思路,发明人提出了本发明所提供的关联分析方法。
为了便于理解本发明所提供的关联分析方法,在描述具体实施例之前,对实施例中所涉及的技术术语进行解释:
序列模式关联分析是指:给定一个数据库,其中,数据库包括了各个事务,每一个事务由一个序列表示,每个序列由相互之间具有一定顺序性的项目组成。序列模式挖掘就是在给定一个支持度阈值的基础上,找出所有满足在数据库中的出现频次不低于该支持度阈值的子序列,将这些子序列作为频繁项集,从数据库中找出这些频繁项集的操作便是序列模式关联分析。
项集是指:数据库针对同一事务中所出现的项目有序排列所构成的集合。
项集的长度是指:用于表示该项集的序列的长度,数值上等于项集所包括的项目个数。
支持度是指:项集在数据库中出现的频次,若一个事务中包含该项集,则记为一次,从而支持度等于数据库中包含某一项集的事务个数。
频繁项集是指:数据库中所有出现频次不小于支持度阈值的项集。
投影数据库是指:针对原始数据库进行投影操作所获得的数据库,具体来说α的投影数据库为S中所有以α为前缀的序列相对于α的后缀。
此处简要解释了技术术语的含义,以上技术术语会在后续结合具体实施例进行进一步地解释。
下面结合附图对本发明实施例提供的关联分析方法和装置进行详细描述。
实施例一
图1为本发明实施例一提供的一种关联分析方法的流程示意图,如图1所示,包括:
步骤101、将原始数据库划分为各投影数据库。
其中,各投影数据库相互之间不贡献频繁项集的支持度。其中,支持度是指在数据库中包含某一项集的事务个数。各投影数据库相互之间不贡献频繁项集的支持度,也就是说基于一投影数据库进行序列模式挖掘所获得的频繁项集未出现在另一投影数据库中,从而另一投影数据库不会增加频繁项集的支持度,因此说另一投影数据库不贡献一投影数据库的频繁项集的支持度。
具体地,首先,获得至少两个初始项集,其中初始项集是对原始数据库进行关联分析所获得的项集,用于构建投影数据库,并且至少两个初始项集中的任意两初始项集之间不存在相互包含关系。具体可以通过针对原始数据库可以采用关联分析算法进行计算,获得前述的至少两项集,这两项集可以是相同长度也可以是不同长度,可以是执行过剪枝步骤获得的频繁项集也可以是未执行过剪枝步骤获得的候选频繁项集,本实施例中对此不做限定。
进而,将各初始项集作为前缀,建立各前缀的投影数据库。具体可以通过将初始项集作为前缀,在原始数据库的各事务中查询前缀所对应的后缀,进而将各事务的后缀进行汇总,形成前缀的投影数据库。其中,后缀是通过在每一条事务中查询该前缀首次出现的位置之后的序列,若前缀的最后一个元素与所查找到的序列的第一个元素的时序相同,则将“_”和所查找到的序列作为后缀,否则,直接将所查找到的序列作为后缀。
由于初始项集两两之间的不存在包含关系,所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
需要说明的是,这里定义的包含关系是前缀的包含关系,也就说一个初始项集是否为另一初始项集的前缀,若是,则存在包含关系,例如:
针对<a,b>和<a,c,b>,<a,b>不是<a,c,b>的前缀,因此<a,b>和<a,c,b>两者之间不存在包含关系;
针对<a,b>和<a>,<a>是<a,b>的前缀,因此<a,b>和<a>属于包含关系。
作为一种可能的实现方式,可以计算原始数据库的K_频繁项集,也就是项集中包含K个项目的频繁项集,其中K为正整数,且1≤K<N,N为原始数据库中所包含的元素数,将K_频繁项集作为初始项集。
作为另一种可能的实现方式,还可以计算原始数据库的K_频繁项集之后,根据预设的支持度阈值,对K_频繁项集进行筛选,保留支持度大于支持度阈值的K_频繁项集,将筛选后的K_频繁项集作为初始项集。经过筛选步骤之后,合理减小了后续进行处理的数据量,减轻了节点构建投影数据库以及基于投影数据库进行关联分析的运算压力,同时,也减少了后续对节点关联分析所获得的局部频繁项集进行汇总时的数据传输总量。
步骤102、由各节点分别对所对应的投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度。
具体的,为每一投影数据库分配节点,例如:可以为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。然后由各节点采用预设关联分析算法并行进行序列模式的关联分析,如广义序贯模式(Generalized Sequential Pattern,GSP)算法,具体来说,各节点对投影数据库执行扫描、合并和剪枝的步骤,获得频繁项集以及对应支持度。每个节点仅能够获得原始数据库的各频繁项集中的一部分频繁项集,为了与原始数据库的全部频繁项集进行区分,将每个节点所获得的频繁项集称为局部频繁项集,将原始数据库的全部频繁项集称为全局频繁项集。另外需要说明的是,这里所说的节点运行在一个单机上,单机可以是物理机也可以是虚拟机本实施例中对此不做限定。
通过为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点,避免出现有些节点负载过重而另一些节点空闲的情况出现,从而更加合理和高效地利用现有节点,加快关联分析速度,提高关联分析的效率。
步骤103、对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
具体地,将各节点关联分析所获得的局部频繁项集以及对应支持度汇总到一个文件既可,从而该文件中记录的为全局频繁项集以及对应支持度,而无需执行合并和剪枝的步骤。
本实施例中,通过将原始数据库划分为相互之间不贡献支持度的各投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析,然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
实施例二
图2为本发明实施例二提供的一种关联分析方法的流程示意图,本实施例所提供的关联分析方法可以由软件执行,该软件可以运行在大数据计算服务(Open Data Processing Service,简称ODPS)平台上,本实施例所提供的方法可以运行在映射规约(MapReduce)软件框架下由多个节点执行,在MapReduce软件框架下包括一个主节点(master),和多个从节点(workers),主节点可以对各从节点分配映射(Map)作业(用来把一组键值对映射成一组新的键值对)或者规约(Reduce)作业(用来保证所有映射的键值对中的每一个共享相同的键组),分配到Map作业的从节点又可以称为Map节点,分配到Reduce作业的从节点又可以称为Reduce节点。每一个节点可以运行在一个物理机或者虚拟机上,本实施例中对此不做限定。如图2所示,方法包括:
步骤201、主节点对从节点进行调度以使从节点进行数据预处理。
具体地,主节点将数据预处理作为一项MapReduce任务,调度从节点执行该任务,从而针对原始数据进行数据序列化操作。具体通过根据映射表将原始数据中所记载的各用户执行操作的不同的操作对象分别用数字或者字母序列进行标识,并针对同一用户执行操作的操作对象按照操作时间进行排序。
步骤202、从节点在主节点调度下基于原始数据库D计算K_频繁项集,将每一个K_频繁项集分配至一个Map节点进行处理。
需要说明的是,1≤K<N,N为原始数据库中所包含的元素数。
步骤203、各Map节点根据每一个K_频繁项集遍历原始数据库D中的一个分片数据,获得每一个K_频繁项集的投影数据库D’的一部分。
具体地,每一个Map节点均根据各K_频繁项集将原始数据库D的一个分片数据中的数据划分为前缀和后缀两部分,由全部Map节点所获得的对应某一个K_频繁项集的后缀部分所构成的投影数据库D’即为该K_频繁项集的投影数据库D’。具体来说,在各事务中,将该K_频繁项集作为前缀,查询该前缀首次出现的位置之后的序列,若前缀的最后一个元素与所查找到的序列的第一个元素的时序相同,则将“_”和所查找到的序列作为后缀,否则,直接将所查找到的序列作为后缀。构建由各事务中的后缀所构成的该K_频繁项集的投影数据库D’。
Map节点的个数可以为多个,各Map节点获取到原始数据库D中的一个分片数据,这里的分片是简单的数据分片,每一个Map节点将各K_频繁项集作为键,遍历分片数据中的各事务,获得各个键或者说各个K_频繁项集对应的键值,将所获得的键值输出至该K_频繁项集对应的Reduce节点,从而该K_频繁项集对应的Reduce节点从全部Map节点所接收到的数据构成了该K_频繁项集的投影数据库D’。例如:若存在m个K_频繁项集,3个分片数据时,Map节点1基于m个K_频繁项集将原始数据库D的第一个分片数据划分为前缀和后缀两部分,Map节点2基于m个K_频繁项集将原始数据库D的第二个分片数据划分为前缀和后缀两部分,Map节点3基于m个K_频繁项集将原始数据库D的第三个分片数据划分为前缀和后缀两部分。
需要说明的是,投影数据库D’中“_”用于表示前缀自身,且该前缀为后缀中第一个项目的元素,该第一个项目除了该前缀外还有其他元素。
对于相同前缀的各事务,可以看出其生成的频繁项集也具有相同的前缀,因此将各事务中同一前缀首次出现的位置之后的序列合并为投影数据库,不同投影数据库所关联分析获得的频繁项集不会出现重复的情况,因而也就互不贡献支持度。从而不同的Reduce节点可以针对不同的投影数据库独立的进行关联分析挖掘,包括对候选频繁项集剪枝获得频繁项集的过程也在本地Reduce节点,避免了汇总候选频繁项集及其本地支持度。
可见,本实施例中所提供的方法不同于目前不同的Reduce节点关联分析获得的候选频繁项集会出现重复的情况,因而不需要汇总Reduce节点所关联分析获得的候选频繁项集其本地支持度之后,才能够进行合并和剪枝,最终获得全局频繁项集。因此,本实施例中的方法,能够有效避免汇总候选频繁项集及其本地支持度,而各Reduce节点候选频繁项集的往往是该Reduce节点的分片数据的数据量的指数倍,因此,本实施例中的方法极大减少了进行数据传输的数据量。
步骤204、各Reduce节点从全部Map节点接收所对应的K_频繁项集的投影数据库D’的一部分,获得所对应的K_频繁项集的投影数据库D’,对投影数据库D’进行并行关联分析处理。
具体的,MapReduce软件框架包括多个Reduce节点,每一个Reduce节点对应一个K_频繁项集。每一个Reduce节点从全部Map节点接收所对应的K_频繁项集的投影数据库D’的一部分,从而获得所对应的K_频繁项集的投影数据库D’,进而对该K_频繁项集的投影数据库D’进行关联分析处理,获得频繁项集及其支持度。
例如:Reduce节点1基于投影数据库D’1进行关联分析处理,Reduce节点2基于投影数据库D’2进行关联分析处理,……Reduce节点m基于投影数据库D’m进行关联分析处理。
其中,各Reduce节点可以采用GSP算法进行关联分析处理从而获得前述的频繁项集及其支持度,也可以采用其他关联分析算法而不会影响本实施例所提供的方法的使用效果,本实施例中GSP算法仅作为示例说明本实施例所提供的方法。GSP算法是通过扫描投影数据库D’得到长度为i的序列作为初始序列,然后根据长度为i的初始序列,经过合并和剪枝的操作,生成长度为i+1的序列,并将生成的序列作为新的初始序列,重复迭代执行扫描、合并和剪枝的操作,直至不再生成新的序列,用所获得的序列表示候选频繁项集。基于投影数据库D’计算候选频繁项集的支持度,然后根据预设的筛选条件进行筛选,获得频繁项集。
需要说明的是,i的初始取值应当等于作为前缀的频繁项集的序列长度。
具体可以采用如下所示的GSP算法伪代码:
Algorihm GSP(S)
1 C1←init-pass(S);
2 F1←{<{f}>|f∈C1,f.count/n≥minsup};
3 for(k=2;k++)do
4 Ck←candidate-gen-SPM(Fk-1);
5 for each data sequence s∈S do
6 for each candidate c∈Ck do
7 if c is contained in s then
8 c.count++
9 end
10 end
11 Fk←{c∈Ck|c.count/n≥minsup}
12 end
13 return∪k Fk
其中,candidate-gen-SPM(Fk-1)的算法流程如下:
1、合并:对所生成的k-1_候选频繁项集Fk-1进行合并,生成k_候选频繁项集Fk
具体地,当k=2时,对于两个1_候选项集F1的序列s1和s2,需要将s2的项目要以s1的项目中的一部分和以一个单独的项目两种方式合并到s1。即合并<a>和<b>,生成的候选频繁项级有<(a,b)>、<a,a>、<a,b>、<b,a>和<b,b>。
需要说明的是,<(a,b)>表示a,b同时发生,<a,b>表示先发生a,后发生b。
当k取大于2的正整数时,对于两个序列s1和s2,如果将s1的第1个项目去掉后得到的余串和将s2的最后一个项目去掉后得到的余串相同,则可以将s1和s2合并。所得的候选序列是将s2的最后一个项目添加到s1末尾,这里针对两种不同情况有两种添加方式:
如果s2最后一个项目是一个单独的元素,则这个项目将以一个单独项目的形式加到s1的末尾,否则,s2最后一个项目将作为s1的最后一个项目中的一个部分合并入s1
2、剪枝:对合并所获得的k_候选频繁项集Fk进行剪枝,获得k_频繁项集Fk
具体地,剪枝是指如果一个k_候选频繁项集Fk的任何一个子集是非频繁的,则这个k_候选频繁项集Fk将被去除。
Reduce节点基于前述扫描、合并和剪枝的步骤以及筛选的步骤,获得关联分析处理结果,即频繁项集及其支持度。
步骤205、各Reduce节点对关联分析处理结果输出。
具体的,各节点可以直接输出关联分析处理结果,还可以在输出之前,根据映射表对结果进行反序列化处理,从而输出反序列化处理后的关联分析处理结果。
步骤206、对各Reduce节点输出的关联分析处理结果进行汇总。
具体的,可以主节点调度从节点直接合并各Reduce节点输出的结果,汇总为一个文件既可。由于各K_频繁项集的投影数据库D’相互之间不贡献支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所输出的关联分析处理结果为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
为了清楚说明本实施例,本实施例提供了一个具体的实例以对本实施例所提供的方法进行详细说明。
例如:
图3为关联分析方法执行过程的示意图,如图3所示,针对表1中的原始数据进行序列化。在表1中,原始数据的每一行对应一个用户,列向量从左至右依次为用户标识和操作对象以及对该操作对象执行操作的操作时间。
甲用户 苹果梨桃 2月1日 苹果梨桃 2月2日 苹果桃 2月3日
乙用户 梨桃 2月3日 苹果 2月4日 苹果梨 2月5日
丙用户 苹果 2月6日 2月7日 香蕉 2月8日
表1原始数据的记录表
表1中的原始数据记录到了甲、乙、丙用户分别于不同日期执行了三次购买操作,根据如下映射表:
苹果→a
梨→b
桃→c
香蕉→d
执行数据序列化操作,获得原始数据库D。在原始数据库D中所记载的内容如下所示:
abc,abc,ac;
bc,a,ab;
a,b,d。
需要说明的是,每一行代表一个事务,在每一个事务中,用逗号分隔各个项目。
基于前述原始数据库D,进行序列模式的关联分析,计算1_候选频繁项集及其支持度,如下表所示。
候选频繁项集 支持度
<a> 3
<b> 3
<c> 2
<d> 1
表2 1_候选频繁项集及其支持度
若预先设置了以支持度2作为最小支持度阈值,也就是说支持度小于2的候选频繁项集将会被过滤掉,从而获得1_频繁项集<a>,<b>,<c>。
在每一个Map节点中构建各1_频繁项集的投影数据库的一部分,Reduce节点从每个Map节点接收对应1_频繁项集的投影数据库一部分,汇总获得该1_频繁项集的投影数据库,进行关联分析处理。
将1_频繁项集<a>作为前缀a,构建前缀a的投影数据D’a,所构建的前缀a的投影数据库D’a如下所示:
_bc,abc,ac
ab
b,d。
将1_频繁项集<b>作为前缀b,构建前缀b的投影数据D’b,所构建的前缀b对应的投影数据库D’b如下所示:
_c,abc,ac
_c,a,ab
d。
将1_频繁项集<c>作为前缀c,构建前缀c的投影数据D’c,所构建的前缀c对应的投影数据库D’c如下所示:
abc,ac
a,ab
在前面的步骤中已获得1_频繁项集<a>,<b>,<c>。根据1_频繁项集所获得的2_候选频繁项集如下所示:
<(a,b)>,<(a,c)>,<(b,c)>,<a,a>,<a,b>,<a,c>,<b,a>,<b,b>,<b,c>,<c,a>,<c,b>,<c,c>。
需要说明的是,<(a,b)>表示a,b同时发生,<a,b>表示先发生a,后发生b。
数据库D已被划分为前缀a的投影数据库D’a,前缀b的投影数据库D’b,前缀c的投影数据库D’c,并分别由不同Reduce节点进行关联分析处理,如在Reduce节点1中,对于<(a,b)>,<(a,c)>,<a,a>,<a,b>,<a,c>只需要基于投影数据库D’a计算支持度。
频繁项集 支持度
<(a,b)> 2
<(a,c)> 1
<a,a> 2
<a,b> 3
<a,c> 1
表3 Reduce节点1的支持度计算结果
同理,Reduce节点2对于<(b,c)>,<b,a>,<b,b>,<b,c>只需要基于投影数据库D’b计算支持度。
频繁项集 支持度
<(b,c)> 2
<b,a> 2
<b,b> 2
<b,c> 1
表4 Reduce节点2的支持度计算结果
Reduce节点3对于<c,a>,<c,b>,<c,c>只需要基于投影数据库D’c计算支持度。
频繁项集 支持度
<c,a> 2
<c,b> 2
<c,c> 1
表5 Reduce节点3的支持度计算结果
可以针对各个Reduce节点设置相同的支持度阈值作为筛选条件,当频繁项集的支持度大于该支持度阈值时,筛选通过并保留,否则筛选掉而不进行保留。当支持度阈值为1时,各Reduce节点分别保留如下频繁项集:
频繁项集 支持度
<(a,b)> 2
<a,a> 2
<a,b> 3
表6 Reduce节点1的筛选结果
频繁项集 支持度
<(b,c)> 2
<b,a> 2
<b,b> 2
表7 Reduce节点2的筛选结果
频繁项集 支持度
<c,a> 2
<c,b> 2
表8 Reduce节点3的筛选结果
各个Reduce节点对筛选后的频繁项集,根据映射表进行反序列化处理,进而各个Reduce节点输出反序列化处理后的关联分析处理结果,下表为各Reduce节点输出的反序列化处理后的关联分析处理结果示意。
表9各Reduce节点输出的结果
对各Reduce节点输出的结果进行汇总,汇总获得的文件内容如下所示
频繁项集 支持度
<(苹果,梨)> 2
<苹果,苹果> 3
<苹果,梨> 3
<(梨,桃)> 2
<梨,苹果> 2
<梨,梨> 2
<桃,苹果> 2
<桃,梨> 2
表10汇总结果
本实施例中,通过对原始数据库进行关联分析计算,获得至少两个初始项集之后,将各初始项集作为前缀,建立各前缀的投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析,然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于至少两个初始项集之间不存在相互包含关系,所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
实施例三
图4为本发明实施例所提供的一种关联分析装置的结构示意图,如图4所示,包括:划分模块42、分析模块43和汇总模块44。
划分模块42,用于将原始数据库划分为各投影数据库,所述各投影数据库相互之间不贡献频繁项集的支持度。
分析模块43,用于由各节点分别对所述投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度。
具体地,分析模块43具体用于采用预设关联分析算法,由节点对所述投影数据库执行扫描、合并和剪枝的步骤,获得局部频繁项集以及对应支持度。其中,关联分析算法包括GSP算法。
汇总模块44,用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
进一步,本实施例还提供了一种关联分析装置的结构示意图,图5为实施例三提供的另一种关联分析装置的结构示意图,如图5所示,划分模块42,包括:获得单元421、建立单元422。
获得单元421,用于对原始数据库进行序列模式的关联分析,获得至少两个初始项集。
其中,所述至少两个初始项集之间不存在相互包含关系。
建立单元422,用于将各初始项集作为前缀,建立各前缀的投影数据库。
进一步,获得单元421,包括:计算子单元4211、确定子单元4212筛选子单元4213。
计算子单元4211,用于计算原始数据库的k_频繁项集。
其中k为正整数,且1≤k<N,N为原始数据库中所包含的元素数。
确定子单元4212,用于将所述k_频繁项集作为所述初始项集。
筛选子单元4213,用于根据预设的支持度阈值,对k_频繁项集进行筛选,保留支持度大于所述支持度阈值的k_频繁项集。
进一步,建立单元422,包括:查询子单元4221和建立子单元4222。
查询子单元4221,用于将所述初始项集作为前缀,在所述原始数据库的各事务中查询所述前缀所对应的后缀;
建立子单元4222,用于将各事务的后缀进行汇总形成所述前缀的投影数据库。
本实施例中,通过对原始数据库进行关联分析计算,获得至少两个初始项集之后,将各初始项集作为前缀,建立各前缀的投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析。由于至少两个初始项集之间不存在相互包含关系,所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。
实施例四
图6为实施例四提供的一种关联分析装置的结构示意图,在上一实施例的基础上,本实施例中的装置,还包括:分配模块61。
分配模块61,用于为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。
进一步,关联分析装置还包括:序列化模块62和反序列化模块63。
序列化模块62,用于根据映射表,对原始数据进行序列化获得原始数据库。
反序列化模块63,用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前,对所述局部频繁项集进行反序列化;或者,获得全局频繁项集以及对应支持度之后,对所述全局频繁项集进行反序列化。
本实施例中,通过对原始数据库进行关联分析计算,获得至少两个初始项集之后,将各初始项集作为前缀,建立各前缀的投影数据库,由各节点分别对所对应的投影数据库进行序列模式的关联分析。由于至少两个初始项集之间不存在相互包含关系,所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度,可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘,各节点所获得的为数据量较小的局部频繁项集,避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况,从而节省了传输开销,提高了效率。另外,针对各投影数据库可能具有不同的规模的特点,为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点,避免出现有些节点较为空闲,而另外一些节点过载的情况发生从而进一步提高关联分析的效率
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种关联分析方法,其特征在于,包括:
将原始数据库划分为各投影数据库,所述各投影数据库相互之间不贡献频繁项集的支持度;
由各节点分别对所对应的投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度;
对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
2.根据权利要求1所述的关联分析方法,其特征在于,所述将原始数据库划分为各投影数据库,包括:
对所述原始数据库进行序列模式的关联分析,获得至少两个初始项集;其中,各初始项集之间不存在相互包含关系;
将各初始项集作为前缀,建立各前缀的投影数据库。
3.根据权利要求2所述的关联分析方法,其特征在于,所述对原始数据库进行关联分析计算,获得至少两个初始项集,包括:
计算原始数据库的K_频繁项集;其中K为正整数,且1≤K<N,N为原始数据库中所包含的元素数;
将所述K_频繁项集作为所述初始项集。
4.根据权利要求3所述的关联分析方法,其特征在于,所述将K_频繁项集作为所述初始项集之前,还包括:
根据预设的支持度阈值,对K_频繁项集进行筛选,保留支持度大于所述支持度阈值的K_频繁项集。
5.根据权利要求2所述的关联分析方法,其特征在于,所述将各初始项集作为前缀,建立各前缀的投影数据库,包括:
将所述初始项集作为前缀,在所述原始数据库的各事务中查询所述前缀所对应的后缀;
将各事务的后缀进行汇总形成所述前缀的投影数据库。
6.根据权利要求1所述的关联分析方法,其特征在于,所述由各节点分别对所对应的投影数据库进行序列模式的关联分析之前,包括:
为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。
7.根据权利要求1所述的关联分析方法,其特征在于,所述由各节点分别对所对应的投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度,包括:
采用预设关联分析算法,由所述节点对所述投影数据库执行扫描、合并和剪枝的步骤,获得局部频繁项集以及对应支持度。
8.根据权利要求7所述的关联分析方法,其特征在于,所述关联分析算法包括GSP算法。
9.根据权利要求1-8任一项所述的关联分析方法,其特征在于,所述对原始数据库进行关联分析计算,获得至少两个初始项集之前,还包括:
根据映射表,对原始数据进行序列化获得原始数据库。
10.根据权利要求9所述的关联分析方法,其特征在于,
所述对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前,对所述局部频繁项集进行反序列化;
或者,获得全局频繁项集以及对应支持度之后,对所述全局频繁项集进行反序列化。
11.一种关联分析装置,其特征在于,包括:
划分模块,用于将原始数据库划分为各投影数据库,所述各投影数据库相互之间不贡献频繁项集的支持度;
分析模块,用于由各节点分别对所述投影数据库进行序列模式的关联分析,获得局部频繁项集以及对应支持度;
汇总模块,用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总,获得全局频繁项集以及对应支持度。
12.根据权利要求11所述的关联分析装置,其特征在于,所述划分模块,包括:
获得单元,用于对原始数据库进行序列模式的关联分析,获得至少两个初始项集;其中,各初始项集之间不存在相互包含关系;
建立单元,用于将各初始项集作为前缀,建立各前缀的投影数据库。
13.根据权利要求12所述的关联分析装置,其特征在于,所述获得单元,包括:
计算子单元,用于计算原始数据库的K_频繁项集;其中K为正整数,且1≤K<N,N为原始数据库中所包含的元素数;
确定子单元,用于将所述K_频繁项集作为所述初始项集。
14.根据权利要求13所述的关联分析装置,其特征在于,所述获得单元,还包括:
筛选子单元,用于根据预设的支持度阈值,对K_频繁项集进行筛选,保留支持度大于所述支持度阈值的K_频繁项集。
15.根据权利要求12所述的关联分析装置,其特征在于,所述建立单元,包括:
查询子单元,用于将所述初始项集作为前缀,在所述原始数据库的各事务中查询所述前缀所对应的后缀;
建立子单元,用于将各事务的后缀进行汇总形成所述前缀的投影数据库。
16.根据权利要求11所述的关联分析装置,其特征在于,所述装置,还包括:
分配模块,用于为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。
17.根据权利要求11所述的关联分析装置,其特征在于,
所述分析模块,具体用于采用预设关联分析算法,由节点对所述投影数据库执行扫描、合并和剪枝的步骤,获得局部频繁项集以及对应支持度。
18.根据权利要求17所述的关联分析装置,其特征在于,所述关联分析算法包括GSP算法。
19.根据权利要求11-18任一项所述的关联分析方法,其特征在于,所述装置,还包括:
序列化模块,用于根据映射表,对原始数据进行序列化获得原始数据库。
20.根据权利要求19所述的关联分析装置,其特征在于,所述装置,还包括:
反序列化模块,用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前,对所述局部频繁项集进行反序列化;或者,获得全局频繁项集以及对应支持度之后,对所述全局频繁项集进行反序列化。
CN201610096728.8A 2016-02-22 2016-02-22 关联分析方法和装置 Active CN107102999B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610096728.8A CN107102999B (zh) 2016-02-22 2016-02-22 关联分析方法和装置
TW106103977A TWI730043B (zh) 2016-02-22 2017-02-07 關聯分析方法和裝置
PCT/CN2017/073135 WO2017143908A1 (zh) 2016-02-22 2017-02-09 关联分析方法和装置
US16/107,927 US10956395B2 (en) 2016-02-22 2018-08-21 Association analysis method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610096728.8A CN107102999B (zh) 2016-02-22 2016-02-22 关联分析方法和装置

Publications (2)

Publication Number Publication Date
CN107102999A true CN107102999A (zh) 2017-08-29
CN107102999B CN107102999B (zh) 2021-09-10

Family

ID=59658628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610096728.8A Active CN107102999B (zh) 2016-02-22 2016-02-22 关联分析方法和装置

Country Status (4)

Country Link
US (1) US10956395B2 (zh)
CN (1) CN107102999B (zh)
TW (1) TWI730043B (zh)
WO (1) WO2017143908A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766442A (zh) * 2017-09-21 2018-03-06 深圳金融电子结算中心有限公司 一种海量数据关联规则挖掘方法及系统
CN108304465A (zh) * 2017-12-27 2018-07-20 重庆邮电大学 一种基于传感节点标识符平台的信息管理和分析方法
CN109766337A (zh) * 2018-11-28 2019-05-17 杭州云为科技有限公司 树形结构数据的存储方法、电子设备、存储介质及系统
CN111489165A (zh) * 2020-04-15 2020-08-04 支付宝(杭州)信息技术有限公司 目标对象的数据处理方法、装置和服务器
CN111783318A (zh) * 2019-10-15 2020-10-16 上海大学 一种基于三维模型的装配质量数据分析和可视化方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590223A (zh) * 2014-12-29 2016-05-18 中国银联股份有限公司 商户的商圈信息的标定
CN107102999B (zh) 2016-02-22 2021-09-10 阿里巴巴集团控股有限公司 关联分析方法和装置
US11270321B2 (en) 2019-08-27 2022-03-08 International Business Machines Corporation Association analysis on noisy transaction data
CN111221650A (zh) * 2019-12-31 2020-06-02 青岛海尔科技有限公司 基于进程类型关联的系统资源回收方法及装置
CN115953073A (zh) * 2023-01-06 2023-04-11 国能信控互联技术有限公司 基于火电生产指标管理的数据关联分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032514A1 (en) * 2012-07-25 2014-01-30 Wen-Syan Li Association acceleration for transaction databases
CN103914528A (zh) * 2014-03-28 2014-07-09 南京邮电大学 一种关联分析算法的并行化方法
CN104834751A (zh) * 2015-05-28 2015-08-12 成都艺辰德迅科技有限公司 基于物联网的数据分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567936B1 (en) * 2000-02-08 2003-05-20 Microsoft Corporation Data clustering using error-tolerant frequent item sets
US6952693B2 (en) * 2001-02-23 2005-10-04 Ran Wolff Distributed mining of association rules
US7305378B2 (en) * 2004-07-16 2007-12-04 International Business Machines Corporation System and method for distributed privacy preserving data mining
JP4676498B2 (ja) * 2005-10-07 2011-04-27 株式会社日立製作所 相関ルールを抽出する方法及びシステム
WO2009127771A1 (en) * 2008-04-16 2009-10-22 Nokia Corporation Privacy management of data
US8775230B2 (en) * 2008-11-03 2014-07-08 Oracle International Corporation Hybrid prediction model for a sales prospector
CN102541934A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种在电子商务平台上客户访问页面常见序列的提取方法和装置
US10467236B2 (en) * 2014-09-29 2019-11-05 International Business Machines Corporation Mining association rules in the map-reduce framework
CN107102999B (zh) 2016-02-22 2021-09-10 阿里巴巴集团控股有限公司 关联分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032514A1 (en) * 2012-07-25 2014-01-30 Wen-Syan Li Association acceleration for transaction databases
CN103914528A (zh) * 2014-03-28 2014-07-09 南京邮电大学 一种关联分析算法的并行化方法
CN104834751A (zh) * 2015-05-28 2015-08-12 成都艺辰德迅科技有限公司 基于物联网的数据分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高莎莎: "时空K-匿名集数据的关联规则和序列模式挖掘研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766442A (zh) * 2017-09-21 2018-03-06 深圳金融电子结算中心有限公司 一种海量数据关联规则挖掘方法及系统
CN107766442B (zh) * 2017-09-21 2019-02-01 深圳金融电子结算中心有限公司 一种海量数据关联规则挖掘方法及系统
CN108304465A (zh) * 2017-12-27 2018-07-20 重庆邮电大学 一种基于传感节点标识符平台的信息管理和分析方法
CN109766337A (zh) * 2018-11-28 2019-05-17 杭州云为科技有限公司 树形结构数据的存储方法、电子设备、存储介质及系统
CN109766337B (zh) * 2018-11-28 2023-05-09 杭州云为科技有限公司 树形结构数据的存储方法、电子设备、存储介质及系统
CN111783318A (zh) * 2019-10-15 2020-10-16 上海大学 一种基于三维模型的装配质量数据分析和可视化方法
CN111783318B (zh) * 2019-10-15 2023-03-24 上海大学 一种基于三维模型的装配质量数据分析和可视化方法
CN111489165A (zh) * 2020-04-15 2020-08-04 支付宝(杭州)信息技术有限公司 目标对象的数据处理方法、装置和服务器
CN111489165B (zh) * 2020-04-15 2022-08-12 支付宝(杭州)信息技术有限公司 目标对象的数据处理方法、装置和服务器

Also Published As

Publication number Publication date
US20190102383A1 (en) 2019-04-04
TW201741903A (zh) 2017-12-01
CN107102999B (zh) 2021-09-10
US10956395B2 (en) 2021-03-23
WO2017143908A1 (zh) 2017-08-31
TWI730043B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107102999A (zh) 关联分析方法和装置
US10691646B2 (en) Split elimination in mapreduce systems
CN101479697B (zh) 用于数据存储和检索的系统和方法
de Leoni et al. Discovering branching conditions from business process execution logs
US20160085832A1 (en) System and method of analyzing data using bitmap techniques
CN110929884B (zh) 一种基于列划分的分布式机器学习优化的分类方法及装置
CN103258049A (zh) 一种基于海量数据的关联规则挖掘方法
US11182364B2 (en) Data analysis support apparatus and data analysis support method
CN108268586A (zh) 跨多数据表的数据处理方法、装置、介质和计算设备
Stahl et al. Computationally efficient induction of classification rules with the PMCRI and J-PMCRI frameworks
CN108604249A (zh) 生成索引信息的数据库的存档方法及装置、包含索引信息的存档的数据库的搜索方法及装置
EP3683696A1 (en) System and method of bloom filter for big data
KR101450239B1 (ko) 대용량 xml 데이터에 대한 다수의 가지 패턴 질의의 동시 병렬처리시스템 및 그 방법
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
US20210182293A1 (en) Candidate projection enumeration based query response generation
CN110457398A (zh) 区块数据存储方法及装置
Bagavathi et al. Rule based systems in distributed environment: Survey
Firth et al. TAPER: query-aware, partition-enhancement for large, heterogenous graphs
Ravindra et al. Efficient processing of RDF graph pattern matching on MapReduce platforms
CN114691302A (zh) 一种面向大数据处理的动态缓存替换方法及设备
KR101621490B1 (ko) 쿼리 실행 장치 및 방법, 그리고 그를 이용한 데이터 처리 시스템
JP4772506B2 (ja) 情報処理方法、情報処理システムおよびプログラム
Wakchaure et al. Sequential pattern mining using apriori and FP growth algorithm
US20170185317A1 (en) File system having a database management system using file pre-allocation in mass storage devices
US11294961B2 (en) Information search apparatus, search program, database update method, database update apparatus and database update program, for searching a specified search target item associated with specified relation item

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211202

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG TMALL TECHNOLOGY Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right