CN103678314A - 基于关联规则提取的海量数据处理系统、设备及方法 - Google Patents

基于关联规则提取的海量数据处理系统、设备及方法 Download PDF

Info

Publication number
CN103678314A
CN103678314A CN201210320078.2A CN201210320078A CN103678314A CN 103678314 A CN103678314 A CN 103678314A CN 201210320078 A CN201210320078 A CN 201210320078A CN 103678314 A CN103678314 A CN 103678314A
Authority
CN
China
Prior art keywords
data
correlation rule
data processing
information recording
parameter information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210320078.2A
Other languages
English (en)
Other versions
CN103678314B (zh
Inventor
冯哲
张工厂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201210320078.2A priority Critical patent/CN103678314B/zh
Publication of CN103678314A publication Critical patent/CN103678314A/zh
Application granted granted Critical
Publication of CN103678314B publication Critical patent/CN103678314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于关联规则提取的海量数据处理系统、设备和方法。其中,所述系统包括关联规则信息提取装置、关联参数信息记录表存储装置、数据处理服务器、第一数据库、第二数据库和参数表存储装置,所述关联规则信息提取装置周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表。本发明所公开的基于关联规则提取的海量数据处理系统、设备和方法既能够使参数表的记录数较少又能够使系统具有高的参数解析性能。

Description

基于关联规则提取的海量数据处理系统、设备及方法
技术领域
本发明涉及数据处理系统、设备及方法,更具体地,涉及基于关联规则提取的海量数据处理系统、设备及方法。
背景技术
目前,随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富,海量数据的处理(例如金融交易数据的处理)变得越来越重要。
在现有的海量数据的处理系统及方法中,通常使用和依赖多个参数表(其包含大量参数信息)来协助处理数据(例如执行金融交易数据的清算操作)。一般而言,现有的海量数据的处理系统及方法通过如下两种方式完成参数表的设计与解析:(1)参数表的个数尽可能少,以保证系统参数的解析性能;(2)参数表个数较多,并依赖各个参数表之间的关联关系进行数据的处理。
然而,现有的海量数据的处理系统及方法存在如下问题:(1)针对第一种方式,由于参数表的决定要素太多,故各个决定要素取值关系组合后参数表的记录数极大,由此带来极大的空间需求,从而该方式对数据处理复杂程度较高的系统而言是不现实的,此外,在使用该方式的情况下,进行参数配置的工作量极大;(2)针对第二种方式,由于参数表的决定要素较少,故各个决定要素取值关系组合后参数表的记录数较少,但解析过程中需要依赖参数表之间的关联关系进行处理,从而导致解析性能较差。
因此,存在如下需求:提供既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。
发明内容
为了解决上述现有技术方案中所存在的问题,本发明提出了既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。
本发明的目的是通过以下技术方案实现的:
一种基于关联规则提取的海量数据处理系统,所述基于关联规则提取的海量数据处理系统包括:
第一数据库,所述第一数据库用于存储已处理的数据记录;
参数表存储装置,所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则;
关联规则信息提取装置,所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;
关联参数信息记录表存储装置,所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表;
数据处理服务器,所述数据处理服务器用于执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中;
第二数据库,所述第二数据库用于存储所述未处理的数据记录。
在上面所公开的方案中,优选地,所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录,并统计每个数据记录在所有所述多个参数表中的对应匹配记录,并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。
在上面所公开的方案中,优选地,所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。
在上面所公开的方案中,优选地,所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。
在上面所公开的方案中,优选地,所述系统包括多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联。
在上面所公开的方案中,优选地,所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成。
在上面所公开的方案中,优选地,通过周期性地从所述第一数据库读取当前周期的数据记录,所述关联规则信息提取装置能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。
在上面所公开的方案中,优选地,所述数据处理服务器进一步包括:
预处理模块,所述预处理模块用于执行内存装载预处理操作,其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则;(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供数据处理模块8后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载;
数据处理模块,所述数据处理模块用于周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中。
在上面所公开的方案中,优选地,所述数据处理模块进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息。
本发明的目的还可以通过以下技术方案实现:
一种关联规则信息提取装置,所述关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。
本发明的目的还可以通过以下技术方案实现:
一种数据处理服务器,所述数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中。
本发明的目的还可以通过以下技术方案实现:
一种基于关联规则提取的海量数据处理方法,所述基于关联规则提取的海量数据处理方法包括下列步骤:
(A1)关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;
(A2)数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中
本发明所公开的基于关联规则提取的海量数据处理系统、设备及方法具有如下优点:既允许在使用基于关联规则的多表设计(所需的空间开销较小),也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果(即多个数据表记录的乘运算和加运算的结合),从而提高了系统的处理性能,此外,本发明所公开的基于关联规则提取的海量数据处理系统及方法能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。    
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的基于关联规则提取的海量数据处理系统的示意性结构图;
图2是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的多个参数表之间的结构关系的示意图;
图3是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的关联参数信息记录的结构关系的示意图;
图4是根据本发明的实施例的基于关联规则提取的海量数据处理方法的流程图。
具体实施方式
图1是根据本发明的实施例的基于关联规则提取的海量数据处理系统的示意性结构图。如图1所示,本发明所公开的基于关联规则提取的海量数据处理系统包括关联规则信息提取装置1、关联参数信息记录表存储装置2、数据处理服务器3、第一数据库4、第二数据库5和参数表存储装置6。其中,所述第一数据库4用于存储已处理的数据记录(示例性地,所述数据记录是交易数据记录)。所述参数表存储装置6用于存储多个参数表以及所述多个参数表之间的关联规则。所述关联规则信息提取装置1用于周期性地(例如每日)从所述第一数据库4读取当前周期的数据记录(例如读取当日的交易数据),并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置2,其中,每个发生概率较高的数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。所述关联参数信息记录表存储装置2用于存储接收到的关联参数信息记录表。所述数据处理服务器3用于执行内存装载预处理操作,并随后周期性地(例如每日)从第二数据库5读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库4中。所述第二数据库5用于存储所述未处理的数据记录(例如未处理的金融交易数据记录)。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述关联规则信息提取装置1从所述第一数据库4读取当前周期的数据记录(例如读取当日的交易数据),并统计每个数据记录在所有所述多个参数表中的对应匹配记录(例如特定组合的次数),并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述关联规则信息提取装置1进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,示例性地,所述预处理操作包括中间数据清理、当前处理周期(例如当前处理日)属性对应的关联参数信息记录表数据清理操作等。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述关联参数信息记录表中的各个记录是所述多个参数表(即原始各参数表)集合中满足所述多个参数表之间的关联规则(最小支持度和最小置信度)的关联参数信息的集合。
图2是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的多个参数表之间的结构关系的示意图。如图2所示,本发明所公开的基于关联规则提取的海量数据处理系统包括多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联(即各个参数表之间通过关联规则而相互关联)。
图3是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的关联参数信息记录的结构关系的示意图。如图3所示,关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率较高的数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)所对应的至少一个参数表的所有决定要素和决定结果构成(即其可以是多个参数表的所有决定要素合并后的一张大表)。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,通过周期性地(例如每日)从所述第一数据库4读取当前周期的数据记录(即通过周期性地用当前周期的数据记录进行训练),所述关联规则信息提取装置1能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持(即提供针对当前数据的处理规则)。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述数据处理服务器3进一步包括预处理模块7和数据处理模块8。所述预处理模块7用于执行内存装载预处理操作(为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效),其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则(即多参数表/大参数量集合);(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供数据处理模块8后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载。所述数据处理模块8用于周期性地(例如每日)从第二数据库5读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库4中。
优选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述数据处理模块8进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息(即不再按常规的参数处理路径继续处理,从而实现高概率数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)的最短路径处理)。
可选地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述关联规则信息提取装置1、关联参数信息记录表存储装置2、数据处理服务器3、第一数据库4、第二数据库5和参数表存储装置6中的一个或多个可以是独立的物理实体,也可以位于同一物理实体中。
示例性地,在本发明所公开的基于关联规则提取的海量数据处理系统中,所述预处理模块7在T+1日进行内存装载时使用T日的关联参数信息记录表来决定内存中的参数信息结构,并且在T+1日系统进行数据处理时根据内存中参数信息结构区分参数解析策略,以及系统处理结束后再生成T+1日的已处理数据记录并反馈给关联规则信息提取装置1以生成T+1日的关联参数信息记录表,即其是自适应的循环过程。
由上可见,本发明所公开的基于关联规则提取的海量数据处理系统既允许在使用基于关联规则的多表设计(所需的空间开销较小),也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果(即多个数据表记录的乘运算和加运算的结合),从而提高了系统的处理性能,此外,本发明所公开的基于关联规则提取的海量数据处理系统能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。
如图1所示,本发明公开了关联规则信息提取装置1,所述关联规则信息提取装置1周期性地(例如每日)从第一数据库4读取当前周期的数据记录(例如读取当日的交易数据),并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,其中,每个发生概率较高的数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。
优选地,本发明所公开的关联规则信息提取装置1从所述第一数据库4读取当前周期的数据记录(例如读取当日的交易数据),并统计每个数据记录在所有所述多个参数表中的对应匹配记录(例如特定组合的次数),并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。
优选地,本发明所公开的关联规则信息提取装置1进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,示例性地,所述预处理操作包括中间数据清理、当前处理周期(例如当前处理日)属性对应的关联参数信息记录表数据清理操作等。
优选地,在本发明所公开的关联规则信息提取装置中,所述关联参数信息记录表中的各个记录是所述多个参数表(即原始各参数表)集合中满足所述多个参数表之间的关联规则(最小支持度和最小置信度)的关联参数信息的集合
优选地,通过周期性地(例如每日)从所述第一数据库4读取当前周期的数据记录(即通过周期性地用当前周期的数据记录进行训练),本发明所公开的关联规则信息提取装置1能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持(即提供针对当前数据的处理规则)。
如图1所示,本发明公开了数据处理服务器3,所述数据处理服务器3执行内存装载预处理操作,并随后周期性地(例如每日)从第二数据库5读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库4中。
优选地,本发明所公开的数据处理服务器3进一步包括预处理模块7和数据处理模块8。所述预处理模块7用于执行内存装载预处理操作(为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效),其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则(即多参数表/大参数量集合);(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供数据处理模块8后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载。所述数据处理模块8用于周期性地(例如每日)从第二数据库5读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库4中。
优选地,在本发明所公开的数据处理服务器3中,所述数据处理模块8进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息(即不再按常规的参数处理路径继续处理,从而实现高概率数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)的最短路径处理)。
图4是根据本发明的实施例的基于关联规则提取的海量数据处理方法的流程图。如图4所示,本发明所公开的基于关联规则提取的海量数据处理方法包括下列步骤:(A1)关联规则信息提取装置周期性地(例如每日)从第一数据库读取当前周期的数据记录(例如读取当日的交易数据),并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储,其中,每个发生概率较高的数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;(A2)数据处理服务器执行内存装载预处理操作,并随后周期性地(例如每日)从第二数据库读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述步骤(A1)进一步包括:所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录(例如读取当日的交易数据),并统计每个数据记录在所有所述多个参数表中的对应匹配记录(例如特定组合的次数),并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述步骤(A1)进一步包括:所述关联规则信息提取装置在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,示例性地,所述预处理操作包括中间数据清理、当前处理周期(例如当前处理日)属性对应的关联参数信息记录表数据清理操作等。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述关联参数信息记录表中的各个记录是所述多个参数表(即原始各参数表)集合中满足所述多个参数表之间的关联规则(最小支持度和最小置信度)的关联参数信息的集合。
如图2所示,本发明所公开的基于关联规则提取的海量数据处理方法使用多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联(即各个参数表之间通过关联规则而相互关联)。
如图3所示,在本发明所公开的基于关联规则提取的海量数据处理方法,关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率较高的数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)所对应的至少一个参数表的所有决定要素和决定结果构成(即其可以是多个参数表的所有决定要素合并后的一张大表)。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,通过周期性地(例如每日)从所述第一数据库读取当前周期的数据记录(即通过周期性地用当前周期的数据记录进行训练),所述关联规则信息提取装置能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持(即提供针对当前数据的处理规则)。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述步骤(A2)进一步包括:所述数据处理服务器执行内存装载预处理操作(为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效),包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则(即多参数表/大参数量集合);(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载。所述步骤(A2)进一步包括:所述数据处理服务器周期性地(例如每日)从第二数据库读取出当前周期的未处理的数据(例如读取出当日未处理的数据),以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中。
优选地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述步骤(A2)进一步包括:所述数据处理服务器在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息(即不再按常规的参数处理路径继续处理,从而实现高概率数据(即统计学意义上发生次数较多的事件所对应的数据,换句话说,即发生概率超过预定阈值的数据)的最短路径处理)。
示例性地,在本发明所公开的基于关联规则提取的海量数据处理方法中,所述数据处理服务器在T+1日进行内存装载时使用T日的关联参数信息记录表来决定内存中的参数信息结构,并且在T+1日系统进行数据处理时根据内存中参数信息结构区分参数解析策略,以及系统处理结束后再生成T+1日的已处理数据记录并反馈给关联规则信息提取装置以生成T+1日的关联参数信息记录表,即其是自适应的循环过程。
由上可见,本发明所公开的基于关联规则提取的海量数据处理方法既允许在使用基于关联规则的多表设计(所需的空间开销较小),也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果(即多个数据表记录的乘运算和加运算的结合),从而提高了数据处理性能,此外,本发明所公开的基于关联规则提取的海量数据处理方法能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (12)

1.一种基于关联规则提取的海量数据处理系统,所述基于关联规则提取的海量数据处理系统包括:
第一数据库,所述第一数据库用于存储已处理的数据记录;
参数表存储装置,所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则;
关联规则信息提取装置,所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;
关联参数信息记录表存储装置,所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表;
数据处理服务器,所述数据处理服务器用于执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中;
第二数据库,所述第二数据库用于存储所述未处理的数据记录。
2.根据权利要求1所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录,并统计每个数据记录在所有所述多个参数表中的对应匹配记录,并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。
3.根据权利要求2所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。
4.根据权利要求3所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。
5.根据权利要求4所述的基于关联规则提取的海量数据处理系统,其特征在于,所述系统包括多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联。
6.根据权利要求5所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成。
7.根据权利要求6所述的基于关联规则提取的海量数据处理系统,其特征在于,通过周期性地从所述第一数据库读取当前周期的数据记录,所述关联规则信息提取装置能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。
8.根据权利要求7所述的基于关联规则提取的海量数据处理系统,其特征在于,所述数据处理服务器进一步包括:
预处理模块,所述预处理模块用于执行内存装载预处理操作,其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则;(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供数据处理模块8后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载;
数据处理模块,所述数据处理模块用于周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中。
9.根据权利要求8所述的基于关联规则提取的海量数据处理系统,其特征在于,所述数据处理模块进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息。
10.一种关联规则信息提取装置,所述关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。
11.一种数据处理服务器,所述数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中。
12.一种基于关联规则提取的海量数据处理方法,所述基于关联规则提取的海量数据处理方法包括下列步骤:
(A1)关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;
(A2)数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中。
CN201210320078.2A 2012-09-03 2012-09-03 基于关联规则提取的海量数据处理系统、设备及方法 Active CN103678314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210320078.2A CN103678314B (zh) 2012-09-03 2012-09-03 基于关联规则提取的海量数据处理系统、设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210320078.2A CN103678314B (zh) 2012-09-03 2012-09-03 基于关联规则提取的海量数据处理系统、设备及方法

Publications (2)

Publication Number Publication Date
CN103678314A true CN103678314A (zh) 2014-03-26
CN103678314B CN103678314B (zh) 2017-07-25

Family

ID=50315917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210320078.2A Active CN103678314B (zh) 2012-09-03 2012-09-03 基于关联规则提取的海量数据处理系统、设备及方法

Country Status (1)

Country Link
CN (1) CN103678314B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930630A (zh) * 2015-09-15 2016-09-07 中国银联股份有限公司 一种数据分析方法及装置
CN107145574A (zh) * 2017-05-05 2017-09-08 恒生电子股份有限公司 数据库数据处理方法、装置及存储介质和电子设备
CN107688591A (zh) * 2017-04-06 2018-02-13 平安科技(深圳)有限公司 一种精算处理方法和装置
CN110334119A (zh) * 2019-06-21 2019-10-15 腾讯科技(深圳)有限公司 一种数据关联处理方法、装置、设备及介质
CN110634073A (zh) * 2019-09-20 2019-12-31 中国银行股份有限公司 交易冻结方法及系统
CN111078680A (zh) * 2018-10-18 2020-04-28 杭州海康威视数字技术股份有限公司 表格信息处理方法、装置、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN102098175B (zh) * 2011-01-26 2015-07-01 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930630A (zh) * 2015-09-15 2016-09-07 中国银联股份有限公司 一种数据分析方法及装置
CN107688591A (zh) * 2017-04-06 2018-02-13 平安科技(深圳)有限公司 一种精算处理方法和装置
WO2018184419A1 (zh) * 2017-04-06 2018-10-11 平安科技(深圳)有限公司 一种精算处理方法和装置
CN107688591B (zh) * 2017-04-06 2019-05-07 平安科技(深圳)有限公司 一种精算处理方法和装置
CN107145574A (zh) * 2017-05-05 2017-09-08 恒生电子股份有限公司 数据库数据处理方法、装置及存储介质和电子设备
CN111078680A (zh) * 2018-10-18 2020-04-28 杭州海康威视数字技术股份有限公司 表格信息处理方法、装置、电子设备及可读存储介质
CN111078680B (zh) * 2018-10-18 2023-09-26 杭州海康威视数字技术股份有限公司 表格信息处理方法、装置、电子设备及可读存储介质
CN110334119A (zh) * 2019-06-21 2019-10-15 腾讯科技(深圳)有限公司 一种数据关联处理方法、装置、设备及介质
CN110634073A (zh) * 2019-09-20 2019-12-31 中国银行股份有限公司 交易冻结方法及系统
CN110634073B (zh) * 2019-09-20 2022-02-01 中国银行股份有限公司 交易冻结方法及系统

Also Published As

Publication number Publication date
CN103678314B (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
CN103678314A (zh) 基于关联规则提取的海量数据处理系统、设备及方法
US9619512B2 (en) Memory searching system and method, real-time searching system and method, and computer storage medium
CN106202235B (zh) 一种数据处理方法及装置
US20180365254A1 (en) Method and apparatus for processing information flow data
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN109002484B (zh) 一种用于顺序消费数据的方法及系统
US11176110B2 (en) Data updating method and device for a distributed database system
CN103838867A (zh) 日志处理方法和装置
US8725684B1 (en) Synchronizing data stores
CN107688488B (zh) 一种基于元数据的任务调度的优化方法及装置
CN103593257B (zh) 一种数据备份方法及装置
CN103942292A (zh) 虚拟机镜像文件处理方法、装置及系统
WO2014021978A4 (en) Aggregating data in a mediation system
CN106844607B (zh) 一种适用于非整型主键与空闲块合并的SQLite数据恢复方法
CN111125013B (zh) 一种数据入库方法、装置、设备及介质
CN107040576A (zh) 信息推送方法及装置、通讯系统
CN104102701A (zh) 一种基于hive的历史数据存档与查询方法
RU2010128169A (ru) Поддержка асинхронной многоуровневой отмены в сетке javascript
CN105447168A (zh) Mp4格式的碎片文件恢复与重组的方法
CN105159820A (zh) 一种系统日志数据传输方法及装置
CN105005585A (zh) 一种日志数据的处理方法和装置
CN103812679A (zh) 一种海量日志统计分析系统和方法
CN103207916A (zh) 元数据处理的方法和装置
CN101980190A (zh) 一种业务数据快速入库的方法和装置
CN102479211A (zh) 基于数据库的海量数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant