CN104462343A

CN104462343A - 一种大数据比对碰撞系统

Info

Publication number: CN104462343A
Application number: CN201410735745.2A
Authority: CN
Inventors: 庞艳民
Original assignee: BEIJING QINGSHI CHANGMING TECHNOLOGY Co Ltd
Current assignee: BEIJING QINGSHI CHANGMING TECHNOLOGY Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2015-03-25
Anticipated expiration: 2034-12-08
Also published as: CN104462343B

Abstract

一种大数据比对碰撞系统(BAS)，涉及电数字数据处理领域，本发明提供一种以多维度分块递归比对算法为基础的比对碰撞系统，以解决数据比对耗时长的技术问题。本系统包括以下四个模块：表单管理模块、模型管理模块、组织结构模块、系统管理模块，本系统核心功能是管理加载不同的数据来源的数据，并对不同数据源的数据进行建模，执行模型后得到用户需要的结果。

Description

一种大数据比对碰撞系统

技术领域

本发明涉及电数字数据处理领域，特别涉及一种大数据比对碰撞系统(BAS)。

背景技术

随着大数据云计算时代的来临，传统的比对碰撞算法已经无法满足当前数据形式下的需要，如何从海量数据中分析比对出有价值有意义的数据成为了计算机技术的瓶颈。利用传统的比对碰撞算法，如果两个数据集是一万以内数据的话，取交集的时间大约为1s-5s之间，如果数据集到达一万以上的话，随着数据的增加，比对算法将会骤减。

为了解决两个大数据集合之间进行比对碰撞效率的问题，本系统采用了多维度分块递归比对算法进行比对碰撞，即对两个大数据集进行多维度分块切分，切分后递归进行比对碰撞。

实验表明，多维度分块递归比对算法的性能与一般算法相比有了很大提升，对于十万以下的两个数据集进行比对消耗时间大概为2s以内，十万至一百万的两个数据集合进行比对，消耗时间大概为5s以内，大大的增加了比对性能和效率，提高了大数据分析的可靠性和功能的延展性。本系统就是以多维度分块递归比对算法为技术依据，对不同的数据表中的数据进行选择和比对碰撞，最终得到满足条件的有价值的结果。

发明内容

本发明提供一种以多维度分块递归比对算法为基础的比对碰撞系统，以解决数据比对耗时长的技术问题。本系统的核心功能是管理加载不同的数据来源的数据，并对不同数据源的数据进行建模，执行模型后得到用户需要的结果。

为达到上述目的，本发明提供的大数据比对碰撞系统包括以下四个模块：表单管理模块、模型管理模块、组织结构模块、系统管理模块。

1、表单管理模块：表单管理模块包括：添加表单、维护表单、表单导入和表单导出。

1.1建立表单：添加一个新的表单，需要填写表单的中文名称、表单对应的数据库(MYSQL/ORACLE/SQLSERVER/DB2....)的名称，数据库表的对应IP地址、端口、用户名、密码、数据库表等相关信息。如果是文件，则需要填写文件地址信息等。添加表单中的字段的信息，如果是文件，则需要填写文件的各列的数据信息，同时需要设置每个字段的属性、类型等信息。

1.2维护表单：对表单中的相关信息进行维护，包括表单属性维护以及表单中的字段信息进行维护。

1.3表单导入：由于表单中的相关信息填写比较复杂，因此为了方便表单的维护，系统支持对表单进行自动导入，即按照系统的模板进行导入即可。

1.4表单导出：用户可以将已经建好的表单进行导出，导出后可以直接在其他系统中对表单进行那个导出。

2、模型管理模块：模型管理模块包括：模型管理、模型任务配制、模型比对碰撞、模型结果展示和模型导入导出。

2.1模型管理：在现有数据源以及数据字段的基础上，建立符合用户要求的模型信息，如附图3所示：

2.11数据源：显示目前系统中所有的已经配置的数据源的基本信息。

2.12数据字段：显示当前数据源中的所有的字段信息。

2.13条件构造器：选择某一个字段后，可以在条件构造器中构造相应的检索条件。

2.14逻辑构造器：

同类别数据之间：同一个数据源不同检索条件之间的处理逻辑。

不同类别数据之间：同一个条件组不同数据源结果集之间的数据处理逻辑。

不同条件组之间：不同条件组的比对结果的数据源之间的处理逻辑。

2.15条件组显示区域：显示不同条件组之间的比对碰撞条件信息。

2.2模型任务配置：模型成功建立后，可以对模型的执行策略进行配置，系统支持两种策略：定点执行和实时执行。

定点执行：即一天执行一次，需要在系统中配置每天几点开始执行。

实时执行：即一天执行多次，需要在系统中配置多长时间触发一次。

2.3模型比对碰撞：模型被成功触发后，执行流程如下：

得到当前的模型信息；得到模型中的条件组信息；抽取条件组中的相同类型的数据检索条件、根据条件组逻辑处理进行抽取碰撞；条件组同一类型的数据进行抽取碰撞后，将不同的数据类型之间的数据按照不同类别数据之间的处理逻辑进行处理。

2.4模型结果展示：模型执行的结果支持列表的展示形式，即将最终的比对碰撞的结果按照列表的形式进行展示。

2.5模型导入导出：模型建立成功后，系统支持用户批量导出模型信息到xml文件，系统导出xml文件后，用户可以将xml文件导入到其他系统中，直接建立模型。

3、组织结构模块：组织结构主要是对平台的用户角色权限进行管理和维护，包括如下功能：

3.1用户管理：用户管理是对平台的用户进行管理维护，包括如下功能：

添加用户：添加某一个平台用户；

修改用户：对用户的基本信息进行修改；

注销用户：删除某一个平台用户。

3.2角色管理：角色管理是对平台的角色进行管理维护，包括如下功能：

添加角色：添加某一个平台角色；

修改角色：对角色的基本信息进行修改；

删除角色：删除某一个平台角色。

3.3角色分配：角色分配是对平台的用户进行角色分配，平台支持同一个用户属于不同的角色。

3.4权限分配：权限分配是对平台的角色进行授权，为角色授权后，平台用户将自动继承角色的权限信息

4、系统管理模块：系统管理中包含了与平台正常运行紧密关联的系统运维、运行监控、设置调优、任务控制等核心操作，其功能如下：

4.1日志管理：日志管理包括如下几种类型：

平台用户操作日志：对平台用户在登录平台后的主要操作进行记录监控

平台运行记录：对整个平台的运行情况进行监控，一旦出现异常自动报警。

开发者调用记录：平台中的开发者利用平台进行开发过程中的相关操作记录。

4.2任务管理：任务管理是平台提供的定时触发调用相关任务的插件，里面包含系统任务和定制任务两种类型：

系统任务：平台中的任务，不能进行删除和修改，主要包括一些与平台运行息息相关的任务调用，例如缓存清理任务、数据优化任务、图形插件优化任务等；

定制任务：开发者自己开发的相关任务，开发者只需要实现平台中的相关接口，并且在任务中进行相关配置即可按照相关规则进行调用。

4.3接口管理：接口管理是平台提供的相关数据集之间获取交集和并集的接口管理方法，用户可以在接口管理里面上传最新的经过优化的数据碰撞比对算法以及相关文档信息。

4.4系统配置：系统配置是平台参数配置的入口，系统运行的相关参数都可以在系统配置中进行修改和维护，系统配置修改后，会于第二天生效。

本系统是通过“多维度分块递归比对算法”为核心算法的比对碰撞系统，多维度分块递归比对算法的原理如下：

对两个大数据集合COL1、COL2进行多维度拆分后得到

COL11，COL12，COL13....COL1N

以及

COL21，COL22，COL23...COL2N，两个数据集合块组，数据块的拆分根据随机拆分的方式进行即可，每个数据块中分配n个数据。

计算数据块的特征值特征值被称为数据集相似指纹字符串，可以作为当前数据块的标志和比对依据，特征值的计算方式如下：

&PartialD; = \frac{n 1 Σn 1 nn - nnΣn 1 nn}{\sqrt{n 1 \cap n 2 \cap n 3 \cap n 4 . . . . \cap nn}} Σ \frac{n 1 &CirclePlus; n 2 &CirclePlus; n 3 &CirclePlus; n 4 . . . &CirclePlus; nn}{(n 1 + nn) / n}

将这个数据集合块组递归进行比对，得到数据块之间的相似度。递归比对通过数据块之间的特征值进行计算，不进行逐一比对，相似度计算方法如下：

λ = \sqrt{\frac{&Integral; (&PartialD; 1 + &PartialD; 2) / &Integral; &PartialD; 1 &PartialD; 2}{&PartialD; 1 &PartialD; 2}} / Σ \frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2} \cap Σ \frac{(&PartialD; 1 + &PartialD; 2)}{&Integral; &PartialD; 1 &PartialD; 2} / \sqrt{\frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2}}

按照相似度的大小重新对同一个数据集合中的数据进行重组，得到新重组后的两个数据结合块组：

NCOL11，NCOL12，NCOL13....NCOL1N

以及

NCOL21，NCOL22，NCOL23...NCOL2N

重复上述过程，继续比对不同数据块之间的相似度，重新重组数据得到最后重组后的数据块组。

当两个数据块组之间的相似度达到一个临界值的时候，利用递归比对算法得到最终的结果即可，递归比对算法算法如下：

p (x, y) = \frac{Σ x_{i} y_{i} - n \overset{&OverBar;}{xy}}{(n - 1) s_{x} s_{y}} = \frac{nΣ x_{i} y_{i} - Σ x_{i} Σ y_{i}}{\sqrt{nΣ {x_{i}}^{2} - {(Σ x_{i})}^{2}} \sqrt{nΣ {y_{i}}^{2} - {(Σ y_{i})}^{2}}}

本发明采用上述技术方案，具有以下有益效果：

灵活化：灵活建立各种数据比对碰撞的模型，并且对比对碰撞模型的执行策略进行设置；

易用化：系统对所有的数据源进行接管，能够自动的解析不同的数据源中的数据信息，配置比对碰撞模型的时候方便用户进行选择和管理；

智能化：能够智能的对模型进行分析，选择最佳的比对碰撞方案，得到最终的结果；

高性能：采用高性能比对碰撞算法，能够最大程度上提高系统性能，提高用户的体验度；

可扩展：系统支持自己对数据源进行扩展和配置，能够非常方便的实现系统的扩展。

本发明所构建的系统应用环境如下：

硬件环境：

服务器端：内存：16G以上，硬盘：10T以上服务器或专用内存服务器；

客户端：普通PC，内存4G以上。

软件环境：

服务器端：Windows2003、XP或Linux；数据库采用MySQL、SQLServer、Oracle；应用服务器采用TOMCAT5以上或WebSphere、WebLogic；JDK1.6及以上；

客户端：Windows系统操作系统；IE7.0以上版本或者其他版本数据库。

附图说明

图1为大数据比对碰撞系统体系架构图

图2为大数据比对碰撞系统模块分布图

图3为大数据比对碰撞系统模型管理器

图4为大数据比对碰撞系统表单列表

图5为大数据比对碰撞系统模型建立图

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例1：

1、实施前提：

前提一：在大数据比对碰撞系统的表单中，已经包含了如下表单：飞机乘客表单、火车乘客表单、旅馆住宿表单

前提二：在大数据比对碰撞系统的数据库中，已经包含了如下数据：飞机乘客信息、火车乘客信息、旅馆住宿信息

通过大数据比对碰撞系统，得到满足如下模型的所有人员的信息：

条件一：某一个时间段内t1～t2

条件二：人员姓名中包含了王字

条件二：乘坐了飞机

条件三：乘坐了火车

条件四：住过旅馆

2、实施步骤

步骤一：建立模型：在模型管理模块中建立碰撞模型，模型分为三个条件组，

条件组一：乘坐飞机时间大于等于t1并且乘坐飞机时间小于等于t2并且乘客姓名模糊匹配王

条件组二：乘坐火车时间大于等于t1并且乘坐火车时间小于等于t2并且乘客姓名模糊匹配王

条件组三：入住旅馆时间大于等于t1并且入住旅馆时间小于等于t2并且旅客姓名模糊匹配王

模型建立如图5所示。

步骤二：模型建立成功后，按照模型中的条件组一、条件组二、条件组三的条件，分别得到满足条件的结果集：结果集一RES1；结果集二RES2；结果集三RES3；

RES1：

{n70，n59，n79，n31，n73，n23，n5，n75，n76，n82，n52，n72，n46，n14，n40，n99，n73，n49，n46，n8，n83，n72，n73，n61，n76，n57，n46，n63，n57，n2...}

RES2：

{n93，n38，n72，n83，n88，n56，n87，n22，n12，n29，n25，n23，n52，n51，n66，n98，n52，n19，n76，n92，n29，n21，n40，n51，n67，n67，n50，n18，n43，n80...}

RES3：

{n51，n68，n12，n28，n31，n89，n40，n29，n50，n59，n3，n36，n24，n95，n45，n86，n71，n39，n96，n44，n20，n95，n77，n91，n44，n81，n18，n46，n84，n41...}

步骤三：得到结果集后，调用多维度分块递归比对算法，对三个数据集取交集，步骤如下：

(1)得到RES1、RES2、RES3中的数据个数分别为NUM1、NUM2、NUM3；

(2)比较得到数据量较小的两个结果集，例如：RES1RES3；

(3)根据RES1、RES3两个数据集合的数量级NUM1、NUM3，利用公式

ΠUNM 1 * NUM 3 / \sqrt{NUM 1 + NUM 3}

得到一个平均数据级NUM；

(4)根据数量NUM，将RES1、RES3随机切分成N1、N3个数组，实现多维度拆分，结果如下：

RES1：RES11、RES12、RES13...RESN1；

RES3：RES31、RES32、RES33...RESN3；

每个随机切分的数组中包含NUM个数据。

(5)计算每个数组的特征值：得到RES11数组中的信息{n1，n2，n3，n4，n5....nn}，根据公式计算RES11的特征值：

&PartialD; = \frac{n 1 Σn 1 nn - nnΣn 1 nn}{\sqrt{n 1 \cap n 2 \cap n 3 \cap n 4 . . . . \cap nn}} Σ \frac{n 1 &CirclePlus; n 2 &CirclePlus; n 3 &CirclePlus; n 4 . . . &CirclePlus; nn}{(n 1 + nn) / n},

其他数组以此类推，得到所有数组的特征值：

RES1：

RES2：

(6)特征值比对：递归计算RES1的特征值和RES2的特征值的相似度，相似度的比对公式为：

λ = \sqrt{\frac{&Integral; (&PartialD; 1 + &PartialD; 2) / &Integral; &PartialD; 1 &PartialD; 2}{&PartialD; 1 &PartialD; 2}} / Σ \frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2} \cap Σ \frac{(&PartialD; 1 + &PartialD; 2)}{&Integral; &PartialD; 1 &PartialD; 2} / \sqrt{\frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2}}

(7)数组加倍重组：根据递归计算的相似度对RES1中的数组与RES2中的数组进行重组，将相似度高的数组放在前面，然后将数组两两合并，得到如下两个数组：

RES1：RES111，RES112，RES113...

RES3：RES311，RES312，RES313...

此时数组个数已经由原来的NUM变成了NUM/2。

(8)对新得到的数组重复上面的步骤4-7，一直当两个数据块组之间的相似度达到一个临界值的时候，此时数组之间的相似的数据已经集中到最前面的数组中了，然后调用递归比对算法，即可计算出最终的交集，比对算法如下：

p (x, y) = \frac{Σ x_{i} y_{i} - n \overset{&OverBar;}{xy}}{(n - 1) s_{x} s_{y}} = \frac{nΣ x_{i} y_{i} - Σ x_{i} Σ y_{i}}{\sqrt{nΣ {x_{i}}^{2} - {(Σ x_{i})}^{2}} \sqrt{nΣ {y_{i}}^{2} - {(Σ y_{i})}^{2}}}

(9)得到RES1与RES3的交集RES13。

(10)利用上述步骤3-9继续对RES13与RES2取交集，得到最终的结果RES132。

(11)RES132即为RES1 RES2 RES3三个数组的最终交集。

步骤四：验证：利用传统的遍历算法，获取RES1、RES2、RES3的交集，最终结果证明，传统的交集获取算法与多维度分块递归比对算法得到的最终结果完全一致。

3、实施效果对比：多维度分块递归比对算法是通过比较数组的相似度来对数组进行排序调整，最后通过碰撞算法最终获取交集的方法。以两个10万级别的数据碰撞算法为例，多维度分块递归比对算法与传统的交集比对算法有如下区别：

多维度分块递归比对算法：

(1)将两个10万数据进行分组，例如1000个数据一个组的话，分别将10万数据分成100个数组

(2)分别计算100个数组的特征向量

(3)递归比较两个数据组之间的相似度，对100个数组进行顺序调整，重组后，100个数组变成了50个数组(分析：在此过程中，最为耗时的算法为递归算法，递归比较的次数应该小于100＊100次)

(4)数组排序重复后由原来的100个数组变成了50个数组。(分析：重复上述操作，递归比较次数小于50＊50次)

(5)最终调用碰撞算法获取到交集，由于相似数据已经被调整到数组的前面，因此有效提高了碰撞算法取交集的速度。

(6)整个过程中最耗时的为递归计算，其他算法效率可以忽略。

传统的交集比对算法：

(1)获取到数据组一中的一个数据

(2)循环遍历数据组二中，分析是否有当前数据

(3)重复上述1-2的过程

(4)最终获取到交集(传统交集比对算法采用遍历算法，最终比较次数最大为100000＊100000次) 。

Claims

1.一种大数据比对碰撞系统，其特征在于：包括以下四个模块：表单管理模块、模型管理模块、组织结构模块、系统管理模块；其中表单管理模块包括：建立表单、维护表单、表单导入和表单导出；模型管理模块包括：模型管理、模型任务配制、模型比对碰撞、模型结果展示和模型导入导出；组织结构模块是对平台的用户角色权限进行管理和维护，包括用户管理、角色管理、角色分配和权限管理；系统管理模块包含与平台正常运行紧密关联的系统运维、运行监控、设置调优、任务控制等核心操作，其功能包括：日志管理、任务管理、接口管理、系统配置；大数据比对碰撞系统的核心算法是多维度分块递归比对算法。

2.如权利要求1所述的系统，其特征在于，所述多维度分块递归比对算法具体为：

对两个大数据集合COL1、COL2进行多维度拆分后得到

COL11，COL12，COL13....COL1N

以及

COL21，COL22，COL23...COL2N，

两个数据集合块组，数据块的拆分根据随机拆分的方式进行，每个数据块中分配n个数据；

计算数据块的特征值θ，特征值的计算方式如下：

θ = \frac{n 1 Σn 1 nn - nnΣn 1 nn}{\sqrt{n 1 \cap n 2 \cap n 3 \cap n 4 . . . . \cap nn}} Σ \frac{n 1 &CirclePlus; n 2 &CirclePlus; n 3 &CirclePlus; n 4 . . . &CirclePlus; nn}{(n 1 + nn) / n},

相似度计算方法如下：

λ = \sqrt{\frac{{&Integral;}^{(&PartialD; 1 + &PartialD; 2)} / &Integral; &PartialD; 1 &PartialD; 2}{&PartialD; 1 &PartialD; 2}} / Σ \frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2} \cap Σ \frac{(&PartialD; 1 + &PartialD; 2)}{&Integral; &PartialD; 1 &PartialD; 2} / \sqrt{\frac{&PartialD; 1 &PartialD; 2}{&PartialD; 1 + &PartialD; 2}},

按照相似度的大小重新对同一个数据集合中的数据进行重组，得到重组后的两个数据结合块组：

NCOL11，NCOL12，NCOL13....NCOL1N

以及

NCOL21，NCOL22，NCOL23...NCOL2N，

重复上述过程，继续比对不同数据块之间的相似度，重组数据得到最后重组后的数据块组，

当两个数据块组之间的相似度达到一个临界值的时候，利用递归比对算法得到最终的结果，递归比对算法算法如下：

p (x, y) = \frac{Σxiyi - ri \overset{&OverBar;}{xy}}{(n - 1) sxsy} = \frac{nΣxiyi - ΣxiΣyi}{\sqrt{nΣ {xi}^{2} - {(Σxi)}^{2}} \sqrt{nΣ {yi}^{2} - {(Σyi)}^{2}}} .

3.如权利要求1和2所述的系统，其特征在于，系统应用环境如下：

硬件环境：服务器端：内存：16G以上，硬盘：10T以上服务器或专用内存服务器；

客户端：普通PC，内存4G以上。

软件环境：服务器端：Windows2003、XP或Linux；数据库采用MySQL、SQLServer、Oracle；应用服务器采用TOMCAT5以上或WebSphere、WebLogic；JDK1.6及以上；