CN107229694A

CN107229694A - 一种基于大数据的数据信息一致性处理方法、系统及装置

Info

Publication number: CN107229694A
Application number: CN201710364761.9A
Authority: CN
Inventors: 顾喜德
Original assignee: BEIJING HONGMA MEDIA CULTURE DEVELOPMENT CO LTD
Current assignee: BEIJING HONGMA MEDIA CULTURE DEVELOPMENT CO LTD
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-10-03

Abstract

本发明提供了本发明提供一种基于大数据的数据信息一致性处理方法、系统及装置，该方法通过获取至少一个待处理的数据表的业务主键；将所述业务主键转换为统一的标准格式，生成验证码；采用海明距离算法，确定所述验证码数据相似性；采用抽屉原理算法，顺序生成所述验证码数据的标识码；将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；删除所述标识码中的区分码为第二区分码的数据。本发明在对多行或者多列且数据规模在亿级以上的数据进行处理时，节省了大量的处理时间，提高了数据处理的效率。

Description

一种基于大数据的数据信息一致性处理方法、系统及装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于大数据的数据信息一致性处理方法、系统及装置。

背景技术

随着互联网、移动互联网的发展，数据的不断剧增形成大数据时代的显著特征。企业对于大数据的重视度也在不断加强，无论是从数据的存储、计算和运用角度，都投入较多的人力和物力进行尝试探索。

大数据的生产和使用的重要前提之一是数据的清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为"脏数据"。我们要按照一定的规则把"脏数据"″洗掉"，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据和重复的数据。目前，我国已经形成了基本的数据清洗技术格局，但因各自利益的追求，导致仍存在不少问题。到目前为止，数据清洗的规范和标准还没有一个比较权威的版本。

目前常用的数据清洗的方法是，通过对浏览器网页以及客户端APP使用埋点技术进行数据采集，采集平台的访问、触发、提交等数据，进行结构化的存储，形成用户标识与行为和属性之间的关联关系，构建成用户行为基础信息库。来自各个系统之间的数据，通过数据同步方式加载到基础信息库中。在数据清洗过程中，对来自各个数据源的数据进行数据一致性检验，需要针对各个表中的多个字段组合来判断数据的唯一性，过程处理复杂，执行时间过长。

因此，急需一种新的数据一致性处理方式，以减少执行时间，提供处理效率，来保障数据的及时性、准确性，从而为后续服务质量提供及时有力的保障。

发明内容

本发明的主要目的在于提供一种基于大数据的数据信息一致性处理方法、系统及装置，提供了一套通用的互联网大数据数据一致性处理方法的应用模式，实现各类数据的一致性问题，提升数据处理效率，从而更快速的实现数据的准确性。

本发明一方面提供了一种基于大数据的数据信息一致性处理方法，包括：

获取至少一个待处理的数据表的业务主键；

将所述业务主键转换为统一的标准格式，生成验证码；

采用海明距离算法，确定所述验证码数据相似性；

采用抽屉原理算法，顺序生成所述验证码数据的标识码；

将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；

删除所述标识码中的区分码为第二区分码的数据。

进一步的，所述业务主键，包括但不限于：

代表数据唯一性的字段，或者代表数据唯一性的多个字段的组合。

进一步的，所述将所述业务主键转换为统一的标准格式，生成验证码，包括：

根据SimHash算法原理，结合MD5算法原理中分组数据处理方式，将所述业务主键精简优化为统一的标准格式，通过最优验证码格式得到指纹数据，生成最优验证码格式，比较数据的一致性。

进一步的，所述根据SimHash算法原理，结合MD5算法原理中分组数据处理方式，将所述业务主键精简优化为统一的标准格式，生成最优验证码格式，包括：

将所述业务主键进行分词，得到n维的分词向量，并给定每组分词向量的权重；其中，n≥1；

计算每组分词向量的哈希值；

计算每组哈希值的向量加权值；

将每组向量加权值合并，向量累加，精简优化为统一的标准格式，并降维得指纹数据，生成最优验证码格式。

进一步的，所述采用海明距离算法，确定验证码的数据相似性，包括：

计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离，根据计算的海明距离确定验证码的数据相似性。

进一步的，所述采用抽屉原理算法，顺序生成所述验证码数据的标识码，包括：

将验证码数据均匀分布，得到随机组合量；

基于抽屉原理算法，计算随机组合量与原数据的比值，计算倒排返回的验证码数据中的最大数量的候选结果，通过截断索引计算候选结果的比对结果，标记为标识码。

本发明另一方面还提供了一种基于大数据的数据信息一致性处理系统，包括：

获取模块，用于获取至少一个待处理的数据表的业务主键；

转换模块，用于将所述业务主键转换为统一的标准格式，生成验证码；

确定模块，用于采用海明距离算法，确定所述验证码数据相似性；

生成模块，用于采用抽屉原理算法，顺序生成所述验证码数据的标识码；

对比模块，用于将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；

删除模块，用于删除所述标识码中的区分码为第二区分码的数据。

进一步的，所述业务主键，包括但不限于：

进一步的，所述转换模块，包括：

转换单元，用于根据SimHash算法原理，结合MD5算法原理中分组数据处理方式，将所述业务主键精简优化为统一的标准格式，通过最优验证码格式得到指纹数据，生成最优验证码格式，比较数据的一致性。

进一步的，所述转换单元，包括：

分词单元，用于将所述业务主键进行分词，得到n维的分词向量，并给定每组分词向量的权重；其中，n≥1；

第一计算单元，用于计算每组分词向量的哈希值；

第二计算单元，用于计算每组哈希值的向量加权值；

优化单元，用于将每组向量加权值合并，向量累加，精简优化为统一的标准格式，并降维得指纹数据，生成最优验证码格式。

进一步的，所述确定模块，包括：

确定单元，用于计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离，根据计算的海明距离确定验证码的数据相似性。

进一步的，所述生成模块，包括：

生成单元，用于将验证码数据均匀分布，得到随机组合量；基于抽屉原理算法，计算随机组合量与原数据的比值，计算倒排返回的验证码数据中的最大数量的候选结果，通过截断索引计算候选结果的比对结果，标记为标识码。

本发明另一方面还提供了一种基于大数据的数据信息一致性处理装置，包括前述任一项所述的系统。

本发明提供一种基于大数据的数据信息一致性处理方法、系统及装置，该发明通过获取至少一个待处理的数据表的业务主键；将所述业务主键转换为统一的标准格式，生成验证码；采用海明距离算法，确定所述验证码数据相似性；采用抽屉原理算法，顺序生成所述验证码数据的标识码；将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；删除所述标识码中的区分码为第二区分码的数据。通过本发明提供的一种基于大数据的数据信息一致性处理方法、系统及装置，提供了一套通用的互联网大数据数据一致性处理方法的应用模式，在对多行或者多列且数据规模在亿级以上的数据进行处理时，该检查方法配置简单、使用方便、可操作性强，并且能够实现多行或多列的同时数据唯一性处理，节省了大量的处理时间，提高了数据处理的效率。

附图说明

图1为根据本发明的一种基于大数据的数据信息一致性处理方法的实施例一的流程图；

图2为根据本发明的一种基于大数据的数据信息一致性处理系统的实施例二的结构框图；

图3为根据本发明的一种基于大数据的数据信息一致性处理装置的实施例三的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

参照图1，图1示出了本发明提供的一种基于大数据的数据信息一致性处理方法的一实施例的流程图。包括：步骤S110至步骤S160。

在步骤S110中，获取至少一个待处理的数据表的业务主键。

在步骤S120中，将所述业务主键转换为统一的标准格式，生成验证码。

在步骤S130中，采用海明距离算法，确定所述验证码数据相似性。

在步骤S140中，采用抽屉原理算法，顺序生成所述验证码数据的标识码。

在步骤S150中，将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码。

优选的，按数据记录的创建时间进行倒序排序生成有序标识码，将所述标识码与排列在前的第一标识码进行比对，当所述标识码与所述第一标识码相同时，将所述标识码的区分码记为第二区分码。

在步骤S160中，删除所述标识码中的区分码为第二区分码的数据。

其中，删除数据是根据主键合并后的值进行比对校验的，含重复数据和不完整数据两类。

进一步的，所述业务主键，包括但不限于：

优选的，所述业务主键为根据业务需求代表数据唯一性的字段，或者为根据业务需求代表数据唯一性的多个字段组合。

根据SimHash算法原理，结合MD5算法原理中分组数据处理方式，将所述业务主键精简优化为统一的标准格式，通过最优验证码格式得到指纹数据，生成最优验证码格式，比较数据的一致性。验证码是SimHash算法中最终计算得到的指纹数据，是一串数字值。

计算每组分词向量的哈希值；

计算每组哈希值的向量加权值；

其中，海明距离算法原理为：两个码字的对应比特取值不同的比特数称为这两个码字的海明距离。在一个有效编码集中,任意两个码字的海明距离的最小值称为该编码集的海明距离。举例如下：10101和00110从第一位开始依次有第一位、第四、第五位不同，则海明距离为3。

海明距离应用意义为：n位的码字可以用n维空间的超立方体的一个顶点来表示。两个码字之间的海明距离就是超立方体两个顶点之间的一条边，而且是这两个顶点之间的最短距离。

到这里，数据相似度问题基本解决，但是按这个思路，在海量数据几百亿的数量下，效率问题还是没有解决的，因为数据是不断添加进来的，不可能每来一条数据，都要和全库的数据做一次比较，按照这种思路，处理速度会越来越慢，线性增长。

将验证码数据均匀分布，得到随机组合量；

海明算法是把不统一的数据进行格式化为标准数据，即为验证码，抽屉算法把验证码进行比对，比对结果即为标识码。

抽屉原理是属于组合数学的原理，描述为：桌上有十个苹果，要把这十个苹果放到九个抽屉里，无论怎样放，我们会发现至少会有一个抽屉里面至少放两个苹果。这一现象就是我们所说的“抽屉原理”。抽屉原理的一般含义为：“如果每个抽屉代表一个集合，每一个苹果就可以代表一个元素，假如有n+1个元素放到n个集合中去，其中必定有一个集合里至少有两个元素。”。

选取线上交易的应用服务器日志数据为样本库，有2^34条数据(171亿数据)，假设数据均匀分布，则每个16位(16个01数字随机组成的组合为2^16个)倒排返回的最大数量为(补充说明实施例的数据来源：数据为应用服务器日志数据)。

2^34/2^16＝2^(34-16)＝262144个候选结果，4个16位截断索引，总的结果为：4*262144＝1048576，约为100多万，通过上面优化算法后处理，原来需要比较171亿次，现在只需要比较100万次即可得到结果，这样以来大大提升了计算效率。

本发明实施例一提供一种基于大数据的数据信息一致性处理方法，该发明通过获取至少一个待处理的数据表的业务主键；将所述业务主键转换为统一的标准格式，生成验证码；采用海明距离算法，确定所述验证码数据相似性；采用抽屉原理算法，顺序生成所述验证码数据的标识码；将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；删除所述标识码中的区分码为第二区分码的数据。通过本发明提供的一种基于大数据的数据信息一致性处理方法，提供了一套通用的互联网大数据数据一致性处理方法的应用模式，在对多行或者多列且数据规模在亿级以上的数据进行处理时，该检查方法配置简单、使用方便、可操作性强，并且能够实现多行或多列的同时数据唯一性处理，节省了大量的处理时间，提高了数据处理的效率。

实施例二

参照图2，图2示出了本发明提供的一种基于大数据的数据信息一致性处理系统200实施例的结构框图。包括：

获取模块21，用于获取至少一个待处理的数据表的业务主键；

转换模块22，用于将所述业务主键转换为统一的标准格式，生成验证码；

确定模块23，用于采用海明距离算法，确定所述验证码数据相似性；

生成模块24，用于采用抽屉原理算法，顺序生成所述验证码数据的标识码；

对比模块25，用于将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；

删除模块26，用于删除所述标识码中的区分码为第二区分码的数据。

进一步的，所述业务主键，包括但不限于：

进一步的，所述转换模块，包括：

进一步的，所述转换单元，包括：

第一计算单元，用于计算每组分词向量的哈希值；

第二计算单元，用于计算每组哈希值的向量加权值；

进一步的，所述确定模块，包括：

进一步的，所述生成模块，包括：

具体实现的功能和处理方式参见方法实施例一描述的具体步骤。

由于本实施例二的系统所实现的处理及功能基本相应于前述图1所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本发明实施例二提供一种基于大数据的数据信息一致性处理系统，通过获取模块获取至少一个待处理的数据表的业务主键；转换模块将所述业务主键转换为统一的标准格式，生成验证码；采用海明距离算法，确定模块确定所述验证码数据相似性；生成模块采用抽屉原理算法，顺序生成所述验证码数据的标识码；对比模块将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；删除模块删除所述标识码中的区分码为第二区分码的数据。通过本发明提供的一种基于大数据的数据信息一致性处理系统，提供了一套通用的互联网大数据数据一致性处理方法的应用模式，在对多行或者多列且数据规模在亿级以上的数据进行处理时，该检查方法配置简单、使用方便、可操作性强，并且能够实现多行或多列的同时数据唯一性处理，节省了大量的处理时间，提高了数据处理的效率。

实施例三

参照图3，图3示出了本发明提供的一种基于大数据的数据信息一致性处理装置300实例的结构框图。包括实施例二任一项所述的系统200。

本发明实施例三提供一种基于大数据的数据信息一致性处理装置，该发明通过获取至少一个待处理的数据表的业务主键；将所述业务主键转换为统一的标准格式，生成验证码；采用海明距离算法，确定所述验证码数据相似性；采用抽屉原理算法，顺序生成所述验证码数据的标识码；将排在首位的标识码与每个后续的标识码进行比对，后续的标识码与排在首位的标识码相同时，将后续的标识码的区分码记为第二区分码；删除所述标识码中的区分码为第二区分码的数据。通过本发明提供的一种基于大数据的数据信息一致性处理装置，提供了一套通用的互联网大数据数据一致性处理方法的应用模式，在对多行或者多列且数据规模在亿级以上的数据进行处理时，该检查方法配置简单、使用方便、可操作性强，并且能够实现多行或多列的同时数据唯一性处理，节省了大量的处理时间，提高了数据处理的效率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于大数据的数据信息一致性处理方法，其特征在于，包括：

获取至少一个待处理的数据表的业务主键；

将所述业务主键转换为统一的标准格式，生成验证码；

采用海明距离算法，确定所述验证码数据相似性；

采用抽屉原理算法，顺序生成所述验证码数据的标识码；

删除所述标识码中的区分码为第二区分码的数据。

2.如权利要求1所述的方法，其特征在于，所述业务主键，包括但不限于：

3.如权利要求1或2所述的方法，其特征在于，所述将所述业务主键转换为统一的标准格式，生成验证码，包括：

4.如权利要求3所述的方法，其特征在于，所述根据SimHash算法原理，结合MD5算法原理中分组数据处理方式，将所述业务主键精简优化为统一的标准格式，生成最优验证码格式，包括：

计算每组分词向量的哈希值；

计算每组哈希值的向量加权值；

5.如权利要求1-4之一所述的方法，其特征在于，所述采用海明距离算法，确定验证码的数据相似性，包括：

6.如权利要求1-5之一所述的方法，其特征在于，所述采用抽屉原理算法，顺序生成所述验证码数据的标识码，包括：

将验证码数据均匀分布，得到随机组合量；

7.一种基于大数据的数据信息一致性处理系统，其特征在于，包括：

获取模块，用于获取至少一个待处理的数据表的业务主键；

8.如权利要求7所述的方法，其特征在于，所述业务主键，包括但不限于：

9.如权利要求7或8所述的方法，其特征在于，所述转换模块，包括：

10.如权利要求9所述的方法，其特征在于，所述转换单元，包括：

第一计算单元，用于计算每组分词向量的哈希值；

第二计算单元，用于计算每组哈希值的向量加权值；

11.如权利要求7-10之一所述的方法，其特征在于，所述确定模块，包括：

12.如权利要求7-10之一所述的方法，其特征在于，所述生成模块，包括：

13.一种基于大数据的数据信息一致性处理装置，包括如权利要求7-12任一项所述的系统。