CN108153793A

CN108153793A - 一种原始数据处理方法

Info

Publication number: CN108153793A
Application number: CN201611110520.3A
Authority: CN
Inventors: 安西民; 林殷; 徐凤桐
Original assignee: Space Star Technology (beijing) Co Ltd
Current assignee: Space Star Technology (beijing) Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-12

Abstract

本发明涉及一种原始数据处理方法，该方法应用于原始数据处理系统中，该系统包括多个原始数据源，多个数据收集单元，集群存储器，原始数据处理平台，数据管理器，客户端；该原始数据处理方法能够对原始数据进行去重复，去矛盾，去不合理处理，基于数据记录相似度进行数据记录的去重复处理，基于置信度选择数据记录作删除处理，提高了数据去重复的准确度和效率，减少了人为参与的工作量，提高了自动化程度，从而提高了客户端用户的用户体验。

Description

一种原始数据处理方法

【技术领域】

本发明属于数据处理领域，尤其涉及一种原始数据处理方法。

【背景技术】

自互联网出现以来，互联网上的互联网页面的数量就飞速增长着，也恰是由于其这种增长速度，形成了世界上最大的信息资源库。互联网信息整合技术就是对这一个信息资源库进行有效处理，整合相关信息，为数据挖掘提供数据方面的支撑，以便更好地应用于专业领域中的信息服务。在当前飞速发展的网络时代，信息资源日益丰富，互联网信息整合已成为信息时代的重要内容，在多个领域中都有互联网信息整合的应用。但是在存储过程中，未对数据进行去重处理，从而导致数据冗余。并且，随着数据量增加，数据冗余加剧，造成存储空间浪费。因此，急需一种数据处理方法，在数据存储的同时实现数据去重处理，避免数据冗余和存储空间的浪费。

现有技术中的原始数据处理方法都比较简单，在数据去重复时仅仅是对完全相同的两条记录进行去重复处理，而对于实质上相同的两条数据无法进行辨识，从而无法有效的进行自动化的去重复；基于上述诸多问题，现在亟需一种新的原始数据处理方法，能够对原始数据进行去重复，去矛盾，去不合理处理，基于数据记录相似度进行数据记录的去重复处理，基于置信度选择数据记录作删除处理，提高了数据去重复的准确度和效率，减少了人为参与的工作量，提高了自动化程度，从而提高了客户端用户的用户体验。

【发明内容】

为了解决现有技术中的上述问题，本发明提出了一种原始数据处理方法,其特征在于，该方法包括如下步骤：

步骤1：原始数据处理平台对数据集合中的所有数据进行格式内容的标准化处理；

步骤2：原始数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值；

步骤3：原始数据处理平台对数据集合进行缺失补全；

步骤4：原始数据处理平台找出相似重复的数据以便去重。

进一步的，原始数据处理平台计算两条数据记录之间的相似度，如果相似度小于第一相似度阈值，则认为该两条数据记录是重复数据；。

进一步的，根据该两条数据记录的置信度选择一条数据记录进行删除。

进一步的，原始数据处理平台还包括登录模块，客户端用户可以通过该登陆模块对该原始数据处理平台进行远程登录。

进一步的，登录模块包括一图形用户界面，用户通过该图形用户界面进行登录。

进一步的，客户端通过用户帐号和密码进行登录。

进一步的，登录模块中关联保存所有用户帐号及其对应的密码和权限。

进一步的，不同的用户可以通过不同的客户端登录，登陆后的用户可以访问权限范围内的数据。

进一步的，不同的用户具有不同的权限。

本发明的有益效果包括：能够对原始数据进行去重复，去矛盾，去不合理处理，基于数据记录相似度进行数据记录的去重复处理，基于置信度选择数据记录作删除处理，提高了数据去重复的准确度和效率，减少了人为参与的工作量，提高了自动化程度，从而提高了客户端用户的用户体验。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明所应用的原始数据处理系统结构图。

图2是本发明原始数据处理方法步骤图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

参见附图1，是本发明所应用的一种原始数据处理系统，该系统包括多个原始数据源，多个数据收集单元，集群存储器，原始数据处理平台，数据管理器，客户端；

参见附图2，其示出了本发明原始数据处理方法的基本步骤：

步骤3：原始数据处理平台对数据集合进行缺失补全；

步骤4：原始数据处理平台找出相似重复的数据以便去重；

基于上述原始数据处理系统，下面对本发明的一种原始数据处理方法进行详细说明。

(1)数据收集单元基于针对原始数据源的采集策略通过互联网进行数据获取，为收集到的数据设置来源属性和时间戳，将数据集合关联于本次收集的序列编号保存到集群存储器中相应的位置，然后发送收集完成指令给原始数据处理平台，收集完成指令中携带有本次收集的序列编号；

由于不同的原始数据源其数据的产生都有一定的规律性，其产生的数据都有一定的特点；同一个数据收集单元并行负责多个原始数据源的数据收集，不能对多个原始数据源进行并行的实时收集，这样收集集效率会很低，原始数据处理平台进行数据获取和处理的效率也会很低，需要结合不同原始数据源的数据产生规律来更新针对该原始数据源的数据采集策略；针对不同的原始数据源其采集策略是不同的；针对原始数据源的采集策略可以设置为：为不同的原始数据源设置不同的数据采集周期；还可设置为，通过监控获取针对原始数据源的数据产生高峰时间段，在高峰时间段过去后进行数据采集；还可设置为：原始数据源在满足预设条件后，进行主动的数据推送，预设条件是：在数据量达到预设值后，或预设的时间周期达到后等；

(2)集群存储器保存来自不同原始数据源的数据，并基于原始数据处理平台的请求将特定数据收集单元收集的匹配所请求序列编号的数据集合发送给原始数据处理平台；集群存储器中为每个数据收集单元分配独立的存储区域，同一数据收集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中；在数据收集单元对其对应存储区域进行存储时，如果该存储区域用尽，则判断位于存储区域头部的数据集合对应的序列编码是否已经无效，如果是，则直接从该头部区域开始存储，覆盖该无效序列编码对应的数据集合，如果否，则向集群存储器申请临时存储区域进行存储，在申请临时存储区域失败的情况下，暂停针对当次序列编号的数据集合的存储；

优选的：当序列编码对应的数据集合过了保留时间期限后则标记为无效；

优选的：序列编号随着采集次数的增加而增加；

优选的：该临时存储区域在物理上邻接该存储区域；

(3)原始数据处理平台接收来自于集群存储器的数据集合并将该数据集合存放到本地缓存中；在本地缓存中数据为空的时候，原始数据处理平台向集群存储器发送数据获取请求；请求时携带所请求数据集合的序列编号，该请求的序列编号大于已处理的数据集合对应的序列编号；

优选的：原始数据处理平台中包含多个并行处理设备，多个并行处理设备可以并行的对多个采集单元采集的数据集合进行处理，也可以同时处理同一数据收集单元收集的数据集合；

原始数据处理平台可以一次性获取多个序列编号的数据集合，并同时对该多个序列编号的数据集合进行处理；

(4)原始数据处理平台获取当前待处理的数据集合的数据签名Sig，将该数据签名Sig和历史数据签名表作对比，如果该数据签名已经保存于历史数据签名表中，则表示该数据集合已经被处理过，丢弃该数据集合，继续下一数据集合的处理；

当数据集合处理完毕后，将该数据集合的数据签名保存到历史数据签名表中；

数据签名基于该数据集合的数据值获取，可以采用常见的签名算法，此处不再详述；

(5)原始数据处理平台对数据集合中的所有数据进行格式内容的标准化处理；由于不同的客户端可能有不同的格式要求，需要针对不同的客户端基于不同的标准化规则进行数据的标准化；如果标准化过程中发现字段值错误，则判断是不是发生字段值错位，如果是，则将字段值存放到正确的字段中；

数据格式内容的不一致和输入端有关，在整合多来源数据时也有可能遇到，将其处理成一致的某种格式即可；但由于不同的客户端对数据格式的要求可能不同，允许客户端设置自己要求的标准化规则；

检查每条数据记录，如果一条数据记录中的某个数据值是正确的，但是其格式不正确，则根据客户端要求的标准化规则中针对数据值对应的字段的标准化要求对该字段值进行修改；例如：日期填写格式不正确，民族填写方式不符合要求等。

如果一条数据记录中的某个字段值是错误的，不能进行标准化，通过错误字段值的重填，可以最快速的做数据记录的更改，同时这种更改的可靠性也是比较高的；例如：姓名写了性别，身份证号写了手机号等等，均属这种问题；当一个数据记录中的一个字段值和其字段不符时，确定字段值是错误的，确定一条记录中的所有错误字段值，针对每个错误字段值，遍历该数据记录中的其它错误字段值对应的字段，如果该个错误字段值满足该其它错误字段值对应的字段中的一个字段要求，则将该个错误字段值填写到该一个字段中，将该一个字段中的字段值回写到该该个错误字段值对应的字段中，直到该一条数据记录中的每个错误字段值均处理完毕；

(6)原始数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值；具体的：遍历所有的数据字段值，根据数据字段的取值范围确定明显不合理字段值，将该不合理字段值删除；删除后该字段的字段值设置为缺失值；对于一条数据记录中存在明显的矛盾的一对字段值，根据一个字段值对另一字段值进行修改；

优选的：根据关键字段值对另一字段值做修改；例如：根据身份证字段值对年龄字段值作修改；关键字段值可以有原始数据处理平台设置或者由用户设置；例如：设置身份证号码、手机号码、姓名字段为关键字段；

例如：有人填表时候瞎填，年龄200岁，年收入100000万，这些值都可以明确的判定为不合理值；有些字段是可以互相验证的，如：身份证号是1101031980XXXXXXXX，然后年龄填18岁，这明显是矛盾的；

(7)原始数据处理平台对数据集合进行缺失补全；具体的：原始数据处理平台对数据集合中的所有数据记录做遍历，找出其中存在字段缺失的数据记录，针对存在字段缺失的数据记录先进行计算补全，对于经过计算补全后仍然存在字段缺失的数据记录，将其保存在补全缓存中；对于补全缓存中的每条数据记录，根据当前数据记录中的关键字段值到本地缓存中进行全部数据集合的查找，根据查找到的数据记录对当前数据记录中的缺失字段进行补全，如果查找到多个匹配的数据字段，则根据时间戳的先后选择数据记录进行补全；如果在本地缓存中没有找到匹配的数据记录，则根据将该关键字段值发送到集群存储器中，集群存储器接收该关键数据字段值并查找匹配的数据记录，将匹配的数据记录发送给原始数据处理平台用于对当前数据记录进行补全；如果在集群存储器中没有找到匹配的数据记录，在允许人工补全的情况下，将该数据记录发送给客户端进行人工补全；如果不允许人工补全，判断该当前数据记录中字段值的缺失率，如果缺失率大于第一缺失阈值，则将该条数据记录做删除处理，同时更新数据删除计数值，如果缺失率小于等于第一缺失阈值，则对缺失字段填充默认字段值；

例如：对于生日字段，可以通过身份证号码字段进行计算补全；还可以当前数据记录中的所有数据记录的该字段值的均值、中位数、众数等填充缺失值；

优选的：关键字段值可以为一个或者多个，关键字段值可以由原始数据处理平台、数据收集单元或用户来设置；

优选的：原始数据处理平台可以将关键字段值发送到一个或者多个集群存储器中进行查找；

优选的：将所有需要进行人工补全的数据集合统一发送到客户端进行人工补全；

(8)原始数据处理平台找出相似重复的数据以便去重；具体的：原始数据处理平台计算两条数据记录之间的相似度，如果相似度S小于第一相似度阈值TS，则认为该两条数据记录是重复数据，根据该两条数据记录的置信度B选择一条数据记录进行删除；采用公式(1)计算两条数据记录之间的相似度；

其中，第一相似度阈值TS可以由不同的用户根据需求来设置；

B＝w1×(当前时间-数据记录获取时间)+w2×数据来源置信度+w3*(1-字段值缺失率)公式(2)

其中，原始数据源的置信度可以根据该原始数据源历史清洗处理中问题数据记录比率来设置；问题数据记录比率是指同一原始数据源中经过(5)～(8)中任一步骤处理的数据记录数目占总的数据记录的数目的比值；字段值缺失率是指该条数据记录中存在缺失的字段占总字段数的比率；w1～w3为权重值，由原始数据处理平台来预设；

优选的，删除置信度较低的一条数据记录；

(9)在从一客户端所要求的原始数据源获取的数据集合均处理完毕后，将处理后的数据集合保存到数据管理器中，生成异常数据报告，并将该处理后的数据集合的保存位置以及异常数据报告发送给该客户端；

异常数据报告中包括所处理的数据集合及其获取原始数据源，数据收集单元的采集时间，被丢弃的数据集合及其丢弃原因，明显不合理和明显矛盾的数据记录条数，缺失补全的数据记录条数，标准化处理的数据记录条数，重复删除的数据记录条数，总的数据字段缺失率等；

(10)客户端访问数据管理器获取所需数据；数据管理器对客户端身份进行验证，当验证通过后，允许客户端基于获取的保存位置进行处理后的数据集合的获取；

该原始数据处理方法还包括如下步骤：

(11)在数据处理过程中，原始数据处理平台支持增量数据清洗导入；具体的：在数据处理过程中，如果客户端下达增量数据清洗导入的消息，原始数据处理平台向数据收集单元发送增量数据获取的请求，数据收集单元将增量数据发送到原始数据处理平台，原始数据处理平台将该增量数据保存到本地缓存中最后一数据集合后，等待原始数据处理平台对该增量数据的处理；如果数据处理已经完成，客户端下达增量数据清洗导入的消息，原始数据处理平台向数据收集单元发送增量数据获取的请求，数据收集单元将增量数据发送到原始数据处理平台，原始数据处理平台将该增量数据保存到本地缓存中，针对该增量数据执行步骤(4)～(8)中一个或者多个步骤的处理；处理完毕后将该处理后的数据集合发送到数据管理器中，并通知下达消息的客户端获取增量数据处理结果，同时将该处理后的数据集合的保存位置以及针对该增量数据集合处理的异常数据报告发送给该客户端；

(12)原始数据处理平台支持大数据文件的清洗导入；用户可以直接将大数据文件发送给原始数据处理平台，客户端也可以直接向原始数据处理平台发送大数据文件，原始数据处理平台在接收到大数据文件后，将文件内的数据记录保存到本地缓存中，执行步骤(4)～(8)中的一个或者多个步骤，并将处理结果发送给用户或者客户端；

(13)原始数据处理平台支持自定义数据的清洗规则；用户可以通过原始数据处理平台设置或修改清洗规则，还可以通过客户端下发数据清洗规则；原始数据处理平台按照用户设置的规则对目标数据集合进行清洗；通过清洗规则的设置不仅可以提供用户所需的标准化格式，还可以设置清洗的深度，清洗过程中的各项阈值，清洗必选或跳过的步骤，是否允许人工补全等；设置深度清洗时，清洗规则较为严格，可以设置较高的阈值要求，并完成完整的清洗步骤等；而对于宽松的清洗规则，则对应于浅度清洗，设置较低的阈值要求同时可以选择完成部分清洗步骤等；

本发明的原始数据处理方法和系统，能够找出相似重复的数据以便去重、对不同来源的数据进行匹配、进行数据集合的去矛盾、补全和标准化、支持全量数和增量数据清洗，支持大数据文件的清洗导入、支持自定义数据的清洗规则、支持并行的数据采集和处理。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种原始数据处理方法，其特征在于，该方法包括如下步骤：

步骤3：原始数据处理平台对数据集合进行缺失补全；

步骤4：原始数据处理平台找出相似重复的数据以便去重。

2.根据权利要求1所述的原始数据处理方法，其特征在于，原始数据处理平台计算两条数据记录之间的相似度，如果相似度小于第一相似度阈值，则认为该两条数据记录是重复数据；。

3.根据权利要求2所述的原始数据处理方法，其特征在于，根据该两条数据记录的置信度选择一条数据记录进行删除。

4.根据权利要求1‐3任意一项所述的原始数据处理方法，其特征在于，原始数据处理平台还包括登录模块，客户端用户可以通过该登陆模块对该原始数据处理平台进行远程登录。

5.根据权利要求4所述的原始数据处理方法，其特征在于，登录模块包括一图形用户界面，用户通过该图形用户界面进行登录。

6.根据权利要求5所述的原始数据处理方法，其特征在于，客户端通过用户帐号和密码进行登录。

7.根据权利要求5所述的原始数据处理方法，其特征在于，登录模块中关联保存所有用户帐号及其对应的密码和权限。

8.根据权利要求5所述的原始数据处理方法，其特征在于，不同的用户可以通过不同的客户端登录，登陆后的用户可以访问权限范围内的数据。

9.根据权利要求5所述的原始数据处理方法，其特征在于，不同的用户具有不同的权限。