CN107168995B - 一种数据处理方法及服务器 - Google Patents

一种数据处理方法及服务器 Download PDF

Info

Publication number
CN107168995B
CN107168995B CN201710199325.0A CN201710199325A CN107168995B CN 107168995 B CN107168995 B CN 107168995B CN 201710199325 A CN201710199325 A CN 201710199325A CN 107168995 B CN107168995 B CN 107168995B
Authority
CN
China
Prior art keywords
data
processing
quality
source data
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710199325.0A
Other languages
English (en)
Other versions
CN107168995A (zh
Inventor
尹正军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710199325.0A priority Critical patent/CN107168995B/zh
Publication of CN107168995A publication Critical patent/CN107168995A/zh
Application granted granted Critical
Publication of CN107168995B publication Critical patent/CN107168995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本发明公开了一种数据处理方法,所述方法包括:确定源数据的不同维度的特征的相似度;将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理。本发明还公开了一种服务器。

Description

一种数据处理方法及服务器
技术领域
本发明涉及信息处理技术,尤其涉及一种数据处理方法及服务器。
背景技术
对大数据进行分析时,通常会涉及数据的清洗和校准,如数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测和消除等。现有技术中,对数据进行处理的流程示意图,如图1所示,包括源数据清洗、数据处理过程质量监测、在线监控报警、监控效果分析和手动调整清洗校准脚本或代码逻辑;在对数据处理过程进行质量监控时,基于质量规则库进行人工检查、或基于业务经验来编写特定的处理程序;通过人工检查或人工编写特定的处理程序对数据进行清洗和校准时,识别数据质量问题的效率低、很难全面的处理诸多异常数据、消耗大量的时间和人力成本。并且,现有技术中的方案也未充分利用计算平台提供的强大的数据处理能力。
发明内容
为解决现有存在的技术问题,本发明实施例提供了一种数据处理方法及服务器,能至少解决现有技术中存在的上述问题。
本发明实施例提供一种数据处理方法,所述方法包括:确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于各所述处理阶段所遵循的质量规则,对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理。
上述方案中,所述确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则,包括:
确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,用于表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
上述方案中,所述方法还包括:根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
上述方案中,所述方法还包括:
建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与所述异常数据输出对象集合之间的第一关联关系;
在决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
上述方案中,所述方法还包括:
建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定数据质量程度与所述异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
基于所述第二匹配结果修改所述决策树模型。
上述方案中,所述方法还包括:
基于修改后的决策树模型确定聚类后的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则,对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理;
监控源数据在各所述处理阶段处理得到的数据的质量,形成数据质量监控的闭环。
本发明实施例还提供一种服务器,所述服务器包括至少一个处理器,以及至少一个存储器;其中:
所述至少一个处理器,用于确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则,对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
所述至少一个存储器,用于存储处理所述源数据所遵循的质量规则。
上述方案中,所述处理器,具体用于确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,用于表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
上述方案中,所述处理器,还用于根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
上述方案中,所述处理器,还用于建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与所述异常数据输出对象集合之间的第一关联关系;
在决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
上述方案中,所述处理器,还用于建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定数据质量程度与所述异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
基于所述第二匹配结果修改所述决策树模型。
上述方案中,所述处理器,还用于基于修改后的决策树模型确定对聚类后的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理;
监控源数据在各所述处理阶段处理得到的数据的质量,形成数据质量监控的闭环。
本发明实施例中,服务器确定源数据的不同维度的特征的相似度,并将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别,以实现对所述源数据的聚类;对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则,基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;如此,能够实现对每个所述类别的源数据利用最高效的处理路径进行自动化处理,不仅能够提高识别数据质量问题的效率、节省时间和人力成本,而且能够全面的处理诸多异常数据,提高数据处理能力。
附图说明
图1为本发明实施例对数据进行处理的流程示意图;
图2为本发明实施例一种数据处理方法的处理流程示意图;
图3为本发明实施例一种数据处理方法的处理流程示意图;
图4为本发明实施例一种修改决策树模型的处理流程示意图;
图5为本发明实施例另一种修改决策树模型的处理流程示意图;
图6为本发明实施例一种数据处理方法的处理流程示意图;
图7为本发明实施例形成质量监控和改善闭环的数据处理流程示意图;
图8为本发明实施例一种数据处理方法的处理流程示意图;
图9为本发明实施例一种服务器的组成结构示意图。
具体实施方式
为更好地理解本发明实施例,下面对数据清洗和校准的各阶段进行简单的说明。
在对数据进行清洗和校准时,通常包括如下四个阶段:数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测及消除。其中,数据一致性检查,是根据每个变量的合理取值范围和相互关系,检查数据是否满足要求,筛选出超出合理取值范围、逻辑不合理、或相互矛盾的数据。无效值和缺失值的处理,是指在数据的采集、传输、加工处理过程中,会出现调查、录入误差、或软件处理程序的缺陷,进而导致数据中出现无效值和缺失值;需对该无效值和缺失值给予相应的处理。异常值和错误值的处理,是在数据清洗和校准的过程中,利用统计分析的方法识别可能的错误值和异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以利用简单的常识性规则、业务特定规则等规则库检查数据值,或利用不同属性间的约束、外部的数据来检测和清洗数据。重复值的检测及消除,是指通过检测数据库中各记录的属性值是否相等,将属性值相同的记录合并为一条记录来消除重复值。
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一
本发明实施例一种数据处理方法的处理流程,如图2所示,包括以下步骤:
步骤S101,确定源数据的不同维度的特征的相似度,将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
具体地,服务器对于输入的源数据,确定源数据的不同维度的特征的相似度;以K-means为例,对于由N个数据构成的源数据,N为大于1的正整数,从所述源数据中任意选择K个数据作为初始聚类中心,K为大于1、且小于N的正整数;计算N个数据中除K个数据以外的每个数据分别与所述K个数据形成的初始聚类中心的相似度;并把除K个数据以外的每个数据分配给与其最相似的聚类,形成第一聚类;即将N个数据构成的源数据形成多个第一聚类。对于多个第一聚类中的任意一个第一聚类,计算该第一聚类内的所述数据的平均值,得到相应的聚类中心。基于得到的聚类中心,采用多轮迭代式计算重复上述聚类过程,直至标准的测度函数开始收敛为止。
这里,所述相似度是针对某一特定的维度,两个数据之间的距离;可采用均方差作为标准测度函数。
通过将源数据聚类到相应维度的类别,使得源数据按照某一维度的特征聚类为若干群组,且各聚类自身尽可能的紧凑,各聚类之间尽可能的分开。
步骤S102,对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
具体地,对于同一个源数据,利用不同的处理阶段的执行顺序进行处理得到的目标数据的质量不同;对于一个源数据,在同一个处理阶段遵循不同的质量规则进行处理得到的目标数据的质量也不同。其中,所述处理阶段包括:数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测及消除。如,有些源数据最高效的处理路径是首先进行去空去重处理,然后再补充缺失值;而有些数据最高效的处理路径是先保留NULL值记录,再在完整的数据记录集合中进行过滤清洗。
因此,对于一个类别的源数据,服务器首先确定该类别的源数据的输入特征,基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则。
这里,所述决策树模型为基于历史源数据训练得到,能够表征不同输入特征的历史源数据与所应用的质量规则的对应关系;通过源数据的数据格式类型、数据来源渠道、数据其他维度特征、数据随机组合的维度特征等属性,在决策树模型中查找与所述源数据对应的质量规则,即对所述源数据进行处理时所应用的质量规则。
在决策树模型中,树中每个节点表示某一聚类数据清洗过程中节点的实例对象,而每个分叉路径则代表基于不同的质量规则优化后的某个可能的属性值;每个叶节点对应从根节点到该叶节点所经历的路径所表示的对象的值;即利用不同的质量规则对源数据进行处理后得到的不同程度数据质量的指标权重。
步骤S103,基于各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
具体地,服务器按照上述确定的不同处理阶段的执行顺序对源数据进行处理;在特定的处理阶段,利用上述确定的质量规则对源数据进行处理。
实施例二
本发明实施例一种数据处理方法的处理流程,如图3所示,包括以下步骤:
步骤S201,确定源数据的不同维度的特征的相似度,将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
具体地,服务器对于输入的源数据,确定源数据的不同维度的特征的相似度;以K-means为例,对于由N个数据构成的源数据,N为大于1的正整数,从所述源数据中任意选择K个数据作为初始聚类中心,K为大于1、且小于N的正整数;计算N个数据中除K个数据以外的每个数据分别与所述K个数据形成的初始聚类中心的相似度;并把除K个数据以外的每个数据分配给与其最相似的聚类,形成第一聚类;即将N个数据构成的源数据形成多个第一聚类。对于多个第一聚类中的任意一个第一聚类,计算该第一聚类内的所述数据的平均值,得到相应的聚类中心。基于得到的聚类中心,采用多轮迭代式计算重复上述聚类过程,直至标准的测度函数开始收敛为止。
这里,所述相似度是针对某一特定的维度,两个数据之间的距离;可采用均方差作为标准测度函数。
通过将源数据聚类到相应维度的类别,使得源数据按照某一维度的特征聚类为若干群组,且各聚类自身尽可能的紧凑,各聚类之间尽可能的分开。
步骤S202,对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
具体地,对于同一个源数据,利用不同的处理阶段的执行顺序进行处理得到的目标数据的质量不同;对于一个源数据,在同一个处理阶段遵循不同的质量规则进行处理得到的目标数据的质量也不同。其中,所述处理阶段包括:数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测及消除。如,有些源数据最高效的处理路径是首先进行去空去重处理,然后再补充缺失值;而有些数据最高效的处理路径是先保留NULL值记录,再在完整的数据记录集合中进行过滤清洗。
因此,对于一个类别的源数据,服务器首先确定该类别的源数据的输入特征,基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则。
这里,所述决策树模型为基于历史源数据训练得到,能够表征不同输入特征的历史源数据与所应用的质量规则的对应关系;通过源数据的数据格式类型、数据来源渠道、数据其他维度特征、数据随机组合的维度特征等属性,在决策树模型中查找与所述源数据对应的质量规则,即对所述源数据进行处理时所应用的质量规则。
在决策树模型中,树中每个节点表示某一聚类数据清洗过程中节点的实例对象,而每个分叉路径则代表基于不同的质量规则优化后的某个可能的属性值;每个叶节点对应从根节点到该叶节点所经历的路径所表示的对象的值;即利用不同的质量规则对源数据进行处理后得到的不同程度数据质量的指标权重。
步骤S203,基于各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
具体地,服务器按照上述确定的不同处理阶段的执行顺序对源数据进行处理;在特定的处理阶段,利用上述确定的质量规则对源数据进行处理。
步骤S204,修改决策树模型;
服务器修改决策树模型时,至少包括两种实现方式;一种修改决策树模型的处理流程,如图4所示,包括以下步骤:
步骤S2001,建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
具体地,服务器记录源数据经处理的各阶段的节点数据,即记录在每个处理阶段的输入数据、利用相应的质量规则进行处理后得到的输出数据、及所述质量规则之间的关联关系。
步骤S2002,基于所述关联关系确定第一质量规则库集合与异常数据输出对象集合之间的第一关联关系;
这里,服务器针对源数据的各个处理阶段,均会建立第一关联关系;所述异常数据输出对象集合包括:每个节点的数据质量监控告警数据的集合、基于人工方式标注的分层清洗失败的数据;所述第一质量规则库是指在所述决策树模型中新引入的质量规则集合;服务器通过所述关联关系能够确定新引入的质量规则集合中的具体那一条质量规则与异常数据输出对象集合之间存在关联关系。
步骤S2003,在所述决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
具体地,服务器在所述决策树模型中查找与所述第一关联关系匹配的质量规则,即查找与异常数据输出对象集合存在关联关系的质量规则。
步骤S2004,基于所述第一匹配结果修改所述决策树模型;
具体地,服务器修改在所述决策树模型中查找出的质量规则,以便后续对源数据进行优化处理,进而形成数据质量监控和数据质量改善的闭环。
另一种修改决策树模型的处理流程,如图5所示,包括以下步骤:
步骤S2005,建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
具体地,服务器记录源数据经处理的各阶段的节点数据,即记录在每个处理阶段的输入数据、利用相应的质量规则进行处理后得到的输出数据、及所述质量规则之间的关联关系。
步骤S2006,基于所述关联关系确定数据质量程度与异常数据输出对象集合之间的第二关联关系;
这里,所述数据质量程度是指数据质量等级参数,数据质量等级参数的设定会影响到数据处理的效率、及源数据经过处理后形成目标数据的质量。
步骤S2007,在所述决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
具体地,服务器在所述决策树模型中查找与异常数据输出对象集合存在关联关系的数据质量程度。
步骤S2008,基于所述第二匹配结果修改所述决策树模型;
具体地,服务器在所述决策树模型中修改上述查找得到的数据质量程度,以便后续对源数据进行优化处理,进而形成数据质量监控和数据质量改善的闭环。
实施例三
本发明实施例一种数据处理方法的处理流程,如图6所示,包括以下步骤:
步骤S301,确定源数据的不同维度的特征的相似度,将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
具体地,服务器对于输入的源数据,确定源数据的不同维度的特征的相似度;以K-means为例,对于由N个数据构成的源数据,N为大于1的正整数,从所述源数据中任意选择K个数据作为初始聚类中心,K为大于1、且小于N的正整数;计算N个数据中除K个数据以外的每个数据分别与所述K个数据形成的初始聚类中心的相似度;并把除K个数据以外的每个数据分配给与其最相似的聚类,形成第一聚类;即将N个数据构成的源数据形成多个第一聚类。对于多个第一聚类中的任意一个第一聚类,计算该第一聚类内的所述数据的平均值,得到相应的聚类中心。基于得到的聚类中心,采用多轮迭代式计算重复上述聚类过程,直至标准的测度函数开始收敛为止。
这里,所述相似度是针对某一特定的维度,两个数据之间的距离;可采用均方差作为标准测度函数。
通过将源数据聚类到相应维度的类别,使得源数据按照某一维度的特征聚类为若干群组,且各聚类自身尽可能的紧凑,各聚类之间尽可能的分开。
步骤S302,对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
具体地,对于同一个源数据,利用不同的处理阶段的执行顺序进行处理得到的目标数据的质量不同;对于一个源数据,在同一个处理阶段遵循不同的质量规则进行处理得到的目标数据的质量也不同。其中,所述处理阶段包括:数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测及消除。如,有些源数据最高效的处理路径是首先进行去空去重处理,然后再补充缺失值;而有些数据最高效的处理路径是先保留NULL值记录,再在完整的数据记录集合中进行过滤清洗。
因此,对于一个类别的源数据,服务器首先确定该类别的源数据的输入特征,基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则。
这里,所述决策树模型为基于历史源数据训练得到,能够表征不同输入特征的历史源数据与所应用的质量规则的对应关系;通过源数据的数据格式类型、数据来源渠道、数据其他维度特征、数据随机组合的维度特征等属性,在决策树模型中查找与所述源数据对应的质量规则,即对所述源数据进行处理时所应用的质量规则。
在决策树模型中,树中每个节点表示某一聚类数据清洗过程中节点的实例对象,而每个分叉路径则代表基于不同的质量规则优化后的某个可能的属性值;每个叶节点对应从根节点到该叶节点所经历的路径所表示的对象的值;即利用不同的质量规则对源数据进行处理后得到的不同程度数据质量的指标权重。
步骤S303,基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
具体地,服务器按照上述确定的不同处理阶段的执行顺序对源数据进行处理;在特定的处理阶段,利用上述确定的质量规则对源数据进行处理。
步骤S304,对经处理的源数据进行在线监控;
具体地,服务器基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理时,服务器按照预设的监控规则实时监控处理过程中生成的异常数据,并在生成异常数据时进行报警提示;
这里,所述异常数据包括:基于人工方式标注的处理失败的数据、在各处理阶段形成目标数据过程中的不满足预定条件的中间监控数据等;上述异常数据形成异常数据输出对象集合。
步骤S305,修改决策树模型和监控规则;
具体地,服务器在监控到异常数据输出后,将自动触发调整监控规则和所述决策树模型中的质量规则,形成质量监控和改善的闭环,如图7所示;如此,不需要通过人工检查或人工编写特定的处理程序对数据进行清洗和校准,便能够高效的识别数据质量问题,节省大量的时间和人力成本。
步骤S306,基于修改后的决策树模型确定聚类后的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则。
步骤S307,基于所述各所述处理阶段所遵循的质量规则对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理。
实施例四
本发明实施例一种数据处理方法的处理流程,如图8所示,包括以下步骤:
步骤S401,确定源数据的不同维度的特征的相似度,将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
具体地,服务器对于输入的源数据,确定源数据的不同维度的特征的相似度;以K-means为例,对于由N个数据构成的源数据,N为大于1的正整数,从所述源数据中任意选择K个数据作为初始聚类中心,K为大于1、且小于N的正整数;计算N个数据中除K个数据以外的每个数据分别与所述K个数据形成的初始聚类中心的相似度;并把除K个数据以外的每个数据分配给与其最相似的聚类,形成第一聚类;即将N个数据构成的源数据形成多个第一聚类。对于多个第一聚类中的任意一个第一聚类,计算该第一聚类内的所述数据的平均值,得到相应的聚类中心。基于得到的聚类中心,采用多轮迭代式计算重复上述聚类过程,直至标准的测度函数开始收敛为止。
这里,所述相似度是针对某一特定的维度,两个数据之间的距离;可采用均方差作为标准测度函数。
通过将源数据聚类到相应维度的类别,使得源数据按照某一维度的特征聚类为若干群组,且各聚类自身尽可能的紧凑,各聚类之间尽可能的分开。
步骤S402,对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
具体地,对于同一个源数据,利用不同的处理阶段的执行顺序进行处理得到的目标数据的质量不同;对于一个源数据,在同一个处理阶段遵循不同的质量规则进行处理得到的目标数据的质量也不同。其中,所述处理阶段包括:数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测及消除。如,有些源数据最高效的处理路径是首先进行去空去重处理,然后再补充缺失值;而有些数据最高效的处理路径是先保留NULL值记录,再在完整的数据记录集合中进行过滤清洗。
因此,对于一个类别的源数据,服务器首先确定该类别的源数据的输入特征,基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则。
这里,所述决策树模型为基于历史源数据训练得到,能够表征不同输入特征的历史源数据与所应用的质量规则的对应关系;通过源数据的数据格式类型、数据来源渠道、数据其他维度特征、数据随机组合的维度特征等属性,在决策树模型中查找与所述源数据对应的质量规则,即对所述源数据进行处理时所应用的质量规则。
在决策树模型中,树中每个节点表示某一聚类数据清洗过程中节点的实例对象,而每个分叉路径则代表基于不同的质量规则优化后的某个可能的属性值;每个叶节点对应从根节点到该叶节点所经历的路径所表示的对象的值;即利用不同的质量规则对源数据进行处理后得到的不同程度数据质量的指标权重。
步骤S403,基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
具体地,服务器按照上述确定的不同处理阶段的执行顺序对源数据进行处理;在特定的处理阶段,利用上述确定的质量规则对源数据进行处理。
步骤S404,对经处理的源数据进行在线监控;
具体地,服务器基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理时,服务器实时监控处理过程中生成的异常数据,并在生成异常数据时进行报警提示;
这里,所述异常数据包括:基于人工方式标注的处理失败的数据、在各处理阶段形成目标数据过程中的不满足预定条件的中间监控数据等;上述异常数据形成异常数据输出对象集合。
服务器在监控到异常数据输出后,将自动触发调整所述决策树模型中的质量规则,不需要通过人工检查或人工编写特定的处理程序对数据进行清洗和校准,进而高效的识别数据质量问题,节省大量的时间和人力成本。
步骤S405,根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
具体地,服务器根据历史监控报警数据、历次人工修改的质量规则、不同处理阶段的数据分布和质量状态数据建立回归模型,归纳出不同处理阶段数据质量变化的规律。在各处理阶段,服务器基于不同的质量规则调用的脚本得到的输出数据确定因变量和自变量;并建立因变量和自变量之间的关系式,即回归模型;并对所述回归模型的可信度进行检验,即校验所述回归模型是否可信。
服务器还根据数据处理过程中各节点所应用的质量规则、为提高数据质量的调节控制数据、不同阶段的输入/输出质量指标、基于人工方式标注的数据处理成功和失败的数据及异常数据输出对象集合建立所述数据处理过程中各处理阶段的关联分析预测模型,根据所述关联分析预测模型可实现对数据处理各阶段的预测。
步骤S406,根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布;
具体地,服务器可根据所述回归模型预测源数据在各处理阶段经处理后得到的数据的质量分布;并根据源数据的变化和用户干预的需求自动预测未来某个时间点不同阶段的特定项数据质量维度的趋势。服务器也可根据所述关联分析预测模型预测源数据在各处理阶段经处理后得到的数据的质量分布。服务器也可根据实际需要为所述回归模型和所述关联分析预测模型配置相应的权重,结合所述回归模型和所述关联分析预测模型预测源数据在各处理阶段经处理后得到的数据的质量分布。
需要说明的是,本发明上述实施例所述的服务器执行的功能可由一个独立的服务器实现,也可由多个相互之间独立的服务器构成的服务器集群实现。
实施例五
本发明实施例提供一种服务器,所述服务器的组成结构,如图9所示,包括至少一个处理器1以及至少一个存储器2;其中,
所述至少一个处理器1,用于确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
所述至少一个存储器2,用于存储处理所述源数据所遵循的质量规则。
上述方案中,所述处理器1,具体用于确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,以表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
上述方案中,所述处理器1,还用于根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
上述方案中,所述处理器1,还用于建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与异常数据输出对象集合之间的第一关联关系;
在所述决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
上述方案中,所述处理器1,还用于建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定数据质量程度与异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
基于所述第二匹配结果修改所述决策树模型。
上述方案中,所述处理器1,还用于基于修改后的决策树模型确定对聚类后的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理;
监控源数据在各所述处理阶段处理得到的数据的质量,以形成数据质量监控的闭环。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储单元中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储单元包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储单元中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储单元中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储单元包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于各所述处理阶段所遵循的质量规则,对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与异常数据输出对象集合之间的第一关联关系;
在决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
2.根据权利要求1所述的数据处理方法,其特征在于,所述确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则,包括:
确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,用于表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
3.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
4.根据权利要求1所述的数据处理方法,其特征在于,所述建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系之后,还包括:
基于所述关联关系确定数据质量程度与异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
基于所述第二匹配结果修改所述决策树模型。
5.根据权利要求1或4所述的数据处理方法,其特征在于,所述方法还包括:
基于修改后的决策树模型确定聚类后的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于各所述处理阶段所遵循的质量规则,对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理;
监控所述源数据在各所述处理阶段处理得到的数据的质量,形成数据质量监控的闭环。
6.一种服务器,其特征在于,所述服务器包括至少一个处理器,以及至少一个存储器;其中:
所述至少一个处理器,用于确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于所述各所述处理阶段所遵循的质量规则,对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理;
所述至少一个存储器,用于存储处理所述源数据所遵循的质量规则;
所述处理器,还用于建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与异常数据输出对象集合之间的第一关联关系;
在决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
7.根据权利要求6所述的服务器,其特征在于,
所述处理器,具体用于确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,用于表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
8.根据权利要求6所述的服务器,其特征在于,
所述处理器,还用于根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
9.根据权利要求6所述的服务器,其特征在于,所述处理器建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系之后,还用于:
基于所述关联关系确定数据质量程度与异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
基于所述第二匹配结果修改所述决策树模型。
10.根据权利要求6或9所述的服务器,其特征在于,
所述处理器,还用于基于修改后的决策树模型确定对聚类后的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于各所述处理阶段所遵循的质量规则,对聚类后的源数据按照确定的不同处理阶段的执行顺序进行处理;
监控所述源数据在各所述处理阶段处理得到的数据的质量,形成数据质量监控的闭环。
CN201710199325.0A 2017-03-29 2017-03-29 一种数据处理方法及服务器 Active CN107168995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710199325.0A CN107168995B (zh) 2017-03-29 2017-03-29 一种数据处理方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710199325.0A CN107168995B (zh) 2017-03-29 2017-03-29 一种数据处理方法及服务器

Publications (2)

Publication Number Publication Date
CN107168995A CN107168995A (zh) 2017-09-15
CN107168995B true CN107168995B (zh) 2020-05-26

Family

ID=59849827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710199325.0A Active CN107168995B (zh) 2017-03-29 2017-03-29 一种数据处理方法及服务器

Country Status (1)

Country Link
CN (1) CN107168995B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862049A (zh) * 2017-11-08 2018-03-30 中国银行股份有限公司 一种数据补录方法及装置
CN108184170B (zh) * 2017-11-27 2021-08-20 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN111309852B (zh) * 2020-03-16 2021-09-03 青岛百洋智能科技股份有限公司 生成可视化决策树集模型的方法、系统、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007183693A (ja) * 2005-12-29 2007-07-19 Ricoh Co Ltd 品質管理支援システム
US20070198312A1 (en) * 2006-02-21 2007-08-23 Sugato Bagchi Data quality management using business process modeling
CN101706909A (zh) * 2009-11-18 2010-05-12 山东浪潮齐鲁软件产业股份有限公司 一种面向企业数据集成的全面数据质量管理方法
CN104462744B (zh) * 2014-10-09 2018-04-06 广东工业大学 适用于心血管远程监测系统的数据质量控制方法
CN106156315B (zh) * 2016-07-01 2019-05-17 中国人民解放军装备学院 一种基于分类模型判断的数据质量监控方法

Also Published As

Publication number Publication date
CN107168995A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
US10592386B2 (en) Fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
Bolón-Canedo et al. Feature selection for high-dimensional data
Messaoudi et al. A search-based approach for accurate identification of log message formats
CN107168995B (zh) 一种数据处理方法及服务器
CN107025153B (zh) 磁盘的故障预测方法和装置
US10621493B2 (en) Multiple record linkage algorithm selector
US10379999B2 (en) Duplicate bug report detection using machine learning algorithms and automated feedback incorporation
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
CN110991474A (zh) 一种机器学习建模平台
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
US8650180B2 (en) Efficient optimization over uncertain data
Sharma et al. Big data reliability: A critical review
JP6419667B2 (ja) テストdbデータ生成方法及び装置
Rendall et al. Wide spectrum feature selection (WiSe) for regression model building
US10620618B2 (en) Systems and methods for determining relationships between defects
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
KR102217092B1 (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
Norman et al. Measuring the impact of screening automation on meta-analyses of diagnostic test accuracy
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
Klindee et al. Test cases prioritization for software regression testing using analytic hierarchy process
CN109522193A (zh) 一种运维数据的处理方法、系统及装置
Beheshtian et al. Software Batch Testing to Save Build Test Resources and to Reduce Feedback Time
US20210112101A1 (en) Data set and algorithm validation, bias characterization, and valuation
EP3591586A1 (en) Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
US11093519B2 (en) Artificial intelligence (AI) based automatic data remediation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant