CN101477653A - 数据质量的处理方法及系统 - Google Patents

数据质量的处理方法及系统 Download PDF

Info

Publication number
CN101477653A
CN101477653A CNA2008102466710A CN200810246671A CN101477653A CN 101477653 A CN101477653 A CN 101477653A CN A2008102466710 A CNA2008102466710 A CN A2008102466710A CN 200810246671 A CN200810246671 A CN 200810246671A CN 101477653 A CN101477653 A CN 101477653A
Authority
CN
China
Prior art keywords
data
quality
territory
unit
flow process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102466710A
Other languages
English (en)
Inventor
孙继纲
孙鹏
周训波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Software Technologies Co Ltd
Original Assignee
Datang Software Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Software Technologies Co Ltd filed Critical Datang Software Technologies Co Ltd
Priority to CNA2008102466710A priority Critical patent/CN101477653A/zh
Publication of CN101477653A publication Critical patent/CN101477653A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • General Factory Administration (AREA)

Abstract

本发明公开了一种数据质量的处理方法及系统,所述方法包括:根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。本发明由于根据数据的特点建立了完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域的数据处理流程均能够自动完成,因此数据管理的自动化程度较高,增强了分析的准确性和实用性,并为后续分析管理提供了依据。

Description

数据质量的处理方法及系统
技术领域
本发明涉及数据库技术领域,特别涉及一种数据质量的处理方法及系统。
背景技术
随着信息化建设的普及,越来越多的企业通过计算机平台,也就是通常所说的信息管理系统对企业信息进行管理,信息管理系统是对数据进行生产和加工的系统。由于信息管理系统自身的缺陷,或者操作人员的失误,或者系统遗留数据的缺陷,容易导致被管理的数据出现错误、缺失、甚至不一致的情况。对于如电信类企业的大型企业,通常需要涉及不同领域的信息化建设,如CRM(Customer RelationshipManagement,客户关系管理)系统、计费系统等。这些不同领域的信息管理系统之间的数据更容易出现不一致的问题,特别当不同领域的信息管理系统由不同的软件厂家单位进行建设时,问题更加突出。
信息管理系统最重要的任务就是对企业数据进行管理,而管理过程通过对数据的处理实现。现有技术中,通常采用发现和修正的模式对数据进行管理,例如,通过人工方式,或者预先编制的小程序/小脚本发现问题,然后将问题提交到生产系统进行修正。发明人在对现有技术的研究过程中发现,现有技术通常发现一个问题,解决一个问题,这种处理方式忽略了数据生产过程的稳定性和质量,难以找出问题的根源;整个数据处理过程依赖于人工操作,缺乏对数据的系统管理,自动化管理程度不高。
发明内容
本发明实施例提供一种数据质量的处理方法和系统,解决现有技术中数据自动化管理程度不高的问题。
为解决上述问题,本发明实施例提供如下技术方案:
一种数据质量的处理方法,包括:
根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;
通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
还包括:预先设置数据质量问题域和数据质量规则域,具体包括:
分析数据的质量特点;
根据所述分析结果获得所述数据的数据质量问题域;
分别生成对应每个数据质量问题域的数据质量规则域。
所述数据质量问题域具体为按照已发生数据的问题的类型生成的问题域;
所述数据质量规则域具体为根据所述问题生成的解决与适应关系,包括:针对所述问题的解域算法规则、质量管理处理规则、统计分析规则。
所述数据质量管理流程包括:数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
所述执行所述数据定义流程包括:
对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
所述执行所述数据测量流程包括:
确定所述多个CTQ的可操作性定义;
根据所述可操作性定义分别为每个CTQ收集测量数据;
通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
保存所述测量数据、性能数据和能力数据。
所述执行所述数据分析流程包括:
确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
测量所述风险变量,建立所述每个风险变量的过程能力基线;
通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
所述执行所述数据改进流程包括:
获取所述偏差值大于预设阈值的风险变量;
反馈所述风险变量;
根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
所述执行所述数据控制流程包括:
分析所述偏差值大于预设阈值的风险变量;
根据所述分析的结果为所述风险变量建立改进策略;
通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述方法还包括:根据所述获得数据的处理结果更新预先设置的数据质量问题域和数据质量规则域。
一种数据质量的处理系统,包括:
建立单元,用于根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;
处理单元,用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
还包括:预设单元,用于预先设置数据质量问题域和数据质量规则域。
所述预设单元包括:
数据分析单元,用于分析数据的质量特点;
问题域获得单元,用于根据所述分析结果获得所述数据的数据质量问题域;
规则域生成单元,用于分别生成对应每个数据质量问题域的数据质量规则域。
所述建立单元具体用于,根据所述数据质量问题域和数据质量规则域建立数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
当所述建立单元建立的流程为数据定义流程时,所述处理单元包括定义流程处理单元,所述定义流程处理单元包括:
SIPOC分析单元,用于对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
CTQ获得单元,用于根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
当所述建立单元建立的流程为数据测量流程时,所述处理单元包括测量流程处理单元,所述测量流程处理单元包括:
CTQ定义单元,用于确定所述多个CTQ的可操作性定义;
数据收集单元,用于根据所述可操作性定义分别为每个CTQ收集测量数据;
能力获取单元,用于通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
数据保存单元,用于保存所述测量数据、性能数据和能力数据。
当所述建立单元建立的流程为数据分析流程时,所述处理单元包括分析流程处理单元,所述分析流程处理单元包括:
CTQ风险变量确定单元,用于确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
能力基线建立单元,用于测量所述风险变量,建立所述每个风险变量的过程能力基线;
偏差值获取单元,用于通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
影响参数获取单元,用于根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
当所述建立单元建立的流程为数据改进流程时,所述处理单元包括改进流程处理单元,所述改进流程处理单元包括:
风险变量获取单元,用于获取所述偏差值大于预设阈值的风险变量;
风险变量反馈单元,用于反馈所述风险变量;
偏差值调整单元,用于根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
当所述建立单元建立的流程为数据控制流程时,所述处理单元包括控制流程处理单元,所述控制流程处理单元包括:
风险变量分析单元,用于分析所述偏差值大于预设阈值的风险变量;
改进策略建立单元,用于根据所述分析的结果为所述风险变量建立改进策略;
CTQ控制单元,用于通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述系统还包括:更新单元,用于根据所述处理单元获得数据的处理结果更新预设单元中预先设置的数据质量问题域和数据质量规则域。
由以上本发明实施例提供的技术方案可见,本发明中预先设置数据质量问题域和数据质量规则域,根据数据质量问题域和数据质量规则域建立数据的管理流程,通过执行管理流程对所述数据进行自动处理,并获得数据的处理结果。应用本发明实施例进行数据处理,由于根据数据的特点建立了完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域的数据处理流程均能够自动完成,因此数据管理的自动化程度较高,增强了分析的准确性,并为后续分析管理提供了依据。
附图说明
图1为本发明数据质量的处理方法所应用的数据库的结构示意图;
图2为本发明数据质量的处理方法的第一实施例流程图;
图3为本发明数据质量的处理方法的第二实施例流程图;
图4为本发明一种数据质量问题域的结构示意图;
图5为本发明数据定义和数据测量的实施例流程图;
图6为本发明数据分析和数据改进的实施例流程图;
图7为本发明数据分析和数据控制的实施例流程图;
图8为本发明数据质量的处理系统的第一实施例框图;
图9为本发明数据质量的处理系统的第二实施例框图。
具体实施方式
本发明实施例提供了一种数据质量的处理方法和系统,为了使本技术领域的人员更好地理解本发明方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明数据质量的处理方法基于数据库的建设,该数据库可以称为数据质量知识库,其结构示意图如图1所示,可以具体包括:数据质量问题库、数据质量规则库、数据质量流程库、流程执行结果库、组织经验库,该数据质量知识库可以用于对企业大容量数据的处理和管理。
其中,数据质量问题库(Problems repository):用于存放与管理企业数据质量管理过程中已经遇到或者可能遇到的各类问题,问题可以分类、分级别管理与维护,质量管理人员还可以通过问题管理用户界面对库中的问题进行管理与维护服务。
数据质量规则库(Rules repository):用于存放与管理程序自动化检测数据质量问题所涉及的技术规则,质量规则根据质量问题建立,质量管理人员可以通过规则管理用户界面对库中的规则进行管理与维护,包括规则与问题间的解决与适用关系。
数据质量流程库(Data quality process repository):用于存放与管理数据质量流程,质量流程根据质量规则建立。
流程执行结果库(Quality result repository):用户存放与管理数据质量流程的执行结果与分析结果。
组织经验库(Organizational experiences repository):用于记录实际数据质量改进过程中有效的经验、技巧与知识,并用于向组织内其他数据质量改进项目的共享与推广。
本发明数据质量的处理方法的第一实施例流程如图2所示:
步骤201:预先设置数据质量问题域和数据质量规则域。
具体的,分析数据的质量特点,根据分析结果获得数据的数据质量问题域,分别生成对应每个数据质量问题域的数据质量规则域。
其中,数据质量问题域具体为按照已发生数据的问题的类型生成的问题域;数据质量规则域具体为根据所述问题生成的解决与适应关系,包括:针对所述问题的解域算法规则、质量管理处理规则、统计分析规则,该步骤为可选步骤。
步骤202:根据数据质量问题域和数据质量规则域建立数据的管理流程。
其中,数据质量管理流程包括:数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
步骤203:通过执行管理流程对数据进行自动处理,并获得数据的处理结果。
优选的,在步骤203之后,所述方法还可以包括:根据所述获得数据的处理结果更新预先设置的数据质量问题域和数据质量规则域。
本发明数据质量的处理方法的第二实施例流程如图3所示,该实施例结合图1所示的数据库结构,详细示出了数据处理的过程:
步骤301:分析数据的质量特点。
由于企业信息化系统的数据处理范围非常大,实现测量、分析、图表和报表自动化处理,对于减轻质量管理控制人员的工作量,提高质量管理控制人员的效率,降低分析错误概率,具有非常积极的意义。因此本发明要建立如图1所示的数据质量知识库,需要首先对企业数据的质量特点进行分析。
步骤302:根据分析结果获得数据的数据质量问题域,将数据质量问题域保存到数据质量问题库。
根据分析结果获得的数据质量问题域可以为直接生成的问题域,也可以为通过问题域的管理界面输入的问题。
一种对企业数据进行分析后生成的数据质量问题域的结构如图4所示,该结构以树的结构示出了各类问题,和每类问题的定义条件,包括约束条件和完整性条件等。
步骤303:分别生成对应每个数据质量问题域的数据质量规则域,将数据质量规则域保存的数据质量规则库。
数据质量规则域主要包括如下三种规则:针对问题域的解域算法规则、质量管理任务单处理规则和6σ(6Sigma,六西格玛)统计分析规则,6σ是一项以数据为基础的质量管理方法。σ在统计学中用来表示标准偏差,即数据的分散程度。用“σ”度量质量特性总体上对目标值的偏离程度,如六西格玛可解释为每一百万个机会中有3.4个出错的机会,即合格率是99.99966%,而3σ的合格率只有93.32%。
结合图4所示的数据质量问题域,根据该问题域生成的数据质量规则域中:
问题域的解域算法规则包括:结构表内完整性检查规则、表内唯一性约束检查规则、引用约束检查规则、取值约束检查规则、记录重复检查规则、实时性能检查规则、表间取值约束检查规则、表间重复记录检查规则、表间数据冲突检查规则、汇总错误检查规则、映射关系约束检查规则以及各类自定义规则(地址合法性检查规则、各类证件合法性检查规则等);
质量管理任务单处理规则包括:负责质量任务单的提交、回填、状态处理等的任务规则;
6σ统计分析规则包括:各类统计值的计算类规则,如DPMO(Defects per Milllion Opportunities,百万机会缺陷数)计算规则、过程Sigma能力计算规则等。
步骤304:根据数据质量问题域和数据质量规则域建立数据的管理流程,将管理流程保存到数据质量流程库。
数据质量管理流程包括:数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程,上述流程的处理过程在后续实施例中进行详细描述。
步骤305:执行管理流程对数据进行自动处理,获得所述数据的处理结果。
当输入待处理的企业数据后,可以按照人工启动或者系统周期性自动启动方式触发数据质量流程对数据进行各种处理。系统能对度量类规则进行计算自动化的度量分析,检测数据质量问题是否发生与发生的概率等,并记录样本;对于配置为自动分析的分析类规则,系统可以计算自动化执行;对于配置为人工分析的分析类规则,可以人工进行处理,填写工单与处理信息进行流程扭转。
步骤306:将所述数据的处理结果保存到数据执行结果库。
在反馈阶段,可以将问题数据样本、问题描述、检测与分析规则描述等组成反馈结果,系统可以自动化已经过质量流程处理的任务单、邮件等形式反馈给系统的流程结果库,或者系统管理人员。
为了详细说明本发明基于数据质量问题库、数据质量规则库和数据质量流程库执行数据处理流程的过程,下面分别描述各种处理流程的实施例。
本发明数据定义流程和数据测量流程的实施例如图5所示:
步骤501:对输入的数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析。
SIPOC(Supplier Input Process Output Customer,供应方、输入、处理、输出、客户)是分析供应商、输入、过程、输出和感兴趣客户的分析管理方式,其中输出主要指CTQ(Critical To Quality,关键质量特性),CTQ是产品、服务或过程的关键品质参数。
另外,也可以采用VOC(Voice of Customer,客户之声)对客户需求进行定性或定量分析,主要包括收集客户的需求进行分类,并采用质量和成本进行调查分析。VOC分析可以在系统外人工进行,并将分析结果作为SIPOC分析的参考。
步骤502:根据SIPOC分析的结果获得数据的多个质量参数CTQ。
步骤503:确定多个CTQ的可操作性定义。
步骤504:根据可操作性定义分别为每个CTQ收集测量数据。
在收集测量数据之前,还可以对CTQ进行Gage R&R(GageRepeatability & Reproducibility,Gage可重复性和可再现性分析)。对每个CTQ进行Gage R&R研究可以确定测量系统的能力。由于数据质量问题的计算机识别具有很强的可重复性和可再现性,因此R&R偏差近似为0,因此Gage R&R步骤一般可以省略。
步骤505:通过测量数据获得每个CTQ的性能数据和测量过程能力数据。
经过一段时间的多次测量,将在流程执行结果库形成测量数据基线。利用系统提供的控制图功能、DPMO计算规则功能、过程Sigma能力计算规则功能,可以测量每个CTQ的稳定性和过程能力统计数据(如DPMO和过程Sigma)。系统执行问题检测规则,对生产系统的数据进行数据质量检查,将发生问题的数据样本记录入执行结果库,并记录产生问题的时间等参数,并把问题发生的概率与数量记录到执行结果库。
数据质量管理人员可以查看流程结果库中的信息,并利用质量控制图工具进行计算与展示,以供质量管理人员分析使用。在分析时,可以利用DPMO计算规则计算系统的DPMO能力,也可以利用过程Sigma能力计算过程的Sigma水平。
其中,DPMO计算表达式如下:
Figure A200810246671D00161
其中,Sigma水平t的计算可以通迭代过求解如下方程得到:
ψ ( t ) = ∫ - tσ tσ 1 2 π σ e - ( x - u ) 2 2 σ 2 dx - ( 1 - DPMO ) = 0 - - - ( 2 )
式中σ为度量样本标准差,u为度量样本过程偏差。为了提高计算效率,通常采用表格查询模式来估计系统的Sigma水平,如下表1为一种Sigma水平的查询表格:
表1
 
过程偏差 合格率 Sigma水平
0 0.68
0 0.9545
0 0.997300204
0 0.9999366575
0 0.9999994267
0 0.9999999980
1.5σ 0.31
1.5σ 0.692
1.5σ 0.9332
1.5σ 0.99379
1.5σ 0.99977
1.5σ 0.9999966
步骤506:保存测量数据、性能数据和能力数据。
本发明数据分析流程和数据改进流程的实施例如图6所示:
步骤601:确定与每个CTQ相关的风险变量,以及风险变量的可操作性定义。
步骤602:测量风险变量,建立每个风险变量的过程能力基线。
步骤603:通过监测控制图分析过程能力基线,得到能力基线的偏差值。
控制图主要包括:p图(P-Chart)、c图(c-Chart)、u图(u-Chart)、均值和极差图(X-R Chart)、均值和标准差图(X-S Chart)、单值和移动极差图(I-MR Chart)等。
步骤604:根据偏差值获得所述风险变量对所述CTQ的影响程度。
步骤605:获取偏差值大于预设阈值的风险变量。
步骤606:反馈风险变量。
步骤607:根据偏差值调整风险变量直至风险变量的能力基线的偏差值小于阈值。
假设风险变量为X,调整和计算X的DPMO和Sigma水平等过程能力的方式与前述质量测量阶段的计算过程一致,在此不再赘述。其中,可以利用Pareto图类工具确定实现CTQ改进目标需要的高风险X,然后将需要改进的高风险X和检测数据明细以质量改进任务单的形式发给生产系统。
本发明数据分析流程和数据控制流程的实施例如图7所示:
步骤701:确定与每个CTQ相关的风险变量,以及风险变量的可操作性定义。
步骤702:测量风险变量,建立每个风险变量的过程能力基线。
步骤703:通过监测控制图分析过程能力基线,得到能力基线的偏差值。
步骤704:根据偏差值获得所述风险变量对所述CTQ的影响程度。
步骤705:获取偏差值大于预设阈值的风险变量。
步骤706:分析偏差值大于预设阈值的风险变量。
步骤707:根据分析的结果为风险变量建立改进策略。
步骤708:通过改进策略监控风险变量和CTQ的稳定性。
下面结合电信企业的数据质量问题,描述对电信数据进行处理的过程,在实际应用过程中,对于单系统和多系统的信息化环境均具有实用性,即问题域、规则域和处理流程类似,只是问题域和规则域的具体内容范围有所不同。
假设应用本发明检查CRM系统和计费系统中三户资料的数据质量。三户资料指(客户、用户、帐户)信息,系统关系的一致性。常见约束说明如下:
1.一个客户(Cust)有0个或者多个用户(Serv);
2.一个客户(Cust)有0个或者多帐户(Acct);
3.一个用户(Serv)只能隶属于一个客户(Cust)
4.一个帐户(Acct)只能隶属于一个客户(Cust)
5.一个用户(Serv)有一个帐户(Acct)付费
6.用户(Serv)的帐户(Acct)也隶属于用户所属的客户(Cust)
这些内容可以通过如图1所示的数据质量问题库进行描述,在定义阶段可以在系统中建立一个CTQ,包括三户关系的错误数,并在数据质量流程库中建立质量管理流程。
度量阶段,需要确定三户关系错误的标准以及检验方法,根据标准和检验方法从问题域里面选择问题,并选择相应的检测规则(维护在质量规则库中);执行规则,获得检测数据,计算DPMO和过程Sigma水平(记录在结果库中)。质量管理人员可用控制图进行分析。如果满足要求不需要改进,流程可终止;
分析阶段,需要分析产生错误的一些风险X,除了可按5类约束划分风险外,还可能有其他风险,如员工错误操作等。确定这些风险的检测方法,从规则库选取配置检测规则后,计算各个X的检测数据和DPMO和过程Sigma水平,通过控制图进行分析;
改进阶段,质量管理人员可结合Pareto图确定需要改进的高风险X,并制定解决方案,返回检测结果和数据到生产系统(质量任务单的形式),生产系统试验改进各种风险X,系统计算改进后的X的DMPO和过程Sigma水平;
控制阶段,质量管理人员监控CTQ和X的稳定性,总结标准化的过程改进,并将统计的好的经验纳入组织经验库。
与本发明数据处理方法的实施例相对应,本发明还提供了数据处理系统的实施例。
本发明数据质量的处理系统的第一实施例框图如图8所示,该系统包括:预设单元810、建立单元820、处理单元830和更新单元840。其中,预设单元810和更新单元840为可选单元。
其中,预设单元810用于预先设置数据质量问题域和数据质量规则域;建立单元820用于根据所述数据质量问题域和数据质量规则域建立所述数据的管理流程;处理单元830用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果;所述更新单元840,用于根据所述处理单元830获得数据的处理结果更新预设单元810中预先设置的数据质量问题域和数据质量规则域。
本发明数据质量的处理系统的第二实施例框图如图9所示,该系统包括:预设单元910、建立单元920和处理单元930。优选的,该系统还可以包括更新单元(图中未示)。
其中,预设单元910用于预先设置数据质量问题域和数据质量规则域;建立单元920用于根据所述数据质量问题域和数据质量规则域建立所述数据的管理流程;处理单元930用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
进一步,预设单元910可以具体包括:数据分析单元911,用于分析数据的质量特点;问题域获得单元912,用于根据所述分析结果获得所述数据的数据质量问题域;规则域生成单元913,用于分别生成对应每个数据质量问题域的数据质量规则域。
进一步,建立单元910具体用于,根据所述数据质量问题域和数据质量规则域建立数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
具体的,当所述建立单元920建立的流程为数据定义流程时,所述处理单元930可以包括定义流程处理单元921,所述定义流程处理单元921可以包括(图9中未示出):SIPOC分析单元,用于对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;CTQ获得单元,用于根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
具体的,当所述建立单元920建立的流程为数据测量流程时,所述处理单元930可以包括测量流程处理单元922,所述测量流程处理单元922可以包括(图9中未示出):CTQ定义单元,用于确定所述多个CTQ的可操作性定义;数据收集单元,用于根据所述可操作性定义分别为每个CTQ收集测量数据;能力获取单元,用于通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;数据保存单元,用于保存所述测量数据、性能数据和能力数据。
具体的,当所述建立单元920建立的流程为数据分析流程时,所述处理单元930可以包括分析流程处理单元923,所述分析流程处理单元923可以包括(图9中未示出):CTQ风险变量确定单元,用于确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;能力基线建立单元,用于测量所述风险变量,建立所述每个风险变量的过程能力基线;偏差值获取单元,用于通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;影响参数获取单元,用于根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
具体的,当所述建立单元920建立的流程为数据改进流程时,所述处理单元930可以包括改进流程处理单元924,所述改进流程处理单元924可以包括(图9中未示出):风险变量获取单元,用于获取所述偏差值大于预设阈值的风险变量;风险变量反馈单元,用于反馈所述风险变量;偏差值调整单元,用于根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
具体的,当所述建立单元920建立的流程为数据控制流程时,所述处理单元930可以包括控制流程处理单元925,所述控制流程处理单元925可以包括(图9中未示出):风险变量分析单元,用于分析所述偏差值大于预设阈值的风险变量;改进策略建立单元,用于根据所述分析的结果为所述风险变量建立改进策略;CTQ控制单元,用于通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述更新单元,用于根据所述处理单元获得数据的处理结果更新预设单元中的数据质量问题域和数据质量规则域。
通过本发明实施例的描述可知,本发明由于根据数据特点建立了完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域的数据处理流程均能够自动完成,因此数据管理的自动化程度较高,增强了分析的准确性,并为后续分析管理提供了依据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一个或多个计算机可读取存储介质中,该程序在执行时,包括如下步骤:预先设置数据质量问题域和数据质量规则域;根据所述数据质量问题域和数据质量规则域建立所述数据的管理流程;通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (20)

1、一种数据质量的处理方法,其特征在于,包括:
根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;
通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
2、根据权利要求1所述的方法,其特征在于,还包括:预先设置数据质量问题域和数据质量规则域,具体包括:
分析数据的质量特点;
根据所述分析结果获得所述数据的数据质量问题域;
分别生成对应每个数据质量问题域的数据质量规则域。
3、根据权利要求1所述的方法,其特征在于,所述数据质量问题域具体为按照已发生数据的问题的类型生成的问题域;
所述数据质量规则域具体为根据所述问题生成的解决与适应关系,包括:针对所述问题的解域算法规则、质量管理处理规则、统计分析规则。
4、根据权利要求1所述的方法,其特征在于,所述数据质量管理流程包括:数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
5、根据权利要求4所述的方法,其特征在于,所述执行所述数据定义流程包括:
对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
6、根据权利要求5所述的方法,其特征在于,所述执行所述数据测量流程包括:
确定所述多个CTQ的可操作性定义;
根据所述可操作性定义分别为每个CTQ收集测量数据;
通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
保存所述测量数据、性能数据和能力数据。
7、根据权利要求6所述的方法,其特征在于,所述执行所述数据分析流程包括:
确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
测量所述风险变量,建立所述每个风险变量的过程能力基线;
通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
8、根据权利要求7所述的方法,其特征在于,所述执行所述数据改进流程包括:
获取所述偏差值大于预设阈值的风险变量;
反馈所述风险变量;
根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
9、根据权利要求8所述的方法,其特征在于,所述执行所述数据控制流程包括:
分析所述偏差值大于预设阈值的风险变量;
根据所述分析的结果为所述风险变量建立改进策略;
通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
10、根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
根据所述获得数据的处理结果更新预先设置的数据质量问题域和数据质量规则域。
11、一种数据质量的处理系统,其特征在于,包括:
建立单元,用于根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;
处理单元,用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
12、根据权利要求11所述的系统,其特征在于,还包括:
预设单元,用于预先设置数据质量问题域和数据质量规则域。
13、根据权利要求12所述的系统,其特征在于,所述预设单元包括:
数据分析单元,用于分析数据的质量特点;
问题域获得单元,用于根据所述分析结果获得所述数据的数据质量问题域;
规则域生成单元,用于分别生成对应每个数据质量问题域的数据质量规则域。
14、根据权利要求12所述的系统,其特征在于,所述建立单元具体用于,根据所述数据质量问题域和数据质量规则域建立数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
15、根据权利要求14所述的系统,其特征在于,当所述建立单元建立的流程为数据定义流程时,所述处理单元包括定义流程处理单元,所述定义流程处理单元包括:
SIPOC分析单元,用于对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
CTQ获得单元,用于根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
16、根据权利要求15所述的系统,其特征在于,当所述建立单元建立的流程为数据测量流程时,所述处理单元包括测量流程处理单元,所述测量流程处理单元包括:
CTQ定义单元,用于确定所述多个CTQ的可操作性定义;
数据收集单元,用于根据所述可操作性定义分别为每个CTQ收集测量数据;
能力获取单元,用于通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
数据保存单元,用于保存所述测量数据、性能数据和能力数据。
17、根据权利要求16所述的系统,其特征在于,当所述建立单元建立的流程为数据分析流程时,所述处理单元包括分析流程处理单元,所述分析流程处理单元包括:
CTQ风险变量确定单元,用于确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
能力基线建立单元,用于测量所述风险变量,建立所述每个风险变量的过程能力基线;
偏差值获取单元,用于通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
影响参数获取单元,用于根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
18、根据权利要求17所述的系统,其特征在于,当所述建立单元建立的流程为数据改进流程时,所述处理单元包括改进流程处理单元,所述改进流程处理单元包括:
风险变量获取单元,用于获取所述偏差值大于预设阈值的风险变量;
风险变量反馈单元,用于反馈所述风险变量;
偏差值调整单元,用于根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
19、根据权利要求18所述的系统,其特征在于,当所述建立单元建立的流程为数据控制流程时,所述处理单元包括控制流程处理单元,所述控制流程处理单元包括:
风险变量分析单元,用于分析所述偏差值大于预设阈值的风险变量;
改进策略建立单元,用于根据所述分析的结果为所述风险变量建立改进策略;
CTQ控制单元,用于通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
20、根据权利要求12至18任一项所述的系统,其特征在于,所述系统还包括:
更新单元,用于根据所述处理单元获得数据的处理结果更新预设单元中预先设置的数据质量问题域和数据质量规则域。
CNA2008102466710A 2008-12-29 2008-12-29 数据质量的处理方法及系统 Pending CN101477653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102466710A CN101477653A (zh) 2008-12-29 2008-12-29 数据质量的处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102466710A CN101477653A (zh) 2008-12-29 2008-12-29 数据质量的处理方法及系统

Publications (1)

Publication Number Publication Date
CN101477653A true CN101477653A (zh) 2009-07-08

Family

ID=40838361

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102466710A Pending CN101477653A (zh) 2008-12-29 2008-12-29 数据质量的处理方法及系统

Country Status (1)

Country Link
CN (1) CN101477653A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761162A (zh) * 2016-02-05 2016-07-13 中国南方电网有限责任公司 电力企业技术标准测评方法
CN106407391A (zh) * 2016-09-19 2017-02-15 北京集奥聚合科技有限公司 一种数据质量监控的方法及系统
CN113127459A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN113433907A (zh) * 2021-06-24 2021-09-24 中国航空综合技术研究所 基于可靠性关键特性的航空机电产品设计可靠性控制方法
CN114936207A (zh) * 2022-07-25 2022-08-23 深圳市城市交通规划设计研究中心股份有限公司 一种物联网传感设备感知数据质量评估方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761162A (zh) * 2016-02-05 2016-07-13 中国南方电网有限责任公司 电力企业技术标准测评方法
CN105761162B (zh) * 2016-02-05 2018-02-13 中国南方电网有限责任公司 电力企业技术标准测评方法
CN106407391A (zh) * 2016-09-19 2017-02-15 北京集奥聚合科技有限公司 一种数据质量监控的方法及系统
CN106407391B (zh) * 2016-09-19 2020-01-07 北京集奥聚合科技有限公司 一种数据质量监控的方法及系统
CN113127459A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN113127459B (zh) * 2019-12-31 2023-08-29 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN113433907A (zh) * 2021-06-24 2021-09-24 中国航空综合技术研究所 基于可靠性关键特性的航空机电产品设计可靠性控制方法
CN114936207A (zh) * 2022-07-25 2022-08-23 深圳市城市交通规划设计研究中心股份有限公司 一种物联网传感设备感知数据质量评估方法

Similar Documents

Publication Publication Date Title
JP6978541B2 (ja) 動的外れ値偏り低減のコンピュータ実装方法、コンピュータシステム及びコンピュータ装置
Engelmann et al. The Basel II risk parameters: estimation, validation, and stress testing
CN107993143A (zh) 一种信贷风险评估方法及系统
CN101477653A (zh) 数据质量的处理方法及系统
Monteiro et al. Impact of the internal control and accounting systems on the financial information usefulness: The role of the financial information quality
US8942838B2 (en) Measurement systems analysis system and method
CN109034483A (zh) 一种基于质量功能配置的检测规划方法
CN112763477B (zh) 一种基于拉曼光谱的仿制药质量快速评价系统
CN108446213A (zh) 一种静态代码质量分析方法和装置
CN108038635B (zh) 基础设施资产投资回报的建模和分析方法及系统
CN110705841A (zh) 一种基于改进模糊层次分析法的化工生产安全评估方法
Zsibók Extrapolative techniques’ predictive capacity in the spatial downscaling of the Hungarian gross domestic product
Mahaluça et al. Importance of applying statistical sampling to increase confidence in financial statements
JP2024016300A (ja) 分析プログラム、分析装置、及び分析方法
CN112070415B (zh) 基于软件定量管理过程构建的场景化基线与模型实现方法
Fajar et al. The Influence of IT Service Management Performance Measurement to Customer Satisfaction
CN117273549B (zh) 一种基于绩效考核指标体系的绩效考核方法及系统
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及系统
Fattoruso et al. A new composite indicator for Manufacturing efficiency
CN115660213A (zh) 一种基于回归分析的巡检管理方法
CN106841972A (zh) 一种GaN发光二极管抗辐照能力无损筛选方法及装置
CN114611883A (zh) 一种评价产品生产过程的装置
CN116911896A (zh) 一种配电工程造价分析工作数据填报辅助系统
Fallahnezhad et al. Effects of inspection errors on economically design of CCC-r control chart
Schipper Testing the application of quantile regression in screening insurance claims by assigning conditional quantiles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090708