CN107358334A - 数据准确性判定方法、装置、终端及计算机可读存储介质 - Google Patents

数据准确性判定方法、装置、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN107358334A
CN107358334A CN201710379309.XA CN201710379309A CN107358334A CN 107358334 A CN107358334 A CN 107358334A CN 201710379309 A CN201710379309 A CN 201710379309A CN 107358334 A CN107358334 A CN 107358334A
Authority
CN
China
Prior art keywords
data
parameter
data set
list
quality discrimination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710379309.XA
Other languages
English (en)
Other versions
CN107358334B (zh
Inventor
陈江琦
刘贺
杨訸
赵婷
刘卫卫
黄复鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Global Energy Interconnection Research Institute, State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201710379309.XA priority Critical patent/CN107358334B/zh
Publication of CN107358334A publication Critical patent/CN107358334A/zh
Application granted granted Critical
Publication of CN107358334B publication Critical patent/CN107358334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

数据准确性判定方法、装置、终端及计算机可读存储介质,其中数据准确性判定方法,包括:获取数据集,其中数据集由至少一个表单组成;确定所述表单的类型;根据表单的类型,确定表单的质量判别参数,其中表单的类型对应的质量判别参数预存在质量判别参数库中;根据表单的质量判别参数,计算数据集的判别特征参数,判别特征参数用于判断数据集中数据的准确性;根据判别特征参数判别所述数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。

Description

数据准确性判定方法、装置、终端及计算机可读存储介质
技术领域
本发明涉及电力数据处理领域,具体涉及数据准确性判定方法、装置终端及计算机可读存储介质。
背景技术
随着大数据时代的到来,数据呈爆炸式增长,种类也越来越多,但数据集的数据质量问题,例如数据缺失、不规范、不准确、不符合逻辑等问题一直影响着用户对数据的使用。
在对大数据处理的过程中,数据的准确性非常重要,只有判断出数据的准确性,后续使用这些数据得到的信息的准确性才能得到保证,因此判断数据的准确性至关重要。目前在对数据质量进行评估过程中,例如数据规模较大且对数据准确性要求较高的用电类数据的评估过程中,现有方法是将多个评估指标(例如数据的完整性、合规性、准确性、表内一致性、表间一致性等)同时进行评价,例如在进行用电类数据完整性的评估过程中,同时进行数据的合规性、准确性等评价,使得每次评价过程均要对整个用电类数据进行指标评估,有的数据单元中的数据在进行合规性评估的过程中已经判断出不符合相关格式的要求,但在进行准确性指标评估的过程中不但还要对该数据的准确性进行判断,而可能还会得出该项数据满足准确性要求的评估结果,造成了一个数据单元需要经过不同指标的多次判断、数据被重复计算,降低了判断数据准确性的效率,且使用不同的方式对数据的准确性进行评价时可能得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终判断数据的准确性。
发明内容
因此,本发明要解决的技术问题在于现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
有鉴于此,本发明提供一种数据准确性判定方法,包括:
获取数据集,其中所述数据集由至少一个表单组成;
确定所述表单的类型;
根据所述表单的类型,确定所述表单的质量判别参数,其中所述表单的类型对应的质量判别参数预存在质量判别参数库中;
根据所述表单的质量判别参数,计算所述数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性;
根据所述判别特征参数判别所述数据集的准确性。
进一步地,所述判别特征参数包括:完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数中的一个或多个。
进一步地,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
根据所述表单的质量判别参数,按照预设顺序计算所述完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数。
进一步地,所述判别特征参数为完整性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
根据所述表单的质量判别参数中完整性质量判别条件,确定所述数据集中要求非空数据单元的数量和当前所述数据集中空值数据单元的数量;
根据当前所述数据集中空值数据单元的数量和所述数据集中要求非空数据单元的数量的比值,确定所述数据集的完整性判别参数。
进一步地,所述根据所述表单的质量判别参数,确定所述数据集中要求非空数据单元的数量和当前所述数据集中空值数据单元的数量的步骤之前,包括:
判断所述数据集中要求非空数据单元中的数据是否包含无效字符;
当所述数据集中要求非空数据单元中的数据包含无效字符,将所述无效字符转换为空值。
进一步地,所述确定所述数据集的完整性判别参数的步骤之后,所述判别特征参数为规范性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量,其中所述第一数据集是由所述数据集中所有数据单元去除所述数据集中要求非空数据单元中的空值数据单元后得到的;
根据所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量与所述第一数据集中数据单元的数量的比值,确定所述数据集的规范性判别参数。
进一步地,所述确定所述数据集的规范性判别参数的步骤之后,包括:
对所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元进行数据清洗。
进一步地,所述对所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元进行数据清洗的步骤之后,所述判别特征参数为数值准确性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量,其中所述第二数据集是由所述第一数据集中去除经过所述数据清洗后仍未满足所述质量判别参数中规范性质量判别条件要求的数据单元后得到的;
根据第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量与所述第二数据集中数据单元的数量的比值,确定所述数据集的数值准确性判别参数。
进一步地,所述确定所述数据集的数值准确性判别参数的步骤之后,所述判别特征参数为表内一致性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量,其中所述第三数据集是由所述第二数据集中去除不满足所述质量判别参数中数值准确性质量判别条件的数据单元后得到的;
根据所述第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量与所述第三数据集中数据单元的数量的比值,确定所述数据集的表内一致性判别参数。
进一步地,当所述数据集包括多个表单时,所述确定所述数据集的表内一致性判别参数的步骤之后,所述判别特征参数为表间一致性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取所述多个表单的主键;
判断任意一个主键在包含所述主键的任意两个所述表单中代表的数据单元中数据是否相同;
当任意一个主键在包含所述主键的任意两个所述表单中代表的数据相同时,获取所述数据单元的数量;
根据所述数据单元的数量与多个所述第三数据集中数据单元数量总和的比值,确定所述数据集的表间一致性判别参数。
进一步地,所述根据所述判别特征参数判别所述表单的准确性的步骤,按照下式进行判别:
P=a1*P1+a2*P2+a3*P3+a4*P4+a5*p5
其中,P1、P2、P3、P4、P5分别为完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数;a1、a2、a3、a4、a5为对应所述特征判别参数的正加权系数。
相应地,本发明还提供一种数据加工装置,包括:
获取单元,用于获取数据集,其中所述数据集由至少一个表单组成;
类型确定单元,用于确定所述表单的类型;
确定单元,用于根据所述表单的类型,确定所述表单的质量判别参数,其中所述表单的类型对应的质量判别参数预存在质量判别参数库中;
计算单元,用于根据所述表单的质量判别参数,计算所述数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性;
判别单元,用于根据所述判别特征参数判别所述数据集的准确性。
相应地,本发明还提供一种终端,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,以使所述至少一个处理器执行上述所述的数据准确性判定方法。
相应地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述数据准确性判定方法的步骤。
本发明提供的数据准确性判定方法、装置、终端及计算机可读存储介质,通过确定获取的数据集中的表单类型,根据表单的类型,确定表单的质量判别参数,继而根据表单的质量判别参数,计算数据集的判别特征参数并根据判别特征参数判别数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据准确性判定方法的流程图;
图2是本发明另一实施例提供的一种数据准确性判定装置的结构示意图;
图3是本发明另一实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据准确性判定方法,如图1所示,包括:
S11,获取数据集,其中该数据集由至少一个表单组成。例如用电类数据集通常由至少一个表单构成,表单中主要包含用户年龄、性别、用户编号等用户信息,以及日期、时间、功率、电流、电压、电量等用户用电信息,表单中每一行称为一条记录,每一列称为一个字段,每一个用于填写数据的位置称为一个数据单元。
S12,确定表单的类型。在表单类型的判断过程中,通过表单识别模型识别出该表单中表头记录的表单名称与预先存储的与该表单名称对应的表单类型,可以确定该表单的类型,也可以通过识别表单中每个字段的主键名称,得出该表单的数据单元中记录的数据类型,继而确定该表单的类型,例如用电类数据会包括用户名称等字符型数据,也可以包括对应用户的用电数据的数值类型数据。
S13,根据表单的类型,确定该表单的质量判别参数,其中该表单的类型对应的质量判别参数预存在质量判别参数库中。该质量判别数据库可以是对应表单数据字典中记录的相关表单填写标准的数据,即每一个记录数据的表单都会对应一个数据字典,该数据字典中记录着该表单的标准化数据。
S14,根据表单的质量判别参数,计算数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性。其中判别特征参数可以包括:完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数中的一个或多个,例如在完整性判别的过程中,按照质量判别参数记录的完整性质量判别条件去判别该表单中数据的完整性,本发明实施例提供的判别特征参数并不限定上述几种,还可以包括其他有助于提高数据集中数据准确性判定的判别特征参数,本发明实施例主要采用以上述几种判别特征参数。
S15,根据所述判别特征参数判别所述数据集的准确性。
具体地,步骤S15按照下式进行判别:
P=a1*P1+a2*P2+a3*P3+a4*P4+a5*p5
其中,P1、P2、P3、P4、P5分别为完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数;a1、a2、a3、a4、a5为对应所述特征判别参数的正加权系数。
本发明实施例提供的一种数据准确性判定方法,通过确定获取的数据集中的表单类型,根据表单的类型,确定表单的质量判别参数,继而根据表单的质量判别参数,计算数据集的判别特征参数并根据判别特征参数判别数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
优选地,为了减少数据在计算不同的判别特征参数过程中,造成某一特定数据的重复利用,步骤S14,包括:根据所述表单的质量判别参数,按照预设顺序计算所述完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数。预设顺序可以按照表单的类型按照预定好的顺序进行依次判定,本发明实施例按照上述顺序依次计算数据集的判别特征参数。
作为一种具体的实施方法,当判别特征参数为完整性判别参数,步骤S14包括:
S141,根据所述表单的质量判别参数中完整性质量判别条件,确定所述数据集中要求非空数据单元的数量和当前所述数据集中空值数据单元的数量;完整性质量判别条件主要判别的是数据集的数据单元空缺问题,根据质量判别参数,确认数据集中要求非空的数据单元的数量,
S142,根据当前所述数据集中空值数据单元的数量和所述数据集中要求非空数据单元的数量的比值,确定所述数据集的完整性判别参数。具体如下式所示:
P1=1-N2/N1
其中,P1为数据集的完整性判别参数,N1、N2分别为当前所述数据集中空值数据单元的数量和所述数据集中要求非空数据单元的数量。
为了提高表单中完整性判别参数的准确性,步骤S141包括:
首先,判断所述数据集中要求非空数据单元中的数据是否包含无效字符。无效字符可以是对应字段中出现不符合该字段数据类型而出现的若干空格符、’/’符、‘-’符、‘NULL’、‘NAN’、‘99999’、‘0’等字符内容。
其次,当所数据集中要求非空数据单元中的数据包含上述无效字符,将该无效字符转换为空值,继而进行空值数量统计。
在上述确定所述数据集的完整性判别参数之后,所述判别特征参数为规范性判别参数,该规范性判别参数主要用于判别数据集中数据单元的格式问题,步骤S14包括:
S141’,获取第一数据集中不满足质量判别参数中规范性质量判别条件的数据单元的数量,根据质量判别参数中规范性质量判别条件对数据集中的各字段的编码格式要求、时间日期格式、数值长度及精度等各类数据格式进行判别,继而确定第一数据集中不满足质量判别参数中规范性质量判别条件的数据单元的数量,其中第一数据集是由所述数据集中所有数据单元去除数据集中要求非空数据单元中的空值数据单元后得到的。
S142’,根据第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量与所述第一数据集中数据单元的数量的比值,确定所述数据集的规范性判别参数,具体如下式所示:
P2=1-N3/(N0-N2)
其中,P2为数据集的规范性判别参数;N0、N2、N3分别为数据集中所有数据单元的总数量、述数据集中要求非空数据单元的数量以及第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量。
为了保证用于判定数据集质量的数据数量,该方法还包括在进行数据集规范性判别参数计算后,对不满足质量判别参数中规范性质量判别条件的数据单元进行数据清洗。对上述N3个不满足量判别参数中规范性质量判别条件的数据单元进行数据清洗,例如可以包括将格式不统一造成的不合规数据调整为规定格式,如:日期格式有YYYY-MM-DD、YY-MM-DD、YYYY/MM/DD、YYYYMMDD等多种日期格式,而数据集所规定的日期格式为其中一种,则将其他不合规的日期修改为要求的格式,可以优先将其他日期格式调整为第一次出现的日期格式,同样对时间、编号等也作相应处理,对数据长度和精度不满足规定的数值型数据,进行数据修改,调整数据长度和精度,如:小数点后截断或补0。
对所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元进行数据清洗的步骤之后,所述判别特征参数为数值准确性判别参数,该数值准确性判别参数还要用于判别数据单元中数据的范围、值域问题,步骤S14包括:
获取第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量,不满足所述质量判别参数中数值准确性质量判别条件的数据单元的格式可以包括:包括:时间日期类数据的合理范围,数值型数据的值域,编码的范围,数据填写的候选值集合等。如:采集时间不能在当前时间之后,电能不能是负数,相序只能在{A,B,C}中选择,年龄不能超过200岁等。其中所述第二数据集是由所述第一数据集中去除经过所述数据清洗后仍未满足所述质量判别参数中规范性质量判别条件要求的数据单元后得到的,即对于上述数据清洗步骤,可以将部分不合规的数据转变为合规数据,但也有部分数据无法转变为合规数据,如:日期字段填写‘ABCD’等字母,数值字段填写非数值的汉字或字母,则无法通过简单清洗转换为合规数据。
根据第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量与所述第二数据集中数据单元的数量的比值,确定所述数据集的数值准确性判别参数。具体如下式所示:
P3=N5/N4
其中,P3为数值准确性判别参数;N4、N5分别为所述第二数据集中数据单元的数量和第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量。
所述确定所述数据集的数值准确性判别参数的步骤之后,所述判别特征参数为表内一致性判别参数,该表内一致性判别参数主要用于判别表内各字段间或各条记录间的逻辑问题,步骤S14,包括:
获取第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量,质量判别参数中表内一致性质量判别条件主要可以包括:有时间先后关系的记录,日期时间应满足对应大小顺序;数值间有算数逻辑关联的,应满足算数等式或不等式;若干个字段应当满足一致性匹配原则,如:电表安装时间应该早于用户数据采集时间;总功率应该等于下属各用户功率之和加上线损;同一用户在不同时间的多条记录,总用电量应当与时间成正相关关系;记录时间减去年龄应当等于出生时间;具有相同用户ID的各条记录应该对应同一用户编号,具有相同用户编号的各条记录应当对应同一用户ID;同一用户的各条记录,记录时间减去年龄应当对应相同的时间,即出生时间。其中所述第三数据集是由所述第二数据集中去除不满足所述质量判别参数中数值准确性质量判别条件的数据单元后得到的;
根据所述第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量与所述第三数据集中数据单元的数量的比值,确定所述数据集的表内一致性判别参数。具体如下式所示:
P4=N7/N6
其中,P4为表内一致性判别参数;N6、N7分别为所述第三数据集中数据单元的数量、所述第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量。
当所述数据集包括多个表单时,所述确定所述数据集的表内一致性判别参数的步骤之后,所述判别特征参数为表间一致性判别参数,该表间一致性判别参数主要用于判别含有多个数据表单的数据集中,各表单之间的记录的匹配问题和逻辑问题,步骤S14,包括:
获取所述多个表单的主键;
判断任意一个主键在包含所述主键的任意两个所述表单中代表的数据单元中数据是否相同。主要包括辅表中存在的主键记录,在主表中应当能够匹配到;具有唯一性标识的字段或字段组合,只能对应唯一或相同的记录;多个表单中的记录不能存在逻辑矛盾等。如:用电功率记录表中存在的用户ID,在用户信息表中要有记录;由‘用户ID+用户编号+记录时间’组成的唯一性标识,只能对应唯一的记录;同一用户在不同表单的记录中,相同时间记录的总用电量数据必须相同。
当任意一个主键在包含所述主键的任意两个所述表单中代表的数据相同时,获取所述数据单元的数量;
根据所述数据单元的数量与多个所述第三数据集中数据单元数量总和的比值,确定所述数据集的表间一致性判别参数。具体如下式所示:
P5=N9/N8
其中,P5为数据集的表间一致性判别参数;N8、N9分别为多个所述第三数据集中数据单元数量总和以及所述数据单元的数量。
本发明实施例提供的数据准确性判定方法,通过确定获取的数据集中的表单类型,根据表单的类型,确定表单的质量判别参数,继而根据表单的质量判别参数,计算数据集的判别特征参数并根据判别特征参数判别数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
相应地,本发明另一实施例还提供一种数据准确性判定装置,如图2所示,包括:
获取单元21,用于获取数据集,其中所述数据集由至少一个表单组成;
类型确定单元22,用于确定所述表单的类型;
确定单元23,用于根据所述表单的类型,确定所述表单的质量判别参数,其中所述表单的类型对应的质量判别参数预存在质量判别参数库中;
计算单元24,用于根据所述表单的质量判别参数,计算所述数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性;
判别单元25,用于根据所述判别特征参数判别所述数据集的准确性。
本发明实施例提供的数据准确性判定装置,通过确定获取的数据集中的表单类型,根据表单的类型,确定表单的质量判别参数,继而根据表单的质量判别参数,计算数据集的判别特征参数并根据判别特征参数判别数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
相应地,本发明实施例中还提供一种终端,包括:至少一个处理器61;以及与所述至少一个处理器通信连接的存储器62,其中,所述存储器存储有可被所述至少一个处理器执行的指令,以使所述至少一个处理器执行图1所述的数据准确性判定方法,其中图3中以一个处理器为例,处理器6、存储器62通过总线60连接。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (14)

1.一种数据准确性判定方法,其特征在于,包括:
获取数据集,其中所述数据集由至少一个表单组成;
确定所述表单的类型;
根据所述表单的类型,确定所述表单的质量判别参数,其中所述表单的类型对应的质量判别参数预存在质量判别参数库中;
根据所述表单的质量判别参数,计算所述数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性;
根据所述判别特征参数判别所述数据集的准确性。
2.根据权利要求1所述的方法,其特征在于,所述判别特征参数包括:完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数中的一个或多个。
3.根据权利要求2所述的方法,其特征在于,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
根据所述表单的质量判别参数,按照预设顺序计算所述完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数。
4.根据权利要求3所述的方法,其特征在于,所述判别特征参数为完整性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
根据所述表单的质量判别参数中完整性质量判别条件,确定所述数据集中要求非空数据单元的数量和当前所述数据集中空值数据单元的数量;
根据当前所述数据集中空值数据单元的数量和所述数据集中要求非空数据单元的数量的比值,确定所述数据集的完整性判别参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述表单的质量判别参数,确定所述数据集中要求非空数据单元的数量和当前所述数据集中空值数据单元的数量的步骤,包括:
判断所述数据集中要求非空数据单元中的数据是否包含无效字符;
当所述数据集中要求非空数据单元中的数据包含无效字符,将所述无效字符转换为空值。
6.根据权利要求4所述的方法,其特征在于,所述确定所述数据集的完整性判别参数的步骤之后,所述判别特征参数为规范性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量,其中所述第一数据集是由所述数据集中所有数据单元去除所述数据集中要求非空数据单元中的空值数据单元后得到的;
根据所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元的数量与所述第一数据集中数据单元的数量的比值,确定所述数据集的规范性判别参数。
7.根据权利要求6所述的方法,其特征在于,所述确定所述数据集的规范性判别参数的步骤之后,包括:
对所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元进行数据清洗。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一数据集中不满足所述质量判别参数中规范性质量判别条件的数据单元进行数据清洗的步骤之后,所述判别特征参数为数值准确性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量,其中所述第二数据集是由所述第一数据集中去除经过所述数据清洗后仍未满足所述质量判别参数中规范性质量判别条件要求的数据单元后得到的;
根据第二数据集中不满足所述质量判别参数中数值准确性质量判别条件的数据单元的数量与所述第二数据集中数据单元的数量的比值,确定所述数据集的数值准确性判别参数。
9.根据权利要求8所述的方法,其特征在于,所述确定所述数据集的数值准确性判别参数的步骤之后,所述判别特征参数为表内一致性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量,其中所述第三数据集是由所述第二数据集中去除不满足所述质量判别参数中数值准确性质量判别条件的数据单元后得到的;
根据所述第三数据集中满足所述质量判别参数中表内一致性质量判别条件的数据单元的数量与所述第三数据集中数据单元的数量的比值,确定所述数据集的表内一致性判别参数。
10.根据权利要求9所述的方法,其特征在于,当所述数据集包括多个表单时,所述确定所述数据集的表内一致性判别参数的步骤之后,所述判别特征参数为表间一致性判别参数,所述根据所述表单的质量判别参数,计算所述数据集的判别特征参数的步骤,包括:
获取所述多个表单的主键;
判断任意一个主键在包含所述主键的任意两个所述表单中代表的数据单元中数据是否相同;
当任意一个主键在包含所述主键的任意两个所述表单中代表的数据相同时,获取所述数据单元的数量;
根据所述数据单元的数量与多个所述第三数据集中数据单元数量总和的比值,确定所述数据集的表间一致性判别参数。
11.根据权利要求2所述的方法,其特征在于,所述根据所述判别特征参数判别所述表单的准确性的步骤,按照下式进行判别:
P=a1*P1+a2*P2+a3*P3+a4*P4+a5*p5
其中,P1、P2、P3、P4、P5分别为完整性判别参数、规范性判别参数、数值准确性判别参数、表内一致性判别参数、表间一致性判别参数;a1、a2、a3、a4、a5为对应所述特征判别参数的正加权系数。
12.一种数据准确性判定装置,其特征在于,包括:
获取单元,用于获取数据集,其中所述数据集由至少一个表单组成;
类型确定单元,用于确定所述表单的类型;
确定单元,用于根据所述表单的类型,确定所述表单的质量判别参数,其中所述表单的类型对应的质量判别参数预存在质量判别参数库中;
计算单元,用于根据所述表单的质量判别参数,计算所述数据集的判别特征参数,所述判别特征参数用于判断所述数据集中数据的准确性;
判别单元,用于根据所述判别特征参数判别所述数据集的准确性。
13.一种终端,其特征在于,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,以使所述至少一个处理器执行权利要求1-11中任一项所述的数据准确性判定方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11任一项所述数据准确性判定方法的步骤。
CN201710379309.XA 2017-05-25 2017-05-25 数据准确性判定方法、装置、终端及计算机可读存储介质 Active CN107358334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710379309.XA CN107358334B (zh) 2017-05-25 2017-05-25 数据准确性判定方法、装置、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710379309.XA CN107358334B (zh) 2017-05-25 2017-05-25 数据准确性判定方法、装置、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107358334A true CN107358334A (zh) 2017-11-17
CN107358334B CN107358334B (zh) 2021-02-09

Family

ID=60271713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710379309.XA Active CN107358334B (zh) 2017-05-25 2017-05-25 数据准确性判定方法、装置、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107358334B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400174A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111784105A (zh) * 2020-05-25 2020-10-16 广州博依特智能信息科技有限公司 一种能耗计算结果质量评估方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364291A (zh) * 2008-07-17 2009-02-11 中冶长天国际工程有限责任公司 数据准确性的校验方法、装置及一种工时数据校验系统
CN102156922A (zh) * 2011-04-20 2011-08-17 重庆市电力公司綦南供电局 用于it系统应用考评拓展平台的数据完整性确定方法
US20110276536A1 (en) * 2005-07-12 2011-11-10 International Business Machines Corporation Ranging scalable time stamp data synchronization
CN103034209A (zh) * 2012-12-18 2013-04-10 湖南大唐先一科技有限公司 一种在线测量数据准确性甄别方法
CN103414601A (zh) * 2013-07-19 2013-11-27 广东电网公司电力调度控制中心 用于通信资源管理系统的数据检测方法和系统
CN104298773A (zh) * 2014-10-30 2015-01-21 北京思特奇信息技术股份有限公司 一种etl作业自动切库系统及方法
CN104462461A (zh) * 2014-12-16 2015-03-25 用友软件股份有限公司 对表单进行排查空值处理的方法及装置
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法
CN106503206A (zh) * 2016-10-26 2017-03-15 国家电网公司 一种基于熵权法的通用数据质量评估方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110276536A1 (en) * 2005-07-12 2011-11-10 International Business Machines Corporation Ranging scalable time stamp data synchronization
CN101364291A (zh) * 2008-07-17 2009-02-11 中冶长天国际工程有限责任公司 数据准确性的校验方法、装置及一种工时数据校验系统
CN102156922A (zh) * 2011-04-20 2011-08-17 重庆市电力公司綦南供电局 用于it系统应用考评拓展平台的数据完整性确定方法
CN103034209A (zh) * 2012-12-18 2013-04-10 湖南大唐先一科技有限公司 一种在线测量数据准确性甄别方法
CN103414601A (zh) * 2013-07-19 2013-11-27 广东电网公司电力调度控制中心 用于通信资源管理系统的数据检测方法和系统
CN104298773A (zh) * 2014-10-30 2015-01-21 北京思特奇信息技术股份有限公司 一种etl作业自动切库系统及方法
CN104462461A (zh) * 2014-12-16 2015-03-25 用友软件股份有限公司 对表单进行排查空值处理的方法及装置
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法
CN106503206A (zh) * 2016-10-26 2017-03-15 国家电网公司 一种基于熵权法的通用数据质量评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王慧 等: "对统计数据准确性与可靠性的再思考", 《经济经纬》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400174A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111400174B (zh) * 2020-03-05 2022-08-12 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111784105A (zh) * 2020-05-25 2020-10-16 广州博依特智能信息科技有限公司 一种能耗计算结果质量评估方法、装置及存储介质
CN111784105B (zh) * 2020-05-25 2024-03-26 广州博依特智能信息科技有限公司 一种能耗计算结果质量评估方法、装置及存储介质

Also Published As

Publication number Publication date
CN107358334B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN104809132B (zh) 一种获取网络主体社交关系类型的方法及装置
CN106570778A (zh) 一种基于大数据的数据集成与线损分析计算的方法
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
CN107944464A (zh) 一种办公建筑逐时能耗异常数据在线识别与填补方法
CN108876076A (zh) 基于指令数据的个人信用评分方法及装置
CN109299085A (zh) 一种数据处理方法、电子设备及存储介质
CN107358334A (zh) 数据准确性判定方法、装置、终端及计算机可读存储介质
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN106339578B (zh) 一种多策略融合的医院患者挂号推荐方法
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN108665235A (zh) 资源处理节点的运行方法、终端设备及介质
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN112990374A (zh) 图像分类方法、装置、电子设备及介质
CN109460398A (zh) 时间序列数据的补全方法、装置及电子设备
CN111460293B (zh) 信息推送方法、装置及计算机可读存储介质
CN108228565A (zh) 一种商品信息关键词的识别方法
CN116843150A (zh) 基于智慧物联网的社区服务方法及系统
CN109766333A (zh) 数据空值处理方法、装置及终端设备
CN106327009A (zh) 空间负荷预测中确定元胞负荷最大值的主成分分析法
CN114679500A (zh) 一种重复信息归并的提速式信息传输系统
CN110502731B (zh) 一种基于精化单元格聚类的电子表格缺陷检测方法
CN107463531A (zh) 基于分箱灰色预测的波动数据缺失值处理方法及装置
CN101587514A (zh) 一种计算机辅助考试系统中填空题的判分系统
CN109739839A (zh) 数据空值处理方法、装置及终端设备
CN117892703B (zh) 一种理化表单自动联想录入功能的实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 102209 Beijing City, the future of science and Technology City Binhe Road, No. 18, No.

Applicant after: Global energy Internet Institute, Inc.

Applicant after: State Grid Corporation of China

Applicant after: State Grid Shanghai Municipal Electric Power Company

Address before: 102211 Beijing city Changping District Xiaotangshan town big East Village Road No. 270

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Applicant before: State Grid Corporation of China

Applicant before: State Grid Shanghai Municipal Electric Power Company

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: Global energy Internet Institute, Inc.

Applicant after: State Grid Corporation of China

Applicant after: State Grid Shanghai Municipal Electric Power Company

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: Global energy Internet Institute, Inc.

Applicant before: State Grid Corporation of China

Applicant before: State Grid Shanghai Municipal Electric Power Company

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant