CN117370326A

CN117370326A - 一种数据评估方法、装置、电子设备及介质

Info

Publication number: CN117370326A
Application number: CN202311385090.6A
Authority: CN
Inventors: 吴再霖; 师帅; 叶楠; 蒋玉宝; 韩睿
Original assignee: FAW Jiefang Automotive Co Ltd
Current assignee: FAW Jiefang Automotive Co Ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-01-09

Abstract

本发明公开了一种数据评估方法、装置、电子设备及介质，所述方法包括：获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。该方法能够使得到的评估结果更好地反映待评估数据的数据质量，提高评估结果的价值。

Description

一种数据评估方法、装置、电子设备及介质

技术领域

本发明涉及数据质量评估技术领域，尤其涉及一种数据评估方法、装置、电子设备及介质。

背景技术

数据质量用于表征数据符合客观实际的程度，也是数据满足使用需求和体现使用价值的程度，如车联网数据质量的优良直接影响实际的业务结果。因此，如何进行科学客观的数据评估是目前亟需解决的问题。

现有的评估方法未针对数据质量进行整体评估与量化，使得评估结果不能更好地反映待评估数据的数据质量。

发明内容

本发明提供了一种数据评估方法、装置、电子设备及介质，以更好地反映待评估数据的数据质量，提高评估结果的价值。

根据本发明的一方面，提供了一种数据评估方法，包括：

获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；

按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；

对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。

根据本发明的另一方面，提供了一种数据评估装置，包括：

获取模块，用于获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；

指标度量模块，用于按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；

主成分分析模块，用于对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数据评估方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据评估方法。

本发明实施例提供了一种数据评估方法、装置、电子设备及介质，所述方法包括：获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。利用上述技术方案，通过按照预设指标体系中的多个度量维度对待评估数据进行指标度量，生成原始数据矩阵，以及对原始数据矩阵进行主成分分析，能够使得到的评估结果更好地反映待评估数据的数据质量，提高评估结果的价值。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种数据评估方法的流程图；

图2是根据本发明实施例二提供的一种数据评估方法的流程图；

图3是根据本发明实施例二提供的另一种数据评估方法的流程图；

图4是根据本发明实施例二提供的另一种数据评估方法的流程图；

图5是根据本发明实施例三提供的一种数据评估装置的结构示意图；

图6是根据本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“原始”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据本发明实施例一提供的一种数据评估方法的流程图，本实施例可适用于对数据质量进行评估的情况，该方法可以由数据评估装置来执行，该数据评估装置可以采用硬件和/或软件的形式实现，该数据评估装置可配置于电子设备中。

随着车联网、大数据等信息技术在汽车行业迅速发展，数据资源已成为汽车企业组织中最具价值的资产之一，为了使数据能够有效支持组织的日常运作和决策、产品研发、数据分析与挖掘，必须高度重视数据质量问题。数据质量是一个包含丰富内涵、具有多维因素的综合性概念，其中，数据的准确和及时是数据质量的核心因素，准确是第一位，是衡量数据质量的根本标志，及时是指数据的时效性要强，否则数据将毫无意义。

现阶段数据分析、挖掘的目的主要是企图发现数据中隐藏的知识和信息，从而对商用车研发过程中实际业务或产品进行优化。但是数据集本身质量不佳，则很难得出有用的结论，甚至会得到错误的结果。具体目的可以为：节约大量试错时间，对于质量很差的数据集进行剔除等，从而节省工作时间，提高工作效率；降低得出错误结论的概率，通过及时发现数据中存在的错误和失真，对数据进行质量优化，最大限度避免因为数据本身的问题而得出错误的结论；缩短数据反馈流程，更加及时将商用车车联网数据收集过程存在数据采集方法错误、错误值占比高、用户覆盖度低等问题反馈给数据生产部门，提高协作效率。

现有的数据评估方法具有评估维度全面、评估方式简单、针对某一方面侧重性强等优势，但是上述方法各评估维度在评估结果中所占的比例主要基于主观赋权，使得评估结果具有极高的主观性；同时，评估方式为模糊评估，未做到具体的量化赋分，不能通过分数指标来说明数据质量；面向商用车车联网数据适配性较差。

基于此，本发明实施例提供的一种数据评估方法，用于解决现有评估方法中不能针对数据质量进行整体评估与量化，数据质量评估客观性弱等问题。如图1所示，该方法包括：

S110、获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项。

待评估数据可以认为是需要进行质量评估的数据，待评估数据可以包括至少一个记录区间在多个字段的数据项，记录区间可以认为是评估时间段所对应的多个记录集合，一个记录可以包含多个字段，如代表一组相关的数据，字段可以代表数据项的属性，如字段可以为车速等；数据项则可以为具体数据。待评估数据的类型不限，如待评估数据可以为车联网数据，也可以为除车联网数据之外的其他类型的数据。

在本实施例中，待评估数据可以为直接存储在数据湖或数据库中的数据，比如可以直接从数据湖中对原始数据进行提取，来获取得到待评估数据；也可以对提取的原始数据进行必要的数据处理后，来得到待评估数据。

在一个实施例中，可以基于数据湖与Spark分布式计算，在数据湖上进行开发，即数据存储与数据评估的实现可以基于同一资源设备，以此省去数据调度与回传中产生的不必要的开支，同时存储方式可以使用HDFS，支持对数据的在线频繁操作。

具体的，可以从数据湖中直接获取待评估数据，如可以通过SparkSQL或Hive对待评估数据进行提取，提取内容可以为在数据质量评估中所需要的车型、数据表中记录的时间区间、数据表中字段等。在数据库中完成提取内容筛选后，可以通过Spark连接至Hive进行数据表的读入，并存储为RDD数值格式，以使待评估数据具备分布式处理条件。

在一个实施例中，当想要对数据湖中的原始数据进行评估时，为了简化评估的计算量，可以对原始数据进行抽样，利用数据的同一性，通过对抽样数据进行评估来实现对整体原始数据的度量，示例性的，可以按照时间多区间对原始数据进行抽样，从而得到至少一个记录区间在多个字段的数据项，以此作为待评估数据。在此基础上，进一步提高了评估的效率。

S120、按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数。

预设指标体系可以是指预先设置的指标体系，用于对待评估数据进行指标度量，预设指标体系可以包括多个度量维度，以从多个角度对待评估数据进行度量，度量维度的具体内容不限，如度量维度可以由相关人员进行配置，不同的待评估数据对应的度量维度可以有所区别。例如在待评估数据为车联网数据时，度量维度可以为准确性、完整性和/或时效性。进一步的，每个度量维度还可以根据实际情况进行具体细分。

原始数据矩阵可以理解为对待评估数据进行指标度量所得到的结果，如原始数据矩阵中的每一行元素可以用于表征一个记录区间的数据项在每个度量维度下的度量分数，原始数据矩阵中的每一列元素则可以认为是不同记录区间的数据项在某一个度量维度下的度量分数。

具体的，可以按照预设指标体系中的多个度量维度对待评估数据中的数据项进行指标度量，从而生成原始数据矩阵，具体生成原始数据矩阵的过程不限，如可以针对每个度量维度，分别对待评估数据中不同记录区间的数据项进行指标度量，来得到各度量维度对应的度量分数。

在一个实施例中，所述按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，包括：

针对每个记录区间，分别按照各度量维度对所述记录区间中的数据项进行指标度量，得到所述记录区间对应的各度量分数；

基于各记录区间对应的各度量分数生成原始数据矩阵。

在一个实施方式中，可以以记录区间为单位进行数据项的指标度量，例如可以针对每个记录区间，分别按照各度量维度对该记录区间中的数据项进行指标度量，得到该记录区间对应的各度量分数，从而可以基于得到的各记录区间对应的各度量分数来生成相应的原始数据矩阵。其中，

可以认为的是，度量分数可以根据度量维度内容的不同而有所区别，如一个度量维度可以对应一个度量分数，而当将度量维度进行具体细分时，则可以依据细分的内容来得到相应个数的度量分数。示例性的，本实施例可以将准确性具体划分为正确性、精确性和唯一性，从而在准确性维度下则可以得到相应的三个度量分数。

在一个实施例中，每个度量维度包含至少一个量化指标，所述分别按照各度量维度对所述记录区间中的数据项进行指标度量，得到所述记录区间对应的各度量分数，包括：

针对每个度量维度，分别按照各量化指标对所述记录区间中的数据项进行指标度量，得到所述记录区间的数据项在所述度量维度下的度量分数；

基于各度量维度下的度量分数得到所述记录区间对应的各度量分数。

在本实施例中，每个度量维度可以包含至少一个量化指标，量化指标的具体内容和个数不限。

在一个实施方式中，可以继续以度量维度为单位来确定每个度量维度下的度量分数，具体的，评估某个记录区间时，可以针对每个度量维度，分别按照各量化指标对该记录区间中的数据项进行指标度量，得到该记录区间的数据项在此度量维度下的度量分数，以此得到某个记录区间在各度量维度下的度量分数，进而可以基于这些度量分数来得到记录区间对应的各度量分数。

示例性的，当评估某个记录区间时，在准确性维度下，准确性维度所对应的量化指标Z＝{Z₁,Z₂,…,Z_n}，对于Z_i,i＝1,2,…n，可以设记录区间中有记录v条，字段u个，则Z_i的度量分数可定义为其中，当表中第d个字段的第e个记录数据项满足准确性要求，则记录为无问题，A_i(d,e)＝0；反之，若不满足准确性要求，则记录为有问题，A_i(d,e)＝1。

在完整性维度下，完整性维度所对应的量化指标B＝{B₁,B₂,…,B_m}时，设B_i为单字段考察项，例如，针对时间戳考察记录填报率，则B_i的度量分数可以定义为其中，b_ir为实际记录数，b_ia为应记录数。设B_j为多字段考察项，例如，针对数据表中全部字段与记录考察缺失率，设考察字段为u个，记录v个，则B_j的度量分数可以定义为/> 其中，b_jt为缺失记录数(NULL)。

在时效性维度下，时效性维度所对应的量化指标S＝{S₁,S₂,…,S_p}时，S_i的度量分数定义可以为Scr(S_i)＝(1-t_iK_i)×100，其中，t_i为超出数据更新要求时间或超出最新版本执行时间，计量单位为天/小时/分钟，K_i可以为预设扣分值。

示例性的，下表为本实施例所提供的预设指标体系，由表可知，预设指标体系可以包括准确性、完整性和时效性三个度量维度，每个度量维度又可以划分为下述多个量化指标。

因此，在按照上述表格的预设指标体系对待评估数据中的数据项进行指标度量时，则可以生成原始数据矩阵，原始数据矩阵的行数可以与记录区间的数目对应，每行中的元素则可以为某记录区间在上述几个量化指标下的量化分数。

S130、对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。

评估结果可以理解为对待评估数据进行评估后的结果，评估结果中可以包括目标评估分数，目标评估分数可以用于表征待评估数据的数据质量；评估结果中还可以包括除目标评估分数之外的其他信息。

通过上述步骤生成原始数据矩阵后，则可以对得到的原始数据矩阵进行主成分分析，来得到对应的评估结果，此处不对主成分分析的具体手段进行限定，只要能得到评估结果即可。

在一个实施例中，所述评估结果还包括缺陷数据信息，所述缺陷数据信息用于对所述待评估数据中的缺陷数据进行处理。

缺陷数据信息可以为缺陷数据的相关信息，用于对待评估数据中的缺陷数据进行处理，如缺陷数据信息可以包括具体缺陷数据的内容，还可以包括缺陷数据所对应的解决措施。

在本实施例中，可以将数据评估过程中发现的具体针对某一维度某一指标存在的质量缺陷问题自动化梳理为问题清单，并给出合理的解决措施，以此形成缺陷数据信息存储于评估结果中，用于上传数据管理系统并供数据管理人员借鉴。

本发明实施例一提供的一种数据评估方法，获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。利用该方法，通过按照预设指标体系中的多个度量维度对待评估数据进行指标度量，生成原始数据矩阵，以及对原始数据矩阵进行主成分分析，能够使得到的评估结果更好地反映待评估数据的数据质量，提高评估结果的价值。

实施例二

图2是根据本发明实施例二提供的一种数据评估方法的流程图，本实施例二在上述各实施例的基础上进行优化。在本实施例中，将对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果进一步具体化为：确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应；根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重；基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数。

本实施例尚未详尽的内容请参考实施例一。

如图2所示，该方法包括：

S210、获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项。

S220、按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数。

S230、确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应。

相关系数矩阵可以与原始数据矩阵进行标准化后的矩阵相对应，如可以先将原始数据矩阵进行标准化，得到标准化后的矩阵，再根据标准化后的矩阵求出对应的相关系数矩阵。

本步骤可以在得到相关系数矩阵后，可以对相关系数矩阵对应的特征值以及特征值对应的特征向量进行确定，如可以通过计算来求解出对应的特征值以及特征值对应的特征向量等。

S240、根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重。

通过上述步骤确定出相关系数矩阵对应的各特征值以及每个特征值对应的特征向量后，本实施例可以根据各特征值和特征向量计算出待评估数据对应的主成分值和主成分值对应的权重，具体计算过程例如可以为先确定出待评估数据对应的主成分部分，如可以根据各特征值的数值大小来选取出最具代表性的数值作为对应的主成分部分，也可以直接选取固定个数的特征值来确定对应的主成分部分，本实施例对此不作限定；再对各主成分对应的数值以及权重进行计算，来得到待评估数据对应的主成分值和主成分值对应的权重。

在一个实施例中，所述根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重，包括：

基于目标特征向量计算所述待评估数据对应的主成分值，所述目标特征向量由预设主成分阈值和所述特征值从各特征向量中选取得到；

基于各特征值计算所述主成分值对应的权重。

其中，目标特征向量可以是指从各特征向量中选取得到的特征向量，如具体可以由预设主成分阈值和各特征值来确定，预设主成分阈值可以为预先确定的阈值，进行主成分的选取。比如，本实施例可以通过计算各特征值来与预设主成分阈值进行比较来选取出符合条件的主成分的个数，基于个数来选取出排序较为靠前的特征值，从而可以确定出选取特征值对应的目标特征向量

在一个实施方式中，可以基于目标特征向量对待评估数据对应的主成分值进行计算，再基于各特征值来计算得到主成分值对应的权重，如可以直接通过输入至计算模型中来得到待评估数据对应的主成分值，以及各权重值，还可以针对实际情况进行具体计算等，本实施例对比不作限定。

在一个实施例中，所述基于目标特征向量计算所述待评估数据对应的主成分值，包括：

基于目标特征向量确定所述待评估数据对应的主成分初始值；

将所述主成分初始值进行百分制转换，得到所述待评估数据对应的主成分值。

主成分初始值可以认为某个主成分在所选取的主成分部分下的初始值，主成分值则可以理解为某个主成分在所有待评估数据下的数值。

示例性的，可以基于目标特征向量对待评估数据对应的主成分初始值进行确定，然后将所确定的主成分初始值通过进行百分制转换，来得到待评估数据对应最终的主成分值。

S250、基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数，所述目标评估分数用于表征所述待评估数据的数据质量。

本步骤可以基于上述步骤确定的主成分值和每个主成分值对应的权重，来确定出待评估数据的目标评估分数，例如可以将每个主成分值与所对应的权重的乘积累计相加来计算得到目标评估分数，此目标评估分数则可以用于表征待评估数据的数据质量。

本发明实施例二提供的一种数据评估方法，获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应；根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重；基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数，所述目标评估分数用于表征所述待评估数据的数据质量。利用该方法，通过根据特征值以及特征值对应的特征向量，计算待评估数据对应的主成分值和主成分值对应的权重，能够准确确定待评估数据的目标评估分数，从而使评估结果更好地反映待评估数据的数据质量，进一步提高评估结果的价值。

图3是根据本发明实施例二提供的另一种数据评估方法的流程图，如图3所示，步骤1，可以从数据湖获取车联网数据；步骤2，可以以分布式计算方式对车联网数据进行质量评估，包括车联网数据评估维度与指标、车联网数据指标量化、车联网数据质量综合评分，获取数据质量整体结果；步骤3，可以在数据库中设定对象数据与数据质量评估结果关联关系，将数据质量评估结果上传回馈，根据评估过程获取数据质量问题清单及可视化。

例如可以通过分布式计算来实现车联网数据质量评估算法，按照不同维度设定具体的评价指标标签，再由具体的数学模型实现数据质量的量化与综合评分，最后可以完成对数据质量评价结果的上传回馈、问题分析记录及流处理可视化。

图4是根据本发明实施例二提供的另一种数据评估方法的流程图，如图4所示，可以先从数据湖或数据库中提取数据对象，之后可以根据数据本身自有属性与商用车车联网数据特点，将数据评价维度主要分为准确性、完整性、时效性，各个维度下可以再细分为各个指标，每个指标具备指标说明与度量标准。然后可以将评估的对象数据进行指标设计、抽样与量化，选择线性加权综合度量模型为总框架，根据客观事实，对相关指标进行主成分提取客观赋权，再由算法对数据表中抽样数据综合评分，以反映数据质量的总体情况。具体的，可以分为下述步骤和过程：

S1：商用车车联网数据质量评估维度与指标。如根据数据本身自有属性与商用车车联网数据特点，数据评价维度主要分为准确性、完整性、时效性。各个维度下再细分为各个指标，故可以按照各个指标分析数据质量评价对象的质量状况，评价对象一般是数据表中各字段各记录。

S2：商用车车联网数据质量评估指标量化。指标量化可以是将各数据项按照指标体系度量后的结果，通过算法赋分，再根据各指标对应分数具体刻画数据质量。如可以根据指标特点与度量规则，针对性设计符合客观事实的量化方法。

S3：商用车车联网数据质量综合评分。在无主观经验的条件下，可以利用无监督学习的主成分分析法为量化指标赋权，如可以采用主成分分析综合评分模型来进行分析。由此，本评分算法可以基于客观数据，无主观赋权。

下面对本实施例提供的数据评估方法进行示例性的描述：

对于同一数据表，其存储数据量庞大，对所有数据进行量化后再进行主成分分析法计算量复杂，而对于同一数据表各项指标权重具有同一性，故对某一数据表进行数据质量评价，首先可以对其所存数据抽样，抽样要求按时间多区间抽样，再由S2，将每个区间抽样数据指标量化、主成分分析生成权重，完成客观赋权。由抽样代表整体，此权重可以适用于该数据表中所有数据的质量评分，最后进行综合评分。具体算法可以如下：

第一步：将各维度下的指标统筹设计，指标总体A＝{A₁,A₂,…A_k},k＝n+m+p，抽样取t个记录区间，每个区间可以包含300个记录(即获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项)。

第二步：根据上述步骤S2中的方法，可以将t个区间中各指标独立进行量化，记第i个区间中第j个指标分数为x_ij，则可以生成得到原始数据矩阵X＝(x_ij)_t×k。

第三步：(即主成分分析过程)：可以将原始数据矩阵X标准化，标准化后的矩阵可以记为Y，其中，/>

求出Y的相关系数矩阵R_k×k，有由相关系数矩阵R，可以求解其特征值及其对应的特征向量(即确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应)，由主成分分析原理，特征向量可以对应影响因子，特征值可以对应因子载荷。

当矩阵Y求得特征值后可以将各特征值从大到小排序为λ₁，λ₂，…λ_k；其对应的特征向量可以为V₁,V₂,…V_k。

设定贡献率80％主成分选取阈值，即满足1≤r≤k，以此可以确定出满足条件的r。

当数据k个指标得分为x₁,x₂,…x_k时，1≤i≤r，评价算法的主成分初始值可以如下(即基于目标特征向量确定所述待评估数据对应的主成分初始值)：

再将主成分转化为百分制(即将所述主成分初始值进行百分制转换，得到所述待评估数据对应的主成分值)，可以先求得再求得百分制主成分值为/>

继而，各主成分的权可以为(即基于各特征值计算所述主成分值对应的权重)，基于主成分分析的客观评价分数则可以为Scr＝ω₁N₁+ω₂N₂+…+ω_rN_r(即基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数)。

最后，可以对数据质量评估结果上传回馈、问题分析记录及流处理可视化，即可以将综合评估分数与数据评估对象相关联，并上传至数据库；可以将对数据质量进行评估过程中发现的具体针对某一维度某一指标存在的质量缺陷问题自动化梳理为问题清单并给出合理的解决措施，上传数据管理系统并供数据管理人员借鉴。对上述车联网数据质量评估结果综合分数与问题清单可以通过流处理、设计可视化前端界面、开发前后端交互技术与接口设计来完成实时可见与数据质量评估结果可视化。

通过上述描述可以发现，本发明实施例提供的数据评估方法可以实现将质量很差的数据集进行剔除等，从而节省工作时间，提高工作效率；可以通过及时发现数据中存在的错误和失真，对数据进行质量优化，最大限度避免因为数据本身的问题导致在数据分析过程中得出错误的结论；可以缩短数据反馈流程，更加及时将商用车车联网数据收集过程存在数据采集方法错误、错误值占比高、用户覆盖度低等问题反馈给数据生产部门，提高协作效率。同时，能够及时掌握商用车车联网数据质量状况与问题，对商用车相关企业及委托方管理车联网数据具有重要意义。

进一步地，本发明实施例可以适应于商用车车联网的数据评估，当需要对其他领域(包括其他行业)数据进行数据质量评估时，可将其进行替代或重新设计，再由本发明实施例其余诸内容步骤进行数据质量评估。

实施例三

图5是根据本发明实施例三提供的一种数据评估装置的结构示意图。

如图5所示，该装置包括：

获取模块310，用于获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；

指标度量模块320，用于按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；

主成分分析模块330，用于对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。

本发明实施例三提供的一种数据评估装置，通过获取模块获取待评估数据，所述待评估数据包括至少一个记录区间在多个字段的数据项；通过指标度量模块按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，所述预设指标体系包括多个度量维度，所述原始数据矩阵中的每一行元素用于表征所对应记录区间的数据项在每个度量维度下的度量分数；通过主成分分析模块对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，所述目标评估分数用于表征所述待评估数据的数据质量。利用该装置，通过按照预设指标体系中的多个度量维度对待评估数据进行指标度量，生成原始数据矩阵，以及对原始数据矩阵进行主成分分析，能够使得到的评估结果更好地反映待评估数据的数据质量，提高评估结果的价值。

可选的，指标度量模块320包括：

指标度量单元，用于针对每个记录区间，分别按照各度量维度对所述记录区间中的数据项进行指标度量，得到所述记录区间对应的各度量分数；

生成单元，用于基于各记录区间对应的各度量分数生成原始数据矩阵。

可选的，每个度量维度包含至少一个量化指标，所述指标度量单元具体用于：

可选的，主成分分析模块330包括：

第一确定单元，用于确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应；

计算单元，用于根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重；

第二确定单元，用于基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数。

可选的，所述计算单元包括：

第一计算子单元，用于基于目标特征向量计算所述待评估数据对应的主成分值，所述目标特征向量由预设主成分阈值和所述特征值从各特征向量中选取得到；

第二计算子单元，用于基于各特征值计算所述主成分值对应的权重。

可选的，所述第一计算子单元具体用于：

可选的，所述评估结果还包括缺陷数据信息，所述缺陷数据信息用于对所述待评估数据中的缺陷数据进行处理。

本发明实施例所提供的数据评估装置可执行本发明任意实施例所提供的数据评估方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6是根据本发明实施例四提供的一种电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据评估方法。

在一些实施例中，数据评估方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的数据评估方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据评估方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设指标体系对所述待评估数据中的数据项进行指标度量，生成原始数据矩阵，包括：

基于各记录区间对应的各度量分数生成原始数据矩阵。

3.根据权利要求2所述的方法，其特征在于，每个度量维度包含至少一个量化指标，所述分别按照各度量维度对所述记录区间中的数据项进行指标度量，得到所述记录区间对应的各度量分数，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述原始数据矩阵进行主成分分析，得到包含目标评估分数的评估结果，包括：

确定相关系数矩阵对应的特征值以及所述特征值对应的特征向量，所述相关系数矩阵与所述原始数据矩阵进行标准化后的矩阵相对应；

根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重；

基于主成分值和所述主成分值对应的权重确定所述待评估数据的目标评估分数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征值以及所述特征值对应的特征向量，计算所述待评估数据对应的主成分值和所述主成分值对应的权重，包括：

基于各特征值计算所述主成分值对应的权重。

6.根据权利要求5所述的方法，其特征在于，所述基于目标特征向量计算所述待评估数据对应的主成分值，包括：

7.根据权利要求1所述的方法，其特征在于，所述评估结果还包括缺陷数据信息，所述缺陷数据信息用于对所述待评估数据中的缺陷数据进行处理。

8.一种数据评估装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据评估方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据评估方法。