CN118152693A

CN118152693A - 大数据质量评估方法、装置、设备以及存储介质

Info

Publication number: CN118152693A
Application number: CN202410580880.8A
Authority: CN
Inventors: 刘凤成; 江伟
Original assignee: Huateng Shuyun Beijing Technology Co ltd
Current assignee: Huateng Shuyun Beijing Technology Co ltd
Priority date: 2024-05-11
Filing date: 2024-05-11
Publication date: 2024-06-07

Abstract

本公开的实施例提供了大数据质量评估方法、装置、设备以及存储介质，应用于互联网大数据技术领域。所述方法包括获取待评估数据集和期望数据集；所述待评估数据集是通过网络站点的传感器采集到的多个数据；所述期望数据集为预设的与所述网络站点对应的数据集；将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分；根据所述质量标准评分确定对应的权重系数；根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数。以此方式，可以将特定的预定义权重应用于基于上述预先构建的大数据质量模型计算的数据，以生成综合结果，以评估网络站点级别的数据质量。

Description

大数据质量评估方法、装置、设备以及存储介质

技术领域

本公开涉及互联网大数据技术领域，尤其涉及大数据质量评估方法、装置、设备以及存储介质。

背景技术

由于云计算、物联网、社交网络设备等技术的进步，移动应用程序的使用现在产生的数据量比以往任何时候都要大。然而，由于生成的数据量巨大，新数据到达的速度很快，以及各种各样的异构数据。而低质量数据往往带来无数的负面影响，首先，低质量数据的一个负面影响是错失业务，糟糕的数据质量可能会给企业带来许多有形和无形的损失。对于一个典型的组织，估计成本可能高达收入的8%至12%，并可能产生服务组织费用的40%至60%。显然，糟糕的数据可能会阻碍收入目标。低质量数据还可能导致沟通错误，从而导致客户不满意。低质量数据的另一个负面影响是资源消耗增加。然而，由于大部分企业通常不知道为什么数据质量很重要，会等到数据出现问题后再寻求解决方案。这样，浪费了大量的劳动力和时间。最后，基于错误数据的糟糕服务导致决策失误，从而导致产品质量低下。因此，服务将达不到预期的质量标准，因此所有的辛勤工作、时间和投入的劳动力可能几乎没有价值。

对于大数据的质量底下的问题，往往存在以下原因：大数据的5个变量（多样性、数量、价值、速度和准确性）虽然重要，但也会导致测量大数据质量的问题。由于数据量高，在给定的时间内保持数据质量是具有挑战性的。由于存在多种数据格式，因此也很难整合数据。此外，不同的组织对数据有不同的需求，因此他们都需要自己的数据处理技术。他们还需要有自己的大数据管理和质量保证方法。任何这些领域的管理不善都会导致数据质量不达标。同时，在大数据的处理方面，存在数据收集、数据转换、数据服务可扩展性和数据转换等因素。由于其固有的高容量，大数据在收集、转换和转换方面往往面临挑战。最终，这会导致数据组织质量低下。所以，很难从源头上去控制大数据的质量底下的问题，所以，亟需对于采集到的大数据的质量进行及时评估，以便进行大数据的管理。

但目前，没有衡量数据质量的标准方法，因此仍然需要制定完全可靠的基准。

发明内容

本公开提供了一种大数据质量评估方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种大数据质量评估方法。该方法包括：

获取待评估数据集和期望数据集；所述待评估数据集是通过网络站点的传感器采集到的多个数据；所述期望数据集为预设的与所述网络站点对应的数据集；

将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分；

根据所述质量标准评分确定对应的权重系数；

根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述待评估数据集包括：网络站点的传感器采集的多个事务，以及每个事务对应的参数，由下述R矩阵所示：

其中mr是采集的事务总数，nr是每个事务的参数总数；表示第i个事务和第j个参数的值；

所述期望数据集包括：预设的期望所述网络站点采集到的多个事务，以及每个事务对应的参数，由下述E矩阵所示：

其中m表示期望的事务总数，n是每个期望的事务的参数总数；E_ij表示第i个事务和第j个参数的值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述大数据质量模型包括：大数据完整性模型、大数据精度模型、大数据及时性模型、大数据唯一性模型、大数据有效性模型、大数据一致性模型、大数据可靠性模型和大数据可用性模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述质量标准评分包括：完整性分数、准确性分数、及时性分数、唯一性分数、有效性分数、一致性分数、可靠性分数和可用性分数；

所述待评估数据集还包括：由采集到的每个事务的时间组成的实际时间戳；

所述期望数据集还包括：由预设的期望每个事务到达的时间组成的期望时间戳、预设的有效性规则和预设的所述网络站点的传感器总数；

所述将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分，包括：

将所述待评估数据集和期望数据集输入大数据完整性模型，输出所述待评估数据集的完整性分数；

将所述待评估数据集和期望数据集输入大数据精度模型，输出所述待评估数据集的准确性分数；

根据所述实际时间戳和所述期望时间戳，生成时间戳数组；将所述时间戳数组输入大数据及时性模型，输出所述待评估数据集的及时性分数；

将所述待评估数据集输入大数据唯一性模型，输出所述待评估数据集的唯一性分数；

将所述待评估数据集和所述有效性规则输入大数据有效性模型，输出所述待评估数据集的有效性分数；

将所述待评估数据集和所述实际时间戳输入大数据一致性模型，输出所述待评估数据集的一致性分数；

将所述待评估数据集的数据集数量，作为所述网络站点的正常工作的传感器数量；将所述正常工作的传感器数量和所述网络站点的传感器总数输入大数据可靠性模型，输出所述待评估数据集的可靠性分数；

将所述完整性分数、准确性分数和及时性分数输入大数据可用性模型，输出所述待评估数据集的可用性分数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述大数据完整性模型包括事务完整性模型和参数完整性模型；

所述将所述待评估数据集和期望数据集输入大数据完整性模型，输出所述待评估数据集的完整性分数，包括：

将所述待评估数据集和期望数据集输入事务完整性模型，输出平均事务完成率；

将所述待评估数据集和期望数据集输入参数完整性模型，输出平均参数完整性；

将预设权重值作为所述平均事务完成率和平均参数完整性的系数，并求和，得到所述待评估数据集的完整性分数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将所述待评估数据集和期望数据集输入事务完整性模型，输出平均事务完成率，通过以下公式实现：

公式1：；

；

其中，是R矩阵中事务i的完整性；是具有mr个事务和nr个参数的R矩阵中缺失数据的总数；是R矩阵中空值的总数；是事务i对应的E矩阵中的数据集：E_i1×E_in；是事务i对应的R矩阵中的数据集：R_i1×R_inr;是事务i的完成百分比；是两个事务之间的时间差，是一天中发生这两个事务的总小时数；是第j天的事务；表示事务i第j天的平均事务完成率；是j月份发生事务的天数；从公式5导出；是第j个月事务的平均事务完成率；表示j年发生交易的月份数；表示j年的平均事务完成率；从公式6导出。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数，包括：

将所述完整性分数、准确性分数、及时性分数、唯一性分数、有效性分数、一致性分数、可靠性分数和可用性分数分别与对应的权重系数相乘，得到完整性质量分数、准确性质量分数、及时性质量分数、唯一性质量分数、有效性质量分数、一致性质量分数、可靠性质量分数和可用性质量分数，作为所述待评估数据集的数据质量分数；

和/或，将所述完整性质量分数、准确性质量分数、及时性质量分数、唯一性质量分数、有效性质量分数、一致性质量分数、可靠性质量分数和可用性质量分数相加之后的和，作为所述待评估数据集的数据质量分数。

根据本公开的第二方面，提供了一种大数据质量评估装置。该装置包括：

数据获取模块，用于获取待评估数据集和期望数据集；所述待评估数据集是通过网络站点的传感器采集到的多个数据；所述期望数据集为预设的与所述网络站点对应的数据集；

质量评分确定模块，用于将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分；

权重确定模块，用于根据所述质量标准评分确定对应的权重系数；

质量分数计算模块，用于根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。

本公开的实施例提供的大数据质量评估方法、装置、设备以及存储介质，旨在对八个大数据参数进行建模，以更为准确的评估数据质量，生成更为精细的数据质量报告，为做出更好的业务决策，保障业务的成功提供更为科学的数据支撑。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的大数据质量评估方法的流程图；

图2示出了根据本公开的实施例的大数据质量评估装置的框图；

图3示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请提出了八个大数据质量参数模型，进行大数据质量保证，以评估数据质量，确保是高质量的。如果数据适合其在运营、决策和规划中的预期用途，则数据具有高质量。高质量数据准确、可用、完整、一致、可信、可处理、相关且及时。本申请依赖于八个质量参数：（1）完整性：数据集中是否有所有必需的值；（2）准确性：数据是否准确描述事件或对象；（3）及时性：数据是否在预期时间到达；（4）唯一性：数据集中是否有冗余；（5）有效性：数据是否遵循特定规则；（6）一致性：数据中是否存在任何矛盾；（7）仪表/传感器的可靠性：机器收集数据的状态可靠性；（8）可用性：数据是否符合给定的需求，用于检查大数据的质量标准。

1）大数据完整性是对可用数据量与预期用途所需数据量的衡量。完整性用于验证数据中的缺陷是否会影响其可用性。大数据完整性可以定义为存储数据相对于100%完整数据的潜力的比例。为了测量完整性，本申请采用给定数据集中可用值的数量，并计算其与总预期值的比率。度量单位是百分比。

2）大数据准确性可以定义为数据正确描述被考虑的“真实世界”对象或事件的程度。为了测量数据集或数据项的准确性，将数据与“真实世界”的真相进行比较。通常使用第三方参考数据，这些数据通常被认为是可信的，并且是同类数据。度量单位是满足数据准确性要求的数据条目的百分比。在某些情况下，准确度很容易测量，例如，区分性别（即男性或女性）。其他情况可能没有如此明确的区分，这使得准确性更难衡量。准确性有助于回答以下问题：所提供的数据是否准确，是否会引起歧义，以及是否反映了数据源的真实状态。

3）大数据的及时性是大数据质量评估的一个重要因素，因为数据每秒都在变化。大数据的及时性是通过在所需时间点代表现实的数据程度来衡量的。为了衡量及时性，可以标记事件发生和记录之间的时间差。换言之，这是预期时间数据与随时可用时间数据之间的差异。测量单位是时间差的百分比。及时性有助于确定数据是否按时到达以及是否定期更新数据。

4）大数据唯一性被定义为一个数据项相对于另一个数据集或数据库中的自身或对应项的度量。度量单位是百分比。此参数用于确认数据集没有重复值。在大数据中，检查这个因素有助于消除冗余。

5）大数据有效性也称为数据正确性。如果数据符合其定义的语法（格式、类型和范围），则数据有效。为了衡量有效性，需要将数据与为其定义的有效规则进行比较。度量单位是百分比。它有助于了解数据是否对其预期用途有效。本申请对交易和参数级别的有效性进行了建模。

6）大数据一致性是指相关数据之间的逻辑关系正确和完整的程度。即比较同一事物的两个或多个表示时没有差异。为了衡量一致性，可以根据另一个数据集中的数据项或其对应项来衡量数据项。为了保持一致性，两个数据集应该具有相同的值和相同的含义。因此，有必要检查它们之间的一致性。本申请对数据的价值和时间一致性进行了建模。

7）系统的大数据可靠性定义为网络在网络结构不断变化的状态下确保可靠数据传输的能力。为了测量系统的可靠性，需要描述一个部件或系统在特定时间内是否按照其规范正常工作。检查传感器以确定其是否可靠。

8）大数据可用性可以定义为数据是否有用并满足用户需求。为了衡量可用性，需要计算及时性、准确性和完整性，因为这三个质量参数的值定义了数据是否可用。度量单位是百分比。

图1示出了根据本公开实施例的大数据质量评估方法100的流程图。方法100包括：

步骤110，获取待评估数据集和期望数据集。

所述待评估数据集是通过网络站点的传感器采集到的多个数据；所述期望数据集为预设的与所述网络站点对应的数据集。

在一些实施例中，所述待评估数据集包括：网络站点的传感器采集的多个事务，以及每个事务对应的参数；所述期望数据集包括：预设的期望所述网络站点采集到的多个事务，以及每个事务对应的参数；让S表示网络中的k个站点，使得，其中S_i表示站点中的第i个传感器。假设在传感器S_i上，人们期望数据集到达时有m个事务，每个事务由n个参数组成。此外，传感器S_i接收具有mr个事务数的数据集，每个事务具有nr个参数。设 E矩阵为期望数据集，R矩阵表示待评估数据集，如下所示：

R矩阵：

E矩阵：

当然，在一些实施例中，期望数据集也可以是预设好的，直接根据待评估数据集是由哪个网络站点的哪个传感器采集的，来确定对应的期望数据集即可。

步骤120，将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分。

在一些实施例中，所述大数据质量模型包括：大数据完整性模型、大数据精度模型、大数据及时性模型、大数据唯一性模型、大数据有效性模型、大数据一致性模型、大数据可靠性模型和大数据可用性模型。所述质量标准评分包括：完整性分数、准确性分数、及时性分数、唯一性分数、有效性分数、一致性分数、可靠性分数和可用性分数。所述待评估数据集还包括：由采集到的每个事务的时间组成的实际时间戳；所述期望数据集还包括：由预设的期望每个事务到达的时间组成的期望时间戳、预设的有效性规则和预设的所述网络站点的传感器总数；所述将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分，包括：将所述待评估数据集和期望数据集输入大数据完整性模型，输出所述待评估数据集的完整性分数；将所述待评估数据集和期望数据集输入大数据精度模型，输出所述待评估数据集的准确性分数；根据所述实际时间戳和所述期望时间戳，生成时间戳数组；将所述时间戳数组输入大数据及时性模型，输出所述待评估数据集的及时性分数；将所述待评估数据集输入大数据唯一性模型，输出所述待评估数据集的唯一性分数；将所述待评估数据集和所述有效性规则输入大数据有效性模型，输出所述待评估数据集的有效性分数；将所述待评估数据集和所述实际时间戳输入大数据一致性模型，输出所述待评估数据集的一致性分数；将所述待评估数据集的数据集数量，作为所述网络站点的正常工作的传感器数量；将所述正常工作的传感器数量和所述网络站点的传感器总数输入大数据可靠性模型，输出所述待评估数据集的可靠性分数；将所述完整性分数、准确性分数和及时性分数输入大数据可用性模型，输出所述待评估数据集的可用性分数。下面结合公式对八个模型分别评估数据的过程进行详细说明。

一、大数据完整性模型

在一些实施例中，所述大数据完整性模型包括事务完整性模型和参数完整性模型；所述将所述待评估数据集和期望数据集输入大数据完整性模型，输出所述待评估数据集的完整性分数，包括：将所述待评估数据集和期望数据集输入事务完整性模型，输出平均事务完成率；将所述待评估数据集和期望数据集输入参数完整性模型，输出平均参数完整性；将预设权重值作为所述平均事务完成率和平均参数完整性的系数，并求和，得到所述待评估数据集的完整性分数。

在一些实施例中，所述将所述待评估数据集和期望数据集输入事务完整性模型，输出平均事务完成率，通过以下公式实现：

公式1：；

；

在一些实施例中，所述将所述待评估数据集和期望数据集输入参数完整性模型，输出平均参数完整性，通过以下公式实现：

在定义大数据时，让X作为计算完整性的参数。这里，矩阵R构成参数X中的所有值。借助，用mr事务数计算矩阵R中缺失数据的总数。为了计算完整性，有必要知道将接收的数据集视为完整的预期数据量。借助，找出数据集中预期值的总数，是具有mr个事务和nr个参数的R矩阵中缺失数据的总数；是R矩阵中空值的总数；由于要求的是参数的完整性，故而是参数i对应的E矩阵中的数据集：E_1i×E_mi；是参数 i对应的R矩阵中的数据集：R_1i×R_mri。

假设表示参数i的完整性。下标𝑝𝑎𝑟𝑎𝑚表示完整性是根据参数来衡量的。这个可以定义为：

是参数i的完整性百分比。它可以定义为：

假设表示第j天的平均完整性，它可以定义为公式8：

其中是从公式4导出的第j天的事务，求和应用于所有i值的（i值从1到）。为了计算第j天发生的所有事务的完整性。该总和值除以产生第j天的平均参数完整性。

假设是第j个月参数的平均完整性，因此可以定义为公式9：

这里是j个月发生事务的天数，来自公式8。求和应用于所有i值的（i值从1到）。为了计算j月天内发生的所有事务的完整性，此总和值除以，得出每个月的平均参数完整性。

假设表示参数j年的平均完整性。因此𝐶𝑜𝑚𝑝l𝑒𝑡𝑒𝑛𝑒𝑠𝑠𝑗 可以由以下公式给出：

这里 𝑗表示事务处理的月份数发生在第𝑗年，并且来自公式9，求和应用于所有i值的（i值从1 到）。为了计算j年月份发生的所有交易的完整性。该总和值除以，得出每年的平均参数完整性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据完整性模型求得的每天的事务完整性、每个月的事务完整性和每年的事务完整性，以及每天的参数完整性、每个月的参数完整性和每年的参数完整性。当然，还可以根据用户需求，输出待评估数据集的完整性总值，即将所有的事务完整性与参数完整性相加求和。这其中，根据用户的需求，对需要关注的事务、参数都可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

二、大数据精度模型

这里给出了每笔事务的准确度和每个参数的准确度模型。每个事务模型的准确性检查单个事务中每个元素的准确性。事务准确度参数模型在给定时间的所有事务期间检查参数中的每个元素。两者都使用百分比作为度量单位。

1）每笔事务的准确性。为了计算精度，需要参考数据集。前面章节中描述的期望数据集是所有计算的参考数据集。所选两个数据集之间的距离给出了它们的准确度。

将每笔事务的准确度定义为对于事务i，其中 _j是事务i 和参数j的参考数据集和待评估数据集之间的差值：

其中i表示事务数，j表示参数数。

假设是事务i的准确性。可以定义为：

是事务i的准确率百分比。它可以定义为：

假设表示第j天事务的平均准确性，它可以定义为公式10：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦𝑡𝑟𝑎𝑛𝑖 %，i值等于1至。计算第j天发生的所有事务的准确性。该总和除以，得出第j天的平均事务准确性。

假设是第j个月事务的平均准确度。因此可以定义为公式11：

这里是第j个月发生事务的天数。从公式10导出，求和应用于对于i的所有值的，i值等于1到。计算j月天内发生的所有事务的准确性，此总和除以 , 得出每月平均事务准确性。

假设表示j年每笔事务的平均准确度。因此可以由以下公式给出：

这里表示第j年发生事务的月份数，其中从公式 11导出。求和应用于对于i的所有值的，i值等于1到。计算j年月内发生的所有事务的准确性，此总和除以，得出每年平均事务准确性。

2）每个参数的精度。对于每个参数的准确度，这里，事务数将显示为m，表示引用和接收数据集之间每个参数的最大事务数。

将每个参数的精度定义为。其定义为：

其中，m是每个参数的事务数。

假设是参数i的准确性百分比，其定义为：

以参数表示第j天的平均精度。它可以定义为公式12：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1到。为计算第j天发生的所有事务的准确度。该总和值除以, 得出第j天的平均参数准确性。

假设是每个月j参数的平均精度。因此可以定义为公式13：

其中是第j个月发生事务的天数，由公式12导出。该求和应用于所有i值的，i值从1到。为计算j月天内发生的所有事务的准确度，该总和值除以，得出每个月的平均参数准确性。

假设表示j年参数的平均精度，因此可以由以下公式给出：

其中表示j年发生事务的月份数，由公式13导出。求和应用于所有i值的，i值从1到。为计算j年月内发生的所有事务的准确度，该总和值除以，得出每年的平均参数精性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据精度模型求得的每天的事务准确性、每个月的事务准确性和每年的事务准确性，以及每天的参数准确性、每个月的参数准确性和每年的参数准确性。当然，还可以根据用户需求，输出待评估数据集的准确性总值，即将所有的事务准确性与参数准确性相加求和。这其中，根据用户的需求，对需要关注的事务、参数都可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

三、大数据及时性模型

为了衡量及时性，需要为每个事务存储一个时间戳。让表示每个记录的开始和结束时间的时间戳数组。因此，，其中表示事务i到达的预期时间，即期望时间戳，表示事务i的实际接收时间，即实际时间戳。让为事务i的及时性。它可以定义为：

假设是事务i的及时性百分比。它可以定义为：

假设表示第j天事务的平均及时性。它可以定义为公式14：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1至。为计算第j天发生的所有事务的及时性。该总和值除以，得出第j天的平均事务及时性。

假设是第j个月事务的平均及时性。因此可以定义为公式15：

其中是第j个月发生事务的天数，以及从公式14 导出。求和应用于对于i的所有值，i值等于1到。为计算j月天内发生的所有事务的及时性。该总和值除以 , 得出每月的平均事务及时性。

假设表示第j年事务的平均及时性。因此可以由以下公式给出：

其中表示第j年发生事务的月份数，以及由公式15导出。求和应用于对于i的所有值的，i值等于1至。为计算j年月内发生的所有事务的准确性。该总和值除以 , 得出每年的平均事务及时性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据及时性模型求得的每天的事务及时性、每个月的事务及时性和每年的事务及时性。当然，还可以根据用户需求，输出待评估数据集的及时性总值，即将所有的事务及时性相加求和。这其中，根据用户的需求，对需要关注的事务可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

四、大数据唯一性模型

大数据唯一性是通过将数据与同一数据集中的对应数据进行比较来衡量的，以检查冗余。以下介绍了一天内进行的每个事务的唯一性，进而推出每个月的事务唯一性和每年的事务唯一性。假设有一个事务；要计算其唯一性，将其与其他事务进行比较。

假设为事务i的唯一性。要定义事务的唯一性，请将该事务与数据集中的其余事务进行比较。因此可以定义为：

是事务i的唯一性百分比。它可以定义为：

让表示第j天事务的平均唯一性。它可以定义为公式16：

其中是从公式4导出的第j天的事务，对于i的所有值求和，i值等于1到。为计算在第j天发生的所有事务的唯一性。该总和值除以, 得出第j天的平均事务唯一性。

假设是第j个月事务的平均唯一性。因此可以定义为公式17：

其中是事务发生的第j个月的天数，以及由公式 16导出。求和应用于对于i的所有值的，i值等于1至。为计算j月天发生的所有事务的唯一性。此总和值除以，得出每个月的平均事务唯一性。

假设表示j年的平均唯一性事务，因此可以由以下公式给出：

其中表示j年发生事务的月数，以及由公式 17导出。总和应用于对于i的所有值的，i值等于1到。为计算j年月发生的所有事务的唯一性，此总和除以，得出每年的平均事务唯一性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据唯一性模型求得的每天的事务唯一性、每个月的事务唯一性和每年的事务唯一性。当然，还可以根据用户需求，输出待评估数据集的唯一性总值，即将所有的事务唯一性相加求和。这其中，根据用户的需求，对需要关注的事务可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

五、大数据有效性模型

大数据有效性的定义正确地表明，它涉及有效性的度量。有规则或语法来评估准确性是很重要的。本申请提出了事务和参数级别的有效性。

1）每个参数的有效性。为了验证数据，应该有特定的定义规则，假设这些数据被视为有效。

假设接收到的数据集是R，其中有mr个事务，并且每个事务都有nr个参数。对于数据集R，假设验证标准V＝｛v1，v2…vk｝。要定义每个参数的有效性，请保持nr=1。检查参数中每个值项的有效性以确定需要计算哪些值的有效性。为了验证参数，根据其规则测量参数的每个值以检查有效性。

将数据集R中每个值的有效性定义为对于值i，其定义为：

现在，应用参数中所有的总和。因此，对于参数i的可以定义如下：

式中，mr是事务总数，假设是参数i的完整性百分比。它可以定义为：

用参数表示第j天的平均有效性。它可以定义为公式18：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1至。为计算第j天发生的所有参数的有效性。该总和值除以 , 得出第j天的平均参数有效性。

假设是j个月参数的平均有效性。那么可以定义为公式19：

其中是第j个月发生事务的天数，以及由公式18导出。求和应用于对于i的所有值的，i值等于1至。为计算j月天发生的所有参数的有效性，该总和值除以，得出每个月的平均参数有效性。

假设表示第j年参数的平均有效性。那么，可以由下式给出：

其中表示j年发生事务的月数，以及由公式19 导出。求和应用于对于i的所有值的，i值等于1至。为计算j年月发生的所有参数的有效性。该总和值除以，得出每年平均参数有效性。

2）每笔事务的有效性。为了度量每个事务的有效性，必须为事务中的每个值制定有效性规则或语法。这意味着每个值都需要与其规则进行比较。假设接收到的数据集是R，带有mr事务，并且每个事务都有nr参数。对于事务中的每个值，按照下述公式检查其有效性：

现在应用事务中所有的总和。因此，对于事务i的可以定义如下：

其中nr是每个事务的参数总数。

假设是事务i的有效性百分比。它可以定义为：

假设表示事务的第j天的平均有效性。它可以确定为公式20：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1到。为计算第j天发生的所有事务的有效性。该总和值除以，得出第j天的平均事务有效性。

假设是第j个月事务的平均有效性。因此，可以定义为公式21：

其中是在j月发生事务的天数，以及由公式20导出。求和应用于对于i的所有值的，i值等于1到。为计算j月天发生的所有事务的有效性。此总和值除以，得出每月平均事务有效性。

假设表示j年事务的平均有效性。因此可以由以下公式给出：

其中表示j年发生事务的月数，以及由公式21导出。求和应用于对于i的所有值的，i值等于1至。为计算j 年月发生的所有事务的有效性。此总和值除以，得出每年平均事务有效性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据有效性模型求得的每天的事务有效性、每个月的事务有效性和每年的事务有效性，以及每天的参数有效性、每个月的参数有效性和每年的参数有效性。当然，还可以根据用户需求，输出待评估数据集的有效性总值，即将所有的事务有效性与参数有效性相加求和。这其中，根据用户的需求，对需要关注的事务、参数都可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

六、大数据一致性模型

本申请提出了两种一致性；一个基于参数，另一个基于时间。在参数一致性方面，将每个值与不同数据集的值进行比较。而在基于时间的情况下，时间戳与两个数据集进行比较。

1）每个参数的一致性。其中，定义了传感器X数据集参数i的每个参数的一致性，并将传感器Y的数据集作为参考数据集。

X的数据集的维度应等于Y的数据集。如果没有，则将缺失维度中的null替换为相等，以便mr是事务的总数，并且等于两个数据集的事务数的最大值。

传感器X相对于Y的一致性判断如下：

将每个参数的一致性定义为对于参数i的，其定义为：

其中mr是事务总数。

假设是参数i的一致性百分比。它可以定义为：

让表示参数第j天的平均一致性，它可以定义为公式22：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1至。为计算第j天发生的所有参数的一致性。这个总和值除以，产生第j天的平均参数一致性。

假设是第j个月的参数平均一致性，因此，可以定义为公式23：

其中是第j个月发生事务的天数，以及由公式22 导出。求和应用于对于i的所有值的，i值等于1至。为计算j月天发生的所有参数的一致性。此总和值除以，得出每月的平均参数一致性。

假设表示第j年的参数平均一致性，因此，可以由以下公式给出：

其中表示第j年发生事务的月份数，以及由公式23导出。求和应用于对于i的所有值的，i值等于1至。为计算j年月发生的所有参数的一致性。此总和值除以，得出每年的平均参数一致性。

2）时间一致性。测量时间一致性以显示两个数据集之间的时间一致性。对于上述中解释的两个传感器，X和Y测量接收到的时间事务，以查看它们是否保持相同事务之间的时间一致性。让定义为传感器X的接收时间戳数组。对于传感器X，可以如下给出：

, 其中表示第个事务的时间戳，mr表示事务总数。

假设表示事务i的时间一致性。要定义事务的时间一致，请将该事务的时间戳与其引用数据集的时间戳进行比较。使用传感器X和传感器Y检查它们之间的时间一致性。因此对于传感器X和传感器Y，可以定义为:

其中表示传感器y的第个事务的时间戳，是事务i的时间一致性百分比。它可以定义为：

假设表示事务中第j天的平均时间一致性。它可以定义为公式24：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1到。为计算第j天发生的所有事务的时间一致性。该总和值除以, 得出第j天的平均事务时间一致性。

假设是第j个月事务的平均时间一致性。因此，可以定义为公式25：

其中是第j个月发生事务的天数，以及由公式24导出。求和应用于对于i的所有值的，i值等于1到。为计算j月天发生的所有事务的时间一致性，此总和值除以，得出每个月的平均事务时间一致性。

假设表示j年事务的平均时间一致性，因此，可以由以下公式给出：

其中表示j年发生事务的月数，以及由公式25导出。求和应用于对于i的所有值的，i值等于1至。为计算j年月发生的所有事务的时间一致性。该总和值除以 , 得出每年平均事务时间一致性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据一致性模型求得的每天的时间一致性、每个月的时间一致性和每年的时间一致性，以及每天的参数一致性、每个月的参数一致性和每年的参数一致性。当然，还可以根据用户需求，输出待评估数据集的一致性总值，即将所有的时间一致性与参数一致性相加求和。这其中，根据用户的需求，对需要关注的参数可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

七、大数据可靠性模型

可靠性与大数据质量间接相关。这很重要，因为如果获取数据的系统本身有故障，数据质量可能会下降。假设站S在时间间隔内具有传感器S＝{S1，S2，Sn}，借助于找到传感器的可靠性。本申请中定义的所有其他参数都在传感器级别。大数据可靠性在站点级别定义。

假设是站点S的可靠性。为了用k个不可靠传感器和n作为传感器总数来定义站点S的可靠性：

其中k是不可靠传感器的数量，n是传感器的总数。

是站点S的可靠性百分比，它可以定义为：

八、大数据可用性模型

大数据可用性可以通过简单地测量三个不同的质量参数（如完整性、准确性和及时性）来建模。

假设是事务i的可用性，它可以定义为：

是事务i的可用性百分比。它可以定义为：

假设就事务而言，表示第j天的平均可用性。它可以定义为公式26：

其中是从公式4导出的第j天的事务，求和应用于对于i的所有值的，i值等于1到。为计算第j天发生的所有事务的可用性，此总和值除以，得出第j天的平均参数可用性。

假设是第j个月事务的平均可用性。因此，可以定义为公式27：

其中是第j月发生事务的天数，以及由公式26导出。求和应用于对于i的所有值的，i值等于1到，为计算j月天发生的所有事务的可用性。此总和值除以，得出每月平均事务可用性。

假设𝑈𝑠𝑎𝑏𝑖l𝑖𝑡𝑦𝑗 表示j年的平均事务可用性，因此，可以由以下公式给出：

其中表示第j年发生的事务的月数，以及由公式27导出。求和应用于对于i的所有值的，i值等于1到。为计算j年月发生的所有事务的可用性。此总和值除以，得出每年平均事务可用性。

在一些实施例中，数据质量报告可以精确的体现按上述大数据可用性模型求得的每天的事务可用性、每个月的事务可用性和每年的事务可用性。当然，还可以根据用户需求，输出待评估数据集的可用性总值，即将所有的事务可用性相加求和。这其中，根据用户的需求，对需要关注的事务可以通过设置不同的系数，来进行对应相乘的操作之后再相加求和等等，都是可以灵活设置的，并最终输出结果到数据质量报告中。

步骤130，根据所述质量标准评分确定对应的权重系数。

在一些实施例中，设置有上述八个模型分别对应的权重系数，可以由用户根据需求进行灵活调整。

步骤140，根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数。

在一些实施例中，将所述完整性分数、准确性分数、及时性分数、唯一性分数、有效性分数、一致性分数、可靠性分数和可用性分数分别与对应的权重系数相乘，得到完整性质量分数、准确性质量分数、及时性质量分数、唯一性质量分数、有效性质量分数、一致性质量分数、可靠性质量分数和可用性质量分数，作为所述待评估数据集的数据质量分数；

在一些实施例中，可以将上述每一个模型分别求出的质量分数分别输出至数据质量报告中，也可以将上述每一个模型分别求出的质量分数与对应的权重系数赋值后求得的和值输出至数据质量报告中。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的大数据质量评估装置200的方框图。如图2所示，装置200包括：

数据获取模块210，用于获取待评估数据集和期望数据集；所述待评估数据集是通过网络站点的传感器采集到的多个数据；所述期望数据集为预设的与所述网络站点对应的数据集；

质量评分确定模块220，用于将所述待评估数据集和期望数据集输入预先构建的大数据质量模型，输出所述待评估数据集对应的质量标准评分；

权重确定模块230，用于根据所述质量标准评分确定对应的权重系数；

质量分数计算模块240，用于根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质。

图3示出了可以用来实施本公开的实施例的电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备300包括计算单元301，其可以根据存储在ROM302中的计算机程序或者从存储单元308加载到RAM303中的计算机程序，来执行各种适当的动作和处理。在RAM303中，还可存储电子设备300操作所需的各种程序和数据。计算单元301、ROM302以及RAM303通过总线304彼此相连。I/O接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理，例如大数据质量评估方法。例如，在一些实施例中，大数据质量评估方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM303并由计算单元301执行时，可以执行上文描述的大数据质量评估方法的一个或多个步骤。备选地，在其他实施例中，计算单元301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行大数据质量评估方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种大数据质量评估方法，其特征在于，包括：

根据所述质量标准评分确定对应的权重系数；

2.根据权利要求1所述的方法，其特征在于，

所述待评估数据集包括：网络站点的传感器采集的多个事务，以及每个事务对应的参数，由下述R矩阵所示：

3.根据权利要求2所述的方法，其特征在于，所述大数据质量模型包括：大数据完整性模型、大数据精度模型、大数据及时性模型、大数据唯一性模型、大数据有效性模型、大数据一致性模型、大数据可靠性模型和大数据可用性模型。

4.根据权利要求3所述的方法，其特征在于，

所述质量标准评分包括：完整性分数、准确性分数、及时性分数、唯一性分数、有效性分数、一致性分数、可靠性分数和可用性分数；

5.根据权利要求4所述的方法，其特征在于，

所述大数据完整性模型包括事务完整性模型和参数完整性模型；

6.根据权利要求5所述的方法，其特征在于，

所述将所述待评估数据集和期望数据集输入事务完整性模型，输出平均事务完成率，通过以下公式实现：

公式1：；

；

其中，是R矩阵中事务i的完整性；/>是具有mr个事务和nr个参数的R矩阵中缺失数据的总数；/>是R矩阵中空值的总数；/>是事务i对应的E矩阵中的数据集：E_i1×E_in；/>是事务i对应的R矩阵中的数据集：R_i1×R_inr;/>是事务i的完成百分比；/>是两个事务之间的时间差，/>是一天中发生这两个事务的总小时数；/>是第j天的事务；/>表示事务i第j天的平均事务完成率；/>是j月份发生事务的天数；/>从公式5导出；/>是第j个月事务的平均事务完成率；/>表示j年发生交易的月份数；/>表示j年的平均事务完成率；/>从公式6导出。

7.根据权利要求4所述的方法，其特征在于，所述根据所述质量标准评分与对应的权重系数，确定所述待评估数据集的数据质量分数，包括：

8.一种大数据质量评估装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一权利要求所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一权利要求所述的方法。