CN110766429A

CN110766429A - 一种数据价值评估系统及方法

Info

Publication number: CN110766429A
Application number: CN201810834249.0A
Authority: CN
Inventors: 李然辉; 吴燕飞; 阮亚芬; 夏珺峥
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2020-02-07

Abstract

本申请提供了一种数据价值评估系统及方法，其中，该系统包括：数据获取模块，用于获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；价值评估模块，用于根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值。本申请在考虑数据的重置成本的前提下，综合考虑了数据的数据价值影响值，避免了由于数据成本与数据所能带来的收益具有弱对应性而导致的数据价值评估不准确的问题，以实现对数据价值的准确评估。

Description

一种数据价值评估系统及方法

技术领域

本申请涉及计算机应用技术领域，具体而言，涉及一种数据价值评估系统及方法。

背景技术

数据已经成为一种同货币或黄金一样的新型经济资产类别。然而，用货币来衡量数据的价值并不容易。如对于某些数据来说，比如征信类数据，单纯论其价值，一般很难说得清楚，但是，对数据进行分析研究以后，很可能从中发掘出巨大的价值。

然而，目前对于数据的价值评估仍处于探索阶段，且对数据的社会价值或者使用价值的评估，往往会参照传统资产评估方法，如利用重置成本来衡量企业数据的价值，但由于数据成本与数据所能带来的收益具有弱对应性，直接导致基于传统方法进行数据价值评估的不准确。

发明内容

有鉴于此，本申请的目的在于提供一种数据价值评估系统及方法，以提高数据价值评估的准确性。

第一方面，本申请实施例提供了一种数据价值评估系统，包括：

数据获取模块，用于获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；

价值评估模块，用于根据该至少一个数据集的重置成本和数据价值影响值，确定所述数据的价值评估值。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述数据获取模块包括重置成本获取单元；

所述重置成本获取单元用于：

针对所述至少一个数据集中的每个数据集，获取生成该数据集的直接成本、间接成本以及其他成本；

基于获取的所述直接成本、所述间接成本以及所述其他成本，确定该数据集的重置成本。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述数据价值影响值包括数据一致性影响值，所述数据获取模块包括数据一致性确定单元；所述数据一致性确定单元包括：

数据一致性获取子单元，用于针对所述至少一个数据集中的每个数据集，获取该数据集所包含的数据内容和该数据集对应的描述信息；

数据一致性确定子单元，用于确定所述数据内容与所述描述信息中对应描述的一致性程度；并基于所述一致性程度确定该数据集的数据一致性影响值，且所述一致性程度越高，该数据集的数据一致性影响值越高。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述数据一致性获取子单元，具体用于针对每个数据集，确定该数据集对应数据文件的第一数据文件大小、以及该数据集对应的描述信息中描述的该数据集对应数据文件的第二数据文件大小；和/或，该数据集的第一数据量大小、以及所述描述信息中描述的该数据集对应的第二数据量大小；和/或，该数据集所包含数据的第一数据类型、以及所述描述信息中描述的该数据集的第二数据类型；

数据一致性确定子单元，具体用于基于如下一种或多种一致性确定该数据集的数据一致性影响值：

所述第一数据文件大小和所述第二数据文件大小之间的一致性；

所述第一数据量大小和所述第二数据量大小之间的一致性；

所述第一数据类型和所述第二数据类型之间的一致性；

且满足：上述任一种一致性越高，该数据集的数据一致性影响值越高。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述数据价值影响值包括数据完整性影响值，所述数据获取模块包括数据完整性确定单元；所述数据完整性确定单元包括：

数据项统计子单元，用于针对所述至少一个数据集中的每个数据集，统计该数据集中非空的数据项的个数；

数据完整性确定子单元，用于基于统计的数据项的非空占比，确定该数据集的数据完整性影响值，并且满足：所述非空占比越高，该数据集的数据完整性影响值越高。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述数据价值影响值包括数据冗余度影响值，所述数据获取模块包括数据冗余度确定单元；所述数据冗余度确定单元包括：

数据条目统计子单元，用于针对所述至少一个数据集中的每个数据集，统计该数据集数据条目中的重复条目数；

数据冗余度确定子单元，用于基于该数据集所包含的重复条目占比，确定该数据集的数据冗余度影响值，并且满足：统计的重复条目越少，该数据集的数据冗余度影响值越高。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述数据价值影响值包括数据时效性影响值，所述数据获取模块包括数据时效性确定单元；所述数据时效性确定单元包括：

数据时间确定子单元，用于针对所述至少一个数据集中的每个数据集，确定该数据集的终止记录时间、起始记录时间和当前评估时间；

数据时效性确定子单元，用于基于确定的所述终止记录时间和所述起始记录时间之间所跨越的时间区间，以及所述起始记录时间和所述当前评估时间之间的时间差，确定该数据集的数据时效性影响值，并且满足：所述时间区间跨度越大，该数据集的数据时效性影响值越高；以及所述时间差越小，该数据集的数据时效性影响值越高。

结合第一方面，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述价值评估模块包括：

权重确定单元，用于基于预设算法，确定参与价值评估分析的数据价值影响值的权重，其中，所述参与价值评估分析的数据价值影响值包括：数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值中的至少一种；

影响值计算单元，用于针对所述至少一个数据集中的每个数据集，基于确定的权重以及各权重对应的数据价值影响值，计算该数据集的数据价值影响值；

价值评估单元，用于根据所述至少一个数据集重置成本和数据价值影响值，确定所述数据的价值评估值。

结合第一方面的第七种可能的实施方式，本申请实施例提供了第一方面的第八种可能的实施方式，其中，所述价值评估模块还包括：

影响值系数确定单元，用于获取与所述数据属相同领域或具有相似应用场景的相似数据的交易价格、数据成本和数据价值影响值；基于获取的所述交易价格、数据成本和数据价值影响值，确定数据价值影响值系数；

所述价值评估单元，具体用于针对所述至少一个数据集中的每个数据集，根据该数据集的数据价值影响值系数、数据价值影响值、重置成本，确定对该数据集的重置成本的调整值；根据该数据集的重置成本和所述调整值，确定该数据集的价值评估值；以及根据所述至少一个数据集的价值评估值确定所述数据的价值评估值。

第二方面，本申请实施例还提供了一种数据价值评估方法，包括：

获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；

根据该至少一个数据集的重置成本和数据价值影响值，确定所述数据的价值评估值。

本申请实施例提供的数据价值评估系统及方法，其数据获取模块，用于获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；价值评估模块，用于根据该至少一个数据集的重置成本和数据价值影响值，确定所述数据的价值评估值，也即，其在考虑数据的重置成本的前提下，综合考虑了数据的数据价值影响值，避免了由于数据成本与数据所能带来的收益具有弱对应性而导致的数据价值评估不准确的问题，以实现对数据价值的准确评估。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种数据价值评估系统的功能模块图；

图2示出了本申请实施例所提供的一种数据价值评估系统中数据获取模块的功能模块图；

图3示出了本申请实施例所提供的一种数据价值评估系统中数据一致性确定单元的功能模块图；

图4示出了本申请实施例所提供的一种数据价值评估系统中数据完整性确定单元的功能模块图；

图5示出了本申请实施例所提供的一种数据价值评估系统中数据冗余度确定单元的功能模块图；

图6示出了本申请实施例所提供的一种数据价值评估系统中数据时效性确定单元的功能模块图；

图7示出了本申请实施例所提供的一种数据价值评估系统中价值评估模块的功能模块图；

图8示出了本申请实施例所提供的一种数据价值评估方法的流程图；

图9示出了本申请实施例所提供的一种计算机设备的结构示意图。

主要元件符号说明：

11、数据获取模块；22、价值评估模块；111、重置成本获取单元；112、数据一致性确定单元；113、数据完整性确定单元；114、数据冗余度确定单元；115、数据时效性确定单元；221、权重确定单元；222、影响值计算单元；223、价值评估单元；224、影响值系数确定单元；1121、数据一致性获取子单元；1122、数据一致性确定子单元；1131、数据项统计子单元；1132、数据完整性确定子单元；1141、数据条目统计子单元；1142、数据冗余度确定子单元；1151、数据时间确定子单元；1152、数据时效性确定子单元；1000、处理器；2000、存储器；3000、总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到相关技术中利用重置成本来衡量企业数据的价值，由于数据成本与数据所能带来的收益具有弱对应性，直接导致基于传统方法进行数据价值评估的不准确。有鉴于此，本申请一种实施例提供了一种数据价值评估系统，以提高数据价值评估的准确性。

如图1所示，为本申请实施例所提供的数据价值评估系统的功能模块图，该数据价值评估系统具体包括：

数据获取模块11，用于获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；

价值评估模块22，用于根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值。

这里，本申请实施例中的数据是一个场景，一个业务，一个应用产生而来，因此，该数据的价值可以由它产生的环境、过程的独特属性来赋予。数据在不同应用领域可以具有不同的属性，以征信类数据为例，该征信类数据在金融领域可以具有金融属性，在交通领域可以具有交通属性，在电信领域可以具有电信属性，也可以是其他任一领域的独特属性。正是这些具有不同属性的数据，才造就了数据的价值。值得说明的是，不管一个数据具备的是哪种属性，本申请实施例中，均可以对该数据进行价值评估。

在本申请实施例中，可以从数据的重置成本以及数据价值影响值等两个方面来确定其价值评估值。其中，上述重置成本可以是指生成数据所花费的成本，上述数据价值影响值可以是指数据一致性、数据完整性、数据冗余度及数据时效性等因素对数据质量价值和/或数据市场价值所带来的影响，这样，本申请实施例便可以在确定数据的重置成本的前提下，综合考虑数据的价值影响来实现数据价值的评估，也即，其强化了数据价值本身的影响力，避免了相关技术中由于数据成本与数据所能带来的收益具有弱对应性而导致的价值评估不准确的问题，数据价值评估的准确性较高。

考虑到本申请实施例所提供的数据价值评估系统在具体应用时，可以是在获取到企业提供的数据后，对该数据进行价值评估。而企业提供的数据可以是从数据库中读取的，较佳地，读取到的数据可以是数据表的形式，也可以是通过对数据清洗加工得到数据表形式的数据。本申请实施例中数据包含的每个数据集均可以对应一个数据表，这样，通过对每个数据表对应的数据集进行价值评估，便可以得到所有数据集对应的数据的价值评估值。

对于重置成本的获取而言，如图2所示，本申请实施例中数据获取模块11的重置成本获取单元111用于针对至少一个数据集中的每个数据集，获取生成该数据集的直接成本、间接成本以及其他成本；基于获取的直接成本、间接成本以及其他成本，确定该数据集的重置成本。也即，本申请实施例可以基于生成每个数据集的直接成本、间接成本以及其他成本来确定该数据集的重置成本，然后将所有数据集的重置成本进行求和，便可以得到所有数据集的重置成本。

其中，直接成本可以指的是直接用于生成数据过程的各项费用，可以包括但不限于下述费用：工资费用、专用设备费用、协作费用、培训费用、差旅费用。另外，某一时期(如一年)的直接成本总额随数据产量的变化而变化，且随数据产量的增加大体上成正比增加。虽然直接成本的总额随数据产量变化，但在一定的数据产量范围内单位数据的直接成本基本上是常数。与直接成本信息相对应的是间接成本信息，可以是生产费用发生时，不能或不便于直接计入某一成本计算对象，而需先按发生地点或用途加以归集的各项费用，可以包括但不限于下述费用：管理费用分摊、运维费用。其他成本则可以是除去上述直接成本、间接成本的其他能够影响数据生产的成本，例如：对数据进行清洗加工的费用、交付数据时的预处理费用等。

在获取到每个数据集的上述直接成本、间接成本以及其他成本后，可以基于获取的各个成本信息的和值确定该数据集的重置成本。这里，重置成本可以是在产生数据集的历史年份下确定的，还可以是换算成当前年份下确定的，而当前年份下的重置成本的确定是要依赖于历史年份下确定的初始重置成本的。也即，当前年份下的重置成本表征的是在历史年份产生的数据集在当前年份究竟存在多少价值，这样才容易把数据集并入一个时间节点(如当前年份)以进行价值的全面评估。本申请实施例可以根据在历史年份下该数据的初始重置成本和当前年份相对历史年份的物价指数信息，确定数据集在当前年份下的重置成本。其中，物价指数信息可以通过查询当年年份的一般购买力指数来确定，一般的，该购买力指数为相对基期的一个涨跌幅指数。

如图2所示，本申请实施例提供的数据价值评估系统中的数据获取模块11还包括：数据一致性确定单元112、数据完整性确定单元113、数据冗余度确定单元114和数据时效性确定单元115，其数据一致性确定单元112可以通过数据内容与描述信息中对应描述的一致性程度确定数据一致性影响值，数据完整性确定单元113可以通过数据项的非空占比确定数据完整性影响值，数据冗余度确定单元114可以通过数据集所包含的重复条目占比确定数据冗余度影响值，数据时效性确定单元115可以通过数据集的终止记录时间、起始记录时间和当前评估时间确定数据时效性影响值。接下来分别对数据一致性影响值、数据完整性影响值、数据冗余度影响值、数据时效性影响值的确定进行描述。

对于确定数据一致性影响值而言，如图3所示，本申请实施例中的数据一致性确定单元112具体包括：

数据一致性获取子单元1121，用于针对至少一个数据集中的每个数据集，获取该数据集所包含的数据内容和该数据集对应的描述信息；

数据一致性确定子单元1122，用于确定数据内容与描述信息中对应描述的一致性程度；并基于一致性程度确定该数据集的数据一致性影响值，且一致性程度越高，该数据集的数据一致性影响值越高。

这里，首先利用数据一致性获取子单元1121针对至少一个数据集中的每个数据集，获取该数据集所包含的数据内容和该数据集对应的描述信息，然后再通过上述数据内容与描述信息的一致性程度来确定该数据集的数据一致性影响值。

本申请实施例中，针对每个数据集，其数据内容与描述信息的一致性可以指的是该数据集对应数据文件的第一数据文件大小、以及该数据集对应的描述信息中描述的该数据集对应数据文件的第二数据文件大小之间的一致性，还可以指的是该数据集的第一数据量大小、以及描述信息中描述的该数据集对应的第二数据量大小之间的一致性，还可以指的是该数据集所包含数据的第一数据类型、以及描述信息中描述的该数据集的第二数据类型之间的一致性，还可以是上述三种任意两种或三种一致性的综合结果。

其中，本申请实施例中的第一数据文件大小对应的数据文件可以是从原始数据库中读取的实际数据文件，而第二数据文件大小对应的描述信息中描述的数据文件则可以指的是企业在提供数据时，企业自身记录的数据文件。由于描述信息可能不会随着实际数据文件的更新及时更新，导致上述实际数据文件与企业记录的数据文件往往并不相同，这样，实际数据文件对应的第一数据文件大小与企业记录的数据文件对应的第二数据文件大小也可能不相同。本申请实施例可以基于第一数据文件大小和第二数据文件大小之间的一致性来确定数据一致性影响值，且第一数据文件大小和第二数据文件大小越接近，对应数据集的数据一致性影响值越高。

其次，本申请实施例中的第一数据量大小对应的数据集可以是从原始数据库中读取的实际数据集，而第二数据量大小对应的数据集则可以指的企业在提供数据时，企业自身记录的数据集。原因同上，由于上述实际数据集与企业记录的数据集往往并不相同，这样，实际数据集对应的第一数据量大小与企业记录的数据集对应的第二数据量大小也可能并不相同。本申请实施例可以基于第一数据量大小和第二数据量大小之间的一致性来确定数据一致性影响值，且第一数据量大小和第二数据量大小越接近，对应数据集的数据一致性影响值越高。

再者，本申请实施例中的第一数据类型可以是上述实际数据集所包含数据的数据类型，第二数据类型则可以是上述企业自身记录的数据集所包含数据的数据类型。本申请实施例可以基于第一数据类型和第二数据类型之间的一致性来确定数据一致性影响值，且第一数据类型和第二数据类型的一致性越高，对应数据集的数据一致性影响值越高。这里，数据的数据类型可以是文本类型、数字类型和日期/时间类型。

考虑到上述三种一致性均会影响数据一致性影响值的确定，因此，在本申请实施例可以综合考虑上述三种一致性来确定数据一致性影响值。如下式所示：

其中，ω₁用于表征数据集的数据一致性影响值，α大于零小于1，L_a,L_m分别用于表征第一数据量大小和第二数据量大小，S_a,S_m分别用于表征第一数据文件大小和第二数据文件大小，D用于表征第一数据类型与第二数据类型之间的一致性，且如果两个数据类型一致D取非零值，较佳地，可以取1，如果不一致D取0。

由上式可以清楚的得知，针对每个数据集而言，其第一数据文件大小和第二数据文件大小越接近、第一数据量大小和第二数据量大小越接近、第一数据类型和第二数据类型相一致时，对应的数据一致性影响值越高，反之亦然。

对于确定数据完整性影响值而言，如图4所示，本申请实施例中的数据完整性确定单元113具体包括：

数据项统计子单元1131，用于针对至少一个数据集中的每个数据集，统计该数据集中非空的数据项的个数；

数据完整性确定子单元1132，用于基于统计的数据项的非空占比，确定该数据集的数据完整性影响值，并且满足：非空占比越高，该数据集的数据完整性影响值越高。

这里，首先利用数据项统计子单元1131针对至少一个数据集中的每个数据集，统计该数据集中非空的数据项的个数，然后利用数据完整性确定子单元1132基于上述统计的数据项的非空占比，确定该数据集的数据完整性影响值。

在本申请实施例中的数据集以数据表的形式存在时，该数据表由各个数据项组成，数据项可以指一个数据条目(根据数据表的形式不同，可以为一个数据行或者一个数据列)，也可以指由行列信息确定的一个数据元素。本申请实施例即是在确定非空的数据项占所有数据项的比例后，确定数据完整性的影响值。

针对数据项指数据条目的情况，如下式所示：

其中，ω₂用于表征数据集的数据完整性影响值，a_i用于表征第i个数据条目(如第i行或第i列)是否为空值，如果数据条目全部或部分数据元素为空时，认为取0，如果数据条目全部数据元素为非空时，则认为取非零值；N₁用于表征所有数据条目的个数。

针对数据项指数据元素的情况，如下式所示：

其中，ω₂用于表征数据集的数据完整性影响值，a_ij用于表征第i行、第j列对应的数据元素是否为空值，如果是空值则取0，非空值则取非零值，较佳地，可以取1；N₁'用于表征所有数据元素的个数。

由上式可以清楚的得知，针对每个数据集而言，其非空占比越高时，对应的数据完整性影响值越高，反之亦然。

对于确定数据冗余度影响值而言，如图5所示，本申请实施例中的数据冗余度确定单元114具体包括：

数据条目统计子单元1141，用于针对至少一个数据集中的每个数据集，统计该数据集数据条目中的重复条目数；

数据冗余度确定子单元1142，用于基于该数据集所包含的重复条目占比，确定该数据集的数据冗余度影响值，并且满足：统计的重复条目越少，该数据集的数据冗余度影响值越高。

这里，首先利用数据条目统计子单元1141针对至少一个数据集中的每个数据集，统计该数据集数据条目中的重复条目数，然后利用数据冗余度确定子单元1142基于上述重复条目数确定该数据集的数据冗余度影响值。

考虑到数据集在数据表中进行存储时，通常是以数据条目的形式来存储，也即，会将一些比较相关的数据存储在一个数据条目中，便于后续查找等操作。本申请可以基于数据条目中的重复条目数占所有数据条目的比例来确定数据集的数据冗余度影响值。如下式所示：

其中，ω₃用于表征数据集的数据冗余度影响值，b_i用于表征某条数据条目出现的次数，N2用于表征所有数据条目的总数。

由上式可以清楚的得知，针对每个数据集而言，其统计的重复条目越少时，对应的数据冗余度影响值越高，反之亦然。

对于确定数据时效性影响值而言，如图6所示，本申请实施例中的数据时效性确定单元115具体包括：

数据时间确定子单元1151，用于针对至少一个数据集中的每个数据集，确定该数据集的终止记录时间、起始记录时间和当前评估时间；

数据时效性确定子单元1152，用于基于确定的终止记录时间和起始记录时间之间所跨越的时间区间，以及起始记录时间和当前评估时间之间的时间差，确定该数据集的数据时效性影响值，并且满足：时间区间跨度越大，该数据集的数据时效性影响值越高；以及时间差越小，该数据集的数据时效性影响值越高。

这里，首先利用数据时间确定子单元1151针对至少一个数据集中的每个数据集，统计该数据集的终止记录时间、起始记录时间和当前评估时间，然后利用数据时效性确定子单元1152基于上述终止记录时间、起始记录时间和当前评估时间确定该数据集的数据时效性影响值。

考虑到数据的产生是需要一个过程的，数据的增删等操作均会对数据带来影响，不管是企业提供的数据，还是原始数据库中读取出的数据，均会对应一个起始记录时间以及一个终止记录时间，且起始记录时间用于说明数据从该时刻开始记录，而终止记录时间用于说明数据不再发生增删等操作，也即从该时刻记录停止。除此之外，数据是否是最新的则会直接影响数据的价值评估。因此，在本申请实施例中，主要是由终止记录时间和起始记录时间之间所跨越的时间区间，以及起始记录时间和当前评估时间之间的时间差来确定数据集的数据时效性影响值。如下式所示：

其中，ω₄用于表征数据集的数据时效性影响值，T_f,T_s,T_n分别用于表征数据集的终止记录时间、起始记录时间和当前评估时间。

由上式可以清楚的得知，针对每个数据集而言，终止记录时间和起始记录时间之间所跨越的时间区间跨度越大，对应的数据时效性影响值越高，起始记录时间和当前评估时间之间的时间差越小，对应的数据时效性影响值越高。

如图7所示，本申请实施例所提供的数据价值评估系统中的价值评估模块22包括权重确定单元221、影响值计算单元222和价值评估单元223；其中：

权重确定单元221，用于基于预设算法，确定参与价值评估分析的数据价值影响值的权重，其中，参与价值评估分析的数据价值影响值包括：数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值中的至少一种；

影响值计算单元222，用于针对至少一个数据集中的每个数据集，基于确定的权重以及各权重对应的数据价值影响值，计算该数据集的数据价值影响值；

价值评估单元223，用于根据至少一个数据集重置成本和数据价值影响值，确定数据的价值评估值。

这里，本申请实施例中，利用数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值中的至少一种进行数据价值影响值计算时，需要先基于预设算法对参与价值评估分析的数据价值影响值进行权重确定，然后基于确定的权重以及各权重对应的数据价值影响值，计算该数据集的数据价值影响值，最后再根据至少一个数据集重置成本和数据价值影响度，确定数据的价值评估值。

其中，上述预设算法可以是最小二乘法，还可以是层次分析法，还可以是其他算法。考虑到层次分析法作为一种系统性的分析方法，简单实用，本申请实施例可以选用层次分析法确定参与价值评估的信息的权重。以生产成本信息、第一价值信息和第二价值信息均用于评估数据的价值为例，上述层次分析法在本申请实施例中的具体应用方法如下：

首先，建立低阶层次结构，也即，将与决策总是有关的元素分解成目标、准则、方案等层次，在本申请实施例中，可以将数据集的数据价值影响值作为目标层A，将上述数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值等指标作为准则层B，将能够进行价值评估分析的方案作为方案层P；

其次，构造两两比较判断矩阵，也即，对上述三个指标进行两两比较之后，然后按9分位比率排定各评价指标的相对优劣顺序，依次构造出评价指标的判断矩阵A；

最后，利用几何平均法计算判断矩阵A的权重，将该权重依次赋值给数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值，即可得到与上述参与价值评估分析的数据价值影响值的权重。

考虑到上述利用权重策略计算得到的数据价值影响值、重置成本、以及数据价值影响值系数会对重置成本带来影响。在本申请实施例中，针对至少一个数据集中的每个数据集，可以首先基于该数据集的数据价值影响值系数、数据价值影响值、重置成本，确定对该数据集的重置成本的调整值，然后再根据该数据集的重置成本和调整值，确定该数据集的价值评估值，最后根据至少一个数据集的价值评估值确定数据的价值评估值。如下式所示：

其中，P用于表征数据的价值评估值，n用于表征数据集的个数，C_i用于表征第i个数据集的重置成本，Q_i用于表征利用权重策略计算得到的第i个数据集的数据价值影响值，w用于表征数据价值影响值系数。

本申请实施例中，如图7所示，可以通过影响值系数确定单元224来确定数据价值影响值系数，该数据价值影响值系数是基于历史数据的相关信息(如属相同领域或具有相似应用场景的相似数据的交易价格、数据成本和数据价值影响值)来确定的，如下式所示：

其中，

用于表征与数据属相同领域或具有相似应用场景的相似数据的交易价格，

用于表征与数据属相同领域或具有相似应用场景的相似数据的数据成本，用于表征与数据属相同领域或具有相似应用场景的相似数据的重置成本。

进一步地，可以采用如下方法确定相似数据：

所述数据获取模块11，还用于：从预设平台爬取多个数据集；

所述系统，还包括：相似数据确定单元；

所述相似数据确定单元，用于分别对待评估数据及爬取的多个数据集进行解析，确定出待评估数据及各爬取数据集的词汇特征；将待评估数据的词汇特征分别与各爬取数据集的词汇特征进行文本相似度匹配；将文本相似度达到预设相似度阈值的数据集确定为待评估数据的相似数据；

或者，用于确定待评估数据及各爬取数据集的属性标签信息；分别确定待评估数据的属性标签信息与各爬取数据集的属性标签信息相似度；将属性标签相似度满足预设属性相似度阈值的数据集，确定为待评估数据的相似数据。

值得说明的是，上述与数据属相同领域或具有相似应用场景的相似数据的重置成本与本申请实施例中数据的重置成本的确定方法类似，见上述相关内容描述，在此不在赘述。

基于同一发明构思，本申请实施例中还提供了与数据价值评估系统对应的数据价值评估方法，由于本申请实施例中的方法解决问题的原理与本申请实施例上述数据价值评估系统相似，因此方法的实施可以参见系统的实施，重复之处不再赘述。如图8所示，为本申请实施例所提供的数据价值评估方法的流程图，该数据价值评估方法的执行主体可以是计算机设备，该方法包括：

S101、获取企业提供的数据包含的至少一个数据集的重置成本、以及确定该至少一个数据集的数据价值影响值；

S102、根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值。

在一种实施方式中，上述获取企业提供的数据包含的至少一个数据集的重置成本，包括：

针对至少一个数据集中的每个数据集，获取生成该数据集的直接成本、间接成本以及其他成本；

基于获取的直接成本、间接成本以及其他成本，确定该数据集的重置成本。

在另一种实施方式中，数据价值影响值包括数据一致性影响值，上述确定该至少一个数据集的数据价值影响值，包括：

针对至少一个数据集中的每个数据集，获取该数据集所包含的数据内容和该数据集对应的描述信息；

确定数据内容与描述信息中对应描述的一致性程度；并基于一致性程度确定该数据集的数据一致性影响值，且一致性程度越高，该数据集的数据一致性影响值越高。

在具体实施中，上述获取该数据集所包含的数据内容和该数据集对应的描述信息具体包括：

针对每个数据集，确定该数据集对应数据文件的第一数据文件大小、以及该数据集对应的描述信息中描述的该数据集对应数据文件的第二数据文件大小；和/或，该数据集的第一数据量大小、以及描述信息中描述的该数据集对应的第二数据量大小；和/或，该数据集所包含数据的第一数据类型、以及描述信息中描述的该数据集的第二数据类型；

上述确定数据内容与描述信息中对应描述的一致性程度具体包括：

基于如下一种或多种一致性确定该数据集的数据一致性影响值：

第一数据文件大小和第二数据文件大小之间的一致性；

第一数据量大小和第二数据量大小之间的一致性；

第一数据类型和第二数据类型之间的一致性；

在又一种实施方式中，数据价值影响值包括数据完整性影响值，上述确定该至少一个数据集的数据价值影响值，包括：

针对至少一个数据集中的每个数据集，统计该数据集中非空的数据项的个数；

基于统计的数据项的非空占比，确定该数据集的数据完整性影响值，并且满足：非空占比越高，该数据集的数据完整性影响值越高。

在再一种实施方式中，数据价值影响值包括数据冗余度影响值，上述确定该至少一个数据集的数据价值影响值，包括：

针对至少一个数据集中的每个数据集，统计该数据集数据条目中的重复条目数；

基于该数据集所包含的重复条目占比，确定该数据集的数据冗余度影响值，并且满足：统计的重复条目越少，该数据集的数据冗余度影响值越高。

在再一种实施方式中，数据价值影响值包括数据时效性影响值，上述确定该至少一个数据集的数据价值影响值，包括：

针对至少一个数据集中的每个数据集，确定该数据集的终止记录时间、起始记录时间和当前评估时间；

基于确定的终止记录时间和起始记录时间之间所跨越的时间区间，以及起始记录时间和当前评估时间之间的时间差，确定该数据集的数据时效性影响值，并且满足：时间区间跨度越大，该数据集的数据时效性影响值越高；以及时间差越小，该数据集的数据时效性影响值越高。

在再一种实施方式中，上述根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值，包括：

基于预设算法，确定参与价值评估分析的数据价值影响值的权重，其中，参与价值评估分析的数据价值影响值包括：数据一致性影响值、数据完整性影响值、数据冗余度影响值和数据时效性影响值中的至少一种；

针对至少一个数据集中的每个数据集，基于确定的权重以及各权重对应的数据价值影响值，计算该数据集的数据价值影响值；

根据至少一个数据集重置成本和数据价值影响度，确定数据的价值评估值。

在具体实施中，在确定数据的价值评估值之前，还包括：

获取与数据属相同领域或具有相似应用场景的相似数据的交易价格、数据成本和数据价值影响值；基于获取的交易价格、数据成本和数据价值影响值，确定数据价值影响值系数；

上述确定数据的价值评估值，具体包括：

针对至少一个数据集中的每个数据集，根据该数据集的数据价值影响值系数、数据价值影响值、重置成本，确定对该数据集的重置成本的调整值；根据该数据集的重置成本和调整值，确定该数据集的价值评估值；以及根据至少一个数据集的价值评估值确定数据的价值评估值。

如图9所示，为本申请实施例所提供的计算机设备的结构示意图，该计算机设备包括：处理器1000、存储器2000和总线3000，存储器2000存储执行指令，当计算机设备运行时，处理器1000与存储器2000之间通过总线3000通信，处理器1000执行存储器2000中存储的如下执行指令：

根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值。

在一种实施方式中，上述处理器1000执行的处理中，获取企业提供的数据包含的至少一个数据集的重置成本，包括：

在另一种实施方式中，数据价值影响值包括数据一致性影响值，上述处理器1000执行的处理中，确定该至少一个数据集的数据价值影响值，包括：

在具体实施中，上述处理器1000执行的处理中，获取该数据集所包含的数据内容和该数据集对应的描述信息具体包括：

上述处理器1000执行的处理中，确定数据内容与描述信息中对应描述的一致性程度具体包括：

第一数据文件大小和第二数据文件大小之间的一致性；

第一数据量大小和第二数据量大小之间的一致性；

第一数据类型和第二数据类型之间的一致性；

在又一种实施方式中，数据价值影响值包括数据完整性影响值，上述处理器1000执行的处理中，确定该至少一个数据集的数据价值影响值，包括：

在再一种实施方式中，数据价值影响值包括数据冗余度影响值，上述处理器1000执行的处理中，确定该至少一个数据集的数据价值影响值，包括：

在再一种实施方式中，数据价值影响值包括数据时效性影响值，上述处理器1000执行的处理中，确定该至少一个数据集的数据价值影响值，包括：

在再一种实施方式中，上述处理器1000执行的处理中，根据该至少一个数据集的重置成本和数据价值影响值，确定数据的价值评估值，包括：

在具体实施中，上述处理器1000执行的处理中，在确定数据的价值评估值之前，还包括：

上述处理器1000执行的处理中，确定数据的价值评估值，具体包括：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器1000运行时执行上述数据价值评估方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述数据价值评估方法，从而解决相关数据价值评估方法评估不准确的问题，用以对数据价值进行准确评估。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据价值评估系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述数据获取模块包括重置成本获取单元；

所述重置成本获取单元用于：

3.根据权利要求1所述的系统，其特征在于，所述数据价值影响值包括数据一致性影响值，所述数据获取模块包括数据一致性确定单元；所述数据一致性确定单元包括：

4.根据权利要求3所述的系统，其特征在于，所述数据一致性获取子单元，具体用于针对每个数据集，确定该数据集对应数据文件的第一数据文件大小、以及该数据集对应的描述信息中描述的该数据集对应数据文件的第二数据文件大小；和/或，该数据集的第一数据量大小、以及所述描述信息中描述的该数据集对应的第二数据量大小；和/或，该数据集所包含数据的第一数据类型、以及所述描述信息中描述的该数据集的第二数据类型；

所述第一数据量大小和所述第二数据量大小之间的一致性；

所述第一数据类型和所述第二数据类型之间的一致性；

5.根据权利要求1所述的系统，其特征在于，所述数据价值影响值包括数据完整性影响值，所述数据获取模块包括数据完整性确定单元；所述数据完整性确定单元包括：

6.根据权利要求1所述的系统，其特征在于，所述数据价值影响值包括数据冗余度影响值，所述数据获取模块包括数据冗余度确定单元；所述数据冗余度确定单元包括：

7.根据权利要求1所述的系统，其特征在于，所述数据价值影响值包括数据时效性影响值，所述数据获取模块包括数据时效性确定单元；所述数据时效性确定单元包括：

8.根据权利要求1所述的系统，其特征在于，所述价值评估模块包括：

9.根据权利要求8所述的系统，其特征在于，所述价值评估模块还包括：

10.一种数据价值评估方法，其特征在于，包括：