CN110070304A

CN110070304A - 一种大数据资产质量评估方法

Info

Publication number: CN110070304A
Application number: CN201910366031.1A
Authority: CN
Inventors: 杨忠勋
Original assignee: Shenzhen Supercomputer Technology Development Co Ltd
Current assignee: Shenzhen Qianshu Technology Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-30
Anticipated expiration: 2039-04-30
Also published as: CN110070304B

Abstract

本发明根据行业业务特点划分数据场景，确定数据场景信息因子，然后定义数据配置基线用于判断数据样本有效性，然后计算各数据场景有效数据规模及有效数据比例系数，并利用场景信息因子加权计算数据有效指数，再根据有效数据比例系数计算数据多样性指数，最后将数据有效指数和多样性指数进行综合计算得到数据质量指数。本发明技术方案从数据有效性和数据多样性两个主要维度综合评估数据质量指数，提供了相对完整的数据质量评估方法，从宏观到微观均采用了相对通用的方法框架和灵活的处理策略，具有良好的应用扩展性，可以满足不同行业数据质量评估的方案需求。本方案具可操作性较强，工程实践价值高。

Description

一种大数据资产质量评估方法

技术领域

本发明涉及资产评估技术领域，特别涉及一种大数据资产质量评估方法。

背景技术

在各行各业的企业长期运营过程中积累了大量数据，比如环境数据、设备数据、监控数据、传感器数据、财务报表数据、消费类数据等等，这些数据不仅可以为公司运营提供决策依据，而且可以作为用于企业估值的无形资产重要组成部分。在大数据和人工智能时代，在一定意义上大数据比人工智能算法更重要，因此，数据资产和数据质量对企业当前和未来的价值有重要的影响。

基于以上考虑，近年来业界展开了数据资产及质量评估的相关研究，由于不同行业的数据内容和数据形式等方面存在较大差异，对数据资产质量等评估方法带来一定困难，因此该课题当前尚处于研究阶段。同时，数据评估相关的专利方面，在可操作性和方法通用性等方面还存在一定的改进空间，比如CN108805422A(一种数据评估模型训练系统、数据评估平台和方法)，该专利主要提出了基于行业知识图谱确定评估指标，可以采用自动方式和人工方式构建知识图谱，而并未说明如何利用知识图谱的数据质量评估方法。再如CN106845846A(大数据资产评估方法)，该方案在数据场景多样性方面未体现评估处理方式，而数据多样性也是数据质量的重要组成部分，同时，数据样本的性能参数也对数据质量有直接的影响，该方法未体现这一点。

发明内容

本发明的主要目的是提出一种大数据资产质量评估方法，旨在用于不同行业和不同类型(比如离散数据、序列数据)的数据资产质量评估，具有通用灵活、操作性强等技术特点，具有良好的工程实践意义。

为实现上述目的，本发明提出的一种大数据资产质量评估方法，其特征在于，包括以下步骤：

步骤S1：数据场景划分，根据行业的业务特点或通用规则，将大数据划分成若干个数据场景，记为CaseSetBL＝{C₁,C₂,C₃,…C_N},N表示数据场景总数；

步骤S2：场景信息因子定义，定义各数据场景的信息因子，记为CaseFactorSet＝{θ₁,θ₂,θ₃,…θ_N}，所述场景信息因子设置为数据场景在业务运行过程中发生概率及获取难度的综合系数；

步骤S3：数据基线配置定义，包括：定义数据源基线配置和定义数据性能基线配置；

步骤S4：数据有效指数计算：计算各数据场景有效数据规模及有效数据比例系数，通过有效数据比例系数和场景信息因子加权计算数据有效指数；

步骤S5：数据多样性指数计算：通过有效数据比例系数计算数据多样性指数；

步骤S6：数据质量指数计算：将所述数据有效指数和数据多样性指数进行综合计算得到数据质量指数。

进一步地：步骤S3中：

a、定义数据源基线配置具体包括：

a.1、定义数据源基础配置：

对于多源数据，该配置定义有效数据所需要满足的基本数据信息类型，记为DataItemSetBL＝{I₁,I₂,…I_D}，该集合中的数据源称为基础数据源。

a.2、定义子场景数据源配置：

为每个数据场景n定义该场景下额外需要的数据源(如果有的话，需要根据业务特点判断各数据场景需要配置子场景数据源)DataItemSet_n，该集合中的数据源称为场景n的子场景数据源，且：

DataItemSetBL∩DataItemSet_n＝空集合

b、定义数据性能基线配置具体包括：

b.1、定义数据性能基础配置：

不同类型的数据具有不同的性能基线配置，设DataItemSetBL中第d项数据源的性能基础配置记为d＝1,2,…D，P_d表示该数据源的数据性能基础配置要求个数；

b.2、定义子场景数据性能配置：

对于每个子场景n，定义其子场景数据源的性能配置，记为：DataPerfSetSub_n,m，这里，DataPerfSetSub_n,m表示第n个子场景的第m个子场景数据源的性能配置。

进一步地：步骤S4具体包括：

a、数据样本划分：根据业务特点定义数据样本的规格，根据数据样本的规格，将各数据场景分别划分为若干个数据样本，总样本数记为K；

b、数据源基础配置评估：对于每个数据样本i，处理如下：

根据数据样本所包含的数据源集合DataItemSet和数据源基础配置DataItemSetBL计算数据源因子

如果则

否则：

其中，δ为数据源配置门限，取值0到1之间；

c、数据性能基础配置评估

对于每个数据样本，处理如下：

先根据DataPerfSetBL^(d)，d＝1,2,…D，判断每个基础数据源是否满足数据性能基础配置，得到计算第d个基础数据源满足性能基础配置要求的个数，记为X_d；

计算所有基础数据源满足数据性能基础配置要求的总个数：

计算所有基础数据源的性能配置要求总数：

计算数据性能基础因子(Base Data Perfirnance Factor)：

如果(表示数据源不能满足性能基础配置的所有要求)

否则

其中，

ρ为数据基础性能因子门限，取值0到1之间的效数；1.2为基础数据性能因子门限最大保护值，可配置；

判断每个性能相对基础性能的满足程度高低：

假设中的某条性能要求与实际性能不一致，可以在的基础上再乘以对应的性能补偿系数μ：

μ的取值范围在(0,2.0)，2.0为补偿系数的最大保护值，可配置；

每条性能的补偿系数μ取决于该条数据性能的对业务重要程度高低；

d、样本场景分类：

对于满足数据源基础配置和数据性能基础配置的每个数据样本，根据数据场景划分，采用机器学习等方法进行场景归类，得到每种场景下的数据样本集合；假设在场景分类后，每个子场景的样本个数为{K₁,K₂,…K_N}，而对于无法分类的样本，不做为数据质量评估的样本；

e、子场景数据源和数据性能修正：

对每个场景分类后的样本，按照子场景数据源配置进一步评估，得到则子场景数据源修正后的数据源因子为：

对每个场景分类后的样本，按照子场景数据性能配置进一步评估，得到则子场景数据性能修正后的数据性能因子为：

f、数据有效规模估计：

计算每个子场景的有效数据规模：

首先初始化每个场景的数据有效规模：

V_n＝0，n＝,1,2,..N

对于每个样本i，如果它属于子场景n，则：

V_n＝V_n+DSF_i*DPF_i

g：数据有效指数估计：

对于待评估数据的所有数据场景，根据有效数据规模和数据场景信息因子，综合计算出数据有效指数VI(Validity Index)：

首先，判断子场景数据是否纳入数据有效指数估计：

如果V_n小于门限Thd_VI，则：

子场景n不纳入数据有效指数计算，将V_n置为0；

其中：

门限Thd_VI可以取绝对值门限，也可以取相对值门限：

对于绝对值门限：

可以将Thd_VI设置为若干条有效数据规模；

对于相对门限：

可以设置为各子场景有效数据规模最大值的一定比例：

Thd_VI＝σ*max(V₁,V₂,…V_N)

σ表示可配置门限比例系数，取值为0到1之间的小数；

然后，计算参与计算的子场景有效数据比例系数γ_n

最后，将各子场景有效数据规模和数据场景信息因子加权得到有效数据指数：

θ_n为第n个子场景的数据场景信息因子。

进一步地：步骤S5中，数据多样性指数记为DI(Diversity Index)：

根据各场景有效数据比例系数γ_n，通过线性运算计算数据多样性指数DI：

或者采用其他非线性计算方法：

DI＝z(γ₁,γ₂,…γ_N)。

进一步地：步骤S6中，数据质量指数记为DQI(Data Quality Index)：

DQI＝g(VI,DI)

其中，计算函数g可以采用线性加权方式：

DQI＝ω₁*VI+ω₂*DI

ω₁和ω₂为数据质量加权系数，典型配置为ω₁＝0.8，ω₂＝0.2。

与现有技术相比，本发明的有益效果是：本发明方案从数据有效性和数据多样性两个主要维度综合评估数据质量指数，提供了相对完整的数据资产质量评估方法，从宏观到微观均采用了相对通用的方法框架和灵活的处理策略，具有良好的应用扩展性，可以满足不同行业数据质量评估的方案需求。本方案具可操作性较强，工程实践价值高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明数据资产质量评估方法流程图；

图2为本发明步骤S4的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当说明的是，本发明方案通过数据有效指数和多样性指数两个主要维度综合评估：有效指数用于衡量满足数据配置基线(包括数据源基线配置和数据性能基线配置两种配置)要求的程度，多样性用于衡量数据场景的丰富程度。

数据有效指数根据数据场景、有效数据规模比例和场景信息因子来综合评估，其中数据场景是根据业务领域需求来划分，比如根据数据采集的客观环境条件划分(根据天气、地理条件、工作条件等多维度划分出数据场景)，有效数据规模比例是满足基线配置条件的数据比例，场景信息因子用于数据场景在业务运行过程中发生概率及获取难度的综合系数，比如对于视频采集，由于大雪天气出现概率低，数据获取相对难度大，则在大雪天气采集道路视频数据信息因子高于正常天气。数据多样性指数采用数据所包含的场景数量来衡量。

为了量化评估数据有效性，将数据切分成数据样本来计算有效数据规模，比如，对于有时间的属性数据，一个样本定义为一段特定时间内的数据(比如视频数据以30分钟为单位作为一个数据样本)，对于无时间属性数据，可以原始文件为单位作为一个样本(比如图像数据，一幅图像即为一个数据样本)。

数据规模是指当前待评估的总样本数，有效数据规模是满足数据配置基线(包括数据源配置和数据性能配置两方面)的总样本数。

因此，在评估数据规模之前，需要先根据不同行业的数据特点定义数据配置基线，数据配置基线包括数据源基础配置(数据所需包含的信息项目)和数据性能基础配置(包括数据完整性、信息采样率、精度等)、子场景数据源配置、子场景性能配置。如果待评估数据样本满足数据配置基线，则统计在有效数据规模中。

具体地：

a、定义数据源基线配置具体包括：

a.1、定义数据源基础配置：

对于多源数据，该配置定义有效数据所需要满足的基本数据信息类型，记为DataItemSetBL＝{I₁,I₂,…I_D}，该集合中的数据源称为基础数据源。比如环境数据需要包含的数据源集合为{天气、温度、湿度、PM2.5}；

a.2、定义子场景数据源配置：

为每个数据场景n定义该场景下额外需要的数据源(如果有的话)DataItemSet_m，该集合中的数据源称为场景n的子场景数据源，且：

DataItemSetBL∩DataItemSet_n＝空集合

b、定义数据性能基线配置具体包括：

b.1、定义数据性能基础配置：

不同类型的数据具有不同的性能基线配置，假设第d项数据源的性能基础配置记为d＝1,2,…D，P_d表示该项数据源的数据性能基础配置要求个数；

比如对于连续数据以视频为例，需要定义视频帧率和视频分辨率等方面的数据性能要求，对于离散信息如图片，需要定义图片分辨率等数据性能要求。

b.2、定义子场景数据性能配置：

对于每个子场景n，定义该其子场景数据源的性能配置，记为：DataPerfSetSub_n,m，这里，DataPerfSetSub_n,m表示第n个子场景的第m个子场景数据源的性能配置。

步骤S4具体包括：

比如对于视频数据，以15分钟为粒度将原始视频数据划分为一个个视频样本数据，以便统计与处理。

b、数据源基础配置评估：对于每个数据样本i，处理如下：

如果则

否则：

其中，δ为数据源配置门限，取值0到1之间，典型值可以取0.9；

c、数据性能基础配置评估

对于每个数据样本，处理如下：

先根据DataPerfSetBL^(d)，d＝1,2,…D，判断每个基础数据源是否满足数据性能配置，计算得到第d数据源满足性能基础配置要求的个数，记为X_d；

计算所有基础数据源满足性能配置要求的总个数：

计算所有基础数据源所需满足的性能配置要求总数：

计算数据性能基础因子(Base Data Performance Factor)：

如果(表示基础数据源不能满足性能配置的所有要求)

否则

其中，

判断每个性能相对基础性能的满足程度高低：

假设中的某条性能要求为{信号采样率：1Kz}，而实际的信号采样率为2KHz，可以在的基础上再乘以对应的性能补偿系数μ：

μ的取值范围在(0,2.0)，2.0为补偿系数的最大保护值，可配置。

每条性能的补偿系数μ可能不同，取决于该条数据性能对业务的重要程度高低。

本步骤可以增加更多的处理逻辑，去除认为无效的数据样本，比如判断数据丢失率、数据重复性，判断是否计算在有效数据规模中，具体细节处理为现有技术，不再进一步描述。

d、样本场景分类：

对于满足数据源基础配置和数据性能基础配置的每个数据样本，根据数据场景划分，采用机器学习等方法进行场景归类，得到每种场景下的数据样本集合；假设在场景分类后，每个子场景的样本个数为{K₁,K₂,…K_N}，而对于无法分类的样本，不做为数据质量评估的样本；机器学习分类方法不是本专利的重点，对分类方法不做进一步说明。

e、子场景数据源和数据性能修正：

对每个场景分类后的样本，采用类似步骤b的方法，按照子场景数据源配置进一步评估，得到则子场景数据源修正后的数据源因子为：

对每个场景分类后的样本，采用类似步骤c的方法，按照子场景数据性能配置进一步评估，得到则子场景数据性能修正后的数据性能因子为：

f、数据有效规模估计：

计算每个子场景的有效数据规模：

首先初始化每个场景的数据有效规模：

V_n＝0，n＝,1,2,..N

对于每个样本i，如果它属于子场景n，则：

V_n＝V_n+DSF_i*DPF_i

g：数据有效指数估计：

首先，判断子场景数据是否纳入数据有效指数估计：

如果V_n小于门限Thd_VI，则：

子场景n不纳入数据有效指数计算，将V_n置为0；

其中：

门限Thd_VI可以取绝对值门限，也可以取相对值门限：

对于绝对值门限：

可以将Thd_VI设置为若干条有效数据规模，比如10000，具体可根据情况配置；

对于相对门限：

可以设置为各子场景有效数据规模最大值的一定比例：

Thd_VI＝σ*max(V₁,V₂,…V_N)

σ表示可配置门限比例系数，取值为0到1之间的小数，如0.01；

然后，计算参与计算的子场景有效数据比例系数γ_n

θ_n为第n个子场景的数据场景信息因子。

步骤S5中，数据多样性指数记为DI：

或者采用其他非线性计算方法：

DI＝z(γ₁,γ₂,…γ_N)。

步骤S6中，数据质量指数记为DQI：

DQI＝g(VI,DI)

其中，计算函数g可以采用线性加权方式：

DQI＝ω₁*VI+ω₂*DI

本发明方案：

1、从数据有效性和数据多样性两个维度综合评估数据质量：

在数据有效性评估时，先划分数据场景，再定义数据场景的信息因子，定义数据样本有效性判断的数据配置基线，根据数据配置基线和数据场景信息因子计算数据有效指数。然后，在数据有效性计算的基础上，计算数据多样性指数。最后通过有效指数和多样性指数综合计算出数据质量指数；

2、数据样本有效性以数据源基础配置、数据性能基础配置、子场景数据源配置(需要根据业务特点判断各数据场景需要配置子场景数据源)、子场景数据性能配置作为判断依据；

3、数据有效性指数通过数据场景信息因子对各场景有效数据比例系数加权得到。在计算数据有效性指数前，可以根据相对或绝对门限判断各子场景数据样本是否纳入数据有效性指数计算。

4、数据多样性指数通过将各场景有效数据比例系数线性累加或非线性计算得到。

5、数据质量指数通过数据有效指数和数据多样性指数的线性加权或非线性计算得到。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种大数据资产质量评估方法，其特征在于，包括以下步骤：

步骤S1：数据场景划分，根据行业的业务特点或通用规则，将大数据划分成若干个数据场景，记为CaseSetBL＝{C₁，C₂，C₃，...C_N}，N表示数据场景总数；

步骤S2：场景信息因子定义，定义各数据场景的信息因子，记为CaseFactorSet＝{θ₁，θ₂，θ₃，...θ_N}，所述场景信息因子设置为数据场景在业务运行过程中发生概率及获取难度的综合系数；

2.如权利要求1所述的大数据资产质量评估方法，其特征在于，步骤S3中：

a、定义数据源基线配置具体包括：

a.1、定义数据源基础配置：

对于多源数据，该配置定义有效数据所需要满足的基本数据信息类型，记为DataItemSetBL＝{I₁，I₂，...I_D}，该集合中的数据源称为基础数据源；

a.2、定义子场景数据源配置：

DataItemSetBL∩DataItemSet_n＝空集合

b、定义数据性能基线配置具体包括：

b.1、定义数据性能基础配置：

不同类型的数据具有不同的性能基线配置，设DataItemSetBL中第d项数据源的性能基础配置记为d＝1，2，...D，P_d表示该数据源的数据性能基础配置要求个数；

b.2、定义子场景数据性能配置：

对于每个子场景n，定义其子场景数据源的性能配置，记为：DataPerfSetSub_n，m，这里，DataPerfSetSub_n，m表示第n个子场景第m个数据源的性能配置。

3.如权利要求2所述的大数据资产质量评估方法，其特征在于，步骤S4具体包括：

b、数据源基础配置评估：对于每个数据样本i，处理如下：

根据数据样本所包含的数据源集合DataItemSet和数据源基础配置DataItemSetBL计算数据源基础因子

如果则

否则：

其中，δ为数据源配置门限，取值0到1之间；

c、数据性能基础配置评估

对于每个数据样本，处理如下：

先根据DataPerfSetBL^(d)，d＝1，2，...D，判断每个基础数据源是否满足数据性能基础配置，得到计算第d个基础数据源满足性能基础配置要求的个数，记为X_d；

计算所有基础数据源满足数据性能基础配置要求的总个数：

计算所有基础数据源的性能配置要求总数：

计算数据性能基础因子

如果(表示数据源不能满足性能基线配置的所有要求)

否则

其中，

判断每个性能相对基础性能的满足程度高低：

若中的某条性能要求与实际性能不一致，可以在的基础上再乘以对应的性能补偿系数μ：

μ的取值范围在(0，2.0)，2.0为补偿系数的最大保护值，可配置；

每条性能的补偿系数μ取决于该条数据性能对业务的重要程度高低；

d、样本场景分类：

对于满足数据源基础配置和数据性能基础配置的每个数据样本，根据数据场景划分，采用机器学习等方法进行场景归类，得到每种场景下的数据样本集合；假设在场景分类后，每个子场景的样本个数为{K₁，K₂，...K_N}，而对于无法分类的样本，不做为数据质量评估的样本；

e、子场景数据源和数据性能修正：

f、数据有效规模估计：

计算每个子场景的有效数据规模：

首先初始化每个场景的数据有效规模：

V_n＝0，n＝，1，2，..N

对于每个样本i，如果它属于子场景n，则：

V_n＝V_n+DSF_i*DPF_i

g：数据有效指数估计：

首先，判断子场景数据是否纳入数据有效指数估计：

如果V_n小于门限Thd_VI，则：

子场景n不纳入数据有效指数计算，将V_n置为0；

其中：

门限Thd_VI可以取绝对值门限，也可以取相对值门限：

对于绝对值门限：

可以将Thd_VI设置为若干条有效数据规模；

对于相对门限：

可以设置为各子场景有效数据规模最大值的一定比例：

Thd_VI＝σ*max(V₁，V₂，...V_N)

σ表示可配置门限比例系数，取值为0到1之间的小数；

然后，计算参与计算的子场景有效数据比例系数γ_n

θ_n为第n个子场景的数据场景信息因子。

4.如权利要求3所述的大数据资产质量评估方法，其特征在于，步骤S5中，数据多样性指数记为DI(Diversity Index)：

或者采用其他非线性计算方法：

DI＝z(γ₁，γ₂，...γ_N)。

5.如权利要求4所述的大数据资产质量评估方法，其特征在于，步骤S6中，数据质量指数记为DQI(Data Quality Index)：

DQI＝g(VI，DI)

其中，计算函数g可以采用线性加权方式：

DQI＝ω₁*VI+ω₂*DI