CN110070304A - 一种大数据资产质量评估方法 - Google Patents

一种大数据资产质量评估方法 Download PDF

Info

Publication number
CN110070304A
CN110070304A CN201910366031.1A CN201910366031A CN110070304A CN 110070304 A CN110070304 A CN 110070304A CN 201910366031 A CN201910366031 A CN 201910366031A CN 110070304 A CN110070304 A CN 110070304A
Authority
CN
China
Prior art keywords
data
scene
performance
sub
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910366031.1A
Other languages
English (en)
Other versions
CN110070304B (zh
Inventor
杨忠勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianshu Technology Co ltd
Original Assignee
Shenzhen Supercomputer Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Supercomputer Technology Development Co Ltd filed Critical Shenzhen Supercomputer Technology Development Co Ltd
Priority to CN201910366031.1A priority Critical patent/CN110070304B/zh
Publication of CN110070304A publication Critical patent/CN110070304A/zh
Application granted granted Critical
Publication of CN110070304B publication Critical patent/CN110070304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明根据行业业务特点划分数据场景,确定数据场景信息因子,然后定义数据配置基线用于判断数据样本有效性,然后计算各数据场景有效数据规模及有效数据比例系数,并利用场景信息因子加权计算数据有效指数,再根据有效数据比例系数计算数据多样性指数,最后将数据有效指数和多样性指数进行综合计算得到数据质量指数。本发明技术方案从数据有效性和数据多样性两个主要维度综合评估数据质量指数,提供了相对完整的数据质量评估方法,从宏观到微观均采用了相对通用的方法框架和灵活的处理策略,具有良好的应用扩展性,可以满足不同行业数据质量评估的方案需求。本方案具可操作性较强,工程实践价值高。

Description

一种大数据资产质量评估方法
技术领域
本发明涉及资产评估技术领域,特别涉及一种大数据资产质量评估方法。
背景技术
在各行各业的企业长期运营过程中积累了大量数据,比如环境数据、设备数据、监控数据、传感器数据、财务报表数据、消费类数据等等,这些数据不仅可以为公司运营提供决策依据,而且可以作为用于企业估值的无形资产重要组成部分。在大数据和人工智能时代,在一定意义上大数据比人工智能算法更重要,因此,数据资产和数据质量对企业当前和未来的价值有重要的影响。
基于以上考虑,近年来业界展开了数据资产及质量评估的相关研究,由于不同行业的数据内容和数据形式等方面存在较大差异,对数据资产质量等评估方法带来一定困难,因此该课题当前尚处于研究阶段。同时,数据评估相关的专利方面,在可操作性和方法通用性等方面还存在一定的改进空间,比如CN108805422A(一种数据评估模型训练系统、数据评估平台和方法),该专利主要提出了基于行业知识图谱确定评估指标,可以采用自动方式和人工方式构建知识图谱,而并未说明如何利用知识图谱的数据质量评估方法。再如CN106845846A(大数据资产评估方法),该方案在数据场景多样性方面未体现评估处理方式,而数据多样性也是数据质量的重要组成部分,同时,数据样本的性能参数也对数据质量有直接的影响,该方法未体现这一点。
发明内容
本发明的主要目的是提出一种大数据资产质量评估方法,旨在用于不同行业和不同类型(比如离散数据、序列数据)的数据资产质量评估,具有通用灵活、操作性强等技术特点,具有良好的工程实践意义。
为实现上述目的,本发明提出的一种大数据资产质量评估方法,其特征在于,包括以下步骤:
步骤S1:数据场景划分,根据行业的业务特点或通用规则,将大数据划分成若干个数据场景,记为CaseSetBL={C1,C2,C3,…CN},N表示数据场景总数;
步骤S2:场景信息因子定义,定义各数据场景的信息因子,记为CaseFactorSet={θ123,…θN},所述场景信息因子设置为数据场景在业务运行过程中发生概率及获取难度的综合系数;
步骤S3:数据基线配置定义,包括:定义数据源基线配置和定义数据性能基线配置;
步骤S4:数据有效指数计算:计算各数据场景有效数据规模及有效数据比例系数,通过有效数据比例系数和场景信息因子加权计算数据有效指数;
步骤S5:数据多样性指数计算:通过有效数据比例系数计算数据多样性指数;
步骤S6:数据质量指数计算:将所述数据有效指数和数据多样性指数进行综合计算得到数据质量指数。
进一步地:步骤S3中:
a、定义数据源基线配置具体包括:
a.1、定义数据源基础配置:
对于多源数据,该配置定义有效数据所需要满足的基本数据信息类型,记为DataItemSetBL={I1,I2,…ID},该集合中的数据源称为基础数据源。
a.2、定义子场景数据源配置:
为每个数据场景n定义该场景下额外需要的数据源(如果有的话,需要根据业务特点判断各数据场景需要配置子场景数据源)DataItemSetn,该集合中的数据源称为场景n的子场景数据源,且:
DataItemSetBL∩DataItemSetn=空集合
b、定义数据性能基线配置具体包括:
b.1、定义数据性能基础配置:
不同类型的数据具有不同的性能基线配置,设DataItemSetBL中第d项数据源的性能基础配置记为d=1,2,…D,Pd表示该数据源的数据性能基础配置要求个数;
b.2、定义子场景数据性能配置:
对于每个子场景n,定义其子场景数据源的性能配置,记为:DataPerfSetSubn,m,这里,DataPerfSetSubn,m表示第n个子场景的第m个子场景数据源的性能配置。
进一步地:步骤S4具体包括:
a、数据样本划分:根据业务特点定义数据样本的规格,根据数据样本的规格,将各数据场景分别划分为若干个数据样本,总样本数记为K;
b、数据源基础配置评估:对于每个数据样本i,处理如下:
根据数据样本所包含的数据源集合DataItemSet和数据源基础配置DataItemSetBL计算数据源因子
如果
否则:
其中,δ为数据源配置门限,取值0到1之间;
c、数据性能基础配置评估
对于每个数据样本,处理如下:
先根据DataPerfSetBL(d),d=1,2,…D,判断每个基础数据源是否满足数据性能基础配置,得到计算第d个基础数据源满足性能基础配置要求的个数,记为Xd
计算所有基础数据源满足数据性能基础配置要求的总个数:
计算所有基础数据源的性能配置要求总数:
计算数据性能基础因子(Base Data Perfirnance Factor):
如果(表示数据源不能满足性能基础配置的所有要求)
否则
其中,
ρ为数据基础性能因子门限,取值0到1之间的效数;1.2为基础数据性能因子门限最大保护值,可配置;
判断每个性能相对基础性能的满足程度高低:
假设中的某条性能要求与实际性能不一致,可以在的基础上再乘以对应的性能补偿系数μ:
μ的取值范围在(0,2.0),2.0为补偿系数的最大保护值,可配置;
每条性能的补偿系数μ取决于该条数据性能的对业务重要程度高低;
d、样本场景分类:
对于满足数据源基础配置和数据性能基础配置的每个数据样本,根据数据场景划分,采用机器学习等方法进行场景归类,得到每种场景下的数据样本集合;假设在场景分类后,每个子场景的样本个数为{K1,K2,…KN},而对于无法分类的样本,不做为数据质量评估的样本;
e、子场景数据源和数据性能修正:
对每个场景分类后的样本,按照子场景数据源配置进一步评估,得到则子场景数据源修正后的数据源因子为:
对每个场景分类后的样本,按照子场景数据性能配置进一步评估,得到则子场景数据性能修正后的数据性能因子为:
f、数据有效规模估计:
计算每个子场景的有效数据规模:
首先初始化每个场景的数据有效规模:
Vn=0,n=,1,2,..N
对于每个样本i,如果它属于子场景n,则:
Vn=Vn+DSFi*DPFi
g:数据有效指数估计:
对于待评估数据的所有数据场景,根据有效数据规模和数据场景信息因子,综合计算出数据有效指数VI(Validity Index):
首先,判断子场景数据是否纳入数据有效指数估计:
如果Vn小于门限ThdVI,则:
子场景n不纳入数据有效指数计算,将Vn置为0;
其中:
门限ThdVI可以取绝对值门限,也可以取相对值门限:
对于绝对值门限:
可以将ThdVI设置为若干条有效数据规模;
对于相对门限:
可以设置为各子场景有效数据规模最大值的一定比例:
ThdVI=σ*max(V1,V2,…VN)
σ表示可配置门限比例系数,取值为0到1之间的小数;
然后,计算参与计算的子场景有效数据比例系数γn
最后,将各子场景有效数据规模和数据场景信息因子加权得到有效数据指数:
θn为第n个子场景的数据场景信息因子。
进一步地:步骤S5中,数据多样性指数记为DI(Diversity Index):
根据各场景有效数据比例系数γn,通过线性运算计算数据多样性指数DI:
或者采用其他非线性计算方法:
DI=z(γ12,…γN)。
进一步地:步骤S6中,数据质量指数记为DQI(Data Quality Index):
DQI=g(VI,DI)
其中,计算函数g可以采用线性加权方式:
DQI=ω1*VI+ω2*DI
ω1和ω2为数据质量加权系数,典型配置为ω1=0.8,ω2=0.2。
与现有技术相比,本发明的有益效果是:本发明方案从数据有效性和数据多样性两个主要维度综合评估数据质量指数,提供了相对完整的数据资产质量评估方法,从宏观到微观均采用了相对通用的方法框架和灵活的处理策略,具有良好的应用扩展性,可以满足不同行业数据质量评估的方案需求。本方案具可操作性较强,工程实践价值高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明数据资产质量评估方法流程图;
图2为本发明步骤S4的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当说明的是,本发明方案通过数据有效指数和多样性指数两个主要维度综合评估:有效指数用于衡量满足数据配置基线(包括数据源基线配置和数据性能基线配置两种配置)要求的程度,多样性用于衡量数据场景的丰富程度。
数据有效指数根据数据场景、有效数据规模比例和场景信息因子来综合评估,其中数据场景是根据业务领域需求来划分,比如根据数据采集的客观环境条件划分(根据天气、地理条件、工作条件等多维度划分出数据场景),有效数据规模比例是满足基线配置条件的数据比例,场景信息因子用于数据场景在业务运行过程中发生概率及获取难度的综合系数,比如对于视频采集,由于大雪天气出现概率低,数据获取相对难度大,则在大雪天气采集道路视频数据信息因子高于正常天气。数据多样性指数采用数据所包含的场景数量来衡量。
为了量化评估数据有效性,将数据切分成数据样本来计算有效数据规模,比如,对于有时间的属性数据,一个样本定义为一段特定时间内的数据(比如视频数据以30分钟为单位作为一个数据样本),对于无时间属性数据,可以原始文件为单位作为一个样本(比如图像数据,一幅图像即为一个数据样本)。
数据规模是指当前待评估的总样本数,有效数据规模是满足数据配置基线(包括数据源配置和数据性能配置两方面)的总样本数。
因此,在评估数据规模之前,需要先根据不同行业的数据特点定义数据配置基线,数据配置基线包括数据源基础配置(数据所需包含的信息项目)和数据性能基础配置(包括数据完整性、信息采样率、精度等)、子场景数据源配置、子场景性能配置。如果待评估数据样本满足数据配置基线,则统计在有效数据规模中。
具体地:
步骤S1:数据场景划分,根据行业的业务特点或通用规则,将大数据划分成若干个数据场景,记为CaseSetBL={C1,C2,C3,…CN},N表示数据场景总数;
步骤S2:场景信息因子定义,定义各数据场景的信息因子,记为CaseFactorSet={θ123,…θN},所述场景信息因子设置为数据场景在业务运行过程中发生概率及获取难度的综合系数;
步骤S3:数据基线配置定义,包括:定义数据源基线配置和定义数据性能基线配置;
a、定义数据源基线配置具体包括:
a.1、定义数据源基础配置:
对于多源数据,该配置定义有效数据所需要满足的基本数据信息类型,记为DataItemSetBL={I1,I2,…ID},该集合中的数据源称为基础数据源。比如环境数据需要包含的数据源集合为{天气、温度、湿度、PM2.5};
a.2、定义子场景数据源配置:
为每个数据场景n定义该场景下额外需要的数据源(如果有的话)DataItemSetm,该集合中的数据源称为场景n的子场景数据源,且:
DataItemSetBL∩DataItemSetn=空集合
b、定义数据性能基线配置具体包括:
b.1、定义数据性能基础配置:
不同类型的数据具有不同的性能基线配置,假设第d项数据源的性能基础配置记为d=1,2,…D,Pd表示该项数据源的数据性能基础配置要求个数;
比如对于连续数据以视频为例,需要定义视频帧率和视频分辨率等方面的数据性能要求,对于离散信息如图片,需要定义图片分辨率等数据性能要求。
b.2、定义子场景数据性能配置:
对于每个子场景n,定义该其子场景数据源的性能配置,记为:DataPerfSetSubn,m,这里,DataPerfSetSubn,m表示第n个子场景的第m个子场景数据源的性能配置。
步骤S4:数据有效指数计算:计算各数据场景有效数据规模及有效数据比例系数,通过有效数据比例系数和场景信息因子加权计算数据有效指数;
步骤S4具体包括:
a、数据样本划分:根据业务特点定义数据样本的规格,根据数据样本的规格,将各数据场景分别划分为若干个数据样本,总样本数记为K;
比如对于视频数据,以15分钟为粒度将原始视频数据划分为一个个视频样本数据,以便统计与处理。
b、数据源基础配置评估:对于每个数据样本i,处理如下:
根据数据样本所包含的数据源集合DataItemSet和数据源基础配置DataItemSetBL计算数据源因子
如果
否则:
其中,δ为数据源配置门限,取值0到1之间,典型值可以取0.9;
c、数据性能基础配置评估
对于每个数据样本,处理如下:
先根据DataPerfSetBL(d),d=1,2,…D,判断每个基础数据源是否满足数据性能配置,计算得到第d数据源满足性能基础配置要求的个数,记为Xd
计算所有基础数据源满足性能配置要求的总个数:
计算所有基础数据源所需满足的性能配置要求总数:
计算数据性能基础因子(Base Data Performance Factor):
如果(表示基础数据源不能满足性能配置的所有要求)
否则
其中,
ρ为数据基础性能因子门限,取值0到1之间的效数;1.2为基础数据性能因子门限最大保护值,可配置;
判断每个性能相对基础性能的满足程度高低:
假设中的某条性能要求为{信号采样率:1Kz},而实际的信号采样率为2KHz,可以在的基础上再乘以对应的性能补偿系数μ:
μ的取值范围在(0,2.0),2.0为补偿系数的最大保护值,可配置。
每条性能的补偿系数μ可能不同,取决于该条数据性能对业务的重要程度高低。
本步骤可以增加更多的处理逻辑,去除认为无效的数据样本,比如判断数据丢失率、数据重复性,判断是否计算在有效数据规模中,具体细节处理为现有技术,不再进一步描述。
d、样本场景分类:
对于满足数据源基础配置和数据性能基础配置的每个数据样本,根据数据场景划分,采用机器学习等方法进行场景归类,得到每种场景下的数据样本集合;假设在场景分类后,每个子场景的样本个数为{K1,K2,…KN},而对于无法分类的样本,不做为数据质量评估的样本;机器学习分类方法不是本专利的重点,对分类方法不做进一步说明。
e、子场景数据源和数据性能修正:
对每个场景分类后的样本,采用类似步骤b的方法,按照子场景数据源配置进一步评估,得到则子场景数据源修正后的数据源因子为:
对每个场景分类后的样本,采用类似步骤c的方法,按照子场景数据性能配置进一步评估,得到则子场景数据性能修正后的数据性能因子为:
f、数据有效规模估计:
计算每个子场景的有效数据规模:
首先初始化每个场景的数据有效规模:
Vn=0,n=,1,2,..N
对于每个样本i,如果它属于子场景n,则:
Vn=Vn+DSFi*DPFi
g:数据有效指数估计:
对于待评估数据的所有数据场景,根据有效数据规模和数据场景信息因子,综合计算出数据有效指数VI(Validity Index):
首先,判断子场景数据是否纳入数据有效指数估计:
如果Vn小于门限ThdVI,则:
子场景n不纳入数据有效指数计算,将Vn置为0;
其中:
门限ThdVI可以取绝对值门限,也可以取相对值门限:
对于绝对值门限:
可以将ThdVI设置为若干条有效数据规模,比如10000,具体可根据情况配置;
对于相对门限:
可以设置为各子场景有效数据规模最大值的一定比例:
ThdVI=σ*max(V1,V2,…VN)
σ表示可配置门限比例系数,取值为0到1之间的小数,如0.01;
然后,计算参与计算的子场景有效数据比例系数γn
最后,将各子场景有效数据规模和数据场景信息因子加权得到有效数据指数:
θn为第n个子场景的数据场景信息因子。
步骤S5:数据多样性指数计算:通过有效数据比例系数计算数据多样性指数;
步骤S5中,数据多样性指数记为DI:
根据各场景有效数据比例系数γn,通过线性运算计算数据多样性指数DI:
或者采用其他非线性计算方法:
DI=z(γ12,…γN)。
步骤S6:数据质量指数计算:将所述数据有效指数和数据多样性指数进行综合计算得到数据质量指数。
步骤S6中,数据质量指数记为DQI:
DQI=g(VI,DI)
其中,计算函数g可以采用线性加权方式:
DQI=ω1*VI+ω2*DI
ω1和ω2为数据质量加权系数,典型配置为ω1=0.8,ω2=0.2。
本发明方案:
1、从数据有效性和数据多样性两个维度综合评估数据质量:
在数据有效性评估时,先划分数据场景,再定义数据场景的信息因子,定义数据样本有效性判断的数据配置基线,根据数据配置基线和数据场景信息因子计算数据有效指数。然后,在数据有效性计算的基础上,计算数据多样性指数。最后通过有效指数和多样性指数综合计算出数据质量指数;
2、数据样本有效性以数据源基础配置、数据性能基础配置、子场景数据源配置(需要根据业务特点判断各数据场景需要配置子场景数据源)、子场景数据性能配置作为判断依据;
3、数据有效性指数通过数据场景信息因子对各场景有效数据比例系数加权得到。在计算数据有效性指数前,可以根据相对或绝对门限判断各子场景数据样本是否纳入数据有效性指数计算。
4、数据多样性指数通过将各场景有效数据比例系数线性累加或非线性计算得到。
5、数据质量指数通过数据有效指数和数据多样性指数的线性加权或非线性计算得到。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种大数据资产质量评估方法,其特征在于,包括以下步骤:
步骤S1:数据场景划分,根据行业的业务特点或通用规则,将大数据划分成若干个数据场景,记为CaseSetBL={C1,C2,C3,...CN},N表示数据场景总数;
步骤S2:场景信息因子定义,定义各数据场景的信息因子,记为CaseFactorSet={θ1,θ2,θ3,...θN},所述场景信息因子设置为数据场景在业务运行过程中发生概率及获取难度的综合系数;
步骤S3:数据基线配置定义,包括:定义数据源基线配置和定义数据性能基线配置;
步骤S4:数据有效指数计算:计算各数据场景有效数据规模及有效数据比例系数,通过有效数据比例系数和场景信息因子加权计算数据有效指数;
步骤S5:数据多样性指数计算:通过有效数据比例系数计算数据多样性指数;
步骤S6:数据质量指数计算:将所述数据有效指数和数据多样性指数进行综合计算得到数据质量指数。
2.如权利要求1所述的大数据资产质量评估方法,其特征在于,步骤S3中:
a、定义数据源基线配置具体包括:
a.1、定义数据源基础配置:
对于多源数据,该配置定义有效数据所需要满足的基本数据信息类型,记为DataItemSetBL={I1,I2,...ID},该集合中的数据源称为基础数据源;
a.2、定义子场景数据源配置:
为每个数据场景n定义该场景下额外需要的数据源(如果有的话,需要根据业务特点判断各数据场景需要配置子场景数据源)DataItemSetn,该集合中的数据源称为场景n的子场景数据源,且:
DataItemSetBL∩DataItemSetn=空集合
b、定义数据性能基线配置具体包括:
b.1、定义数据性能基础配置:
不同类型的数据具有不同的性能基线配置,设DataItemSetBL中第d项数据源的性能基础配置记为d=1,2,...D,Pd表示该数据源的数据性能基础配置要求个数;
b.2、定义子场景数据性能配置:
对于每个子场景n,定义其子场景数据源的性能配置,记为:DataPerfSetSubn,m,这里,DataPerfSetSubn,m表示第n个子场景第m个数据源的性能配置。
3.如权利要求2所述的大数据资产质量评估方法,其特征在于,步骤S4具体包括:
a、数据样本划分:根据业务特点定义数据样本的规格,根据数据样本的规格,将各数据场景分别划分为若干个数据样本,总样本数记为K;
b、数据源基础配置评估:对于每个数据样本i,处理如下:
根据数据样本所包含的数据源集合DataItemSet和数据源基础配置DataItemSetBL计算数据源基础因子
如果
否则:
其中,δ为数据源配置门限,取值0到1之间;
c、数据性能基础配置评估
对于每个数据样本,处理如下:
先根据DataPerfSetBL(d),d=1,2,...D,判断每个基础数据源是否满足数据性能基础配置,得到计算第d个基础数据源满足性能基础配置要求的个数,记为Xd
计算所有基础数据源满足数据性能基础配置要求的总个数:
计算所有基础数据源的性能配置要求总数:
计算数据性能基础因子
如果(表示数据源不能满足性能基线配置的所有要求)
否则
其中,
ρ为数据基础性能因子门限,取值0到1之间的效数;1.2为基础数据性能因子门限最大保护值,可配置;
判断每个性能相对基础性能的满足程度高低:
中的某条性能要求与实际性能不一致,可以在的基础上再乘以对应的性能补偿系数μ:
μ的取值范围在(0,2.0),2.0为补偿系数的最大保护值,可配置;
每条性能的补偿系数μ取决于该条数据性能对业务的重要程度高低;
d、样本场景分类:
对于满足数据源基础配置和数据性能基础配置的每个数据样本,根据数据场景划分,采用机器学习等方法进行场景归类,得到每种场景下的数据样本集合;假设在场景分类后,每个子场景的样本个数为{K1,K2,...KN},而对于无法分类的样本,不做为数据质量评估的样本;
e、子场景数据源和数据性能修正:
对每个场景分类后的样本,按照子场景数据源配置进一步评估,得到则子场景数据源修正后的数据源因子为:
对每个场景分类后的样本,按照子场景数据性能配置进一步评估,得到则子场景数据性能修正后的数据性能因子为:
f、数据有效规模估计:
计算每个子场景的有效数据规模:
首先初始化每个场景的数据有效规模:
Vn=0,n=,1,2,..N
对于每个样本i,如果它属于子场景n,则:
Vn=Vn+DSFi*DPFi
g:数据有效指数估计:
对于待评估数据的所有数据场景,根据有效数据规模和数据场景信息因子,综合计算出数据有效指数VI(Validity Index):
首先,判断子场景数据是否纳入数据有效指数估计:
如果Vn小于门限ThdVI,则:
子场景n不纳入数据有效指数计算,将Vn置为0;
其中:
门限ThdVI可以取绝对值门限,也可以取相对值门限:
对于绝对值门限:
可以将ThdVI设置为若干条有效数据规模;
对于相对门限:
可以设置为各子场景有效数据规模最大值的一定比例:
ThdVI=σ*max(V1,V2,...VN)
σ表示可配置门限比例系数,取值为0到1之间的小数;
然后,计算参与计算的子场景有效数据比例系数γn
最后,将各子场景有效数据规模和数据场景信息因子加权得到有效数据指数:
θn为第n个子场景的数据场景信息因子。
4.如权利要求3所述的大数据资产质量评估方法,其特征在于,步骤S5中,数据多样性指数记为DI(Diversity Index):
根据各场景有效数据比例系数γn,通过线性运算计算数据多样性指数DI:
或者采用其他非线性计算方法:
DI=z(γ1,γ2,...γN)。
5.如权利要求4所述的大数据资产质量评估方法,其特征在于,步骤S6中,数据质量指数记为DQI(Data Quality Index):
DQI=g(VI,DI)
其中,计算函数g可以采用线性加权方式:
DQI=ω1*VI+ω2*DI
ω1和ω2为数据质量加权系数,典型配置为ω1=0.8,ω2=0.2。
CN201910366031.1A 2019-04-30 2019-04-30 一种大数据资产质量评估方法 Active CN110070304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910366031.1A CN110070304B (zh) 2019-04-30 2019-04-30 一种大数据资产质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910366031.1A CN110070304B (zh) 2019-04-30 2019-04-30 一种大数据资产质量评估方法

Publications (2)

Publication Number Publication Date
CN110070304A true CN110070304A (zh) 2019-07-30
CN110070304B CN110070304B (zh) 2023-06-27

Family

ID=67369864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910366031.1A Active CN110070304B (zh) 2019-04-30 2019-04-30 一种大数据资产质量评估方法

Country Status (1)

Country Link
CN (1) CN110070304B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111255436A (zh) * 2020-01-17 2020-06-09 成都理工大学 一种改善hdil阵列感应测井仪测量曲线质量的方法
CN113807418A (zh) * 2021-09-02 2021-12-17 乐创达投资(广东)有限公司 一种基于高斯混合模型的注塑机能耗异常检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149400A (ja) * 2003-11-19 2005-06-09 Asahi Kasei Corp 無形資産評価システム
US20060010032A1 (en) * 2003-12-05 2006-01-12 Blake Morrow Partners Llc System, method and computer program product for evaluating an asset management business using experiential data, and applications thereof
US20130151423A1 (en) * 2011-12-09 2013-06-13 Wells Fargo Bank, N.A. Valuation of data
US20140229456A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
CN108269014A (zh) * 2018-01-18 2018-07-10 安徽聚润互联信息技术有限公司 一种远程教育学生学习状况评估方法
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN108764707A (zh) * 2018-05-24 2018-11-06 国信优易数据有限公司 一种数据评估系统以及方法
US20190050259A1 (en) * 2015-11-23 2019-02-14 Hewlett-Packard Development Company, L.P. Data usage effectiveness determination
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149400A (ja) * 2003-11-19 2005-06-09 Asahi Kasei Corp 無形資産評価システム
US20060010032A1 (en) * 2003-12-05 2006-01-12 Blake Morrow Partners Llc System, method and computer program product for evaluating an asset management business using experiential data, and applications thereof
US20130151423A1 (en) * 2011-12-09 2013-06-13 Wells Fargo Bank, N.A. Valuation of data
US20140229456A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
US20190050259A1 (en) * 2015-11-23 2019-02-14 Hewlett-Packard Development Company, L.P. Data usage effectiveness determination
CN108269014A (zh) * 2018-01-18 2018-07-10 安徽聚润互联信息技术有限公司 一种远程教育学生学习状况评估方法
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN108764707A (zh) * 2018-05-24 2018-11-06 国信优易数据有限公司 一种数据评估系统以及方法
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方津;: "网管数据质量评估模型研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111255436A (zh) * 2020-01-17 2020-06-09 成都理工大学 一种改善hdil阵列感应测井仪测量曲线质量的方法
CN113807418A (zh) * 2021-09-02 2021-12-17 乐创达投资(广东)有限公司 一种基于高斯混合模型的注塑机能耗异常检测方法及系统

Also Published As

Publication number Publication date
CN110070304B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Bardossy et al. Fuzzy rule‐based classification of atmospheric circulation patterns
Newman et al. The global costs of extreme weather that are attributable to climate change
Guzzetti et al. Estimating the quality of landslide susceptibility models
CN111242493B (zh) 一种街道品质评价方法、装置、系统及存储介质
Kim An assessment of deforestation models for reducing emissions from deforestation and forest degradation (REDD)
Piantanakulchai et al. Evaluation of alternatives in transportation planning using multi-stakeholders multi-objectives AHP modeling
CN112308292A (zh) 一种火灾风险等级分布图的绘制方法
Bellotti Reliable region predictions for automated valuation models
Elbagalati et al. Development of an enhanced decision-making tool for pavement management using a neural network pattern-recognition algorithm
Herrera et al. On the projection of future fire danger conditions with various instantaneous/mean-daily data sources
CN110070304A (zh) 一种大数据资产质量评估方法
Morawietz et al. Systematic evaluation of autoregressive error models as post-processors for a probabilistic streamflow forecast system
Fu et al. Sequential logit dynamic travel demand model and its transferability
CN115619213A (zh) 一种公路交通降雨气象灾害风险评估方法、装置及设备
Frazier et al. Spatial econometric models for panel data: incorporating spatial and temporal data
Pilkington et al. Real-time application of the multihazard hurricane impact level model for the Atlantic Basin
CN112767126A (zh) 基于大数据的抵押物评级方法和装置
Heranval et al. Application of machine learning methods to predict drought cost in France
Zhu et al. Socio-Economic impact mechanism of ecosystem services value, a PCA-GWR approach
Newman et al. The global climate-change-attributed costs of extreme weather
Munir et al. Early identification model for dengue haemorrhagic fever (DHF) outbreak areas using rule-based stratification approach
Wahab et al. Risk-return performance of residential property investment in Abuja, Nigeria
Huang et al. Detecting neighborhood gentrification at scale via street-level visual data
Pontius Jr et al. Range of categorical associations for comparison of maps with mixed pixels
CN112907141A (zh) 一种压力测试方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230331

Address after: 528313 401-118, 4th Floor, Building 18, Shunlian Machinery City, No. 18, Xingye 4th Road, Guanglong Industrial Park, Chihua Neighborhood Committee, Chencun Town, Shunde District, Foshan City, Guangdong Province

Applicant after: Linker Technology (Foshan) Co.,Ltd.

Address before: 1303-1305, 13 / F, block B2, building 9, Shenzhen Bay science and technology ecological park, 1819 Shahe West Road, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: SHENZHEN COOS Co.,Ltd.

Applicant before: Yang Zhongxun

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230523

Address after: 518000 Building A, Building 1, Shenzhen International Innovation Valley, Dashi 1st Road, Xili Community, Xili Street, Nanshan District, Shenzhen City, Guangdong Province, 1001

Applicant after: Shenzhen Qianshu Technology Co.,Ltd.

Address before: 528313 401-118, 4th Floor, Building 18, Shunlian Machinery City, No. 18, Xingye 4th Road, Guanglong Industrial Park, Chihua Neighborhood Committee, Chencun Town, Shunde District, Foshan City, Guangdong Province

Applicant before: Linker Technology (Foshan) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant