CN115310752A

CN115310752A - 面向能源大数据的数据资产价值评价方法及系统

Info

Publication number: CN115310752A
Application number: CN202210701269.7A
Authority: CN
Inventors: 朱东歌; 马瑞; 刘佳; 沙江波; 闫振华; 李晓龙; 王峰; 张庆平
Original assignee: Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: State Grid Ningxia Electric Power Co Ltd; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-11-08

Abstract

本发明提供面向能源大数据的数据资产价值评价方法及系统，属于能源大数据领域。包括：构建采集模型和数据资产价值评价模型；通过所述采集模型统计出待评数据资产的评价参数，所述评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；分别根据所述颗粒度评价参数、所述多维度评价参数、所述活性度评价参数、所述规模度评价参数和所述关联度评价参数计算出所述待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；将所述颗粒度值、所述多维度值、所述活性度值、所述规模度值和所述关联度值输入至所述数据资产价值评价模型，计算出所述待评数据资产的资产价值。

Description

面向能源大数据的数据资产价值评价方法及系统

技术领域

本发明涉及能源大数据领域，尤其涉及一种面向能源大数据的数据资产价值评价方法及系统。

背景技术

数据资产是指由企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源，经过加工处理、挖掘与分析，可以有效地提高企业在生产经营活动的效率，降低成本，让企业在市场竞争中获得优势，获取更高的利润。当前数据资产价值评估一般采用成本法、收益法与市场法，对于大数据平台中的数据资产价值方面，行业内并无成熟的资产价值计算方法。

发明内容

有鉴于此，本发明提供一种面向能源大数据的数据资产价值评价方法及系统，通过量化数据评价参数、计算资产价值的方法。

本发明实施例解决其技术问题所采用的技术方案是：

一种面向能源大数据的数据资产价值评价方法，包括：

构建采集模型和数据资产价值评价模型；

通过所述采集模型统计出待评数据资产的评价参数，所述评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；

分别根据所述颗粒度评价参数、所述多维度评价参数、所述活性度评价参数、所述规模度评价参数和所述关联度评价参数计算出所述待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；

将所述颗粒度值、所述多维度值、所述活性度值、所述规模度值和所述关联度值输入至所述数据资产价值评价模型，计算出所述待评数据资产的资产价值。

较优地，所述构建采集模型包括：

定义所述颗粒度评价参数，包括：数据属性数量G1、数据精度G2、数据完整度G3、数据字段长度G4、字段完整程度G5；

定义所述多维度评价参数，包括：数据来源渠道种类D1、数据来源渠道总数D2、数据产生方式总数D3、数据来源类型总数D4、数据覆盖系统总数D5、数据重复率D6、数据一致率D7、所用数据采集方式总数D8，其中，所述数据重复率D6代表不同来源提供的相同资源的重复情况，所述数据一致率D7代表不同来源提供的相同资源相互校验的准确程度；

定义所述活性度评价参数，包括：更新间隔时间A1、访问间隔时间A2、存在时间A3、更新差异度A4、访问系统数量A5、常用属性数量占比A6、累积访问次数A7、累积更新次数A8，其中，所述更新差异度A4是指每次更新会造成直接变化的数据占比，所述访问系统数量A5是指使用当前数据资产的系统数目；

定义所述规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S4；

定义所述关联度评价参数，包括：流入数据数量R1、流出数据数量R2、数据流入频率R3、数据流出频率R4、数据流入总量R5、数据流出总量R6。

较优地，所述构建数据资产价值评价模型包括：

收集N个样本数据资产，分成训练集和测试集；

对所述训练集中各个所述样本数据资产进行数据预处理，得到预处理后的样本数据资产；

统计出所述训练集中各个所述处理后的样本数据资产的所述颗粒度评价参数，并计算出算数平均值G_1X、G_2X、G_3X、G_4X、G_5X；

统计出所述训练集中各个所述处理后的样本数据资产的所述多维度评价参数，并计算出算数平均值D_1X、D_2X、D_3X、D_4X、D_5X、D_6X、D_7X、D_8X；

统计出所述训练集中各个所述处理后的样本数据资产的所述活性度评价参数，并计算出算数平均值A_1X、A_2X、A_3X、A_4X、A_5X、A_6X、A_7X、A_8X；

统计出所述训练集中各个所述处理后的样本数据资产的所述规模度评价参数，并计算出算数平均值S_1X、S_2X、S_3X、S_4X；

统计出所述训练集中各个所述处理后的样本数据资产的所述关联度评价参数，并计算出算数平均值R_1X、R_2X、R_3X、R_4X、R_5X、R_6X；

定义所述数据资产价值评价模型的输入层，所述输入层的输入内容包括所述评价参数；

定义所述数据资产价值评价模型的隐含层，所述隐含层提供颗粒度G、多维度D、活性度A、规模度S和关联度R的计算公式：

ω_G1+ω_G2+ω_G3+ω_G4+ω_G5＝1

ω_D1+ω_D2+ω_D3+ω_D4+ω_D5+ω_D6+ω_D7+ω_D8＝1

ω_A1+ω_A2+ω_A3+ω_A4+ω_A5+ω_A6+ω_A7+ω_A8＝1

ω_S1+ω_S2+ω_S3+ω_S4＝1

ω_R1+ω_R2+ω_R3+ω_R4+ω_R5+ω_R6＝1

其中，ω_Gi为各所述颗粒度评价参数的计算权重，ω_Di为各所述多维度评价参数的计算权重，ω_Ai为各所述活性度评价参数的计算权重，ω_Si为各所述规模度评价参数的计算权重，ω_Ri为各所述关联度评价参数的计算权重；G、D、A、S、R的计算结果均属于[1,3]范围；

定义所述数据资产价值评价模型的输出层，所述输出层提供资产价值IVD的计算公式：

IVD＝[(1+G)×(1+D)×(1+A)×(1+S)×(1+R)-1]×(1+M)

其中，M为高价值数据量占比；

利用所述数据资产价值评价模型计算所述验证集中的所述样本数据资产的资产价值IVD；

若所述验证集中的所述样本数据资产的资产价值IVD计算值无误，则所述数据资产价值评价模型构建完成；

若所述验证集中的所述样本数据资产的资产价值IVD计算值有误，则调整各权重值后，再次利用所述验证集进行验证，直至所述资产价值IVD计算值无误。

较优地，所述ω_Gi、所述ω_Di、所述ω_Ai、所述ω_Si、所述ω_Ri均通过AHP层次分析法进行权重值分配。

较优地，所述高价值数据量占比是指所述当前数据资产中具备高价值属性的数据总量占总数据量的比值，所述高价值属性是根据评价需求从所有属性中预先选择出的。

本发明还提供一种数据资产价值评价系统，包括：

构建单元，用于构建采集模型和数据资产价值评价模型；

统计单元，用于通过所述采集模型统计出待评数据资产的评价参数，所述评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；

计算单元，用于分别根据所述颗粒度评价参数、所述多维度评价参数、所述活性度评价参数、所述规模度评价参数和所述关联度评价参数计算出所述待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；

所述计算单元，还用于将所述颗粒度值、所述多维度值、所述活性度值、所述规模度值和所述关联度值输入至所述数据资产价值评价模型，计算出所述待评数据资产的资产价值。

较优地，所述构建单元，还用于定义所述采集模型中的所述颗粒度评价参数，包括：数据属性数量G1、数据精度G2、数据完整度G3、数据字段长度G4、字段完整程度G5；

所述构建单元，还用于定义所述采集模型中的所述多维度评价参数，包括：数据来源渠道种类D1、数据来源渠道总数D2、数据产生方式总数D3、数据来源类型总数D4、数据覆盖系统总数D5、数据重复率D6、数据一致率D7、所用数据采集方式总数D8，其中，所述数据重复率D6代表不同来源提供的相同资源的重复情况，所述数据一致率D7代表不同来源提供的相同资源相互校验的准确程度；

所述构建单元，还用于定义所述采集模型中的所述活性度评价参数，包括：更新间隔时间A1、访问间隔时间A2、存在时间A3、更新差异度A4、访问系统数量A5、常用属性数量占比A6、累积访问次数A7、累积更新次数A8，其中，所述更新差异度A4是指每次更新会造成直接变化的数据占比，所述访问系统数量A5是指使用当前数据资产的系统数目；

所述构建单元，还用于定义所述采集模型中的所述规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S6；

所述构建单元，还用于定义所述采集模型中的所述关联度评价参数，包括：流入数据数量R1、流出数据数量R2、数据流入频率R3、数据流出频率R4、数据流入总量R5、数据流出总量R6。

较优地，所述构建单元，还用于收集构建所述数据资产价值评价模型N个样本数据资产，分成训练集和测试集；对所述训练集中各个所述样本数据资产进行数据预处理，得到预处理后的样本数据资产；统计出所述训练集中各个所述处理后的样本数据资产的所述颗粒度评价参数，并计算出算数平均值G_1X、G_2X、G_3X、G_4X、G_5X；统计出所述训练集中各个所述处理后的样本数据资产的所述多维度评价参数，并计算出算数平均值D_1X、D_2X、D_3X、D_4X、D_5X、D_6X、D_7X、D_8X；统计出所述训练集中各个所述处理后的样本数据资产的所述活性度评价参数，并计算出算数平均值A_1X、A_2X、A_3X、A_4X、A_5X、A_6X、A_7X、A_8X；统计出所述训练集中各个所述处理后的样本数据资产的所述规模度评价参数，并计算出算数平均值S_1X、S_2X、S_3X、S_4X；统计出所述训练集中各个所述处理后的样本数据资产的所述关联度评价参数，并计算出算数平均值R_1X、R_2X、R_3X、R_4X、R_5X、R_6X；

所述构建单元，还用于定义所述数据资产价值评价模型的输入层，所述输入层的输入内容包括所述评价参数；

所述构建单元，还用于定义所述数据资产价值评价模型的隐含层，所述隐含层提供颗粒度G、多维度D、活性度A、规模度S和关联度R的计算公式：

ω_G1+ω_G2+ω_G3+ω_G4+ω_G5＝1

ω_D1+ω_D2+ω_D3+ω_D4+ω_D5+ω_D6+ω_D7+ω_D8＝1

ω_A1+ω_A2+ω_A3+ω_A4+ω_A5+ω_A6+ω_A7+ω_A8＝1

ω_S1+ω_S2+ω_S3+ω_S4＝1

ω_R1+ω_R2+ω_R3+ω_R4+ω_R5+ω_R6＝1

其中，ω_Gi为各所述颗粒度评价参数的计算权重，ω_Di为各所述多维度评价参数的计算权重，ω_Ai为各所述活性度评价参数的计算权重，ω_Si为各所述规模度评价参数的计算权重，ω_Ri为各所述关联度评价参数的计算权重；G、D、A、S、R的计算结果均属于[1，3]范围；

所述构建单元，还用于定义所述数据资产价值评价模型的输出层，所述输出层提供资产价值IVD的计算公式：

IVD＝[(1+G)×(1+D)×(1+A)×(1+S)×(1+R)-1]×(1+M)

其中，M为高价值数据量占比；

所述构建单元，还用于利用所述数据资产价值评价模型计算所述验证集中的所述样本数据资产的资产价值IVD；若所述验证集中的所述样本数据资产的资产价值IVD计算值无误，则所述数据资产价值评价模型构建完成；若所述验证集中的所述样本数据资产的资产价值IVD计算值有误，则调整各权重值后，再次利用所述验证集进行验证，直至所述资产价值IVD计算值无误。

由上述技术方案可知，本发明实施例提供的面向能源大数据的数据资产价值评价方法，通过构建采集模型和数据资产价值评价模型；通过该采集模型统计出待评数据资产的评价参数，评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；分别根据颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数计算出待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；将颗粒度值、多维度值、活性度值、规模度值和关联度值输入至数据资产价值评价模型，计算出待评数据资产的资产价值。本发明能够将数据资产量化成评价参数、从而计算出资产价值。

附图说明

图1为面向能源大数据的数据资产价值评价方法的流程图。

具体实施方式

以下结合本发明的附图，对本发明的技术方案以及技术效果做进一步的详细阐述。

为了综合考虑数据资产的特征与数据资产价值的影响因素，本发明提出使用颗粒度、多维度、活性度、规模度和关联度五个特征维度来衡量数据资产的价值。

其中，颗粒度是指数据资产价值对数据质量、共享性的反应程度，多维度是指数据资产价值对数据类型多样性和可访问性的反应程度，活性度是指数据资产价值对活性、再生性和使用效果的反应程度，规模度是指数据资产价值对数据规模和价值密度的反应程度，关联度是指数据资产价值对关联性的反应程度。这五个特征维度可以较全面的衡量数据资产的内在价值。

如图1所示，本发明提供一种面向能源大数据的数据资产价值评价方法，步骤包括：

步骤S1，构建采集模型和数据资产价值评价模型；

步骤S2，通过采集模型统计出待评数据资产的评价参数，评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；

步骤S3，分别根据颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数计算出待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；

步骤S4，将颗粒度值、多维度值、活性度值、规模度值和关联度值输入至数据资产价值评价模型，计算出待评数据资产的资产价值。

较优地，构建采集模型包括定义颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数，其中：

颗粒度主要反映数据的数据质量和共享性，通过数据的精细化程度来具体体现。颗粒度程度较低的数据，数据的精细化程度越低，内在价值相对偏低；颗粒度程度较高的数据，数据的精细度程度也较高，内在价值相对更高。数据的精细化程度通过细分维度来描述，颗粒度可以分为数量、类型、精度、准确度、长度、完整度等多个细分维度。定义颗粒度评价参数包括：数据属性数量G1、数据精度G2、数据完整度G3、数据字段长度G4、字段完整程度G5，其中，数据属性数量G1反应该项数据资产拥有的数据属性的数量，数据完整度G3是指完整数据量的占比，数据字段长度G4是指最大字段长度、字段完整程度G5是指完整字段量的占比；

类似空间维度的概念，多维度指标反映数据的多样化程度和可访问性，包括数据来源、数据类型的多样化等，多维度也需要进一步细分。定义多维度评价参数，包括：数据来源渠道种类D1、数据来源渠道总数D2、数据产生方式总数D3、数据来源类型总数D4、数据覆盖系统总数D5、数据重复率D6、数据一致率D7、所用数据采集方式总数D8，其中，数据来源渠道种类D1是指所涉及的所有来源渠道的种类数目，数据来源渠道总数D2是指所有的渠道总数，数据重复率D6代表不同来源提供的相同资源的重复情况，数据一致率D7代表不同来源提供的相同资源相互校验的准确程度，所用数据采集方式总数D8是指该项数据资产的采集手段数目；

活性度指标反映数据的新鲜程度、再生性、使用效果，数据被更新的频次越高，活性度越高；数据被更新的频次越低，活性度越低。一般而言，数据活性度高的数据集，蕴含更高的内在价值。定义活性度评价参数，包括：更新间隔时间A1、访问间隔时间A2、存在时间A3、更新差异度A4、访问系统数量A5、常用属性数量占比A6、累积访问次数A7、累积更新次数A8，其中，更新差异度A4是指每次更新会造成直接变化的数据占比，访问系统数量A5是指使用当前数据资产的系统数目，常用属性数量占比A6是首先提取出具有访问或更新时间间隔小于时间间隔阈值的数据所对应的属性，再计算具有该属性的数据总数占总数据量的占比；

规模度指标反映数据量的多少，量变决定质变，数据量的增长，即是数据规模的扩大。定义规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S4；其中，企业独占程度S4是指该数据资产所属企业的数目情况，具体可以是企业数目的反比，规模度评价参数还可以进一步包括反应该项数据资产的应用使用范围S4和该项数据资产获取的难易程度S5，并在后续计算时配置响应的权重。

关联度指标反映不同维度的数据之间的内在联系，如在企业中，如果能将人力资源部、财务管理部、项目管理部及其他业务部门的数据进行关联聚合分析，将激发出这些数据更大的内在价值。定义关联度评价参数，包括：流入数据数量R1、流出数据数量R2、数据流入频率R3、数据流出频率R4、数据流入总量R5、数据流出总量R6。关联度评价参数还可以进一步包括流入数据关联强度R7、流出数据关联强度R8、数据依赖程度R9、数据独立程度R10，流入数据关联强度R7反应该项数据资产流入数据的关联强度，流出数据关联强度R8反应该项数据资产流出数据的关联强度，数据依赖程度R9反应该项数据资产对于其他数据资产的依赖程度，数据独立程度R10反应该项数据资产自身的独立存在程度，R7-R10可以通过专家打分的形式获取。

较优地，步骤S1构建数据资产价值评价模型包括：

步骤S11，收集N个样本数据资产，分成训练集和测试集；收集样本数据先要针对不同的特征维度确定不同的数据输入维度，宏观层面数据包括全省宏观经济运行、发展规划、产业政策、体制改革、市场发展趋势等方面数据，以及世界主要国家和地区、全国、先进省份等经济社会、能源发展等数据。能源行业数据包括电、煤、油、气、新能源等各能源品类的资源禀赋、开采加工、运输配送、能源转化、能源消费全过程数据。其他相关数据包括生态环境、气象、交通、技术革新、工业价格等数据。样本数据是深度学习模型构建的基础，每个样本包含模型训练所需的数据。在收集样本时，为满足模型对于关联度、多维度的评价，仅收集待评价的数据是不够的，还应尽可能多的收集与之相关的数据。

步骤S12，对训练集中各个样本数据资产进行数据预处理，得到预处理后的样本数据资产；数据预处理任务其任务是执行数据抽取、数据转换和数据加载三个过程。数据抽取，即将所需数据样本从原始系统或存储介质中抽取出来的过程；数据转换，即将数据抽取过程中提取到的数据转换为后续深度学习模型训练所需数据类型的过程；数据加载，即将经过数据转换过程的数据根据模型训练需求加载到模型中的过程。选择样本后，对样本中重复、无效或不完整的数据，进行清洗；对于错误或不一致的数据，要加以修正，保障模型训练时所用数据准确和有效。与此同时，结构化的数据要根据相关业务逻辑进行转化；非结构化的数据，要对其进行结构化处理。

步骤S13，统计出训练集中各个处理后的样本数据资产的颗粒度评价参数，并计算出算数平均值G_1X、G_2X、G_3X、G_4X、G_5X；

步骤S14，统计出训练集中各个处理后的样本数据资产的多维度评价参数，并计算出算数平均值D_1X、D_2X、D_3X、D_4X、D_5X、D_6X、D_7X、D_8X；

步骤S15，统计出训练集中各个处理后的样本数据资产的活性度评价参数，并计算出算数平均值A_1X、A_2X、A_3X、A_4X、A_5X、A_6X、A_7X、A_8X；

步骤S16，统计出训练集中各个处理后的样本数据资产的规模度评价参数，并计算出算数平均值S_1X、S_2X、S_3X、S_4X；

步骤S17，统计出训练集中各个处理后的样本数据资产的关联度评价参数，并计算出算数平均值R_1X、R_2X、R_3X、R_4X、R_5X、R_6X；

步骤S18，定义数据资产价值评价模型的输入层，输入层的输入内容包括评价参数；

步骤S19，定义数据资产价值评价模型的隐含层，隐含层提供颗粒度G、多维度D、活性度A、规模度S和关联度R的计算公式：

ω_G1+ω_G2+ω_G3+ω_G4+ω_G5＝1 (2)

ω_D1+ω_D2+ω_D3+ω_D4+ω_D5+ω_D6+ω_D7+ω_D8＝1 (4)

ω_A1+ω_A2+ω_A3+ω_A4+ω_A5+ω_A6+ω_A7+ω_A8＝1 (6)

ω_S1+ω_S2+ω_S3+ω_S4＝1 (8)

ω_R1+ω_R2+ω_R3+ω_R4+ω_R5+ω_R6＝1 (10)

其中，ω_Gi为各颗粒度评价参数的计算权重，ω_Di为各多维度评价参数的计算权重，ω_Ai为各活性度评价参数的计算权重，ω_Si为各规模度评价参数的计算权重，ω_Ri为各关联度评价参数的计算权重；G、D、A、S、R的计算结果均属于[1,3]范围，ω_Gi、ω_Di、ω_Ai、ω_Si、ω_Ri均通过AHP层次分析法进行权重值分配。

首先进行权重初始化，权重初始化是对每一隐藏层的权重进行初始化，该权重在训练开始前不得为空，不同的权重决定模型训练的起点。目前根据实际情况进行权重初始化方法的选择。设定各级权重之和ω为1。如在颗粒度G的计算时设定ω_G1＝0.2,ω_G2＝0.2,ω_G3＝0.2,ω_G4＝0.2,ω_G5＝0.2。可根据专家打分适当确定权重。

其次，确定权重正则化，权重正则化为了防止模型过拟合现象的发生，减少模型的泛化误差，从而提高模型准确性。

再次，模型训练优化，模型优化的目标之一是使模型的输出尽可能的接近目标值。这个目标可以通过比较当前模型的预测值和实际目标值，再根据两者的差异情况来更新每一层的权重矩阵来实现，比如，如果模型的预测值高了，就调整权重让它的预测值低一些。不断调整，直到能够预测出目标值，作为数据资产价值评价模型的各个公式中的最终权重值。

步骤S110，定义数据资产价值评价模型的输出层，输出层提供资产价值IVD的计算公式：

IVD＝[(1+G)×(1+D)×(1+A)×(1+S)×(1+R)-1]×(1+M) (11)

其中，M为高价值数据量占比,是指当前数据资产中具备高价值属性的数据总量占总数据量的比值，高价值属性是根据评价需求从所有属性中预先选择出的；

步骤S111，利用数据资产价值评价模型计算验证集中的样本数据资产的资产价值IVD；

步骤S112，若验证集中的样本数据资产的资产价值IVD计算值无误，则数据资产价值评价模型构建完成；若验证集中的样本数据资产的资产价值IVD计算值有误，则调整各权重值后，再次利用验证集进行验证，直至资产价值IVD计算值无误。

进一步地，本发明还提供一种数据资产价值评价系统，包括：

构建单元，用于构建采集模型和数据资产价值评价模型；

统计单元，用于通过采集模型统计出待评数据资产的评价参数，评价参数包括颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数；

计算单元，用于分别根据颗粒度评价参数、多维度评价参数、活性度评价参数、规模度评价参数和关联度评价参数计算出待评数据资产的颗粒度值、多维度值、活性度值、规模度值和关联度值；

计算单元，还用于将颗粒度值、多维度值、活性度值、规模度值和关联度值输入至数据资产价值评价模型，计算出待评数据资产的资产价值。

构建单元，还用于定义采集模型中的颗粒度评价参数，具体包括：数据属性数量G1、数据精度G2、数据完整度G3、数据字段长度G4、字段完整程度G5；

构建单元，还用于定义采集模型中的多维度评价参数，包括：数据来源渠道种类D1、数据来源渠道总数D2、数据产生方式总数D3、数据来源类型总数D4、数据覆盖系统总数D5、数据重复率D6、数据一致率D7、所用数据采集方式总数D8，其中，数据重复率D6代表不同来源提供的相同资源的重复情况，数据一致率D7代表不同来源提供的相同资源相互校验的准确程度；

构建单元，还用于定义采集模型中的活性度评价参数，包括：更新间隔时间A1、访问间隔时间A2、存在时间A3、更新差异度A4、访问系统数量A5、常用属性数量占比A6、累积访问次数A7、累积更新次数A8，其中，更新差异度A4是指每次更新会造成直接变化的数据占比，访问系统数量A5是指使用当前数据资产的系统数目；

构建单元，还用于定义采集模型中的规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S6；

构建单元，还用于定义采集模型中的关联度评价参数，包括：流入数据数量R1、流出数据数量R2、数据流入频率R3、数据流出频率R4、数据流入总量R5、数据流出总量R6。

构建单元，还用于收集构建数据资产价值评价模型N个样本数据资产，分成训练集和测试集；对训练集中各个样本数据资产进行数据预处理，得到预处理后的样本数据资产；统计出训练集中各个处理后的样本数据资产的颗粒度评价参数，并计算出算数平均值G_1X、G_2X、G_3X、G_4X、G_5X；统计出训练集中各个处理后的样本数据资产的多维度评价参数，并计算出算数平均值D_1X、D_2X、D_3X、D_4X、D_5X、D_6X、D_7X、D_8X；统计出训练集中各个处理后的样本数据资产的活性度评价参数，并计算出算数平均值A_1X、A_2X、A_3X、A_4X、A_5X、A_6X、A_7X、A_8X；统计出训练集中各个处理后的样本数据资产的规模度评价参数，并计算出算数平均值S_1X、S_2X、S_3X、S_4X；统计出训练集中各个处理后的样本数据资产的关联度评价参数，并计算出算数平均值R_1X、R_2X、R_3X、R_4X、R_5X、R_6X；

构建单元，还用于定义数据资产价值评价模型的输入层，输入层的输入内容包括评价参数；

构建单元，还用于定义数据资产价值评价模型的隐含层，隐含层提供颗粒度G、多维度D、活性度A、规模度S和关联度R的计算公式(1)-(10)：

构建单元，还用于定义数据资产价值评价模型的输出层，输出层提供资产价值IVD的计算公式(10)：

构建单元，还用于利用数据资产价值评价模型计算验证集中的样本数据资产的资产价值IVD；若验证集中的样本数据资产的资产价值IVD计算值无误，则数据资产价值评价模型构建完成；若验证集中的样本数据资产的资产价值IVD计算值有误，则调整各权重值后，再次利用验证集进行验证，直至资产价值IVD计算值无误。

通过本发明提供的方法和系统，实现了量化数据资产的评价参数过程，可有效地计算数据资产的资产价值。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种面向能源大数据的数据资产价值评价方法，其特征在于，包括：

构建采集模型和数据资产价值评价模型；

2.如权利要求1所述的面向能源大数据的数据资产价值评价方法，其特征在于，所述构建采集模型包括：

定义所述活性度评价参数，包括：更新间隔时间A1、访问间隔时间A2、存在时间A3、更新差异度A4、访问系统数量A5、常用属性数量占比A6、累积访问次数A7、累积更新次数A8，其中，所述更新差异度A4是指每次更新会造成直接变化的数据占比，所述访问系统数量A5是指使用当前数据资产的系统数目；定义所述规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S4；

3.如权利要求2所述的面向能源大数据的数据资产价值评价方法，其特征在于，所述构建数据资产价值评价模型包括：

收集N个样本数据资产，分成训练集和测试集；

ω_G1+ω_G2+ω_G3+ω_G4+ω_G5＝1

ω_D1+ω_D2+ω_D3+ω_D4+ω_D5+ω_D6+ω_D7+ω_D8＝1

ω_A1+ω_A2+ω_A3+ω_A4+ω_A5+ω_A6+ω_A7+ω_A8＝1

ω_S1+ω_S2+ω_S3+ω_S4＝1

ω_R1+ω_R2+ω_R3+ω_R4+ω_R5+ω_R6＝1

IVD＝[(1+G)×(1+D)×(1+A)×(1+S)×(1+R)-1]×(1+M)

其中，M为高价值数据量占比；

4.如权利要求3所述的面向能源大数据的数据资产价值评价方法，其特征在于：所述ω_Gi、所述ω_Di、所述ω_Ai、所述ω_Si、所述ω_Ri均通过AHP层次分析法进行权重值分配。

5.如权利要求4所述的面向能源大数据的数据资产价值评价方法，其特征在于，所述高价值数据量占比是指所述当前数据资产中具备高价值属性的数据总量占总数据量的比值，所述高价值属性是根据评价需求从所有属性中预先选择出的。

6.一种数据资产价值评价系统，其特征在于，包括：

构建单元，用于构建采集模型和数据资产价值评价模型；

7.如权利要求6所述的数据资产价值评价系统，其特征在于，

所述构建单元，还用于定义所述采集模型中的所述颗粒度评价参数，包括：数据属性数量G1、数据精度G2、数据完整度G3、数据字段长度G4、字段完整程度G5；

所述构建单元，还用于定义所述采集模型中的所述规模度评价参数，包括：数据条数S1、数据资产存储体积S2、数据资产增长速度S3、企业独占程度S4；所述构建单元，还用于定义所述采集模型中的所述关联度评价参数，包括：流入数据数量R1、流出数据数量R2、数据流入频率R3、数据流出频率R4、数据流入总量R5、数据流出总量R6。

8.如权利要求7所述的数据资产价值评价系统，其特征在于，

所述构建单元，还用于收集构建所述数据资产价值评价模型N个样本数据资产，分成训练集和测试集；对所述训练集中各个所述样本数据资产进行数据预处理，得到预处理后的样本数据资产；统计出所述训练集中各个所述处理后的样本数据资产的所述颗粒度评价参数，并计算出算数平均值G_1X、G_2X、G_3X、G_4X、G_5X；统计出所述训练集中各个所述处理后的样本数据资产的所述多维度评价参数，并计算出算数平均值D_1X、D_2X、D_3X、D_4X、D_5X、D_6X、D_7X、D_8X；统计出所述训练集中各个所述处理后的样本数据资产的所述活性度评价参数，并计算出算数平均值A_1X、A_2X、A_3X、A_4X、A_5X、A_6X、A_7X、A_8X；统计出所述训练集中各个所述处理后的样本数据资产的所述规模度评价参数，并计算出算数平均值S_1X、S_2X、S_3X、S_4X；统计出所述训练集中各个所述处理后的样本数据资产的所述关联度评价参数，并计算出算数平均值R_1X、R_2X、R_3X、R_4X、R_5X、R_6X；

ω_G1+ω_G2+ω_G3+ω_G4+ω_G5＝1

ω_D1+ω_D2+ω_D3+ω_D4+ω_D5+ω_D6+ω_D7+ω_D8＝1

ω_A1+ω_A2+ω_A3+ω_A4+ω_A5+ω_A6+ω_A7+ω_A8＝1

ω_S1+ω_S2+ω_S3+ω_S4＝1

ω_R1+ω_R2+ω_R3+ω_R4+ω_R5+ω_R6＝1

IVD＝[(1+G)×(1+D)×(1+A)×(1+S)×(1+R)-1]×(1+M)

其中，M为高价值数据量占比；

9.如权利要求8所述的数据资产价值评价系统，其特征在于：

所述ω_Gi、所述ω_Di、所述ω_Ai、所述ω_Si、所述ω_Ri均通过AHP层次分析法进行权重值分配。

10.如权利要求9所述的数据资产价值评价系统，其特征在于，

所述高价值数据量占比是指所述当前数据资产中具备高价值属性的数据总量占总数据量的比值，所述高价值属性是根据评价需求从所有属性中预先选择出的。