CN108764707A - 一种数据评估系统以及方法 - Google Patents
一种数据评估系统以及方法 Download PDFInfo
- Publication number
- CN108764707A CN108764707A CN201810511460.9A CN201810511460A CN108764707A CN 108764707 A CN108764707 A CN 108764707A CN 201810511460 A CN201810511460 A CN 201810511460A CN 108764707 A CN108764707 A CN 108764707A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- assessed
- value
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001303 quality assessment method Methods 0.000 claims abstract description 34
- 238000013481 data capture Methods 0.000 claims abstract description 24
- 238000013441 quality evaluation Methods 0.000 claims abstract description 23
- 238000013479 data entry Methods 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 47
- 230000001419 dependent effect Effects 0.000 claims description 22
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 37
- 238000012854 evaluation process Methods 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 85
- 238000013507 mapping Methods 0.000 description 36
- 238000012545 processing Methods 0.000 description 17
- 238000012512 characterization method Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 230000009193 crawling Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000011157 data evaluation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000004153 renaturation Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种数据评估系统以及方法,其中,该系统包括:数据获取单元,用于获取待评估数据;质量确定单元,用于根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果;价值评估单元,用于针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果。该系统在进行数据评估时,能够较为客观、准确的确定业务数据的质量,并且在业务数据的质量在确定过程中不需要人为参与,降低业务数据被人为泄露的可能性,增加业务数据在评估过程中的安全性。
Description
技术领域
本申请涉及数据评估技术领域,具体而言,涉及一种数据评估系统以及方法。
背景技术
在数字信息飞速发展的今天,数据对企业的影响日益增强,越来越多的企业需要“用数据说话”。对企业来说,无形资产占有的比重越来越大,除了专利、软件著作权、商标等知识产权等无形资产,业务数据这种无形资产的重要性不容小觑。业务数据的价值有时直接决定企业的价值。
在对业务数据的价值进行评估的时候,通常是基于业务数据来进行的;现有技术中提供了业务数据的评估业务,用于实现对业务数据进行评估。业务数据评估业务的提供者主要是资产评估机构;在进行业务数据评估时,待评估者需要与资产评估机构联系,双方当面沟通评估条件;在评估条件谈妥之后,待评估者将业务数据提供给资产评估机构,再由资产评估机构的资产评估专家按照一定的评估流程对业务数据进行评估。这样的评估方式导致了在评估过程中受人为主观因素影响较多,使得评估结果不够客观、准确。
发明内容
有鉴于此,本申请实施例的目的在于提供一种数据评估系统以及方法,能够较为客观、准确的得到业务数据的评估结果,并且在业务数据的评估过程中不需要人为参与,降低业务数据被人为泄露的可能性,增加业务数据在评估过程中的安全性。
第一方面,本申请实施例提供一种数据评估系统,包括:
数据获取单元,用于获取待评估数据;
质量确定单元,用于确定所述待评估数据在预设质量确定指标下的指标值;
质量确定单元,用于基于所述预设数据质量指标下的指标值,确定所述待评估数据的质量确定结果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:还包括:认证单元;所述认证单元,用于对所述价值评估结果进行认证,并且在认证通过后,完成对所述待评估数据的评估。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中:所述数据质量指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标,以及数据量指标中的一种或者多种;
针对所述数据质量指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;所述质量确定单元,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据在数据一致性指标下的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;
针对所述数据质量指标包括数据完整性指标的情况,所述质量确定单元,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高;
针对所述数据质量指标包括数据时效性指标的情况,所述质量确定单元,具体用于确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;其中,所述时间区间跨度越大,表征所述待评估数据在数据时效性指标下的指标值越高;以及所述时间差越小,表征所述待评估数据在数据时效性指标下的指标值越高;
针对所述数据质量指标包括数据冗余度指标的情况,所述质量确定单元,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低;
针对所述数据质量指标包括数据稀缺性指标的情况,所述数据获取单元,还用于:从所述预设平台爬取多个数据集;所述系统,还包括:第一相似数据确定单元;所述第一相似数据确定单元,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
所述质量确定单元,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高;
针对所述数据质量指标包括数据量指标的情况,所述质量确定单元,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据在数据量指标下的指标值越高。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中:所述质量确定单元,具体用于根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中:还包括:数据评估模型训练单元;所述数据评估模型训练单元,用于将所述预设质量确定指标作为自变量,将所述数据质量等级作为因变量构建数据评估模型;所述数据获取单元,还用于获取训练数据;所述质量确定单元,还用于确定所述训练数据在所述预设数据质量指标下的指标值,以及所述训练数据的数据质量等级值;所述数据评估模型训练单元,还用于将为所述训练数据确定的指标值作为自变量值,将对应训练数据的数据质量等级值作为因变量值代入所述数据评估模型,对所述数据评估模型进行训练;所述质量确定单元,具体用于将所述待评估数据在所述预设数据质量指标下的指标值作为自变量代入训练好的数据评估模型,得到所述待评估数据的质量确定结果。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中:所述预设数据价值指标包括所述预设数据质量指标和预设业务价值指标;所述业务价值指标包括行业领域分类指标、应用场景指标、供应商指标中至少一种;
针对所述业务价值指标包括行业领域分类指标的情况,所述价值评估单元,具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大;
针对所述业务价值指标包括应用场景指标的情况,所述价值评估单元,具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对所述业务价值指标包括供应商指标的情况,
所述价值评估单元,具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中:所述价值确定单元,具体用于将所述待评估数据在预设数据价值指标下的指标值的加权和值确定为价值校正系数;使用所述价值矫正系数对所述待评估数据的预设维度价值进行矫正;并将矫正后的值确定为所述待评估数据的数据价值。
结合第一方面,本申请实施例提供了第一方面的第七种可能的实施方式,其中:所述预设维度的价值包括市场价值和/或成本价值;
针对所述预设维度的价值为市场价值的情况,所述数据获取单元,还用于:从所述预设平台爬取多个数据集;所述系统,还包括:第二相似数据确定单元;所述第二相似数据确定单元,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;所述价值确定单元,具体用于确定所述待评估数据以及所述待评估数据的相似数据在预设平台价值的加权和值;并将所述加权和值确定为所述待评估数据的预设维度价值;
针对所述预设维度的价值为成本价值的情况,所述价值确定单元,具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的预设维度价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本;
针对所述预设维度的价值为市场价值和成本价值的情况,所述价值确定单元,具体用于将所述待评估数据的市场价值和成本价值的加权和值确定为所述待评估数据的预设维度价值。
结合第一方面,本申请实施例提供了第一方面的第八种可能的实施方式,其中:所述价值评估单元还用于根据数据评估需求构建指标体系;以及将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;以及从样本数据中确定自变量值和因变量值并分别带入构建的数据评估模型,对所述数据评估模型进行训练。
结合第一方面,本申请实施例提供了第一方面的第九种可能的实施方式,其中:所述价值评估单元具体用于根据数据评估需求确定一级指标;将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建;所述价值评估单元具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
结合第一方面,本申请实施例提供了第一方面的第十种可能的实施方式,其中:所述价值评估单元,具体用于针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;基于筛选出的节点确定该指标的下一级指标。
结合第一方面,本申请实施例提供了第一方面的第十一种可能的实施方式,其中:所述价值评估单元,具体用于针对所述质量评估结果符合预设的质量评估要求的情况,基于待评估数据确定数据评估模型所需输入的自变量的值;以及将自变量的值输入所述数据评估模型,得到所述待评估数据的评估结果。
结合第一方面,本申请实施例提供了第一方面的第十二种可能的实施方式,其中:还包括:通知单元;所述通知单元,用于针对所述质量评估结果不符合预设的质量评估要求的情况,将质量评估不合格通知发送给对所述待评估数据进行评估的请求方;并接收所述请求方反馈的对所述待评估数据的处理意见。
结合第一方面,本申请实施例提供了第一方面的第十三种可能的实施方式,其中:还包括:数据清洗单元;所述数据清洗单元,用于针对所述处理意见为对所述待评估数据进行清洗的情况,对所述待评估数据进行数据清洗。
结合第一方面,本申请实施例提供了第一方面的第十四种可能的实施方式,其中:所述认证单元包括:会计认证单元、资产评估认证单元以及法律认证单元;所述会计认证单元,用于基于所述价值评估结果生成会计认证信息;并向外提供会计认证接口;所述会计认证接口用于接收对所述会计认证信息的认证结果;所述资产评估认证单元,用于在所述会计认证信息的认证结果为认证通过后,基于数据评估过程生成资产评估认证信息,并向外提供资产评估认证接口;所述资产评估认证接口用于接收对所述资产评估认证信息的认证结果;所述法律认证单元,用于在所述资产评估认证信息的认证结果为认证通过后,基于评估过程生成法律认证信息,并向外提供法律认证接口;所述法律认证接口用于接收对所述法律认证信息的认证结果。
第二方面,本申请实施例提供一种数据评估方法,包括:
获取待评估数据;根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果;针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中:还包括:对所述价值评估结果进行认证,并且在认证通过后,完成对所述待评估数据的评估。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中:所述数据质量指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标,以及数据量指标中的一种或者多种;
针对所述数据质量指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据在数据一致性指标下的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;
针对所述数据质量指标包括数据完整性指标的情况,通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高;
针对所述数据质量指标包括数据时效性指标的情况,通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;其中,所述时间区间跨度越大,表征所述待评估数据在数据时效性指标下的指标值越高;以及所述时间差越小,表征所述待评估数据在数据时效性指标下的指标值越高;
针对所述数据质量指标包括数据冗余度指标的情况,通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低;
针对所述数据质量指标包括数据稀缺性指标的情况,
还用于:从所述预设平台爬取多个数据集;对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高;
针对所述数据质量指标包括数据量指标的情况,通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据在数据量指标下的指标值越高。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中:确定所述待评估数据的质量评估结果,具体包括:根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中:还包括:将所述预设质量确定指标作为自变量,将所述数据质量等级作为因变量构建数据评估模型;
获取训练数据;确定所述训练数据在所述预设数据质量指标下的指标值,以及所述训练数据的数据质量等级值;将为所述训练数据确定的指标值作为自变量值,将对应训练数据的数据质量等级值作为因变量值代入所述数据评估模型,对所述数据评估模型进行训练;
将所述待评估数据在所述预设数据质量指标下的指标值作为自变量代入训练好的数据评估模型,得到所述待评估数据的质量确定结果。
结合第二方面,本申请实施例提供了第二方面的第五种可能的实施方式,其中:所述预设数据价值指标包括所述预设数据质量指标和预设业务价值指标;
所述业务价值指标包括行业领域分类指标、应用场景指标、供应商指标中至少一种;
针对所述业务价值指标包括行业领域分类指标的情况,通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大;
针对所述业务价值指标包括应用场景指标的情况,通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对所述业务价值指标包括供应商指标的情况,通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
结合第二方面,本申请实施例提供了第二方面的第六种可能的实施方式,其中:根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果,具体包括:将所述待评估数据在预设数据价值指标下的指标值的加权和值确定为价值校正系数;使用所述价值矫正系数对所述待评估数据的预设维度价值进行矫正;并将矫正后的值确定为所述待评估数据的数据价值。
结合第二方面,本申请实施例提供了第二方面的第七种可能的实施方式,其中:所述预设维度的价值包括市场价值和/或成本价值;针对所述预设维度的价值为市场价值的情况,通过下述步骤确定所述待评估数据的预设维度价值:
从所述预设平台爬取多个数据集;分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
确定所述待评估数据以及所述待评估数据的相似数据在预设平台价值的加权和值;并将所述加权和值确定为所述待评估数据的预设维度价值;
针对所述预设维度的价值为成本价值的情况,通过下述步骤确定所述待评估数据的预设维度价值:将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的预设维度价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本;
针对所述预设维度的价值为市场价值和成本价值的情况,通过下述步骤确定所述待评估数据的预设维度价值:将所述待评估数据的市场价值和成本价值的加权和值确定为所述待评估数据的预设维度价值。
结合第二方面,本申请实施例提供了第二方面的第八种可能的实施方式,其中:还包括:根据数据评估需求构建指标体系;以及将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;以及从样本数据中确定自变量值和因变量值并分别带入构建的数据评估模型,对所述数据评估模型进行训练。
结合第二方面,本申请实施例提供了第二方面的第九种可能的实施方式,其中:根据数据评估需求构建指标体系,具体包括:根据数据评估需求确定一级指标;将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建;
所述价值评估单元具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
结合第二方面,本申请实施例提供了第二方面的第十种可能的实施方式,其中:根据构建的知识图谱确定该当前上一级指标的下一级指标,具体包括:针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;基于筛选出的节点确定该指标的下一级指标。
结合第二方面,本申请实施例提供了第二方面的第十一种可能的实施方式,其中:所述确定所述待评估数据的评估结果,具体包括:针对所述质量评估结果符合预设的质量评估要求的情况,基于待评估数据确定数据评估模型所需输入的自变量的值;以及将自变量的值输入所述数据评估模型,得到所述待评估数据的评估结果。
结合第二方面,本申请实施例提供了第二方面的第十二种可能的实施方式,其中:还包括:针对所述质量评估结果不符合预设的质量评估要求的情况,将质量评估不合格通知发送给对所述待评估数据进行评估的请求方;并接收所述请求方反馈的对所述待评估数据的处理意见。
结合第二方面,本申请实施例提供了第二方面的第十三种可能的实施方式,其中:针对所述处理意见为对所述待评估数据进行清洗的情况,对所述待评估数据进行数据清洗。
结合第二方面,本申请实施例提供了第二方面的第十四种可能的实施方式,其中:所述对所述价值评估结果进行认证,具体包括:基于所述价值评估结果生成会计认证信息;并向外提供会计认证接口;所述会计认证接口用于接收对所述会计认证信息的认证结果;
在所述会计认证信息的认证结果为认证通过后,基于数据评估过程生成资产评估认证信息,并向外提供资产评估认证接口;所述资产评估认证接口用于接收对所述资产评估认证信息的认证结果;
在所述资产评估认证信息的认证结果为认证通过后,基于评估过程生成法律认证信息,并向外提供法律认证接口;所述法律认证接口用于接收对所述法律认证信息的认证结果。
本申请实施例提供的数据评估系统,通过数据获取单元获取待评估数据,通过质量确定单元根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果,然后通过价值单元针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果,全程不需要人为的干预,就能够更加客观、准确的实现对业务数据的评估。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据评估系统的结构示意图;
图2示出了本申请实施例所提供的另一种数据评估系统的结构示意图;
图3示出了本申请实施例所提供的会计认证时的认证界面;
图4示出了本申请实施例所提供的接收会计认证意见的接口界面;
图5示出了本申请实施例所提供的数据评估方法的流程图;
图6示出了本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据评估系统进行详细介绍。需要注意的是,该数据评估系统除了能够对业务数据进行评估,也能够对其他数据进行评估数据,例如试验数据、住宅数据等。下面对待评估数据为业务数据对本申请技术方案加以说明。
参见图1所示,本申请实施例提供的数据评估系统包括:数据获取单元10、质量确定单元20以及价值评估单元30。
其中,数据获取单元10,用于获取待评估数据。
在具体实现的时候,待评估数据是要进行评估的业务数据。待评估数据可以通过多种方式获取,例如从预设平台爬取的业务数据,预设平台包括企业网站、统计局、数据交易平台、纽扣平台等;或者具有数据评估需求的数据来源直接提供的待评估数据。
质量确定单元20,用于根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果。
在具体实现的时候,预设数据质量指标包括:数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标、以及数据量指标中的一种或者多种。
较佳地,本申请实施例每次实施的对象可以为一类数据,如果该类数据包括多个数据集,那么本申请实施例的数据质量确定对象可以为一个数据集。
本申请实施例中质量确定单元20具体用于通过下述1-6的方法确定待评估数据在各数据质量指标下的指标值。具体地:
1,针对所述质量确定指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;
所述质量确定单元20,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。
在具体实现的时候,可以通过确定如下一项或多项数据内容与对应描述信息之间的一致性程度,来表征待评估数据的数据内容和描述信息的一致性程度,其中,任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高。
其一:所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量。
此处,待评估数据的数据内容被承载在某格式的文件中;待评估数据可以由多条数据条目构成,每条数据条目均由多个数据元构成;其中,数据元是构成待评估数据的最基本数据单位。
例如待评估数据为商品价格数据时,一条待评估数据包括的数据元依次为:商品名称、商品生产商、产地、生产时间、保质期、净含量、营养成分、生产批号、售卖时间。
也就是说待评估数据较佳地是数据条目的形式,针对具有评估需求的数据为文本数据的情况,可以在进行评估之前事先进行文本数据关键信息提取操作,生成数据条目形式的数据。例如:具有评估需求的数据为商品介绍文本,可以在评估之前按照商品名称、商品生产商、产地、生产时间等关键字提取成数据条目的形式,将提取的数据条目作为待确定数据。
待评估数据所包含的数据量,即为待评估数据包含的有效数据元的数据量,例如,在上述示例中,一条完整的数据条目包括的数据元的数量应当为九项,则每条数据条目对应的数据量为9;若待评估数据包括100条数据条目,则其所应当具备的数据量应当为900,也即,描述信息所描述的数据量为900;但是实际中,可能存在某些数据元为空,为空的数据元没有实际内容,造成了待评估数据的实际数据量少于描述数据量。
以数据条目的数量为例,这里也可以比较待确定数据包含的数据条目数量与所述待确定数据的描述信息所描述的数据条目数量。
因此可以通过确定待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
其二:所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小。
此处,待评估数据的大小,实际上可以看作是承载待评估数据的文件的文件大小。例如,某条数据条目的数据元缺失(即数据元为空)也会造成承载待评估数据的文件数据的真实文件大小和描述信息中描述的大小不一致。
因此可以通过确定待评估数据的大小与所述待评估数据的描述信息所述描述的大小的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
其三:所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。
此处,待评估数据的数据格式,可以是承载待评估数据的文件的文件格式。承载待评估数据的文件格式可能与描述信息所描述的文件格式不同。
因此可以通过确定待评估数据的数据格式与所述待评估数据的描述信息所述描述的数据格式的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
需要注意的是,待评估数据所包含的数据内容可以是但不必限于数据量、大小和数据格式等;待评估数据对应的描述信息一般是用于描述待评估数据的数据,待评估数据对应的描述信息也包含有数据量、大小和数据格式等内容。
具体地,本申请实施例提供一种基于数据量、数据大小和数据格式的一致性程度,来确定待评估数据在数据一致性指标下的指标值的具体方法:
计算待评估数据包含的数据量与待评估数据的描述信息所描述的数据量的第一差值绝对值,计算待评估数据的大小与待评估数据的描述信息的大小的第二差值绝对值,若待评估数据的数据格式与待评估数据的描述信息所描述的数据格式一致,则确定待评估数据的一致度P为第一预设值,否则,为第二预设值,根据第一差值绝对值、第二差值绝对值和一致度,计算数据一致性指标的指标值。
此处,可将第一预设值设为0,第二预设值设为1。可选地,还可以将第一预设值和第二预设值设置为其他数值,满足第二预设值的数值大于第一预设值的数值即可。
具体地,第一差值绝对值L1满足:L1=|La-Lm|;
其中,La为待评估数据所包含的数据量,Lm为待评估数据的描述信息所包含的数据量。
第二差值绝对值L2满足:L2=|Sa-Sm|;
其中,Sa为待评估数据的大小,Sm为待评估数据的描述信息的大小。
则待评估数据在数据一致性指标下的的指标值ω1满足:
α为计算系数,可取0-1之间的值,例如取1/3、1/4、1/2等。
ω1取值范围一般为[0,1],ω1值越大,说明待评估数据的一致性程度越高。
2、针对所述数据质量指标包括数据完整性指标的情况,
所述质量确定单元20,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。
在具体实现的时候,待评估数据的数据元可能存在缺失的情况。在此情况下,缺失的数据元越多,则待评估数据的完整性越差。
质量确定单元20在确定所述待评估数据所包含数据条目中的空值占比时:依次检测待评估数据中各个数据条目中的数据元是否为空;根据检测结果,对每个数据元进行完整性赋值,获得每个数据元的完整性值,且数据元若为空,则对应的完整性值为0;数据元不为空,则对应的完整性值为1;将所有数据元的完整性值的和,与数据元数量的比值,作为空值占比。
可以直接将该空值占比作为待评估数据在数据完整性指标下的指标值,例如:
采用如下公式计算待评估数据在数据完整性指标下的指标值ω2:
其中,ai为待评估数据中的第i个数据元的完整性值,N为待评估数据中的数据元的总数。
ω2的取值范围为[0,1],ω2值越大,表示待评估数据的数据完整性越好。
还可以基于待评估数据在数据完整性指标下的指标值和空值占比之间的正相关性关系,来基于空值占比确定待评估数据在数据完整性指标下的指标值。
此外,质量确定单元20在确定待评估数据所包括数据条目中的空值占比时,还可以采用下述步骤:统计待评估数据中所有数据条目中为空的数据元的总数量;将所有数据条目中为空的数据元的总数量,和待评估数据中所有数据元的总数量的比值,作为空值占比。
进一步地,空值占比还可以为待确定数据中无效数据条目在数据条目总数中的占比。存在预设数量空数据元的数据条目可以确定为无效数据条目。ω2为无效数据条目与数据条目总数的商。
3、针对所述质量确定指标包括数据时效性指标的情况,
所述质量确定单元20,具体用于确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;
其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。
在具体实现的时候,待评估数据产生时间所跨越的时间区间,为待评估数据开始产生时间,到待评估数据终止产生时间之间,所跨越的时间区间。时间区间的单位要根据该时间区间的长度进行具体设定。
特殊地,当无法确定待确定数据的开始产生时间和终止产生时间时,可以通过待确定数据的描述信息确定;产生时间可以为待确定数据跨越的时间区间中的起始时间、最终时间,也可以为平均时间,较佳地为起始时间。
例如,若时间区间的长度为1天,则将时间区间的单位设置为分钟;若时间区间的长度为2个月,则将时间区间的单位设置为天;若该时间区间的长度为3年,则可以将时间区间的单位这是为周。需要注意的是,上述设定时间区间的单位仅仅为本申请实施例所提供的示例,不能将其当作是对本申请技术方案的限定。
数据提供时间,是指数据评估系统的数据获取单元10获取待评估数据的时间。这里需要注意的是,由于待评估数据具有一定的数据量,数据获取单元实际上是无法在某一个时间点从无到有的获取全部的待评估数据,因此,该数据提供时间可以是数据获取单元10获取待评估数据的起始时间,也可以是数据获取单元10获取待评估数据的终止时间;另外,由于数据获取单元10在获取了待评估数据之后,会在很短的时间内将待评估数据传输给指标确定单元20进行处理,数据获取单元10获取待评估数据的起始时间或者终止时间距离质量确定单元20对其确定在时效性指标下的指标值的当前时间的时间差是很小的,因此还可以将质量确定单元20对待评估数据确定其在时效性指标下的指标值的当前时间作为数据提供时间。
例如,在待评估数据中包括100条数据条目;100条数据条目中,产生最早的数据条目的产生时间(也即待评估数据开始产生时间)为2018年3月15日;产生时间最晚的数据条目的产生时间(也即待评估数据终止产生时间)为2018年4月17日;则待评估数据产生时间所跨越的时间区间为33天。若待评估数据提供时间为2018年5月10日,则待评估数据产生时间和待评估数据提供时间之间的时间差,即为2018年3月15日,至2018年5月10日之间的时间差。
在基于所述时间区间以及所述时间差确定所述待评估数据在数据时效性指标下的指标值的时候,可以将时间区间和时间差的比值作为待评估数据在时效性指标下的指标值。
例如,可以采用如下公式计算待评估数据在时效性指标下的指标值ω3:
Tf为待评估数据终止产生时间,若待评估数据无法确定最终时间,则使用待评估数据对应的描述信息描述的终止产生时间;Ts为待评估数据开始产生时间,若待评估数据无法确定开始产生时间,则使用待评估数据对应的描述信息描述的开始产生时间;Tn待评估数据的提供时间。
ω3取值范围为[0,1],ω3取值越大,表示待评估数据的时效性越强。
4、针对所述数据质量指标包括数据冗余度指标的情况,
所述质量确定单元20,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据数据冗余度指标的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。
在具体实现的时候,数据冗余度是计算重复数据出现的比率。在一个数据集合中,重复的数据成为数据冗余,信息冗余度越高,数据质量越低。
具体地,质量确定单元20可以采用下述方式中任意一种确定待评估数据在数据冗余度指标下的指标值:
其一:根据每条数据条目包括的数据元,统计所述待评估数据中每条数据条目重复出现的次数;根据所述待评估数据中所有数据条目重复出现的次数,以及所述数据条目的总条数,确定所述数据条目重复出现的比率,也即重复条目出现的比率;也即所待评估数据所包含的数据条目中重复条目的占比。基于所述数据条目重复出现的比率,计算所述待评估数据在所述信息冗余度指标下的质量确定值;其中,所述待评估数据在所述信息冗余度指标下的质量确定值与所述数据条目重复出现的比率成负相关性。
此处,在统计所述待评估数据中每条数据条目重复出现的次数时,要按照数据条目的排布顺序,依次检测每条数据条目在前边是否出现过;其中,两条相同的数据条目中数据元的内容完全一致,或者内容一致或者相似的数据元数量达到预设阈值。假设检测到第i条数据条目的时候,该第i条数据条目是第一次出现,则统计数量不变;若该第i条数据条目并非第一出现,则将统计数量加1。
其二:质量确定单元20依次检测待评估数据中各个数据条目中的是否为重复出现的数据条目;根据检测结果,对每个数据条目进行重复性赋值,获得每个数据条目对应的重复性值。若数据条目为重复出现的数据条目,也即在检测当前数据条目之前,已经有与当前数据条目相同的另一条数据条目被检测过,则对应的重复性值为1;若数据条目并非重复出现的数据条目,也即在检测当前数据条目之前,没有与当前数据条目相同的另一条数据条目被检测过,则对应的重复性值为0,将所有数据条目的重复性值的和,与数据条目数量的比值,作为待评估数据所包含的数据条目中重复条目的占比。
例如,可以采用如下公式计算待评估数据在数据冗余度指标下的ω4指标值ω4:
其中,bi为待评估数据中第i个数据条目的重复性值,N为待评估数据中数据条目的总数。
ω4取值范围为[0,1],ω4值越大,表明待评估数据的数据重复性越小,那么对应的数据价值也越高。
例如,待评估数据中包含5条数据条目,分别为a、b、c、d、e,其中,a、b和e相同,c、d相同,从a至e依次检测每条数据条目是否为重复出现的数据条目;a第一次出现,其重复性值为0;b和a相同,为重复出现的数据条目,因此b的重复性值为1,c第一次出现,其重复性值为0;d和c相同,为重复出现的数据条目,其重复性值为1;e与a相同,为重复出现的数据条目,其重复性值为1,最终得到的待评估数据所包含的数据条目中重复条目的占比为0.6。根据上述公式,可知最终所得的确定数据在数据冗余度指标下的指标值ω4为0.4。
5、针对所述质量确定指标包括数据稀缺性指标的情况,
所述质量确定单元20,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。
在具体实现的时候,稀缺性是指根据采集的预设的平台以及自身数据信息对于同类数据的提供情况,计算数据的稀缺程度;同类数据越多,稀缺性越低;同类数据越少,稀缺性越高;稀缺性越高的待评估数据,其质量以及价值也相应越高。
在具体实现的时候,为了能够获得与待评估数据相似的相似数据,本申请另一实施例中,还包括:相似数据确定单元40。
本申请实施例中的数据获取单元10,还用于从所述预设平台爬取多个数据集。
此处,预设平台可以是数据交易平台,也可以是其他数据平台;以数据交易平台为例,每一笔数据交易对应有至少一类被交易的业务数据。在从预设平台爬取数据集的时候,对针对每一笔数据交易,爬取一个数据集;每个数据集中包括多个数据条目。
在进行数据爬取的时候,可以通过爬虫、爬取工具等技术爬取数据集,本申请对此不予限制。
第一相似数据确定单元40,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。
在具体实施中,第一相似数据确定单元40可以通过下述步骤确定待评估数据和个数据集的词汇特征:
对获取的各数据集进行分词处理,得到分词处理后的第一词汇数据;按照分词处理后的各个第一词汇数据在对应数据集中的出现频次由高到低的顺序,筛选出前预设数量个第一词汇数据,针对数据集的每个数据,根据筛选出的各第一词汇数据在该数据集中出现的频次,确定该数据的词汇特征。
对待评估数据进行分词处理,得到分词处理后的第二词汇数据;按照分词处理后的各个第二词汇数据在待评估数据中的出现频次由高到低的顺序,筛选出前预设数量个第二词汇数据,针对待评估数据中的每个数据,根据筛选出的各第二词汇数据在该待评估数据中出现的频次,确定该数据的词汇特征。
针对每个数据集中的每个词汇特征,计算该数据集中的该词汇特征分别与待评估数据中的词汇特征之间的文本相似度。将文本相似度大于或等于预设相似度阈值的数据集确定为待评估数据的相似数据。
进一步地,针对待确定数据及数据集确定出多个特征词汇的情况,针对待确定数据的每个特征词汇,可以将该特征词汇与数据集的各特征词汇分别作文本相似度比对,将相似度达到第一预设相似度阈值的特征词汇确定为该特征词汇的相似词汇,相似词汇数量达到第二预设阈值的时候,讲待确定数据及数据集确定为相似数据。
进一步地,针对待确定数据和数据集具有已标注的行业标签的情况,也可以直接将行业标签作为对应数据的特征词汇,直接将特征词汇进行相似度比对。
在从爬取的多个数据集中确定了待评估数据的相似数据之后,会根据相似数据在预设平台出现的次数,确定所述待评估数据在数据稀缺性指标下的指标值。
具体地,可以采用下述步骤计算待评估数据在所述稀缺性指标下的指标值:
确定与所述待评估数据的相似的所述相似数据的数据集的数量;
基于爬取的数据集的总数量,以及所与所述待评估数据的相似的所述相似数据的数据集的数量,计算所述待评估数据在所述稀缺性指标下的质量确定值;
其中,所述待评估数据在所述稀缺性指标下的质量确定值,与种类与所述待评估数据的种类相同的所述采集数据的组数成负相关性。
例如,采用以下公式计算待评估数据在数据稀缺性指标下的指标值ω5:
其中,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为爬取到的数据集的总数量。
ω5的取值范围为[0,1],当ω5接近于1,说明待评估数据的相似数据出现的越多,待评估数据的稀缺性越低,ω5越接近0,表明待评估数据的相似数据出现的越少,待评估数据的稀缺性越高。
另外,还可以采用下述公式计算待评估数据在数据稀缺性指标下的指标值ω5:
ω5=1-e-x/y
其中,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为预设平台的总数。
ω5的取值范围为[0,1],当ω5接近于1,说明各预设平台均存在相似数据,待评估数据的稀缺性越低,ω5等于0,表明各预设平台不存在相似数据,待评估数据的稀缺性越高。
6、针对所述质量确定指标包括数据量指标的情况,
所述质量确定单元20,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。
在具体实现的时候,可以采用下述两种方法中任意一种确定待评估数据在数据量指标下的指标值:
其一,可以将计算的待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值,也可以直接将待评估数据的数据量作为数据量指标的指标值,可根据实际情况确定。
例如,在将待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值时,可以采用以下公式计算数据量指标的指标值ω6:
该公式中,N为待评估数据中数据的数据量,P为各预设平台的数据的总数据量。
ω6的取值是[0,1],当ω6=0时,说明待评估数据的数据量小,反之数据量大。
其二,基于所述待评估数据的描述信息中携带的承诺数据量、描述信息所描述的数据量;待评估数据包含的数据量、以及对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,计算待评估数据在数据量指标下的指标值。
其中,该承诺数据量是指用户提供待评估数据时,预计要提供的待评估数据的数据量。
待评估数据所包含的数据量,即为待评估数据包含的有效数据元的数据量。
对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,其获取过程与确定待评估数据在数据稀缺性指标下的指标值时对相似数据的获取过程类似。具体过程为:
数据获取单元10从所述预设平台爬取多个数据集;第一相似数据确定单元40,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;对确定的相似数据进行数据量确定的操作,从而获取与待评估数据相似的相似数据量。
具体地,可以采用下述公式计算待评估数据在数据量指标下的指标值:
其中,m表示待评估数据包含的数据量;N1表示对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量;N2表示描述信息所描述的数据;N3表示承诺数据量。
质量确定单元20在获取了待评估数据在预设数据质量指标下的指标值后,还要基于所获得的指标值,确定待评估数据的质量评估结果。
质量确定单元20可以采用下述方案中任意一种确定待评估数据的质量确定结果:
其一:根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。
此处,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的过程,实际上是根据不同数据量指标对待评估数据的质量影响程度不同,来确定待评估数据的质量确定结果的过程。
不同类型的待评估数据对应的权重系数可以相同,也可以不同。
例如,针对质量确定指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标、以及数据量指标的情况,可以根据下述公式计算待评估数据的质量确定结果M:
M=a1×ω1+a2×ω2+a3×ω3+a4×ω4+a5×ω5+a6×ω6。
其中,a1至a6依次为数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标、以及数据量指标分别对应的权重系数。ω1至ω6依次为数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标,以及数据量指标分别对应指标值。
其二,数据评估系统中还包括:数据评估模型训练单元50。其中,所述数据评估模型训练单元50,用于将所述预设数据质量指标作为自变量,将所述数据质量等级作为因变量构建数据评估模型;
所述数据获取单元10,还用于获取训练数据;
所述质量确定单元20,还用于确定所述训练数据在所述预设数据质量指标下的指标值,以及所述训练数据的质量确定结果;
所述数据评估模型训练单元50,还用于将为所述训练数据确定的指标值作为自变量值,将对应训练数据的质量确定结果作为因变量值代入所述数据评估模型,对所述数据评估模型进行训练;
所述质量确定单元20,具体用于将所述待评估数据在所述预设数据质量指标下的指标值作为自变量代入训练好的数据评估模型,得到所述待评估数据的质量确定结果。
在具体实现的时候,数据评估模型训练单元在构建数据评估模型的时候,需要确定模型中的解释变量和被解释变量,并通过后续模型训练过程来确定解释变量和被解释变量之间的联系。影响待评估数据的质量的因素有几种,则将这几种因素作为对应的数据质量指标,并将数据质量坐标作为自变量,并将待评估数据的质量确定结果作为因变量构建模型。
本申请实施例中,所构建的模型包括但不限于:自回归模型、移动平均模型、自回归移动平均模型、整合移动平均自回归模型、广义自回归条件异方差模型。
在构建了数据评估模型后,要对数据评估模型进行训练。在训练所用到的训练数据可以通过数据获取单元获取;此处,需要注意的是,所获取的训练数据,可以是已经进行过质量确定的数据,也可以是并未进行过质量确定的数据。
对于已经进行过质量确定的数据,则不需要指标确定单元再对其进行质量确定。对于未进行过质量确定的数据,则需要指标确定单元对其进行质量确定,获取该数据在预设数据质量指标下的指标值,以及训练数据的质量确定结果。
此处,训练数据的质量确定结果可以是数据质量的等级,也可以是数据质量的分数,具体可以根据实际的需求进行设定。
具体地,在确定待评估数据以及训练数据的质量确定结果时,以待评估数为例,若待评估数据的质量确定结果为分数,可以将对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果直接作为分数,此时该分数的取值范围为[0,1],也可以对该加权求和的结果进行处理后的结果作为分数,例如将加权求和结果乘以100后得到的值作为待评估数据质量的分数。若待评估数据的质量确定结果为等级,可以基于预设的转换规则,将对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果转化的对应的等级下。
例如,设定5个等级,分别为A、B、C、D、E,且A对应的待评估数据的质量低于E对应的待评估数据的质量。对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果越小,则等级越低。等级A-E分别对应的加权求和处理的结果的取值范围依次为:[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.8,1]。可以基于上述取值范围,将加权处理的结果转化为对应待评估数据的等级。
使用训练数据对模型进行训练的过程,即为根据训练数据的指标值和对应的质量确定结果,对模型的参数进行不断调整的过程,使得模型在基于每个训练数据在预设数据质量下的指标值计算其质量确定结果时,计算得到的质量确定结果与该训练数据对应的质量确定结果是一致的。
质量确定单元20在获得与待评估数据对应的质量评估结果后,要将该质量评估结果与预设的质量评估结果阈值进行比对;若质量评估结果未达到该质量评估结果阈值,则认为质量评估结果不符合预设的质量评估要求。
此时,本申请实施例所提供的数据评估系统还包括:通知单元60。
该通知单元60,用于针对所述质量评估结果不符合预设的质量评估要求的情况,将质量评估不合格通知发送给对所述待评估数据进行评估的请求方;并接收所述请求方反馈的对所述待评估数据的处理意见。
处理意见可以包括如下几种:终止当前数据评估过程,或者对当前待评估数据进行数据清洗再继续后续数据评估过程。
对当前待评估数据进行数据清洗,是指对待评估数据使用空白数据源填充、明显错误更正、调整描述信息等手段,使得待评估数据预设数据质量指标下的指标值发生变化,使得基于指标值得到的评估结果能够符合预设的质量评估要求。
在本申请另一实施例中,还包括:数据清洗单元70;
所述数据清洗单元70,用于针对所述处理意见为对所述待评估数据进行清洗的情况,对所述待评估数据进行数据清洗。
进一步地,如果一次清洗数据质量依旧不符合预设的质量评估要求,则可以重新进行清洗,直到得到的数据质量符合预设的质量评估要求,进行下一处理环节。
若质量评估结果达到该质量评估结果阈值,则认为质量评估结果符合预设的质量评估要求。在这种情况下:
价值评估单元30,用于针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果。
在具体实现的时候,预设数据价值指标包括:预设数据质量指标和预设业务价值指标。
其中,预设数据质量指标包括:数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标、以及数据量指标中的一种或者多种。
待评估数据在价值评估过程中,在预设数据质量指标下的指标值的获取过程,可参见上述待评估数据在数据质量确定过程中,在预设数据质量指标下的指标值的获取过程,在此不再赘述。
预设业务价值指标包括:行业领域分类指标、应用场景指标、供应商指标中至少一种。
本申请实施例中价值评估单元30具体用于通过下述A-C的方法确定待评估数据在各数业务价值指标下的指标值。
A,针对所述业务价值指标包括行业领域分类指标的情况,
所述价值评估单元30,具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大。
在具体实现的时候,行业领域标签表征数据集对应的行业领域,数据类别一般为预先设置的,数据类别一般包括有多个数据集,每个数据集均对应有多个行业领域标签;行业领域分类越多表明待确定数据所属的数据集的行业领域标签数量越多,那么数据行业领域分类指标的指标值越大。
在具体实施中,统计待确定数据所述数据集对应的行业领域标签数量和待确定数据所属数据类别包含的多个数据集所对应的行业领域标签数量的总数,计算统计的待确定数据的行业领域标签数量与统计的待确定数据所属数据类别的行业领域标签数量的总数的比值,将上述比值作为待确定数据行业领域分类指标的指标值,也可以将待确定数据所属数据集的行业领域标签数量作为数据行业领域分类指标的指标值,本申请对此不予限制。
待确定数据所属的数据集可以为待确定数据所属数据类别中的一个数据集,也可以为其它的数据集,此处以待确定数据集为待确定数据所述数据类别中的一个数据集为例进行说明。例如,待确定数据所属的数据集为中国专利文摘数据,中国专利文摘数据对应的行业领域标签包括政务、专利、知识产权、文摘、企业等,待确定数据所属数据类别为专利数据,该专利数据包括多个数据集,数据集的名称可以为中国专利文摘数据、中国专利法律状态数据(授权公报)、中国专利法律状态数据(发明公布公报)等,中国专利法律状态数据(授权公报)对应的行业领域标签包括政务、专利、指示产权、法律、企业等,中国专利法律状态数据(发明公布公报)对应的行业领域标签包括政务、专利、指示产权、法律、企业等,则待确定数据所属数据集的行业领域标签数量为5,待确定数据所属数据类别的行业领域标签数据量为15,则行业领域分类指标的指标值为0.3。
B,针对所述业务价值指标包括应用场景指标的情况,
所述价值评估单元30,具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
在具体实施中,应用场景为待确定数据可以应用的领域,待确定数据应用的场景越多,说明待确定数据的应用性越好,数据价值也越高。
统计待确定数据的应用场景的数量,如,若待确定数据可以应用到5个应用场景中,则待确定数据的应用场景的数量为5,可以将统计的数量作为待确定数据的应用场景指标的指标值,也可以基于应用场景的数量与应用场景指标之间的线性、非线性、正相关、负相关关系确定,本申请对此不予限制。
C,针对所述业务价值指标包括供应商指标的情况,
所述价值评估单元30,具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
这里,原生数据可以为数据提供者生成的数据。供应商指标越高说明数据的来源越可靠,越具有权威性,数据的价值也越高。
在具体实施中,若待确定数据为数据提供者的原生数据,则待确定数据的供应商指标的指标值为第一预设值,若待确定数据不是数据提供者的原生数据(如,购买的数据,或者从其它平台爬取的数据等),则待确定数据的供应商指标的指标值为第二预设值。其中,第一预设值为1,第二预设值为0,不过应当注意,第一预设值大于第二预设值,第一预设值和第二预设值也可以为其它值,可以根据实际情况确定,本申请对此不予限制。或者,根据数据提供者的原生数据的数量与待确定数据中的总数据量的比值,作为待确定数据的供应商指标的指标值。
例如,待确定数据包括供应商提供的原生数据以及二手数据,二手数据一般来源于其它平台或网站(与供应商业务相关的数据),若供应商为A企业,原生数据为A企业直接提供的业务数据,或者二手数据可以是从网易平台、统计局等平台爬取或购买的与A企业的业务相关的数据,若待确定数据中的数据均为A企业的原生数据,此时,待确定数据的供应商指标的指标值为1;若待确定数据的数据50%为A企业的原生数据,50%为二手数据,此时,待确定数据的供应商指标的指标值为0.5;若待确定数据中的数据均为二手数据,则待确定数据的供应商指标的指标值为0。
价值确定单元30在获得述待评估数据在预设数据价值指标下的指标值后,要基于所获得的指标值,确定待评估数据的评估结果。
具体地,价值确定单元30通过下述步骤确定待评估数据的评估结果:
将所述待评估数据在预设数据价值指标下的指标值的加权和值确定为价值校正系数;使用所述价值矫正系数对所述待评估数据的预设维度价值进行矫正;并将矫正后的值确定为所述待评估数据的数据价值。
这里,预设维度的价值包括市场价值和/或成本价值。
Ⅰ,针对所述预设维度的价值为市场价值的情况,
所述数据获取单元10,还用于从所述预设平台爬取多个数据集;
所述系统,还包括:第二相似数据确定单元90;
此处,该第二相似数据确定单元90与上述第一相似数据确定单元40的在爬取数据的方式是类似的,在此不再赘述。
所述第二相似数据确定单元90,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
所述价值确定单元30,具体用于确定所述待评估数据以及所述待评估数据的相似数据在预设平台价值的加权和值;并将所述加权和值确定为所述待评估数据的预设维度价值。
在具体实施中,对于预设平台有待确定数据的情况,计算待确定数据的相似数据,在各预设平台的价值的加权和值,将该加权和值作为待确定数据的市场价值;对于预设平台没有待确定数据的情况,计算待确定数据和待确定数据的相似数据在各预设平台的价值的加权和值,将该加权和值作为待确定数据的市场价值。
在具体实施中,统计待确定数据在各预设平台的数据成本(价值),统计待确定数据的相似数据在各预设平台中的数据价值,计算统计的待确定数据的数据价值和待确定数据的相似数据的数据价值的和值的平均值,将该平均值作为待确定数据的市场价值;或者,预先为待确定数据的各数据价值和待确定数据的相似数据的数据价值设定权重,不同平台可以设定不同的权重,计算待确定数据的各数据价值和待确定数据的相似数据的数据价值的加权平均值,将该加权平均值作为待确定数据的市场价值;或者,仅将待评估数据的在各预设平台的价值的和值的平均值作为市场价值,本申请对此不予限制
可参考以下公式计算待确定数据的市场价值
其中,为待确定数据的市场价值,Pi为待确定数据在第i个预设平台中的价值,m为数据交易平台的数目,一般为正整数。或者,
Pi为第i个数据集任一预设平台中的价值,m为数据集的数目(针对预设平台有待确定数据的情况,m为待确定数据与作为相似数据的数据集的数量;针对预设平台没有待确定数据的情况,m为作为相似数据的数据集的数量),一般为正整数。
基于得到的市场价值和预设指标的指标值,数据价值确定模块13将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述市场价值矫正后的值确定为所述待确定数据的数据价值。
在具体实施中,计算确定的各预设指标的指标值的加权和值h,基于上述加权和值h和市场价值确定待确定数据的数据价值。
采用以下公式计算各预设指标的指标值的加权和值h:
其中,h为各预设指标的指标值的加权和值,ωi为第i个预设指标的指标值,βi为第i个预设指标的权重,r为预设指标的总数目,为正整数,较佳地为9。
不同预设指标的权重β可以相同,也可以不同,权重一般为待确定数据所属领域的人员打分确定的,也可以为通过深度学习算法计算得到的,本申请对此不予限制。
采用以下公式计算待确定数据的数据价值I:
其中,I为待确定数据的数据价值,h为各预设指标的指标值的加权和值。
Ⅱ,针对所述预设维度的价值为成本价值的情况,
所述价值确定单元30,具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的预设维度价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
此处,成本价值可以根据获取的待评估数据的数据成本来确定。
在计算成本价值时,成本价值确定模块具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的成本价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
进一步地,生成待评估数据的过程所用到的硬件设备、人员办公场地费用等可以作为建设成本;后期对待评估数据的维护可以作为运维成本;另外,如果数据是提供方购买的,还可以包括数据获取成本;如果数据提交之前进行过清洗加工等处理,还可以包括清洗加工成本;还可以包括数据成本相关的其他方面的成本,这里不一一赘述。
可参考以下公式计算待评估数据的成本价值
其中,为待评估数据的成本价值,Pi为待评估数据中第i个维度的成本,m为待评估数据对应的成本的维度,一般为正整数。
基于得到的成本价值和预设指标的指标值,价值确定模块30将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述成本价值矫正后的值确定为所述待评估数据的数据价值。
Ⅲ,针对所述预设维度的价值为市场价值和成本价值的情况,所述价值确定单元30,具体用于将所述待评估数据的市场价值和成本价值的加权和值确定为所述待评估数据的预设维度价值。
此处,待评估数据的市场价值和成本价值与上述Ⅰ和Ⅱ中一致,在此不再赘述。
市场价值和成本价值分别对应的权重可以根据实际的情况进行具体设定;例如对于一些稀缺数据,待确定的市场价值远高于其成本价值,也应当适当增加市场价值的比重;对于一些交易量比较大的数据,随着数据的交易,其价格可能会逐渐的向成本逼近,因此可以适当增加成本价值的比重。
本申请实施例提供的数据评估系统,通过数据获取单元获取待评估数据,通过质量确定单元根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果,然后通过价值单元针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果,全程不需要人为的干预,就能够更加客观、准确的实现对业务数据的评估。
在本申请另一实施例中,价值评估单元30还用于根据数据评估需求构建指标体系;以及将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;以及从样本数据中确定自变量值和因变量值并分别带入构建的数据评估模型,对所述数据评估模型进行训练。
具体地,数据评估需求表征对构建数据评估模型所需要的指标的需求,数据评估需求可以为根据数据的特性、特征等确定的,也可以为通过人工方式确定,本申请对此不予限制;指标体系中包括至少一个指标,指标体系中的指标一般为可量化指标,可量化指标表示指标可以通过对数据的分析从数据中确定出指标值,或者从数据的描述信息中提取出指标值;数据评估模型可以是但不限于逻辑回归模型、神经网络模型等,本申请对此不予限制;样本数据的获取方式可以有多种,一般是从预设平台获取的,预设平台一般为用于进行数据交易或者数据价值评估的平台,例如,预设平台包括统计局、数据交易网站、纽扣平台等等,指标体系中的各项指标可以是从各预设平台爬取的多源异构的样本数据中确定的。
在根据评估需求构建指标体系时,根据数据评估需求确定一级指标;并将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:
针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;
若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;
若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建。
具体地,一级指标一般是根据数据评估需求从各预设平台获取的样本数据中确定的,一级指标是用于表征数据质量和市场价值的指标,一级指标包含的各指标表征的含义比较宽泛,不容易根据样本数据进行量化,也就是,难以根据样本数据确定一级指标的指标值;知识图谱是基于语义分析构建的知识关系图,构建知识图谱的数据一般是与当前级的指标相关的相关数据(该数据也是从预设平台爬取的),指标体系中不同级指标对应的知识图谱不同,知识图谱中包括键与节点之间的对应关系,每个键一般对应有至少一个节点,知识图谱中的键和节点可以均为关键词,节点对应的关键词与键对应的关键词是关联的关键词,构建知识图谱的方法在现有技术中已有详细的介绍,此处不再进行过多说明。
在根据构建的知识图谱确定当前上一级指标的下一级指标时,针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;
获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;
将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;
基于筛选出的节点确定该指标的下一级指标。
这里,与关键词词包相关的相关数据也是从预设平台爬取的数据,可以通过爬虫、爬取工具等爬取,本申请对此不予限制;相关数据可以为关键词词包所属领域的数据,也可以是与关键词词包关联的数据。
由于筛选出的节点存在重复节点,因此,在根据筛选出的节点确定当前指标的下一级指标时,一般采用预设算法对筛选出的节点进行去冗余处理,将处理后得到的节点确定为该指标的下一级指标。这样,提高了确定出的指标的准确度。
这里,预设算法包括主成分分析算法、聚类分析算法等,预设算法一般用于对确定出的每一级指标进行去冗余处理,对各级指标进行去冗余处理的过程在现有技术中已有详细的介绍,此处不再进行过多说明。
在具体实施中,一级指标可以包括数据质量指标和市场价值指标,数据质量指标包括:数据一致性指标、数据完整性指标、数据冗余度指标、数据时效性指标、数据稀缺性指标、数据量指标等,市场价值指标包括:数据领域分类指标、数据应用场景指标、数据供应商指标等,这些一级指标不容易进行量化,需要进一步基于一级指标和对应的知识图谱确定可进行量化的指标,直到确定出可量化的指标并将可量化的指标作为最低级指标,从而形成指标体系。
例如,一级指标为数据一致性指标时,根据知识图谱确定的数据一致性指标(一级指标)对应的下一级指标(也就是二级指标)包括实际数据量、数据文件大小等,若从预设平台获取的样本数据包括1000条数据,样本数据的大小为100M,此时,二级指标中的实际数据量的值为1000,数据文件大小为100,那么这些二级指标就是可量化的指标,此处仅仅以一级指标中的部分指标为例进行说明,从其它一级指标确定最低级指标的过程与上述示例相同,此处不一一针对各个指标进行说明。
由于构建数据评估模型的指标不能随意选取,一般是建立在对指数深刻理解基础上建立的,因此,在构建指标体系时需要进行分层指标的建立,也就是建立多级指标,将一级指标作为最上一级指标,最上一级指标比较宽泛,不容进行量化,需要进一步基于一级指标确定该一级指标之后的多级指标。在实际应用中,可以根据实际情况确定需要确定指标的级数,目的为了保证最终构建的指标体系中的指标均为可量化指标。
数据评估需求可以为与需要构建的指标体系的领域的专业人员提出的,也可以为基于数据特征和特性筛选出来的;在根据数据评估需求从获取的样本数据中确定出一级指标之后,针对各一级指标,可以从预先从预设平台爬取的数据中筛选出该一级指标的同义词,将该一级指标和筛选出的该一级指标的同义词作为该一级指标的关键词词包。其中,不同的一级指标对应不同的关键词词包。
例如,若一级指标为配偶,从预设平台爬取的数据中确定的该一级指标的同义词包括老公、老婆、爱人等,将配偶、老公、老婆、爱人作为一个关键词词包,上述示例仅仅是示意性的。
针对每个一级指标对应的关键词词包,从预设平台爬取与该关键词词包相关的相关数据,进一步,根据与该关键词词包对应的相关数据生成该一级指标对应的知识图谱。其中,爬取数据的技术在现有技术中已有详细的介绍,此处不再进行过多解释;基于相关数据确定知识图谱的技术在现有技术中已有详细的介绍,此处不再进行过多说明。
针对每个一级指标对应的关键词词包,将关键词词包中的各关键词作为键,针对每个关键词词包中的每个关键词,将该关键词作为键,映射到知识图谱中,从知识图谱中确定与该关键词匹配的键,在确定出与关键词匹配的键后,基于知识图谱中包括的键与至少一个节点的对应关系,确定与确定出的匹配的键对应的至少一个节点(也就是关键词),关键词词包中的每个关键词最终可以对应至少一个节点。由于关键词词包中不同的关键词对应的节点中可能存在相同的节点,因此,较佳地,采用主成分分析算法或聚类分析算法对各关键词对应的节点进行冗余处理,也就是去除相同的节点,将去冗余处理后的节点作为一级指标的下一级指标,也就是二级指标。当然,也可以将筛选出的节点直接作为一级指标的下一级指标,可视实际情况而定。
在得到二级指标后,若确定二级指标为可量化指标,则将该二级指标确定为最低级指标,完成指标体系的构建。若确定的二级指标是不可量化的指标,也就是二级指标依然比较宽泛,此时需要将该二级指标确定为新的当前上一级指标,继续为新的当前上一级指标确定下一级指标。
在得到二级指标后,针对各二级指标,可以从预设平台爬取的数据中筛选出该二级指标的同义词,将该二级指标和筛选出的该二级指标的同义词作为该二级指标的关键词词包,此处可参考一级指标的示例。
针对每个二级指标对应的关键词词包,从预设平台爬取与该关键词词包相关的相关数据,进一步,根据与该关键词词包对应的相关数据生成该二级指标对应的知识图谱。其中,爬取数据的技术在现有技术中已有详细的介绍,此处不再进行过多解释;基于相关数据确定知识图谱的技术在现有技术中已有详细的介绍,此处不再进行过多说明。
针对每个二级指标对应的关键词词包,将关键词词包中的各关键词作为键,针对每个关键词词包中的每个关键词,将该关键词作为键,映射到知识图谱中,从知识图谱中确定与该关键词匹配的键,在确定出与关键词匹配的键后,基于知识图谱中包括键与至少一个节点的对应关系,确定与确定出的匹配的键对应的至少一个节点(也是关键词),关键词词包中的每个关键词最终可以对应至少一个节点。由于二级指标对应的关键词词包中不同的关键词对应的节点中也可能存在相同的节点,因此,较佳地,采用主成分分析算法或聚类分析算法对各关键词对应的节点进行冗余处理,也就是去除相同的节点,将去冗余处理后的节点作为二级指标的下一级指标,也就是三级指标。当然,也可以将筛选出的节点直接作为二级指标的下一级指标,可视实际情况而定。
在得到三级指标后,若确定三级指标为可量化指标,则将该三级指标确定为最低级指标,完成指标体系的构建。若确定的三级指标是不可量化的指标,也就是三级指标不容易确定指标值,此时需要将该三级指标确定为新的当前上一级指标,继续为新的当前上一级指标确定下一级指标,在为新的当前上一级指标确定下一级指标的过程与为一级指标确定二级指标的过程相同,之后确定每级指标的过程不再进行过多说明,直到确定出的指标为可量化指标后,完成指标体系的构建。这样,得到的指标体系中的指标的数目和种类比较多,为后续构建数据评估模型提供良好的基础。
在完成指标体系构建后,将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
这里,可以采用爬虫技术、网页爬取器等工具从预设平台爬取样本数据、样本数据的描述信息和样本数据对应的价值,本申请对爬取数据的技术不做任何限制;样本数据可以为各个领域的数据,例如,通信领域、交通领域等,样本数据的描述信息为用于描述样本数据的数据,描述信息为可以为样本数据提供方的信息如,提供方的名称、地址、所属领域等等;样本数据的价值表征该数据的成本。
在获取到样本数据、样本数据的描述信息后,可以从样本数据和样本数据的描述信息中确定指标体系中各指标的值,指标体系中的指标一般为上文确定的各最低级指标的值,从样本数据对应的价值确定数据价值的值,将确定的各最低级指标的值作为自变量的值,将数据价值的值作为因变量的值,代入到构建的数据评估模型中,并对数据评估模型进行训练,较佳地,可以采用线性回归算法对模型进行训练。对模型进行训练的方法在现有技术中已有详细的介绍,此处不再进行过多叙述。
样本数据和样本数据的描述信息对应的时间段与样本数据对应的价值的时间段可以相同,也可以不同。在样本数据和样本数据的描述信息对应的时间段与样本数据对应的价值的时间段不同时,样本数据和样本数据的描述信息对应的时间段可以与样本数据对应的价值的时间段存在重叠的时间单元。其中,时间单元为时间段中的最小时间单位,时间段可以为1天、1周、1个月、1个季度、1年等,例如,时间段为1天时,时间单元可以为分钟、小时等,时间段为1周时,时间单元可以为1天。在实际应用中可以根据实际情况确定,此处仅为示例,本申请不受示例的限制。
在本申请实施例中,价值评估单元30在对数据评估模型进行训练后,具体用于针对所述质量评估结果符合预设的质量评估要求的情况,基于待评估数据确定数据评估模型所需输入的自变量的值;以及将自变量的值输入所述数据评估模型,得到所述待评估数据的评估结果。
参见图2所示,在本申请另一实施例中,还包括:认证单元80。
所述认证单元80,用于对所述价值评估结果进行认证,并且在认证通过后,完成对所述待评估数据的评估。
在具体实现的时候,价值评估结果的认证,是要对价值评估的结果进行合理性、以及合法性的验证,以确保每一个流程都合法、公平、公众。
待评估数据的价值评估结果最终能够以待评估数据的交易价格的形式表现出来;对价值评估结果进行合理性验证,就是要验证待评估结果的交易价格是否在合理范围内,是否满足当前市场数据的交易价值规律。此时,认证单元80包括:会计认证单元。
所述会计认证单元,用于基于所述价值评估结果生成会计认证信息;并向外提供会计认证接口;所述会计认证接口用于接收对所述会计认证信息的认证结果。
其中,会计认证信息是要对待评估数据的价值评估结果进行会计认证的时候生成的。会计认证单元会向外提供会计认证接口,通过接口,具有会计认证资质的会计或者会计机构基于会计认证信息进行会计认证。
会计认证单元在向外提供会计认证接口时,可以将会计认证信息发送给进行会计认证的会计或财务机构。例如图3所示,提供一种会计认证时的认证界面,该认证界面上显示有相关的会计认证信息,并设有接收会计认证意见的接口界面(如图4所示)。
另外,对价值评估结果进行合理性验证,还可以验证评估流程是否合理;此时,认证单元80包括:资产评估认证单元。
其中,所述资产评估认证单元,用于在所述会计认证信息的认证结果为认证通过后,基于数据评估过程生成资产评估认证信息,并向外提供资产评估认证接口;所述资产评估认证接口用于接收对所述资产评估认证信息的认证结果。
资产评估认证单元在向外提供资产评估认证接口时,可以将资产评估认证信息发送给具有资产评估认证资格的人或者机构。具有资产评估认证资格的人或者机构,能够基于资产评估认证信息对数据评估过程进行合理性的认证,给出资产评估认证结果,并将该资产评估认证结果从该接口获反馈给数据评估系统。
进行合法性验证,是要对数据评估的合法性,待评估数据来源的合法性等进行认证。此时,认证单元80包括:法律认证单元。
所述法律认证单元,用于在所述资产评估认证信息的认证结果为认证通过后,基于评估过程生成法律认证信息,并向外提供法律认证接口;所述法律认证接口用于接收对所述法律认证信息的认证结果。
资产评估认证单元在向外提供法律认证接口时,可以将法律认证信息发送给具有法律认证资格的律师或者律师事务所。律师或者事务所在得到法律认证信息后,进行法律认证,并生成法律认证结果,然后将法律认证结果从该接口反馈给数据评估系统。
当上述认证都通过后,完成对数据的评估,并向数据的评估结果反馈给待评估者。
基于同一发明构思,本申请实施例中还提供了与数据评估系统对应的数据评估方法,由于本申请实施例中的方法解决问题的原理与本申请实施例上述数据评估系统相似,因此方法的实施可以参见系统的实施,重复之处不再赘述。
参见图5所示,本申请实施例他提供的数据评估方法包括:
S501:获取待评估数据;
S502:根据待评估数据在预设数据质量指标下的指标值,确定待评估数据的质量评估结果;
S503:针对质量评估结果符合预设的质量评估要求的情况,根据待评估数据在预设数据价值指标下的指标值,确定待评估数据的评估结果。
本申请实施例获取待评估数据后,会确定待评估数据在预设质量确定指标下的指标值,然后基于预设数据质量指标下的指标值,确定低矮确定数据的质量确定结果,整个质量确定过程不需要人为的干预,从而能够更加客观、准确的确定业务数据的质量。
可选地,还包括:对所述价值评估结果进行认证,并且在认证通过后,完成对所述待评估数据的评估。
可选地,所述数据质量指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标,以及数据量指标中的一种或者多种;
针对所述数据质量指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据在数据一致性指标下的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;
针对所述数据质量指标包括数据完整性指标的情况,
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高;
针对所述数据质量指标包括数据时效性指标的情况,
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;其中,所述时间区间跨度越大,表征所述待评估数据在数据时效性指标下的指标值越高;以及所述时间差越小,表征所述待评估数据在数据时效性指标下的指标值越高;
针对所述数据质量指标包括数据冗余度指标的情况,
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低;
针对所述数据质量指标包括数据稀缺性指标的情况,
还用于:从所述预设平台爬取多个数据集;
对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高;
针对所述数据质量指标包括数据量指标的情况,
通过下述步骤确定所述待评估数据在预设数据质量指标下的指标值:确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据在数据量指标下的指标值越高。
可选地,确定所述待评估数据的质量评估结果,具体包括:根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。
可选地,还包括:将所述预设质量确定指标作为自变量,将所述数据质量等级作为因变量构建数据评估模型;
获取训练数据;
确定所述训练数据在所述预设数据质量指标下的指标值,以及所述训练数据的数据质量等级值;
将为所述训练数据确定的指标值作为自变量值,将对应训练数据的数据质量等级值作为因变量值代入所述数据评估模型,对所述数据评估模型进行训练;
将所述待评估数据在所述预设数据质量指标下的指标值作为自变量代入训练好的数据评估模型,得到所述待评估数据的质量确定结果。
可选地,所述预设数据价值指标包括所述预设数据质量指标和预设业务价值指标;
所述业务价值指标包括行业领域分类指标、应用场景指标、供应商指标中至少一种;
针对所述业务价值指标包括行业领域分类指标的情况,
通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大;
针对所述业务价值指标包括应用场景指标的情况,
通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对所述业务价值指标包括供应商指标的情况,
通过下述步骤确定所述待评估数据在预设业务价值指标下的指标值:判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
可选地,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果,具体包括:将所述待评估数据在预设数据价值指标下的指标值的加权和值确定为价值校正系数;使用所述价值矫正系数对所述待评估数据的预设维度价值进行矫正;并将矫正后的值确定为所述待评估数据的数据价值。
可选地,所述预设维度的价值包括市场价值和/或成本价值;
针对所述预设维度的价值为市场价值的情况,
通过下述步骤确定所述待评估数据的预设维度价值:
从所述预设平台爬取多个数据集;分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
确定所述待评估数据以及所述待评估数据的相似数据在预设平台价值的加权和值;并将所述加权和值确定为所述待评估数据的预设维度价值;
针对所述预设维度的价值为成本价值的情况,通过下述步骤确定所述待评估数据的预设维度价值:将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的预设维度价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本;
针对所述预设维度的价值为市场价值和成本价值的情况,通过下述步骤确定所述待评估数据的预设维度价值:将所述待评估数据的市场价值和成本价值的加权和值确定为所述待评估数据的预设维度价值。
可选地,还包括:根据数据评估需求构建指标体系;以及将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;以及从样本数据中确定自变量值和因变量值并分别带入构建的数据评估模型,对所述数据评估模型进行训练。
可选地,根据数据评估需求构建指标体系,具体包括:根据数据评估需求确定一级指标;将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建;
所述价值评估单元具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
可选地,根据构建的知识图谱确定该当前上一级指标的下一级指标,具体包括:针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;基于筛选出的节点确定该指标的下一级指标。
可选地,所述确定所述待评估数据的评估结果,具体包括:针对所述质量评估结果符合预设的质量评估要求的情况,基于待评估数据确定数据评估模型所需输入的自变量的值;以及将自变量的值输入所述数据评估模型,得到所述待评估数据的评估结果。
可选地,还包括:针对所述质量评估结果不符合预设的质量评估要求的情况,将质量评估不合格通知发送给对所述待评估数据进行评估的请求方;并接收所述请求方反馈的对所述待评估数据的处理意见。
可选地,针对所述处理意见为对所述待评估数据进行清洗的情况,对所述待评估数据进行数据清洗。
可选地,所述对所述价值评估结果进行认证,具体包括:基于所述价值评估结果生成会计认证信息;并向外提供会计认证接口;所述会计认证接口用于接收对所述会计认证信息的认证结果;
在所述会计认证信息的认证结果为认证通过后,基于数据评估过程生成资产评估认证信息,并向外提供资产评估认证接口;所述资产评估认证接口用于接收对所述资产评估认证信息的认证结果;
在所述资产评估认证信息的认证结果为认证通过后,基于评估过程生成法律认证信息,并向外提供法律认证接口;所述法律认证接口用于接收对所述法律认证信息的认证结果。
对应于图3中的数据评估方法,如图6所示,为本申请实施例提供一种计算机设备,该计算机设备包括处理器61、存储器62和总线63,所述存储器62存储执行指令,当所述装置运行时,所述处理器61与所述存储器62之间通过总线63通信,所述处理器61执行所述执行指令使得所述装置执行上述数据评估方法。
对应于图3中的数据评估方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据评估方法的步骤。
本申请实施例所提供的数据评估系统以及方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据评估系统,其特征在于,该系统包括:
数据获取单元,用于获取待评估数据;
质量确定单元,用于根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果;
价值评估单元,用于针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果。
2.根据权利要求1所述的系统,其特征在于,还包括:认证单元;
所述认证单元,用于对所述价值评估结果进行认证,并且在认证通过后,完成对所述待评估数据的评估。
3.根据权利要求1所述的系统,其特征在于,所述数据质量指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标,以及数据量指标中的一种或者多种;
针对所述数据质量指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;
所述质量确定单元,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据在数据一致性指标下的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;
针对所述数据质量指标包括数据完整性指标的情况,
所述质量确定单元,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高;
针对所述数据质量指标包括数据时效性指标的情况,
所述质量确定单元,具体用于确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;其中,所述时间区间跨度越大,表征所述待评估数据在数据时效性指标下的指标值越高;以及所述时间差越小,表征所述待评估数据在数据时效性指标下的指标值越高;
针对所述数据质量指标包括数据冗余度指标的情况,
所述质量确定单元,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低;
针对所述数据质量指标包括数据稀缺性指标的情况,
所述数据获取单元,还用于:从所述预设平台爬取多个数据集;
所述系统,还包括:第一相似数据确定单元;
所述第一相似数据确定单元,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
所述质量确定单元,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高;
针对所述数据质量指标包括数据量指标的情况,
所述质量确定单元,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据在数据量指标下的指标值越高。
4.根据权利要求1-3任一项所述的系统,其特征在于,所述质量确定单元,具体用于根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。
5.根据权利要求1-3任一项所述的系统,其特征在于,还包括:数据评估模型训练单元;
所述数据评估模型训练单元,用于将所述预设质量确定指标作为自变量,将所述数据质量等级作为因变量构建数据评估模型;
所述数据获取单元,还用于获取训练数据;
所述质量确定单元,还用于确定所述训练数据在所述预设数据质量指标下的指标值,以及所述训练数据的数据质量等级值;
所述数据评估模型训练单元,还用于将为所述训练数据确定的指标值作为自变量值,将对应训练数据的数据质量等级值作为因变量值代入所述数据评估模型,对所述数据评估模型进行训练;
所述质量确定单元,具体用于将所述待评估数据在所述预设数据质量指标下的指标值作为自变量代入训练好的数据评估模型,得到所述待评估数据的质量确定结果。
6.根据权利要求3所述的系统,其特征在于,所述预设数据价值指标包括所述预设数据质量指标和预设业务价值指标;
所述业务价值指标包括行业领域分类指标、应用场景指标、供应商指标中至少一种;
针对所述业务价值指标包括行业领域分类指标的情况,
所述价值评估单元,具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大;
针对所述业务价值指标包括应用场景指标的情况,
所述价值评估单元,具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对所述业务价值指标包括供应商指标的情况,
所述价值评估单元,具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
7.根据权利要求1所述的系统,其特征在于,所述价值确定单元,具体用于将所述待评估数据在预设数据价值指标下的指标值的加权和值确定为价值校正系数;使用所述价值矫正系数对所述待评估数据的预设维度价值进行矫正;并将矫正后的值确定为所述待评估数据的数据价值。
8.根据权利要求7所述的系统,其特征在于,所述预设维度的价值包括市场价值和/或成本价值;
针对所述预设维度的价值为市场价值的情况,
所述数据获取单元,还用于:从所述预设平台爬取多个数据集;
所述系统,还包括:第二相似数据确定单元;
所述第二相似数据确定单元,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;
所述价值确定单元,具体用于确定所述待评估数据以及所述待评估数据的相似数据在预设平台价值的加权和值;并将所述加权和值确定为所述待评估数据的预设维度价值;
针对所述预设维度的价值为成本价值的情况,所述价值确定单元,具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的预设维度价值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本;
针对所述预设维度的价值为市场价值和成本价值的情况,所述价值确定单元,具体用于将所述待评估数据的市场价值和成本价值的加权和值确定为所述待评估数据的预设维度价值。
9.根据权利要求1所述的系统,其特征在于,所述价值评估单元还用于根据数据评估需求构建指标体系;以及将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;以及从样本数据中确定自变量值和因变量值并分别带入构建的数据评估模型,对所述数据评估模型进行训练。
10.一种数据评估方法,其特征在于,该方法包括:
获取待评估数据;
根据所述待评估数据在预设数据质量指标下的指标值,确定所述待评估数据的质量评估结果;
针对所述质量评估结果符合预设的质量评估要求的情况,根据所述待评估数据在预设数据价值指标下的指标值,确定所述待评估数据的评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511460.9A CN108764707A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估系统以及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511460.9A CN108764707A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估系统以及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108764707A true CN108764707A (zh) | 2018-11-06 |
Family
ID=64006316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810511460.9A Pending CN108764707A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估系统以及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764707A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299085A (zh) * | 2018-11-07 | 2019-02-01 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及存储介质 |
CN109657991A (zh) * | 2018-12-21 | 2019-04-19 | 江苏满运软件科技有限公司 | 元数据质量评估方法、装置、电子设备、存储介质 |
CN109669969A (zh) * | 2018-12-14 | 2019-04-23 | 国信优易数据有限公司 | 一种数据服务系统和方法 |
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110275878A (zh) * | 2019-06-25 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 业务数据检测方法、装置、计算机设备及存储介质 |
CN111277451A (zh) * | 2018-12-05 | 2020-06-12 | 中国移动通信集团北京有限公司 | 一种业务评估方法、装置、终端设备和介质 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN111539770A (zh) * | 2020-04-27 | 2020-08-14 | 启迪数华科技有限公司 | 一种数据资产智能评估方法及系统 |
CN112183952A (zh) * | 2020-09-08 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 一种指标质量的监管处理方法、装置和电子设备 |
CN113223728A (zh) * | 2021-05-23 | 2021-08-06 | 杭州医康慧联科技股份有限公司 | 适用于医疗数据的价值评估方法 |
CN113704811A (zh) * | 2021-07-16 | 2021-11-26 | 杭州医康慧联科技股份有限公司 | 数据价值管理方法 |
WO2023029065A1 (zh) * | 2021-08-30 | 2023-03-09 | 上海观安信息技术股份有限公司 | 数据集质量评估方法、装置、计算机设备及存储介质 |
CN116187814A (zh) * | 2022-12-26 | 2023-05-30 | 广州城市规划技术开发服务部有限公司 | 一种数据价值的计算方法及装置 |
CN117035561A (zh) * | 2023-10-09 | 2023-11-10 | 江苏鼎豪电力工程有限公司 | 基于人工智能的电力工程质量监督管理方法及系统 |
CN117273552A (zh) * | 2023-11-22 | 2023-12-22 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
-
2018
- 2018-05-24 CN CN201810511460.9A patent/CN108764707A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299085A (zh) * | 2018-11-07 | 2019-02-01 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及存储介质 |
CN111277451B (zh) * | 2018-12-05 | 2021-10-15 | 中国移动通信集团北京有限公司 | 一种业务评估方法、装置、终端设备和介质 |
CN111277451A (zh) * | 2018-12-05 | 2020-06-12 | 中国移动通信集团北京有限公司 | 一种业务评估方法、装置、终端设备和介质 |
CN109669969A (zh) * | 2018-12-14 | 2019-04-23 | 国信优易数据有限公司 | 一种数据服务系统和方法 |
CN109657991A (zh) * | 2018-12-21 | 2019-04-19 | 江苏满运软件科技有限公司 | 元数据质量评估方法、装置、电子设备、存储介质 |
CN109657991B (zh) * | 2018-12-21 | 2021-07-16 | 江苏满运物流信息有限公司 | 元数据质量评估方法、装置、电子设备、存储介质 |
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110070304B (zh) * | 2019-04-30 | 2023-06-27 | 深圳市乾数科技有限公司 | 一种大数据资产质量评估方法 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN110275878A (zh) * | 2019-06-25 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 业务数据检测方法、装置、计算机设备及存储介质 |
CN111539770B (zh) * | 2020-04-27 | 2023-06-16 | 国云数字科技(重庆)有限公司 | 一种数据资产智能评估方法及系统 |
CN111539770A (zh) * | 2020-04-27 | 2020-08-14 | 启迪数华科技有限公司 | 一种数据资产智能评估方法及系统 |
CN112183952A (zh) * | 2020-09-08 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 一种指标质量的监管处理方法、装置和电子设备 |
CN113223728A (zh) * | 2021-05-23 | 2021-08-06 | 杭州医康慧联科技股份有限公司 | 适用于医疗数据的价值评估方法 |
CN113704811A (zh) * | 2021-07-16 | 2021-11-26 | 杭州医康慧联科技股份有限公司 | 数据价值管理方法 |
WO2023029065A1 (zh) * | 2021-08-30 | 2023-03-09 | 上海观安信息技术股份有限公司 | 数据集质量评估方法、装置、计算机设备及存储介质 |
CN116187814A (zh) * | 2022-12-26 | 2023-05-30 | 广州城市规划技术开发服务部有限公司 | 一种数据价值的计算方法及装置 |
CN117035561A (zh) * | 2023-10-09 | 2023-11-10 | 江苏鼎豪电力工程有限公司 | 基于人工智能的电力工程质量监督管理方法及系统 |
CN117273552A (zh) * | 2023-11-22 | 2023-12-22 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
CN117273552B (zh) * | 2023-11-22 | 2024-02-13 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764707A (zh) | 一种数据评估系统以及方法 | |
Kim et al. | Barriers to applying value management in the Vietnamese construction industry | |
TW530235B (en) | Valuation prediction models in situations with missing inputs | |
Yang et al. | Evaluating schedule delay causes for private participating public construction works under the Build-Operate-Transfer model | |
KR100771718B1 (ko) | 신용 점수의 평가를 추론하는 컴퓨터로 구현되는 추론 방법, 포트폴리오 평가 시스템 및 컴퓨터 | |
KR100766149B1 (ko) | 컴퓨터로 구현되는 자산 샘플링 방법, 시스템 및 컴퓨터 | |
Foster et al. | Elicitation format and sensitivity to scope | |
Ghose et al. | The dimensions of reputation in electronic markets | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
KR100771710B1 (ko) | 입찰가 판정 방법 및 시스템, 컴퓨터 | |
US20160225076A1 (en) | System and method for building and validating a credit scoring function | |
KR100766148B1 (ko) | 자산 가치 평가에 대한 최소 변동 가정 선택을 위한 컴퓨터로 구현되는 방법과, 포트폴리오 가치 평가 시스템 및 컴퓨터 | |
TW530236B (en) | Cross correlation tool for automated portfolio descriptive statistics | |
Cho et al. | A loss function approach to group preference aggregation in the AHP | |
CN106504015A (zh) | 一种结合bp神经网络的企业领域供应商推荐方法 | |
CN108764705A (zh) | 一种数据质量评估平台以及方法 | |
MXPA01008622A (es) | Evaluacion rapida de portafolios de activos tales como instrumentos financieros. | |
EP1259917A1 (en) | Methods and apparatus for simulating competitive bidding yield | |
CN101432769A (zh) | 拍卖结果预测和保险 | |
CN112102073A (zh) | 信贷风险控制方法及系统、电子设备及可读存储介质 | |
CN110659926A (zh) | 一种数据价值评估系统以及方法 | |
CN108764995A (zh) | 一种数据价值确定系统和方法 | |
CN112434862A (zh) | 上市企业财务困境预测方法及装置 | |
Greer et al. | Decreasing improper payments in a complex federal program | |
CN113762801B (zh) | 一种网络课程的管理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |