CN108805422A - 一种数据评估模型训练系统、数据评估平台和方法 - Google Patents
一种数据评估模型训练系统、数据评估平台和方法 Download PDFInfo
- Publication number
- CN108805422A CN108805422A CN201810511029.4A CN201810511029A CN108805422A CN 108805422 A CN108805422 A CN 108805422A CN 201810511029 A CN201810511029 A CN 201810511029A CN 108805422 A CN108805422 A CN 108805422A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- value
- assessment
- data assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据评估模型训练系统,该系统包括:指标体系构建模块,用于根据数据评估需求构建指标体系;评估模型构建模块,用于将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;评估模型训练模块,用于从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种数据评估模型训练系统、数据评估平台和方法。
背景技术
在数字信息飞速发展的今天,数据对企业的影响日益增强,越来越多的企业需要“用数据说话”。对企业来说,无形资产占有的比重越来越大,除了专利、软件著作权、商标等知识产权等无形资产,业务数据这种无形资产的重要性不容小觑,业务数据的价值有时直接决定企业的价值。
现有技术中提供了业务数据的评估业务,用于实现对业务数据的价值进行评估。业务数据评估业务的提供者主要是资产评估机构;在进行业务数据评估时,待评估者需要与资产评估机构联系,双方当面沟通评估条件;在评估条件谈妥之后,待评估者将业务数据提供给资产评估机构,再由资产评估机构的资产评估专家按照一定的评估流程对业务数据进行评估。这样的评估方式导致了在评估过程中受人为主观因素影响较多,使得评估结果不够客观,准确度较低。
发明内容
有鉴于此,本申请的目的在于提供一种数据评估模型训练系统、数据评估平台和方法,用于解决现有技术中的确定数据价值准确度低的问题。
第一方面,本申请实施例提供了一种数据评估模型训练系统,该系统包括:
指标体系构建模块,用于根据数据评估需求构建指标体系;
评估模型构建模块,用于将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
评估模型训练模块,用于从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
可选地,所述指标体系构建模块,具体用于根据数据评估需求确定一级指标;将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建。
可选地,所述指标体系构建模块,具体用于针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;基于筛选出的节点确定该指标的下一级指标。
可选地,所述指标体系构建模块,具体用于采用预设算法对筛选出的节点进行去冗余处理,将处理后得到的节点确定为该指标的下一级指标。
可选地,所述评估模型构建模块,具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
可选地,还包括:数据获取模块;
所述数据获取模块,用于从预设的用于进行数据交易或者数据价值评估的平台爬取样本数据、样本数据的描述信息、以及样本数据对应的价值;
所述评估模型训练模块,具体用于从所述样本数据以及所述样本数据的描述信息中确定自变量的值,将对应样本数据的价值确定为因变量的值,分别代入构建的数据评估模型,对数据评估模型进行训练。
第二方面,本申请实施例提供了一种数据评估平台,其特征在于,包括:如上述的数据评估模型训练系统,以及数据评估系统;
其中,所述数据评估系统,包括待评估数据获取模块,以及数据评估模块;
所述待评估数据获取模块,用于获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
所述数据评估模块,用于将自变量的值输入所述数据评估模型,得到数据评估结果;其中,所述数据评估模型由所述数据评估模型训练系统训练得到。
第三方面,本申请实施例提供了一种数据评估模型训练方法,该方法包括:
根据数据评估需求构建指标体系;
将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
第四方面,本申请实施例提供了一种数据评估方法,该方法包括:
获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
将自变量的值输入上述数据评估模型训练方法训练得到的数据评估模型,得到数据评估结果。
第五方面,本申请实施例提供了一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请实施例提供的数据评估训练系统,根据数据评估需求构建指标体系,增加了指标体系中指标的数量,同时,使得指标体系中的指标多样化,将指标体系包含的多样化的指标作自变量,数据价值作因变量,构建数据评估模型,通过从样本数据中确定自变量值和因变量值输入构建的数据评估模型,对数据评估模型进行训练,这样,在创建模型时考虑多种指标,使得构建的数据评估模型的可靠度更好客观程度更高,同时也增加了数据评估准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据评估训练系统的结构示意图;
图2为本申请实施例提供的一种数据评估平台的结构示意图;
图3为本申请实施例提供的一种数据评估训练方法的流程示意图;
图4为本申请实施例提供的一种数据评估方法的流程示意图;
图5为本申请实施例提供的一种计算机设备500的结构示意图;
图6为本申请实施例提供的另一种计算机设备600的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据评估训练系统,如图1所示,该系统包括:
指标体系构建模块11,用于根据数据评估需求构建指标体系;
评估模型构建模块12,用于将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
评估模型训练模块13,用于从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
具体地,数据评估需求表征对构建数据评估模型所需要的指标的需求,数据评估需求可以为根据数据的特性、特征等确定的,也可以为通过人工方式确定,本申请对此不予限制;指标体系中包括至少一个指标,指标体系中的指标一般为可量化指标,可量化指标表示指标可以通过对数据的分析从数据中确定出指标值,或者从数据的描述信息中提取出指标值;数据评估模型可以是但不限于逻辑回归模型、神经网络模型等,本申请对此不予限制;样本数据的获取方式可以有多种,一般是从预设平台获取的,预设平台一般为用于进行数据交易或者数据价值评估的平台,例如,预设平台包括统计局、数据交易网站、纽扣平台等等,指标体系中的各项指标可以是从各预设平台爬取的多源异构的样本数据中确定的。
指标体系构建模块11在根据评估需求构建指标体系时,根据数据评估需求确定一级指标;并将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:
针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;
若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;
若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建。
具体地,一级指标一般是根据数据评估需求从各预设平台获取的样本数据中确定的,一级指标是用于表征数据质量和市场价值的指标,一级指标包含的各指标表征的含义比较宽泛,不容易根据样本数据进行量化,也就是,难以根据样本数据确定一级指标的指标值;知识图谱是基于语义分析构建的知识关系图,构建知识图谱的数据一般是与当前级的指标相关的相关数据(该数据也是从预设平台爬取的),指标体系中不同级指标对应的知识图谱不同,知识图谱中包括键与节点之间的对应关系,每个键一般对应有至少一个节点,知识图谱中的键和节点可以均为关键词,节点对应的关键词与键对应的关键词是关联的关键词,构建知识图谱的方法在现有技术中已有详细的介绍,此处不再进行过多说明。
在根据构建的知识图谱确定当前上一级指标的下一级指标时,指标体系构建模块11针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;
获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;
将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;
基于筛选出的节点确定该指标的下一级指标。
这里,与关键词词包相关的相关数据也是从预设平台爬取的数据,可以通过爬虫、爬取工具等爬取,本申请对此不予限制;相关数据可以为关键词词包所属领域的数据,也可以是与关键词词包关联的数据。
由于筛选出的节点存在重复节点,因此,在根据筛选出的节点确定当前指标的下一级指标时,指标体系构建模块11一般采用预设算法对筛选出的节点进行去冗余处理,将处理后得到的节点确定为该指标的下一级指标。这样,提高了确定出的指标的准确度。
这里,预设算法包括主成分分析算法、聚类分析算法等,预设算法一般用于对确定出的每一级指标进行去冗余处理,对各级指标进行去冗余处理的过程在现有技术中已有详细的介绍,此处不再进行过多说明。
在具体实施中,一级指标可以包括数据质量指标和市场价值指标,数据质量指标包括:数据一致性指标、数据完整性指标、数据冗余度指标、数据时效性指标、数据稀缺性指标、数据量指标等,市场价值指标包括:数据领域分类指标、数据应用场景指标、数据供应商指标等,这些一级指标不容易进行量化,需要进一步基于一级指标和对应的知识图谱确定可进行量化的指标,直到确定出可量化的指标并将可量化的指标作为最低级指标,从而形成指标体系。
例如,一级指标为数据一致性指标时,根据知识图谱确定的数据一致性指标(一级指标)对应的下一级指标(也就是二级指标)包括实际数据量、数据文件大小等,若从预设平台获取的样本数据包括1000条数据,样本数据的大小为100M,此时,二级指标中的实际数据量的值为1000,数据文件大小为100,那么这些二级指标就是可量化的指标,此处仅仅以一级指标中的部分指标为例进行说明,从其它一级指标确定最低级指标的过程与上述示例相同,此处不一一针对各个指标进行说明。
由于构建数据评估模型的指标不能随意选取,一般是建立在对指数深刻理解基础上建立的,因此,在构建指标体系时需要进行分层指标的建立,也就是建立多级指标,将一级指标作为最上一级指标,最上一级指标比较宽泛,不容进行量化,需要进一步基于一级指标确定该一级指标之后的多级指标。在实际应用中,可以根据实际情况确定需要确定指标的级数,目的为了保证最终构建的指标体系中的指标均为可量化指标。
数据评估需求可以为与需要构建的指标体系的领域的专业人员提出的,也可以为基于数据特征和特性筛选出来的;在根据数据评估需求从获取的样本数据中确定出一级指标之后,针对各一级指标,可以从预先从预设平台爬取的数据中筛选出该一级指标的同义词,将该一级指标和筛选出的该一级指标的同义词作为该一级指标的关键词词包。其中,不同的一级指标对应不同的关键词词包。
例如,若一级指标为配偶,从预设平台爬取的数据中确定的该一级指标的同义词包括老公、老婆、爱人等,将配偶、老公、老婆、爱人作为一个关键词词包,上述示例仅仅是示意性的。
针对每个一级指标对应的关键词词包,从预设平台爬取与该关键词词包相关的相关数据,进一步,根据与该关键词词包对应的相关数据生成该一级指标对应的知识图谱。其中,爬取数据的技术在现有技术中已有详细的介绍,此处不再进行过多解释;基于相关数据确定知识图谱的技术在现有技术中已有详细的介绍,此处不再进行过多说明。
针对每个一级指标对应的关键词词包,将关键词词包中的各关键词作为键,针对每个关键词词包中的每个关键词,将该关键词作为键,映射到知识图谱中,从知识图谱中确定与该关键词匹配的键,在确定出与关键词匹配的键后,基于知识图谱中包括的键与至少一个节点的对应关系,确定与确定出的匹配的键对应的至少一个节点(也就是关键词),关键词词包中的每个关键词最终可以对应至少一个节点。由于关键词词包中不同的关键词对应的节点中可能存在相同的节点,因此,较佳地,采用主成分分析算法或聚类分析算法对各关键词对应的节点进行冗余处理,也就是去除相同的节点,将去冗余处理后的节点作为一级指标的下一级指标,也就是二级指标。当然,也可以将筛选出的节点直接作为一级指标的下一级指标,可视实际情况而定。
在得到二级指标后,若确定二级指标为可量化指标,则将该二级指标确定为最低级指标,完成指标体系的构建。若确定的二级指标是不可量化的指标,也就是二级指标依然比较宽泛,此时需要将该二级指标确定为新的当前上一级指标,继续为新的当前上一级指标确定下一级指标。
在得到二级指标后,针对各二级指标,可以从预设平台爬取的数据中筛选出该二级指标的同义词,将该二级指标和筛选出的该二级指标的同义词作为该二级指标的关键词词包,此处可参考一级指标的示例。
针对每个二级指标对应的关键词词包,从预设平台爬取与该关键词词包相关的相关数据,进一步,根据与该关键词词包对应的相关数据生成该二级指标对应的知识图谱。其中,爬取数据的技术在现有技术中已有详细的介绍,此处不再进行过多解释;基于相关数据确定知识图谱的技术在现有技术中已有详细的介绍,此处不再进行过多说明。
针对每个二级指标对应的关键词词包,将关键词词包中的各关键词作为键,针对每个关键词词包中的每个关键词,将该关键词作为键,映射到知识图谱中,从知识图谱中确定与该关键词匹配的键,在确定出与关键词匹配的键后,基于知识图谱中包括键与至少一个节点的对应关系,确定与确定出的匹配的键对应的至少一个节点(也是关键词),关键词词包中的每个关键词最终可以对应至少一个节点。由于二级指标对应的关键词词包中不同的关键词对应的节点中也可能存在相同的节点,因此,较佳地,采用主成分分析算法或聚类分析算法对各关键词对应的节点进行冗余处理,也就是去除相同的节点,将去冗余处理后的节点作为二级指标的下一级指标,也就是三级指标。当然,也可以将筛选出的节点直接作为二级指标的下一级指标,可视实际情况而定。
在得到三级指标后,若确定三级指标为可量化指标,则将该三级指标确定为最低级指标,完成指标体系的构建。若确定的三级指标是不可量化的指标,也就是三级指标不容易确定指标值,此时需要将该三级指标确定为新的当前上一级指标,继续为新的当前上一级指标确定下一级指标,在为新的当前上一级指标确定下一级指标的过程与为一级指标确定二级指标的过程相同,之后确定每级指标的过程不再进行过多说明,直到确定出的指标为可量化指标后,完成指标体系的构建。这样,得到的指标体系中的指标的数目和种类比较多,为后续构建数据评估模型提供良好的基础。
在完成指标体系构建后,评估模型构建模块12具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
该数据评估训练系统还包括:数据获取模块14;
所述数据获取模块14,用于从预设的用于进行数据交易或者数据价值评估的平台爬取样本数据、样本数据的描述信息、以及样本数据对应的价值;
所述评估模型训练模块13具体用于从所述样本数据以及所述样本数据的描述信息中确定自变量的值,将对应样本数据的价值确定为因变量的值,分别代入构建的数据评估模型,对数据评估模型进行训练。
这里,可以采用爬虫技术、网页爬取器等工具从预设平台爬取样本数据、样本数据的描述信息和样本数据对应的价值,本申请对爬取数据的技术不做任何限制;样本数据可以为各个领域的数据,例如,通信领域、交通领域等,样本数据的描述信息为用于描述样本数据的数据,描述信息为可以为样本数据提供方的信息如,提供方的名称、地址、所属领域等等;样本数据的价值表征该数据的成本。
在获取到样本数据、样本数据的描述信息后,可以从样本数据和样本数据的描述信息中确定指标体系中各指标的值,指标体系中的指标一般为上文确定的各最低级指标的值,从样本数据对应的价值确定数据价值的值,将确定的各最低级指标的值作为自变量的值,将数据价值的值作为因变量的值,代入到构建的数据评估模型中,并对数据评估模型进行训练,较佳地,可以采用线性回归算法对模型进行训练。对模型进行训练的方法在现有技术中已有详细的介绍,此处不再进行过多叙述。
样本数据和样本数据的描述信息对应的时间段与样本数据对应的价值的时间段可以相同,也可以不同。在样本数据和样本数据的描述信息对应的时间段与样本数据对应的价值的时间段不同时,样本数据和样本数据的描述信息对应的时间段可以与样本数据对应的价值的时间段存在重叠的时间单元。其中,时间单元为时间段中的最小时间单位,时间段可以为1天、1周、1个月、1个季度、1年等,例如,时间段为1天时,时间单元可以为分钟、小时等,时间段为1周时,时间单元可以为1天。在实际应用中可以根据实际情况确定,此处仅为示例,本申请不受示例的限制。
本申请实施例提供的数据评估训练系统,根据数据评估需求构建指标体系,增加了指标体系中指标的数量,同时,使得指标体系中的指标多样化,将指标体系包含的多样化的指标作自变量,数据价值作因变量,构建数据评估模型,通过从样本数据中确定自变量值和因变量值输入构建的数据评估模型,对数据评估模型进行训练,这样,在创建模型时考虑多种指标,使得构建的数据评估模型的可靠度更好,同时也增加了数据评估准确度。
本申请实施例提供了一种数据评估平台,如图2所示,该平台包括上述的数据评估模型训练系统10和数据评估系统20,数据评估系统20包括待评估数据获取模块21,以及数据评估模块22;
所述待评估数据获取模块21,用于获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
所述数据评估模块22,用于将自变量的值输入所述数据评估模型,得到数据评估结果;其中,所述数据评估模型由所述数据评估模型训练系统训练得到。
这里,待评估数据一般为从预设的用于进行数据交易或者数据价值评估的平台爬取的,预设平台可以为统计局、数据交易平台、纽扣平台等,或者为有数据价值评估需求的需求方直接提供的;由于爬取数据的技术现有技术已有详细介绍,此处不再对爬取过程进行详细叙述;数据评估结果可以为数据质量、数据价值等,较佳地为待评估数据的数据价值。
在具体实施中,从获取的待评估数据中可以确定数据评估模型中自变量的值,数据评估模型中的自变量一般为指标体系包含的各最低级指标,将确定的各最低级指标的值作为自变量的值输入到完成训练的数据评估模型,也就是通过数据评估模型训练系统训练得到的数据评估模型中,最终得到待评估数据的数据价值。
本申请实施例提供了一种数据评估训练方法,如图3所示,该方法包括:
S301,根据数据评估需求构建指标体系;
S302,将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
S303,从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
可选地,所述根据数据评估需求构建指标体系,包括:
根据数据评估需求确定一级指标;
将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:
针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;
若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;
若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建。
可选地,所述针对当前上一级指标构建知识图谱,根据构建的知识图谱确定该当前上一级指标的下一级指标,包括:
针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;
获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;
将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;
基于筛选出的节点确定该指标的下一级指标。
可选地,所述基于筛选出的节点确定该指标的下一级指标,包括:
采用预设算法对筛选出的节点进行去冗余处理,将处理后得到的节点确定为该指标的下一级指标。
可选地,将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型,包括:
将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
可选地,该方法还包括:
从预设的用于进行数据交易或者数据价值评估的平台爬取样本数据、样本数据的描述信息、以及样本数据对应的价值;
所述从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练,包括:
从所述样本数据以及所述样本数据的描述信息中确定自变量的值,将对应样本数据的价值确定为因变量的值,分别代入构建的数据评估模型,对数据评估模型进行训练。
本申请实施例提供了一种数据评估方法,如图4所示,该方法包括:
S401,获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
S402,将自变量的值输入上述数据评估模型训练方法训练得到的数据评估模型,得到数据评估结果。
对应于图3中的数据评估模型训练方法,本申请实施例还提供了一种计算机设备500,如图5所示,该设备包括存储器501、处理器502及存储在该存储器501上并可在该处理器502上运行的计算机程序,其中,上述处理器502执行上述计算机程序时实现上述数据评估模型训练方法。
具体地,上述存储器501和处理器502能够为通用的存储器和处理器,这里不做具体限定,当处理器502运行存储器501存储的计算机程序时,能够执行上述数据评估模型训练方法,解决了现有技术中数据评估准确度低的问题,本申请根据数据评估需求构建指标体系,增加了指标体系中指标的数量,同时,使得指标体系中的指标多样化,将指标体系包含的多样化的指标作自变量,数据价值作因变量,构建数据评估模型,通过从样本数据中确定自变量值和因变量值输入构建的数据评估模型,对数据评估模型进行训练,这样,在创建模型时考虑多种指标,使得构建的数据评估模型的可靠度更好,同时也增加了数据评估准确度。
对应于图3中的数据评估模型训练方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据评估模型训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据评估模型训练方法,解决了现有技术中数据评估准确度低的问题,本申请根据数据评估需求构建指标体系,增加了指标体系中指标的数量,同时,使得指标体系中的指标多样化,将指标体系包含的多样化的指标作自变量,数据价值作因变量,构建数据评估模型,通过从样本数据中确定自变量值和因变量值输入构建的数据评估模型,对数据评估模型进行训练,这样,在创建模型时考虑多种指标,使得构建的数据评估模型的可靠度更好,同时也增加了数据评估准确度。
对应于图4中的数据评估方法,本申请实施例还提供了一种计算机设备600,如图6所示,该设备包括存储器601、处理器602及存储在该存储器601上并可在该处理器602上运行的计算机程序,其中,上述处理器602执行上述计算机程序时实现上述数据评估方法。
具体地,上述存储器601和处理器602能够为通用的存储器和处理器,这里不做具体限定,当处理器602运行存储器601存储的计算机程序时,能够执行上述数据评估方法,解决了现有技术中数据评估准确度低的问题,本申请通过数据评估训练方法训练得到的数据评估模型对待评估数据进行评估,由于构建数据评估模型时考虑了多种指标,使得构建的数据评估模型的可靠度更好,同时也增加了使用该数据评估模型对数据进行评估的准确度。
对应于图4中的数据评估方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据评估方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据评估模型训练方法,解决了现有技术中数据评估准确度低的问题,本申请通过数据评估训练方法训练得到的数据评估模型对待评估数据进行评估,由于构建数据评估模型时考虑了多种指标,使得构建的数据评估模型的可靠度更好,同时也增加了使用该数据评估模型对数据进行评估的准确度。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述关键指标确定方法,解决现有技术中在预测经济波动时的指标单一的问题,本申请从各个方面和角度对影响经济波动的指标进行深层次的挖掘,增加了对经济波动产生影响的指标,减少了现有技术通过相对单一的指标对经济波动进行预测的不足,提高了对经济波动进行预测的准确度。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据评估模型训练系统,其特征在于,该系统包括:
指标体系构建模块,用于根据数据评估需求构建指标体系;
评估模型构建模块,用于将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
评估模型训练模块,用于从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
2.如权利要求1所述的系统,其特征在于,所述指标体系构建模块,具体用于根据数据评估需求确定一级指标;将所述一级指标作为最上一级指标,针对当前上一级指标执行如下下级指标确定操作:针对当前上一级指标构建知识图谱;根据构建的知识图谱确定该当前上一级指标的下一级指标;若确定的下一级指标为不可量化指标,则将该下一级指标确定为新的当前上一级指标,执行所述下级指标确定操作;若确定的下一级指标为可量化指标,则将该下一级指标确定为最低级指标,完成指标体系的构建。
3.如权利要求2所述的系统,其特征在于,所述指标体系构建模块,具体用于针对当前上一级指标中的每个指标,确定该指标的同义词,并生成由该指标及其同义词构成的关键词词包;获取与所述关键词词包相关的相关数据;基于所述相关数据生成知识图谱;将所述关键词词包作为键映射到所述知识图谱中,并从所述知识图谱中筛选与所述关键词词包相关联的节点;基于筛选出的节点确定该指标的下一级指标。
4.如权利要求3所述的系统,其特征在于,所述指标体系构建模块,具体用于采用预设算法对筛选出的节点进行去冗余处理,将处理后得到的节点确定为该指标的下一级指标。
5.如权利要求1-4任一项所述的系统,其特征在于,所述评估模型构建模块,具体用于将所述指标体系包含的各最低级指标作自变量,数据价值作因变量,构建数据评估模型。
6.如权利要求1-4任一项所述的系统,其特征在于,还包括:数据获取模块;
所述数据获取模块,用于从预设的用于进行数据交易或者数据价值评估的平台爬取样本数据、样本数据的描述信息、以及样本数据对应的价值;
所述评估模型训练模块,具体用于从所述样本数据以及所述样本数据的描述信息中确定自变量的值,将对应样本数据的价值确定为因变量的值,分别代入构建的数据评估模型,对数据评估模型进行训练。
7.一种数据评估平台,其特征在于,包括:如权利要求1-6任一项所述的数据评估模型训练系统,以及数据评估系统;
其中,所述数据评估系统,包括待评估数据获取模块,以及数据评估模块;
所述待评估数据获取模块,用于获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
所述数据评估模块,用于将自变量的值输入所述数据评估模型,得到数据评估结果;其中,所述数据评估模型由所述数据评估模型训练系统训练得到。
8.一种数据评估模型训练方法,其特征在于,该方法包括:
根据数据评估需求构建指标体系;
将所述指标体系包含的指标作自变量,数据价值作因变量,构建数据评估模型;
从样本数据中确定自变量值和因变量值并分别代入构建的数据评估模型,对所述数据评估模型进行训练。
9.一种数据评估方法,其特征在于,该方法包括:
获取待评估数据,并且确定数据评估模型所需输入的自变量的值;
将自变量的值输入如权利要求8的数据评估模型训练方法训练得到的数据评估模型,得到数据评估结果。
10.一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求8所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511029.4A CN108805422A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估模型训练系统、数据评估平台和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511029.4A CN108805422A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估模型训练系统、数据评估平台和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108805422A true CN108805422A (zh) | 2018-11-13 |
Family
ID=64091731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810511029.4A Pending CN108805422A (zh) | 2018-05-24 | 2018-05-24 | 一种数据评估模型训练系统、数据评估平台和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108805422A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442731A (zh) * | 2019-07-24 | 2019-11-12 | 中电科新型智慧城市研究院有限公司 | 一种基于交通管理知识图谱的交通运行管理系统 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
CN111681022A (zh) * | 2020-04-16 | 2020-09-18 | 北京信息科技大学 | 一种网络平台数据资源价值评估方法 |
CN112330083A (zh) * | 2020-08-19 | 2021-02-05 | 深圳市原点参数信息技术有限公司 | 一种基于大数据的量化评估方法 |
CN113223728A (zh) * | 2021-05-23 | 2021-08-06 | 杭州医康慧联科技股份有限公司 | 适用于医疗数据的价值评估方法 |
CN113505237A (zh) * | 2021-07-07 | 2021-10-15 | 上海软中信息技术有限公司 | 一种指数计算平台、方法及装置 |
CN115221339A (zh) * | 2022-09-20 | 2022-10-21 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN117556264A (zh) * | 2024-01-11 | 2024-02-13 | 浙江同花顺智能科技有限公司 | 一种评估模型的训练方法、装置及电子设备 |
-
2018
- 2018-05-24 CN CN201810511029.4A patent/CN108805422A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442731A (zh) * | 2019-07-24 | 2019-11-12 | 中电科新型智慧城市研究院有限公司 | 一种基于交通管理知识图谱的交通运行管理系统 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
CN111310934B (zh) * | 2020-02-14 | 2023-10-17 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
CN111681022A (zh) * | 2020-04-16 | 2020-09-18 | 北京信息科技大学 | 一种网络平台数据资源价值评估方法 |
CN112330083A (zh) * | 2020-08-19 | 2021-02-05 | 深圳市原点参数信息技术有限公司 | 一种基于大数据的量化评估方法 |
CN113223728A (zh) * | 2021-05-23 | 2021-08-06 | 杭州医康慧联科技股份有限公司 | 适用于医疗数据的价值评估方法 |
CN113505237A (zh) * | 2021-07-07 | 2021-10-15 | 上海软中信息技术有限公司 | 一种指数计算平台、方法及装置 |
CN115221339A (zh) * | 2022-09-20 | 2022-10-21 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN115221339B (zh) * | 2022-09-20 | 2023-01-06 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN117556264A (zh) * | 2024-01-11 | 2024-02-13 | 浙江同花顺智能科技有限公司 | 一种评估模型的训练方法、装置及电子设备 |
CN117556264B (zh) * | 2024-01-11 | 2024-05-07 | 浙江同花顺智能科技有限公司 | 一种评估模型的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805422A (zh) | 一种数据评估模型训练系统、数据评估平台和方法 | |
JP6771751B2 (ja) | リスク評価方法およびシステム | |
Henderson et al. | How long must a firm be great to rule out chance? Benchmarking sustained superior performance without being fooled by randomness | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
CN109409677A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN110570111A (zh) | 企业风险预测方法、模型训练方法、装置及设备 | |
CN106875206A (zh) | 信息获取、评估、问卷调查方法、装置及服务器 | |
CN109766454A (zh) | 一种投资者分类方法、装置、设备及介质 | |
CN111460312A (zh) | 空壳企业识别方法、装置及计算机设备 | |
CN105894372A (zh) | 预测群体信用的方法和装置 | |
Fathalizadeh et al. | Barriers impeding sustainable project management: A Social Network Analysis of the Iranian construction sector | |
CN110363407A (zh) | 基于用户行为轨迹的欺诈风险评估方法及装置 | |
CN108734327A (zh) | 一种数据处理方法、装置及服务器 | |
DE112021004061T5 (de) | Datenqualitätsanalyse in echtzeit | |
CN107679987A (zh) | 资产配置策略获取方法、装置、计算机设备和存储介质 | |
CN111079009A (zh) | 一种用于政务地图服务的用户兴趣检测方法及系统 | |
CN108596765A (zh) | 一种金融电子资源推荐方法和装置 | |
Crama et al. | Control and voting power in corporate networks: Concepts and computational aspects | |
CN101120322A (zh) | 估算事务处理响应时间的方法和系统 | |
Mead | Requirements prioritization introduction | |
Bayram et al. | Application of reference class forecasting in Turkish public construction projects: contractor perspective | |
CN109767333A (zh) | 选基方法、装置、电子设备及计算机可读存储介质 | |
CN106469182A (zh) | 一种基于映射关系的信息推荐方法及装置 | |
Gomes Jr | In-class social networks and academic performance: how good connections can improve grades | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District Applicant after: Guoxin Youyi Data Co., Ltd Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing Applicant before: SIC YOUE DATA Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |
|
RJ01 | Rejection of invention patent application after publication |