CN110597874A - 数据分析模型的创建方法、装置、计算机设备和存储介质 - Google Patents

数据分析模型的创建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110597874A
CN110597874A CN201910791359.8A CN201910791359A CN110597874A CN 110597874 A CN110597874 A CN 110597874A CN 201910791359 A CN201910791359 A CN 201910791359A CN 110597874 A CN110597874 A CN 110597874A
Authority
CN
China
Prior art keywords
data
analysis model
data analysis
model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910791359.8A
Other languages
English (en)
Other versions
CN110597874B (zh
Inventor
伍育珂
郎朗
张茂华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Guangdong Network Construction Co Ltd
Original Assignee
Digital Guangdong Network Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Guangdong Network Construction Co Ltd filed Critical Digital Guangdong Network Construction Co Ltd
Priority to CN201910791359.8A priority Critical patent/CN110597874B/zh
Publication of CN110597874A publication Critical patent/CN110597874A/zh
Application granted granted Critical
Publication of CN110597874B publication Critical patent/CN110597874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种数据分析模型的创建方法、装置、计算机设备和存储介质,展示多个基础模型选项,根据对该多个基础模型选项的选择操作确定初始数据分析模型,该初始数据分析模型携带待训练的模型参数值,然后确定初始数据分析模型的标签和数据特征,并获取与该标签和数据特征相匹配的测试数据集,最后利用该测试数据集对初始数据分析模型的模型参数值进行训练,从而创建数据分析模型。该方案能够基于用户对初始数据分析模型选取,以及对该模型的标签和数据特征的选择获取相应的测试数据集自动完成对模型参数值的训练,从而能够高效且灵活地创建出用户所需要的数据分析模型,便于用户通过该数据分析模型对相关业务领域中感兴趣的数据进行分析。

Description

数据分析模型的创建方法、装置、计算机设备和存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据分析模型的创建方法、数据分析模型的创建装置、计算机设备和计算机可读存储介质。
背景技术
大数据作为云计算中的核心能力和资源,长期以来通常是面对于大数据开发人员,用于机器学习和模型训练。而在具体的业务领域当中,通常需要利用平台提供的大数据资源对相关的数据进行分析,例如可以基于对数据的分析思想进行转化,创建成相应的评估算法或模型,从而大大提到对数据进行分析处理的效率。
传统技术中,数据分析模型的创建过程需要业务领域的从业人员学习相关编程语言并进行手动编程,而由于对数据进行分析所涉及的数据分析模型不同且模型的种类数量繁多,大大提高了创建模型的工作量,导致采用这种技术创建数据分析模型的效率较低。
发明内容
基于此,有必要针对传统技术创建数据分析模型的效率较低的技术问题,提供一种数据分析模型的创建方法、数据分析模型的创建装置、计算机设备和计算机可读存储介质。
一种数据分析模型的创建方法,包括步骤:
展示多个基础模型选项;
根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;
确定所述初始数据分析模型的标签和数据特征;
获取与所述标签和数据特征相匹配的测试数据集;
利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
一种数据分析模型的创建装置,包括:
选项展示模块,用于展示多个基础模型选项;
第一确定模块,用于根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;
第二确定模块,用于确定所述初始数据分析模型的标签和数据特征;
数据获取模块,用于获取与所述标签和数据特征相匹配的测试数据集;
模型训练模块,用于利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
展示多个基础模型选项;根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;确定所述初始数据分析模型的标签和数据特征;获取与所述标签和数据特征相匹配的测试数据集;利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
展示多个基础模型选项;根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;确定所述初始数据分析模型的标签和数据特征;获取与所述标签和数据特征相匹配的测试数据集;利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
上述数据分析模型的创建方法、装置、计算机设备和存储介质,展示多个基础模型选项,根据对该多个基础模型选项的选择操作确定初始数据分析模型,该初始数据分析模型携带待训练的模型参数值,然后确定初始数据分析模型的标签和数据特征,并获取与该标签和数据特征相匹配的测试数据集,最后利用该测试数据集对初始数据分析模型的模型参数值进行训练,从而创建数据分析模型。该方案能够基于用户对初始数据分析模型选取,以及对该模型的标签和数据特征的选择获取相应的测试数据集自动完成对模型参数值的训练,从而能够高效且灵活地创建出用户所需要的数据分析模型,便于用户通过该数据分析模型对相关业务领域中感兴趣的数据进行分析。
附图说明
图1为一个实施例中数据分析模型的创建方法的应用场景图;
图2为一个实施例中数据分析模型的创建方法的流程示意图;
图3为一个实施例中创建数据分析模型的界面图;
图4为一个实施例中数据分析模型的创建装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明实施例所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明提供的数据分析模型的创建方法,可以应用于如图1所示的应用场景中,图1为一个实施例中数据分析模型的创建方法的应用场景图,该应用场景可以包括终端100。用户可以通过该终端100,方便地创建出其所需要的数据分析模型,其中,该终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。具体的,该终端100可以展示多个基础模型选项,用户可以对该多个基础模型选项进行选择,可以在该终端100上触发对多个基础模型选项中的一个的选择操作,然后终端100根据该选择操作确定出初始数据分析模型,该初始数据分析模型当中携带有待训练的模型参数值。然后用户可以选择该初始数据分析模型的标签和数据特征,从而在终端100确定了用户选择的标签和数据特征后,获取与该标签和数据特征相匹配的测试数据集,最后利用该测试数据集对初始数据分析模型的模型参数值进行训练,得到训练后的模型参数值,基于该训练后的模型参数值创建出数据分析模型。在得到数据分析模型以后,用户可以在终端100上对该数据分析模型进行使用和管理,例如将待分析的数据输入到该数据分析模型,该数据分析模型对输入的数据进行分析后即可将分析结果反馈给用户,也可以对该数据分析模型进行参数管理等操作,一方面提高了创建数据分析模型的效率,另一方面也便于用户结合业务领域特点,灵活地创建出合适的数据分析模型来对感兴趣的数据进行分析。
在一个实施例中,提供了一种数据分析模型的创建方法,参考图2,图2为一个实施例中数据分析模型的创建方法的流程示意图,该方法可以基于如图1所示的终端100进行实现,该数据分析模型的创建方法可以包括以下步骤:
步骤S101,展示多个基础模型选项。
本步骤,终端100可以展示多个基础模型选项。其中,该基础模型选项当中包括有多个选项,各个选项对应于不同的基础模型,基础模型可以是用于对数据进行分析的通用算法模型,如二元线性回归模型、三元线性回归模型、聚类算法模型等等。如图3所示,图3为一个实施例中创建数据分析模型的界面图,终端100可以显示一个用于创建数据分析模型的界面,其中,“选择通用算法”对应于本步骤展示多个基础模型选项,每个基础模型对应于不同的通用算法。
步骤S102,根据对多个基础模型选项的选择操作确定初始数据分析模型。
本步骤中,用户可以结合待分析的相关业务领域的数据特点,对多个基础模型选项中的基础模型进行选择,将用户选择的基础模型作为初始数据分析模型。其中,该初始数据模型是指未经过训练的模型,该初始数据分析模型当中携带有待训练的模型参数值。一般来说,数据分析模型包括多个模型参数值,举例来说,z=ax+by可以作为一个数据分析模型,其中,x和y是该数据分析模型的自变量,z为因变量,而a和b则表示该数据分析模型的模型参数值,在未训练之前,该a和b为未知量,即待训练的模型参数值。
步骤S103,确定初始数据分析模型的标签和数据特征。
其中,初始数据分析模型除了携带有模型参数值以外,还包括标签和数据特征,其中,标签对应于数据分析模型的分析结果值,是指该数据分析模型的分析结果值的具体含义,而数据特征对应于数据分析模型的输入变量,是输入变量的具体含义。以z=ax+by为例,z为标签,可以表示pm2.5指数,x和y为数据特征,x可以代表气温,y可以代表湿度。本步骤中,用户可以结合业务领域的数据特点,在终端100上为该初始数据分析模型设置好标签和数据特征,从而终端100能够确定该初始数据分析模型的标签和数据特征。
步骤S104,获取与标签和数据特征相匹配的测试数据集。
本步骤主要是获取测试数据集。由于初始数据分析模型是未经训练的,其携带有未知的模型参数值,所以需要获取相应的测试数据集对其进行训练。本步骤中,终端100可以基于标签和数据特征,为该初始数据分析模型查询匹配的测试数据集。以z=ax+by为例,在确定z表示pm2.5指数,x代表气温和y代表湿度后,可以获取如时序数据库中预存的这3个数据集作为测试数据集。其中,该测试数据集的来源可以是其他终端设备上传到平台的数据。由于测试数据集是与标签和数据特征相匹配,当在创建模型的过程中将标签或数据特征进行了替换,则需要重新获取测试数据集,避免训练出不可靠的数据分析模型。
步骤S105,利用测试数据集对初始数据分析模型的模型参数值进行训练,得到数据分析模型。
本步骤主要是利用步骤S104中获取的测试数据集对初始数据分析模型的模型参数值进行训练,从而得到训练后的模型参数值,基于该训练后的模型参数值能够创建出数据分析模型。具体的,设一个初始数据分析模型为:y=ax+b,预先给出100条数据对[y,x]作为测试数据集,需要求模型参数值a和b分别等于多少,才能满足这个模型在100条数据对的情况下都成立,该求取模型参数值a和b的过程就是本步骤对初始数据分析模型的模型参数值进行训练的过程,在得到模型参数值a和b后,即可得到数据分析模型,输入相应的x即可求取y,完成对数据的分析。
上述数据分析模型的创建方法,展示多个基础模型选项,根据对该多个基础模型选项的选择操作确定初始数据分析模型,该初始数据分析模型携带待训练的模型参数值,然后确定初始数据分析模型的标签和数据特征,并获取与该标签和数据特征相匹配的测试数据集,最后利用该测试数据集对初始数据分析模型的模型参数值进行训练,从而创建数据分析模型。该方案能够基于用户对初始数据分析模型选取,以及对该模型的标签和数据特征的选择获取相应的测试数据集自动完成对模型参数值的训练,从而能够高效且灵活地创建出用户所需要的数据分析模型,便于用户通过该数据分析模型对相关业务领域中感兴趣的数据进行分析。
在一个实施例中,步骤S103中的确定初始数据分析模型的标签和数据特征的步骤可以包括:
展示数据特征的候选列表;该候选列表包括多个数据特征选项;根据对多个数据特征选项的选择操作,确定数据特征。
本实施例主要是终端100可以通过展示数据特征的候选列表的方式来确定数据特征。具体而言,终端100可以将包含有多个数据特征选项的候选列表进行展示,便于用户从多个候选特征选项中进行选择,在用户触发对多个候选特征选项的选择操作后,终端100即可基于该选择操作确定用户选择的数据特征。而用户可以对多个候选特征选项中的一个或多个进行选择,一般而言,选择的数据特征的数量需要与初始数据分析模型中所设定的特征数量相对应,少选或多选都有可能会导致模型的训练出现异常,导致需要后续进行人工纠错。
基于此,在一个实施例中,上述根据对多个数据特征选项的选择操作,确定数据特征的步骤,可以进一步包括:
获取初始数据分析模型的预设数据特征数量;根据对多个数据特征选项的选择操作,确定第一数据特征;若第一数据特征的数据特征数量与预设数据特征数量相同,则将第一数据特征设为数据特征。
本实施例,首先获取初始数据分析模型的预设数据特征数量,即明确该初始数据分析模型需要多少个数据特征,例如,对于y=ax+b,需要一个数据特征x;而对于z=ax+by,则需要两个数据特征x和y。然后,终端100可以在用户对多个数据特征选项进行选择后,确定第一数据特征,并获取该第一数据特征的数据特征数量,如用户选择了电流、电压作为第一数据特征,则第一数据特征的数据特征数量即为2。接着,终端100可以将该第一数据特征的数据特征数量与预设数据特征数量进行比较,若第一数据特征的数据特征数量与预设数据特征数量相同,则说明用户选择的数据特征的数据特征数量是与初始数据分析模型规定的数量是一致的,从而可以将该第一数据特征作为该初始数据分析模型的数据特征。
而在另一个实施例中,如果第一数据特征的数据特征数量与预设数据特征数量不相同,则说明第一数据特征的数据特征数量少于或多于预设数据特征数量,这样不能将第一数据特征作为该初始数据分析模型的数据特征,此时需要产生数据特征设置失败的提示信息,该提示信息可以以文字、图案及其结合等形式显示在终端100上,以使用户得知该提示信息,并通过语音、文字和图案等形式引导用户进行对数据特征数量进行调整,以使调整后的数据特征数量满足与预设数据特征数量相同的条件。
在一个实施例中,数据分析模型可以应用于对如电力设备的电压、电流等设备数据进行分析,而可以在展示上述数据特征的候选列表的步骤之前,通过如下步骤得到候选列表:
展示多个设备类型,根据对多个设备类型的选择操作确定目标设备类型;展示目标设备类型的多个设备型号,根据对多个设备型号的选择操作确定目标设备;根据目标设备的设备特征参数生成多个数据特征选项,得到候选列表。
本实施例主要是通过用户对设备类型和设备型号的选择生成多个数据特征选项,从而得到候选列表。具体的,参考图3,用户在选择通用算法即初始数据分析模型后,进一步对该初始数据分析模型的特征和标签进行定义。对于用于对设备数据进行分析的数据分析模型来说,终端100可以展示多个设备类型,用户先从多个设备类型中选择一个设备类型,在选择好设备类型后(如选择风力发电机),将该设备类型设置为目标设备类型(即风力发电机),然后终端100基于该目标设备类型进一步展示出多个设备型号,该设备型号是对应于目标设备类型的,可以是该目标设备类型现有的所有型号。然后用户可以对该设备型号进行选择,终端100可以根据用户对多个设备型号的选择操作锁定目标设备,即用户需要进行分析的设备(型号为NE-10K的风力发电机)。接着,在确定目标设备以后,终端100可以获取该目标设备的设备特征参数,如:风速、拉力、风向、气压、风轮转速、扭矩和气温等等,然后可以进一步将这些设备特征参数作为该初始数据分析模型的多个候选数据特征,生成相应的数据特征选项,从而得到候选列表,使得候选列表中展示的数据特征选项能够与设备特征参数相契合,从而保证用户选择的数据特征能够准确地对目标设备的设备数据进行分析。
在一个实施例中,步骤S104中的获取与标签和数据特征相匹配的测试数据集的步骤,可以包括:
确定测试数据集的目标数量;确定数据库中与标签和数据特征相匹配的测试数据集的总数量;若目标数量小于或等于总数量,则从数据库中获取所述测试数据集。
本实施例主要是在数据中存储的测试数据集的总数量能够满足当前的模型训练需求时,从数据库中获取相应的测试数据集。具体的,在对初始数据分析模型进行训练之前,终端100可以展示测试数据集数量的数量选项,用于询问用户需要采用多少数量的测试数据集来对模型进行训练,其中,每个数量选项对应于不同数量的测试数据集,如第一选项可以为“1000条测试数据”、第二选项可以为“5000条测试数据”以及第三选项可以为“100000条测试数据”等等,在一个实施例中,还可以显示输入框供用户自定义测试数据的数量。在用户输入或选择所需的测试数据集数量后,终端100将输入或选择所需的测试数据集数量作为目标数量,终端100还需要确定数据库中是否有足够数量的测试数据集,终端100可以访问存储有测试数据集的数据库,查询该数据库当中与该标签和数据特征相匹配的测试数据集的总数量。然后,终端100将该总数量与目标数量进行比较,若总数量大于目标数量,则说明数据库中有足够的测试数据集供模型训练使用,此时终端100可以从该数据库中获取与目标数量相对应的测试数据集,否则,终端100需要提示数据集数量不足的提示信息,并引导用户重新选择测试数据集的数量,以使重新选择的测试数据集能够满足小于或等于总数量的要求。
在一个实施例中,在步骤S104之后,还可以包括如下步骤:
展示测试数据集;该测试数据集包括第一标签数据集和数据特征数据集;根据对第一标签数据集的编辑操作,得到第二标签数据集;利用第二标签数据集和数据特征数据集重新生成测试数据集。
本实施例中,终端100可以在获取测试数据集后,将该测试数据集进行展示,以使用户通过该终端100能够查看到测试数据集,其中,该测试数据集可以包括第一标签数据集和数据特征数据集,该第一标签数据集是指对应于标签的测试数据集,数据特征数据集是指对应于数据特征的测试数据集。终端100可以提供对第一标签数据集进行编辑的功能,即用户可以在该终端100上触发对该第一标签数据集进行编辑操作,这种情况一般适用于该第一标签数据缺失或与经验值差异较大的情况,便于可以通过人工进行纠正,从而确保模型训练的准确性。终端100可以获取用户对该第一标签数据集的如数值修改等编辑操作,然后基于该编辑操作得到第二标签数据集,即编辑后的标签数据集,然后利用该第二标签数据集和数据特征数据集来重新生成测试数据集。
在一个实施例中,步骤S105中的利用测试数据集对初始数据分析模型的模型参数值进行训练,得到数据分析模型的步骤,可以包括:
利用测试数据集对初始数据分析模型的模型参数值进行训练,得到第一模型参数值;根据对第一模型参数值的数值调整处理,得到第二模型参数值;基于第二模型参数值创建数据分析模型。
本实施例主要是提供对训练后的模型参数值进行数值调整的功能,具体而言,终端100在得到测试数据集以后,可以利用该测试数据集对初始数据分析模型的模型参数值进行训练,从而得到第一模型参数值,而该第一模型参数值可以通过人工进行纠正,这种情况一般需要用户具有相关的数据纠错能力和依据,终端100可以将第一模型参数值进行展示并将其设置为可编辑状态,使得用户能够在终端100上对该第一模型参数值进行数值调整,数值调整完成后终端100得到第二模型参数值,即数值调整后的第一模型参数值,然后终端100即可利用该第二模型参数值创建出数据分析模型。
在一个实施例中,提供了一种数据分析模型的创建装置,参考图4,图4为一个实施例中数据分析模型的创建装置的结构框图,该数据分析模型的创建装置可以包括:
选项展示模块101,用于展示多个基础模型选项;
第一确定模块102,用于根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;
第二确定模块103,用于确定所述初始数据分析模型的标签和数据特征;
数据获取模块104,用于获取与所述标签和数据特征相匹配的测试数据集;
模型训练模块105,用于利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
在一个实施例中,第二确定模块103包括:
展示单元,用于展示数据特征的候选列表;候选列表包括多个数据特征选项;
确定单元,用于根据对多个数据特征选项的选择操作,确定数据特征。
在一个实施例中,确定单元进一步用于:获取初始数据分析模型的预设数据特征数量;根据对多个数据特征选项的选择操作,确定第一数据特征;若第一数据特征的数据特征数量与预设数据特征数量相同,则将第一数据特征设为数据特征。
在一个实施例中,确定单元还进一步用于:若否,则产生数据特征设置失败的提示信息。
在一个实施例中,数据分析模型用于对设备数据进行分析;还可以包括:
列表生成单元,用于展示多个设备类型,根据对多个设备类型的选择操作确定目标设备类型;展示目标设备类型的多个设备型号,根据对多个设备型号的选择操作确定目标设备;根据目标设备的设备特征参数生成多个数据特征选项,得到候选列表。
在一个实施例中,数据获取模块104进一步用于:
确定测试数据集的目标数量;确定数据库中与标签和数据特征相匹配的测试数据集的总数量;若目标数量小于或等于总数量,则从数据库中获取测试数据集。
在一个实施例中,还可以包括:
数据集生成模块,用于展示测试数据集;测试数据集包括第一标签数据集和数据特征数据集;根据对第一标签数据集的编辑操作,得到第二标签数据集;利用第二标签数据集和数据特征数据集重新生成测试数据集。
在一个实施例中,模型训练模块105进一步用于:利用测试数据集对初始数据分析模型的模型参数值进行训练,得到第一模型参数值;根据对第一模型参数值的数值调整处理,得到第二模型参数值;基于第二模型参数值创建数据分析模型。
本发明的数据分析模型的创建装置与本发明的数据分析模型的创建方法一一对应,关于数据分析模型的创建装置的具体限定可以参见上文中对于数据分析模型的创建方法的限定,在上述数据分析模型的创建方法的实施例阐述的技术特征及其有益效果均适用于数据分析模型的创建装置的实施例中,在此不再赘述。上述数据分析模型的创建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示,图5为一个实施例中计算机设备的内部结构图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分析模型的创建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项实施例所述的数据分析模型的创建方法。
在一个实施例中,提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
展示多个基础模型选项;根据对多个基础模型选项的选择操作确定初始数据分析模型;初始数据分析模型携带待训练的模型参数值;确定初始数据分析模型的标签和数据特征;获取与标签和数据特征相匹配的测试数据集;利用测试数据集对初始数据分析模型的模型参数值进行训练,得到数据分析模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
展示数据特征的候选列表;候选列表包括多个数据特征选项;根据对多个数据特征选项的选择操作,确定数据特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取初始数据分析模型的预设数据特征数量;根据对多个数据特征选项的选择操作,确定第一数据特征;若第一数据特征的数据特征数量与预设数据特征数量相同,则将第一数据特征设为数据特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若否,则产生数据特征设置失败的提示信息。
在一个实施例中,数据分析模型用于对设备数据进行分析;处理器执行计算机程序时还实现以下步骤:
展示多个设备类型,根据对多个设备类型的选择操作确定目标设备类型;展示目标设备类型的多个设备型号,根据对多个设备型号的选择操作确定目标设备;根据目标设备的设备特征参数生成多个数据特征选项,得到候选列表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定测试数据集的目标数量;确定数据库中与标签和数据特征相匹配的测试数据集的总数量;若目标数量小于或等于总数量,则从所述数据库中获取测试数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
展示测试数据集;测试数据集包括第一标签数据集和数据特征数据集;根据对第一标签数据集的编辑操作,得到第二标签数据集;利用第二标签数据集和数据特征数据集重新生成测试数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
利用测试数据集对初始数据分析模型的模型参数值进行训练,得到第一模型参数值;根据对第一模型参数值的数值调整处理,得到第二模型参数值;基于第二模型参数值创建数据分析模型。
上述计算机设备,通过所述处理器上运行的计算机程序,能够基于用户对初始数据分析模型选取,以及对该模型的标签和数据特征的选择获取相应的测试数据集自动完成对模型参数值的训练,从而能够高效且灵活地创建出用户所需要的数据分析模型,便于用户通过该数据分析模型对相关业务领域中感兴趣的数据进行分析。
本领域普通技术人员可以理解实现如上任一项实施例所述的数据分析模型的创建方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
据此,在一个实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上任一项实施例所述的数据分析模型的创建方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
展示多个基础模型选项;根据对多个基础模型选项的选择操作确定初始数据分析模型;初始数据分析模型携带待训练的模型参数值;确定初始数据分析模型的标签和数据特征;获取与标签和数据特征相匹配的测试数据集;利用测试数据集对初始数据分析模型的模型参数值进行训练,得到数据分析模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
展示数据特征的候选列表;候选列表包括多个数据特征选项;根据对多个数据特征选项的选择操作,确定数据特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取初始数据分析模型的预设数据特征数量;根据对多个数据特征选项的选择操作,确定第一数据特征;若第一数据特征的数据特征数量与预设数据特征数量相同,则将第一数据特征设为数据特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若否,则产生数据特征设置失败的提示信息。
在一个实施例中,数据分析模型用于对设备数据进行分析;计算机程序被处理器执行时还实现以下步骤:
展示多个设备类型,根据对多个设备类型的选择操作确定目标设备类型;展示目标设备类型的多个设备型号,根据对多个设备型号的选择操作确定目标设备;根据目标设备的设备特征参数生成多个数据特征选项,得到候选列表。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定测试数据集的目标数量;确定数据库中与标签和数据特征相匹配的测试数据集的总数量;若目标数量小于或等于总数量,则从所述数据库中获取测试数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
展示测试数据集;测试数据集包括第一标签数据集和数据特征数据集;根据对第一标签数据集的编辑操作,得到第二标签数据集;利用第二标签数据集和数据特征数据集重新生成测试数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
利用测试数据集对初始数据分析模型的模型参数值进行训练,得到第一模型参数值;根据对第一模型参数值的数值调整处理,得到第二模型参数值;基于第二模型参数值创建数据分析模型。
上述计算机可读存储介质,通过其存储的计算机程序,能够基于用户对初始数据分析模型选取,以及对该模型的标签和数据特征的选择获取相应的测试数据集自动完成对模型参数值的训练,从而能够高效且灵活地创建出用户所需要的数据分析模型,便于用户通过该数据分析模型对相关业务领域中感兴趣的数据进行分析。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种数据分析模型的创建方法,其特征在于,包括步骤:
展示多个基础模型选项;
根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;
确定所述初始数据分析模型的标签和数据特征;
获取与所述标签和数据特征相匹配的测试数据集;
利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
2.根据权利要求1所述的数据分析模型的创建方法,其特征在于,所述确定所述初始数据分析模型的标签和数据特征的步骤包括:
展示数据特征的候选列表;所述候选列表包括多个数据特征选项;
根据对所述多个数据特征选项的选择操作,确定所述数据特征。
3.根据权利要求2所述的数据分析模型的创建方法,其特征在于,所述根据对所述多个数据特征选项的选择操作,确定所述数据特征的步骤包括:
获取所述初始数据分析模型的预设数据特征数量;
根据对所述多个数据特征选项的选择操作,确定第一数据特征;
若所述第一数据特征的数据特征数量与所述预设数据特征数量相同,则将所述第一数据特征设为所述数据特征。
4.根据权利要求3所述的数据分析模型的创建方法,其特征在于,还包括步骤:
若否,则产生数据特征设置失败的提示信息。
5.根据权利要求2所述的数据分析模型的创建方法,其特征在于,所述数据分析模型用于对设备数据进行分析;
在所述展示数据特征的候选列表的步骤之前,还包括:
展示多个设备类型,根据对所述多个设备类型的选择操作确定目标设备类型;
展示所述目标设备类型的多个设备型号,根据对所述多个设备型号的选择操作确定目标设备;
根据所述目标设备的设备特征参数生成所述多个数据特征选项,得到所述候选列表。
6.根据权利要求1所述的数据分析模型的创建方法,其特征在于,所述获取与所述标签和数据特征相匹配的测试数据集的步骤包括:
确定所述测试数据集的目标数量;
确定数据库中与所述标签和数据特征相匹配的测试数据集的总数量;
若所述目标数量小于或等于所述总数量,则从所述数据库中获取所述测试数据集。
7.根据权利要求1所述的数据分析模型的创建方法,其特征在于,在所述获取与所述标签和数据特征相匹配的测试数据集的步骤之后,还包括:
展示所述测试数据集;所述测试数据集包括第一标签数据集和数据特征数据集;
根据对所述第一标签数据集的编辑操作,得到第二标签数据集;
利用所述第二标签数据集和所述数据特征数据集重新生成所述测试数据集。
8.根据权利要求1所述的数据分析模型的创建方法,其特征在于,所述利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型的步骤包括:
利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到第一模型参数值;
根据对所述第一模型参数值的数值调整处理,得到第二模型参数值;
基于所述第二模型参数值创建所述数据分析模型。
9.一种数据分析模型的创建装置,其特征在于,包括:
选项展示模块,用于展示多个基础模型选项;
第一确定模块,用于根据对所述多个基础模型选项的选择操作确定初始数据分析模型;所述初始数据分析模型携带待训练的模型参数值;
第二确定模块,用于确定所述初始数据分析模型的标签和数据特征;
数据获取模块,用于获取与所述标签和数据特征相匹配的测试数据集;
模型训练模块,用于利用所述测试数据集对所述初始数据分析模型的模型参数值进行训练,得到数据分析模型。
10.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN201910791359.8A 2019-08-26 2019-08-26 数据分析模型的创建方法、装置、计算机设备和存储介质 Active CN110597874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910791359.8A CN110597874B (zh) 2019-08-26 2019-08-26 数据分析模型的创建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910791359.8A CN110597874B (zh) 2019-08-26 2019-08-26 数据分析模型的创建方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110597874A true CN110597874A (zh) 2019-12-20
CN110597874B CN110597874B (zh) 2022-05-27

Family

ID=68855735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910791359.8A Active CN110597874B (zh) 2019-08-26 2019-08-26 数据分析模型的创建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110597874B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095377A (zh) * 2020-08-06 2022-02-25 中国移动通信有限公司研究院 模型训练、参数配置方法、装置及分析设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350671A1 (en) * 2015-05-28 2016-12-01 Predikto, Inc Dynamically updated predictive modeling of systems and processes
CN106250934A (zh) * 2016-08-12 2016-12-21 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106919164A (zh) * 2017-03-31 2017-07-04 河海大学 基于堆栈自动编码器的水利机组故障分析方法
CN109063308A (zh) * 2018-07-26 2018-12-21 北京航空航天大学 一种基于深度量子学习的健康评估方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN109684383A (zh) * 2018-12-25 2019-04-26 广州天鹏计算机科技有限公司 数据分析结果的获取方法、装置、计算机设备和存储介质
CN110059076A (zh) * 2019-04-19 2019-07-26 国网山西省电力公司电力科学研究院 一种输变电线路设备的故障数据库半自动化建立方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350671A1 (en) * 2015-05-28 2016-12-01 Predikto, Inc Dynamically updated predictive modeling of systems and processes
CN106250934A (zh) * 2016-08-12 2016-12-21 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106919164A (zh) * 2017-03-31 2017-07-04 河海大学 基于堆栈自动编码器的水利机组故障分析方法
CN109063308A (zh) * 2018-07-26 2018-12-21 北京航空航天大学 一种基于深度量子学习的健康评估方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN109684383A (zh) * 2018-12-25 2019-04-26 广州天鹏计算机科技有限公司 数据分析结果的获取方法、装置、计算机设备和存储介质
CN110059076A (zh) * 2019-04-19 2019-07-26 国网山西省电力公司电力科学研究院 一种输变电线路设备的故障数据库半自动化建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈凯 等: ""基于XGBoost算法的电网二次设备缺陷分类研究"", 《南京信息工程大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095377A (zh) * 2020-08-06 2022-02-25 中国移动通信有限公司研究院 模型训练、参数配置方法、装置及分析设备

Also Published As

Publication number Publication date
CN110597874B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108711110B (zh) 保险产品推荐方法、装置、计算机设备和存储介质
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
CN110297701A (zh) 数据处理作业调度方法、装置、计算机设备及存储介质
CN110991649A (zh) 深度学习模型搭建方法、装置、设备和存储介质
CN110941555B (zh) 测试用例推荐方法、装置、计算机设备和存储介质
CN111176990A (zh) 基于数据决策的测试数据生成方法、装置、计算机设备
CN110321284B (zh) 测试数据录入方法、装置、计算机设备和存储介质
CN109710933A (zh) 训练语料的获取方法、装置、计算机设备和存储介质
US20160350673A1 (en) System and method providing automatic completion of task structures in a project plan
CN112486828A (zh) 测试用例生成方法、装置、计算机设备和存储介质
CN111459796B (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110910864A (zh) 训练样本的选取方法、装置、计算机设备和存储介质
CN110362479B (zh) 系统升级测试方法和系统
CN109542962B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111552811B (zh) 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN111124898B (zh) 问答系统测试方法、装置、计算机设备和存储介质
CN117290236A (zh) 软件测试方法、装置、计算机设备及计算机可读存储介质
CN113645357B (zh) 通话质检方法、装置、计算机设备和计算机可读存储介质
CN110597874B (zh) 数据分析模型的创建方法、装置、计算机设备和存储介质
CN110177006B (zh) 基于接口预测模型的节点测试方法及装置
CN110874612B (zh) 时段预测方法、装置、计算机设备和存储介质
CN115238653A (zh) 一种报告生成方法、装置、设备和介质
CN111061875B (zh) 超参数确定方法、装置、计算机设备和存储介质
CN111191692B (zh) 基于决策树的数据计算方法、装置和计算机设备
CN110659316B (zh) 数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant