CN112101566A - 预测模型训练方法、价格预测方法、存储介质及电子设备 - Google Patents

预测模型训练方法、价格预测方法、存储介质及电子设备 Download PDF

Info

Publication number
CN112101566A
CN112101566A CN202010955586.2A CN202010955586A CN112101566A CN 112101566 A CN112101566 A CN 112101566A CN 202010955586 A CN202010955586 A CN 202010955586A CN 112101566 A CN112101566 A CN 112101566A
Authority
CN
China
Prior art keywords
factor
data corresponding
price
moment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010955586.2A
Other languages
English (en)
Inventor
逄勃
王涛
齐彦伟
李德华
张永成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petro CyberWorks Information Technology Co Ltd
Original Assignee
Petro CyberWorks Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Petro CyberWorks Information Technology Co Ltd filed Critical Petro CyberWorks Information Technology Co Ltd
Priority to CN202010955586.2A priority Critical patent/CN112101566A/zh
Publication of CN112101566A publication Critical patent/CN112101566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Water Supply & Treatment (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种预测模型训练方法、价格预测方法、存储介质及电子设备,通过获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格,从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据,对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型,以实现采用所述价格预测模型预测产品的价格,避免了现有技术中存在的价格预测不准确,且预测效率低下的问题。

Description

预测模型训练方法、价格预测方法、存储介质及电子设备
技术领域
本发明属于价格预测技术领域,具体涉及一种预测模型训练方法、价格预测方法、存储介质及电子设备。
背景技术
随着信息技术尤其是互联网技术的发展,目前一些综合金融信息网站上已经积累了大量的数据资源,其涵盖了各种不同行业的数据,以石化行业为例,综合金融信息网站上涵盖与石化产品相关的原油价格、美国EIA库存、美元指数等宏观经济数据,以及国内化工品产能、开工率、需求量、下游产品消费量等供需相关数据。
金融行业通常通过分析上述的信息来分析石油行业的价格走向,以调整生产产品时的开工率从而达到合理投入人工的目的,但是现有技术中,通常存在价格走向预测不准确,且效率低下的问题。
发明内容
本发明克服了现有技术的不足之一提供了一种预测模型训练方法、价格预测方法、存储介质及电子设备。
第一方面,本发明提供一种预测模型训练方法,包括获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格;
从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据;
对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型。
可选的,在上述预测模型训练方法中,对各时刻的产品价格及对应的处理后的因素数据采用预设算法进行训练以得到价格预测模型,包括:
将每个时刻的产品价格和该时刻处理后的因素数据作为与该时刻对应的样本数据;
将多个所述样本数据划分至训练样本集和验证样本集中,其中,所述训练样本集和验证样本集中分别包括多个样本数据;
将所述训练样本集中的多个样本数据采用多种预设算法分别进行训练以得到多个初始模型;
根据所述验证样本集中的多个样本数据对多个所述初始模型分别进行性能验证,以得到各所述初始模型的验证性能指标;
根据各所述初始模型的验证性能指标从多个初始模型中确定价格预测模型。
可选的,在上述预测模型训练方法中,所述多种预设算法包括Xgboost算法、GBRT算法以及LSTM算法中的至少两种。
可选的,在上述预测模型训练方法中,从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据,包括:
获取具有所述影响因素的多个爬取网址,并将各所述爬取网址分别作为预设网站的网址;
基于所述影响因素和多个所述预设网址生成爬虫程序,并利用所述爬虫程序爬取所述预设网址以得到各所述影响因素分别对应的爬取数据;
对每个所述影响因素对应的爬取数据分别进行处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
可选的,在上述预测模型训练方法中,所述爬虫程序中包括爬虫任务,利用所述爬虫程序爬取所述预设网址以得到各所述影响因素分别对应的爬取数据,包括:
将所述爬虫任务拆分成多个子任务,且每个所述子任务对应一个所述预设网址;
采用分布式的方式执行所述多个子任务,得到多个所述预设网址中各所述影响因素分别对应的爬取数据。
可选的,在上述预测模型训练方法中,对每个所述影响因素对应的爬取数据分别进行处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据,包括:
在确定存在影响因素对应的爬取数据中存在未对应有爬取数据的第一目标时刻时,根据缺失值处理算法及该影响因素对应的爬取数据中其他时刻对应的爬取数据,得到该第一目标时刻对应的爬取数据,从而得到每个所述影响因素在每个时刻下分别对应的爬取数据;
将每个所述影响因素在每个时刻分别对应的爬取数据分别进行归一化处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
可选的,在上述预测模型训练方法中,所述方法还包括:
根据各所述影响因素在每个所述时刻下分别对应的因素数据得到各影响因素在多个预设时长窗口内的最大值、最小值、均值、方差、多节差分中的一个或多个特征数据;
对各时刻的产品价格和各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型,包括:
对各时刻的产品价格、各所述影响因素在每个所述时刻下分别对应的因素数据,以及各所述影响因素对应的特征数据采用预设算法进行训练以得到价格预测模型。
第二方面,本发明还提供一种价格预测方法,所述方法包括:
获取影响目标产品的产品价格的多个影响因素分别对应的当前因素数据;
将所述当前因素数据输入至通过上述的预测模型训练方法获得的价格预测模型中,以得到产品预测价格。
第三方面,本发明还提供一种存储介质,该存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如上述的方法。
第四方面,本发明还提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述的方法。
本发明提供的一种预测模型训练方法、价格预测方法、存储介质及电子设备,通过获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格,从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据,对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型,以实现采用所述价格预测模型预测产品的价格,避免了现有技术中存在的价格预测不准确,且预测效率低下的问题。
附图说明
附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。
图1为本发明实施例提供的一种预测模型训练方法的流程示意图。
图2为图1中步骤S120的流程示意图。
图3为图1中步骤S130的流程示意图。
图4为本发明实施例提供的一种价格预测方法的流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
第一实施例
本实施例提供了一种预测模型训练方法,该方法应用于电子设备时,执行步骤S110至步骤S130。
步骤S110:获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格。
步骤S120:从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据。
步骤S130:对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型。
通过采用上述步骤S110至步骤S130,以实现根据目标产品的影响因素对应的当前因素数据预测产品的价格,避免了现有技术中通过人工分析预测的方式预测产品价格存在不准确,且实时性差的问题。此外,由于不同的价格会影响产品的生产量,因此,还可以通过预测产品的价格,以根据该价格调整生产产品时的开工率从而达到合理投入人工的目的。
在步骤S110中,获取影响目标产品的产品价格的多个影响因素的方式可以是获得根据专家经验和行业经验输入影响目标产品的产品价格的多个影响因素,或者获得预存于数据库或存储器中的影响目标产品的产品价格的多个影响因素。
获得影响目标产品在多个时刻下的产品价格的方式可以是从预设网站的网址中查找得到,也可以是接受用户输入的,在此不做具体限定,根据实际需求进行设置即可。多个时刻可以是每天、每小时、每个月,也可以是每天中的一些特定时刻、每周中或每月的特定日期,根据实际需求进行设置即可。
所述产品可以是蔬菜、水果、石油、生活用品或工业产品等,在此不做具体限定。
在步骤S120中,预设网站的网址可以是与上述产品相关的网站的网址,也可以是集成多个影响因素发布网站的URL地址,在此不做具体限定,获取各影响因素对应的因素数据的方式可以是采用爬虫的方式获取。
请结合参阅图2,在本实施例中,所述步骤S120包括:
步骤S122:获取具有所述影响因素的多个爬取网址,并将各所述爬取网址分别作为预设网站的网址。
其中,具有影响因素的爬取网址可以是具有所有影响因素的爬取网址,也可以是具有一个或多个影响因素的爬取网址。
步骤S124:基于所述影响因素和多个所述预设网址生成爬虫程序,并利用所述爬虫程序爬取所述预设网址以得到各所述影响因素分别对应的爬取数据。
其中,上述步骤S124具体可以是,基于影响因素和预设网址可以生成爬虫任务,并将爬虫任务注入一预设爬取程序以得到爬虫程序,以利用爬虫程序爬取所述预设网址以得到爬取数据。
在将爬虫任务注入预设爬取程序时,将多个爬取网址注入爬虫任务的指定字段中,在利用爬虫程序爬取预设网址时,基于爬虫任务对应的多个爬取网址将爬虫任务拆分成多个子任务,且每个所述子任务对应一个所述预设网址,执行多个子任务,得到多个爬取网址的爬取结果。
其中,执行多个子任务的方式可以是并行执行,也可以是依次执行,为提升数据爬取效率,在本实施例中,采用分布式的方式执行所述多个子任务,得到多个所述预设网址中各所述影响因素分别对应的爬取数据。
由于目前的数据发布网站(预设网站)往往采取多级分层页面架构,因此,所述爬取程序为多级列表抓取程序,在利用爬虫程序爬取多个爬取网址以得到爬取结果时,可以是针对1级列表页的结果地址进行源码再次解析,最多可以配置n级解析列表。最终,得到最底层列表中的数据,再次针对需要的字段选取读取策略以基于该读取策略得到需要获取的数据(爬取数据),该读取策略可以是前后截取、正则提取、xpath提取、json提取等策略,以数据进行处理,例如内容过滤,内容的忽略和替换,HTML标签的过滤等得到需要获取的数据(爬取数据)。
需要说明的是,在得到需要获取的数据(爬取数据)之后,可以创建爬虫抓取数据的存储表结构,并根据预先配置数据库类型、连接参数以及数据对应指标编码等,将影响因素数据进行存储,以实现对影响因素数据的共享和复用。
步骤S126:对每个所述影响因素对应的爬取数据分别进行处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
其中,对每个影响因素对应的爬取数据分别进行处理的方式可以包括对所述爬取数据进行缺失值处理、时间戳处理、分解类别属性处理、分箱/分区处理、特征扩充处理、特征交叉处理以及特征缩放处理。
为保障预测模型的准确性,对所述爬取数据进行处理的方式包括进行缺失值处理,所述步骤S126包括:
步骤S1261a:在确定存在影响因素对应的爬取数据中存在未对应有爬取数据的第一目标时刻时,根据缺失值处理算法及该影响因素对应的爬取数据中其他时刻对应的爬取数据,得到该第一目标时刻对应的爬取数据,从而得到每个所述影响因素在每个时刻下分别对应的爬取数据。
其中,缺失值处理算法可以是特殊值填充算法、均值填充算法、热卡填充算法、回归填充算法、K临近填充算法中的一种,在此不做具体限定,根据实际需求进行设置即可。
步骤S1261b:将每个所述影响因素在每个时刻分别对应的爬取数据分别进行归一化处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
其中,对爬取数据进行归一化处理,以实现利用数据标准化功能,将不同数值跨度的数据转化映射到[0,1]或[-1,1]之间,进而简化了后续模型训练过程中的计算过程,进而有效提升模型训练的效率。
通过在对爬取数据进行缺失值处理和归一化处理后,可以有效提升后续对模型训练的效率和准确性。
为提升模型训练的效率,在本实施例中,所述步骤S126中,对每个所述影响因素对应的爬取数据分别进行处理的步骤包括:
对每个所述影响因素对应的爬取数据的时间戳进行标准化处理,以使处理后的各爬取数据的时间格式相同,且可以包括年、月、日、时刻等信息,还可以包括星期、农历日期等信息。
为便于对采用价格预测模型对爬取到的多个离散的数据进行标准化处理,在本实施例中,对每个所述影响因素对应的爬取数据分别进行处理的步骤包括,对每个所述影响因素对应的爬取数据分别采用One-Hot方式进行标准化处理。
为减少价格预测模型的噪声干扰,还可以将部分影响因素对应的数据进行分箱/分区处理,以将一定范围内的影响因素的爬取数值划分成确定的块。其中,上述的分箱/分区方式包括卡方分箱方式或best-KS分箱方式。
为提高价格预测模型的复杂度和鲁棒性,还可以将影响因素的类型进行扩充,具体的,在本实施例中,所述方法还包括:
根据各所述影响因素在每个所述时刻下分别对应的因素数据得到各影响因素在多个预设时长窗口内的最大值、最小值、均值、方差、多节差分中的一个或多个特征数据。步骤S130中:对各时刻的产品价格和各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型,包括:对各时刻的产品价格、各所述影响因素在每个所述时刻下分别对应的因素数据,以及各所述影响因素对应的特征数据采用预设算法进行训练以得到价格预测模型。
为进一步提高价格预测模型的复杂度,还可以将一种或多种影响因素进行线性组合,以实现特征交叉处理。
在步骤S130中,采用预设算法进行训练得到价格预测模型的方式可以是,采用多种算法进行训练以得到多个模型,从多个模型中选取一个模型作为价格预测模型。上述的多种算法可以是Xgboost算法、GBRT算法、LSTM算法以及GBDT算法中的至少两种。
请结合参阅图3,上述步骤S130包括:
步骤S131:将每个时刻的产品价格和该时刻处理后的因素数据作为与该时刻对应的样本数据。
步骤S132:将多个所述样本数据划分至训练样本集和验证样本集中,其中,所述训练样本集和验证样本集中分别包括多个样本数据。
其中,所述训练样本集中包括的样本数据与所述验证样本集中包括的样本数据的比值可以是8:2,也可以是7:3,只要训练样本集中的样本数据的数量大于验证样本集中样本数据的数量即可,在此不做具体限定,根据实际需求进行设置即可。
步骤S133:将所述训练样本集中的多个样本数据采用多种预设算法分别进行训练以得到多个初始模型。
其中,上述的多个预设算法包括Xgboost算法、GBRT算法以及LSTM算法中的至少两种。
需要说明的是,在训练得到每个初始模型的过程中,均会采用Grid Search网格搜索方法,选取最优参数,以在最优参数下进行模型训练得到性能最佳的初始模型。
步骤S134:根据所述验证样本集中的多个样本数据对多个所述初始模型分别进行性能验证,以得到各所述初始模型的验证性能指标。
上述步骤S134具体可以是,针对每个初始模型,将多个样本数据中的因素数据分别输入至该初始模型中以得到每个样本数据对应的预测结果,将根据每个样本数据对应的预测结果和该样本数据中的价格进行匹配度计算以得到该初始模型对应的验证性能指标。
步骤S135:根据各所述初始模型的验证性能指标从多个初始模型中确定价格预测模型。
上述步骤S135可以是,将上述各初始模型的验证性能指标中匹配度值为最高的一个对应的初始模型作为价格预测模型。
通过上述方法,实现了利用程序化、定制化设定的网络爬虫自动可方便快捷地提取预设网站的网址中爬取并处理得到影响目标产品价格的因素数据,同时,依据机器学习的经典VC维理论指出,模型或函数越复杂,学习能力就越强,扩充了影响因素的维度,以在采用上述的因素数据和预设算法进行训练得到价格预测模型时,增加了模型的复杂度和学习能力,实现高维建模。此外,在预测模型训练过程中Grid Search技术实现自动调参,从而减少了参数调试的工作,提高预测效率。最后,通过上述获得的价格预测模型进行价格预测时,能够大大提高价格预测的效率、实时性和准确性,减少人工投入。同事避免了现有技术中存在的,在实际生产过程中,由于不能准确预测价格存在生产产品时的开工率不合理,进而造成投入人工的不合理的问题。
以石油行业为例,影响石油价格的影响因素包括美国EIA库存、美元指数等宏观经济数据,以及国内化工品产能、开工率、需求量、下游产品消费量,通过设置爬虫程序爬取该行业对应的金融信息网站并对爬取到的爬取数据进行缺失值处理、时间戳处理以及归一化处理等处理之后,以得到上述每个影响因素对应在每天的因素数据,将每天的因素数据分别作为与该时刻对应的样本数据,并将获得的多个样本数据划至训练样本集中和验证样本集中,对训练样本集中地数据采用Xgboost算法、GBRT算法以及LSTM算法分别进行训练以得到与各算法分别对应的初始模型,并采用验证的样本及对各初始模型分别验证,以基于验证结果从各算法分别对应的初始模型中确认一价格预测模型。
实施例二
请结合参阅图4,本实施例提供了一种价格预测方法,所述方法包括:
步骤S210:获取影响目标产品的产品价格的多个影响因素分别对应的当前因素数据。
步骤S220:将所述当前因素数据输入至通过预测模型训练方法获得的价格预测模型中,以得到产品预测价格。
关于所述预测模型训练方法的具体描述可以参阅实施例一中的具体描述,在此不作一一赘述。
实施例三
本实施例还提供一种存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现实施例一中的预测模型训练方法和价格预测方法。
上述方法步骤的具体实施例过程可参见实施例一和实施例二,本实施例在此不再重复赘述。
实施例四
本申请实施例提供了一种电子设备,该电子设备可以是手机、电脑或平板电脑等,包括存储器和处理器,所述存储器上存储有计算器程序,该计算机程序被处理器执行时实现如实施例一中所述的预测模型训练方法和实施例二所述的价格预测方法。可以理解,电子设备还可以包括,多媒体组件,输入/输出(I/O)接口,以及通信组件。
其中,处理器用于执行如实施例一中的预设模型训练方法的和实施例二中的价格预测方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例一中的预设模型训练方法的和实施例二中的价格预测方法中的全部或部分步骤。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件可以包括屏幕和音频组件,所述屏幕可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件用于该电子设备与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
综上,本发明提供的一种预测模型训练方法、价格预测方法、存储介质及电子设备,通过获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格,从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据,对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型以实现采用所述价格预测模型预测产品的价格,避免了现有技术中存在的价格预测不准确,且预测效率低下的问题。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种预测模型训练方法,其特征在于,所述方法包括:
获取影响目标产品的产品价格的多个影响因素,及该目标产品在多个时刻下的产品价格;
从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据;
对各时刻的产品价格及各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型。
2.根据权利要求1所述的预测模型训练方法,其特征在于,对各时刻的产品价格及对应的处理后的因素数据采用预设算法进行训练以得到价格预测模型,包括:
将每个时刻的产品价格和该时刻处理后的因素数据作为与该时刻对应的样本数据;
将多个所述样本数据划分至训练样本集和验证样本集中,其中,所述训练样本集和验证样本集中分别包括多个样本数据;
将所述训练样本集中的多个样本数据采用多种预设算法分别进行训练以得到多个初始模型;
根据所述验证样本集中的多个样本数据对多个所述初始模型分别进行性能验证,以得到各所述初始模型的验证性能指标;
根据各所述初始模型的验证性能指标从多个初始模型中确定价格预测模型。
3.根据权利要求2所述的预测模型训练方法,其特征在于,所述多种预设算法包括Xgboost算法、GBRT算法以及LSTM算法中的至少两种。
4.根据权利要求1所述的预测模型训练方法,其特征在于,从预设网站的网址中获取各所述影响因素在每个所述时刻下分别对应的因素数据,包括:
获取具有所述影响因素的多个爬取网址,并将各所述爬取网址分别作为预设网站的网址;
基于所述影响因素和多个所述预设网址生成爬虫程序,并利用所述爬虫程序爬取所述预设网址以得到各所述影响因素分别对应的爬取数据;
对每个所述影响因素对应的爬取数据分别进行处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
5.根据权利要求4所述的预测模型训练方法,其特征在于,所述爬虫程序中包括爬虫任务,利用所述爬虫程序爬取所述预设网址以得到各所述影响因素分别对应的爬取数据,包括:
将所述爬虫任务拆分成多个子任务,且每个所述子任务对应一个所述预设网址;
采用分布式的方式执行所述多个子任务,得到多个所述预设网址中各所述影响因素分别对应的爬取数据。
6.根据权利要求4所述的预测模型训练方法,其特征在于,对每个所述影响因素对应的爬取数据分别进行处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据,包括:
在确定存在影响因素对应的爬取数据中存在未对应有爬取数据的第一目标时刻时,根据缺失值处理算法及该影响因素对应的爬取数据中其他时刻对应的爬取数据,得到该第一目标时刻对应的爬取数据,从而得到每个所述影响因素在每个时刻下分别对应的爬取数据;
将每个所述影响因素在每个时刻分别对应的爬取数据分别进行归一化处理,以得到各所述影响因素在每个所述时刻下分别对应的因素数据。
7.根据权利要求1所述的预测模型训练方法,其特征在于,所述方法还包括:
根据各所述影响因素在每个所述时刻下分别对应的因素数据得到各影响因素在多个预设时长窗口内的最大值、最小值、均值、方差、多节差分中的一个或多个特征数据;
对各时刻的产品价格和各所述影响因素在每个所述时刻下分别对应的因素数据采用预设算法进行训练以得到价格预测模型,包括:
对各时刻的产品价格、各所述影响因素在每个所述时刻下分别对应的因素数据,以及各所述影响因素对应的特征数据采用预设算法进行训练以得到价格预测模型。
8.一种价格预测方法,其特征在于,所述方法包括:
获取影响目标产品的产品价格的多个影响因素分别对应的当前因素数据;
将所述当前因素数据输入至通过上述权利要求1-7中任意一项的预测模型训练方法获得的价格预测模型中,以得到产品预测价格。
9.一种存储介质,该存储介质存储有计算机程序,其特征在于,所述计算机程序被一个或多个处理器执行时实现如权利要求1-7中任意一项所述的方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1-7任意一项所述的方法。
CN202010955586.2A 2020-09-11 2020-09-11 预测模型训练方法、价格预测方法、存储介质及电子设备 Pending CN112101566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010955586.2A CN112101566A (zh) 2020-09-11 2020-09-11 预测模型训练方法、价格预测方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010955586.2A CN112101566A (zh) 2020-09-11 2020-09-11 预测模型训练方法、价格预测方法、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112101566A true CN112101566A (zh) 2020-12-18

Family

ID=73752413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955586.2A Pending CN112101566A (zh) 2020-09-11 2020-09-11 预测模型训练方法、价格预测方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112101566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907611A (zh) * 2022-12-08 2023-04-04 成都工业学院 一种基于配件市场价值的配件库存管控方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869019A (zh) * 2016-03-31 2016-08-17 金蝶软件(中国)有限公司 一种商品价格预测方法及装置
CN109117380A (zh) * 2018-09-28 2019-01-01 中国科学院长春光学精密机械与物理研究所 一种软件质量评价方法、装置、设备及可读存储介质
WO2019114413A1 (zh) * 2017-12-11 2019-06-20 北京三快在线科技有限公司 模型训练
CN109978619A (zh) * 2019-03-25 2019-07-05 携程旅游网络技术(上海)有限公司 机票定价策略筛选的方法、系统、设备以及介质
WO2019237657A1 (zh) * 2018-06-15 2019-12-19 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN111027745A (zh) * 2019-11-08 2020-04-17 广东财经大学 一种基于自适应特征提取的股票指数预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869019A (zh) * 2016-03-31 2016-08-17 金蝶软件(中国)有限公司 一种商品价格预测方法及装置
WO2019114413A1 (zh) * 2017-12-11 2019-06-20 北京三快在线科技有限公司 模型训练
WO2019237657A1 (zh) * 2018-06-15 2019-12-19 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN109117380A (zh) * 2018-09-28 2019-01-01 中国科学院长春光学精密机械与物理研究所 一种软件质量评价方法、装置、设备及可读存储介质
CN109978619A (zh) * 2019-03-25 2019-07-05 携程旅游网络技术(上海)有限公司 机票定价策略筛选的方法、系统、设备以及介质
CN111027745A (zh) * 2019-11-08 2020-04-17 广东财经大学 一种基于自适应特征提取的股票指数预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907611A (zh) * 2022-12-08 2023-04-04 成都工业学院 一种基于配件市场价值的配件库存管控方法
CN115907611B (zh) * 2022-12-08 2023-08-15 成都工业学院 一种基于配件市场价值的配件库存管控方法

Similar Documents

Publication Publication Date Title
US11327935B2 (en) Intelligent data quality
US12079568B2 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
Otoiu et al. Open issues in composite indicators. A starting point and a reference on some state-of-the-art issues
CN103778555A (zh) 基于用户标签的用户属性挖掘方法和系统
CN102915237A (zh) 根据用户应用程序要求改写数据质量规则的方法和系统
WO2018079225A1 (ja) 自動予測システム、自動予測方法および自動予測プログラム
US10740772B2 (en) Systems and methods for forecasting based upon time series data
CN114722729B (zh) 一种刀具自动推荐方法、装置、终端及存储介质
WO2017106559A1 (en) Systems and methods for forecasting based upon time series data
CN113885859A (zh) 一种基于sis生产运行数据的低代码报表实现方法
Lehmann et al. Big Data architecture for intelligent maintenance: a focus on query processing and machine learning algorithms
CN112101566A (zh) 预测模型训练方法、价格预测方法、存储介质及电子设备
CN117453805B (zh) 一种不确定性数据的可视化分析方法
WO2021240370A1 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
WO2021059291A1 (en) Method and system for identification and analysis of regime shift
JP6617605B2 (ja) 需要量予測プログラム、需要量予測方法、及び情報処理装置
CN118012916B (zh) 报表的生成方法、装置、设备及存储介质
den Boer et al. Master Thesis Project
JP2024530604A (ja) データ分析のための対話型ワークフロー
CN116756398A (zh) 标签体系构建系统及标签体系构建方法
Masllorens Fuentes Essays on Global Value Chains
CN116955486A (zh) 一种基于元数据的异构数据同步任务参数优化方法
CN118095270A (zh) 一种逻辑分析图的构建方法、装置、电子设备及存储介质
CN115481616A (zh) 目标文本的获取方法、装置、计算机设备和存储介质
CN114398734A (zh) 微量给料的参数优化方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination