CN111861000A - 基于历史数据的日收入预测方法、系统、设备及存储介质 - Google Patents
基于历史数据的日收入预测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111861000A CN111861000A CN202010706684.2A CN202010706684A CN111861000A CN 111861000 A CN111861000 A CN 111861000A CN 202010706684 A CN202010706684 A CN 202010706684A CN 111861000 A CN111861000 A CN 111861000A
- Authority
- CN
- China
- Prior art keywords
- predicted
- day
- income
- daily
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000694 effects Effects 0.000 claims description 126
- 238000012549 training Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000728173 Sarima Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于历史数据的日收入预测方法、系统、设备及存储介质,该方法包括:从收入统计系统中采集多个历史的参考日的日收入数据;获取待预测月的预测月收入,待预测月中包括多个待预测日;从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;确定各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。本发明基于历史数据的参考日与待预测日的匹配来进行日收入预测,提高日收入预测准确率,并且无需大量数据样本分析,也降低了数据处理量,提高了日收入预测的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于历史数据的日收入预测方法、系统、设备及存储介质。
背景技术
对于OTA(Online Travel Agency,在线旅游社)来说,酒店日收入预测具有重要意义,通过日收入预测,可以用于分析各种活动、政策的数据对日收入产量的影响,更好地指导决策。现有一般采用时间序列模型对日收入进行预测,然而,在采用时间序列模型例如prophet、SARIMA进行日收入预测时,可能会出现很多预测误差很大的异常点。这些异常点通常是节假日,假期日期的不确定性很高,例如五一、元旦等放假天数不固定,春节、清明节、端午节等传统节日的放假日期不固定,这些不确定性都会对日期预测造成很大影响,导致采用时间序列模型的预测结果不准确。
此外,由于外部政策环境影响,旅游行业每年的数据变化都很大,使用往年的数据进行新的数据的预测,可参考数据样本量过少,误差大的问题仍然存在。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种基于历史数据的日收入预测方法、系统、设备及存储介质,基于历史数据的参考日与待预测日的匹配来进行日收入预测,提高日收入预测准确率,并且无需大量数据样本分析,也降低了数据处理量,提高了日收入预测的效率。
本发明实施例提供一种基于历史数据的日收入预测方法,包括如下步骤:
从收入统计系统中采集多个历史的参考日的日收入数据;
获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;
按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。
可选地,获取待预测月的预测月收入,包括如下步骤:
从收入统计系统中采集多个参考月的月收入数据;
根据所述多个参考月的月收入数据,采用时间序列模型获取待预测月的预测月收入。
可选地,所述属性包括节假日属性和日期属性,所述按照预设的属性匹配规则选择各个待预测日相匹配的参考日,包括如下步骤:
对于节假日属性值不为空的待预测日,根据所述待预测日的节假日属性值匹配具有相同节假日属性值的参考日;
根据所述待预测日的日期属性匹配最接近的参考日。
可选地,所述按照预设的属性匹配规则选择各个待预测日相匹配的参考日,包括如下步骤:
针对每个待预测日分别构建匹配任务;
将所述匹配任务的信息输入消息中间件,所述匹配任务的信息包括每个待预测日的属性数据和所有参考日的属性数据;
所述消息中间件依次将各个所述匹配任务的信息输入计算引擎,所述计算引擎配置为根据所述匹配任务的信息,采用属性匹配规则选择所述待预测日的参考日;
从所述计算引擎中获取每个匹配任务的执行结果,所述匹配任务的执行结果包括所述待预测日的参考日信息。
可选地,所述确定所述各个待预测日的预测日收入,包括如下步骤:
根据各个待预测日的参考日收入计算各个待预测日在所述待预测月中的日收入占比;
根据所述各个待预测日的日收入占比和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入。
可选地,所述预测应用系统包括活动推荐系统,所述将预测日收入数据推送至预测应用系统之后,还包括所述活动推荐系统执行如下步骤:
于已预测月中举行活动后,记录所述活动的属性数据和活动日的日期;
从所述收入统计系统中获取活动日的实际日收入;
根据所述活动的属性数据、活动日的预测日收入和活动日的实际日收入构建活动特征向量;
将所述活动特征向量输入训练好的活动推荐值预测模型,输出所述活动的推荐值;
根据所述推荐值选择指定日期的推荐活动,将推荐活动的活动信息推送至用户终端。
可选地,所述属性包括节假日属性;
输出所述活动的推荐值之后,还包括如下步骤:
根据所述活动日的节假日属性值将所述活动日进行分类,每个分类对应一节假日属性值;
根据每个分类中所述活动日的已举行活动,得到每个分类的活动集合。
可选地,根据所述推荐值选择指定日期的推荐活动,包括如下步骤:
根据所述指定日期的节假日属性确定所述指定日期所属的分类;
获取所述指定日期所属的分类的活动集合和活动集合中各个活动的推荐值;
从所述活动集合中选择推荐值最高的至少一个活动作为推荐活动。
可选地,还包括采用如下步骤训练活动推荐值预测模型:
采集多个已举行活动的特征向量,作为训练样本加入训练集;
为所述训练样本添加推荐值标签;
采用所述训练集训练所述活动推荐值预测模型至模型收敛。
本发明实施例还提供一种基于历史数据的日收入预测系统,用于实现所述的基于历史数据的日收入预测方法,所述系统包括:
历史数据采集模块,用于从收入统计系统中采集多个历史的参考日的日收入数据;
月收入预测模块,用于获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
属性数据采集模块,用于从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;
日期匹配模块,用于按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
日收入预测模块,用于根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。
本发明实施例还提供一种基于历史数据的日收入预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于历史数据的日收入预测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的基于历史数据的日收入预测方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明的基于历史数据的日收入预测方法、系统、设备及存储介质具有如下有益效果:
本发明基于历史数据的参考日与待预测日的匹配来进行日收入预测,在匹配时根据待预测日的属性、参考日的属性和预设的属性匹配规则,并且根据参考日的参考日收入来预测,相比于现有技术中采用时间序列预测的方法提高了日收入预测准确率,并且采用本发明的方法无需大量数据样本分析,也降低了数据处理量,提高了日收入预测的效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的基于历史数据的日收入预测方法的流程图;
图2是本发明一实施例的基于历史数据的日收入预测系统的结构框图;
图3是本发明一实施例的基于历史数据的日收入预测系统与其他系统的交互示意图;
图4是采用本发明的方法对2019年预测得到的国内预测日收入和2019年实际日收入的对比图,其中横坐标表示时间,纵坐标表示金额;
图5是采用本发明的方法对2020年预测得到的国内预测日收入和2020年已发生的实际日收入的对比图,其中横坐标表示时间,纵坐标表示金额;
图6是本发明一实施例的基于历史数据的日收入预测设备的结构示意图;
图7是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种基于历史数据的日收入预测方法,包括如下步骤:
S100:从收入统计系统中采集多个历史的参考日的日收入数据;此处参考日是历史发生的日子,例如在预测2019年的日收入时,可以采用2018年的每天作为参考日,在预测2020年的日收入时,可以采用2019年的每天作为参考日;
S200:获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
S300:从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;
S400:按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
S500:根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。
本发明基于历史数据的参考日与待预测日的匹配来进行日收入预测,通过步骤S400在匹配时根据待预测日的属性、参考日的属性和预设的属性匹配规则,并且通过步骤S500根据参考日的参考日收入来预测,提高了日收入预测准确率,并且采用本发明的方法无需大量数据样本分析,也降低了数据处理量,提高了日收入预测的效率。
该实施例的基于历史数据的日收入预测方法中,每个步骤的序号仅为区分各个步骤,而不作为各个步骤的具体执行顺序的限定,上述各个步骤之间的执行顺序可以根据需要调整改变。例如,步骤S100、S200、S300的执行顺序可以互换,首先指定步骤S200或首先执行步骤S300等,均可以实现日收入预测的目的,均属于本发明的保护范围之内。
如图2和图3所示,本发明实施例还提供一种基于历史数据的日收入预测系统M100,用于实现所述的基于历史数据的日收入预测方法,所述系统包括:
历史数据采集模块M110,用于从收入统计系统M200中采集多个历史的参考日的日收入数据;所述收入统计系统配置为存在历史的每天的实际日收入数据;
月收入预测模块M120,用于获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
属性数据采集模块M130,用于从属性管理系统M300中获取各个待预测日的属性和各个参考日的属性;
日期匹配模块M140,用于按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
日收入预测模块M150,用于根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统M400。
在该实施例中,所述步骤S200:获取待预测月的预测月收入,包括如下步骤:
从收入统计系统中采集多个参考月的月收入数据;
根据所述多个参考月的月收入数据,采用时间序列模型获取待预测月的预测月收入。所述时间序列模型例如可以是prophet、SARIMA等。
在该实施例中,所述属性包括节假日属性和日期属性,节假日属性的属性值例如可以包括春节、劳动节、清明节、端午节等,如果不是节假日,则节假日属性的属性值可以设为空,日期属性可以包括该日是周几(周一、周二……周日中的哪一天)以及该日的具体日期。
所述步骤S400中,按照预设的属性匹配规则选择各个待预测日相匹配的参考日,即将待预测日和参考日进行日对齐,具体地,包括如下步骤:
对于节假日属性值不为空的待预测日,根据所述待预测日的节假日属性值匹配具有相同节假日属性值的参考日,从而实现节假日对齐;例如,预测2019年的一个待预测日是五一劳动节,则可以将2018年的劳动节的这天作为该待预测日所对应的参考日,预测2019年的一个待预测日是春节,则可以将2018年的春节的这天作为该待预测日所对应的参考日;
根据所述待预测日的日期属性匹配最接近的参考日。
在根据日期属性匹配时,首先采用周对齐,即周一对周一、周二对周二、周三对周三等等,然后采用自然日对齐,例如根据具体日期对齐。例如对于2019年12月2日周一,可以首先根据周一与2018年的日期进行对齐,然后从周一的日期中选择与12月2日最接近的,得到2018年12月3日周一,则2018年12月3日周一是2019年12月2日周一的参考日。
在该实施例中,所述步骤S400:按照预设的属性匹配规则选择各个待预测日相匹配的参考日,可以基于计算引擎来批量处理实现,具体地,包括如下步骤:
针对每个待预测日分别构建匹配任务,匹配任务的目标就是为所对应的待预测日找到其所对应的参考日;
将所述匹配任务的信息输入消息中间件,所述匹配任务的信息包括每个待预测日的属性数据和所有参考日的属性数据;
所述消息中间件依次将各个所述匹配任务的信息输入计算引擎,所述计算引擎配置为根据所述匹配任务的信息,采用属性匹配规则选择所述待预测日的参考日,所述计算引擎例如可以采用Flink计算引擎等;
从所述计算引擎中获取每个匹配任务的执行结果,所述匹配任务的执行结果包括所述待预测日的参考日信息,所述参考日信息可以包括所述参考日的具体日期,方便定位到对应的参考日。
在该实施例中,所述步骤S500:确定所述各个待预测日的预测日收入,包括如下步骤:
采用如下公式,根据各个待预测日的参考日收入计算各个待预测日在所述待预测月中的日收入占比:
其中,ni表示第i个待预测日在所述待预测月中的日收入占比,C′i表示第i个待预测日的参考日收入,m表示待预测月的总数。通过计算各个待预测日在所述待预测月中的日收入占比;
根据所述各个待预测日的日收入占比和所述待预测月的预测月收入D,采用如下公式确定所述各个待预测日的预测日收入:
Ci=ni×D
其中,Ci表示第i个待预测日的预测日收入,因此,通过ni的计算和应用,实现了待预测月中每日的收入比例分摊。
本发明为了提高预测准确性,从数据中挖掘规律,得到了步骤S500中的比例分摊方法。如下对该比例分摊方法的可行性进行验证。
现有报表中的周yoy(year on year)数据,是基于“周对齐”的,周对齐即周一对周一,周二对周二,以此类推。在对2019年国内数据预测时,观察待预测日和参考日的对齐数据,发现日收入产量与所在月的月收入产量所得比例序列,经过“归一化”处理后相差1%以下。进一步进行节假日对齐和自然日对齐的矫正之后,得到的2018年对齐日收入产量,与2019年日收入产量存在一元一次回归关系,其中返后佣金的截距为-64万,相比于2019年每天几千万的产值来讲,可以忽略不计。设定λi为回归系数,b为截距,βi为比率,则:
从而可以看出,采用本发明的日收入预测可以实现较为准确的日收入预测。并且本发明的比例分摊是基于比例的,其他诸如大环境影响等在比例的过程中是可以抵消的,因此也不会影响准确率。属性匹配规则可以预先进行设定,遵循酒店收入产量变化规律。
进一步地,如图4所示,为采用本发明的方法对2019年预测得到的国内预测日收入和2019年实际日收入(commission1st)的对比图。可以看出,预测日收入和实际日收入的曲线基本上是重合的,本发明的日收入预测方法可以实现日收入的准确预测。
如图5所示,为采用本发明的方法对2020年预测得到的国内预测日收入和2020年实际日收入(commission1st,数据截止到6月20日)的对比图。从图中可以看出,因为疫情的影响,2020年的实际日收入有了比较大的降低。因此,通过本发明的方法,也可以直观地呈现受到一些特定情况下对日收入的影响情况。
进一步地,在采用本发明的日收入预测方法进行日收入准确预测之后,还可以在预测的日期过去之后,根据实际日收入与之前的预测日收入的比较,来评价这段时间内举行的活动(例如促销打折活动、广告宣传活动等)对日收入的影响,并且可以在未来选择活动时,根据历史举行的活动的评价更有针对性地选择合适的活动。
在该实施例中,所述预测应用系统包括活动推荐系统,所述步骤S500中,将预测日收入数据推送至预测应用系统之后,还包括所述活动推荐系统执行如下步骤:
于已预测月中举行活动后,记录所述活动的属性数据和活动日的日期,例如在2019年已经过完之后,统计2019年举行的各种活动和活动日的日期,活动的属性数据可以包括活动的名称、活动的类别是打折还是广告宣传等、活动的举办方信息、活动的关键词等;
从所述收入统计系统中获取活动日的实际日收入;
根据所述活动的属性数据、活动日的预测日收入和活动日的实际日收入构建活动特征向量;
将所述活动特征向量输入训练好的活动推荐值预测模型,输出所述活动的推荐值;所述活动推荐值预测模型可以采用机器学习模型,例如采用深度学习的卷积神经网络,可以实现对推荐值的预测,也可以将推荐值的预测转化为分类问题,设定多个推荐值的分段分别对应一个分类,采用支持向量机、决策树等机器学习模型等,均属于本发明的保护范围之内;
根据所述推荐值选择指定日期的推荐活动,将推荐活动的活动信息推送至用户终端,此处用户终端即为选择活动的工作人员所使用的终端设备,包括但不限于平板电脑、笔记本电脑、手机等。
此处指定日期即需要进行活动推荐的日期,例如在2020年4月份,工作人员需要提前选择2020年七夕节的活动,则可以将2020年七夕节的日期确定为指定日期。
在该实施例中,输出所述活动的推荐值之后,还包括如下步骤:
根据所述活动日的节假日属性值将所述活动日进行分类,每个分类对应一节假日属性值;分类得到的类别可以包括春节、端午节、劳动节等具体节日的分类以及节假日属性值为空的非节假日类别;
根据每个分类中所述活动日的已举行活动,得到每个分类的活动集合,例如,分别统计得到春节的活动集合、端午节的活动集合、非节假日的活动集合等等。此处活动集合不仅限于前一年所采用的活动,还可以包括之前所举行过的所有历史活动,例如春节的活动集合,可以包括之前好几年春节时采用的各种活动。
在该实施例中,根据所述推荐值选择指定日期的推荐活动,包括如下步骤:
根据所述指定日期的节假日属性确定所述指定日期所属的分类,例如,在选择2020年七夕节的活动时,确定其属于七夕节分类;
获取所述指定日期所属的分类的活动集合和活动集合中各个活动的推荐值;例如,获取七夕节分类的活动集合,活动集合中有10个活动,则分别获取该10个活动的推荐值;
从所述活动集合中选择推荐值最高的至少一个活动作为推荐活动,从而可以基于推荐值选择有比较好的收入提升效果的活动进行推荐。
具体地,收入提升效果可以由本发明预测的日收入和实际的日收入的比较来获得,即通过活动的特征向量输入到活动推荐值预测模型之后,根据输出的活动的推荐值来进行选择更具有针对性。
在该实施例中,所述日收入预测方法中,还包括采用如下步骤训练活动推荐值预测模型:
采集多个已举行活动的特征向量,作为训练样本加入训练集;
由工作人员根据自身对该活动的推荐度的评价为所述训练样本添加推荐值标签,评价时也可以参考特征向量中预测日收入和实际日收入的比较来进行推荐值标签的添加;
采用所述训练集训练所述活动推荐值预测模型至模型收敛,例如可以采用梯度下降方法对所述活动推荐值预测模型进行迭代训练,训练至所述活动推荐值预测模型的损失函数小于预设阈值,则认为模型收敛。
本发明实施例还提供一种基于历史数据的日收入预测设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于历史数据的日收入预测方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述基于历史数据的日收入预测方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的基于历史数据的日收入预测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述基于历史数据的日收入预测方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,通过采用本发明的基于历史数据的日收入预测方法、系统、设备及存储介质,基于历史数据的参考日与待预测日的匹配来进行日收入预测,在匹配时根据待预测日的属性、参考日的属性和预设的属性匹配规则,并且根据参考日的参考日收入来预测,相比于现有技术中采用时间序列预测的方法提高了日收入预测准确率,并且采用本发明的方法无需大量数据样本分析,也降低了数据处理量,提高了日收入预测的效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (12)
1.一种基于历史数据的日收入预测方法,其特征在于,包括如下步骤:
从收入统计系统中采集多个历史的参考日的日收入数据;
获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;
按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。
2.根据权利要求1所述的基于历史数据的日收入预测方法,其特征在于,获取待预测月的预测月收入,包括如下步骤:
从收入统计系统中采集多个参考月的月收入数据;
根据所述多个参考月的月收入数据,采用时间序列模型获取待预测月的预测月收入。
3.根据权利要求1所述的基于历史数据的日收入预测方法,其特征在于,所述属性包括节假日属性和日期属性,所述按照预设的属性匹配规则选择各个待预测日相匹配的参考日,包括如下步骤:
对于节假日属性值不为空的待预测日,根据所述待预测日的节假日属性值匹配具有相同节假日属性值的参考日;
根据所述待预测日的日期属性匹配最接近的参考日。
4.根据权利要求1所述的基于历史数据的日收入预测方法,其特征在于,所述按照预设的属性匹配规则选择各个待预测日相匹配的参考日,包括如下步骤:
针对每个待预测日分别构建匹配任务;
将所述匹配任务的信息输入消息中间件,所述匹配任务的信息包括每个待预测日的属性数据和所有参考日的属性数据;
所述消息中间件依次将各个所述匹配任务的信息输入计算引擎,所述计算引擎配置为根据所述匹配任务的信息,采用属性匹配规则选择所述待预测日的参考日;
从所述计算引擎中获取每个匹配任务的执行结果,所述匹配任务的执行结果包括所述待预测日的参考日信息。
5.根据权利要求1所述的基于历史数据的日收入预测方法,其特征在于,所述确定所述各个待预测日的预测日收入,包括如下步骤:
根据各个待预测日的参考日收入计算各个待预测日在所述待预测月中的日收入占比;
根据所述各个待预测日的日收入占比和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入。
6.根据权利要求1所述的基于历史数据的日收入预测方法,其特征在于,所述预测应用系统包括活动推荐系统,所述将预测日收入数据推送至预测应用系统之后,还包括所述活动推荐系统执行如下步骤:
于已预测月中举行活动后,记录所述活动的属性数据和活动日的日期;
从所述收入统计系统中获取活动日的实际日收入;
根据所述活动的属性数据、活动日的预测日收入和活动日的实际日收入构建活动特征向量;
将所述活动特征向量输入训练好的活动推荐值预测模型,输出所述活动的推荐值;
根据所述推荐值选择指定日期的推荐活动,将推荐活动的活动信息推送至用户终端。
7.根据权利要求6所述的基于历史数据的日收入预测方法,其特征在于,所述属性包括节假日属性;
输出所述活动的推荐值之后,还包括如下步骤:
根据所述活动日的节假日属性值将所述活动日进行分类,每个分类对应一节假日属性值;
根据每个分类中所述活动日的已举行活动,得到每个分类的活动集合。
8.根据权利要求7所述的基于历史数据的日收入预测方法,其特征在于,根据所述推荐值选择指定日期的推荐活动,包括如下步骤:
根据所述指定日期的节假日属性确定所述指定日期所属的分类;
获取所述指定日期所属的分类的活动集合和活动集合中各个活动的推荐值;
从所述活动集合中选择推荐值最高的至少一个活动作为推荐活动。
9.根据权利要求6所述的基于历史数据的日收入预测方法,其特征在于,还包括采用如下步骤训练活动推荐值预测模型:
采集多个已举行活动的特征向量,作为训练样本加入训练集;
为所述训练样本添加推荐值标签;
采用所述训练集训练所述活动推荐值预测模型至模型收敛。
10.一种基于历史数据的日收入预测系统,用于实现权利要求1至9中任一项所述的基于历史数据的日收入预测方法,其特征在于,所述系统包括:
历史数据采集模块,用于从收入统计系统中采集多个历史的参考日的日收入数据;
月收入预测模块,用于获取待预测月的预测月收入,所述待预测月中包括多个待预测日;
属性数据采集模块,用于从属性管理系统中获取各个待预测日的属性数据和各个参考日的属性数据;
日期匹配模块,用于按照预设的属性匹配规则选择各个待预测日相匹配的参考日,将参考日的日收入数据作为所对应的待预测日的参考日收入;
日收入预测模块,用于根据各个待预测日的参考日收入和所述待预测月的预测月收入,确定所述各个待预测日的预测日收入,将预测日收入数据推送至预测应用系统。
11.一种基于历史数据的日收入预测设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的基于历史数据的日收入预测方法的步骤。
12.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至9中任一项所述的基于历史数据的日收入预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706684.2A CN111861000A (zh) | 2020-07-21 | 2020-07-21 | 基于历史数据的日收入预测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706684.2A CN111861000A (zh) | 2020-07-21 | 2020-07-21 | 基于历史数据的日收入预测方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111861000A true CN111861000A (zh) | 2020-10-30 |
Family
ID=73001438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010706684.2A Pending CN111861000A (zh) | 2020-07-21 | 2020-07-21 | 基于历史数据的日收入预测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111861000A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077330A (zh) * | 2021-04-22 | 2021-07-06 | 北京阿帕科蓝科技有限公司 | 一种收益确认方法、收益情况处理系统及电子设备 |
CN113098888A (zh) * | 2021-04-15 | 2021-07-09 | 恒安嘉新(北京)科技股份公司 | 异常行为预测方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060064370A1 (en) * | 2004-09-17 | 2006-03-23 | International Business Machines Corporation | System, method for deploying computing infrastructure, and method for identifying customers at risk of revenue change |
CN1795463A (zh) * | 2003-05-22 | 2006-06-28 | 珀欣投资有限责任公司 | 客户收入预测方法和系统 |
CN107808220A (zh) * | 2017-10-30 | 2018-03-16 | 北京金堤科技有限公司 | 一种收入预测方法及装置 |
CN108053242A (zh) * | 2017-12-12 | 2018-05-18 | 携程旅游信息技术(上海)有限公司 | 景点门票票量预测方法、系统、设备及存储介质 |
CN108764553A (zh) * | 2018-05-21 | 2018-11-06 | 世纪龙信息网络有限责任公司 | 用户规模预测方法、装置及计算机设备 |
US20180350007A1 (en) * | 2017-05-31 | 2018-12-06 | Intuit Inc. | Method for predicting business income from user transaction data |
CN110766201A (zh) * | 2019-09-26 | 2020-02-07 | 福建新大陆软件工程有限公司 | 收入预测方法、系统、电子设备、计算机可读存储介质 |
-
2020
- 2020-07-21 CN CN202010706684.2A patent/CN111861000A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1795463A (zh) * | 2003-05-22 | 2006-06-28 | 珀欣投资有限责任公司 | 客户收入预测方法和系统 |
US20060064370A1 (en) * | 2004-09-17 | 2006-03-23 | International Business Machines Corporation | System, method for deploying computing infrastructure, and method for identifying customers at risk of revenue change |
US20180350007A1 (en) * | 2017-05-31 | 2018-12-06 | Intuit Inc. | Method for predicting business income from user transaction data |
CN107808220A (zh) * | 2017-10-30 | 2018-03-16 | 北京金堤科技有限公司 | 一种收入预测方法及装置 |
CN108053242A (zh) * | 2017-12-12 | 2018-05-18 | 携程旅游信息技术(上海)有限公司 | 景点门票票量预测方法、系统、设备及存储介质 |
CN108764553A (zh) * | 2018-05-21 | 2018-11-06 | 世纪龙信息网络有限责任公司 | 用户规模预测方法、装置及计算机设备 |
CN110766201A (zh) * | 2019-09-26 | 2020-02-07 | 福建新大陆软件工程有限公司 | 收入预测方法、系统、电子设备、计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
郑杉;刘秀丽;: "新时期中国居民消费总量与结构预测研究", 系统科学与数学, no. 10, 15 October 2018 (2018-10-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113098888A (zh) * | 2021-04-15 | 2021-07-09 | 恒安嘉新(北京)科技股份公司 | 异常行为预测方法、装置、设备及存储介质 |
CN113077330A (zh) * | 2021-04-22 | 2021-07-06 | 北京阿帕科蓝科技有限公司 | 一种收益确认方法、收益情况处理系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372896B2 (en) | Method and apparatus for grouping data records | |
US8010324B1 (en) | Computer-implemented system and method for storing data analysis models | |
US8583568B2 (en) | Systems and methods for detection of satisficing in surveys | |
CN110135901A (zh) | 一种企业用户画像构建方法、系统、介质和电子设备 | |
US20110208701A1 (en) | Computer-Implemented Systems And Methods For Flexible Definition Of Time Intervals | |
CN107220217A (zh) | 基于逻辑回归的特征系数训练方法和装置 | |
CN106663037A (zh) | 特征处理权衡管理 | |
US11366798B2 (en) | Intelligent record generation | |
CN111861000A (zh) | 基于历史数据的日收入预测方法、系统、设备及存储介质 | |
CN111179055B (zh) | 授信额度调整方法、装置和电子设备 | |
CN115860800A (zh) | 一种节假日商品销量预测方法、装置及计算机存储介质 | |
CN114780600A (zh) | 航班搜索方法、系统、设备及存储介质 | |
CN111861004A (zh) | 日收入产量的自动佣金预测方法、系统、设备及存储介质 | |
CN111126629B (zh) | 模型的生成方法、刷单行为识别方法、系统、设备和介质 | |
CN112749238A (zh) | 搜索排序方法、装置、电子设备以及计算机可读存储介质 | |
CN114385121B (zh) | 一种基于业务分层的软件设计建模方法及系统 | |
US11392857B1 (en) | System and method for initiating a completed lading request | |
CN112784219B (zh) | 基于app指数的用户风险预测方法、装置及电子设备 | |
CN111967806B (zh) | 基于定期回扫的用户风险更新方法、装置和电子设备 | |
CN117043743A (zh) | 用于多维数据库环境的动态应用构建器 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN113988431A (zh) | 一种客户潜在经纪人能力预测方法、系统及设备 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
CN112328899A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
US20230385820A1 (en) | Methods and Systems for Predicting Cash Flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |