CN112801708B - 一种营业收入预测模型确定方法及装置、预测方法及装置 - Google Patents

一种营业收入预测模型确定方法及装置、预测方法及装置 Download PDF

Info

Publication number
CN112801708B
CN112801708B CN202110159451.XA CN202110159451A CN112801708B CN 112801708 B CN112801708 B CN 112801708B CN 202110159451 A CN202110159451 A CN 202110159451A CN 112801708 B CN112801708 B CN 112801708B
Authority
CN
China
Prior art keywords
input
sample
characteristic
business income
regularization term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110159451.XA
Other languages
English (en)
Other versions
CN112801708A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datayes Co
Original Assignee
Datayes Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datayes Co filed Critical Datayes Co
Priority to CN202110159451.XA priority Critical patent/CN112801708B/zh
Publication of CN112801708A publication Critical patent/CN112801708A/zh
Application granted granted Critical
Publication of CN112801708B publication Critical patent/CN112801708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本文提供了一种营业收入预测模型确定方法及装置、预测方法及装置,其中,营业收入预测模型确定方法包括:将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型。本文能够减少主观因素影响、突破小样本及多维度的瓶颈,进而提高营业收入预测效率及预测精度。

Description

一种营业收入预测模型确定方法及装置、预测方法及装置
技术领域
本文涉及计算机技术领域,尤其涉及一种营业收入预测模型确定方法及装置、营业收入预测方法及装置。
背景技术
上市公司营业收入预测是基本面分析过程中必不可少的关键环节,常规做法是人类研究员通过对上市公司经营活动的深入研究,给出主观预测结果。随着人工智能在工业界的大范围推广,利用线性回归模型对上市公司营业收入进行预测也成为了人工智能在金融领域的重要应用之一。
目前将线性回归模型应用于营业收入预测的瓶颈主要有两点:一是小样本预测问题,上市公司营业收入按季度公布,以2007年1季度至2019年4季度这一时间区间为例,仅有52个样本点,可能由于样本数量少造成预测不准确的问题。二是特征维度高,对于主营业务复杂的上市公司,输入特征的维度可能会大于100维,而依靠人工方式采集、复查、输入多维的特征数据会导致工作效率低下的问题。小样本问题及特征维度高的瓶颈将会影响线性回归模型的预测精度。
发明内容
本文用于解决现有技术中线性回归模型预测营业收入的方式存在效率低及预测精度低的缺陷。
本文的第一方面,提供一种营业收入预测模型确定方法,包括:
将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;
根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;
根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型。
本文的第二方面,提供一种营业收入预测方法,包括:
采集影响营业收入的特征信息值;
将采集的特征信息值输入前述营业收入预测模型确定方法得到的所述营业收入预测模型中,得到营业收入信息值。
本文的第三方面,提供一种营业收入预测模型确定装置,包括:
泛函构造模块,用于将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;
权重计算模块,用于根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;
模型确定模块,用于根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型。
本文的第四方面,提供一种营业收入预测装置,包括:
采集模块,用于采集影响营业收入的特征信息值;
预测模块,用于将采集的营业收入特征信息值输入营业收入预测模型确定装置得到的所述营业收入预测模型中,得到营业收入信息值。
本文的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现营业收入预测模型确定方法。
本文的第六方面,提供计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现营业收入预测模型确定方法。
本文的第七方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现营业收入预测方法。
本文的第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现营业收入预测方法。
本文通过将局部Lasso模型应用于营业收入预测中,能够减少主观因素影响、突破小样本及多维度的瓶颈,进而提高营业收入预测效率及预测精度。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文一实施例的营业收入预测模型确定方法的流程图;
图2示出了本文一实施例的局部Lasso误差泛函构造过程的流程图;
图3示出了本文另一实施例的局部Lasso误差泛函构造过程的流程图;
图4示出了本文另一实施例的营业收入预测模型确定方法的流程图;
图5示出了本文一实施例的营业收入预测方法的流程图;
图6示出了本文一实施例的营业收入预测模型确定装置的结构图;
图7示出了本文一实施例的营业收入预测装置的结构图;
图8示出了本文一具体实施例的营业收入预测方法的流程图;
图9示出了本文另一具体实施例的营业收入预测方法的流程图;
图10示出了本文一实施例的计算机设备的结构图。
附图符号说明:
610、泛函构造模块;
630、权重计算模块;
650、模型确定模块;
710、采集模块;
730、预测模块;
1002、计算机设备;
1004、处理器;
1006、存储器;
1008、驱动机构;
1010、输入/输出模块;
1012、输入设备;
1014、输出设备;
1016、呈现设备;
1018、图形用户接口;
1020、网络接口;
1022、通信链路;
1024、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
本文可适用于各种类型企业(包括上市及非上市企业)营业收入的预测,本文对具体的应用企业及企业类型不做限定。
如图1所示,图1示出了本文一实施例的营业收入预测模型确定方法的流程图。本实施例能够解决现有技术中线性回归模型预测营业收入的方式存在效率低及预测精度低的缺陷。具体的,营业收入预测模型确定方法包括:
步骤110,将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函。
其中,所述局部Lasso误差泛函为输入特征权重的函数,包括线性拟合误差函数项及正则化项,线性拟合误差函数项用于表示线性拟合的训练误差,正则化项用以限定输入特征权重,以实现局部Lasso误差泛函的局部性及可解释性。
本文中所述的营业收入信息可以为营业收入值,相应的,影响营业收入的特征信息为特征值。影响营业收入的特征信息根据具体的应用场景不同而不同,本文对此不作限定。以汽车营业收入为例,影响营业收入的特征信息包括但不限于汽车产量、汽车销量、汽车交易价格等。
为了保证预测的平稳,营业收入信息还可以为营业收入变化率,相应的,影响营业收入的特征信息为特征变化率。具体的,营业收入变化率可以为相对上一年同一时间段营业收入的变化,还可以为相对于上一月同一时间段营业收入的变化,本文对变化率相对的基准不作限定,例如营业收入变化率为上一年同一时间段营业收入的增长率。
步骤130,根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重。其中,所述样本包括营业收入信息值及影响营业收入的特征信息值。具体实施时,为了提升信噪比,获取样本后,还对样本进行去燥等预处理。
一些具体实施例中,为了便于计算,步骤130求解过程包括:将所述样本代入所述局部Lasso误差泛函中,采用迭代最小二乘的方法求解得到所述局部Lasso误差泛函中的所述输入特征权重。采用迭代最小二乘的方法求解不需要调参,能保证收敛到全局最优解。
实施时,可以将样本划分为训练集、验证集及测试集。训练集用于训练局部Lasso误差泛函中的输入特征权重,验证集用于验证局部Lasso误差泛函中的输入特征权重。测试集用于测试训练好的局部Lasso误差泛函的性能。
步骤150,根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型。
本实施例通过将局部Lasso模型应用于营业收入预测中,利用局部Lasso模型中的正则化项,能够减少主观因素影响、突破小样本及多维度的瓶颈,进而提高营业收入预测效率及预测精度。
如图2所示,步骤110根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,包括:
步骤201,根据所述预测目标及所述输入特征,构造线性拟合误差函数,其中,所述线性拟合误差函数为输入特征权重的函数。具体的,步骤201根据所述预测目标及所述输入特征,构造线性拟合误差函数,包括利用如下公式构造线性拟合误差函数:
其中,f(w)为线性拟合误差函数,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量。
步骤203,构造第一正则化项以从样本间的相似度与输入特征权重的差异性成反比的角度限定输入特征权重。
本文中的第一正则化属于Network正则化(神经网络正则化),Network正则化最初作为用于图模型参数估计的凸泛函提出,用于对顶点(变量)和边(变量对)的约束两部分构成。数学上表示对图中同一条边上的相邻节点的差异做惩罚,物理上表示一种局部假设,即相邻节点的差异也应该尽可能小。而本文中假设两个样本相似性较大,那么这两个样本对应的输入特征权重的差异性应该较小。
详细的说,样本间的相似度可利用皮尔森相似系数计算方法计算,本文此处不再赘述。特征权重的差异性可用特征权重差的L2范数表示。样本间的相似度与输入特征权重的差异性成反比指的是样本间的相似度值越大,输入特征权重之间的差异值越小,样本间的相似度值越小,输入特征权重之间的差异性越大。
一具体实施方式中,第一正则化项表达式为:
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本/>的相似度,/>为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数,表示向量·元素的平方和再开方,即,(xi为向量x的元素)。
通过本具体实施例的第一正则化项能够突出局部性,即相似度高的样本对应的输入特征权重向量也更接近。
步骤205,根据所述线性拟合误差函数及所述第一正则化项,构造局部Lasso误差泛函。
对所述线性拟合误差函数及所述第一正则化项做加权处理,得到所述局部Lasso误差泛函:
其中,minwJ(w)为所述局部Lasso误差泛函,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量;
ΩNetwork为第一正则化项,λ1为正则化系数,i,j为样本编号,rij为第i个样本与第j个样本的相似度,为第j个样本输入特征权重向量,||·||2为L2范数。正则化系数λ1的取值范围为0至1,可由设计人员进行设定。
如图3所示,为了避免因提高营业收入的预测精度而降低营业收入模型的可解释性。上述步骤110根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,还包括:
步骤204,构造第二正则化项以限定输入特征权重,使得各样本对各输入特征形成竞争机制,即某些特征对某类样本贡献较大(即权重较大),这些特征对其他类样本贡献较小(即权重较小)。
本文中的第二正则化属于Exclusive正则化(互斥正则化),Exclusive正则化隶属于混合范数,旨在改进Group正则化,提升多样本学习(Multi-Task Learning,MTL,如多分类问题等)。Group正则化的基本思想是,先用L1范数生成稀疏解,再利用L2范数正则化将稀疏特征进行分组,形成正则化约束。基于Group思想的正则化方法都基于一个基本假设:若特征组中的某个特征对某类样本贡献较大,则该特征对其他类样本的贡献也较大。这一强假设有悖于很多物理世界中的实际问题,Exclusive通过引入特征间的竞争机制可以解决这一问题。具体来说,Exclusive正则化想要达到的目标是:若某特征对某类样本贡献较大,则该特征对其他类样本的贡献则较小,进而有效提升可解释性。本文利用了Exclusive正则化的该思想,基于各样本对各输入特征的竞争机制,能够去掉没有任何信息的输入特征,将这些输入信息的权重置为0,来实现稀疏性,进而能够有效提升可解释性。
本文所述的各样本对各输入特征权重的竞争指的是:若某些输入特征对某类样本贡献较大,则该些输入特征对其他类样本应该贡献较小。
一具体实施例中,步骤204构造第二正则化项,包括利用如下公式构造第二正则化项:
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,m为样本数,j为样本编号,为第k个输入特征对第j个样本的贡献权重,/>为第j个样本输入特征权重向量,/>为L1范数及L2范数的混合范数,/>中快维L1范数的作用在于联合同一特征对不同样本的贡献,/>中慢维L2范数的作用在于联合不同特征对不同样本的贡献。
本实施例中,通过第二正则化项依托L1范数及L2范数,引入了不同任务对同一特征的竞争机制,一种特征只能对一类样本贡献较大,且允许多类特征均对一类样本贡献较大,能够突出稀疏性,提高可解释性。
上述步骤205根据所述线性拟合误差函数及所述第一正则化项,构造局部Lasso误差泛函进一步为:
步骤205’,根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函。
一具体实施例中,步骤205’,根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函,包括:
对所述线性拟合误差函数、所述第一正则化项及所述第二正则化项做加权处理,得到所述局部Lasso误差泛函:
其中,minwJ(w)为所述局部Lasso误差泛函,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量;
ΩNetwork为第一正则化项,λ1为正则化系数,i,j为样本编号,rij为第i个样本与第j个样本的相似度,为第j个样本输入特征权重向量,||·||2为L2范数;
其中,V(w)为第二正则化项,λ2为正则化系数,为第k个输入特征对第j个样本的贡献权重。正则化系数λ1、λ2的取值范围为0至1,可由设计人员进行设定。
本文一具体实施例中,如图4所示,上述步骤150根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型,包括:
步骤401,根据所述预测目标及所述输入特征,构造线性方程其中,y为所述预测目标,/>为输入特征权重向量,k为输入特征编号,n为输入特征总数,/>为n×1的输入特征向量。
步骤402,根据求解得到的最后N个样本的输入特征权重,计算得到所述线性方程中输入特征权重向量
具体的,为了保证精度,一般取建立营业收入预测模型时最后使用的一个样本的输入特征权重向量作为线性方程中输入特征权重向量(例如共m个样本,则将第m个样本的输入特征权重向量作为线性方程中输入特征权重向量/>)。还可以将最后N个样本的输入特征权重做均值处理,将处理得到的权重作为所述线性方程中输入特征权重向量/>
步骤403,将输入特征权重向量代回所述线性方程中,得到所述营业收入预测模型。
如图5所示,图5示出了本文一实施例的营业收入预测方法的流程图,本实施例通过利用前述任一实施例所述的营业收入预测模型确定方法确定的营业收入预测模型对营业收入进行预测,能够准确的得到符合实际的营业收入。具体的,营业收入预测方法包括:
步骤510,采集影响营业收入的特征信息值。影响营业收入的特征信息值与预测的营业收入相关,本文对此限定。
步骤530,将采集的营业收入特征信息值输入营业收入预测模型中,得到营业收入信息值。营业收入预测模型的确定过程参见前述实施例,此处不再赘述。
基于同一发明构思,本文还提供了一种营业收入预测装置,如下面的实施例所述。由于该装置解决问题的原理与营业收入预测方法相似,因此该装置的实施可以参见营业收入预测方法的实施,重复之处不再赘述。具体的,如图6所示,营业收入预测模型确定装置包括:
泛函构造模块610,用于将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;
权重计算模块630,用于根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;
模型确定模块650,用于根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型。
本文一实施例中,泛函构造函数根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,包括:
(1)根据所述预测目标及所述输入特征,利用如下公式构造线性拟合误差函数,其中,所述线性拟合误差函数为输入特征权重的函数。
其中,f(w)为线性拟合误差函数,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量。
(2)利用如下公式构造第一正则化项以从样本间的相似度与输入特征权重的差异性成反比的角度限定输入特征权重。
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本的相似度,为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数。
(3)根据所述线性拟合误差函数及所述第一正则化项,利用如下公式构造局部Lasso误差泛函。
其中,minwJ(w)为所述局部Lasso误差泛函,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量;
ΩNetwork为第一正则化项,λ1为正则化系数,i,j为样本编号,rij为第i个样本与第j个样本的相似度,为第j个样本输入特征权重向量,||·||2为L2范数。
本文一实施例中,上述步骤(2)中还包括:
构造第二正则化项以限定输入特征权重,使得各样本对各输入特征权重形成竞争机制。第二正则化项公式如下公式所示:
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,m为样本数,j为样本编号,为第k个输入特征对第j个样本的贡献权重。
步骤(3)进一步为根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,利用如下公式构造局部Lasso误差泛函。
其中,minwJ(w)为所述局部Lasso误差泛函,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量;
ΩNetwork为第一正则化项,λ1为正则化系数,i,j为样本编号,rij为第i个样本与第j个样本的相似度,为第j个样本输入特征权重向量,||·||2为L2范数;
其中,V(w)为第二正则化项,λ2为正则化系数,为第k个输入特征对第j个样本的贡献权重。
本文一实施例中,还提供一种营业收入预测装置,如图7所示,营业收入预测装置包括:
采集模块710,用于采集营业收入特征信息值;
预测模块730,用于将采集的营业收入特征信息值输入营业收入预测模型中,得到营业收入信息值。营业收入预测模型的确定过程参见前述实施例,此处不再赘述。
为了更清楚说明本文技术方案,下面以两个具体实施例进行说明:
第一具体实施例
本具体实施例将营业收入值作为预测目标,将影响营业收入的特征的特征值作为输入特征,预先采集样本,样本包括营业收入值及影响营业收入的特征值。如图8所示,营业收入预测方法包括:
步骤810,根据所述预测目标及所述输入特征,构造线性拟合误差函数
其中,f(w)为线性拟合误差函数,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量。
步骤820,构造第一正则化项ΩNetwork以限定输入特征权重,其中,样本间的输入特征权重差异与样本间的相似度成反比。
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本/>的相似度,/>为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数,表示向量·元素的平方和再开方,即,(xi为向量x的元素)。
步骤830,构造第二正则化项以限定输入特征权重,使得各样本对各输入特征权重形成竞争机制。
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,m为样本数,j为样本编号,为第k个输入特征对第j个样本的贡献权重,/>为第j个样本输入特征权重向量,/>为L1及L2的混合范数,/>中快维L1范数的作用在于联合同一特征对不同样本的贡献,/>中慢维L2范数的作用在于联合不同特征对不同样本的贡献。
步骤840,根据线性拟合误差函数、第一正则化项及第二正则化,构造局部Lasso误差泛函。
其中,λ1及λ2为正则化系数。
步骤850,根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入值及影响营业收入的特征的特征值。
步骤860,根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型M1。
M1:
其中,yM1为预测目标,即营业收入值,为影响营业收入的特征值的权重(即为第m个样本对应的输入特征权重),/>为输入特征,即影响营业收入的特征的特征值。
步骤870,采集影响营业收入的特征的特征值。
步骤880,将采集的特征值输入至营业收入预测模型M1中,得到营业收入值。
第二具体实施例
本具体实施例将营业收入同比增长率作为预测目标,将影响营业收入的特征的同比增长率作为输入特征,预先采集样本,样本包括营业收入增长率及影响营业收入的特征的同比增长率。如图9所示,营业收入预测方法包括:
步骤910,根据所述预测目标及所述输入特征,构造线性拟合误差函数
其中,f(w)为线性拟合误差函数,m为样本总数,yi为第i个样本的预测目标值,为第i个样本输入特征权重向量,wi k为第k个输入特征对第i个样本的贡献权重,k为输入特征编号,n为输入特征总数,/>为第i个样本输入特征向量。
步骤920,构造第一正则化项ΩNetwork以限定输入特征权重,其中,样本间的输入特征权重差异与样本间的相似度成反比。
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本/>的相似度,/>为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数,表示向量·元素的平方和再开方,即,/>(xi为向量x的元素)。
步骤930,构造第二正则化项以限定输入特征权重,使得各样本对各输入特征权重形成竞争机制。
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,m为样本数,j为样本编号,为第k个输入特征对第j个样本的贡献权重,/>为第j个样本输入特征权重向量,/>为L1及L2的混合范数,/>中快维L1范数的作用在于联合同一特征对不同样本的贡献,/>中慢维L2范数的作用在于联合不同特征对不同样本的贡献。
步骤940,根据线性拟合误差函数、第一正则化项及第二正则化,构造局部Lasso误差泛函。
其中,λ1及λ2为正则化系数。
步骤950,根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入同比增长率及影响营业收入的特征的同比增长率。
步骤960,根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型M2。
M2:
其中,yM2为预测目标,即营业收入值,为影响营业收入的特征的权重(即为第m个样本对应的输入特征权重),/>为输入特征,即影响营业收入的特征的同比增长率。
步骤970,采集影响营业收入的特征的同比增长率。
步骤980,将采集的特征的同比增长率值输入至营业收入预测模型M2中,得到营业收入值。
本文一实施例中,如图10所示,还提供一种计算机设备1002,计算机设备1002包括一个或多个处理器1004,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006,其用于存储可在处理器1004上运行的计算机程序,处理器1004执行前述任一实施例所述的营业收入预测模型确定方法及前述实施例所述的营业收入预测方法。具体实施时,营业收入预测模型确定方法及营业收入预测方法还可由两个计算机设备实现。非限制性的,比如,存储器1006可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下,当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备1002还可以包括输入/输出模块1010(I/O),其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014))。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口1018(GUI)。在其他实施例中,还可以不包括输入/输出模块1010(I/O)、输入设备1012以及输出设备1014,仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020,其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。
通信链路1022可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行图1或图4中的营业收入预测模型确定方法的步骤。
本文一实施例中,还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图1或图4中所示的营业收入预测模型确定方法。
本文一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行图5中的营业收入预测方法的步骤。
本文一实施例中,还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图5中所示的营业收入预测方法。
本文通过将局部Lasso模型应用于营业收入预测中,利用构造的包括第一正则化项(突出局部性)及第二正则化项(突出稀疏性及多样性)的局部Lasso误差泛函,能够计算出精度较高及可解释性的输入特征权重,进而能够构造出精度较高及可解释性的营业收入预测模型。本文能够减少主观因素影响、突破小样本及多维度的瓶颈,进而提高营业收入预测效率及预测的精度。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

Claims (10)

1.一种营业收入预测模型确定方法,其特征在于,包括:
将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;其中,所述营业收入信息为营业收入变化率;所述影响营业收入的特征信息为特征变化率,具体的,营业收入变化率为相对上一年同一时间段营业收入的变化或相对于上一月同一时间段营业收入的变化,特征变化率为相对上一年同一时间段特征值的变化或相对于上一月同一时间段特征值的变化;
根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;
根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型;
根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,包括:
根据所述预测目标及所述输入特征,构造线性拟合误差函数,其中,所述线性拟合误差函数为输入特征权重的函数;
构造第一正则化项以限定输入特征权重,使得样本间的输入特征权重差异与样本间的相似度成反比,其中,样本间的输入特征权重差异与样本间的相似度成反比指的是样本间的相似度值越大,输入特征权重之间的差异值越小,样本间的相似度值越小,输入特征权重之间的差异值越大;第一正则化项表达式为:
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本的相似度,采用皮尔森相似系数计算方法计算得到,为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数;
构造第二正则化项以限定输入特征权重,使得各样本对各输入特征形成竞争机制,其中,各样本对各输入特征形成竞争机制指的是若某些输入特征对某类样本贡献较大,则这些输入特征对其他类样本贡献较小;第二正则化项表达式为:
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,wj k为第k个输入特征对第j个样本的贡献权重;
根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函;
所述第一正则化项用于突出局部性,即相似度高的样本对应的输入特征权重向量也更接近;
所述第二正则化项用于学习一种特征只能对一类样本贡献较大,且允许多类特征均对一类样本贡献较大;
根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函,包括:
对所述线性拟合误差函数、所述第一正则化项及所述第二正则化项做加权处理,得到所述局部Lasso误差泛函:
其中,minwJ(w)为所述局部Lasso误差泛函,yi为第i个样本的预测目标值,wi k为第k个输入特征对第i个样本的贡献权重,/>为第i个样本输入特征向量,λ1为正则化系数,λ2为正则化系数。
2.如权利要求1所述的方法,其特征在于,根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,包括:
将所述样本代入所述局部Lasso误差泛函中,采用迭代最小二乘的方法求解得到所述局部Lasso误差泛函中的所述输入特征权重。
3.如权利要求1所述的方法,其特征在于,根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型,包括:
根据所述预测目标及所述输入特征,构造线性方程其中,y为所述预测目标,为输入特征权重向量,/>为所述输入特征;
根据求解得到的最后N个样本的输入特征权重,计算得到所述线性方程中输入特征权重向量
将输入特征权重向量代回所述线性方程中,得到所述营业收入预测模型。
4.一种营业收入预测方法,其特征在于,包括:
采集影响营业收入的特征信息值;
将采集的特征信息值输入权利要求1至3中任一项所述方法得到的所述营业收入预测模型中,得到营业收入信息值。
5.一种营业收入预测模型确定装置,其特征在于,包括:
泛函构造模块,用于将营业收入信息作为预测目标,将影响营业收入的特征信息作为输入特征,根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,其中,所述局部Lasso误差泛函为输入特征权重的函数;其中,所述营业收入信息为营业收入变化率;所述影响营业收入的特征信息为特征变化率,具体的,营业收入变化率为相对上一年同一时间段营业收入的变化或相对于上一月同一时间段营业收入的变化,特征变化率为相对上一年同一时间段特征值的变化或相对于上一月同一时间段特征值的变化;
权重计算模块,用于根据获取的样本,求解所述局部Lasso误差泛函中的所述输入特征权重,其中,所述样本包括营业收入信息值及影响营业收入的特征信息值;
模型确定模块,用于根据所述预测目标、所述输入特征及求解得到的输入特征权重,得到营业收入预测模型;
根据所述预测目标及所述输入特征,构造局部Lasso误差泛函,包括:
根据所述预测目标及所述输入特征,构造线性拟合误差函数,其中,所述线性拟合误差函数为输入特征权重的函数;
构造第一正则化项以限定输入特征权重,使得样本间的输入特征权重差异与样本间的相似度成反比,其中,样本间的输入特征权重差异与样本间的相似度成反比指的是样本间的相似度值越大,输入特征权重之间的差异值越小,样本间的相似度值越小,输入特征权重之间的差异值越大;第一正则化项表达式为:
其中,ΩNetwork为第一正则化项,i,j为样本编号,m为样本总数,rij为第i个样本与第j个样本的相似度,采用皮尔森相似系数计算方法计算得到,为第i个样本输入特征权重向量,/>为第j个样本输入特征权重向量,||·||2为L2范数;
构造第二正则化项以限定输入特征权重,使得各样本对各输入特征形成竞争机制,其中,各样本对各输入特征形成竞争机制指的是若某些输入特征对某类样本贡献较大,则这些输入特征对其他类样本贡献较小;第二正则化项表达式为:
其中,V(w)为第二正则化项,n为输入特征总数,k为输入特征编号,为第k个输入特征对第j个样本的贡献权重;
根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函;
所述第一正则化项用于突出局部性,即相似度高的样本对应的输入特征权重向量也更接近;
所述第二正则化项用于学习一种特征只能对一类样本贡献较大,且允许多类特征均对一类样本贡献较大;
根据所述线性拟合误差函数、所述第一正则化项及第二正则化项,构造局部Lasso误差泛函,包括:
对所述线性拟合误差函数、所述第一正则化项及所述第二正则化项做加权处理,得到所述局部Lasso误差泛函:
其中,minwJ(w)为所述局部Lasso误差泛函,yi为第i个样本的预测目标值,wi k为第k个输入特征对第i个样本的贡献权重,/>为第i个样本输入特征向量,λ1为正则化系数,λ2为正则化系数。
6.一种营业收入预测装置,其特征在于,包括:
采集模块,用于采集影响营业收入的特征信息值;
预测模块,用于将采集的特征信息值输入权利要求5所述装置得到的所述营业收入预测模型中,得到营业收入信息值。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的营业收入预测模型确定方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的营业收入预测模型确定方法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求4所述的营业收入预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求4所述的营业收入预测方法。
CN202110159451.XA 2021-02-05 2021-02-05 一种营业收入预测模型确定方法及装置、预测方法及装置 Active CN112801708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159451.XA CN112801708B (zh) 2021-02-05 2021-02-05 一种营业收入预测模型确定方法及装置、预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159451.XA CN112801708B (zh) 2021-02-05 2021-02-05 一种营业收入预测模型确定方法及装置、预测方法及装置

Publications (2)

Publication Number Publication Date
CN112801708A CN112801708A (zh) 2021-05-14
CN112801708B true CN112801708B (zh) 2024-01-16

Family

ID=75814377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159451.XA Active CN112801708B (zh) 2021-02-05 2021-02-05 一种营业收入预测模型确定方法及装置、预测方法及装置

Country Status (1)

Country Link
CN (1) CN112801708B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118013A (zh) * 2018-08-29 2019-01-01 黑龙江工业学院 一种基于神经网络的经营数据预测方法、可读存储介质和预测系统
CN110378434A (zh) * 2019-07-24 2019-10-25 腾讯科技(深圳)有限公司 点击率预测模型的训练方法、推荐方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6743902B2 (ja) * 2016-11-08 2020-08-19 日本電気株式会社 マルチタスク関係学習システム、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118013A (zh) * 2018-08-29 2019-01-01 黑龙江工业学院 一种基于神经网络的经营数据预测方法、可读存储介质和预测系统
CN110378434A (zh) * 2019-07-24 2019-10-25 腾讯科技(深圳)有限公司 点击率预测模型的训练方法、推荐方法、装置及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于LASSO的发电商额外收入预测;谢蔚 等;《中国电机工程学会电力市场专委会2019年年会论文集》;20191231;第1-5页 *
多任务学习;张钰 等;《计算机学报》;20200731;第43卷(第7期);第1340-1350页 *
甘肃省财政收入影响因素与财政收入预测分析;李敏;《中国优秀硕士学位论文全文数据库基础科学辑》;20190915(第09期);摘要,第5-34页 *
谢蔚 等.基于LASSO的发电商额外收入预测.《中国电机工程学会电力市场专委会2019年年会论文集》.2019,第1-5页. *

Also Published As

Publication number Publication date
CN112801708A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US20220335501A1 (en) Item recommendations using convolutions on weighted graphs
Bisoi et al. Hybrid variational mode decomposition and evolutionary robust kernel extreme learning machine for stock price and movement prediction on daily basis
Li et al. Robust deviance information criterion for latent variable models
CN111914728A (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
Karlsson et al. Vector autoregression models with skewness and heavy tails
Vila et al. Bayesian nonlinear model selection and neural networks: A conjugate prior approach
Papaioannou et al. Time-series forecasting using manifold learning, radial basis function interpolation, and geometric harmonics
Gao et al. A two-way transformed factor model for matrix-variate time series
CN111325344A (zh) 评估模型解释工具的方法和装置
Timmerman et al. Three-way component analysis with smoothness constraints
US11682069B2 (en) Extending finite rank deep kernel learning to forecasting over long time horizons
CN108765137A (zh) 一种信贷需求预测方法和系统、存储介质
CN114139593A (zh) 一种去偏差图神经网络的训练方法、装置和电子设备
CN112801708B (zh) 一种营业收入预测模型确定方法及装置、预测方法及装置
CN112991026A (zh) 一种商品推荐方法、系统、设备及计算机可读存储介质
CN109255638B (zh) 一种挖掘潜在客户的数学模型
JP2012079225A (ja) 協調フィルタリング処理方法およびプログラム
Landsman et al. Efficient analysis of case‐control studies with sample weights
Spånberg Maximum a posteriori estimation of dynamic factor models with incomplete data
Bhat et al. InvestorRank and an inverse problem for PageRank
Dax et al. Imputing missing groundwater observations
CN112991025A (zh) 一种保险智能推荐方法、系统、设备及计算机可读存储介质
Umar et al. A Study of Nigeria Monthly Stock Price Index Using ARTFIMA-FIGARCH Hybrid Model
Hong et al. Recent developments in high dimensional covariance estimation and its related issues, a review
Jacobi et al. Estimating Posterior Sensitivities with Application to Structural Analysis of Bayesian Vector Autoregressions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant