CN111062749A - 增长量预估方法、装置、电子设备及存储介质 - Google Patents
增长量预估方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111062749A CN111062749A CN201911275554.1A CN201911275554A CN111062749A CN 111062749 A CN111062749 A CN 111062749A CN 201911275554 A CN201911275554 A CN 201911275554A CN 111062749 A CN111062749 A CN 111062749A
- Authority
- CN
- China
- Prior art keywords
- time period
- estimated
- adjustment coefficient
- key
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012417 linear regression Methods 0.000 claims abstract description 37
- 230000001419 dependent effect Effects 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001737 promoting effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种增长量预估方法、装置、电子设备及存储介质。增长量预估方法包括:获取预先训练的预估模型,预估模型为添加有时间调整系数的线性回归方程,预估模型的自变量为输入,自变量表示时间段,因变量为输出,因变量表示用户增长量,时间调整系数为自变量的系数;获取待预估时间段,判断待预估时间段中是否包含关键时间段;在未包含时,将时间调整系数设置为默认时间调整系数,将待预估时间段作为预估模型的输入,得到输出的预估用户增长量;在包含时,获取关键时间段对应的目标时间调整系数,将时间调整系数设置为目标时间调整系数,将待预估时间段作为预估模型的输入,得到输出的预估用户增长量。本发明可以提高预估结果的准确性。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种增长量预估方法、装置、电子设备及存储介质。
背景技术
自媒体又称公民媒体或个人媒体,是指私人化、平民化、普泛化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。论坛、博客、微博、微信以及视频网站等,构成了自媒体的主要表达渠道。
在视频网站中设置认证系统,用户可以通过认证系统注册为自媒体用户。自媒体用户可以上传个人录制的视频数据,视频网站的认证系统将自媒体用户上传的视频数据存储在认证数据库中。
自媒体用户的增长量对视频网站来说是一个比较重要的因子。视频网站可依据自媒体用户的增长量进行系统分析、制定优化方案,比如排查错误、推出促销活动等。
因此,如何预估用户增长量,成为目前亟待解决的问题之一。
发明内容
本发明实施例的目的在于提供一种增长量预估方法、装置、电子设备及存储介质,以实现准确预估用户增长量。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种增长量预估方法,所述方法包括:
获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;
获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;
在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;
在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
可选地,所述预估模型通过如下方式训练:获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量;为预设的初始线性回归方程添加所述时间调整系数;将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型;依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数。
所述获取所述关键时间段对应的目标时间调整系数,包括:获取所述待预估时间段中包含的关键时间段的类型;从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
可选地,所述依据所述第二样本数据集合对所述关键时间段进行分类,包括:分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;确定属性相同的关键时间段属于同一关键时间段类型。
可选地,所述确定每个关键时间段类型对应的时间调整系数,包括:针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
可选地,所述方法还包括:获取所述待预估时间段内的实际用户增长量;在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;定期依据所述优化样本数据对所述预估模型进行重新训练。
在本发明实施的第二方面,还提供了一种增长量预估装置,所述装置包括:
模型获取模块,用于获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;
判断模块,用于获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;
第一预估模块,用于在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;
第二预估模块,用于在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
可选地,所述预估模型通过如下模块训练:样本获取模块,用于获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量;添加模块,用于为预设的初始线性回归方程添加所述时间调整系数;第一确定模块,用于将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型;第二确定模块,用于依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数。
所述第二预估模块包括:类型获取单元,用于获取所述待预估时间段中包含的关键时间段的类型;查找单元,用于从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
可选地,所述第二确定模块包括:属性获取单元,用于分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;类型确定单元,用于确定属性相同的关键时间段属于同一关键时间段类型。
可选地,所述第二确定模块包括:选取单元,用于针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;第一计算单元,用于针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;第二计算单元,用于计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
可选地,所述装置还包括:增长量获取模块,用于获取所述待预估时间段内的实际用户增长量;样本确定模块,用于在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;优化模块,用于定期依据所述优化样本数据对所述预估模型进行重新训练。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
本发明实施例中,获取预先训练的预估模型,预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。由此可知,本发明实施例中预估模型中添加有时间调整系数,该时间调整系数作为输入的时间段的系数,用于调整时间段的权重,基于关键时间段内用户增长量大于非关键时间段内用户增长量的规律,在预估时间段包含关键时间段时选用的时间调整系数大于预估时间段未包含关键时间段时选用的时间调整系数,因此能够适应用户增长量的规律进行有针对性地预估,提高预估结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例的一种增长量预估方法的步骤流程图。
图2是本发明实施例的一种模型训练方法的步骤流程图。
图3是本发明实施例的另一种增长量预估方法的步骤流程图。
图4是本发明实施例的一种增长量预估装置的结构框图。
图5是本发明实施例的一种模型训练装置的结构框图。
图6是本发明实施例的另一种增长量预估装置的结构框图。
图7是本发明实施例中的一种电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
当某个新用户在视频网站首次注册成功后,该新用户为视频网站增长的用户,某个时间段内的用户增长量是指该时间段内在视频网站注册成功的新用户的数量。基于用户增长量的特点,正常情况下用户增长量保持稳定增长,但是在某些特殊时间段,比如节假日、促销日等时间段,用户增长量会出现激增,本发明实施例中针对不同情况的时间段,采用不同的时间调整系数调整时间段的权重,以使预估出的用户增长量更加准确。
参照图1,示出了本发明实施例的一种增长量预估方法的步骤流程图。
本发明实施例的增长量预估方法包括以下步骤:
步骤101,获取预先训练的预估模型。
由于用户增长量基本保持线性增长,时间段的时长越长,时间段内的用户增长量越大,因此可以采用线性回归方程模拟用户增长量的规律,预估某时间段内的用户增长量。但是考虑到某些特殊时间段的用户增长量会出现激增,如果依据线性回归方程进行预估,无法适应用户增长量激增的情况,导致预估结果的准确性较低。因此,本发明实施例中在线性回归方程中添加时间调整系数,将添加有时间调整系数的线性回归方程作为预估模型。其中,预估模型的自变量为输入,自变量表示时间段,预估模型的因变量为输出,因变量表示时间段内的用户增长量。
时间调整系数作为自变量的系数,用于调整输入的时间段的权重,时间调整系数越大,计算出的用户增长量越大,从而能够根据时间段的特性的不同为预估模型选用合适的时间调整系数,从而更加准确地预估用户增长量。
步骤102,获取待预估时间段,判断所述待预估时间段中是否包含关键时间段。若否,则执行步骤103,若是,则执行步骤104。
待预估时间段是指需要预估用户增长量的时间段。待预估时间段可以为天数,比如,可以将未来的某一周、某10天、某一个月等作为待预估时间段。
本发明实施例中,将用户增长量出现激增的时间段称为关键时间段。关键时间段是指特殊时间段,比如节假日、视频网站的促销日等。
步骤103,在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
在待预估时间段中未包含关键时间段时,该待预估时间段内的用户增长量一般不会出现激增,因此可以将预估模型的时间调整系数设置为默认时间调整系数。对于默认时间调整系数的具体数值,本领域技术人员可以采用任意适用的数值,比如设置默认时间调整系数为1、2,等等,本发明实施例对此不作限制。
设置默认时间调整系数后,将待预估时间段作为预估模型的输入,预估模型经过计算,得到的输出即为待预估时间段内的预估用户增长量。
步骤104,在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
在待预估时间段中包含关键时间段时,该待预估时间段内的用户增长量一般会出现激增,因此可以增大预估模型的时间调整系数。获取关键时间段对应的目标时间调整系数,该目标时间调整系数大于默认时间调整系数,将预估模型的时间调整系数设置为目标时间调整系数。
设置目标时间调整系数后,将待预估时间段作为预估模型的输入,预估模型经过计算,得到的输出即为待预估时间段内的预估用户增长量。
本发明实施例中,预估模型中添加有时间调整系数,该时间调整系数作为输入的时间段的系数,用于调整时间段的权重,基于关键时间段内用户增长量大于非关键时间段内用户增长量的规律,在预估时间段包含关键时间段时选用的时间调整系数大于预估时间段未包含关键时间段时选用的时间调整系数,因此能够适应用户增长量的规律进行有针对性地预估,提高预估结果的准确性。下面,分别对模型训练过程和增长量预估过程进行详细介绍。
参照图2,示出了本发明实施例的一种模型训练方法的步骤流程图。
本发明实施例的模型训练方法包括以下步骤:
步骤201,获取第一样本数据集合和第二样本数据集合。
步骤202,为预设的初始线性回归方程添加时间调整系数。
步骤203,将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型。
步骤204,依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数。
在步骤201中,当某个新用户在视频网站注册成功后,视频网站会保存该用户的注册信息,注册信息可以包括用户的账号、密码、注册时间、注册地点等。本发明实施例中针对关键时间段和非关键时间段分别获取不同的样本数据集合。
从视频网站保存的注册信息中可以获取第一样本数据集合。第一样本数据集合中的每个第一样本数据均包括未包含关键时间段的第一时间段和第一时间段内的用户增长量。也即,每个第一样本数据为一个(第一时间段,用户增长量)形式的数组。其中,第一时间段可以为天数,比如一周、一个月等。不同第一样本数据中的第一时间段可以相同,也可以不同。
从视频网站保存的注册信息中可以获取第二样本数据集合。第二样本数据集合中的每个第二样本数据均包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量。也即,每个第二样本数据为一个(第二时间段,用户增长量)形式的数组。其中,第二时间段可以为天数,比如一周、一个月等。不同第二样本数据中的第二时间段可以相同,也可以不同。第一时间段和第二时间段可以相同,也可以不同。
比如,可以从最近1年的注册信息中,获取未包含关键时间段的每周和该周内的用户增长量作为第一样本数据集合,其中未包含关键时间段的一周和该周内的用户增长量为一个第一样本数据;获取包含关键时间段的每周和该周内的用户增长量作为第二样本数据集合,其中包含关键时间段的一周和该周内的用户增长量为一个第二样本数据。
在步骤202中,初始线性回归方程是指还未计算相关系数的线性回归方程。本发明实施例中为初始线性回归方程添加时间调整系数,该时间调整系数作为自变量的系数。初始线性回归方程中的原有系数为基础系数。
在一种可选实施方式中,为了计算简便,可以选用一元线性回归方程y=ax+b作为初始线性回归方程,为初始线性回归方程添加时间调整系数后为y=ax·θ+b。其中,x为自变量,x表示时间段,y为因变量,y表示时间段x内的用户增长量,a和b为基础系数,θ为时间调整系数。
在步骤203中,对于未包含关键时间段的第一时间段来说,其可以使用默认时间调整系数,因此可以将线性回归方程中添加的时间调整系数设置为默认时间调整系数。在设置默认时间调整系数后依据第一样本数据集合可以确定预估模型中的基础系数。
每个第一样本数据都对应为一个(x,y)形式的数组,其中x表示第一时间段,y表示第一时间段内的用户增长量。依据第一样本数据集合中的第一样本数据,可以确定预估模型中的基础系数a和b。
比如,为初始线性回归方程添加时间调整系数后为y=ax·θ+b,默认时间调整系数为1,则将时间调整系数设置为默认时间调整系数后为y=ax+b。
在一种可选实施方式中,可以按照如下公式计算所述基础系数:
其中,x表示所述第一时间段,y表示所述第一时间段内的用户增长量,n表示所述第一样本数据的个数。
在另一种可选实施方式中,可以采用拟合的方式确定基础系数。将每个第一样本数据(x,y)作为一个坐标值绘制到直角坐标系中,可以得到多个散点,对这些散点进行线性拟合,得到一条拟合直线,使各散点到这条拟合直线的纵向距离之和最小,这条拟合直线即为线性回归方程,计算该拟合直线的斜率即为基础系数a,计算该拟合直线的截距即为基础系数b。
确定出基础系数后,将基础系数赋值给添加有时间调整系数的线性回归方程,即可得到预估模型。比如,如果基础系数a=3,b=4,则预估模型即为y=3x·θ+4。
在步骤204中,对于包含关键时间段的第二时间段内的用户增长量来说,其相对于未包含关键时间段的第一时间段内的用户增长量会存在一定的激增。因此,对包含关键时间段的第二时间段内的用户增长量进行预估时不再采用默认时间调整系数。依据第二样本数据集合可以确定关键时间段对应的时间调整系数。
本发明实施例中,考虑到关键时间段可能分为多种类型,每个关键时间段类型对应的时间调整系数可能不同。因此,依据第二样本数据集合,对第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数。
在一种可选实施方式中,依据所述第二样本数据集合对所述关键时间段进行分类的过程可以包括:分别获取各第二时间段中包含的关键时间段的属性,确定属性相同的关键时间段属于同一关键时间段类型。
预先为关键时间段设置名称。比如,对于元旦、春节、清明节、劳动节、端午节、中秋节、国庆节等关键时间段,可以将其名称统一设置为节假日;对于提供奖励金等促销活动的关键时间段,可以将其名称统一设置为促销日。
关键时间段具有对应的时长。比如,名称为节假日的关键时间段的时长可以为3天、7天等;名称为促销日的关键时间段的时长可以为3天、5天、7天等。
可选地,考虑到名称不同的关键时间段对应的时间调整系数可能不同,比如名称为促销日的关键时间段对应的时间调整系数可能会大于名称为节假日的关键时间段的时间调整系数,因此在对关键时间段进行分类时,可以依据关键时间段的名称进行分类。该种情况下,关键时间段的属性包括关键时间段的名称,分别获取各第二时间段中包含的关键时间段的名称,确定名称相同的关键时间段属于同一关键时间段类型。比如,确定名称为节假日的关键时间段属于同一关键时间段类型,确定名称为促销日的关键时间段属于同一关键时间段类型,等等。
可选地,考虑到时长不同的关键时间段对应的时间调整系数可能不同,比如时长为7天的关键时间段对应的时间调整系数可能会大于时长为3天的关键时间段的时间调整系数,因此在对关键时间段进行分类时,可以依据关键时间段的时长进行分类。该种情况下,关键时间段的属性包括关键时间段的时长,分别获取各第二时间段中包含的关键时间段的时长,确定时长相同的关键时间段属于同一关键时间段类型。比如,确定时长为3天的关键时间段属于同一关键时间段类型,确定时长为5天的关键时间段属于同一关键时间段类型,确定时长为7天的关键时间段属于同一关键时间段类型,等等。
可选地,考虑到名称相同但时长不同,或者名称不同但时长相同,或者名称和时长均不同的关键时间段对应的时间调整系数可能不同,因此在对关键时间段进行分类时,可以依据关键时间段的名称和时长进行分类。该种情况下,关键时间段的属性包括关键时间段的名称和时长,分别获取各第二时间段中包含的关键时间段的名称和时长,确定名称和时长均相同的关键时间段属于同一关键时间段类型。比如,确定名称为节假日且时长为3天的关键时间段属于同一关键时间段类型,确定名称为节假日且时长为7天的关键时间段属于同一关键时间段类型,确定名称为促销日且时长为3天的关键时间段属于同一关键时间段类型,确定名称为促销日且时长为5天的关键时间段属于同一关键时间段类型,确定名称为促销日且时长为7天的关键时间段属于同一关键时间段类型,等等。
在一种可选实施方式中,确定每个关键时间段类型对应的时间调整系数的过程可以包括步骤A1~A3:
步骤A1,针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据。
当前关键时间段类型是指当前正在处理的关键时间段类型。比如,对第一个关键时间段类型进行处理时,则第一个关键时间段类型即为当前关键时间段类型;对第二个关键时间段类型进行处理时,则第二个关键时间段类型即为当前关键时间段类型。
当前关键时间段类型对应的第二样本数据是指,第二样本数据包括的第二时间段中包含的关键时间段的类型为当前关键时间段类型。因此,获取各第二样本数据包括的第二时间段中所包含的关键时间段的类型,选取类型为当前关键时间段类型的关键时间段所属的第二样本数据。
比如,在对关键时间段进行分类时,确定名称和时长均相同的关键时间段属于同一关键时间段类型。如果当前关键时间段类型为名称为节假日且时长为3天,则从第二样本数据集合中选取包含的关键时间段的名称为节假日且时长为3天的第二样本数据。
步骤A2,针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数。
当前第二样本数据是指当前正在处理的第二样本数据。比如,对选取的第一个第二样本数据进行处理时,则选取的第一个第二样本数据即为当前第二样本数据。
每个第二样本数据都对应为一个(x,y)形式的数组,其中x表示第二时间段,y表示第二时间段内的用户增长量。针对选取的每个第二样本数据(x,y),将当前第二样本数据中的x赋值给预估模型中的x,将第二样本数据中的y赋值给预估模型中的y,经过计算可以得到预估模型中的时间调整系数θ的值,该θ的值即为当前第二样本数据对应的时间调整系数。
比如,如果基础系数a=3,b=4,预估模型为y=3x·θ+4,当前第二样本数据包括的第二时间段为7,第二时间段内的用户增长量为88,也即当前第二样本数据为(7,88),则经过赋值后得到88=3×7·θ+4,经过计算得到θ=4。
步骤A3,计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
经过计算,选取的当前关键时间段类型对应的每个第二样本数据都对应一个时间调整系数,计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为当前关键时间段类型对应的时间调整系数。
对每个关键时间段类型进行计算后,分别得到每个关键时间段类型对应的时间调整系数。比如,可以得到一个关键时间段类型和时间调整系数对应关系表格。
在进行预估模型的训练时,对于关键时间段来说,通过对关键时间段进行分类,可以更有针对性地对属于同一类型的关键时间段进行处理,得到每个关键时间段类型对应的时间调整系数,从而使时间调整系数更能适应不同类型的关键时间段的特性,计算得到的时间调整系数更加准确。
参照图3,示出了本发明实施例的另一种增长量预估方法的步骤流程图。
本发明实施例的增长量预估方法包括以下步骤:
步骤301,获取预先训练的预估模型。该预估模型即为通过上述图2所示的方法训练得到的。
步骤302,获取待预估时间段,判断所述待预估时间段是否包含关键时间段。若否,则执行步骤303,若是,则执行步骤304。
步骤303,在所述待预估时间段未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
比如,训练得到的预估模型为y=3x·θ+4,时间调整系数θ的默认值为1,则将时间调整系数设置为默认时间调整系数后预估模型为y=3x+4。将待预估时间段赋值给预估模型y=3x+4中的x参数,计算得到y参数的值,该值即为待预估时间段内的预估用户增长量。
步骤304,在所述待预估时间段包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
本发明实施例中,获取所述关键时间段对应的目标时间调整系数的过程可以包括:获取所述待预估时间段中包含的关键时间段的类型;从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
经过图2所示的模型训练方法,得到了预估模型及每个关键时间段类型对应的时间调整系数。在对待预估时间段进行处理时,获取待预估时间段中包含的关键时间段的类型,然后查找该类型对应的时间调整系数,查找到的时间调整系数即为目标时间调整系数。
比如,在对关键时间段进行分类时,确定名称和时长均相同的关键时间段属于同一关键时间段类型。如果待预估时间段中包含的关键时间段的类型是名称为节假日且时长为3天,则从训练模型时得到的时间调整系数中查找名称为节假日且时长为3天的关键时间段对应的时间调整系数,作为待预估时间段中包含的关键时间段对应的目标时间调整系数。
比如,训练得到的预估模型为y=3x·θ+4,待预估时间段中包含的关键时间段对应的目标时间调整系数为4,则将时间调整系数设置为目标时间调整系数后预估模型为y=3×4x+4。将待预估时间段赋值给预估模型y=3×4x+4中的x参数,计算得到y参数的值,该值即为待预估时间段内的预估用户增长量。
步骤305,获取所述待预估时间段内的实际用户增长量,在所述预估用户增长量与所述实际用户增长量之间的差值超出预设的误差范围时,输出用于提示用户增长量异常的信息。
在利用预估模型预估出待预估时间段内的预估用户增长量后,根据该预估用户增长量可以排查系统是否出现错误。
在到达实际的待预估时间段后,获取待预估时间段内的实际用户增长量,比较该实际用户增长量与预估用户增长量,在预估用户增长量与实际用户增长量之间的差值超出预设的误差范围时,输出用于提示用户增长量异常的信息。其中,提示信息中可以具体显示实际用户增长量与预估用户增长量的差值等。对于误差范围的具体数值,本领域技术人员根据实际经验设置任意适用的数值均可,比如可以设为0~30,0~50,0~80,等等,本发明实施例对此不作限制。
在实际中,预估用户增长量可能小于实际用户增长量,预估用户增长量也可能大于实际用户增长量。如果预估用户增长量大于实际用户增长量,且两者之间的差值超出预设的误差范围,则原因可能是网络错误导致用户部分注册失败等。如果预估用户增长量小于实际用户增长量,且两者之间的差值超出预设的误差范围,则原因可能是病毒导致注册数据错误等。实际的情况可以由维护人员根据提示信息具体排查出现的错误。
步骤306,根据所述待预估时间段内的预估用户增长量,确定活动策略。
根据预估用户增长量还可以知道产品运营进行活动策略的制定。比如视频网站为了鼓励更多的自媒体用户注册,可以根据自媒体用户增长量的不同推出不同的促销活动,执行奖励金计划。对于具体的活动策略,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此不再详细论述。
需要说明的是,本发明实施例中并不限定上述步骤305和步骤306的执行顺序。
步骤307,获取所述待预估时间段内的实际用户增长量,在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据。
步骤308,定期依据所述优化样本数据对所述预估模型进行重新训练。
在到达实际的待预估时间段后,获取待预估时间段内的实际用户增长量,比较该实际用户增长量与预估用户增长量。在预估用户增长量与实际用户增长量之间的差值位于预设的误差范围时,可以表明预估模型对该预估时间段内预估的用户增长量较为准确。如果依据该预估时间段和该预估时间段内的实际用户增长量作为样本数据对预估模型进行训练,则该样本数据更加准确,因此训练的到的预估模型也会更加准确。
因此,本发明实施例中将预估用户增长量与实际用户增长量之间的差值位于预设的误差范围内的待预估时间段,和该待预估时间段内的实际用户增长量作为优化样本数据。
在得到多个优化样本数据后,定期依据优化样本数据对预估模型进行重新训练,具体训练过程与上述图2所示的训练过程基本相似,本发明实施例在此不再详细论述。
对于误差范围的具体数值,本领域技术人员根据实际经验设置任意适用的数值均可,比如可以设为0~10,0~20,0~30,等等,本发明实施例对此不作限制。步骤307的误差范围与步骤305的误差范围可以相同,也可以不同。
本发明实施例中,将数据挖掘线性回归算法应用于数据校验系统中,改进线性回归算法适应关键时间段点的数据预估问题,更加准确提供数据指导。利用改进线性回归算法的时间调整系数适应关键时间段点数据变化,使模型更加通用;改善过去自媒体新增注册用户异常不及时发现的问题;为产品运营提供更可靠的数据依据,改变过去仅仅凭经验做决定。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明实施例的一种增长量预估装置的结构框图。
本发明实施例的增长量预估装置包括以下模块:
模型获取模块401,用于获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数。
判断模块402,用于获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段。
第一预估模块403,用于在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
第二预估模块403,用于在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
本发明实施例中,预估模型中添加有时间调整系数,该时间调整系数作为输入的时间段的系数,用于调整时间段的权重,基于关键时间段内用户增长量大于非关键时间段内用户增长量的规律,在预估时间段包含关键时间段时选用的时间调整系数大于预估时间段未包含关键时间段时选用的时间调整系数,因此能够适应用户增长量的规律进行有针对性地预估,提高预估结果的准确性。
参照图5,示出了本发明实施例的一种模型训练装置的结构框图。
本发明实施例的模型训练装置包括以下模块:
样本获取模块501,用于获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量。
添加模块502,用于为预设的初始线性回归方程添加所述时间调整系数。
第一确定模块503,用于将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型。
第二确定模块504,用于依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数。
可选地,所述第二确定模块504包括:属性获取单元5041,用于分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;类型确定单元5042,用于确定属性相同的关键时间段属于同一关键时间段类型。
可选地,所述第二确定模块504包括:选取单元5043,用于针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;第一计算单元5044,用于针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;第二计算单元5045,用于计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
图6是本发明实施例的另一种增长量预估装置的结构框图。
本发明实施例的增长量预估装置包括以下模块:
模型获取模块601,用于获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数。
判断模块602,用于获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段。
第一预估模块603,用于在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量。
第二预估模块604,用于在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
可选地,所述第二预估模块604包括:类型获取单元6041,用于获取所述待预估时间段中包含的关键时间段的类型;查找单元6042,用于从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
可选地,所述装置还包括:增长量获取模块605,用于获取所述待预估时间段内的实际用户增长量;样本确定模块606,用于在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;优化模块607,用于定期依据所述优化样本数据对所述预估模型进行重新训练。
本发明实施例中,将数据挖掘线性回归算法应用于数据校验系统中,改进线性回归算法适应关键时间段点的数据预估问题,更加准确提供数据指导。利用改进线性回归算法的时间调整系数适应关键时间段点数据变化,使模型更加通用;改善过去自媒体新增注册用户异常不及时发现的问题;为产品运营提供更可靠的数据依据,改变过去仅仅凭经验做决定。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;
获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;
在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;
在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
可选地,所述预估模型通过如下方式训练:获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量;为预设的初始线性回归方程添加所述时间调整系数;将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型;依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数;
所述获取所述关键时间段对应的目标时间调整系数,包括:获取所述待预估时间段中包含的关键时间段的类型;从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
可选地,所述依据所述第二样本数据集合对所述关键时间段进行分类,包括:分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;确定属性相同的关键时间段属于同一关键时间段类型。
可选地,所述确定每个关键时间段类型对应的时间调整系数,包括:针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
可选地,所述方法还包括:获取所述待预估时间段内的实际用户增长量;在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;定期依据所述优化样本数据对所述预估模型进行重新训练。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种增长量预估方法,其特征在于,所述方法包括:
获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;
获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;
在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;
在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
2.根据权利要求1所述的方法,其特征在于,所述预估模型通过如下方式训练:
获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量;
为预设的初始线性回归方程添加所述时间调整系数;
将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型;
依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数;
所述获取所述关键时间段对应的目标时间调整系数,包括:
获取所述待预估时间段中包含的关键时间段的类型;
从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
3.根据权利要求2所述的方法,其特征在于,所述依据所述第二样本数据集合对所述关键时间段进行分类,包括:
分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;
确定属性相同的关键时间段属于同一关键时间段类型。
4.根据权利要求2所述的方法,其特征在于,所述确定每个关键时间段类型对应的时间调整系数,包括:
针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;
针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;
计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待预估时间段内的实际用户增长量;
在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;
定期依据所述优化样本数据对所述预估模型进行重新训练。
6.一种增长量预估装置,其特征在于,所述装置包括:
模型获取模块,用于获取预先训练的预估模型;所述预估模型为添加有时间调整系数的线性回归方程,所述预估模型的自变量为输入,所述自变量表示时间段,所述预估模型的因变量为输出,所述因变量表示所述时间段内的用户增长量,所述时间调整系数为所述自变量的系数;
判断模块,用于获取待预估时间段,判断所述待预估时间段中是否包含关键时间段;所述关键时间段为用户增长量出现激增的时间段;
第一预估模块,用于在所述待预估时间段中未包含关键时间段时,将所述预估模型的时间调整系数设置为默认时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;
第二预估模块,用于在所述待预估时间段中包含关键时间段时,获取所述关键时间段对应的目标时间调整系数,将所述预估模型的时间调整系数设置为所述目标时间调整系数,将所述待预估时间段作为所述预估模型的输入,得到所述预估模型输出的所述待预估时间段内的预估用户增长量;所述目标时间调整系数大于所述默认时间调整系数。
7.根据权利要求6所述的装置,其特征在于,
所述预估模型通过如下模块训练:
样本获取模块,用于获取第一样本数据集合和第二样本数据集合;所述第一样本数据包括未包含关键时间段的第一时间段和所述第一时间段内的用户增长量,所述第二样本数据包括包含关键时间段的第二时间段和所述第二时间段内的用户增长量;
添加模块,用于为预设的初始线性回归方程添加所述时间调整系数;
第一确定模块,用于将所述时间调整系数设置为所述默认时间调整系数,依据所述第一样本数据集合确定所述预估模型中的基础系数,得到所述预估模型;
第二确定模块,用于依据所述第二样本数据集合,对所述第二时间段中包含的关键时间段进行分类,并确定每个关键时间段类型对应的时间调整系数;
所述第二预估模块包括:
类型获取单元,用于获取所述待预估时间段中包含的关键时间段的类型;
查找单元,用于从确定出的每个关键时间段类型对应的时间调整系数中,查找所述待预估时间段中包含的关键时间段的类型对应的时间调整系数,作为所述目标时间调整系数。
8.根据权利要求7所述的装置,其特征在于,所述第二确定模块包括:
属性获取单元,用于分别获取各第二时间段中包含的关键时间段的属性,所述属性包括名称和/或时长,所述名称包括以下至少之一:节假日、促销日;
类型确定单元,用于确定属性相同的关键时间段属于同一关键时间段类型。
9.根据权利要求7所述的装置,其特征在于,所述第二确定模块包括:
选取单元,用于针对每个关键时间段类型,从所述第二样本数据集合中选取当前关键时间段类型对应的第二样本数据;
第一计算单元,用于针对选取的每个第二样本数据,分别将当前第二样本数据包括的第二时间段作为所述预估模型的输入,将所述当前第二样本数据包括的用户增长量作为所述预估模型的输出,计算得到当前第二样本数据对应的时间调整系数;
第二计算单元,用于计算选取的第二样本数据对应的时间调整系数的平均值,将所述平均值作为所述当前关键时间段类型对应的时间调整系数。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
增长量获取模块,用于获取所述待预估时间段内的实际用户增长量;
样本确定模块,用于在所述预估用户增长量与所述实际用户增长量之间的差值位于预设的误差范围内时,将所述待预估时间段和所述实际用户增长量作为优化样本数据;
优化模块,用于定期依据所述优化样本数据对所述预估模型进行重新训练。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275554.1A CN111062749A (zh) | 2019-12-12 | 2019-12-12 | 增长量预估方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275554.1A CN111062749A (zh) | 2019-12-12 | 2019-12-12 | 增长量预估方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062749A true CN111062749A (zh) | 2020-04-24 |
Family
ID=70300683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911275554.1A Pending CN111062749A (zh) | 2019-12-12 | 2019-12-12 | 增长量预估方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062749A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176662A (ja) * | 2007-01-19 | 2008-07-31 | Toyo Eng Corp | 販売予測システム、方法及びコンピュータプログラム |
CN103971170A (zh) * | 2014-04-17 | 2014-08-06 | 北京百度网讯科技有限公司 | 一种用于对特征信息的变化进行预测的方法和装置 |
US20150046251A1 (en) * | 2013-08-08 | 2015-02-12 | Monica C. Smith | Methods and systems for analyzing key performance metrics |
CN105183371A (zh) * | 2015-08-14 | 2015-12-23 | 山东大学 | 基于迁移均衡策略的用电信息分布式文件存储方法与装置 |
CN106056400A (zh) * | 2016-05-19 | 2016-10-26 | 政和科技股份有限公司 | 预测新增用户数的方法、装置及系统 |
CN106651466A (zh) * | 2016-12-31 | 2017-05-10 | 政和科技股份有限公司 | 一种基于网站用户的信息预测方法 |
CN106845722A (zh) * | 2017-02-06 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 一种预测用户量的方法和装置 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
US20180150883A1 (en) * | 2016-11-30 | 2018-05-31 | Facebook, Inc. | Content selection for incremental user response likelihood |
CN108460537A (zh) * | 2018-03-23 | 2018-08-28 | 华南理工大学 | 一种基于大数据与用户心理预测共享自行车需求量的方法 |
CN109902859A (zh) * | 2019-01-26 | 2019-06-18 | 美味不用等(上海)信息科技股份有限公司 | 基于大数据和机器学习算法的排队高峰时段预估方法 |
WO2019207622A1 (ja) * | 2018-04-23 | 2019-10-31 | 株式会社 東芝 | 電力需要予測装置、電力需要予測方法、およびそのプログラム |
-
2019
- 2019-12-12 CN CN201911275554.1A patent/CN111062749A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176662A (ja) * | 2007-01-19 | 2008-07-31 | Toyo Eng Corp | 販売予測システム、方法及びコンピュータプログラム |
US20150046251A1 (en) * | 2013-08-08 | 2015-02-12 | Monica C. Smith | Methods and systems for analyzing key performance metrics |
CN103971170A (zh) * | 2014-04-17 | 2014-08-06 | 北京百度网讯科技有限公司 | 一种用于对特征信息的变化进行预测的方法和装置 |
CN105183371A (zh) * | 2015-08-14 | 2015-12-23 | 山东大学 | 基于迁移均衡策略的用电信息分布式文件存储方法与装置 |
CN106056400A (zh) * | 2016-05-19 | 2016-10-26 | 政和科技股份有限公司 | 预测新增用户数的方法、装置及系统 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
US20180150883A1 (en) * | 2016-11-30 | 2018-05-31 | Facebook, Inc. | Content selection for incremental user response likelihood |
CN106651466A (zh) * | 2016-12-31 | 2017-05-10 | 政和科技股份有限公司 | 一种基于网站用户的信息预测方法 |
CN106845722A (zh) * | 2017-02-06 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 一种预测用户量的方法和装置 |
CN108460537A (zh) * | 2018-03-23 | 2018-08-28 | 华南理工大学 | 一种基于大数据与用户心理预测共享自行车需求量的方法 |
WO2019207622A1 (ja) * | 2018-04-23 | 2019-10-31 | 株式会社 東芝 | 電力需要予測装置、電力需要予測方法、およびそのプログラム |
CN109902859A (zh) * | 2019-01-26 | 2019-06-18 | 美味不用等(上海)信息科技股份有限公司 | 基于大数据和机器学习算法的排队高峰时段预估方法 |
Non-Patent Citations (3)
Title |
---|
卫军朝,等: "国外主要科学数据管理成本模型调研与分析" * |
李湘娟,等: "云计算虚拟化系统建设规模分析与预估" * |
赵命燕,等: "一种基于视频特征及历史数据的流行度预测算法" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10248528B2 (en) | System monitoring method and apparatus | |
CN109413175B (zh) | 一种信息处理方法、装置及电子设备 | |
KR101708444B1 (ko) | 키워드 및 자산 가격 관련성 평가 방법 및 그 장치 | |
US11593817B2 (en) | Demand prediction method, demand prediction apparatus, and non-transitory computer-readable recording medium | |
US20210360322A1 (en) | Methods and apparatus to categorize media impressions by age | |
EP2994828B1 (en) | Apps store with integrated test support | |
JP6603600B2 (ja) | 需要予測方法、需要予測装置及び需要予測プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US9411917B2 (en) | Methods and systems for modeling crowdsourcing platform | |
Li et al. | Voting with their feet: Inferring user preferences from app management activities | |
JP6949555B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113868953B (zh) | 工业系统中多机组运行优化方法、装置、系统及存储介质 | |
CN111598338B (zh) | 用于更新预测模型的方法、装置、介质和电子设备 | |
JP2022093593A (ja) | 産業財産権の費用見積もりシステムおよびその方法 | |
CN115544299A (zh) | 视频推荐方法及装置 | |
CN108900339B (zh) | 一种度量业务质量的方法、装置及电子设备 | |
CN111143070A (zh) | 一种资源调度方法和装置 | |
CN108647986B (zh) | 一种目标用户确定方法、装置及电子设备 | |
CN108021713B (zh) | 一种文档聚类的方法和装置 | |
CN113313463A (zh) | 应用于大数据云办公的数据分析方法及数据分析服务器 | |
JP2015184818A (ja) | サーバ、モデル適用可否判定方法およびコンピュータプログラム | |
JP6625839B2 (ja) | 負荷実績データ判別装置、負荷予測装置、負荷実績データ判別方法及び負荷予測方法 | |
CN111062749A (zh) | 增长量预估方法、装置、电子设备及存储介质 | |
CN109191217B (zh) | 一种视频广告投放次数预测方法及装置 | |
TWI612484B (zh) | 薪資預測系統方法以及系統 | |
CN111274230B (zh) | 数据迁移的管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |