CN111476281A - 一种信息流行度预测方法和装置 - Google Patents
一种信息流行度预测方法和装置 Download PDFInfo
- Publication number
- CN111476281A CN111476281A CN202010227888.8A CN202010227888A CN111476281A CN 111476281 A CN111476281 A CN 111476281A CN 202010227888 A CN202010227888 A CN 202010227888A CN 111476281 A CN111476281 A CN 111476281A
- Authority
- CN
- China
- Prior art keywords
- information
- popularity
- model
- interval
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种信息流行度预测方法和装置,涉及数据处理领域。为解决现有信息流行度预测的准确率较低的问题而发明。本发明实施例提供的技术方案包括:S10、获取待预测信息对应的第一信息特征、发布待预测信息的账号的第一账号信息和第一互动信息;S20、将第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;S30、获取预先训练模型预测器时采用的流行度区间‑流行度数值对应关系;S40、获取待预测信息的待预测流行度数值。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种信息流行度预测方法和装置。
背景技术
近年来,随着网络技术的飞速发展,新媒体平台逐渐兴起。为了便于企业使用新媒体平台进行营销推广,一般需要对新媒体平台中信息的流行度进行预测。
现有技术中,一般将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果。
然而,即使是过去一段时间内发布信息的流行度也很难代表未来;而且不同信息的流行度不同,因此将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果的准确率较低。
发明内容
有鉴于此,本发明的主要目的在于解决现有的信息流行度预测方法准确率较低的问题。
一方面,本发明实施例提供的一种信息流行度预测方法,包括:S10、获取待预测信息对应的第一信息特征、发布所述待预测信息的账号的第一账号信息和第一互动信息;S20、将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;所述预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;S30、获取预先训练所述模型预测器时采用的流行度区间-流行度数值对应关系;S40、根据所述待预测流行度区间和所述流行度区间-流行度数值对应关系,获取所述待预测信息的待预测流行度数值。
另一方面,本发明实施例提供一种信息流行度预测装置,包括:
信息获取单元,用于获取待预测信息对应的第一信息特征、发布所述待预测信息的账号的第一账号信息和第一互动信息;
区间获取单元,与所述信息获取单元相连,用于将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;所述预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;
关系获取单元,用于获取预先训练所述模型预测器时采用的流行度区间-流行度数值对应关系;
数值获取单元,分别与所述区间获取单元和关系获取单元相连,用于根据所述待预测流行度区间和所述流行度区间-流行度数值对应关系,获取所述待预测信息的待预测流行度数值。
综上所述,本发明提供的信息流行度预测方法和装置,通过预先训练的模型预测器获取待预测信息对应的待预测流行度区间后,根据预先训练模型预测器时采用的流行度区间-流行度数值对应关系,获取待预测信息对应的待预测流行度数值,从而实现信息的流行度预测。由于模型预测器预先训练时采用了预先发布的历史信息,且基于交叉验证策略训练,能够进一步提高预测的准确率,解决了现有技术中将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果的准确率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的信息流行度预测方法的流程图;
图2为本发明实施例2提供的信息流行度预测方法的流程图;
图3为本发明实施例3提供的信息流行度预测装置的结构示意图一;
图4为本发明实施例3提供的信息流行度预测装置的结构示意图二;
图5为图4所示的信息流行度预测装置中区间计算单元的结构示意图;
图6为图4所示的信息流行度预测装置中模型训练单元的结构示意图一;
图7为图6所示的模型训练单元中模型融合模块的结构示意图;
图8为图4所示的信息流行度预测装置中模型训练单元的结构示意图二;
图9为图3所示的信息流行度预测装置中区间获取单元的结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种信息流行度预测方法,包括:
步骤101,获取待预测信息对应的第一信息特征、发布待预测信息的账号的第一账号信息和第一互动信息。
在本实施例中,步骤101中第一账号信息,包括:粉丝数、等级、是否认证、认证类型中的一项或多项;第一信息特征,包括:待预测信息是否包含话题、标签、视频、图片、网页链接信息中的一种或多种,以及待预测信息包括的关键词的频次信息。第一互动信息可以为待预测信息对应账号的历史互动量的统计值,如转发、评论、点赞数量的最大值、最小值、四分位数、平均值等;该统计值可以为不同时期的统计,如最近1周、最近1个月、最近3个月等。
在本实施例中,在预先训练模型预测器时,还可以训练得到每个机器学习模型的关键词表;此时,获取第一信息特征中关键词的频次信息过程包括:对待预测信息进行分词,得到至少一个待预测词汇;根据关键词表,获取至少一个待预测词汇中的关键词;根据至少一个待预测词汇中的关键词,获取第一信息特征中关键词的频次信息。
步骤102,将第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间。
在本实施例中,步骤102中预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息。其中,至少两种机器学习模型,包括逻辑回归模型、随机森林模型、xgboost模型、支持向量机模型、神经网络模型等模型中的至少两种。该预先发布的至少一条历史信息,可以为待预测信息发布之前,预设所有账号发布的至少一条历史信息;也可以为从所有账号中随机选取的预设数目的账号发布的至少一条历史信息,在此不作限制。
在本实施例中,通过步骤102获取待预测流行度区间的过程包括:分别将第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中的每个模型中,得到每个模型对应的流行度区间的概率值;将概率值按照流行度区间分别相加,得到每个流行度区间对应的概率和;将最大的概率和对应的流行度区间作为待预测流行度区间。
步骤103,获取预先训练模型预测器时采用的流行度区间-流行度数值对应关系。
步骤104,根据待预测流行度区间和流行度区间-流行度数值对应关系,获取待预测信息的待预测流行度数值。
在本实施例中,通过步骤104获取待预测流行度数值的方式可以为:根据待预测流行度区间和流行度区间-流行度数值对应关系,获取对应关系中待预测流行度区间对应的流行度数值,该流行度数值即为待预测流行度数值。
综上所述,本发明提供的信息流行度预测方法,通过预先训练的模型预测器获取待预测信息对应的待预测流行度区间后,根据预先训练模型预测器时采用的流行度区间-流行度数值对应关系,获取待预测信息对应的待预测流行度数值,从而实现信息的流行度预测。由于模型预测器预先训练时采用了预先发布的历史信息,且基于交叉验证策略训练,能够进一步提高预测的准确率,解决了现有技术中将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果的准确率较低的问题。
实施例2
如图2所示,本发明提供一种信息流行度预测方法,包括:
步骤201,获取待预测信息对应的第一信息特征、发布待预测信息的账号的第一账号信息和第一互动信息。该过程与图1所示的步骤101相似,在此不再一一赘述。
步骤202,获取预先发布的至少一条历史信息的流行度数值。
在本实施例中,步骤202中至少一条历史信息的流行度,可以为其阅读量、转发量、点赞量等。该预先发布的至少一条历史信息,可以为待预测信息发布之前,预设所有账号发布的至少一条历史信息;也可以为从所有账号中随机选取的预设数目的账号发布的至少一条历史信息,在此不作限制。
步骤203,根据至少一条历史信息的流行度数值获取对应的至少一个流行度区间以及流行度区间-流行度数值对应关系。
在本实施例中,通过步骤203获取至少一个流行度区间及对应关系的过程包括:获取预设评价指标以及所有历史信息的流行度数值中的最小值;根据预设评价指标及最小值获取当前流行度区间对应的流行度数值;根据预设评价指标及当前流行度区间对应的流行度数值,获取当前流行度区间的最大值;将最大值作为下一个流行度区间的最小值后,重复上述流行度数值和最大值获取过程,直至获取的当前流行度区间的最大值超过所有历史信息的流行度数值中的最大值;根据获取的流行度区间和对应的流行度数值获取流行度区间-流行度数值对应关系。
以预设评价指标为绝对百分误差50%(即预测值与实际值的绝对百分误差在50%以内就算预测正确),所有历史信息的流行度的最小值为1、最大值为800为例,第一个流行度区间对应的流行度数值为最小值*(最小值+预设评价指标)=1*(1+50%)=1.5;第一个流行度区间的的最大值为流行度数值/预设评价指标=1.5/0.5=3;重复上述过程,可以得到至少一个流行度区间以及对应关系,如下表:
流行度区间 | 流行度数值 |
(1,3) | 1.5 |
(3,9) | 4.5 |
(9,27) | 13.5 |
(27,81) | 40.5 |
(81,243) | 121.5 |
(243,729) | 364.5 |
(729,2187) | 1093.5 |
步骤204,分别获取每条历史信息对应的第二信息特征、发布每条历史信息的账号的第二账号信息和第二互动信息。
在本实施例中,第二账号信息,包括:粉丝数、等级、是否认证、认证类型中的一项或多项;第二信息特征,包括:每条历史信息是否包含话题、标签、视频、图片、网页链接信息中的一种或多种,以及每条历史信息包括的关键词的频次信息。第二互动信息可以为待预测信息对应的账号的历史互动量的统计值,如转发、评论、点赞数量的最大值、最小值、四分位数、平均值等;该统计值可以为不同时期的统计,如最近1周、最近1个月、最近3个月等。
步骤205,分别根据每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及至少一个流行度区间,基于交叉验证策略对预设至少两种机器学习模型进行训练,获取预先训练的模型预测器。
在本实施例中,通过步骤205获取模型预测器的过程包括:分别根据每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及至少一个流行度区间,基于交叉验证策略对预设至少两种机器学习模型进行训练,得到至少两个训练模型;对至少两个训练模型进行融合,得到预先训练的模型预测器。
其中,对至少两个训练模型进行融合,得到预先训练的模型预测器,包括:(1)获取至少两个训练模型中准确度最高的第一训练模型;(2)分别将第一训练模型和其他模型进行融合,得到至少一个融合后的模型;其他模型为至少两个训练模型中除第一训练模型之外的模型;(3)判断至少一个融合后的模型的准确度是否大于第一训练模型的准确度;如果大于,执行(4);如果不大于,执行(5);(4)根据至少一个融合后的模型中准确度最高的模型更新第一训练模型后,重复(2)(3);(5)将当前的第一训练模型作为预先训练的模型预测器。
在本实施例中,为了提高信息流行度预测的准确率,训练时的交叉验证策略所采用的训练集、测试集、验证集是根据至少一条历史信息的发布时间从早到晚依次设置的。例如多条历史信息的发布时间均在一年内,可以将多条历史信息中前9个月的信息设置为训练集,第10和11个月的信息设置为测试集,最后一个月的信息设置为验证集。
具体的,对于任一机器学习模型,训练预设至少两种机器学习模型,还可以包括:从所有历史信息包含的至少一个词汇中按频率高低顺序依次获取预设个数的第一词汇;将第一词汇作为关键词,分别使用每条历史信息和对应的流行度区间对机器学习模型进行训练,得到第一模型精度;分别根据第一模型精度判断机器学习模型的精度提升是否符合预设规则;第一模型精度的初始值为0;如果符合,将第一词汇更新为第一词汇和第二词汇之和后重复上述训练过程;第二词汇为至少一个词汇中按频率高低顺序排列的、第一词汇之后的预设个数的词汇;如果不符合,根据最后一次精度提升符合预设规则时的词汇获取关键词表。
步骤206,将第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间。该过程与图1所示的步骤102相似,在此不再一一赘述。
步骤207,获取预先训练模型预测器时采用的流行度区间-流行度数值对应关系。该过程与图1所示的步骤103相似,在此不再一一赘述。
步骤208,根据待预测流行度区间和流行度区间-流行度数值对应关系,获取待预测信息的待预测流行度数值。该过程与图1所示的步骤104相似,在此不再一一赘述。
综上所述,本发明提供的信息流行度预测方法,通过预先训练的模型预测器获取待预测信息对应的待预测流行度区间后,根据预先训练模型预测器时采用的流行度区间-流行度数值对应关系,获取待预测信息对应的待预测流行度数值,从而实现信息的流行度预测。由于模型预测器预先训练时采用了预先发布的历史信息,且基于交叉验证策略训练,能够进一步提高预测的准确率,解决了现有技术中将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果的准确率较低的问题。
实施例3
如图3所示,本发明提供一种信息流行度预测装置,包括:
信息获取单元301,用于获取待预测信息对应的第一信息特征、发布所述待预测信息的账号的第一账号信息和第一互动信息;
区间获取单元302,与所述信息获取单元相连,用于将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;所述预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;
关系获取单元303,用于获取预先训练所述模型预测器时采用的流行度区间-流行度数值对应关系;
数值获取单元304,分别与所述区间获取单元和关系获取单元相连,用于根据所述待预测流行度区间和所述流行度区间-流行度数值对应关系,获取所述待预测信息的待预测流行度数值。
在本实施例中,通过信息获取单元301、区间获取单元302、关系获取单元303和数值获取单元304实现流行度预测的过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,如图4所示,本实施例提供的信息流行度预测装置,还可以包括:
历史流行度获取单元305,用于获取预先发布的至少一条历史信息的流行度数值;
区间计算单元306,与所述历史流行度获取单元相连,用于根据所述至少一条历史信息的流行度数值获取对应的至少一个流行度区间以及流行度区间-流行度数值对应关系;
历史信息获取单元307,用于分别获取每条历史信息对应的第二信息特征、发布每条历史信息的账号的第二账号信息和第二互动信息;
模型训练单元308,分别与所述区间计算单元、历史信息获取单元和区间获取单元相连,用于分别根据所述每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,获取所述预先训练的模型预测器。
在本实施例中,信息流行度预测装置还包括历史流行度获取单元305、区间计算单元306、历史信息获取单元307和模型训练单元308时,实现流行度预测的过程,与本发明实施例2提供的相似,在此不再一一赘述。
进一步的,如图5所示,本实施例中区间计算单元306,可以包括:
最小值获取模块3061,用于获取预设评价指标以及所有历史信息的流行度数值中的最小值;
数值获取模块3062,与所述最小值获取模块相连,用于根据所述预设评价指标及所述最小值获取当前流行度区间对应的流行度数值;
最大值获取模块3063,与所述数值获取模块相连,用于根据所述预设评价指标及所述当前流行度区间对应的流行度数值,获取所述当前流行度区间的最大值;
最小值更新模块3064,分别与所述最大值获取模块和所述数值获取模块相连,用于将所述最大值作为下一个流行度区间的最小值后,再次通过数值获取模块进行流行度数值获取过程,直至获取的当前流行度区间的最大值超过所有历史信息的流行度数值中的最大值;
关系获取模块3065,分别与所述最小值获取模块、数值获取模块、最大值获取模块和最小值更新模块相连,用于根据获取的流行度区间和对应的流行度数值获取所述流行度区间-流行度数值对应关系。
在本实施例中,区间计算单元306通过上述模块实现对应关系的获取过程,与图2所示的步骤203相似,在此不再一一赘述。
进一步的,如图6所示,本实施例提供的所述模型训练单元308,可以包括:
模型训练模块3081,用于分别根据每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,得到至少两个训练模型;
模型融合模块3082,与所述模型训练模块相连,用于对所述至少两个训练模型进行融合,得到所述预先训练的模型预测器。
其中,如图7所示,该模型融合模块3082,包括:
第一模型获取子模块30821,用于获取所述至少两个训练模型中准确度最高的第一训练模型;
融合模型获取子模块30822,与所述第一模型获取子模块相连,用于分别将所述第一训练模型和其他模型进行融合,得到至少一个融合后的模型;所述其他模型为所述至少两个训练模型中除所述第一训练模型之外的模型;
准确度判断子模块30823,与所述融合模型获取子模块相连,用于判断所述至少一个融合后的模型的准确度是否大于所述第一训练模型的准确度;
模型更新子模块30824,分别与融合模型获取子模块和准确度判断子模块相连,用于如果所述至少一个融合后的模型的准确度大于所述第一训练模型的准确度,根据所述至少一个融合后的模型中准确度最高的模型更新所述第一训练模型后,通过融合模型获取子模块进行融合后的模型获取过程;
预测器获取子模块30825,与准确度判断子模块相连,用于如果所述至少一个融合后的模型的准确度不大于所述第一训练模型的准确度,将当前的第一训练模型作为所述预先训练的模型预测器。
特别的,该模型训练单元308还可以用于获取关键词表,此时,如图8所示,该模型训练单元308,包括:
第一词汇获取模块3083,用于从所有历史信息包含的至少一个词汇中按频率高低顺序依次获取预设个数的第一词汇;
第一训练模块3084,与所述第一词汇获取模块相连,用于将所述第一词汇作为关键词,分别使用每条历史信息和对应的流行度区间对所述机器学习模型进行训练,得到第一模型精度;
精度判断模块3085,与所述第一训练模块相连,用于分别根据所述第一模型精度判断所述机器学习模型的精度提升是否符合预设规则;所述第一模型精度的初始值为0;
词汇更新模块3086,与所述精度判断模块和第一训练模块相连,用于如果机器学习模型的精度提升符合预设规则,将第一词汇更新为第一词汇和第二词汇之和后通过第一训练模块进行训练;所述第二词汇为所述至少一个词汇中按频率高低顺序排列的、所述第一词汇之后的预设个数的词汇;
词表获取模块3087,与所述精度判断模块相连,用于如果机器学习模型的精度提升不符合预设规则,根据最后一次精度提升符合预设规则时的词汇获取关键词表。
在本实施例中,模型训练单元308进行模型训练/获取关键词表的过程,与图2所示的步骤205相似,在此不再一一赘述。
进一步的,如图9所示,本实施例提供的所述区间获取单元302,包括:
概率值获取模块3021,用于分别将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中的每个模型中,得到每个模型对应的流行度区间的概率值;
概率和获取模块3022,与所述概率值获取模块相连,用于将所述概率值按照流行度区间分别相加,得到每个流行度区间对应的概率和;
区间获取模块3023,与所述概率和获取模块相连,用于将最大的概率和对应的流行度区间作为所述待预测流行度区间。
在本实施例中,区间获取单元实现预测流行度区间的获取过程,与图1所示的步骤102相似,在此不再一一赘述。
综上所述,本发明提供的信息流行度预测装置,通过预先训练的模型预测器获取待预测信息对应的待预测流行度区间后,根据预先训练模型预测器时采用的流行度区间-流行度数值对应关系,获取待预测信息对应的待预测流行度数值,从而实现信息的流行度预测。由于模型预测器预先训练时采用了预先发布的历史信息,且基于交叉验证策略训练,能够进一步提高预测的准确率,解决了现有技术中将账号在过去一段时间内发布信息的流行度的平均值或中位数作为预测结果的准确率较低的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (18)
1.一种信息流行度预测方法,其特征在于,包括:
S10、获取待预测信息对应的第一信息特征、发布所述待预测信息的账号的第一账号信息和第一互动信息;
S20、将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;所述预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;
S30、获取预先训练所述模型预测器时采用的流行度区间-流行度数值对应关系;
S40、根据所述待预测流行度区间和所述流行度区间-流行度数值对应关系,获取所述待预测信息的待预测流行度数值。
2.根据权利要求1所述的信息流行度预测方法,其特征在于,在所述S20之前,所述方法还包括:
S11、获取预先发布的至少一条历史信息的流行度数值;
S12、根据所述至少一条历史信息的流行度数值获取对应的至少一个流行度区间以及流行度区间-流行度数值对应关系;
S13、分别获取每条历史信息对应的第二信息特征、发布每条历史信息的账号的第二账号信息和第二互动信息;
S14、分别根据所述每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及所述至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,获取所述预先训练的模型预测器。
3.根据权利要求2所述的信息流行度预测方法,其特征在于,所述S12,包括:
S121、获取预设评价指标以及所有历史信息的流行度数值中的最小值;
S122、根据所述预设评价指标及所述最小值获取当前流行度区间对应的流行度数值;
S123、根据所述预设评价指标及所述当前流行度区间对应的流行度数值,获取所述当前流行度区间的最大值;
S124、将所述最大值作为下一个流行度区间的最小值后,重复上述S122和S123的流行度数值和最大值获取过程,直至获取的当前流行度区间的最大值超过所有历史信息的流行度数值中的最大值;
S125、根据获取的流行度区间和对应的流行度数值获取所述流行度区间-流行度数值对应关系。
4.根据权利要求2所述的信息流行度预测方法,其特征在于,所述S14,包括:
S141、分别根据每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及所述至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,得到至少两个训练模型;
S142、对所述至少两个训练模型进行融合,得到所述预先训练的模型预测器。
5.根据权利要求4所述的信息流行度预测方法,其特征在于,所述S142,包括:
S1421、获取所述至少两个训练模型中准确度最高的第一训练模型;
S1422、分别将所述第一训练模型和其他模型进行融合,得到至少一个融合后的模型;所述其他模型为所述至少两个训练模型中除所述第一训练模型之外的模型;
S1423、判断所述至少一个融合后的模型的准确度是否大于所述第一训练模型的准确度;如果大于,执行S1424;如果不大于,执行S1425;
S1424、根据所述至少一个融合后的模型中准确度最高的模型更新所述第一训练模型后,重复所述S1422和S1423;
S1425、将当前的第一训练模型作为所述预先训练的模型预测器。
6.根据权利要求1至5中任意一项所述的信息流行度预测方法,其特征在于,所述交叉验证策略所采用的训练集、测试集、验证集是根据至少一条历史信息的发布时间从早到晚依次设置的。
7.根据权利要求1至5中任意一项所述的信息流行度预测方法,其特征在于,
所述第一账号信息,包括:粉丝数、等级、是否认证、认证类型中的一项或多项;
所述第一信息特征,包括:所述待预测信息是否包含话题、标签、视频、图片、网页链接信息中的一种或多种,以及所述待预测信息包括的关键词的频次信息。
8.根据权利要求2至5中任意一项所述的信息流行度预测方法,其特征在于,
所述第二账号信息,包括:粉丝数、等级、是否认证、认证类型中的一项或多项;
所述第二信息特征,包括:每条历史信息是否包含话题、标签、视频、图片、网页链接信息中的一种或多种,以及每条历史信息包括的关键词的频次信息。
9.根据权利要求2至5中任意一项所述的信息流行度预测方法,其特征在于,对于任一机器学习模型,所述S14,包括:
S143、从所有历史信息包含的至少一个词汇中按频率高低顺序依次获取预设个数的第一词汇;
S144、将所述第一词汇作为关键词,分别使用每条历史信息和对应的流行度区间对所述机器学习模型进行训练,得到第一模型精度;
S145、分别根据所述第一模型精度判断所述机器学习模型的精度提升是否符合预设规则;所述第一模型精度的初始值为0;
S146、如果符合,将第一词汇更新为第一词汇和第二词汇之和后执行S142;所述第二词汇为所述至少一个词汇中按频率高低顺序排列的、所述第一词汇之后的预设个数的词汇;
S147、如果不符合,根据最后一次精度提升符合预设规则时的词汇获取所述机器学习模型的关键词表。
10.根据权利要求9所述的信息流行度预测方法,其特征在于,对于所述机器学习模型,获取所述第一信息特征中关键词的频次信息的过程包括:
对所述待预测信息进行分词,得到至少一个待预测词汇;
根据所述关键词表,获取所述至少一个待预测词汇中的关键词;
根据所述至少一个待预测词汇中的关键词,获取所述第一信息特征中关键词的频次信息。
11.根据权利要求1所述的信息流行度预测方法,其特征在于,所述S20,包括:
S201、分别将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中的每个模型中,得到每个模型对应的流行度区间的概率值;
S202、将所述概率值按照流行度区间分别相加,得到每个流行度区间对应的概率和;
S203、将最大的概率和对应的流行度区间作为所述待预测流行度区间。
12.一种信息流行度预测装置,其特征在于,包括:
信息获取单元,用于获取待预测信息对应的第一信息特征、发布所述待预测信息的账号的第一账号信息和第一互动信息;
区间获取单元,与所述信息获取单元相连,用于将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中,得到待预测流行度区间;所述预先训练的模型预测器由预设至少两种机器学习模型基于交叉验证策略训练而成,训练时采用的数据为预先发布的至少一条历史信息;
关系获取单元,用于获取预先训练所述模型预测器时采用的流行度区间-流行度数值对应关系;
数值获取单元,分别与所述区间获取单元和关系获取单元相连,用于根据所述待预测流行度区间和所述流行度区间-流行度数值对应关系,获取所述待预测信息的待预测流行度数值。
13.根据权利要求12所述的信息流行度预测装置,其特征在于,还包括:
历史流行度获取单元,用于获取预先发布的至少一条历史信息的流行度数值;
区间计算单元,与所述历史流行度获取单元相连,用于根据所述至少一条历史信息的流行度数值获取对应的至少一个流行度区间以及流行度区间-流行度数值对应关系;
历史信息获取单元,用于分别获取每条历史信息对应的第二信息特征、发布每条历史信息的账号的第二账号信息和第二互动信息;
模型训练单元,分别与所述区间计算单元、历史信息获取单元和区间获取单元相连,用于分别根据所述每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及所述至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,获取所述预先训练的模型预测器。
14.根据权利要求13所述的信息流行度预测装置,其特征在于,所述区间计算单元,包括:
最小值获取模块,用于获取预设评价指标以及所有历史信息的流行度数值中的最小值;
数值获取模块,与所述最小值获取模块相连,用于根据所述预设评价指标及所述最小值获取当前流行度区间对应的流行度数值;
最大值获取模块,与所述数值获取模块相连,用于根据所述预设评价指标及所述当前流行度区间对应的流行度数值,获取所述当前流行度区间的最大值;
最小值更新模块,分别与所述最大值获取模块和所述数值获取模块相连,用于将所述最大值作为下一个流行度区间的最小值后,再次通过数值获取模块进行流行度数值获取过程,直至获取的当前流行度区间的最大值超过所有历史信息的流行度数值中的最大值;
关系获取模块,分别与所述最小值获取模块、数值获取模块、最大值获取模块和最小值更新模块相连,用于根据获取的流行度区间和对应的流行度数值获取所述流行度区间-流行度数值对应关系。
15.根据权利要求13所述的信息流行度预测装置,其特征在于,所述模型训练单元,包括:
模型训练模块,用于分别根据每条历史信息对应的第二信息特征、第二账号信息和第二互动信息以及所述至少一个流行度区间,基于交叉验证策略对所述预设至少两种机器学习模型进行训练,得到至少两个训练模型;
模型融合模块,与所述模型训练模块相连,用于对所述至少两个训练模型进行融合,得到所述预先训练的模型预测器。
16.根据权利要求15所述的信息流行度预测装置,其特征在于,所述模型融合模块,包括:
第一模型获取子模块,用于获取所述至少两个训练模型中准确度最高的第一训练模型;
融合模型获取子模块,与所述第一模型获取子模块相连,用于分别将所述第一训练模型和其他模型进行融合,得到至少一个融合后的模型;所述其他模型为所述至少两个训练模型中除所述第一训练模型之外的模型;
准确度判断子模块,与所述融合模型获取子模块相连,用于判断所述至少一个融合后的模型的准确度是否大于所述第一训练模型的准确度;
模型更新子模块,分别与所述融合模型获取子模块和准确度判断子模块相连,用于如果所述至少一个融合后的模型的准确度大于所述第一训练模型的准确度,根据所述至少一个融合后的模型中准确度最高的模型更新所述第一训练模型后,通过融合模型获取子模块进行融合后的模型获取过程;
预测器获取子模块,与所述准确度判断子模块相连,用于如果所述至少一个融合后的模型的准确度不大于所述第一训练模型的准确度,将当前的第一训练模型作为所述预先训练的模型预测器。
17.根据权利要求13所述的信息流行度预测装置,其特征在于,对于任一机器学习模型,所述模型训练单元,包括:
第一词汇获取模块,用于从所有历史信息包含的至少一个词汇中按频率高低顺序依次获取预设个数的第一词汇;
第一训练模块,与所述第一词汇获取模块相连,用于将所述第一词汇作为关键词,分别使用每条历史信息和对应的流行度区间对所述机器学习模型进行训练,得到第一模型精度;
精度判断模块,与所述第一训练模块相连,用于分别根据所述第一模型精度判断所述机器学习模型的精度提升是否符合预设规则;所述第一模型精度的初始值为0;
词汇更新模块,与所述精度判断模块和第一训练模块相连,用于如果机器学习模型的精度提升符合预设规则,将第一词汇更新为第一词汇和第二词汇之和后通过第一训练模块进行训练;所述第二词汇为所述至少一个词汇中按频率高低顺序排列的、所述第一词汇之后的预设个数的词汇;
词表获取模块,与所述精度判断模块相连,用于如果机器学习模型的精度提升不符合预设规则,根据最后一次精度提升符合预设规则时的词汇获取所述机器学习模型的关键词表。
18.根据权利要求12所述的信息流行度预测装置,其特征在于,所述区间获取单元,包括:
概率值获取模块,用于分别将所述第一信息特征、第一账号信息和第一互动信息代入预先训练的模型预测器中的每个模型中,得到每个模型对应的流行度区间的概率值;
概率和获取模块,与所述概率值获取模块相连,用于将所述概率值按照流行度区间分别相加,得到每个流行度区间对应的概率和;
区间获取模块,与所述概率和获取模块相连,用于将最大的概率和对应的流行度区间作为所述待预测流行度区间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227888.8A CN111476281B (zh) | 2020-03-27 | 2020-03-27 | 一种信息流行度预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227888.8A CN111476281B (zh) | 2020-03-27 | 2020-03-27 | 一种信息流行度预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476281A true CN111476281A (zh) | 2020-07-31 |
CN111476281B CN111476281B (zh) | 2020-12-22 |
Family
ID=71747834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010227888.8A Active CN111476281B (zh) | 2020-03-27 | 2020-03-27 | 一种信息流行度预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476281B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570597A (zh) * | 2016-11-14 | 2017-04-19 | 广州大学 | 一种sdn架构下基于深度学习的内容流行度预测方法 |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
CN107527124A (zh) * | 2017-10-13 | 2017-12-29 | 众安信息技术服务有限公司 | 生成行业基本面组合预测模型的方法和装置 |
US20180060744A1 (en) * | 2014-05-23 | 2018-03-01 | DataRobot, Inc. | Systems for second-order predictive data analytics, and related methods and apparatus |
CN109451757A (zh) * | 2016-06-21 | 2019-03-08 | 品点预测股份有限公司 | 在保持用户匿名的同时使用机器学习从行为数据预测心理度量简档 |
CN109492776A (zh) * | 2018-11-21 | 2019-03-19 | 哈尔滨工程大学 | 基于主动学习的微博流行度预测方法 |
US20190158905A1 (en) * | 2015-08-21 | 2019-05-23 | Vilynx, Inc. | Processing Video Usage Information for the Delivery of Advertising |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110083699A (zh) * | 2019-03-18 | 2019-08-02 | 中国科学院自动化研究所 | 基于深度神经网络的新闻流行度预测模型训练方法 |
CN110334275A (zh) * | 2019-05-31 | 2019-10-15 | 北京中科闻歌科技股份有限公司 | 一种信息流行度预测方法、设备和存储介质 |
CN110503162A (zh) * | 2019-08-29 | 2019-11-26 | 广东工业大学 | 一种媒体信息流行度预测方法、装置和设备 |
US10586185B2 (en) * | 2017-04-20 | 2020-03-10 | Capital One Services, Llc | Machine learning artificial intelligence system for predicting popular hours |
-
2020
- 2020-03-27 CN CN202010227888.8A patent/CN111476281B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180060744A1 (en) * | 2014-05-23 | 2018-03-01 | DataRobot, Inc. | Systems for second-order predictive data analytics, and related methods and apparatus |
US20190158905A1 (en) * | 2015-08-21 | 2019-05-23 | Vilynx, Inc. | Processing Video Usage Information for the Delivery of Advertising |
CN109451757A (zh) * | 2016-06-21 | 2019-03-08 | 品点预测股份有限公司 | 在保持用户匿名的同时使用机器学习从行为数据预测心理度量简档 |
CN106570597A (zh) * | 2016-11-14 | 2017-04-19 | 广州大学 | 一种sdn架构下基于深度学习的内容流行度预测方法 |
US10586185B2 (en) * | 2017-04-20 | 2020-03-10 | Capital One Services, Llc | Machine learning artificial intelligence system for predicting popular hours |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
CN107527124A (zh) * | 2017-10-13 | 2017-12-29 | 众安信息技术服务有限公司 | 生成行业基本面组合预测模型的方法和装置 |
CN109492776A (zh) * | 2018-11-21 | 2019-03-19 | 哈尔滨工程大学 | 基于主动学习的微博流行度预测方法 |
CN110083699A (zh) * | 2019-03-18 | 2019-08-02 | 中国科学院自动化研究所 | 基于深度神经网络的新闻流行度预测模型训练方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110334275A (zh) * | 2019-05-31 | 2019-10-15 | 北京中科闻歌科技股份有限公司 | 一种信息流行度预测方法、设备和存储介质 |
CN110503162A (zh) * | 2019-08-29 | 2019-11-26 | 广东工业大学 | 一种媒体信息流行度预测方法、装置和设备 |
Non-Patent Citations (4)
Title |
---|
ALEXANDRU TATAR等: "A survey on predicting the popularity of web content", 《JOURNAL OF INTERNET SERVICES AND APPLICATIONS》 * |
PUJA MUNJAL等: "Twitter sentiments based suggestive framework to predict trends", 《JOURNAL OF STATISTICS AND MANAGEMENT SYSTEMS》 * |
STEPHAN SIGG等: "Exploiting usage to predict instantaneous app popularity: Trend filters and retention rates", 《ACM TRANSACTIONS ON THE WEB》 * |
王新乐等: "基于多维度特征的主题标签流行度预测", 《山东大学学报(理学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476281B (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121795B (zh) | 用户行为预测方法及装置 | |
CN108280542B (zh) | 一种用户画像模型的优化方法、介质以及设备 | |
US20220092416A1 (en) | Neural architecture search through a graph search space | |
CN108829718B (zh) | 一种数据处理的方法和装置 | |
US20140188442A1 (en) | System and Method for Selecting Predictors for a Student Risk Model | |
CN113094593B (zh) | 社交网络事件推荐方法、系统、设备及存储介质 | |
CN110728543B (zh) | 异常账号的识别方法及装置 | |
CN111160797A (zh) | 风控模型的构建方法、装置、存储介质及终端 | |
CN111177135B (zh) | 一种基于界标的数据填补方法及装置 | |
CN110743169B (zh) | 基于区块链的防作弊方法及系统 | |
CN107330709B (zh) | 确定目标对象的方法及装置 | |
CN109493958A (zh) | 一种随访计划制定方法、装置、服务器及介质 | |
CN111476281B (zh) | 一种信息流行度预测方法和装置 | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN110163470B (zh) | 事件评估方法及装置 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN116777281A (zh) | 一种基于arima模型的电力设备质量趋势预测方法及装置 | |
CN113590673A (zh) | 基于区块链深度学习的数据热度统计方法 | |
CN114493250A (zh) | 一种异常行为检测方法、计算设备及可读存储介质 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN112200602A (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
US20240221523A1 (en) | Pre-training modeling system and method for predicting educational element | |
CN114548523B (zh) | 用户观影信息预测方法、装置、设备及存储介质 | |
CN115907217A (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
CN116629926A (zh) | 一种复购预测模型训练方法、复购预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |