CN110570025A - 一种微信文章真实阅读率的预测方法、装置及设备 - Google Patents
一种微信文章真实阅读率的预测方法、装置及设备 Download PDFInfo
- Publication number
- CN110570025A CN110570025A CN201910770567.XA CN201910770567A CN110570025A CN 110570025 A CN110570025 A CN 110570025A CN 201910770567 A CN201910770567 A CN 201910770567A CN 110570025 A CN110570025 A CN 110570025A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- feature
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种微信文章真实阅读率的预测方法、装置及设备,其中,所述方法包括:根据微信文章的静态数据和时间序列数据提取特征数据;根据所述特征数据构建机器学习模型;采用所述机器学习模型对微信文章真实阅读率进行预测。本申请实施例结合静态数据和时间序列数据,即利用了静态数据,又使用时间序列数据扩充了特征,弥补了静态数据对监测时间敏感的缺点;而且使用了一套特征工程化方法,提取了大量特征,扩充了数据维度,即降低了人工筛选特征的成本,又提高了模型的泛化性,通过特征工程提取海量特征数据,用机器学习模型进行特征筛选,减少人为经验的判断,有效提高真实阅读率的预测精度。
Description
技术领域
本文涉及社交平台领域,尤指一种微信文章真实阅读率的预测方法、装置、设备和计算机可读存储介质。
背景技术
随着网络的飞速发展,把生活建立在数据流量基础上的人越来越多。流量的影子无处不在,数据流量成为社会信息流的重要支撑。对于广告主而言流量更是具有极大的商业价值。而在社交平台上进行商业化投放,如何识别KOL(Key Opinion Leader,关键意见领袖)的流量引导能力,是广告主进行商业化投放所要解决的重要难题。
流量具有的巨大价值也诱发各种流量造假的行为,使得判断KOL的影响力变得愈发困难。传统的方法用粉丝量来判断一个KOL的影响力,这种简单粗暴的方法随着注册虚假账号刷流量行为的出现效果也越来越差。另外一个非常普遍的方法则是用转评赞来判断一篇帖子的热度,然而转评赞数据很容易因恶意刷流量造假,其可信度也很难评估。因此,亟待提出一种有效的评估手段能够去除数据的水分从而帮助广告主进行广告投放决策。
发明内容
本申请提供了一种微信文章真实阅读率的预测方法、装置、设备和计算机可读存储介质,以提高真实阅读率的预测精度。
本申请实施例提供了一种微信文章真实阅读率的预测方法,包括:
根据微信文章的静态数据和时间序列数据提取特征数据;
根据所述特征数据构建机器学习模型;
采用所述机器学习模型对微信文章真实阅读率进行预测。
在一种示例性的实施例中,所述根据微信文章的静态数据提取特征数据,包括如下至少之一:
对所述静态数据中的分类变量进行独热编码,将所述分类变量转换为数值向量,将所述数值向量作为特征数据;
提取所述静态数据中的数值变量,将所述数值变量作为特征数据;
提取所述静态数据中的数值变量,根据所述数值变量构造特征数据。
在一种示例性的实施例中,所述根据微信文章的时间序列数据提取特征数据,包括:
采用高通HP滤波的方式对所述时间序列数据进行处理;
基于HP滤波处理的结果构造特征数据。
在一种示例性的实施例中,所述采用HP滤波的方式对所述时间序列数据进行处理,包括:
将所述时间序列数据按照时间顺序进行排序,采用插值法将所述时间序列数据处理成预设时间间隔的时间序列数据;
计算所述预设时间间隔的时间序列数据的差分序列;
对所述差分序列进行HP滤波处理,得到异常值及对应的时间位置;
采用平均值法消除异常值,得到HP滤波处理后的时间序列数据。
在一种示例性的实施例中,所述基于HP滤波处理的结果构造特征数据,包括:
基于不同时间段异常值个数、不同时间段峰值个数和基于指定时间段是否出现峰值或异常值中的至少之一构建特征数据。
在一种示例性的实施例中,所述方法还包括:
调整HP滤波的参数,重新基于HP滤波处理的结果构造特征数据。
在一种示例性的实施例中,所述根据所述特征数据构建机器学习模型,包括:
对所述特征数据进行数据预处理;
根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型;
按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型。
在一种示例性的实施例中,所述根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型,包括:
获取微信文章的标签数据,根据所述标签数据的分布特性生成分类标签数据;
根据所述特征数据和分类标签数据训练LightGBM分类模型。
在一种示例性的实施例中,所述按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型,包括:
按照分类模型的分类标签数据将所述特征数据划分为两组;
分别针对两组特征数据训练LightGBM回归模型。
在一种示例性的实施例中,所述机器学习模型包括分类模型和回归模型,所述采用所述机器学习模型对微信文章真实阅读率进行预测,包括:
对微信文章进行数据预处理;
将经过数据预处理的数据输入所述分类模型确定类别;
根据所述类别确定对应的回归模型,将所述经过数据预处理的特征数据输入对应的回归模型,输出微信文章真实阅读率。
本申请实施例还提供一种微信文章真实阅读率的预测装置,包括:
特征提取模块,用于根据微信文章的静态数据和时间序列数据提取特征数据;
模型构建模块,用于根据所述特征数据构建机器学习模型;
预测模块,用于采用所述机器学习模型对微信文章真实阅读率进行预测。
本申请实施例还提供一种微信文章真实阅读率的预测设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述微信文章真实阅读率的预测方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述微信文章真实阅读率的预测方法。
与相关技术相比,本申请包括:根据微信文章的静态数据和时间序列数据提取特征数据;根据所述特征数据构建机器学习模型;采用所述机器学习模型对微信文章真实阅读率进行预测。本申请实施例结合静态数据和时间序列数据,即利用了静态数据,又使用时间序列数据扩充了特征,弥补了静态数据对监测时间敏感的缺点;而且使用了一套特征工程化方法,提取了大量特征,扩充了数据维度,即降低了人工筛选特征的成本,又提高了模型的泛化性,通过特征工程提取海量特征数据,用机器学习模型进行特征筛选,减少人为经验的判断,有效提高真实阅读率的预测精度。
在一种示例性的实施例中,采用了先分类模型判别真实阅读率区间,再回归模型预测真实阅读率的策略,有效提高了模型效果,降低预测误差。
在一种示例性的实施例中,利用HP滤波的方式检测时间序列数据增量波动,更直接有效地发现异常值。
在一种示例性的实施例中,机器学习采用LightGBM算法,训练速度更快,低内存使用,更高的准确率,支持并行化学习。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的微信文章真实阅读率的预测方法的流程图;
图2为本申请实施例的时间序列数据的特征提取的流程图;
图3是本申请实施例的步骤102的流程图;
图4是本申请实施例的步骤302的流程图;
图5是本申请实施例的标签数据直方图示意图;
图6是本申请实施例的步骤303的流程图;
图7是本申请实施例的步骤103的流程图;
图8是本申请实施例的模型预测过程的示意图;
图9是本申请实施例还提供微信文章真实阅读率的预测装置的组成示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
相关技术提出可以采用指数加权的方法,按照撰稿时间、阅读量、点赞量、文章类型、文章投放位置等静态指标,按照权重聚合计算出真实阅读率,其中:
真实阅读率=w1*阅读量评分+w2*点赞量评分+w3*点赞量评分+…+wn*特征n评分
这种方法具有如下缺陷:
1、利用静态横截面数据来预测真实阅读率,受撰稿时间和指标计算时间影响显著,同一文章在不同时间节点,计算出的真实阅读率可能大相径庭;
2、数据采取的特征变量较少,无法有效衡量文章含水率;
3、评分较易受人为经验影响,预测效果可能会有偏差。
相关技术还提出可以基于规则来修正文章的监测数据计算真实阅读率,比如消除异常时间段的阅读增量、或文章类别、撰稿时间等比较苛刻的规则来修正真实阅读率,这种方法具有如下缺陷:
1、规则简单粗暴,一刀切的做法,并不适用于所有微信中所有撰稿的文章真实情况;
2、单一规则效果差,往往只能解决一种情况,无法反映全部的现实;
3、多规则组合,非常复杂,规则越多越不具有普适性;
4、同一套规则,适用于场景无法迁移。
本申请实施例提出一种基于机器学习和HP滤波的微信阅读数真实阅读率预测方法及装置,从而为广告主进行商业化投放提供有效的帮助。
如图1所示,本申请实施例的微信文章真实阅读率的预测方法,包括:
步骤101,根据微信文章的静态数据和时间序列数据提取特征数据。
本申请实施例提取微信撰稿人(KOL)信息、文章基本属性、文章发布后的打点时间检测数据等3大类数据来进行特征工程;其中三类信息如下:
撰稿人基本属性,如等级、撰稿次数、用户id等静态数据;
文章基本属性,如文章类别、文章发布时间、文章字数等静态数据;
文章发布后的打点时间检测数据,如:时间20:30:00/阅读量110/点赞量66,等时间序列数据。
下面分别对静态数据和时间序列数据提取特征数据进行阐述。
1、静态数据的特征提取
静态数据包括撰稿人的基本属性和文章的基本属性,其中针对分类变量和数值变量采取不同的处理手段。
(1)分类变量的特征提取:
在一实施例中,对所述静态数据中的分类变量进行独热编码(One-HotEncoding),将所述分类变量转换为数值向量,将所述数值向量作为特征数据。
其中,提取撰稿人的基本属性和文章基本属性中的分类变量,如文章类型、文章版面位置、单多图文判断等特征。对此类特征进行独热编码,将分类变量转化为数值向量,既解决了分类器不好处理属性数据的问题,又在一定程度上也起到了扩充特征的作用。
独热编码过程示例如下:
1)将待编码特征去重处理,得到去重后的属性列表,如[美食,旅游,科技];
2)根据属性列表,确定转码向量长度,并结合属性列表的位置,将转码向量对应位置的值赋为1,其余赋为0,建立映射;如[“美食”:(1,0,0),“旅游”:(0,1,0),“科技”:(0,0,1)];
3)用编码后的结果替换原数据。
表格1独热编码示例数据
文章列表 | 文章类别 |
文章1 | 美食 |
文章2 | 旅游 |
文章3 | 科技 |
表格2独热编码示例结果
(2)数值变量的特征提取:
在一实施例中,提取所述静态数据中的数值变量,将所述数值变量作为特征数据,和/或提取所述静态数据中的数值变量,根据所述数值变量构造特征数据。
其中,提取撰稿人的基本属性和文章基本属性中的数值变量,或依据已有数值变量构造一批新的特征。如撰稿人账号注册时长=账号注册时间-帖子发布时间,按小时分发帖时间段=帖子发布时间对应的小时(24小时制)。
合并(1)、(2)提取的特征数据,供后续建模使用。
2、时间序列数据的特征提取
时间序列数据可以包括阅读数时间序列数据和点赞数时间序列数据,如图2所示,阅读数时间序列数据和点赞数时间序列数据的特征提取均可分别按照如下步骤执行:
步骤201,采用HP滤波的方式对所述时间序列数据进行处理。
其中,HP滤波(High-Pass Filter)是时间序列在状态空间的一种分解方法,可以近似看作高通滤波器——高频信号能正常通过,而低于设定临界值的低频信号(长期趋势)则被阻隔、减弱。时间序列可看作是不同频率成分的叠加,High-Pass就是将变化不定的时间序列数据中具有一定变化趋势的平滑序列分离出来,将时间序列分为周期性波动数据和趋势要素数据。
在一实施例中,步骤201可包括:
1)将所述时间序列数据按照时间顺序进行排序,采用插值法将所述时间序列数据处理成预设时间间隔的时间序列数据;
获取到的时间序列数据通常为不均匀的打点时间序列数据,可采用插值法将该时间序列数据调整为等间距的时间序列数据。例如,截取发帖时间24小时内的数据,采用插值法将数据处理成x分钟时间间隔的时间序列数据。
2)计算所述预设时间间隔的时间序列数据的差分序列X;
3)对所述差分序列进行HP滤波处理,得到异常值及对应的时间位置;
其中,对所述差分序列X进行HP滤波分解处理,得到一条消除周期性波动和趋势要素的平滑序列Xpred=HPfilter(X,lambda);其中,lambda为平滑系数;
计算残差序列R=X-Xpred;
计算残差序列的绝对值序列Rabs=|R|;
计算Rabs的均值mean(Rabs)和标准差std(Rabs);
按照alpha倍的标准差筛选异常值,判断规则为Rabs-mean(Rabs)>alpha*std(Rabs),筛选出序列中的异常值点;其中,alpha为标准差倍数;
4)采用平均值法消除异常值,得到HP滤波处理后的时间序列数据。
diffi=(diffi-1+diffi+1)/2,其中i表示异常增长值对应的位置,diffi-1表示异常值前一时刻的值,diffi+1表示异常值后一时刻的值,diffi表示用平均值法消除异常值后得到的值。
步骤202,基于HP滤波处理的结果构造特征数据。
针对HP滤波处理后的结果,可以围绕以下三类情况构建若干特征:不同时间段异常值个数、不同时间段峰值个数、基于指定时间段是否出现峰值或异常值的分类特征。
在一实施例中,步骤202之后,还可包括:
步骤203,调整HP滤波的参数,重新基于HP滤波处理的结果构造特征数据。
其中,可以按照预设策略调整HP滤波算法参数。
所述HP滤波算法参数包括平滑系数lambda和标准差倍数alpha,可以通过调整平滑系数lambda和标准差倍数alpha不同值的组合,重新基于HP滤波处理的结果构造特征数据。
例如,所述预设策略可以包括:
1)采用网格化搜索的方式调整HP滤波算法参数alpha、lambda;
例如,alpha的取值范围是A:{1,0.1,0.01,0.001,0.0001},lambda的取值范围是B:{{1,1.5,2,2.5,3};
2)每次从A,B中各取一个值进行组合,例如{alpha:0.1,lambda:1000},则上述共有25种不重复的组合;
3)每次输入一组参数组合,可以提取一组新的特征。
需要说明的是,上述参数的数值为举例说明,可以根据实际情况进行相应调整。
合并步骤202、203提取的特征数据,供后续建模使用。
本申请实施例基于时间序列数据进行预测,克服静态数据对检测时间节点敏感的影响,通过检测时间序列数据增量波动,更直接有效地发现异常值;特征工程提取海量特征,用模型进行特征筛选,减少人为经验的判断。
步骤102,根据所述特征数据构建机器学习模型。
其中,构建机器学习模型基于经验人工标注标签,标签取值范围为[0,1],表示帖子阅读量的真实阅读率。
如图3所示,在一实施例中,步骤102包括:
步骤301,对所述特征数据进行数据预处理;
其中,数据预处理可以包括以下环节:剔除无效数据、补全缺失值、归一化处理等。
步骤302,根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型;
如图4所示,在一实施例中,步骤302可以包括如下步骤:
步骤401,获取微信文章的标签数据,根据所述标签数据的分布特性生成分类标签数据。
其中,微信文章的标签数据是指人工标注的标签数据,取值范围为[0,1],表示帖子阅读量的真实阅读率。
标签数据的分布特性可以采用分布直方图的形式表示。
如图5所示,绘制标签数据的分布直方图,以0.1为间隔绘制直方图,根据直方图初步判断方案。方案为先训练分类模型对数据类别进行判断类别,之后针对性训练回归模型可以提高回归模型效果。
从积累的标注数据真实阅读率的分布可以看出,真实阅读率分布不均衡,即70%的数据在0.8以上,20%的数据在0.3以下,只有10%数据在0.3~0.8之间;结合数据特征看且不同真实率区间范围数据的特征也相差较大。
综合以上两点考虑,先进行模型分类,将数据判断至不同的区间后再针对不同区间训练不同的回归模型预测真实阅读率。该技术手段在本申请实践中证明有效降低真实阅读率的预测误差。
在一实施例中,生成分类标签数据,将标签数据按照0.8切分,0.8以上的标签转化为1,0.8以下的标签转化为0。
除了划分为两组,在其他实施例中,也可以将标签数据划分为更多的组。
步骤402,根据所述特征数据和分类标签数据训练LightGBM分类模型。
LightGBM是一个梯度Boosting框架,使用基于决策树的学习算法。采用LightGBM算法,训练速度更快,低内存使用,更高的准确率,支持并行化学习。
其中,基于提取的特征和分类标签数据训练LightGBM分类模型,调整参数,反复优化模型至最优。
步骤303,按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型。
如图6所示,在一实施例中,步骤303包括:
步骤601,按照分类模型的分类标签数据将所述特征数据划分为两组;
其中,按照分类模型的分类标签数据划分特征数据,当分类标签数据为多组时,相应地,也将特征数据划分为多组。
步骤602,分别针对两组特征数据训练LightGBM回归模型。
其中,调整LightGBM回归模型参数,反复优化模型至最优。
步骤103,采用所述机器学习模型对微信文章真实阅读率进行预测。
本步骤中,采用机器学习模型为步骤102训练好的机器学习模型,包括分类模型和回归模型。
如图7所示,在一实施例中,步骤103包括:
步骤701,对微信文章进行数据预处理。
其中,数据预处理包括数据清洗及特征提取,特征提取采用步骤101的方法。
步骤702,将经过数据预处理的数据输入所述分类模型确定类别。
其中,将数据输入分类模型可以得到类别标签,相应地确定类别。
步骤703,根据所述类别确定对应的回归模型,将所述经过数据预处理的特征数据输入对应的回归模型,输出微信文章真实阅读率。
本申请实施例使用先训练分类模型将样本区分类别,后针对不同类别样本进行回归的策略,提高真实阅读率的预测精度。
参照图8,为模型预测过程。本申请实施例采用的分类模型算法和回归模型算法均为LightGBM。该算法支持并行化学习、较低的内存占用、更快速的训练效率,具有更高的准确率。算法能够根据损失函数自动进行特征筛选过程,提取有效特征,剔除无效特征;针对不同的真实阅读率区间,0~0.8和0.8~1分别训练回归模型,相同区间的数据特征分布更为接近,不同区间的数据特征差异较大,因此分别训练回归模型能够更好的拟合模型,在准确率方面有较好的表现。
如图9所示,本申请实施例还提供微信文章真实阅读率的预测装置,包括:
特征提取模块91,用于根据微信文章的静态数据和时间序列数据提取特征数据;
模型构建模块92,用于根据所述特征数据构建机器学习模型;
预测模块93,用于采用所述机器学习模型对微信文章真实阅读率进行预测。
在一实施例中,所述特征提取模块91,用于采用如下方式中的至少之一提取对所述静态数据的特征数据:
对所述静态数据中的分类变量进行独热编码,将所述分类变量转换为数值向量,将所述数值向量作为特征数据;
提取所述静态数据中的数值变量,将所述数值变量作为特征数据;
提取所述静态数据中的数值变量,根据所述数值变量构造特征数据。
在一实施例中,所述特征提取模块91,用于:
采用HP滤波的方式对所述时间序列数据进行处理;
基于HP滤波处理的结果构造特征数据。
在一实施例中,所述特征提取模块91,用于:
将所述时间序列数据按照时间顺序进行排序,采用插值法将所述时间序列数据处理成预设时间间隔的时间序列数据;
计算所述预设时间间隔的时间序列数据的差分序列;
对所述差分序列进行HP滤波处理,得到异常值及对应的时间位置;
采用平均值法消除异常值,得到HP滤波处理后的时间序列数据。
在一实施例中,特征提取模块91,用于:
基于不同时间段异常值个数、不同时间段峰值个数和基于指定时间段是否出现峰值或异常值中的至少之一构建特征数据。
在一实施例中,所述特征提取模块91,还用于:
调整HP滤波的参数,重新基于HP滤波处理的结果构造特征数据。
在一实施例中,所述模型构建模块92,用于:
所述根据所述特征数据构建机器学习模型,包括:
对所述特征数据进行数据预处理;
根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型;
按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型。
在一实施例中,所述模型构建模块92,用于:
获取微信文章的标签数据,根据所述标签数据的分布特性生成分类标签数据;
根据所述特征数据和分类标签数据训练LightGBM分类模型。
在一实施例中,所述模型构建模块92,用于:
按照分类模型的分类标签数据将所述特征数据划分为两组;
分别针对两组特征数据训练LightGBM回归模型。
在一实施例中,所述机器学习模型包括分类模型和回归模型,所述预测模块93,用于
对微信文章进行数据预处理;
将经过数据预处理的数据输入所述分类模型确定类别;
根据所述类别确定对应的回归模型,将所述经过数据预处理的特征数据输入对应的回归模型,输出微信文章真实阅读率。
本申请实施例基于时间序列数据进行预测,克服静态数据对检测时间节点敏感的影响,通过特征工程提取海量特征数据,用机器学习模型进行特征筛选,减少人为经验的判断,有效提高真实阅读率的预测精度。
本申请实施例还提一种微信文章真实阅读率的预测设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述微信文章真实阅读率的预测方法。
本申请实施例还提一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述微信文章真实阅读率的预测方法。
在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (13)
1.一种微信文章真实阅读率的预测方法,其特征在于,包括:
根据微信文章的静态数据和时间序列数据提取特征数据;
根据所述特征数据构建机器学习模型;
采用所述机器学习模型对微信文章真实阅读率进行预测。
2.根据权利要求1所述的方法,其特征在于,所述根据微信文章的静态数据提取特征数据,包括如下至少之一:
对所述静态数据中的分类变量进行独热编码,将所述分类变量转换为数值向量,将所述数值向量作为特征数据;
提取所述静态数据中的数值变量,将所述数值变量作为特征数据;
提取所述静态数据中的数值变量,根据所述数值变量构造特征数据。
3.根据权利要求1所述的方法,其特征在于,所述根据微信文章的时间序列数据提取特征数据,包括:
采用高通HP滤波的方式对所述时间序列数据进行处理;
基于HP滤波处理的结果构造特征数据。
4.根据权利要求3所述的方法,其特征在于,所述采用HP滤波的方式对所述时间序列数据进行处理,包括:
将所述时间序列数据按照时间顺序进行排序,采用插值法将所述时间序列数据处理成预设时间间隔的时间序列数据;
计算所述预设时间间隔的时间序列数据的差分序列;
对所述差分序列进行HP滤波处理,得到异常值及对应的时间位置;
采用平均值法消除异常值,得到HP滤波处理后的时间序列数据。
5.根据权利要求4所述的方法,其特征在于,所述基于HP滤波处理的结果构造特征数据,包括:
基于不同时间段异常值个数、不同时间段峰值个数和基于指定时间段是否出现峰值或异常值中的至少之一构建特征数据。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
调整HP滤波的参数,重新基于HP滤波处理的结果构造特征数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述特征数据构建机器学习模型,包括:
对所述特征数据进行数据预处理;
根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型;
按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型。
8.根据权利要求7所述的方法,其特征在于,所述根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型,包括:
获取微信文章的标签数据,根据所述标签数据的分布特性生成分类标签数据;
根据所述特征数据和分类标签数据训练LightGBM分类模型。
9.根据权利要求8所述的方法,其特征在于,所述按照分类模型对所述特征数据进行分组,对每组特征数据分别构建回归模型,包括:
按照分类模型的分类标签数据将所述特征数据划分为两组;
分别针对两组特征数据训练LightGBM回归模型。
10.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括分类模型和回归模型,所述采用所述机器学习模型对微信文章真实阅读率进行预测,包括:
对微信文章进行数据预处理;
将经过数据预处理的数据输入所述分类模型确定类别;
根据所述类别确定对应的回归模型,将所述经过数据预处理的特征数据输入对应的回归模型,输出微信文章真实阅读率。
11.一种微信文章真实阅读率的预测装置,其特征在于,包括:
特征提取模块,用于根据微信文章的静态数据和时间序列数据提取特征数据;
模型构建模块,用于根据所述特征数据构建机器学习模型;
预测模块,用于采用所述机器学习模型对微信文章真实阅读率进行预测。
12.一种微信文章真实阅读率的预测设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~10中任意一项所述的方法。
13.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~10中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770567.XA CN110570025A (zh) | 2019-08-20 | 2019-08-20 | 一种微信文章真实阅读率的预测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770567.XA CN110570025A (zh) | 2019-08-20 | 2019-08-20 | 一种微信文章真实阅读率的预测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110570025A true CN110570025A (zh) | 2019-12-13 |
Family
ID=68774141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910770567.XA Pending CN110570025A (zh) | 2019-08-20 | 2019-08-20 | 一种微信文章真实阅读率的预测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570025A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652662A (zh) * | 2020-08-04 | 2020-09-11 | 北京微播易科技股份有限公司 | 一种信息处理方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824806A (zh) * | 2016-06-13 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 一种公众账号的质量评价方法和装置 |
CN106485262A (zh) * | 2016-09-09 | 2017-03-08 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
CN108629000A (zh) * | 2018-05-02 | 2018-10-09 | 深圳市数字城市工程研究中心 | 一种手机轨迹数据聚类的群体行为特征提取方法及系统 |
CN109255101A (zh) * | 2018-08-23 | 2019-01-22 | 北京学之途网络科技有限公司 | 基于机器学习和抽样算法的微博粉丝数获取方法及装置 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
CN110019805A (zh) * | 2017-12-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文章主题挖掘方法和装置及计算机可读存储介质 |
-
2019
- 2019-08-20 CN CN201910770567.XA patent/CN110570025A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824806A (zh) * | 2016-06-13 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 一种公众账号的质量评价方法和装置 |
CN106485262A (zh) * | 2016-09-09 | 2017-03-08 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
CN110019805A (zh) * | 2017-12-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文章主题挖掘方法和装置及计算机可读存储介质 |
CN108629000A (zh) * | 2018-05-02 | 2018-10-09 | 深圳市数字城市工程研究中心 | 一种手机轨迹数据聚类的群体行为特征提取方法及系统 |
CN109255101A (zh) * | 2018-08-23 | 2019-01-22 | 北京学之途网络科技有限公司 | 基于机器学习和抽样算法的微博粉丝数获取方法及装置 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
Non-Patent Citations (3)
Title |
---|
万力: ""网络文章影响力评估算法设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
夏会: ""基于用户行为模式特征的时间序列异常检测"", 《中国博士学位论文全文数据库 基础科学辑》 * |
谢小峰: ""面向物联网时间序列数据深度学习的LSTM方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652662A (zh) * | 2020-08-04 | 2020-09-11 | 北京微播易科技股份有限公司 | 一种信息处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685647B (zh) | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN112000808B (zh) | 一种数据处理方法及装置、可读存储介质 | |
CN112188532A (zh) | 网络异常检测模型的训练方法、网络检测方法及装置 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
JP2012058787A (ja) | 情報処理装置、およびその処理方法 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN113987243A (zh) | 一种图像聚档方法、图像聚档装置和计算机可读存储介质 | |
CN116186611A (zh) | 一种不平衡数据的分类方法、装置、终端设备及介质 | |
CN114549910B (zh) | 基于干净数据集与关键特征检测的噪声识别方法 | |
CN116030538A (zh) | 弱监督动作检测方法、系统、设备及存储介质 | |
CN110570025A (zh) | 一种微信文章真实阅读率的预测方法、装置及设备 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN112784008B (zh) | 案件相似度确定方法及装置、存储介质、终端 | |
CN111858275B (zh) | 一种异常媒体行为的识别方法、装置、设备及存储介质 | |
CN115187884A (zh) | 一种高空抛物识别方法、装置、电子设备及存储介质 | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
CN109145207B (zh) | 一种基于分类指标预测的信息个性化推荐方法及装置 | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN114969738B (zh) | 一种接口异常行为监测方法、系统、装置及存储介质 | |
CN106909894B (zh) | 车辆品牌型号识别方法和系统 | |
CN116910523A (zh) | 用户群分类方法、装置、设备及存储介质 | |
CN104992436A (zh) | 一种自然场景中的图像分割方法 | |
CN110598125A (zh) | 一种评估关键意见领袖投入的方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210105 Address after: A108, 1 / F, curling hall, winter training center, 68 Shijingshan Road, Shijingshan District, Beijing 100041 Applicant after: Beijing second hand Artificial Intelligence Technology Co.,Ltd. Address before: 100080 area C, 3rd floor, building 2, zone B, Dongsheng Science Park, Zhongguancun, Haidian District, Beijing Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191213 |
|
RJ01 | Rejection of invention patent application after publication |