CN114647785A - 基于情感分析的短视频获赞数量预测方法 - Google Patents

基于情感分析的短视频获赞数量预测方法 Download PDF

Info

Publication number
CN114647785A
CN114647785A CN202210317169.4A CN202210317169A CN114647785A CN 114647785 A CN114647785 A CN 114647785A CN 202210317169 A CN202210317169 A CN 202210317169A CN 114647785 A CN114647785 A CN 114647785A
Authority
CN
China
Prior art keywords
praise
short video
data
tree
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210317169.4A
Other languages
English (en)
Inventor
王伟东
孙承先
朱宏途
付添翼
龚厚骅
温智翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210317169.4A priority Critical patent/CN114647785A/zh
Publication of CN114647785A publication Critical patent/CN114647785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于情感分析的短视频获赞数量预测方法属于信息预测领域。本发明内容中,数据模型、计算与推理模型两个核心组件部署在点赞量预估装置中,通过数据库接口组件访问短视频平台服务器获取数据,点赞预估结果保存在点赞量数据服务器中,远程访问计算机通过访问点赞量数据服务器获取数据。完成对短视频封面图片理解和短视频文案的理解,将其结果作为特征向量或特征集的理解。同时,利用梯度提升决策树机器学习算法,减小了计算量,从而提高了点赞量预估的效率。将视频博主名、短视频标签数据嵌入特征集,用于训练模型,从而提高了点赞量预估的准确率。

Description

基于情感分析的短视频获赞数量预测方法
技术领域
本申请属于信息预测领域,尤其是短视频点赞量的预估方法、未投放的短视频点赞量预估领域。
背景技术
短视频是互联网的商业模式之一,在推动乡村旅游发展,农产品直播带货、社会热点快速传递、公益教育、广告创意、商业推广的方面有着重要的作用。短视频的点赞量体现了视频质量和受欢迎的程度。视频创作者若能提前预判短视频的点赞量,则能帮助他们持续改进自己的视频,创作出更加优质的视频,从而吸引更多流量。另一方面,短视频平台的广告投放者如果能够提前预估视频创作者将获得的点赞量,那么有助于帮助广告投放者减少风险,节约成本,提高经济效益。因此,点赞量是信息预测领域和机器学习等领域研究的热点问题。
视频的点赞量预估,通常是视频播放后或观看的过程中点赞。视频平台的管理者理论上需要观看所有短视频,或者由机器读取视频内容,该项任务艰巨且代价非常巨大。现有短视频点赞量预估的方法有两种。一种方法是利用比较传统的视频理解神经网络模型,例如YOLO,这种视频理解技术计算量非常大、耗时太长。另一种方法是利用昂贵的硬件比如GPU和FPGA完成点赞量预估模型的深度神经网络的实时计算,但是这种方法的花费成本巨大,性价比太低。
发明内容
为克服相关技术中存在的点赞量预估准确率低和实时性差的问题,本申请公开一种短视频点赞量的预估方法,完成对短视频封面图片理解和短视频文案的理解,将其结果作为特征向量或特征集的理解。同时,利用梯度提升决策树机器学习算法,减小了计算量,从而提高了点赞量预估的效率。将视频博主名、短视频标签数据嵌入特征集,用于训练模型,从而提高了点赞量预估的准确率。
本申请提出了一种基于情感分析的短视频获赞数量预测方法及系统,如图1所示,包括数据模型、计算与推理模型、点赞量预估硬件装置三个部分。
1)数据模型
一般地,一个短视频除视频本身外还包含与短视频相关的文案、封面图片、点赞数、视频博主名组成。这里提取和建立短视频历史特征集,包括封面图片、文案、点赞数、视频博主的名字和标签,提取上述特征构建数据模型如图2所示:
进一步地,建立用户观看短视频后的情感反馈矩阵,把历史特征集作输入利用情感分析技术计算用户观后对应的“积极-消极”向量,称作点赞态度向量V1。
进一步地,建立领域短视频的封面图片“刺激-平静”维度的向量,通过Softmax网络分类器对大量未知图片进行分类,将分类结果进行Softmax处理,获得概率矩阵,称为点赞情绪向量V2。
接着,提取文案中代表性标签(含博主名)作处理。为方便编码,这里使用同一种语言的标签,并进行one-hot编码,把不同的含博主名的标签转换成不同的列向量,作为代表性标签向量V3。
进一步地,将上述三个矩阵或向量,即点赞态度向量V1、点赞情绪向量V2、代表性标签向量V3,线性排列并合成一个点赞量参数矩阵V。
V={V1|V2|V3}={v1,v2,......,vm}T
(V为V1、V2、V3矩阵拼成一个点赞参数矩阵)
接着,将连续的点赞量数值按照公式(1)进行二分类处理,完成二值化,如下所示:
Figure BDA0003569271650000021
(k为选定的点赞量数阈值,k值根据实际经验获取,默认取值为可获取的样本平均点赞数量向上取整)
最后,结合二值化数值矩阵Y,获取点赞量数据模型R,如公式2所示:
R={(V,Y)}={(v1,y1),(v2,y2),……,(vm,ym)}T,vi∈V,yi∈Y (2)
2)计算与推理模型
如图3所示,在大规模获取点赞相关数据后,经过数据模型R处理,作为计算模型的输入数据。根据点赞数据特征,通过构建计算模型获取点赞量。如图4所示,分为以下几个步骤:
步骤一(S1):分类回归树初始化。设置模型主要参数,即学习率、迭代次数和树的深度,初始化分类回归树。根据经验法取值,学习率设置为0.02、迭代次数设置为370,树的深度设置为8,叶子数量设置为164。
步骤二(S2):回归树拟合。根据逻辑回归对数损失函数计算负梯度,并根据梯度提升算法,利用损失函数的负梯度值利用回归提升树算法中的负梯度近似值,拟合一个回归树。
步骤三(S3),回归树获取。将负梯度作为标签,即将点赞参数矩阵V和二值化数值矩阵Y组合为因果变量,用以训练初始化后的回归树。
步骤四(S4):回归树优化。寻找回归树的最佳划分节点,即遍历每个特征的每个可能取值,分别计算分裂后两组数据的平方损失,找到使平方损失和最小的那个划分节点,即为最佳划分节点。
根据生长树的生长条件,继续进行多次划分,直到达到预设的生长树深度。同时,对每棵树的每个叶子节点分别赋一个参数进而拟合负梯度。
最后,更新回归树分类器以避免过拟合,重复以上步骤,即可得到所有生成树,进而得到用户点赞量预估模型。
3)上图根据实施例示出的一种用于上述短视频点赞量的预估方法的预估装置的框图。如图5所示,装置包括以下一个或多个部分:处理组件,存储器,以及通信组件。
通信组件被配置为便于装置和其他处理组件通常作为装置的内部和外部操作的计算。处理组件可以包括一个或多个处理器来运算和执行指令。
各个组件之间采用有线或无线方式的通信,比如装置可以接入基于标准通信协议的广域网络,如HTTP,运营商网络,如5G网络或它们之间组合。在一个示例性实施例中,通信组件经由HTTP方式接入短视频平台服务器并通过爬虫技术获得数据。
存储器被定义为存储各类型数据以及支持存储行为的操作。存储器可以由任何类型的易失性或非易失性存储单元或者它们之间的组合构成。在一个示例性实施例中,存储器中存放了爬取开放视频服务器(开放数据接口)获得数据及其所对应的表格、数据库、训练模型。根据图6所示,本发明内容中,数据模型、计算与推理模型两个核心组件部署在点赞量预估装置中,通过数据库接口组件访问短视频平台服务器获取数据,点赞预估结果保存在点赞量数据服务器中,远程访问计算机通过访问点赞量数据服务器获取数据。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明表示获赞数量预测方法及装置示意图。
图2为本发明表示系统的数据模型图。
图3为本发明表示系统模型的数据流图。
图4为本发明表示基于本发明方法的计算与推理模型流程图。
图5为本发明表示示例性点赞量预估硬件装置图。
图6为本发明表示短视频点赞量预估系统部署图。
具体实施方式
1)数据模型建立。通过爬虫技术爬取抖音网页版关于医疗领域的短视频的相关数据信息。共爬取8000条。将点赞态度向量的取值范围设定在0-1,将大于等于0.5的数据标记为“积极”向量,小于0.5的数据标记为“消极”向量,得到点赞态度向量V1。根据图片主体内容,使用神经网络将图片分为4类,分别为人、图片、其他,每类对应不同的点赞情绪向量。得出每一张图片对应这四类情况的概率,总和为1,得到点赞情绪向量V2。将标签和博主名进行one-hot编码,把不同的含博主名的标签转换成不同的列向量,得到代表性标签向量V3。将k设置为10000,对连续的点赞量数值按照公式(1)进行二分类处理,即将点赞量大于10000的数据标记为1,其余标记为0,完成二值化,得到Y。接着,将上述三个矩阵或向量,即点赞态度向量V1、点赞情绪向量V2、代表性标签向量V3,线性排列并合成一个点赞量参数矩阵V。最后,结合二值化数值矩阵Y,根据公式(2)获取点赞量数据模型R。
2)计算与推理模型建立。在大规模获取点赞相关数据后,经过数据模型R处理,作为计算模型的输入数据。根据点赞数据特征,通过构建计算模型获取点赞量。首先,根据经验法取值,学习率设置为0.02、迭代次数设置为370,树的深度设置为8,叶子数量设置为164。再者,利用损失函数的负梯度值利用回归提升树算法中的负梯度近似值,拟合一个回归树。然后将负梯度作为标签,即将点赞参数矩阵V和二值化数值矩阵Y组合为因果变量,用以训练初始化后的回归树。接着,遍历每个特征的每个可能取值,分别计算分裂后两组数据的平方损失,找到使平方损失和最小的那个划分节点,作为最佳划分节点。最后,重复以上步骤,进而得到用户点赞结果分类。
3)点赞量预测结果评估。将待预测视频的封面图片、文案、标签(含博主名)依照数据模型中的方法获得点赞量参数矩阵V、二值化数值矩阵Y,进而获得点赞量数据模型R。调整输入的数据样本类型,可以获得多个数据模型R,例如放入全部数据类型的数据模型R1,在点赞量预估装置里调整输入的数据样本类型,预测结果显示平均准确率达到70%以上。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由本申请的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
进一步地,对本发明所揭示的技术方案的技术构思进行说明。
以下结合附图,详细说明本申请各实施例提供的技术方案。
表1为本发明实施例中包含部分数据的样本模型。
Figure BDA0003569271650000051

Claims (1)

1.基于情感分析的短视频获赞数量预测方法,其特征在于,包括以下步骤:
1)获取点赞量数据模型
一个短视频除视频本身外还包含与短视频相关的文案、封面图片、点赞数、视频博主名组成;这里提取和建立短视频历史特征集,包括封面图片、文案、点赞数、视频博主的名字和标签;
建立用户观看短视频后的情感反馈矩阵,把历史特征集作输入利用情感分析技术计算用户观后对应的“积极-消极”向量,称作点赞态度向量V1;
建立领域短视频的封面图片“刺激-平静”维度的向量,通过Softmax网络分类器对大量未知图片进行分类,将分类结果进行Softmax处理,获得概率矩阵,称为点赞情绪向量V2;
提取文案中代表性标签含博主名作处理;为方便编码,这里使用同一种语言的标签,并进行one-hot编码,把不同的含博主名的标签转换成不同的列向量,作为代表性标签向量V3;
将上述三个矩阵或向量,即点赞态度向量V1、点赞情绪向量V2、代表性标签向量V3,线性排列并合成一个点赞量参数矩阵V;
V={V1|V2|V3}={v1,v2,......,vm}T
V为V1、V2、V3矩阵拼成一个点赞参数矩阵;
将连续的点赞量数值按照公式(1)进行二分类处理,完成二值化,如下所示:
Figure FDA0003569271640000011
k为选定的点赞量数阈值,k为可获取的样本平均点赞数量向上取整;
最后,结合二值化数值矩阵Y,获取点赞量数据模型R,如公式2所示:
R={(V,Y)}={(v1,y1),(v2,y2),......,(vm,ym)}T,vi∈V,yi∈Y (2)
2)计算与推理
在获取点赞相关数据后,经过数据模型R处理,作为计算模型的输入数据;根据点赞数据特征,通过构建计算模型获取点赞量;分为以下几个步骤:
步骤一(S1):分类回归树初始化;设置模型主要参数,即学习率、迭代次数和树的深度,初始化分类回归树;根据经验法取值,学习率设置为0.02、迭代次数设置为370,树的深度设置为8,叶子数量设置为164;
步骤二(S2):回归树拟合;根据逻辑回归对数损失函数计算负梯度,并根据梯度提升算法,利用损失函数的负梯度值利用回归提升树算法中的负梯度近似值,拟合一个回归树;
步骤三(S3),回归树获取;将负梯度作为标签,即将点赞参数矩阵V和二值化数值矩阵Y组合为因果变量,用以训练初始化后的回归树;
步骤四(S4):回归树优化;寻找回归树的最佳划分节点,即遍历每个特征的每个可能取值,分别计算分裂后两组数据的平方损失,找到使平方损失和最小的那个划分节点,即为最佳划分节点;
根据生长树的生长条件,继续进行多次划分,直到达到预设的生长树深度;同时,对每棵树的每个叶子节点分别赋一个参数进而拟合负梯度;
更新回归树分类器以避免过拟合,重复以上步骤,即可得到所有生成树,进而得到用户点赞量预估模型。
CN202210317169.4A 2022-03-28 2022-03-28 基于情感分析的短视频获赞数量预测方法 Pending CN114647785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210317169.4A CN114647785A (zh) 2022-03-28 2022-03-28 基于情感分析的短视频获赞数量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210317169.4A CN114647785A (zh) 2022-03-28 2022-03-28 基于情感分析的短视频获赞数量预测方法

Publications (1)

Publication Number Publication Date
CN114647785A true CN114647785A (zh) 2022-06-21

Family

ID=81995035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210317169.4A Pending CN114647785A (zh) 2022-03-28 2022-03-28 基于情感分析的短视频获赞数量预测方法

Country Status (1)

Country Link
CN (1) CN114647785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216318A (zh) * 2023-09-11 2023-12-12 中国科学院软件研究所 一种基于博主增强的短视频推荐方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445970A (zh) * 2018-09-18 2019-03-08 北京工业大学 一种软件可靠性时间序列预测方法及应用
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN113268633A (zh) * 2021-06-25 2021-08-17 北京邮电大学 一种短视频推荐方法
WO2021179640A1 (zh) * 2020-03-10 2021-09-16 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445970A (zh) * 2018-09-18 2019-03-08 北京工业大学 一种软件可靠性时间序列预测方法及应用
WO2021179640A1 (zh) * 2020-03-10 2021-09-16 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN113268633A (zh) * 2021-06-25 2021-08-17 北京邮电大学 一种短视频推荐方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216318A (zh) * 2023-09-11 2023-12-12 中国科学院软件研究所 一种基于博主增强的短视频推荐方法及装置
CN117216318B (zh) * 2023-09-11 2024-05-28 中国科学院软件研究所 一种基于博主增强的短视频推荐方法及装置

Similar Documents

Publication Publication Date Title
WO2021063171A1 (zh) 决策树模型的训练方法、系统、存储介质及预测方法
WO2021159776A1 (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
Verdonck et al. Special issue on feature engineering editorial
CN105279146B (zh) 针对短不相关文本的检测的上下文感知方法
WO2020049384A1 (en) Sketch-based image retrieval techniques using generative domain migration hashing
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN110728541A (zh) 信息流媒体广告创意推荐方法及装置
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN106407381B (zh) 一种基于人工智能的推送信息的方法和装置
CN112040273B (zh) 视频合成方法及装置
CN109272332B (zh) 一种基于递归神经网络的客户流失预测方法
CN113657087B (zh) 信息的匹配方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113204659B (zh) 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN114330514B (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN110727864B (zh) 一种基于手机App安装列表的用户画像方法
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN114647785A (zh) 基于情感分析的短视频获赞数量预测方法
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN112069412A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN115860283A (zh) 基于知识工作者画像的贡献度预测方法及装置
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置
CN114821140A (zh) 基于曼哈顿距离的图像聚类方法、终端设备及存储介质
Yu et al. Computer Image Content Retrieval considering K‐Means Clustering Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination