CN114842382A - 一种生成视频的语义向量的方法、装置、设备及介质 - Google Patents

一种生成视频的语义向量的方法、装置、设备及介质 Download PDF

Info

Publication number
CN114842382A
CN114842382A CN202210467951.4A CN202210467951A CN114842382A CN 114842382 A CN114842382 A CN 114842382A CN 202210467951 A CN202210467951 A CN 202210467951A CN 114842382 A CN114842382 A CN 114842382A
Authority
CN
China
Prior art keywords
video
user behavior
trained
frame sequence
preset model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210467951.4A
Other languages
English (en)
Inventor
胡焜
彭冲
程兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202210467951.4A priority Critical patent/CN114842382A/zh
Publication of CN114842382A publication Critical patent/CN114842382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种生成视频的语义向量的方法、装置、设备及介质,涉及视频处理技术领域,旨在生成可解释性和准确性较高的视频的语义向量。所述方法包括:获取样本视频以及所述样本视频的用户行为日志;对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。

Description

一种生成视频的语义向量的方法、装置、设备及介质
技术领域
本申请涉及视频处理技术领域,特别是涉及一种生成视频的语义向量的方法、装置、设备及介质。
背景技术
视频的语义向量是表征视频的内容信息的向量,相当于对视频进行了量化。视频的语义向量在视频推荐等视频相关业务方面,具有重要的意义。
视频推荐场景中,推荐模型通常没有充分利用视频的内容信息,缺乏对视频进行有效的语义表征。在此场景中想要获取视频的语义向量,通常是将推荐模型的中间层的输出作为视频的语义向量。然而此种方法可能会导致抽取的视频的语义向量可解释性和准确性不高。
发明内容
鉴于上述问题,本发明实施例提供了一种生成视频的语义向量的方法、装置、设备及介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,提供了一种生成视频的语义向量的方法,所述方法包括:
获取样本视频以及所述样本视频的用户行为日志;
对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
可选地,对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值,还包括:
根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
可选地,将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量,包括:
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
可选地,所述方法还包括:
对所述样本视频的视频帧序列进行强数据增强和弱数据增强,分别得到强视频帧序列和弱视频帧序列;
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量,包括:
将所述多种用户行为指标的统计值和所述弱视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
将所述强视频帧序列和所述弱视频帧序列,输入所述待训练的预设模型,得到所述待训练的预设模型输出的所述强视频帧序列和所述弱视频帧序列各自的语义向量;
根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
所述弱视频帧序列的语义向量和所述弱视频帧序列的语义向量,得到第二损失函数值;
根据所述第一损失函数值和所述第二损失函数值,对所述待训练的预设模型的模型参数进行更新。
可选地,所述待训练的预设模型包括:向量生成模块、串联于所述向量生成模块之后的指标预测模块,串联于所述向量生成模块之后且与所述指标预测模块平行设置的自监督模块,所述指标预测模块用于输出所述多种用户行为指标的预测值,所述自监督模块用于输出所述强视频帧序列和所述弱视频帧序列各自的语义向量;在所述待训练的预设模型训练完毕之后,所述方法还包括:
将训练完毕的向量生成模块作为语义向量生成模型;
获取目标视频;
将所述目标视频输入所述语义向量生成模型,得到所述语义向量生成模型输出的所述目标视频的语义向量。
本发明实施例的第二方面,提供了一种生成视频的语义向量的装置,所述装置包括:
样本视频获取模块,用于获取样本视频以及所述样本视频的用户行为日志;
统计值获取模块,用于对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;
语义向量获取模块,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
可选地,在对所述用户行为日志进行分析,得到所述样本视频的用户行为指标的统计值之前,所述装置还包括:
行为指标确定模块,用于根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
可选地,所述语义向量获取模块包括:
预测值获取单元,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
第一损失函数生成单元,用于根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
模型参数更新单元,用于根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例公开的所述的生成视频的语义向量的方法。
本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例公开的所述的生成视频的语义向量的方法。
本发明实施例包括以下优点:
本发明实施例中,通过获取样本视频以及所述样本视频的用户行为日志;对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。如此,利用视频帧序列对预设模型进行训练,使预设模型充分利用了视频的内容信息,输出的视频的语义向量可解释性强;同时还利用多种用户行为指标的统计值对模型进行训练,避免了单一用户行为指标的统计值可能不够准确以及用户行为指标太过单一对训练好的模型性能造成的妨碍,使模型输出的视频的语义向量更加准确。此外,利用多种用户行为指标的统计值对模型进行训练,有助于下游在使用视频的语义向量进行与用户行为指标有关的任务时,使用的视频的语义向量和预设模型生成的视频的语义向量比较匹配。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种生成视频的语义向量的方法的步骤流程图;
图2是本发明实施例中待训练的预设模型的结构示意图;
图3是本发明实施例中语义向量生成模型的结构示意图;
图4是本发明实施例中一种生成视频的语义向量的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为解决相关技术中抽取的视频的语义向量可解释性和准确性不高的技术问题,申请人提出:利用多种用户行为指标的统计值和视频的视频帧序列对模型进行训练,使训练好的模型输出的视频的语义向量具有较高的可解释性和准确性。
需要说明的是,本申请实施例提出的生成视频的语义向量的方法不仅适用于视频推荐场景中,还适用于其他场景中。生成的视频的语义向量,不仅可以用于进行视频推荐,还可以用于视频检索、视频识别、视频分类、视频召回、视频排序等多种视频相关的业务中。
参照图1所示,示出了本发明实施例中一种生成视频的语义向量的方法的步骤流程图,如图1所示,该生成视频的语义向量的方法具体可以包括以下步骤:
步骤S11:获取样本视频以及所述样本视频的用户行为日志。
样本视频是指用于训练预设模型的视频。样本视频的用户行为日志记录了关于样本视频的各种用户行为,包括用户对样本视频的搜索行为、浏览行为、浏览时长、点击行为、播放行为、播放时长等。其中,样本视频的用户行为日志可以是记录了所有时间段的用户行为,也可以是记录了所需的时间段中的用户行为。
步骤S12:对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值。
对样本视频的用户行为日志进行分析,可以得到样本视频的多种用户行为指标的统计值,多种用户行为指标可以包括平均停留时长、固定秒数留存率、播放率超过固定阈值的用户比率等。
一个视频的平均停留时长是指看过该视频的用户在该视频上停留的时长与看过该视频的用户的数量的比值;一个视频的固定秒数留存率是指在该视频上停留的时长超过固定秒数的用户与看过该视频的用户的数量的比值;一个视频的播放率超过固定阈值的用户比率是指播放该视频的时长与该视频的总时长之比超过固定阈值的用户与看过该视频的用户的数量的比值。
步骤S13:将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
提取样本视频的视频帧序列,将样本视频的视频帧序列以及多种用户行为指标的统计值输入待训练的预设模型,预设模型提取视频帧序列的特征,根据视频帧序列的特征输出样本视频的语义向量;以多种用户行为指标的统计值作为优化目标,对预设模型进行训练,可以得到训练好的预设模型。训练好的预设模型是用于生成视频的语义向量的模型,将视频输入训练好的预设模型,可以得到视频的语义向量。
采用本申请实施例的技术方案,通过获取样本视频以及所述样本视频的用户行为日志;对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。如此,利用视频帧序列对预设模型进行训练,使预设模型充分利用了视频的内容信息,输出的视频的语义向量可解释性强;同时还利用多种用户行为指标的统计值对模型进行训练,避免了单一用户行为指标的统计值可能不够准确以及用户行为指标太过单一对训练好的模型性能造成的妨碍,使模型输出的视频的语义向量更加准确。此外,利用多种用户行为指标的统计值对模型进行训练,有助于下游在使用视频的语义向量进行与用户行为指标有关的任务时,使用的视频的语义向量和预设模型生成的视频的语义向量比较匹配。
可选地,在上述技术方案的基础上,在对所述用户行为日志进行分析,得到所述样本视频的用户行为指标的统计值之前,还包括:根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
为了使生成的视频的语义向量和下游任务所需的视频的语义向量对齐,可以根据下游任务需求的用户行为信息确定需要获取的样本视频的用户行为指标,样本视频的应用端是执行下游任务的终端或服务器。
例如,样本视频的应用端是进行视频点击率排序和搜索量排序的终端,因为样本视频的应用端执行的业务是对视频点击率和搜索量进行排序,因此在利用样本视频的用户行为指标的统计值对预设模型进行训练时,就可以采用视频点击率和搜索量对预设模型进行训练。
如此,训练好的预设模型生成的视频的语义向量和视频的应用端执行的业务所需的视频的语义向量更加一致,利用训练好的预设模型生成的视频的语义向量进行下游任务时,可以提升下游任务的准确性,避免了下游任务使用的语义向量和预设模型生成的语义向量之间的语义鸿沟。
可选地,在上述技术方案的基础上,利用多种用户行为指标的统计值和样本视频的视频帧序列对模型进行训练,可以包括如下步骤:将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
将多种用户行为指标的统计值和样本视频的视频帧序列,输入待训练的预设模型,待训练的预设模型提取视频帧序列的特征,根据视频帧序列的特征确定样本视频的语义向量,以及根据视频帧序列的特征确定与多种用户行为指标的统计值相对应的预测值。
待训练的预设模型中包括一个MMOE(Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts,多任务学习)模块,利用MMOE可以避免多个用户行为指标的统计值之间相互干扰对模型训练造成的影响。
待训练的预设模型的MMOE模块之后连接了多个双层MLP(MultilayerPerceptron,多层感知器)模块,每个双层MLP模块可以预测一种用户行为指标的预测值。MMOE模块之后连接的双层MLP模块的个数与使用的用户行为指标的统计值的种类的数目一致。
根据多种用户行为指标的统计值和对应的预测值之间的差异,建立第一损失函数,得到第一损失函数值。以最小化多种用户行为指标的统计值和对应的预测值之间的差异为目标,基于第一损失函数值对预设模型进行训练,更新预设模型的参数,得到训练好的预设模型。训练好的预设模型是用于生成视频的语义向量的模型,将视频输入训练好的预设模型,可以得到视频的语义向量。
可选地,在上述技术方案的基础上,为了是预设模型具备一定的是可解释性,同时起到一定的正则化的作用,还可以采用自监督学习方法作为预设模型的辅助训练。
对样本视频的视频帧序列进行强数据增强和弱数据增强,分别得到强视频帧序列和弱视频帧序列。其中,弱数据增强可以是对视频帧进行空间上的随机裁剪、随机左右翻转、统一缩放到固定尺度等;强数据增强可以是对视频帧进行空间上的随机裁剪、时间上的随机裁剪(即对视频随机选取一个播放起点)、随机左右翻转、颜色随机增强(包括亮度、对比度、饱和度等)、随机进行灰度处理、随机进行高斯模糊等。
将弱视频帧序列、强视频帧序列和多种用户行为指标的统计值输入待训练的预设模型。待训练的预设模型的向量生成模块根据弱视频帧序列和强视频帧序列分别生成弱视频帧序列的语义向量Fw和强视频帧序列的语义向量Fs。预设模型的指标预测模块根据弱视频帧序列的语义向量Fw预测多种用户行为指标的预测值,并根据多种用户行为指标的预测值和对应的统计值之间的差异,得到第一损失函数值。考虑到根据强视频帧序列和样本视频的视频帧序列之间差异过大,利用强视频帧序列预测的多种用户行为指标的预测值反映样本视频的的用户行为指标的预测值是不准确的,因此不使用强视频帧序列预测多种用户行为指标的预测值。
待训练的预设模型的自监督模块,根据弱视频帧序列的语义向量和强视频帧序列的语义向量,分别得到弱视频帧序列和强视频帧序列用于自监督学习的语义向量,包括弱视频帧序列的弱自监督语义向量和强视频帧序列的强自监督语义向量。根据自监督学习的弱自监督语义向量和强自监督语义向量之间的差异,建立第二损失函数,得到第二损失函数值。
基于第一损失函数值和第二损失函数值,对所述待训练的预设模型的模型参数进行更新,得到训练好的预设模型。
采用本申请实施例的技术方案,在利用了第一损失函数值对模型进行训练之外,还采用第二损失函数值对模型进行了辅助训练,使训练好的预设模型具有更加优良的性能。
可选地,在上述技术方案的基础上,图2示出了待训练的预设模型的结构示意图,待训练的预设模型包括向量生成模块、串联于所述向量生成模块之后的指标预测模块,串联于所述向量生成模块之后且与所述指标预测模块平行设置的自监督模块,所述指标预测模块用于输出所述多种用户行为指标的预测值,所述自监督模块用于输出所述强视频帧序列和所述弱视频帧序列各自的语义向量。其中,指标预测模块可以包括前文所述的MMOE模块和多个双层MLP模块;自监督模块可以包括两个权重共享的双层MLP模块。基于指标预测模块输出的多种用户行为指标的预测值和输入待训练的预设模型的多种用户行为指标的统计值可以建立第一损失函数值,基于自监督模块输出的强视频帧序列和弱视频帧序列各自的用于自监督学习的语义向量可以建立第二损失函数值。
预设模型在训练过程中,会逐步对向量生成模块中的模型参数进行更新,训练完毕后的预设模型中可以去除指标预测模块和自监督模块,将训练完毕的向量生成模块作为语义向量生成模型。图3示出了语义向量生成模型的结构示意图。将视频的视频帧序列输入语义向量生成模型,可以得到语义向量生成模型输出的视频的语义向量。
可选地,可以在语义向量生成模型中增加一个视频帧提取模块,直接将视频输入语义向量生成模型,视频帧提取模块提取视频的视频帧序列,向量生成模块根据视频帧提取模块提取的视频帧序列生成视频的语义向量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图4是本发明实施例的一种生成视频的语义向量的装置的结构示意图,如图4所示,一种生成视频的语义向量的装置,包括样本视频获取模块、统计值获取模块和语义向量获取模块,其中:
样本视频获取模块,用于获取样本视频以及所述样本视频的用户行为日志;
统计值获取模块,用于对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;
语义向量获取模块,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
可选地,作为一个实施例,在对所述用户行为日志进行分析,得到所述样本视频的用户行为指标的统计值之前,所述装置还包括:
行为指标确定模块,用于根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
可选地,作为一个实施例,,所述语义向量获取模块包括:
预测值获取单元,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
第一损失函数生成单元,用于根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
模型参数更新单元,用于根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
可选地,作为一个实施例,所述装置还包括:
增强模块,用于对所述样本视频的视频帧序列进行强数据增强和弱数据增强,分别得到强视频帧序列和弱视频帧序列;
所述语义向量获取模块包括:
预测值得到单元,用于将所述多种用户行为指标的统计值和所述弱视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
序列语义向量得到单元,用于将所述强视频帧序列和所述弱视频帧序列,输入所述待训练的预设模型,得到所述待训练的预设模型输出的所述强视频帧序列和所述弱视频帧序列各自的语义向量;
第一损失函数得到单元,用于根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
第二损失函数得到单元,用于所述弱视频帧序列的语义向量和所述弱视频帧序列的语义向量,得到第二损失函数值;
模型更新单元,用于根据所述第一损失函数值和所述第二损失函数值,对所述待训练的预设模型的模型参数进行更新。
可选地,作为一个实施例,所述待训练的预设模型包括:向量生成模块、串联于所述向量生成模块之后的指标预测模块,串联于所述向量生成模块之后且与所述指标预测模块平行设置的自监督模块,所述指标预测模块用于输出所述多种用户行为指标的预测值,所述自监督模块用于输出所述强视频帧序列和所述弱视频帧序列各自的语义向量;在所述待训练的预设模型训练完毕之后,所述装置还包括:
模型生成模块,用于将训练完毕的向量生成模块作为语义向量生成模型;
视频获取模块,用于获取目标视频;
语义向量生成模块,用于将所述目标视频输入所述语义向量生成模型,得到所述语义向量生成模型输出的所述目标视频的语义向量。
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
本发明实施例还提供了一种电子设备,包括处理器、存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例公开的生成视频的语义向量的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现本申请实施例公开的生成视频的语义向量的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种生成视频的语义向量的方法、装置、设备及介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种生成视频的语义向量的方法,其特征在于,所述方法包括:
获取样本视频以及所述样本视频的用户行为日志;
对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
2.根据权利要求1所述的方法,其特征在于,对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值,还包括:
根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
3.根据权利要求1所述的方法,其特征在于,将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量,包括:
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述样本视频的视频帧序列进行强数据增强和弱数据增强,分别得到强视频帧序列和弱视频帧序列;
将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量,包括:
将所述多种用户行为指标的统计值和所述弱视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
将所述强视频帧序列和所述弱视频帧序列,输入所述待训练的预设模型,得到所述待训练的预设模型输出的所述强视频帧序列和所述弱视频帧序列各自的语义向量;
根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
所述弱视频帧序列的语义向量和所述弱视频帧序列的语义向量,得到第二损失函数值;
根据所述第一损失函数值和所述第二损失函数值,对所述待训练的预设模型的模型参数进行更新。
5.根据权利要求1-4任一所述的方法,其特征在于,所述待训练的预设模型包括:向量生成模块、串联于所述向量生成模块之后的指标预测模块,串联于所述向量生成模块之后且与所述指标预测模块平行设置的自监督模块,所述指标预测模块用于输出所述多种用户行为指标的预测值,所述自监督模块用于输出所述强视频帧序列和所述弱视频帧序列各自的语义向量;在所述待训练的预设模型训练完毕之后,所述方法还包括:
将训练完毕的向量生成模块作为语义向量生成模型;
获取目标视频;
将所述目标视频输入所述语义向量生成模型,得到所述语义向量生成模型输出的所述目标视频的语义向量。
6.一种生成视频的语义向量的装置,其特征在于,所述装置包括:
样本视频获取模块,用于获取样本视频以及所述样本视频的用户行为日志;
统计值获取模块,用于对所述用户行为日志进行分析,得到所述样本视频的多种用户行为指标的统计值;
语义向量获取模块,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述样本视频的语义向量。
7.根据权利要求6所述的装置,其特征在于,在对所述用户行为日志进行分析,得到所述样本视频的用户行为指标的统计值之前,所述装置还包括:
行为指标确定模块,用于根据所述样本视频的应用端需求的用户行为信息,确定所述样本视频的多种用户行为指标。
8.根据权利要求6所述的装置,其特征在于,所述语义向量获取模块包括:
预测值获取单元,用于将所述多种用户行为指标的统计值和所述样本视频的视频帧序列,输入待训练的预设模型,得到所述待训练的预设模型输出的所述多种用户行为指标的预测值;
第一损失函数生成单元,用于根据所述多种用户行为指标的统计值和对应的预测值,得到第一损失函数值;
模型参数更新单元,用于根据所述第一损失函数值,对所述待训练的预设模型的模型参数进行更新。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的生成视频的语义向量的方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的生成视频的语义向量的方法。
CN202210467951.4A 2022-04-29 2022-04-29 一种生成视频的语义向量的方法、装置、设备及介质 Pending CN114842382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210467951.4A CN114842382A (zh) 2022-04-29 2022-04-29 一种生成视频的语义向量的方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210467951.4A CN114842382A (zh) 2022-04-29 2022-04-29 一种生成视频的语义向量的方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114842382A true CN114842382A (zh) 2022-08-02

Family

ID=82568596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210467951.4A Pending CN114842382A (zh) 2022-04-29 2022-04-29 一种生成视频的语义向量的方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114842382A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619882A (zh) * 2022-09-29 2023-01-17 清华大学 一种视频的压缩方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619882A (zh) * 2022-09-29 2023-01-17 清华大学 一种视频的压缩方法
CN115619882B (zh) * 2022-09-29 2024-02-13 清华大学 一种视频的压缩方法

Similar Documents

Publication Publication Date Title
CN110267119B (zh) 视频精彩度的评价方法及相关设备
EP3340129B1 (en) Artificial neural network class-based pruning
CN112860943A (zh) 一种教学视频审核方法、装置、设备及介质
CN112231275A (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111090756A (zh) 基于人工智能的多目标推荐模型的训练方法及装置
CN110263869B (zh) 一种Spark任务的时长预测方法及装置
CN111209477A (zh) 一种信息推荐的方法及装置、电子设备、存储介质
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN112183289A (zh) 一种花屏检测方法、装置、设备及介质
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN111241381A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN117409419A (zh) 图像检测方法、设备及存储介质
CN114842382A (zh) 一种生成视频的语义向量的方法、装置、设备及介质
CN113297486B (zh) 一种点击率预测方法及相关装置
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110909005A (zh) 一种模型特征分析方法、装置、设备及介质
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN115774784A (zh) 一种文本对象的识别方法及装置
CN114880458A (zh) 书籍推荐信息的生成方法、装置、设备及介质
CN115858911A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN113297417B (zh) 视频推送方法、装置、电子设备和存储介质
CN110489592B (zh) 视频分类方法、装置、计算机设备和存储介质
CN114328995A (zh) 内容推荐方法、装置、设备及存储介质
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination